WO2002017303A1 - Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen - Google Patents

Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen Download PDF

Info

Publication number
WO2002017303A1
WO2002017303A1 PCT/EP2001/009125 EP0109125W WO0217303A1 WO 2002017303 A1 WO2002017303 A1 WO 2002017303A1 EP 0109125 W EP0109125 W EP 0109125W WO 0217303 A1 WO0217303 A1 WO 0217303A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
speech signal
speech
filter coefficients
probability
Prior art date
Application number
PCT/EP2001/009125
Other languages
English (en)
French (fr)
Inventor
Peter Jax
Jürgen Schnitzler
Original Assignee
Infineon Technologies Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infineon Technologies Ag filed Critical Infineon Technologies Ag
Publication of WO2002017303A1 publication Critical patent/WO2002017303A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Definitions

  • the present invention relates to a method and a device for artificially expanding the bandwidth of speech signals.
  • Speech signals cover a wide frequency range, which roughly extends from the fundamental speech frequency, which is around 80 to 160 Hz depending on the speaker, to frequencies beyond 10 kHz.
  • the phone In voice communication via certain transmission media, e.g. However, for reasons of bandwidth efficiency, the phone only transmits a limited section, whereby a sentence intelligibility of approx. 98% is guaranteed.
  • a speech signal can be roughly divided into three frequency ranges, each of which is responsible for specific speech characteristics and subjective sensations:
  • this frequency range contains tonal components, ie in particular the fundamental speech frequency (f p ) and, depending on the voice position, possibly some harmonics.
  • the low frequencies are of crucial importance for the subjective feeling of volume and dynamics of a speech signal.
  • the basic speech frequency can be determined by a human listener due to the psychoacoustic property of the virtual pitch sensation even in the absence of the low frequencies from the harmonic perceive African structure in higher frequency ranges.
  • Medium frequencies in the range from 300 to 3400 Hz are consistently present in the speech signal during speech activity. Their time-variant spectral coloring through several formats as well as the temporal and spectral fine structure characterize the spoken sound / phoneme. In this way, the medium frequencies carry the main part of the information relevant for the intelligibility of the language.
  • High frequency components above about 3.4 kHz occur primarily during unvoiced sounds; they are particularly strong with sharp sounds such as / s / or / f /. Also positive sounds like / k / or / t / show a broad spectrum with strong high-frequency components. Accordingly, the signal in this upper frequency range has a more noise-like than tonal character.
  • the structure of the formants also available in this area is relatively time-invariant, but differs for different speakers.
  • the high frequency components are important for the naturalness, clarity and presence of a speech signal - without these components, the speech appears dull. Furthermore, these upper frequencies enable a better distinction between fricatives and consonants and thus ensure greater intelligibility.
  • the task of the sub-algorithm for expanding the residual signal is to generate a broadband excitation signal for the subsequent filter, which on the one hand is spectrally flat, but on the other hand also has a harmonic structure that matches the pitch frequency of the speech. While similar approaches are often chosen for the residual signal expansion, the paths diverge when adding the spectral envelope.
  • the parameters are fed in parallel into a number of linear so-called multiple input single output (MISO) filters.
  • MISO multiple input single output
  • the output of a single MISO filter represents the estimation of a broadband parameter; this estimate therefore depends on all narrow-band parameters.
  • the coefficients of the MISO filters are optimized in a training phase before the bandwidth expansion, e.g. according to a minimum mean squared error criterion. After all broadband parameters for the current signal frame have been estimated by MISO filters of their own, they can be used in a correspondingly converted form as coefficients of the LPC synthesis filter.
  • a second approach takes advantage of the limited number of sounds in a speech signal. It . a code book with representatives of the envelope forms of typical speech sounds is trained and stored. The expansion then compares which of the stored envelope forms is most similar to the current signal section. The most similar inputs Filter coefficients corresponding to the envelope are used as coefficients of the LPC synthesis filter.
  • the present invention has for its object to provide a method and an apparatus for artificially expanding the bandwidth of speech signals, which are able from a conventionally transmitted speech signal, e.g. only with telephone bandwidth available, with knowledge of the mechanisms of speech generation and perception, to generate a speech signal which subjectively has a larger bandwidth and thus also a better speech quality than the original signal, the transmission path itself not having to be modified for such a system.
  • the invention provides a method and a device for artificially expanding the bandwidth of speech signals according to claims 1 and 12, respectively.
  • the invention is based on the idea that for the analysis filtering and synthesis filtering identical filter coefficients can be used.
  • the basic structure of the algorithm for increasing the bandwidth according to the invention manages with only a single broadband code book which is trained in advance.
  • a major advantage of this algorithm is that the transfer functions of the analysis and synthesis filters can be exactly inverse to each other. This can increase the transparency of the system with regard to the baseband, i.e. of the frequency range in which components are already contained in the narrowband input signal are guaranteed. To do this, it is only necessary to ensure that the excitation components of the baseband are not modified by the residual signal expansion.
  • a non-ideal analysis filter in the sense of an optimal linear prediction has no effect on the baseband if the analysis and synthesis filters are exactly inverse to each other.
  • the Filterkoef ⁇ are coefficients for the analysis filtering and synthesis filtering determined by an algorithm from a code book trained in advance. It is important to determine the best-fitting code book entry for each section of the narrowband speech signal.
  • the sampled narrowband speech signal is in the frequency range 300 Hz to 3.4 kHz and the broadband speech signal is in the frequency range 50 Hz to 7 kHz. This represents an expansion tion of Te 'lefonbandbreite to wideband speech.
  • the algorithm for determining the filter coefficients has the following steps:
  • each code book entry being assigned a state of the hidden Markov model and a separate statistical model being trained for each state, which describes predetermined features of the narrowband speech signal as a function of the state;
  • the ascertained features can be any quantities that can be calculated from the narrowband speech signal, for example cepstral coefficients, frame energy, zero crossing rate etc. Because the features to be extracted from the narrowband speech signal can be freely selected, they can be very flexible Various properties of the narrowband speech signal can be used to extend the bandwidth. This enables a reliable estimate of the frequency components to be expanded.
  • At least one of the following probabilities is taken into account when comparing:
  • S_.) Is maximum is used to determine the filter coefficients.
  • the codebook entry for which the association probability p (X (m), S_.) Is maximum is used to determine the filter coefficients.
  • the spectral envelope is estimated directly by averaging all codebook entries weighted with the a posteriori probability p (S_.
  • the observation probability is represented by a Gaussian mixed model.
  • the bandwidth expansion is deactivated in predetermined speech sections. This is useful where an incorrect bandwidth expansion can be expected from the outset. This prevents the quality of the narrowband speech signal from e.g. deteriorated rather than improved by artifacts.
  • Figure 1 shows a simple autoregressive model of the process of voice generation and the transmission path.
  • FIG. 6 shows a comparison of the frequency responses of an acoustic front end and a post filter that was used for hearing tests with higher quality loudspeaker systems
  • Fig. 10 is an illustration for the subjective assessment of
  • the part that is located in front of the algorithm comprises the entire transmission path from the speaker to the received telephone device, ie in particular the microphone, and analog Digital converter and the transmission path between the telephone devices involved.
  • the useful signal is usually slightly distorted in the microphone.
  • the microphone signal contains, in addition to the speech signal, additional background noise, acoustic echoes, etc.
  • the voice signal is usually band-limited to the standardized frequency range from 300 Hz to 3400 Hz for multiplex lines.
  • the signal is transmitted using digital technology, it can ideally be assumed to be transparent (e.g. in the ISDN network). However, if the signal is coded for transmission, e.g. for a mobile radio link, both nonlinear distortions and additive quantization noise can occur. In this case, transmission errors also have a greater or lesser effect.
  • the voice signal is band limited. In the best case, the transmitted bandwidth extends up to a limit frequency of 4 kHz, but usually only up to about 3.4 kHz. The trimming of the bandwidth towards low frequencies depends on the transmission path and can in extreme cases take place at around 300 Hz.
  • additive background interference of various types can be expected in the input signal.
  • the speech signal can be more or less distorted. These distortions depend on the transmission path and can be both linear and non-linear in nature.
  • the output signal of the bandwidth expansion algorithm is essentially converted into analog, then passes through a power amplifier and is finally fed to an acoustic front end.
  • the digital-analog implementation can be assumed to be ideal as part of the bandwidth expansion.
  • the subsequent analog power amplifier can line and the signal ⁇
  • Speech signals to high frequencies are quite possible.
  • the properties of the loudspeaker should also be taken into account here, since it makes no sense to aim for an increase in bandwidth up to 8 kHz, for example, if the signal is attenuated by more than 20 dB at 7 kHz.
  • the bandwidth expansion is primarily aimed at a higher subjectively perceived voice quality.
  • the higher voice quality results in a correspondingly greater comfort for the user of the telephone.
  • Another goal is to increase speech intelligibility.
  • the baseband i.e. the frequency range already in
  • the synthetically added speech components must match the signal components present in the narrowband input signal. Compared to a corresponding broadband speech signal, strong signal distortions must not be generated in these frequency ranges. Such distortions also include changes in language material that make it difficult to identify the speaker.
  • the output signal may not contain any artificial sounding artifacts.
  • the algorithm should deactivate the bandwidth expansion so that the quality of the output signal is not deteriorated too much.
  • Bandwidth expansion is not feasible in all situations and for all signal types.
  • the possibilities are determined on the one hand by the nature of the physical environment and on the other hand by the properties of the signal source, i.e. limited to speech signals of the speech generation process.
  • Signal components that have been lost due to low or bandpass filtering of the broadband original signal e.g. acoustic effects such as reverberation or high-frequency background noise
  • acoustic effects such as reverberation or high-frequency background noise
  • a signal x (k) would be sampled at 8 kHz, while the signal y (k ') would be sampled at 16 kHz.
  • nb For signals for which the bandwidth is unique, this is identified by a subscript nb for narrowband or wb for broadband. It should be noted that narrowband signals (marked with nb) can also be combined with the high sampling rate f a -.
  • the starting point of the described embodiment of the invention is the algorithm by Carl (H. Carl, "Investigation of Different Methods of Speech Coding and an Application for Increasing the Bandwidth of Narrowband Speech Signals", Dissertation, Ruhr University Bochum, 1994).
  • Carl H. Carl, "Investigation of Different Methods of Speech Coding and an Application for Increasing the Bandwidth of Narrowband Speech Signals", Dissertation, Ruhr University Bochum, 1994.
  • AR autoregressive
  • the excitation signal x wb (** ') resulting from the first excitation generation part AE is spectrally flat according to the model and has a noise-like characteristic for unvoiced sounds, while it has a harmonic pitch structure for voiced sounds.
  • Filter 1 / A (z ') modeled. This filter imprints the rough spectral structure on the excitation signal x wb (&').
  • the time-variant speech signal s wh (k ') is created.
  • the transmission path is modeled by a simple time-invariant low-pass or bandpass filter TP with the transfer function HÜ S (Z ').
  • the input signal s nb (k) is first split into the two components excitation and spectral envelope shape. These two components can then be processed independently of one another, although the precise functioning of the sub-algorithms used for this purpose does not have to be defined at this point - a detailed description follows later.
  • the input signal can be split in different ways. Since the selected variants have different influences on the transparency of the system in the baseband, they are only compared in detail below.
  • the basic procedure is that the input signal is made spectrally flatter, ie "whiter", by an adaptive filter H (z).
  • H (z) After the estimate x nb (&) of the narrowband excitation signal calculated in this way has been spectrally expanded (residual signal expansion), it serves as the input signal of a spectral weighting filter H s (z '), with the help of which the now broadband residual signal x wb (/ V) is also used extended, ie broadband spectral envelope shape is impressed, as shown in Fig. 2.
  • a requirement for algorithms for bandwidth expansion is that signal components which are already present in the input signal, apart from a signal delay ⁇ , are not distorted or modified by the system, i.e. it should apply
  • the spectral envelope is to be expanded using a codebook method.
  • the mixing with the input signal will be described.
  • the first known variant according to FIG. 2 provides that the narrowband input signal s Db (k) is initially one
  • the filter coefficients & nb ⁇ ) of a non-recursive prediction filter A (z) are optimized for a speech frame s ⁇ [ ⁇ ) in such a way that the power of the output signal sj lb ) (> r) * a nb ( ⁇ :) of this prediction filter becomes minimal
  • nb ( ⁇ ) contains the information about the spectral envelope of the input signal.
  • the Levinson-Durbin algorithm is used to calculate the optimized filter coefficients & nb ( ⁇ ).
  • the filter coefficients A nb (z) determined by the LPC analysis LPCA serve as parameters for an inverse filter IR
  • the residual signal in the block residual signal extension RE and on the other hand the LPC coefficients spectrally expanded in the Envelope Extension EE block they can be input signals x wb (&') or parameters
  • the procedure has a rather negative effect on the baseband. Since, depending on the envelope extension, filter coefficients are used for the inverse filter H ⁇ (z) and the subsequent synthesis filter H s (z ') that are not ideally inverse to one another, the envelope shape in the baseband region is generally more or less distorted. If, for example, the envelope expansion is carried out by a code book, the output signal s ⁇ ') of the system in the baseband corresponds to a variant of the input signal s nb (), in which the envelope information was vector-quantized.
  • the bandwidth-widened signal as described above is freed of all frequency components which lie within the baseband by a band stop filter BS with the function H Bs (z ').
  • the band stop filter BS must therefore have a frequency response that is adapted to the characteristics of the transmission channel and thus the input signal, ie the transmission function should be as possible
  • the input signal is first narrowband ull massage by inserting 'and possibly a low-pass filtering to the increased sampling rate at the output of the system interpolated. Then a band pass filter BP with the function H B p (z ') in turn removes all signal components that lie outside the baseband, ie
  • the filter used in the interpolation can usually be omitted, since the anti-aliasing filtering can be performed by the bandpass BP.
  • the residual signal expansion block must work in such a way that, despite the increase in the sampling rate, the power of the baseband in the output signal corresponds exactly to the power of the input signal.
  • FIG. 3 shows the frequency responses of the associated inverse filter H ⁇ (z) and of the synthesis filter Hg (z ') for two different sounds (voiced and unvoiced) each within a coordinate system.
  • the filters are designed so that they only change the envelope shape.
  • FIG. 4 The block diagram of the resulting exemplary embodiment of the invention is illustrated in FIG. 4.
  • H ⁇ (z) are no longer specified by an LPC analysis of the input signal s nb (), but - like the parameters of the synthesis filter H s (z ') - by the envelope extension EE.
  • the two parameter sets A nb (z) and A wb (z ') can now be matched to one another, ie the quality of the inverse filtering is somewhat reduced at the expense of a better match of the frequency responses of the inverse and synthesis filters in the baseband.
  • a possible implementation can be, for example, the use of separate but separate code books for the parameters of the two filters. From both code books, only entries with identical index i are used at a time, which were correspondingly coordinated with one another during the training.
  • the purpose of coordinating the parameters of the filter pair H ⁇ (z) and H s (z ') is to provide a larger transparency in the baseband. to reach renz. Because the inverse and synthesis filters are now approximately inverse to one another in the baseband, errors which arise during the inverse filtering IF are eliminated again by the subsequent synthesis filter SF. As mentioned, however, the filter pairs are also not perfectly inverse to one another in this structure; slight differences cannot be avoided due to the different sampling rates at which the filters work, as well as the necessary different filter orders. The result is that the speech signal s wb (k ') is distorted in the baseband compared to the first variant.
  • band stop and band pass filters H B s (z ') and H BP (Z'), which were necessary in the first variant, are eliminated to ensure transparency in the baseband. They also eliminate the necessary computing power and the signal delay generated by the filters.
  • Correction factor i to be expected in the code book can therefore also be calculated in advance and, for example, stored in the code book.
  • FIG. 5 Another alternative embodiment of the invention is outlined in FIG. 5. There is hardly any change in the required computing power compared to the first embodiment, but the modifications * have a significant influence on the quality of the output signal.
  • this behavior enables the required property of transparency in the baseband to be guaranteed considerably better, since all errors which are generated by inverse filtering in the baseband are now reversed in the synthesis filter.
  • a less complex solution can be chosen when developing the algorithm for expanding the envelope.
  • V_P 4-> ü ⁇ ⁇ : r ⁇ SH d co H TJ 3 C ⁇ 4-1 ⁇ ! -H ⁇ rH O 4-1 CO 3 d fr * H d 4-1 ⁇ SH ⁇ rö d ⁇
  • a method often used against such errors is to subdivide each speech frame (e.g. with a 10 ms duration) into several subframes (e.g. 2.5 or 5 ms duration) and the filter coefficients A nb (e.g. ) or A wb (z ') by interpolation or averaging of the filter coefficients determined for the neighboring frames .
  • a nb e.g.
  • a wb z '
  • An interpolation of the filter parameters has the advantage that the overall envelope forms that can be realized are ⁇ much more numerous than the rough subdivision otherwise prescribed by the size I of the code book.
  • the basis for the approach of averaging filter coefficients consists in the observation that the human speech tract has a certain inertia, i.e. can only switch to a new language in a short time.
  • the output signal calculated for each subframe is therefore first weighted with a window function (e.g. Hamming) and then added in the overlapping areas with the corresponding areas of the neighboring frames.
  • a window function e.g. Hamming
  • the filter states must not be passed on from one subframe to the next, since the states do not refer to the same, continued signal.
  • the algorithm can be followed by a filter H PF (z ') as the last stage, which is referred to below as a post filter.
  • the post filter was implemented as a low pass filter.
  • the upper limit frequency of the output signal s wb (k ') can be fixed by a steep-sided low-pass filter
  • Limit frequency can be defined.
  • Such a filter with a • cut-off frequency of 7 kHz, for example, has proven to be useful for reducing tonal artifacts that arise from the powerful, low speech frequencies in the case of spectral reflection.
  • high-frequency whistling at the Nyquist frequency / a * / 2 which (depending on the method used to extend the residual signal) can result from a constant component of the input signal s nb (k), is effectively suppressed.
  • the sub-algorithm of the residual signal expansion is described next.
  • the aim of the residual signal expansion is to determine the corresponding broadband excitation from the estimate x nb (k) of the excitation of the speech tract, which is available in narrowband form.
  • This estimate x wb (k ') of the excitation signal in broadband form then serves as an input signal for the subsequent synthesis filter H s (z').
  • the input signal x ⁇ b (k) of the sub-algorithm of the residual signal extension is created by filtering the narrowband speech signal s nb (k) * with the FIR filter
  • the residual signal has a flat or approximately white spectral envelope.
  • the residual signal frame corresponds to x ⁇ ( ⁇ ) approximately (band-limited) white noise; in the case of a voiced sound, the residual signal has a harmonic structure of sinusoidal tones at the fundamental speech frequency / p and their integer multiples, whereby these single tones each have approximately the same amplitude, that is to say the spectral envelope is again flat.
  • the output signal x wb (k ') of the residual signal extension serves as an excitation signal of the subsequent synthesis filter Hs (z'). In principle, it must have the same property of spectral flatness as the input signal x nb (k) of the sub-algorithm, but in the entire broadband frequency range. Ideally, a harmonious structure corresponding to the basic speech frequency / p should also be present for voiced sounds.
  • An important requirement for the algorithm of the bandwidth expansion is the transparency in the baseband. To achieve this goal, it must be ensured that the excitation components in the baseband are not modified. This also includes that the power density of the excitation signal is not changed. This is important so that the output signal s wb (k ') of the bandwidth expansion in the baseband has the same power as the input signal s nb (k) - especially when the newly synthesized signal components at the output of the overall system have an interpolated version s nb (k ') of the input signal can be combined.
  • Another possibility of expanding the residual signal is to use effects of nonlinearities in a targeted manner by distorting the narrowband residual signal by means of a nonlinear characteristic.
  • the expansion of the spectral envelope of the narrowband input signal is the real core of the bandwidth expansion.
  • codebooks corresponds to codebooks as used in speech coding for gain-shape vector quantization.
  • the algorithms that can be used for training or using the code books are similar; When expanding the bandwidth, however, the involvement of both narrowband and broadband signals must be taken into account accordingly.
  • the available training material is divided into several typical sounds (spectral envelope forms), from which the code book is then created by storing representatives.
  • the training takes place once for representative speech samples and is therefore not subject to too strict restrictions with regard to computing or storage efficiency.
  • the procedure used for the training is basically the same as for gain-shape vector quantization (see, for example, Y. Linde, A. Buzo, RM Gray, "An Algorithm for Vector Quantizer Design", IEEE Transactions on Communications, volume COM-28, no January 1, 1980)
  • the training material can be divided into a number of clusters, in which spectrally similar speech frames from the training data are combined.
  • the cluster i is described by the so-called Centroiden Ci, which the The focus is on all language frames that are assigned to the respective cluster.
  • a basic decision that must be made before the training is whether the narrow-band version s nb (k) or the broadband version s wb (k ') of the training material should be used for training the primary code book.
  • Methods known from the literature only use the narrowband signal s nb (k) as training material.
  • Training and bandwidth expansion are the same. Training and bandwidth expansion are therefore very well coordinated. If, on the other hand, the broadband training signal s wb (k ') is used to create the code book, the problem arises that only a narrowband signal is available in the later code book search and therefore different conditions prevail than during training. On the other hand, it speaks for a training with the broadband training signal s wb (k ') that this approach is much more in line with the actual intention of the training, namely to find and store the best possible representatives for broadband speech sounds. If you compare different codebook entries, such as those created during training with a broadband speech signal, you can observe quite a few pairs of sounds in which the narrowband spectral envelopes are very similar to one another, while the representatives of the broadband envelope are very different. With such sounds, problems are to be expected when training with narrow-band training material, since the similar sounds are summarized in a codebook entry and thus the different broadband envelopes are mutually weakened by the averaging.
  • the size of the code book is a factor that greatly influences the quality of the bandwidth expansion.
  • the larger the code book the greater the number of typical speech sounds that can be stored.
  • the individual spectral envelopes are represented more precisely.
  • the complexity of both training and the actual expansion of bandwidth also increases with the number of entries.
  • the number of entries stored in the code book is marked with I.
  • the weighting of the individual language features among themselves is implicitly optimized during the training phase.
  • the comparison of envelope shapes using inverse filtering is completely dispensed with.
  • the basis of the statistical approach is a slightly modified model of the speech generation process compared to FIG. 1, as outlined in FIG. 7.
  • the signal source is now accepted as a hidden Markov process, i.e. it has several possible states, which are characterized by the position of the switch SCH.
  • the switch position only changes between two language frames; a state of the source is thus permanently linked to each frame.
  • the current state of the source is shown below with S-. designated.
  • High-pass code book entries are more likely to appear in connection with noise-like, unvoiced suggestions, whereas voiced sounds with tonal excitation are associated with rather low-pass envelope forms.
  • the task to be solved in the code book search now consists in determining the initially unknown position of the switch, ie the state Si of the source, for each frame of the input signal s nb (k).
  • Many approaches have been developed for similar problems, for example for automatic speech recognition.
  • the general objective here is to use a set of stored models (for each unit to be recognized (phoneme, word or the like) as a rule, speech recognition is used a separate Hidden Markov model is trained and stored) or state sequences select the best one suitable for the input signal, while only one model exists for the bandwidth expansion and the number of correctly estimated states has to be maximized.
  • the estimation of the state sequence is made more difficult by the fact that not all information about the (broadband) source signal s wb (k ') is available due to the low or bandpass filtering (transmission path).
  • the algorithm used to determine the most probable sequence of states can be divided into several steps for each language frame, which are explained in the following subsections.
  • Various a priori and / or a posteriori probabilities can be determined using a previously trained statistical model and the features obtained. 3. These probabilities can ultimately be used to either classify the speech frame or to calculate an estimate of the spectral envelope form that is not bound to the discrete codebook entries.
  • the features extracted from the narrowband speech signal s nb (k) are ultimately the basis for determining the current source state S- * .. Therefore, the features should contain information that correlate as well as possible with the shape of the broadband spectral envelope.
  • the selected features In order to achieve a high level of robustness, on the other hand, the selected features must have as little dependency as possible on the speaker, language, changes in speech, background noise, distortion, etc. The selection of the right characteristics is a decisive factor for the achievable quality and robustness of the statistical . Search procedure.
  • One characteristic is the short-term power E n .
  • the energy of a signal section is generally higher in voiced sections than in unvoiced sounds or pauses.
  • the energy is defined here as
  • a global maximum for the framework performance can of course only be calculated if the entire speech sample is available in advance. In most cases, you will have to adaptively estimate the maximum frame energy.
  • the estimated maximum frame power E ⁇ jmax () is then dependent on the frame index m and can be determined, for example, by the regulation
  • the speed of the adaptation can be controlled with the fixed factor ⁇ ⁇ 1.
  • the slope index (see J. Paulus, "Coding of Broadband Speech Signals at a Low Data Rate”. Aachen Contributions to Digital Communication Systems, Verlag der Augustinus Buchmaschine, Aachen, 1997) is a measure that evaluates the frequency of changes in direction and the slope of the signal. Since the signal has a much smoother course during voiced sounds than with unvoiced sounds, the slope index for voiced signals will also have a lower value than for unvoiced ones. The slope index is calculated based on the gradient
  • the sign function evaluates the sign of its argument
  • Another feature is the zero crossing rate ZCR.
  • the zero crossing rate indicates how often the signal level within a frame exceeds the zero value, i.e. the sign changes. With noise-like signals the zero crossing rate is higher than with signals with strongly tonal components, the value is normalized to the number of samples of a frame, so that only values between zero and one can occur.
  • cepstral coefficients c p Another characteristic are cepstral coefficients c p .
  • Cep beam coefficients are often used in speech recognition as speech parameters that robustly describe the smoothed spectral envelope of a signal.
  • the real cepstrum of the input signal s nb (/ r) is an inverse rier-transformed defined the logarithmic magnitude spectrum
  • the calculation can be followed by an LPC analysis using the Levinson-Durbin algorithm at low cost; the LPC coefficients can be converted into cepstral coefficients using a recursive rule.
  • the LPC coefficients can be converted into cepstral coefficients using a recursive rule.
  • the constant ⁇ can be used to determine the number of frames that should be taken into account when smoothing the derivative. A larger value for ⁇ results in a less noisy result, but it must be noted that this requires an increased signal delay, because according to the above regulation, also include future frameworks in the derivation estimate.
  • composition of the feature vector can be selected from the following components as an acceptable compromise between the dimension of the feature vector and the classification results obtained:
  • the observation probability is to be understood here to mean the probability that the feature vector X is observed provided that the signal source is in the defined state Si.
  • S-_) depends solely on the properties of the source.
  • Si) depends on the definition of the possible source states, i.e. in the case of bandwidth expansion of the spectral envelopes stored in the code book.
  • VDF distribution density function
  • Si) The easiest way to model the VDF p (X
  • the range of values of each element of the feature vector is divided into a fixed number of discrete levels (e.g. 100) and the probability for each level that the corresponding parameter lies within the value interval represented by the level is stored in a table. A separate table must be created for each state of the source.
  • Si) is approximated by a sum of weighted multidimensional Gaussian distributions
  • N (X; ⁇ ü , ⁇ ü ) used in this expression is the N-dimensional Gaussian function
  • the L scalar weighting factors Pu are now sufficient to describe the model for a state . as well as L parameter sets to define the individual Gauss functions, each consisting of an NxN covariance matrix ⁇ a and the
  • the Gaussian Mixture Models are trained after the creation of the code books using the same training data and the “optimal frame allocation” i opt (m) with the iterative Estimate-Maximize (EM) algorithm (see e.g. SV Vaseghi, “Advanced Signal Processing and Digital Noise Reduction “, Wiley, Teubner, 1996).
  • EM Estimate-Maximize
  • FIG. 1 An example of the two-dimensional modeling of a VDF is shown in FIG. It can be observed that a better classification is made possible by taking the covariance into account, since the three functions in the two-dimensional case overlap less than the two one-dimensional projections on one of the two axes. Furthermore, it can be seen that the model replicates the actually measured frequency distribution of the feature values relatively well.
  • the probability P (Si) that the signal source is in a state Si at all will be referred to below as the state probability. No additional information is taken into account in the calculation of the state probabilities, but the ratio of the number Mi of frames assigned to a specific code book entry by means of an “optimal” search to the total number of frames M is determined on the basis of the entire training material
  • Sj. mI) ) describes how likely the transition between the states from one frame to the next frame is. In principle, the transition from any state to any other is possible, so that a two-dimensional matrix with a total of I 2 entries is necessary for storing the trained transition probabilities. Similar to the state probabilities, the training can be carried out by calculating the ratio of the number of certain transitions to the total number of all transitions.
  • the current frame can now be classified into one of the source states represented in the code book from the probabilities determined on the basis of the characteristics or existing a priori; the result is then a single, defined index i of the codebook entry that most closely corresponds to the current language frame or source state according to the statistical model.
  • the calculated probability values can be used to estimate the best mixture of several codebook entries according to a defined error measure.
  • this classification method is called Maximum A Posteriori (MAP).
  • the probability of the feature vector X occurring can be calculated from the statistical model:
  • the result is no longer linked to one of the codebook entries.
  • the result of the estimation corresponds to the result of the MAP estimator.
  • the transition probabilities can also be taken into account in addition to the state probabilities known a priori.
  • the starting solution can be calculated as follows:
  • the invention can be used for any type of voice signals and is not restricted to telephone voice signals.

Abstract

Die Erfindung schafft ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen. Dazu erfolgt das Bereitstellen eines schmalbandigen Sprachsignals mit einer vorbestimmten Abtastrate; das Durchführen einer Analysefilterung an dem abgetasteten Sprachsignal mit aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten zur Einhüllenerweiterung; das Durchführen einer Restsignalerweiterung an dem analysegefilterten Sprachsignal; und das Durchführen einer Synthesefilterung an dem restsignalerweiterten Sprachsignal zur Erzeugung eines breitbandigeren Sprachsignals. Für die Analysefilterung werden identische Filterkoeffizienten wie für die Synthesefilterung verwendet.

Description

Beschreibung
Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen.
Sprachsignale überstreichen einen breiten Frequenzbereich, der in etwa von der Sprachgrundfrequenz, die abhängig vom Sprecher um ca. 80 bis 160 Hz liegt, bis zu den Frequenzen jenseits von 10 kHz reicht. Bei der Sprachkommunikation über bestimmte Übertragungsmedien, wie z.B. Telefon wird allerdings aus Gründen der Bandbreiteneffizienz nur ein eingeschränkter Ausschnitt übertragen, wobei eine Satzverständlichkeit von ca. 98% gewährleistet ist.
Entsprechend der minimalen für das Telefonsystem spezifizierten Bandbreite von 300 Hz bis 3400 Hz lässt sich ein Sprachsignal grob in drei Frequenzbereiche unterteilen, jeder dieser Bereiche ist für spezifische Spracheigenschaften und subjektive Empfindungen verantwortlich:
• Tiefe Frequenzen unterhalb von etwa 300 Hz entstehen hauptsächlich während stimmhafter Sprachabschnitte wie z.B. Vokalen. Dieser Frequenzbereich enthält in diesem Fall tonale Komponenten, d.h. insbesondere die Sprachgrundfrequenz (fp) sowie je nach Stimmlage eventuell einige Harmonische.
Die tiefen Frequenzen sind für die subjektive Empfindung von Volumen und Dynamik eines Sprachsignals von entscheidender Bedeutung. Die Sprachgrundfrequenz lässt sich dem- gegenüber von einem menschlichen Hörer aufgrund der psy- choakustischen Eigenschaft der virtuellen Tonhöhenempfindung auch bei Fehlen der tiefen Frequenzen aus der harmo- nischen Struktur in höheren Frequenzbereichen wahrnehmen.
• Mittlere Frequenzen im Bereich 300 bis 3400 Hz sind bei Sprachaktivität durchgängig im Sprachsignal vorhanden. Ih- re zeitvariante spektrale Färbung durch mehrere Formate sowie die zeitliche und spektrale Feinstruktur charakterisieren den jeweils gesprochenen Laut/Phonem. Auf diese Weise transportieren die mittleren Frequenzen den Hauptteil der für die Verständlichkeit der Sprache relevanten Informationen.
• Hohe Frequenzanteile oberhalb von etwa 3.4 kHz entstehen vornehmlich während stimmloser Laute; sie sind besonders stark bei scharfen Lauten wie z.B. /s/ oder /f/. Auch Plo- sivlaute wie /k/ oder /t/ weisen ein breites Spektrum mit starken hochfrequenten Anteilen auf. Entsprechend hat das Signal in diesem oberen Frequenzbereich einen eher rauschartigen als tonalen Charakter.
Die Struktur der auch in diesem Bereich vorhandenen Formanten ist verhältnismässig zeitinvariant, unterscheidet sich jedoch für verschiedene Sprecher.
Die hohen Frequenzanteile sind wichtig für die Natürlichkeit, Klarheit und Präsenz eines Sprachsignals - ohne diese Komponenten wirkt die Sprache dumpf. Weiterhin ermöglichen diese oberen Frequenzen eine bessere Unterscheidung von Frikativen und Konsonanten und sorgen somit für eine erhöhte Verständlichkeit.
Sowohl der Bereich der hohen als auch der tiefen Frequenzen enthält eine Reihe sprecherspezifischer Eigenschaften und erleichtert somit die Identifikation des Sprechers durch einen Hörer. Diese Aussage muss jedoch insofern relativiert werden, als man sich in der Regel an die „Telefonsprache" einer Person gewöhnt und diese dann trotz einer Begrenzung der Bandbreite recht gut erkennen kann. ω LO ) r μ- h-1
(_n O cπ o Ji o <_n tr 3 H s: i-* < s: φ < DJ CL s: Hi Ω CΛ ω O μ- • cn s iQ CΛ cn tr < 3 Λ tr tr α l-i Φ 3 μ- φ l-i φ H* φ μ- DJ ^ DJ o Ω CL 3 Φ μ- μ- Φ μ- DJ Ω DJ Φ Φ d Φ Φ J
Φ 3 ω l-i μ- N H CΛ l-i φ cn d cn o Φ cn μ- Ω <-t H rt tr 3 ι-< 3 DJ l-i l-i cn
H- ιQ CΛ 3 ω iQ rt μ- tr cn 3 μ*- H H tr rt 3* μ- Φ N φ ω rt μ- rt r+ Φ H- Φ Φ l-i φ Φ Φ DJ Hl N rt sQ ffi DJ: Φ φ φ 3 H < 3 tr rt Φ μ- Φ l-i N
Φ sQ 3 3 3 O: H ω d φ d • O: cn tr* cn l-i μ- Φ iQ Φ H DJ: 3 rt μ- DJ μ-
Φ 3 • cP d Φ cn Ω -* Hi l-i ω ^ — DJ O Φ Ω H Φ μ- l-i 03 Φ 3 0): 3 IT) Φ tr 3 φ CΛ Φ 3 3 Φ 3" φ φ d: Φ rt s d 3 tr l-i 3 cn DJ μ- α rt Φ d μ-*
Φ d: μ- l-i iQ • H Hi H H 3 o rt > 3 Φ iQ rt 3 rt H1 3 3
H- tr Φ O d d d o f TJ CΛ CΛ * Φ cn Φ o ω DJ: P- φ μ- o μ- sQ Φ φ H- 3J 3 D) α 3 3 3 Φ m Hi μ- * — - Φ l-i TJ μ- M 3 σ Ω 3 cn ^ μ- ω h 3 ιQ d iQ tr 3 Φ μ- Ω μ- Φ Φ 3 Φ H μ- α H CL ^ rt DJ Φ 3
Φ iQ ω Φ rt DJ 3 H 3 tr 0) rt .V φ H ? CΛ Φ φ' ? CL 3 μ- φ ω t-J Φ α ιQ μ- 3 Φ Φ cn rt 3 3 φ rt μ- μ- cn φ φ 3' DJ 3 cn rt Φ iQ Φ Φ tr Φ φ 3 Hi φ Q. ω σ O Φ Φ 3 Ω rt μ- 3 μ- H-1 φ
(D l-i CΛ Φ H • Φ l-i Hl tr o 3 d N μ- ω 3 3 α tr Φ DJ rt Φ φ CΛ CΛ
3 d 3 o CΛ Φ H μ- 3 H Q ≤ Ω Φ d μ- Ϊ 3 3 l-i 3 TJ φ : tr d= ω iQ rt CΛ Φ Λ - tr Ω Φ " Φ ι-i CL 3 Φ Φ d DJ α tr μ- CΛ ι-i
3 σ J. tr DJ Φ Φ d > μ- rt DJ Φ - cn φ l-i φ μ- iQ μ- 3 μ** μ- Hl φ rt TJ DJ -* φ φ 3 3 3 tr 3 rt "«« 3 CΛ DJ D μ- sQ ω Λ rt o φ d: μ- l-i Ω
N H- ? l-i 0- rt Φ CL rt ffi 3 ι-i CΛ Ω μ- H μ- iQ l-i φ DJ 3- d O rr tr 3 M φ Φ H1 DJ μ- O: rt 3 Φ TJ 3" rt DJ I-" σ CΛ Φ sS Φ μ- Ω l-V l-i tr H- Hl H DJ H ;v μ- d DJ: Ό 3 l-i 3 DJ μ- H DJ rt σ Φ T5 3 μ- Φ μ- 3 tr o
Φ φ Φ n Q rt 3 ω TJ rt DJ 3 3 DJ cn M Φ φ rt H Ω μ- 3 iQ cn 3 ω 3 Φ μ- - Φ μ- φ CΛ DJ Φ Φ P μ- Ω Φ Φ 3 ι-i DJ . m " 3 Φ Φ μ- 3
TJ 3 Φ rt tr <! 3J rt ι-i 3 cn ?v cn 3" 3^ 3 Φ <! DJ: Ω φ rt CΛ sQ d i-. ι-3 Hi φ O 3 φ , — o DJ • rt Hi d μQ H μ- φ iQ tr μ- μ- pς ω Ω 3 3
DJ φ lO O tr μ- 3 Ϊ 3" CΛ rt . CΛ d: tr d G 3 l-i rt < Φ ιQ o d DJ μ- o d 3 DJ Φ cn μ* Φ μ- Φ H H w DJ " tr iQ CΛ Φ Hi cn j3 tr H IV * φ DJ ω d 3 cn 00 Φ Ω l-i CL Φ φ μ- O Φ Φ rt μ- H o rt L-I. DJ= cn (D
.v Hi H TJ Hi Φ Φ μ- *n tr CΛ iQ Φ f μ- tr H Cn D : 3 ω 3 Φ d Φ 3 rt o o H- H d d 3 l-i μ- Φ H μ- μ- rt rt φ rt Ω 3 rt CΛ 3 .V ? 3 μ-
3 3 r+ DJ 3 SS H φ φ Λ 3 tr Φ Φ μ- DJ: ι-i i-i tr d DJ: CL μ- rt rt μ- o
§ tr Ω Φ α Φ rt l-i Λ o 3 I7d 3 <! rt DJ H 3 3 t, DJ f μ- Φ rt 3 d DJ rt 3" 3 l-i Φ d s, μ- μ- cn rt φ CΛ iQ DJ: μ- •r. d H DJ < i-i cn
3 3 cn Φ d μ- DJ φ o μ CΛ 3 d H ιQ TJ d 3 Ω Φ I-* l-i CΛ rt tr cn
H- α <! 03 3 Φ H" I-1 3 3" 3 CΛ Hi tr 3 Φ H 3 ^ tr cn μ- rt μ- 03 φ
? σ Φ d= Φ rt 3 d ω N μ- φ I-1 SD t - DJ sQ rt t rt Ω Φ Φ o Q DJ cn CΛ
DJ l-i H tr ι-i Φ 3 Φ *n d φ 3 ι-i μ- Ω cn • Φ O: 3J 3 H 3 rt rt rt Φ tr Φ Φ 3 Φ iQ ω 3 α μ- φ cn Ϊ rt 3 3' rt μ- H ? J M CΛ O: 3 Φ
H- H- Φ H μ- H o d iQ μ- cn rt ω 3 <! Φ rt rt Φ μ- rt CΛ cP tr O: 3 o r+ CΛ o φ l-i φ o l-i • 3 μ- μ- s: Φ Φ Ω Φ μ- Λ . < Φ H iQ CΛ
3 φ ω h-1 3* l-i φ μ- iQ Ω Φ α <! Ω μ- 3 ι-i * DJ 3 rt cn Φ φ Hi μ- 3 ffi H * H1 l-i φ Φ tr φ CΛ 3 d ^ D rt 3 μ- μ- μ-
DJ <! l-i Oi o o Φ N O: O ι-i DJ rt μ- Hi n o μ- Φ μ- rt Ω CΛ
3 Φ d o tr ω -~^ cP Φ CΛ o CL s 3 DJ: ?r DJ φ 3 Φ 3 rt φ tr rt
N i 3 s iQ rt Φ μ- N o co T3 Φ DJ 3 Φ Hi TJ . Φ d sQ <£> o ffi rt CΛ Φ H 3 d H-* DJ l-i cn rt to α tr μ- μ- H G cn <! μ- ω H cn N TJ μ- φ CΛ Ω 3 DJ d: Φ μ- φ 3 3 o tr μ- μ- D 3 r o-. H- 1 s. H 3 DJ DJ tr α Ω S H μ- s: φ φ μ- 3 φ Ω Φ t*-- O § l-i E CΛ tr CL φ DJ Φ I—* M 3 Φ tr " φ Φ Ω Φ rt Φ μ- l-i tr h-1 Φ d φ φ Φ rt d μ- d 3 O CΛ ι-i 3 3 H & DJ μ- d t iQ C •s l-i cn rt Φ Φ DJ H tr l-i 3 cn H 3 * • φ Φ d 3 Ω rt t rt Φ DJ rt cn t-i H 3 CΛ φ rt DJ ? o cn Φ ^ Φ 3 G μ- DJ 3" d Φ d • • DJ μ- TJ μ-
3 Φ rt tr 0- μ- d μ- iQ 3 Φ I—* O f 3 μ- 3 rt M3 N iQ μ- t l-i rt μ-
• CΛ φ μ- ιQ rt rt Φ rt μ- TJ φ sQ rt α d Ω O DJ DJ: φ
03 O f Φ φ 3 Φ 1 Φ J r • • DJ l-1 co - t μ- μ- 3 μ- o\o μ- μ- 3 3- 3 Ω rt
DJ iQ tc μ- DJ μ- >T ι-i ι-i d DJ: 3 rt Ω . Φ 1 iQ TJ 3* G
3 φ Φ N 3 M μ- Ω X d cn Hi rt ^ μ- d " ω o 1 d: 1
H- 1 φ CΛ 3* N 3 d • o 3 1 μ- 1 1
1 l 1 φ 1 3 φ
ω ω to M h-1 h-1 tπ o Cn O cπ c: cn tr* N CL sQ Hi T) w α -π 3 rt 03 Ω N TJ μ- O DJ CL cn φ CΛ tr1 O α N 3 Hi m
O M c Φ H d: μ- μ- Φ μ- Φ Φ h DJ d 3' 3 μ- d μ- φ hi DJ: μ- J μ- * μ- d μ- μ- μ- d 3 μ- Φ 3" rt 3 3 μ- 3 3 o cn O Φ Hl φ 3 Φ rt 3 H rt 3 Φ rt N 3 sQ 3J CΛ α 3 H O rt DJ rt ? 3 μ> Φ ι-3 N DJ Φ Φ tr rt μ- tr DJ Ω μ- N rt 3' s: o Φ 3 • φ α O: Φ <x> Φ N pσ 3 d h-1 Ω i ?r Φ Φ φ 3 tr 3 tr rt 1 Φ H H μ- d Ω >-3 3 1 H Φ Φ φ μ- o 3* DJ G: d: =ε μ- i O: o Ω Φ Λ Φ N *n μ- μ- d Ω H DJ Φ 3 H I-1 cn μ- ? 3 Ω μ- cn rt tr 3 μ- cn Φ u3 hj Φ 3 φ 3 d H rt iQ 3 t α cn H-1 Φ 3 rt rt O μ- N 3" φ μ- d Φ CΛ i-i 3
O 3 H Φ φ μ- iQ rt Φ rt Φ 3 1 <1 Φ M 3 LQ Φ ιQ H hi rt ?r n μ- d φ ω CΛ φ Λ h 3 I-* μ- T3 03 O 3 μ- cn o 3 CL < 3 rt φ o d Ω sΩ 3 σ CD TS μ- d ^ DJ 3 μ- ! 3 " ----, Φ 3 Ω rt H DJ Φ DJ μ- l-i μ- 3 CL 3 tr tr rt o μ- hj 3 φ φ H-* μ- 3 O iQ O 2 μ- < tr H μ- Φ hj μ** 3 DJ Ω . μ- CL φ
3 DJ Φ 3 tr CΛ rt φ l-i 3 • rt Φ φ d rt hi μ- 0: <i sQ 3" φ H
O tc d Ω 3 N Φ μ- DJ iQ O Φ H Φ l-i ? tr N 3 Hi φ < d φ σ H φ
3 Hi N ω tr 3 ιQ Φ H Φ o • DJ: H cn d rt 3 μ- Hi i-i φ 3 μ- 3 > μ- rt Cn d d α 3 μ- φ ω H O IQ d 3 μ- Φ Φ Φ DJ i sQ f φ Φ rt 3 ! 03 d O: μ- 3 3 Φ DJ 3 3 Ω TJ D) O Φ 03 Ω P- o 3 μ-1 o 3 hi sQ hi CΛ H £ CΛ
Φ DJ 3 3 iQ DJ α H φ - O μ- i-i 03 3r 3 et tr rt tr -1 N s: Φ Hi Φ PJ
H 3 o- Φ 3 d 3 O μ- H O μ- O Φ w μ- Φ Φ d φ hi DJ CL rt
CΛ DJ cn < " μ- DJ DJ CΛ 3 J 3 s: Φ μ- μ- μ- ω μ- 3J Φ N μ- I--* CL μ- iQ Φ o μ- 03 φ iQ rt _: 3 N φ φ Φ μ- Ω rt Ω DJ: rt hi i rt μ- φ Φ cn h 3 DJ μ- Φ μ- •- ** PO μ- d t H d hj 3 tr d 3" rt φ 3 Φ tr
3 ? H ≤ cn ω N 3 Ω 3 O DJ rt H rt 3 CL φ rt 3 N hi CΛ 3 φ Φ μ- X o O Φ Ω d tr *> 3 03 5 α. hi iQ rt Φ φ iQ N h-1 d DJ μ- CΛ
O rt N i tr LQ 3 - N TJ H 03 !Λ μ- CL ω DJ hi Φ 3 M 3 d μ- 3 rt Φ 3 rt
Hi φ Hl Φ μ** d DJ H- rt O O O Φ J h-1 o hj l-i tr Ω iQ N μ- φ Φ
CL * Hi O 3 Φ J DJ CΛ Ω μ- I-- d 1 3 3 Φ tr cn CΛ μ- PJ tr 3 tr ι-3 φ Φ - Φ H iQ CΛ tr φ S£> ?o 3 φ Ω o Φ Φ cn 3 Φ μ- Φ iQ rt
Φ CΛ H fr I-1 3 cn α rt Hi -J Φ CL O N tr • l 3 tr h-1 μ- i 3" α hi φ CΛ H
Ω TJ DJ rt rt μ- α Φ Φ M CΛ CL μ- H Φ μ- μ* rt Hl φ Φ hi rt tr O: CL
3" φ 3 μ- Hi N Φ Φ φ Φ H — ' Φ lO Φ Φ Φ μ- cn Φ • φ DJ hi hi 2 hi DJ
3 φ iQ : d H μ- hi h ^ • DJ d l-i μ- 3 TS O. i-i tr φ Φ 03 φ Φ H
O Ω Φ •S H cn 3 φ N !~i H DJ rt cn φ r-> 33 d 3 3 tr DJ Φ μ- H μ- μ** tr N Φ DJ PC N 3 to d Φ Tl Ω μ*1 n Φ rt t μ- φ 3 Φ d Φ 3 CL rt Φ 3
O o H α 3 DJ φ • DJ Λ d: 3" μ- Φ d 3 hi rt Ω μ- iQ 3 hi n 3 CL o Φ ->
LQ CΛ iQ rt μ- 3 H μ-* 3 iQ d l-i rt l-i l-i φ d hi tr rt d μ- tr Ω hi 03
μ- Φ Φ Φ 3 3 Φ φ o 3 Ω l-i ? D> Φ φ N d φ 3 3 H t Φ μ- CL sQ 3 3 O Φ tr 3 3 Φ CΛ 3" s: rt 3 i d 3 μ- ?r Hl φ rt μ-
3 φ 03 ;-v 3 H Φ N μ- T. H Φ IQ Φ d Φ 3* rt 3 rt O μ- (D d: hi Φ μ- DJ £ f Φ μ** μ- CΛ Φ l-i fV Φ O 3 " Φ μ- H 3 s: μ- ^ Φ Φ μ- hf rt d tr DJ
UD μ* μ- Cn DJ cn μ- μ- μ- O H TJ CΛ Hi rt φ DJ 3 o H 3 O 3 Φ Hi φ rt G co cn h CΛ r+ 3 Ω 3 rt Φ 3 173 rt i-i Φ d: φ 3 CΛ cP tr cn 3 DJ ≤: hi Φ σ > **: α TJ μ- iQ 3" d φ H Ό h O 3 tr l-i • rt h-1 Φ Ω cn φ rt <! Φ rt Φ hi 3 Φ Λ Φ 0 s: o *•*. α H d l-J CΛ φ 3 tr Φ 3 μ- o 3 hi N hi
,-~ DJ 3 3 3 rt 00 3 3 Φ α Φ d rt 3 d Ω iQ Φ 3* o 3 DJ d rt σ T) Ω d μ- O: o Φ μ- μ1 3 3 sQ ? 3J Φ O μ- hi CL 3 μ- iQ hi μ- • tr 3 rt tr 3 d 3 rt φ iQ rt 3 CL CL Φ Φ CΛ -3 Φ <5 DJ cn * cQ μ- Φ PC 3 rt Φ 3 Φ cn •S d Φ Φ Φ fr H 3 TJ • 3 Φ iQ cn • O α 3 N CL Φ i-i M rt 3 O d hj hi D- H 3 μ- H Φ hj d φ 3 α φ N tr 3 d ^ sQ l-i TJ μ- Φ 3 DJ s; 3
H H3 T3 Φ 3 d φ tr 3 3 KJ O DJ φ CL d d Φ N cn μ- μ- μ- Ω tu Φ sQ rt DJ O N μ- μ- DJ α 13 σ Hi d 3 Φ 3 3 d μ- 3 vQ 3 3^ DJ 3
DJ rt 3 σ d cn Ω d Hi DJ 3 CL ? <i Ω Φ μ- y ω 3 CL N rt H φ t? J Hi CL tr H 3 03 • 3 \ rt φ rt tr 3 rt rt μ- Φ d μ- μ- 3 3 3 d: Φ ω Ω DJ 03 i-J φ 3 cn o Φ hi μ- DJ U3 tr 3 o Ω rt TJ iQ H o a. - Ω H O ι-i rt Ω CL ω Φ u Pö h-1 μ- 3 h. 3
3 fT Φ H* tr Φ o Φ tr μ- D) rt Φ 3" φ DJ Ω Hi i DJ Φ 3 DJ φ O O
-• 3 μ- Φ 3 H Φ rt Φ d tr φ d d 3 μ- CL CL rt α O l-i
1 tr, μ- d μ- 1 3 3 Hl H- 3 3 3 CL φ rt Φ μ- d N 1 3 Φ CL Φ 3 φ H 1
1 1 " 1 1 i
1 co m CO d 1 1 tn
** 3 1 Φ • φ 1 • tn -H 1 1 Φ d d TJ TJ -d UD rö tn ,. -d co 3 1 φ 1 -H TJ d co 1 -H 4-J 3
Φ tn o υ d d 4-> υ .d -H 4-> TJ . g CΛ Φ d d φ -H -H Q -H tn d 3 • Φ -H 1 tn 3 S-4 -H ü to O n 3 d PL, O O d φ tn !2 TJ φ TJ
© 3 00 o Φ -H 4-1 Φ :rÖ &, -H M -H Φ -r-l 4-1 -Q rö co Φ s-i d
-H 4-J 3 !H -^ w co -H d μι PQ ^ 4H TJ -H φ N M -H 4-1 rö -H X! rö o -d co N φ φ -H > 3 co O P-1 3 Q d rö +J -d TJ . TJ TJ α. & υ -H 4J -Q cn .0 Φ -H φ N φ Φ co Λ Φ g -H o υ d d 1 ω C Φ CO -H d TJ d 4-1 N -H d 3 φ 3 to ü . S-4 -d φ -H -H d d rö tn
H Φ 1-Q •H Φ rt. d d -H O o TJ -H 3 4-J N φ Φ TJ d tn o ) SH d d 4-> PQ o
U tn (0 rö o tn g -d φ N 4H d Φ d Φ Φ m (3, rö M -H α. S-4 S-4 d -Q M PQ > -H φ υ rö g tn O-, rö -Q TJ -Q H TJ Φ S-l
O Φ tn TJ Φ S-4 TJ tn -H rö 4-> tn TJ ,d φ 3 CΛ φ sH TJ 3 rö φ d M φ d
> TJ -H d d S-4 -d o d o d g 4-> fö -d -H -r-l d φ d TJ d Φ X! TJ
CO rö -H Φ υ d 3 TJ 3 3 -H 3 co -d J υ 5 d tn g φ TJ o 1
Φ 4-> H PQ Φ Q -H co φ 4-J S-4 S-4 Φ 3 5 -H CΛ d Φ -d -Q -H -H Φ S-l d -H tn
TJ -H fö Φ φ 4-1 -d Φ -H N 4-1 CΛ - rö Φ u . φ CΛ 4-> φ Φ Φ d rö
3 d 4-1 • S-l TJ d O x: 5 O to co o Λ CL co CO o S-l 4-J TJ & tn 3 -P
3 -H Φ 3 H Φ Φ CÖ υ φ -> S-4 CO Φ CΛ φ co -H g Φ φ :0 S-l -H s CO tn TJ d (0 PQ tn -H X! Φ co Φ TJ Φ • TJ -Q φ -H Φ 3 -H g 4-J 4-1 S φ tn
S-4 H Φ d 4-J O M w Cn 4-> d TJ Q H d N Φ N d rö -H S-4 e-2 -H
Φ O S-4 tn 4-1 d 3 O Φ CL d 3 φ d !≥ o o ≥ -H S-l 3 Φ Φ :0 Q
4-1 O d Φ TJ Φ 4-> 3 Q CΛ . 3 N -H φ cn Φ rö -H S-l
-H 3 -H Φ d TJ co σ d tn ÜJ -d tn 4-. co cn CL Φ -d PL| ._ 3 tn H φ CO TJ -H 3 -H • Φ 3 Φ :(Ö φ d O d co Q rö 4-1 4-> S-4 X! S-4 Φ
+J Φ φ φ J co d Φ 3 -H φ φ Φ O 5 -H Φ o tn rö N Φ φ 4-J S4 φ TJ d d TJ 4-> rü tn -H μi φ TJ d TJ d +J Φ co -d ! -H d d d TJ -H d (0 Φ > φ X! d TJ Φ -H d <; TJ U H 4-1 Φ 3 Φ d F--C d TJ - d -H co
N tn ,-^ -H 3 3 TJ S-4 -H - φ :rö -H 3 Λ Φ υ Λ tn tn Φ ü o CO rö d -d N 4-1 N M Φ d o H Φ UJ d • rö 0 3 -H d φ -C φ Λi -H Φ TJ ω υ PC O υ Φ -H TJ O S-4 -H φ d rö d S O o 4-1 Φ tn φ 4-1 d ■3 φ d
IΛ 3 tn i co -H 4-> > -!-, 3 φ > -H CO d co Φ υ d M N d TJ , > 4-1 Φ H -H tr 3 ö fö co d o TJ -Q Φ Φ tn tn TJ >H Φ O S-l :(Ö d X! φ φ d
Φ rö α, d 4-J d N o Φ φ 4-> -H d O c φ JC d :(Ö . tn -H
S-4 . • TJ OJ rö Φ PΠ > -H N 4-1 d 4-1 4-1 O co -H ,d d EH ^ -d X! o SH TJ d d rö 4-J S-4 , cn d H P-* t. - S PC o φ -H :rd Φ co TJ 4-1 -H H υ f > -d d 3 Φ d TJ -H rö cn tn O -y -H 4-1 φ 4-» 4H tn Φ rö PQ d υ -H N tn d 3 " φ l m d co *^r -H CO d -H d φ S TJ υ ω . M 3 to 4-1 -H φ d <rj o • tn d m M d rö H PQ CL 4-J φ :rö φ CO 5 tn 4-1
-d -H *-3- S-4 d > Φ cn d N • φ 3 rö -H tn d -H 4-J M 3 co S-4 φ X! -C 3 4-J 4H d -d
O φ • Φ -H 4-1 :rÖ PC cn S-4 J Φ Φ co Φ 5 co Φ 4-1 rö υ σ 3 3 3 Φ
-d CM d tn N 4-> J -d ^ .d o d d 3 ,d -H • -. TJ -d φ X! CO N 4-1
•H — H -H 4-J -H d -Q 1 rö I 3 -H M pt; υ tn < Φ d υ d +J d 4-1 CO n (TJ φ ΪH 3 3 rö *^r 4H :3 4-J CO d -d T rö rö -H . φ Φ φ 3 Φ φ d d co o co • ^r S-4 d N ^ (0 -H 3 υ TJ d φ υ d SH Φ to X!
3 tn φ -d d in N TJ cn . Φ Φ d . Φ 4-J CO Φ d • -H 4-J rö -H tn 3
ÖJ -H TJ o 3 .-H PΠ d CN > S-4 φ υ Q -H CO Φ c Φ -d φ Φ SH X3 φ X! -— . d D
3 to d rö φ rö 3 l φ 3 -H rö TJ -H 4-J CL. PQ • d ! 3 O 4-J φ -H d
Φ co rö d J S-4 d o Φ co -d tr P2 d • TJ 4-J -H CΛ T o d Φ d -d tn S4 tn Φ tn X! Φ P o 4-1 *^r C Φ :0 φ tn 4-1 rö rö Φ d > d X! 3 υ -H Φ O 4-1 d TJ 3 -H r S-4 . O S-4 -d Φ -H d 4-1 5 -H TJ tn φ d rö J tn CL ω cd H d N Φ (0 Φ CM H Φ d CO φ CO Φ d d φ d rö 4-J X! d •3
C. tn φ 3 4-> co d -H Φ 4-1 φ -H ω -H Φ (Ö -H o d -H TJ o rö +J d d o Φ ω EH N -H tn Φ CL TJ S-4 -H -H d Φ tn J d 4-1 d -Q co > φ tn g φ X) -H e :
-H 3 d PC Φ d -d O d Φ Φ TJ -H d tn 3 Φ ^ to Φ 3 -H O -H X! 4-J 3 1
TJ <3 CO Φ - 5 ns υ M PQ 3= -d rö d -H rö 4-1 Φ O φ 3 Φ tr co to 3: -H H Φ r5 Φ S-l tn o Q co 3 ü tn Φ -H 3 υ tr tn 4-J φ φ o rö > co d φ <£> d d -H N d co 3 d 4-> d φ S-4 O d -H d J d , S-) d 4->
O =3 fö -H -H • H -H s PC 3 Φ -H rö 3 -H d -H Φ fö S-4 rö Φ φ φ d Φ Φ X! -H -H 3
DM TJ Φ r- ω M N H TJ PQ TJ -y TJ H rö d w J3 2 2 0-r d S H tn 3 to S-l PQ tn N
O o LO o rH r- 1 CM CM ro
folgende Anti-Aliasing Tiefpassfilter so zu gestalten, dass die Dämpfung bis zum eineinhalbfachen Vielfachen der Ny- quistfrequenz langsam bis zu einem Wert von 20 dB abnimmt und erst dann ein steiler Übergang zu höheren Dämpfungen erfolgt (M. Dietrich, „Performance and Implementation of a Robust ADPC Algorithm for Wideband Speech Coding ith 64 kBit/s", Proc. International Zürich Seminar Digital Communications, 1984). Bei einer Abtastfrequenz von 16 kHz werden durch diese Maßnahme im Bereich von 8 bis 12 kHz Spiegelfrequenzen er- zeugt, die den Eindruck einer größeren Bandbreite vermitteln.
In neuerer Zeit wurden einige Verfahren präsentiert, bei denen die Erweiterung der spektralen Einhüllenden und der Feinstruktur getrennt voneinander erfolgt (H. Carl, „Untersuchung verschiedener Methoden der Sprachcodierung und eine Anwendung zur Bandbreitenvergrößerung von Schmalband-Sprachsignalen", Dissertation, Ruhr-Universität Bochum, 1994). Hierbei wird zunächst rahmenweise eine LPC-Analyse des Eingangssignals durchgeführt und das Sprachsignal mit dem LPC-Inversfilter gefiltert. Das resultierende Restsignal ist im Idealfall durch den "Weißmacher-Effekt" der LPC von der spektralen Einhüllenden befreit und enthält nunmehr ausschließlich Informationen über die Feinstruktur des Signals.
Der Vorteil der Aufspaltung des Eingangssignals in eine Beschreibung der spektralen Grobstruktur und ein Restsignal liegt in der Möglichkeit, dass nun die beiden Teilalgorithmen zur Erweiterung der Komponenten unabhängig voneinander entworfen und optimiert werden können.
Die Aufgabe des Teilalgorithmus zur Erweiterung des Restsignals besteht darin, für das nachfolgende Filter ein breitban- diges Anregungssignal zu erzeugen, das einerseits wiederum spektral flach ist, aber andererseits auch eine zur Pitchfre- quenz der Sprache passende harmonische Struktur besitzt. Während bei der Restsignalerweiterung häufig ähnliche Ansätze gewählt werden, gehen die Wege bei der Ergänzung der spektralen Einhüllenden auseinander.
• Ein Teil der Methoden basiert auf der Annahme, dass zwischen den Parametern des Sprachtraktes in schmalbandiger und breitbandiger Beschreibungsform ein annähernd linearer Zusammenhang besteht. Die bei einer LPC-Analyse gewonnenen Parameter werden hierbei in verschiedenen DarStellungsformen verwendet, z.B. als Cepstralkoeffizien- ten oder Koeffizienten einer DFT-Analyse (z.B. H. Her- mansky, C. Avendano, E.A. Wan, „Noise Reduction and Re- covery of Missing Frequencies in Speech", Proceedings
15th Annual Speech Research Symposium, 1995)
Die Parameter werden parallel in eine Anzahl linearer sogenannter Multiple Input Single Output (MISO) Filter eingespeist. Der Ausgang eines einzelnen MISO Filters stellt die Schätzung eines breitbandigen Parameters dar; diese Schätzung hängt also von sämtlichen schmalbandigen Parametern ab. Die Koeffizienten der MISO Filter werden vor der Bandbreitenerweiterung in einer Trainingsphase optimiert, z.B. nach einem Minimum Mean Squared Error Kriterium. Nachdem alle breitbandigen Parameter für den aktuellen Signalrahmen durch eigene MISO Filter geschätzt wurden, können sie in entsprechend umgerechneter Form als Koeffizienten des LPC-Synthesefilters verwendet werden.
• Ein zweiter Ansatz macht sich die beschränkte Zahl der in einem Sprachsignal vorkommenden Laute zu nutze. Es. wird ein Codebuch mit Repräsentanten der Einhüllendenformen typischer Sprachlaute trainiert und gespeichert. Bei der Erweiterung wird dann verglichen, welche der ge- speicherten Einhüllendenformen dem aktuellen Signalausschnitt am ähnlichsten ist. Die dieser ähnlichsten Ein- hüllendenform entsprechenden Filterkoeffizienten werden als Koeffizienten des LPC-Synthesefilters verwendet.
Alle hier erwähnten Methoden sind prinzipiell für eine Erwei- terung sowohl hoher als auch tiefer Frequenzbereiche verwendbar; es muss nur die Restsignalerweiterung so gestaltet werden, dass in den entsprechenden Bändern des Restsignals eine passende Anregung generiert wird.
So unterschiedlich die bekannten Algorithmen auch sind, sie weisen doch alle in mehr oder weniger starker Ausprägung sehr ähnliche Eigenschaften und Probleme auf.
Besonders problematisch scheint das Ziel eines ausgewogenen Zusammenspiels der neu generierten Signalkomponenten mit dem schmalbandigen Originalsignal zu sein. Durch fehlerhafte Amplituden der neuen Bandbereiche erhält der Hörer den Eindruck einer Sprachverzerrung, der sogar in eine Sprachverfremdung münden kann, wenn beispielsweise das Ausgangssignal "gelis- pelt" klingt.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen zu schaffen, die in der La- ge sind, aus einem herkömmlich übertragenen Sprachsignal, das z.B. nur mit Telefonbandbreite vorliegt, mit Kenntnis der Mechanismen der Spracherzeugung und -Wahrnehmung ein Sprachsignal zu erzeugen, das subjektiv eine größere Bandbreite und somit auch eine bessere Sprachqualität als das Originalsignal aufweist, wobei für ein solches System die Übertragungsstrecke an sich nicht modifiziert werden muß.
Die Erfindung schafft ein Verfahren und eine Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen ge- maß Anspruch 1 bzw. 12.
Der Erfindung liegt die Idee zu Grunde, dass für die Analyse- filterung und die Synthesefilterung identische Filterkoeffizienten verwendet werden.
Die erfindungsgemäße Grundstruktur des Algorithmus zur Band- breitenvergrößerung kommt im Gegensatz zu den bekannten Verfahren mit nur einem einzigen breitbandigen Codebuch aus, welches im voraus trainiert wird.
Ein wesentlicher Vorteil dieses Algorithmus liegt darin, daß die Übertragungsfunktionen des Analyse- und Synthesefilters exakt invers zueinander sein können. Hierdurch kann die Transparenz des Systems bzgl. des Basisbandes, d.h. desjenigen Frequenzbereichs, in dem bereits im schmalbandigen Eingangssignal Komponenten enthalten sind, garantiert werden. Hierzu muß lediglich darauf geachtet werden, daß durch die Restsignalerweiterung die Anregungskomponenten des Basisbandes nicht modifiziert werden. Eine nicht-ideale Analysefilte- rung im Sinne einer optimalen linearen Prädiktion hat keine Auswirkung auf das Basisband, wenn Analyse- und Synthesefil- ter exakt invers zueinander sind.
Bei der bisher üblichen Verwendung unterschiedlicher Koeffizientensätze für die Analyse- und Synthesefilterung war es notwendig, das Ausgangssignal des Synthesefilters adaptiv an das schmalbandige Eingangssignal anzupassen, damit beide Signale im Basisband die gleiche Leistung aufweisen. Diese Notwendigkeit der adaptiven Schätzung und Anwendung der hierzu notwendigen Korrekturfaktoren entfällt beim Gegenstand der Erfindung vollständig. Artefakte und Fehler, die aus Fehl- Schätzungen der Korrekturfaktoren herrühren, können somit e- benfalls vermieden werden.
Bevorzugte Weiterbildungen sind Gegenstand der Unteransprüche .
Gemäß einer bevorzugten Weiterbildung werden die Filterkoef¬ fizienten für die Analysefilterung und die Synthesefilterung durch einen Algorithmus aus einem im voraus trainierten Codebuch ermittelt. Hierbei gilt es, für jeden Abschnitt des schmalbandigen Sprachsignals den jeweils bestpassenden Codebucheintrag zu ermitteln.
Gemäß einer weiteren bevorzugten Weiterbildung liegt das abgetastete schmalbandige Sprachsignal im Frequenzbereich 300 Hz bis 3,4 kHz und das breitbandigere Sprachsignal im Frequenzbereich 50 Hz bis 7 kHz. Dies entspricht einer Erweite- rung von Te'lefonbandbreite auf Breitbandsprache.
Gemäß einer weiteren bevorzugten Weiterbildung weist der Algorithmus zur Ermittlung der Filterkoeffizienten folgende Schritte auf:
Aufstellen des Codebuchs unter Verwendung eines Hidden- Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Abhängigkeit vom Zustand beschreibt;
Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor X (m) für einen jeweili- gen Zeitabschnitt m;
Vergleichen des Merkmalsvektors mit den statistischen Modellen; und
Ermitteln der Filterkoeffizienten aufgrund des Vergleichsergebnisses .
Die ermittelten Merkmale können beliebige Größen sein, die aus dem schmalbandigen Sprachsignal berechnet werden können, z.B. Cepstralkoeffizienten, Rahmenenergie, Nulldurchgangsrate etc. Durch die freie Wählbarkeit der aus dem schmalbandigen Sprachsignal zu extrahierenden Merkmale können sehr flexibel verschiedene Eigenschaften des schmalbandigen Sprachsignals zur Bandbreitenerweiterung verwendet werden. Hierdurch wird eine sichere Schätzung der zu erweiternden Frequenzkomponenten ermöglicht.
Die statistische Modellierung des schmalbandigen Sprachsignals ermöglicht es weiterhin, bei der Bandbreitenerweiterung eine Aussage über die erreichbare Erweiterungsqualität zu treffen, da ausgewertet werden kann, wie gut die Übereinstim- mung der Eigenschaften des schmalbandigen Sprachsignals mit dem jeweiligen statistischen Modell ist.
Gemäß einer weiteren bevorzugten Weiterbildung wird beim Vergleichen mindestens eine der folgenden Wahrscheinlichkeiten berücksichtigt:
die Beobachtungswahrscheinlichkeit p(X(m)|Si) des Auftretens des Merkmalsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand S± befindet;
die Übergangswahrscheinlichkeit, daß die Quelle für das abgetastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und
die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands .
Gemäß einer weiteren bevorzugten Weiterbildung wird zum Er- mitteln der Filterkoeffizienten der Codebucheintrag Ci verwendet, für den die Beobachtungswahrscheinlichkeit p(X(m)|S_.) maximal ist.
Gemäß einer weiteren bevorzugten Weiterbildung wird zum Er- mitteln der Filterkoeffizienten der Codebucheintrag verwendet, für den die Verbundwahrscheinlichkeit p(X(m),S_.) maximal ist. Gemäß einer weiteren bevorzugten Weiterbildung erfolgt zum Ermitteln der Filterkoeffizienten eine direkte Schätzung der spektralen Einhüllenden durch die mit der a posteriori Wahr- scheinlichkeit p(S_.|X(m) gewichtete Mittelung aller Codebucheinträge.
Gemäß einer weiteren bevorzugten Weiterbildung wird die Beobachtungswahrscheinlichkeit durch ein Gauß'sches Mischmodell dargestellt.
Gemäß einer weiteren bevorzugten Weiterbildung wird in vorbestimmten Sprachabschnitten die Bandbreitenerweiterung deaktiviert. Dies ist dort zweckmäßig, wo von vorneherein eine feh- lerhafte Bandbreitenerweiterung zu erwarten ist. So .läßt sich verhindern, daß die Qualität des schmalbandigen Sprachsignals z.B. durch Artefakte verschlechtert anstatt verbessert wird.
Im folgenden wird die Erfindung anhand von Ausführungsbei- spielen unter Bezugnahme auf die Zeichnungen eingehender beschrieben.
Es zeigen:
Fig. 1 ein einfaches autoregressives Modell des Prozesses der Spracherzeugung sowie der Übertragungsstrecke;
Fig. 2 das technische Prinzip der Bandbreitenerweiterung nach Carl;
Fig. 3 die Frequenzgänge des Inversfilters und des Synthesefilters für zwei unterschiedliche Laute;
Fig. 4 eine erste Ausführungsform der Bandbreitenerweite- rung gemäß der vorliegenden Erfindung;
Fig. 5 eine weitere Ausführungsform der Bandbreitenerwei- terung gemäß der vorliegenden Erfindung;
Fig. 6 eine Gegenüberstellung der Frequenzgänge eines a- kustischen Front-End und eines Postfilters, das für Hörtests mit hochwertigeren Lautsprechersystemen verwendet wurde;
Fig. 7 ein Hidden-Markov-Modell des Spracherzeugungspro- zesses für 1 = 3 mögliche Zustände;
Fig. 8 eindimensionale Histogramme für die Nulldurchgangsrate;
Fig. 9 zweidimensionale Scatterdiagramme zusammen mit den durch den GMM modellierten Verteilungsdichtefunktionen VDF;
Fig. 10 eine Illustration zur subjektiven Beurteilung von
Sprachsignalen mit verschiedenen Bandbreiten, wobei fgu die untere und fgo die obere Bandgrenze darstellt; und
Fig. 11 typische Übertragungscharakteristiken zweier akustischer Front-Ends.
In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente.
Es sollen zunächst die technischen Randbedingungen der Band- breitenerweiterung erläutert werden, die einerseits die Eigenschaften des Eingangssignals bestimmen sowie andererseits den Weg des Ausgangssignals bis zum Empfänger des Signals d.h. das menschliche Ohr definieren.
Der Teil, der vor dem Algorithmus angesiedelt ist, umfasst die gesamte Übertragungsstrecke vom Sprecher bis in das empfangene Telefongerät, d.h. insbesondere Mikrofon, und Analog- Digital-Umsetzer sowie die Übertragungsstrecke zwischen den beteiligten Telefongeräten.
Im Mikrofon wird das Nutzsignal in der Regel leicht verzerrt. Abhängig von der Anordnung und Position des Mikrofons relativ zum Sprecher sind in dem Mikrofonsignal neben dem Sprachsignal zusätzliche Hintergrundgeräusche, akustische Echos etc. enthalten.
Vor der Analog-Digital-Umsetzung des Mikrofonsignals wird dessen obere Grenzfrequenzdurch analoge Filterung auf maximal die halbe Abtastfrequenz begrenzt - bei der Abtastfrequenz von fa = 8 kHz beträgt die Bandbreite des digitalen Signals also maximal 4 kHz. Die durch die analoge Vorverarbeitung und Quantisierung hinzugefügten Verzerrungen und Störungen seien hierbei vernachlässigbar.
Bei der Betrachtung der Eigenschaften der Übertragungsstrecke müssen zwei Fälle unterschieden werden:
• Bei analoger Übertragung treten Störungen in der Form von Rauschen, Leitungsechos, Übersprechen etc. auf. Zusätzlich wird das Sprachsignal in der Regel für Multiplexstrecken auf den standardisierten Frequenzbereich von 300 Hz bis 3400 Hz bandbegrenzt.
• Erfolgt die Übertragung des Signals hingegen in digitaler Technik, so kann sie im Idealfall als transparent angenommen werden (z.B. im ISDN-Netz). Wird das Signal jedoch zur Übertragung codiert, z.B. für eine Mobilfunkstrecke, so können sowohl nichtlineare Verzerrungen als auch additives Quantisierungsrauschen auftreten. Weiterhin wirken sich in diesem Fall Übertragungsfehler mehr oder weniger stark aus .
Basierend auf den beschriebenen Systemeigenschaften werden im weiteren die folgenden Eigenschaften für das Eingangssignal angenommen:
• Das Sprachsignal ist bandbegrenzt. Die übertragene Bandbreite reicht nach oben im Bestfall bis zu einer Grenzfre- quenz von 4 kHz, in der Regel jedoch nur bis etwa 3,4 kHz. Die Beschneidung der Bandbreite zu tiefen Frequenzen hin hängt von der Übertragungsstrecke ab und kann im Extremfall bei' circa 300 Hz erfolgen.
• Abhängig von der Position des Mikrofons relativ zum Sprecher und von der akustischen Situation auf der Sendeseite sind im Eingangssignal additive Hintergrundstörungen' verschiedener Art zu erwarten.
• Das Sprachsignal kann mehr oder weniger stark verzerrt sein. Diese Verzerrungen hängen von der Übertragungsstrecke ab und können sowohl linearer als auch nichtlinearer Natur sein.
Aus Sicht des Eingangssignals ist eine Erweiterung zu hohen Frequenzen hin in jedem Fall sinnvoll. Tiefe Frequenzen hingegen sind in einigen Fällen bereits im Eingangssignal vorhanden und müssten dann nicht mehr künstlich ergänzt werden; andernfalls ist auch in diesem Bereich eine Bandbreitenerwei- terung sinnvoll. Bei dem Entwurf des Algorithmus zur Bandbreitenerweiterung sollten mögliche Verzerrungen und Störungen berücksichtigt werden, damit eine robuste Lösung erreicht werden kann.
Das Ausgangssignal des Algorithmus zur Bandbreitenerweiterung wird im wesentlichen ins Analoge umgesetzt, durchläuft dann einen Leistungsverstärker und wird schließlich einem akustischen Front-End zugeführt.
Die Digital-Analog Umsetzung kann im Rahmen der Bandbreitenerweiterung als ideal angenommen werden. Der nachfolgende analoge Leistungsverstärker kann dem Signal linare und <
©
O
Q-
W
H
U α.
SO
o o f- r5 o
O
Figure imgf000018_0001
LO o O IT) o uo rH rH CM CM m cn
Das Ausmaß dieses Lecks hängt massgeblich von der Andruckkraft des Hörers ab und kann in gewissen Grenzen vom Teilnehmer kontrolliert werden.
• Im Gegensatz hierzu erscheint eine Erweiterung von
Sprachsignalen zu hohen Frequenzen hin durchaus möglich zu sein. Auch hier sollten allerdings die Eigenschaften des Lautsprechers berücksichtigt werden, da es keinen Sinn macht, eine Vergrößerung der Bandbreite bis beispielsweise 8 kHz anzustreben, wenn schon bei 7 kHz das Signal um über 20 dB gedämpft wird.
Die oben beschriebenen Einschränkungen gelten natürlich nur für Systeme mit den beschriebenen Eigenschaften. Sobald akustische Front-Ends mit verbesserten Eigenschaften eingesetzt werden, wachsen auch die Möglichkeiten einer künstlichen Bandbreitenerweiterung - insbesondere einer solchen, die tiefe Frequenzkomponenten ergänzt.
Durch die Vergrößerung der Bandbreite von Sprachsignalen wird mit der Bandbreitenerweiterung primär eine höhere subjektiv empfundene Sprachqualität angestrebt. Aus der höheren Sprachqualität folgt ein entsprechend größerer Komfort für den Anwender des Telefons. Ein weiteres Ziel ist die Erhöhung der Sprachverständlichkeit.
Bei der Entwicklung eines Algorithmus zur Bandbreitenerweiterung sollten daher die folgenden Aspekte stets berücksichtigt werden.
Die subjektive Qualität eines Sprachsignals darf durch Bandbreitenerweiterung auf keinen Fall verschlechtert werden. In diesem Zusammenhang sind mehrere Teilaspekte relevant.
Das Basisband, d.h. der Frequenzbereich, der bereits im
Eingangssignal vorhanden ist, sollte möglichst gegenüber dem Eingangssignal keine Modifikationen oder Verzerrungen erfahren, da das Eingangssignal in diesem Band bereits die bestmögliche Signalqualität liefert.
Die synthetisch hinzugefügten Sprachkomponenten müssen zu den im schmalbandigen Eingangssignal vorhandenen Signalanteilen passen. Gegenüber einem ensprechenden breitbandigen Sprachsignal dürfen also auch in diesen Frequenzbereichen keine starken Signalverzerrungen erzeugt werden. Als solche Verzerrungen sind auch Veränderungen des Sprachmaterials anzusehen, die eine Identifizierung des Sprechers erschweren.
Schließlich darf, das Ausgangssignal möglichst keine künstlich klingenden Artefake beinhalten.
Die Robustheit ist ein weiteres Kriterium, wobei unter
Robustheit hier verstanden werden soll, dass der Algorithmus zur Bandbreitenerweiterung für Eingangssignale mit variierenden Eigenschaften anhaltend gute Ergebnisse liefert. Insbesondere soll das Verfahren sprecherunabhängig 'sein und für verschiedene Sprachen funktionieren. Weiterhin muss damit gerechnet werden, dass das Eingangssignal additive Störungen enthält oder beispielsweise durch eine Codierung oder Quantisierung verzerrt wurde.
Wenn die Eigenschaften des Eingangssignals zu weit von den spezifizierten Vorgaben abweichen, sollte der Algorithmus die Bandbreiteherweiterung deaktivieren, damit auf keinen Fall die Qualität des Ausgangssignals zu stark verschlechtert wird.
Bandbreitenerweiterung ist nicht in allen Situationen und für alle Signalarten machbar. Die Möglichkeiten werden einerseits durch die Beschaffenheit der physikalischen Umgebung sowie andererseits duch die Eigenschaften der Signalquelle, d.h. für Sprachsignale des Spracherzeugungsprozesses beschränkt.
Eine deutliche Grenze wird der Bandbreitenerweiterung durch die Eigenschaften des akustischen Front-End gezogen. Die Übertragungseigenschaften typischer Lautsprecher in handelsüblichen Telefonapparaten ermöglichen es kaum, tiefe Frequenzen bis in den Bereich der Sprachgrundfrequenz herunter abzustrahlen.
Eine Extrapolation von Frequenzkomponenten ist nur dann möglich, wenn sie anhand eines Modells der Signalquelle vohergesagt werden können. Die Beschränkung auf die Behandlung von Sprachsignalen bedeutet, dass zusätzliche
Signalkomponenten, die durch die tief- oder Bandpaßfilterung des breitbandigen Originalsignals verloren gegangen sind (z.b. akustische Effekte wie Hall oder hochfrequente Hintergrundgeräusche) i.a. nicht rekonstruiert werden können.
Im folgenden ist auf folgende Konvention zu achten:
• Es werden häufig Signale mit den beiden Abtastraten fa = 8 kHz sowie fa* = 16 kHz definiert. Um eine einfache Unterscheidung zu ermöglichen, werden alle Zeit- und
Frequenzindizes, die sich auf die höhere Abtastrate fa' beziehen, mit einem Hochkomma versehen. Ein Signal x(k) wäre beispielsweise mit 8 kHz abgetastet, während das Signal y(k') mit 16 kHz abgetastet ist.
• Bei Signalen, bei denen die Bandbreite eindeutig ist, wird diese durch ein tiefgestelltes nb für schmalbandig oder wb für breitbandig gekennzeichnet. Zu beachten ist, dass schmalbandige Signale (mit nb markiert) auch mit der hohen Abtastrate fa- kombiniert werden können.
Als Ausgangspunkt der beschriebenen Ausführungsform der Erfindung wird der Algorithmus von Carl (H. Carl, „Untersuchung verschiedener Methoden der Sprachcodierung und eine Anwendung zur Bandbreitenvergrößerung von Schmalband-Sprachsignalen", Dissertation, Ruhr-Universität Bochum, 1994) gewählt. Zunächst wird die Erzeugung neuer Spr.achsignalkomponenten beschrieben. Die Basis für sämtliche hier beschriebenen Methoden besteht in einem einfachen autoregressiven (AR) Modell des Spracherzeugungsprozesses . Die Signalquelle setzt sich bei diesem Modell aus nur zwei zeitvarianten Teilsystemen zusammen, wie in Fig. 1 dargestellt.
Das aus dem ersten Anregungserzeugungsteil AE (entsprechend der Lunge und den Stimmbändern) resultierende Anregungssignal xwb(**') ist nach den Modellvorstellungen spektral flach und weist bei stimmlosen Lauten eine rauschartige Charakteristik auf, während es bei stimmhaften Lauten eine harmonische Pitchstruktur besitzt.
Durch den zweiten Teil des Modells wird der Vokaltrakt bzw.
Sprachtrakt ST (Mund- und Rachenraum) als ein rein rekursives
Filter 1/A(z') modelliert. Dieses Filter prägt dem Anregungssignal xwb(&') die grobe spektrale Struktur auf.
Durch die Variation der Parameter ΘAnregung und ΘspraChtra..t der beiden Teilsysteme entsteht das zeitvariante Sprachsignal swh(k') . Die Übertragungsstrecke wird durch ein einfaches zeitinvariantes Tiefpass- bzw. Bandpassfilter TP mit der Übertragungsfunktion HÜS(Z') modelliert. Das resultierende schmal- bandige Sprachsignal, wie es dem Algorithmus zur Bandbreitenerweiterung zur Verfügung steht, ist snb(k) , das in der Regel nach einer Reduktion der Abtastfrequenz RA um den Faktor 2 mit einer Abtastrate von /a = 8 kHz vorliegt.
Der erste Schritt bei der Bandbreitenerweiterung besteht in einer Segmentierung des Eingangssignals snb(/) in Rahmen mit einer Länge von jeweils K Abtastwerten (z.B. K = 160). Sämtliche nachfolgenden Schritte und Teilalgorithmen werden durchweg rahmenbezogen durchgeführt. Ein Signalrahmen bei er- höhter Abtastfrequenz /aι = 16 kHz hat die doppelte Länge K' = 2K. Anschließend wird nun, motiviert durch das einfache Modell des Spracherzeugungsprozesses, zunächst das Eingangssignal snb(k) in die beiden Komponenten Anregung und spektrale Einhüllendenform aufgespalten. Diese beiden Komponenten können anschließend unabhängig voneinander bearbeitet werden, wobei die genaue Arbeitsweise der hierzu eingesetzten Teilalgorithmen an dieser Stelle zunächst noch nicht definiert werden muss - eine detaillierte Beschreibung folgt später.
Die Aufspaltung des Eingangssignals kann in verschiedenen Varianten durchgeführt werden. Da die gewählten Varianten unterschiedliche Einflüsse auf die Transparenz des Systems im Basisband hat, werden sie erst nachfolgend detailliert einander gegenübergestellt.
Die prinzipielle Vorgehensweise sieht so aus, dass das Eingangssignal durch ein adaptives Filter Hι(z) spektral flacher, also "weißer" gemacht wird. Nachdem die so berechnete Schätzung xnb(&) des schmalbandigen Anregungssignals spektral erweitert wurde (Restsignalerweiterung) , dient sie als Eingangssignal eines spektralen Gewichtungsfilters Hs(z'), mit dessen Hilfe dem nun breitbandigen Restsignal xwb(/V) die inzwischen ebenfalls erweiterte, d.h. breitbandige spektrale Einhüllendenform aufgeprägt wird, wie in Fig. 2 dargestellt.
Eine Forderung an Algorithmen zur Bandbreitenerweiterung besteht darin, dass Signalkomponenten, die schon im Eingangssignal vorhanden sind, abgesehen von einer Signalverzögerung τ, durch das System nicht verzerrt oder modifiziert werden, d.h. es soll gelten
SΛ(z HOS(rf) =SÄ(z,)(zTτ.
Dieses Ziel kann näherungsweise auf verschiedene Weisen er- reicht werden, die in nachfolgend erläutert werden sollen.
Exemplarisch soll die Erweiterung der spektralen Einhüllenden durch ein Codebuch-Verfahren erfolgen. Als nächstes wird die Mischung mit dem Eingangssignal beschrieben.
Die erste bekannte Variante gemäß Fig. 2 sieht vor, dass das schmalbandige Eingangssignal sDb (k) hierbei zunächst einer
LPC-Analyse (Linear Predictive Coding, siehe z.B. J.D. Mar- kel, A.H. Gray, „Linear Prediction of Speech", Springer- Verlag, 1976) in der Einrichtung LPCA unterzogen wird.
Bei der LPC-Analyse werden für einen Sprachrahmen s^[κ) die Filterkoeffizienten &nb {κ) eines nicht-rekursiven Prädiktionsfilters A(z) in solcher Weise optimiert, dass die Leistung des Ausgangssignals
Figure imgf000024_0001
sjlb )(>r) * anb(Λ:) dieses Prädiktionsfil- ters minimal wird
Figure imgf000024_0002
Diese Leistungsminimierung führt dazu, dass das Frequenz- spektrum des Restsignals xnb(c) flacher bzw. "weißer" wird als das Frequenzspektrum des Ursprungssignals snb(/) . In den Filterkoeffizienten a.nb(κ) steckt die Information über die spektrale Einhüllende des Eingangssignals. Für die Berechnung der optimierten Filterkoeffizienten &nb(κ) wird z.B. der Levinson- Durbin-Algorithmus verwendet.
Die durch die LPC-Analyse LPCA ermittelten Filterkoeffizienten Anb(z) dienen als Parameter für ein Inversfilter IR
Hι(z) = Änb(z),
in das das schmalbandige Sprachsignal eingegeben wird - das Ausgangssignal %-nb (k) dieses Filters ist dann die gesuchte spektral flache Schätzung des Anregungssignals und liegt in schmalbandiger Form, d.h. mit der geringen Abtastrate /a = 8 kHz vor. Nachdem nun einerseits das Restsignal im Block Restsignalerweiterung RE und andererseits die LPC-Koeffizienten im Block Einhüllendenerweiterung EE spektral erweitert wurden, können sie als Eingangssignal xwb(&') bzw. Parameter
Ab(z') für das nachfolgende Synthesefilter SF
Figure imgf000025_0001
verwendet werden.
Da durch die beschriebene Vorgehensweise mittels LPC-Analyse die Schätzung nb (k) des bandbegrenzten Anregungssignals die
Forderung nach spektraler Flachheit sehr gut erfüllt, ist bei dieser ersten Variante eine gute Formung der neu synthetisierten Bandbereiche möglich; die groben spektralen Strukturen in diesen Bereichen hängen bei weißem Restsignal primär von den Vorgaben der Einhüllendenerweiterung ab.
Auf das Basisband hingegen wirkt sich das Verfahren eher negativ aus. Da für das Inversfilter Hτ(z) und das nachfolgende Synthesefilter Hs(z'), je nach Einhüllendenerweiterung, Fil- terkoeffizienten eingesetzt werden, die nicht ideal invers zueinander sind, wird die Einhüllendenform im Basisbandbereich in der Regel mehr oder weniger stark verzerrt. Wird beispielsweise die Einhüllendenerweiterung durch ein Codebuch durchgeführt, so entspricht das Ausgangssignal s^^') des Sys- tems im Basisband einer Variante des Eingangssignals snb(), bei der die Einhüllendeninformation vektorquantisiert wurde.
Da diese, teilweise signifikanten, Verzerrungen des Basisbandsignals nicht akzeptiert werden können, müssen die ver- schiedenen Frequenzanteile des Ausgangssignals separat behandelt und am Ausgang des Systems gemischt werden.
• Das durch die oben beschriebene Weise bandbreitenerweiterte Signal wird durch ein Bandstopfilter BS mit der Funktion HBs(z') von allen Frequenzanteilen, die inner¬ halb des Basisbandes liegen, befreit. Das Bandstopfilter BS muss also einen Frequenzgang aufweisen, der an die Charakteristik des Übertragungskanals und damit des Eingangssignals angepasst ist, d.h. es sollte möglichst die Übertragungsfunktion
HBS(Z') = 1 - HÜS(Z')
besitzen.
• Das schmalbandige Eingangssignal wird zunächst durch das Einfügen von' ullwerten und evtl. eine Tiefpassfilterung auf die erhöhte Abtastrate am Ausgang des Systems interpoliert. Anschließend werden durch ein Bandpassfilter BP mit der Funktion HBp(z') wiederum alle Signalkomponen- ten, die außerhalb des Basisbandes liegen, entfernt, d.h.
HBP ( z ' ) = H0s ( z ' ) •
Das bei der Interpolation verwendete Filter kann in der Regel entfallen, da die Aufgabe der Anti-Aliasing- Filterung durch den Bandpass BP übernommen werden kann.
Die Mischung der beiden Teilsignale snb(&') und
Figure imgf000026_0001
erfolgt am Ausgang des Systems durch eine einfache Additionseinrichtung ADD. Damit bei dieser Addition keinerlei Fehler auftreten, ist es wichtig, dass die beteiligten Teilsignale korrekt aneinander angepasst werden.
Um grobe Phasenfehler zu vermeiden, ist es notwendig, die beiden parallelen Signalpfade sorgfältig in der Laufzeit einander anzugleichen. Dies kann durch ein einfaches Verzögerungsglied erfolgen, das in denjenigen der beiden Pfade eingefügt wird, der die geringere algorithmische Verzögerung be- wirkt. Die Laufzeit dieses Verzögerungsgliedes muss so einge¬ stellt werden, dass die GesamtlaufZeiten beider Signalpfade exakt gleich sind. Weiterhin ist eine Abstimmung der Leistungen der beiden Teilsignale snb(A:') und swi(:') für die Qualität des Ausgangssignals b (k') von entscheidender Bedeutung. Durch die Bandbreitenerweiterung kann an verschiedenen Stellen die Leistung des Signals beeinflusst werden; dem Verhältnis der Leistungen im Basisband und in den synthetisierten Bereichen muss daher Beachtung geschenkt werden. Diese zunächst einfach klingende Aufgabe kann in zwei Teilprobleme aufgespalten werden:
• Der Block Restsignalerweiterung muss in solcher Weise arbeiten, dass trotz der Erhöhung der Abtastrate die Leistung des Basisbandes im Ausgangssignal exakt der Leistung des Eingangssignals entspricht.
• Durch die Invers- und Synthesefilterung mit nicht exakt zueinander inversen Filtern entsteht in der Regel eine Leistungsveränderung des Signals, die von den Frequenzgängen der beiden Filter abhängt. Dieser Umstand soll anhand Fig. 3 verdeutlicht werden.
In Fig. 3 dargestellt sind für zwei unterschiedliche Laute (stimmhaft und stimmlos) die Frequenzgänge des zugehörigen Inversfilters Hτ(z) sowie des Synthesefilters Hg(z') jeweils innerhalb eines Koordinatensystems dargestellt. Entsprechend ihrer Aufgabe sind die Filter so entworfen, dass sie lediglich die Einhüllendenform verändern. Die Stoßantworten h(k) sind daher so normiert, dass der erste Filterkoeffizient jeweils den Wert h(0) = 1 besitzt. Im Frequenzbereich drückt sich diese Tatsache so aus, dass der Frequenzgang H (e7'Ω] jedes Filters vertikal so verschoben ist, dass das Integral über den gesamten Frequenzbereich einem festen Wert entspricht, wie anhand der Vorschrift für die Fourier-Transformation leicht nachvollzogen werden kann
Figure imgf000027_0001
Wenn nun die Frequenzgänge eines Paares aus zusammengehörigen Invers- und Synthesefiltern betrachtet werden, so kann beobachtet werden, dass im Basisband eine Diffe- renz zwischen breit- und schmalbandigem Filter besteht. Die Größe dieser Differenz hängt von den Frequenzgängen der beiden Filter ab und lässt sich nicht auf einfache Weise vorhersagen. Die Differenz führt dazu, dass sich bei der Verkettung eines solchen Filterpaares eine Leis- tungsveränderung im Basisband ergibt: Bei den dargestellten Beispielfrequenzgängen würde sich bei dem stimmhaften Laut die Leistung im Basisband erhöhen, während sie bei dem stimmlosen Laut abgesenkt würde. Wird nun ohne weitere Maßnahme das Original-Basisbandsignal Sπb mit den so erstellten Erweiterungen gemischt, gerät (durch den gleichen Mechanismus) die Abstimmung zwischen den beiden Komponenten durcheinander.
Als Gegenmaßnahme muss das bandbreitenerweiterte Signal ^wb i^' mi-t einem Korrekturfaktor ζ multipliziert werden, der diese Leistungsmodifikation wieder ausgleicht. Ein solcher Korrekturfaktor hängt von der Form der Frequenzgänge eines Filterpaares ab und lässt sich somit nicht fest vorgeben. Insbesondere durch die hier verwendete LPC-Analyse ergibt sich die Schwierigkeit, dass der Frequenzgang des Inversfilters Hτ(z) nicht a priori bekannt ist.
Es kann jedoch die Leistung der Basisbandkomponenten des bandbreitenerweiterten Signals ?w6(&') mit der Leistung des interpolierten Eingangssignals snb(k') verglichen werden. Dieses Verhältnis muss für eine korrekte Abstimmung der Signalanteile zu Eins werden
K'-l ! K'-l
∑∑((^swb((κ^'))**h^as((κ^'))))22 == ∑∑((^(^))2, κ'=0 κ'=0 so das sich der Korrekturfaktor ζ aus der Wurzel des Kehrwertes dieses Leistungsverhältnisses bestimmen lässt
Figure imgf000029_0001
Die Bestimmung eines Korrekturfaktors durch diese Vorschrift bedingt eine zusätzliche Filterung des bandbreitenerweiterten Signals $wb (k') mit einem Bandpassfilter, dessen Übertragungsfunktion derjenigen der Übertragungs- strecke Htrs ( z ' ) entspricht.
Eine Vereinfachung gegenüber der zuvor beschriebenen Variante lässt sich erreichen, indem auf die dort notwendige, anfängliche LPC-Analyse verzichtet wird. Das Blockschaltbild des daraus resultierenden Ausführungsbeispiels der Erfindung ist in Fig. 4 illustriert.
Die Parameter des ersten LPC-Inversfilter IF mit der Funktion
Hτ(z) werden nun nicht mehr durch eine LPC-Analyse des Ein- gangssignals snb() vorgegeben, sondern - ebenso wie die Parameter des Synthesefilters Hs(z') - durch die Einhüllendenerweiterung EE. In diesem Block kann nun eine Abstimmung der beiden Parametersätze Anb(z) und Awb(z') aufeinander erfolgen, d.h. die Qualität der Inversfilterung wird etwas reduziert auf Kosten einer besseren Übereinstimmung der Frequenzgänge von Invers- und Synthesefilter im Basisband. Eine mögliche Realisierung kann z.B. in der Verwendung parallel erstellter, aber separater Codebücher für die Parameter der beiden Filter liegen. Es werden dann aus beiden Codebüchern zu einer Zeit immer nur Einträge mit identischem Index i eingesetzt, die beim Training in entsprechender Weise aufeinander abgestimmt wurden.
Der Zweck der Abstimmung der Parameter des Filterpaares Hι(z) und Hs(z') besteht darin, im Basisband eine größere Transpa- renz zu erreichen. Dadurch, dass Invers- und Synthesefilter nun im Basisband annähernd invers zueinander sind, werden Fehler, die bei der Inversfilterung IF entstehen, durch das nachfolgende Synthesefilter SF wieder behoben. Wie erwähnt, sind die Filterpaare jedoch auch bei dieser Struktur nicht perfekt invers zueinander; leichte Differenzen lassen sich durch die unterschiedlichen Abtastraten, bei denen die Filter arbeiten, sowie durch die deswegen notwendigen voneinander abweichenden Filterordnurigen nicht vermeiden. Die Folge ist, dass das Sprachsignal swb (k') im Basisband gegenüber der ersten Variante verzerrt wird.
Eine weitere Fehlerquelle liegt darin, dass das Restsignal xnb(k) des Inversfilters Hι(z) nicht weiter in allen Frequenz- bereichen weiß ist. Dies erfordert entweder eine ausgeklügelte Restsignalerweiterung oder führt zu Fehlern in den neu generierten Frequenzbereichen.
Als Vorteil dieser Ausführungsform lassen sich einige Einspa- rungen verbuchen:
• Zunächst fallen die Bandstop- und Bandpassfilter HBs(z') und HBP(Z') weg, die bei der ersten Variante notwendig waren, um die Transparenz im Basisband zu gewährleisten. Mit ihnen entfällt auch die notwendige Rechenleistung sowie die durch die Filter erzeugte Signalverzögerung.
• Weiterhin ist die Anpassung der Signalleistungen erheblich weniger aufwendig. Fehler der Signalleistung wirken sich hier nur in der Gesamtleistung des Ausgangssignals aus und würden einem Hörer erst im Vergleich mit dem schmal- oder breitbandigen Originalsignal auffallen.
• Auch bei dieser Variante werden das Invers- und das Syn- thesefilter mit unterschiedlichen Abtastraten betrieben.
Hieraus resultiert, wie schon bei der ersten Variante, die Notwendigkeit eines Korrekturfaktors ζ, da sonst ab- hängig von dem momentan gesprochenen Laut die Signalleistung variiert. Die Ermittlung eines solchen Faktors ist in diesem Fall jedoch erheblich einfacher, da die Frequenzgänge der Filterpaare schon im Voraus bekannt sind. Der zu dem i-ten Filterpaar
Figure imgf000031_0001
(z') eines
Codebuches zu erwartende Korrekturfaktor i kann daher auch schon im Voraus berechnet werden und beispielsweise im Codebuch abgelegt werden.
Eine weitere alternative Ausführungsform der Erfindung ist in Fig. 5 skizziert. Gegenüber der ersten Ausführungsform ergibt sich zwar kaum eine Veränderung der erforderlichen Rechenleistung, aber die Modifikationen haben* einen deutlichen Ein- fluss auf die Qualität des Ausgangssignals.
Im Gegensatz zu der ersten Ausführungsform werden bei der hier vorgestellten Struktur sowohl das Inversfilter Hι(z') als auch das Synthesefilter HΞ(z') mit der gleichen Abtastrate von aι = 16 kHz betrieben. Dies ermöglicht es, die Fil- terkoeffizienten so einzustellen, dass die beiden Filter exakt invers zueinander sind, d.h. es gilt
Hs(z') =—-— . * H}(z')
Durch dieses Verhalten kann einerseits die geforderte Eigenschaft der Transparenz im Basisband erheblich besser gewährleistet werden, da nun sämtliche Fehler, die durch die Inversfilterung im Basisband erzeugt werden, im Synthesefilter wieder rückgängig gemacht werden. Auf der anderen Seite kann wegen dieser Maßnahme bei der Entwicklung des Algorithmus zur Einhüllendenerweiterung eine weniger aufwendige Lösung gewählt werden.
Ein signifikanter Vorteil der Verwendung exakt zueinander in- verser Filter besteht außerdem darin, dass nun keinerlei 1 1 φ
-H 1 1 SH to | 1 SH 1 1 -H 1
1 . tn Φ 4-1 Φ Φ 1 SH
-H TJ 1 X. -vT Φ to φ TJ d -H SH tn
< -H 4-> Φ CO O 5 CO x; to Φ Φ 0 • XX Φ φ tn Φ 4-> Φ d
TJ d -H Φ > Φ υ Ö> d H 4J to φ tö n 1 :3 N :0 Φ 4-> rö TJ 3 o d fÖ & pe; -μ -H 3 -H d 4-1 -H O tn rH rH SH 4-J N Öl d SH N -H SH M U φ N Φ tn TJ -H φ tö -H φ > :3 t rH CL d X! PC d Φ d 3 SH TJ Φ -H tn Φ
O 5 d d o 4-1 -H SH tn 3 4H d fÖ CΛ o υ - -H tn Φ M Φ 4-J 4H d 4->
Q- 4-1 φ Φ rö rö 4-1 d to φ d -H rH Φ tn > Φ to Φ 4-J > -H -H 3 -H ω O 3 tn T SH X Φ to PQ -H TJ
H φ φ tn -H CO to SH CM tö tn ; d i-H d Φ H Φ
H d Ö1 d 4-J υ tn (Ö fri Φ PQ tn d to CO rö . . -H Φ -H f Φ 3: O X 3:
U φ 3 w to - d TJ 3 co rö co 3 -H to X! Φ -H X! ( i TJ PQ m rH rH Φ 4H Φ d TJ M s :3 SH α. H SH -^ fö • C-, φ υ CL . H << -H 4H tn SH Φ 4H Φ x^ fr* d f -P , SH ^ rö 4-> rö 4H 4-J N φ Φ to frl X -H Φ d d CO d φ :rö TJ XI υ Φ d d TJ tn SH φ H φ co — - -P 4-J d u cn £ Φ Φ 3 Φ
3 d H =3 J Φ φ φ
S φ 4H D. -H -H rH -H O φ d 3 4-> X rt TJ φ x: H d TJ 4-J co -H > tn φ tö SH 4-J -H O d
V_P 4-> ü φ Φ :rÖ SH d co H TJ 3 CΛ 4-1 Φ ! -H Φ rH O 4-1 CO 3= d fr* H d 4-1 Φ SH Φ rö d Φ
SH CO x: Φ X! SH Φ φ fö H fr. d co to d Φ PQ cΩ, rö Öl 4-1 d Φ SH 4H φ rH d φ d ü X! φ 5 d TJ 0 -H co Φ o rH 3 CO rö rH 3 tn -H 4-J X. d rH H
Φ -H -H fÖ O tn > o SH > d TJ -H φ 1 Φ Φ 3 O Φ d Φ 3 T -H rH =3
SH to fr. to x; d 4-> & »_ Φ H O 4-J Öl Φ TJ -H co to N -H :rö d Φ φ X!
O -H 4-J 3 d Φ 3 o N 4-> Φ -H tn rö φ >H TJ 3 SH SH H i-H rö -H d
4-1 4-1 d rö 4-J SH φ 4-J o 3 N PC x; 4-1 d rH C-, 4H X rt Φ X! -H SH X! Φ N -H
M Φ Φ EH -H ' Φ rH X . fÖ M d rö rö 3 O N υ 4H d Φ Φ to Φ fr] fö x: tn 3 -P rH υ co SH φ TJ rH N CL SH d -H H co φ tn N 4-1 ω Φ CL
4H 4-> -H φ -H φ fÖ tn O S£>
H o d Φ Φ φ rö Φ SH d 4-J X! d Φ -H o TJ
SH d tn -H d φ -H Φ d > rH tn to CL Φ Φ TJ SH SH TJ Öl Φ 3 o ü Φ TJ Q d
3 P>1 :3 Q 3 3= CL -Q 3
4H d SH φ co SH SH 4-) O φ d -H H SH rö 3 3
4-J to -H tn 4-1 II X. 3 φ Ö d d X rH -H SH φ 4-> P-3 x: 4-> • Φ ! tn . Φ N x; φ • N TJ 3 4-J Φ M H Φ to φ H φ 4-1 o fÖ :rö d TJ 1
Φ 3 d 3 co rH d υ SH TJ 4-J d (ti d X! SH tn -H Φ rH -H 4-1 d d 4-> Φ rH o SH φ -H SH SH rö -H o d d Φ H f*. rö "*-. φ H TJ d . Φ d Q* tn o φ CO Φ cQ -H r d rö
SH d SH o φ d SH TJ rt, -H CO XJ M d Φ tn X! tö co 4-1 5 Φ TJ rö rH rH o d
O Φ 4H 4-J tn CL Φ to d υ Φ rö TJ d O tn -H d H TJ S rö O > tn
X, SH tn co rH -H -i—i X! 3 d o Φ d PQ -H Φ -H 3 φ CO SH 3 co -H
Φ tn -H to Φ υ d SH -H > H -H d SH Φ Φ PQ φ N d 4-J φ Φ α J co x; TJ d d 4H 4-1 d CO -H Φ O 4-> Φ SH rö Φ tn 3 Φ XJ μ d d d 4-J υ φ 3 CO to -H CO rH T 4H H O
SH Φ co Φ tn d :D 3 4-J d 4-1 υ g Φ Φ -H
SH 4-1 X SH SH φ Φ 3 tn d to
:fÖ υ rö 4-> o Öl TJ d -H φ t Φ -H -H -H TJ d φ to Φ •
3 X Φ i ; 3 -H rö tn S rö tn d Φ φ H H TJ -H d φ PS Φ Φ to C-, tn
T 4-) -H :3 > Tj x: d N SH d 3 d u to Φ Φ -H SH H -H g co d -H
-H Φ 4H d SH SH to φ H 3 4-> 3 SH o d -H tn TJ d 3 Φ X • φ x: (3 φ Φ SH tn tn rH i-H co H Φ Φ frl rH o SH to tn φ > 3 Φ •H φ 3 TJ TJ 4-1 υ o X 3 3 d d rö 3 TJ X! > XJ rö rö 4J SH 3s φ co * — TJ φ d d •-i co d SH x; N :rö
3 3 CO rö :3 «Ä 4-1 SH -H tn Φ co d co SH tn rö -H -H SH Φ φ 4-J X co φ Φ -H co A4 co 4H s X! 4-1 Φ -H TJ X -H fÖ 4H Φ rH PQ CO 4H Φ tn > -H d X to -H d TJ Φ -P 3 " ' Φ to CO H ? tn SH υ φ TJ cΩ, rH CO . > H SH Φ rö f H T φ X! H 3 § T 3 φ SH d o -H rö 3 fÖ Φ SH d X X ' — *• O 3 d
CL Φ 4-J φ X <S*! d rH d -Q Φ :rö 4H Φ d o TJ rt -H rö 0 0 d tö Λ; tn X 3 d TJ d co M to TJ 4-J rö rö Φ :D d X! d rH O co 3 TJ X! -H -H Φ £ v — ' rH 4-> f φ - — co SH -H rH X! φ d 4-> Φ Λ tn X! d -H tn 4-1 t rH "1 -H TJ o -d x; φ π: 3 O SH rö co 4-1 tn x: d 4-> rt H υ -H . — . JC - rö rH > <&_ SH d c_ tn υ φ <x 3 4H o d -H -H -H :0 φ -H φ Φ to 4H φ d d υ to i-H 4-1 o -H o Φ o d -H 4-1 SH tn tn t Φ t X! rH Φ . -H > 3 co φ Φ H to O -H CO 4-> co φ tn X f- 3 rH (0 φ rH φ rH -H rö S X SH rö SH d TJ rH rö tn 4-1 3 :rö CL 3 M i-H TJ H Φ
4-1 tn φ TJ fÖ -P rö to PQ N υ Φ 4-) X φ co rö 4J f M T H H 4-1 Φ rö rö tn r5 to :3 XI d tn rH 4-J rö -H TJ J TJ tn d _~. -H SH φ X! Φ tn N -ι— 1 d d rH o 4-1
-H 4-> N -H tn Φ d -H CO to Φ SH SH tn d SH d d tn N Φ -P 4H d υ 4-) d 4-1 -Q tn φ -H -H
O Φ CO Φ φ φ -H -H φ φ Φ Φ -r-l CiΦ -H rö φ -H -H -H PC SH Φ 4H φ fÖ d 3 Φ 3 -H d φ φ
I-H -H PQ rH X! to rH TJ H α. TJ Q to d TJ co 5 co TJ to M X X5 fr] TJ d H H μ> to CΛ o EH 5 m o o LO o IT) rH H PO
Bei einigen Lautübergängen lassen sich an Grenzen zwischen zwei Rahmen Knackgeräusche wahrnehmen. Diese Artefakte entstehen durch das abrupte Umschalten zwischen zwei stark unterschiedlichen Einhüllendenformen. Der Effekt ist daher insbesondere dann dominant, wenn ein Codebuch mit geringer Größe I eingesetzt wird, da sich Lautübergänge weniger fein modellieren lassen, je stärker sich die einzelnen Einträge des Codebuchs voneinander unterscheiden.
Eine oft gegen solche Fehler eingesetzte Methode .(z.B. in der Sprachcodierung) besteht darin, jeden Sprachrahmen (z.B. mit 10 ms Dauer) in mehrere Unterrahmen (Dauer z.B. 2.5 oder 5 ms) zu unterteilen und die für diese Unterrahmen verwendeten Filterkoeffizienten Anb (z) bzw. Awb(z') durch eine Interpolation oder Mittelung der für die Nachbarrahmen ermittelten Filterkoeffizienten zu berechnen. Für eine Mittelung ist es vorteilhaft, die Filterkoeffizienten in eine LSF-Darstellung zu überführen, da bei einer Interpolation in dieser Beschrei- bungsform die Stabilität der resultierenden Filter garantiert werden kann. Eine Interpolation der Filterparameter bringt den Vorteil mit sich, dass die insgesamt realisierbaren Ein- hüllendenformen sehr viel zahlreicher werden, als die ansonsten durch die Größe I des Codebuchs fest vorgegebene grobe Unterteilung.
Die Grundlage für den Ansatz der Mittelung von Filterkoeffizienten besteht in der Beobachtung, dass der menschliche Sprachtrakt eine gewisse Trägheit besitzt, d.h. sich nur in endlich kurzer Zeit auf einen neuen Sprachlaut umstellen kann.
Für die Aneinanderkettung der für die Unterrahmen berechneten Ausgangswerte wurden mehrere Möglichkeiten untersucht:
• Die naheliegendste Lösung besteht darin, aneinanderstoßende Unterrahmen zu verwenden. Ein Sprachrahmen wird dabei in nicht überlappende Unterrahmen zerlegt, die getrennt voneinander prozessiert und am Schluss wieder an- einandergekettet werden. Bei dieser Variante müssen die Filterzustände von Inversfilter Hι(z) und Synthesefilter Hs(z') jeweils an den nachfolgenden Unterrahmen weitergegeben werden*.
• Lässt man zu, dass die einzelnen Unterrahmen einander teilweise überlappen, so muss bei der Zusammensetzung der Unterrahmen zum Ausgangssignal eine Overlap Add
Technik zum Einsatz kommen. Das für jeden Unterrahmen berechnete Ausgangssignal wird daher zunächst mit einer Fensterfunktion (z.B. Hamming) gewichtet und anschließend in den überlappenden Bereichen mit den entsprechen- den Bereichen der Nachbarrahmen addiert. Bei dieser Variante dürfen die Filterzustände nicht von einem zum nächsten Unterrahmen weitergegeben werden, da sich die Zustände nicht auf das gleiche, fortgesetzte Signal beziehen.
Weiterhin wurden Untersuchungen bezüglich der optimalen Einflusslänge der Interpolation durchgeführt. Hierbei wurde die Zahl der benachbarten Sprachrahmen, aus denen jeweils ein neuer Filterparametersatz berechnet wurde, im Bereich von 2 (d.h. Mittelung ausschließlich aus den direkten Nachbarn) -bis 10 variiert.
Je größer das Interpolationsfenster gewählt wird, desto stärker werden Artefakte und Fehler gemildert, die durch eine fehlerhafte Zuordnung bei der Einhüllendenerweiterung erzeugt werden. Andererseits wird die Qualität des Ausgangssignals bei einigen schnellen Lautübergängen verschlechtert. Die Zahl der für die Mittelung herangezogenen Nachbarrahmen sollte daher möglichst klein gehalten werden.
Die besten Ergebnisse wurden mit einer Variante gefunden, bei der für die Unterrahmen die ursprüngliche Rahmengröße K' bei- behalten wird, aber jeder Sprachrahmen in zwei Unterrahmen unterteilt wird, die also um jeweils die halbe Rahmengröße
K'/2 mit den beiden Nachbarunterrahmen überlappen. Die Berechnung des Ausgangssignals swb(k') wird dann mit dem Overlap Add Verfahren durchgeführt. Durch diese Maßnahme verschwinden die knackenden Artefakte völlig.
Zur Steuerung des Ausmaßes der Bandbreitenerweiterung kann dem Algorithmus als letzte Stufe ein Filter HPF ( z ' ) nachge- schaltet werden, das im folgenden als Postfilter bezeichnet wird. Hier wurde das Postfilter durchweg als Tiefpassfilter realisiert.
• Die obere Grenzfrequenz des Ausgangssignals swb(k') kann durch ein steilflankiges Tiefpassfilter mit fester
Grenzfrequenz definiert werden. Ein solches Filter mit einer Grenzfrequenz von 7 kHz beispielsweise hat sich als nützlich erwiesen, um tonale Artefakte zu verringern, die bei einer spektralen Spiegelung aus den leis- tungsstarken tiefen Sprachfrequenzen entstehen. Insbesondere hochfrequentes Pfeifen bei der Nyquistfrequenz /a*/2, das (je nach eingesetztem Verfahren zur Restsignalerweiterung) aus einem Gleichanteil des Eingangssignals snb(k) resultieren kann, wird wirkungsvoll unter- drückt.
• Artefakte und Störungen, die über einen weiten Bereich der neu synthetisierten Frequenzkomponenten verteilt sind, können wirkungsvoll mit Hilfe eines Tiefpassfil- ters kontrolliert werden, welches eine nur langsame Zunahme der Dämpfung zu hohen Frequenzen hin bewirkt.
Es kann beispielsweise ein einfaches FIR Filter achter Ordnung eingesetzt werden, das bei 4.8 kHz eine Dämpfung von 6 dB und bei 7 kHz eine Dämpfung von etwa 25 dB er¬ reicht, wie in Fig. 6 illustriert. Ähnliche tiefpassartige Eigenschaften können auch bei vielen akustischen Front-Ends beobachtet werden, sind also im realisierten System in der Regel ohnehin, d.h. auch ohne explizit eingesetztes digitales Postfilter vorhanden.
Als nächstes wird der Teilalgorithmus der Restsignalerweiterung beschrieben. Das Ziel der Restsignalerweiterung besteht darin, aus der in schmalbandiger Form vorliegenden Schätzung xnb(k) der Anregung des Sprachtraktes die entsprechende breit- bandige Anregung zu ermitteln. Diese Schätzung xwb(k') des Anregungssignals in breitbandiger Form dient anschließend als Eingangssignal für das nachfolgende Synthesefilter Hs(z').
Wegen des zugrundeliegenden Modells der Spracherzeugung können sowohl für das Eingangs- als auch für das Ausgangssignal der Restsignalerweiterung bestimmte Eigenschaften angenommen werden.
• Das Eingangssignal xπb(k) des Teilalgorithmus der Restsignalerweiterung entsteht durch die Filterung des schmalbandigen Sprachsignals snb(k)*mit dem FIR Filter
Hj(z), dessen Koeffizienten durch eine LPC-Analyse oder durch eine Codebuchsuche vorgegeben werden. Als Resultat weist das Restsignal eine flache bzw. annähernd weiße spektrale Einhüllende auf.
Ist der aktuelle Sprachrahmen .s^ c) also rauschartiger Natur, so entspricht der Restsignalrahmen x^(κ) nähe- rungsweise (bandbegrenztem) weißem Rauschen; bei einem stimmhaften Laut weist das Restsignal eine harmonische Struktur aus sinusartigen Tönen bei der Sprachgrundfrequenz /p und deren ganzzahligen Vielfachen auf, wobei diese Einzeltöne jedoch jeweils näherungsweise die glei- ehe Amplitude aufweisen, die spektrale Einhüllende also wiederum flach ist. Das Ausgangssignal xwb(k') der Restsignalerweiterung dient als Anregungssignal des nachfolgenden Synthesefilters Hs(z'). Es muss also prinzipiell die gleiche Eigenschaft der spektralen Flachheit aufweisen, wie das Eingangssignal xnb(k) des Teilalgorithmus, allerdings im gesamten breitbandigen Frequenzbereich. Ebenso sollte im Idealfall bei stimmhaften Lauten eine der Sprachgrundfrequenz /p entsprechende harmonische Struktur vorhanden sein.
Eine wichtige Forderung an den Algorithmus der Bandbreitenerweiterung ist die Transparenz im Basisband. Um dieses Ziel erreichen zu können, muss sichergestellt sein, dass die Anregungskomponenten im Basisband nicht modifiziert werden. Hier- zu zählt auch, dass die Leistungsdichte des Anregungssignals nicht verändert wird. Dies ist wichtig, damit das Ausgangssignal swb(k') der Bandbreitenerweiterung im Basisband die gleiche Leistung wie das Eingangssignal snb(k) aufweist - insbesondere dann, wenn die neu synthetisierten Signalkomponen- ten am Ausgang des Gesamtsystems mit einer interpolierten Version snb(k') des Eingangssignals kombiniert werden.
Zur Restsignalerweiterung gibt es verschiedene grundsätzliche
Möglichkeiten. Die einfachste Möglichkeit zur Erweiterung des Restsignals ist die spektrale Spiegelung, wobei jeweils für jeden zweiten Abtastwert des schmalbandigen Restsignals xnb(k) ein Nullwert eingefügt wird. Eine weitere Methode ist die spektrale Verschiebung, wobei die tiefe und die hohe Hälfte des Frequenzbereichs des breitbandigen Anregungssignals xwb(k') separat erzeugt wird. Auch hier wird zunächst eine spektrale Spiegelung durchgeführt und das breitbandige Signal anschließend gefiltert, so dass dieses Teilsignal ausschließlich tieffrequente Komponenten enthält. In einem weiteren Zweig wird dieses Signal moduliert und anschließend einem Hochpass zugeführt, der eine untere Grenzfrequenz von typischerweise 4 kHz aufweist. Durch die Modulation wird aus der anfänglichen Spiegelung der ursprünglichen Signalanteile eine Verschiebung. Schließlich werden die beiden Teilsignale addiert.
Eine weitere alternative Möglichkeit zur Generierung hochfre- quenter Anregungskomponenten basiert auf der Beobachtung, dass in Sprachsignalen hochfrequente Anteile hauptsächlich während scharfer Zischlaute und anderer stimmloser Laute vorkommen. Entsprechend sind diese hohen Frequenzbereiche im allgemeinen eher rauschartiger als tonaler Natur. Daher wird bei diesem Ansatz zu dem interpolierten schmalbandigen Eingangssignal Xnb(k') ein bandbegrenztes Rauschen mit angepass- ter Leistungsdichte hinzugefügt.
Eine weitere Möglichkeit der Restsignalerweiterung besteht darin, gezielt Effekte von Nichtlinearitäten zu nutzen, indem das schmalbandige Restsignal mittels einer nichtlinearen Kennlinie verzerrt wird.
Weiterhin gibt es verschiedene Methoden, die das Restsignal vor oder nach der Erweiterung modifizieren und so die Eigenschaften des Ausgangssignals verbessern, wie z.B. Postfilter, getrennte Bearbeitung von hoch- und tieffrequenten Anregungskomponenten, Weißmacherfilter, Longtermprediction (LTP) , Unterscheidung stimmhafter und stimmloser Laute etc.
Die Erweiterung der spektralen Einhüllenden des schmalbandigen Eingangssignals ist der eigentliche Kern der Bandbreitenerweiterung .
Die Grundlage für die gewählte Vorgehensweise ist die Beobachtung, dass in einem Sprachsignal nur eine begrenzte Anzahl typischer Laute mit den entsprechenden spektralen Einhüllenden vorkommen. Demzufolge scheint es ausreichend zu sein, in einer Trainingsphase eine ausreichende Anzahl von solchen typischen spektralen Einhüllenden in einem Codebuch zu sammeln und dieses dann bei einer anschließenden Bandbreitenerweiterung zu verwenden. In dem an sich bekannten Codebuch werden Informationen über die Form der spektralen Einhüllenden als Koeffizienten A(z') eines entsprechenden linearen Prädiktionsfilters gespeichert. Die Codebucheinträge können also direkt in dem jeweiligen LPC-Inversfilter H-_(z') = Ä(z') oder Synthesefilter Hs(z') = 1/ A(z') eingesetzt werden. Die Art der so erstellten Codebücher entspricht damit Codebüchern, wie sie in der Sprachcodierung bei der Gain-Shape Vektorquantisierung eingesetzt werden. Ebenso ähneln sich auch die für Training bzw. Verwendung der Codebücher einsetzbaren Algorithmen; bei der Bandbreitenerweiterung muss allerdings die Beteiligung von sowohl schmal- als auch breitbandigen Signalen entsprechend berücksichtigt werden.
Beim Training wird das zur Verfügung stehende Trainingsmaterial in mehrere typische Laute (spektrale Einhüllendenformen) unterteilt, aus denen anschließend durch Speicherung von Repräsentanten das Codebuch erstellt wird. Das Training erfolgt einmalig für repräsentative Sprachproben und ist daher keinen allzu strengen Restriktionen bezüglich Rechen- oder Speichereffizienz unterworfen.
Die beim Training verwendete Vorgehensweise ist prinzipiell die gleiche wie bei der Gain-Shape Vektorquantisierung (siehe z.B. Y. Linde, A. Buzo, R.M. Gray, „An Algorithm for Vector Quantizer Design", IEEE Transactions on Communications, Band COM-28, Nr. 1, Januar 1980) . Mit Hilfe eines Abstandsmaßes lässt sich das Trainingsmaterial in eine Reihe von Clustern unterteilen, in denen jeweils spektral ähnliche Sprachrahmen aus den Trainingsdaten vereint sind. Die Beschreibung eines Clusters i erfolgt dabei durch den sog. Centroiden Ci, der den Schwerpunkt sämtlicher Sprachrahmen bildet, die dem jeweiligen Cluster zugeordnet sind.
Bei einigen bekannten Algorithmen zur Bandbreitenerweiterung ist die Benutzung mehrerer paralleler Codebücher notwendig, z.B. wenn die Inversfilterung, Kτ ( z) , und die Synthesefilterung, Hs(z') mit unterschiedlichen Abtastraten vollzogen wird. In solchen Fällen ist es natürlich wichtig, dass die für die beiden Filter verwendeten Koeffizientensätze Anb (z) und Awb(z') zueinander passen, d.h. ein Codebuch-Eintrag in dem primären LPC-Codebuch - je nach Training in breit- oder schmalbandiger Form - muss denselben Laut beschreiben, wie der entsprechende Eintrag in dem zweiten, sog. Schattencodebuch.
Wenn im folgenden von einem bzw. dem Codebuch gesprochen wird, ist in der Regel die Gesamtheit aus primärem Codebuch und allen angegliederten Schattencodebüchern gemeint, wenn nicht explizit von einem bestimmten Codebuch die Rede ist. Wie viele und welche Codebücher tatsächlich verwendet werden, hängt von der algorithmischen Struktur der Bandbreitenerweiterung ab.
Eine grundlegende Entscheidung, die vor dem Training getrof- fen werden muss, besteht darin, ob für das Training des primären Codebuchs die schmalbandige Version snb(k) oder die breitbandige Variante swb(k') des Trainingsmaterials verwendet werden soll. Aus der Literatur bekannte Verfahren verwenden ausschließlich das schmalbandige Signal snb(k) als Trainings- material.
Ein großer Vorteil der Verwendung des schmalbandigen Signals snb(k) besteht darin, dass die Eigenschaften der Signale bei
Training und Bandbreitenerweiterung die gleichen sind. Trai- ning und Bandbreitenerweiterung sind also sehr gut aufeinander abgestimmt. Wird hingegen für die Erstellung des Codebuches das breitbandige Trainingssignal swb(k') verwendet, so entsteht das Problem, dass bei der späteren Codebuchsuche nur ein schmalbandiges Signal zur Verfügung steht und somit ande- re Bedingungen herrschen als beim Training. Andererseits spricht für ein Training mit dem breitbandigen Trainingssignal swb(k'), dass diese Vorgehensweise der eigentlichen Intention des Trainings, nämlich möglichst gute Repräsentanten für breitbandige Sprachlaute zu finden und zu spei- ehern, viel eher entgegenkommt. Vergleicht man verschiedene Codebucheinträge, wie sie beim Training mit einem breitbandigen Sprachsignal entstehen, so lassen sich recht viele Lautpaare beobachten, bei denen sich die schmalbandigen spektralen Einhüllenden einander sehr ähneln, während die Repräsen- tanten der breitbandigen Einhüllenden durchaus stark unterschiedlich sind. Bei solchen Lauten sind bei einem Training mit schmalbandigem Trainingsmaterial Probleme zu erwarten, da die sich ähnelnden Laute in einem Codebucheintrag zusammenge- fasst werden und so die sich unterscheidenden breitbandigen Einhüllenden durch die Mittelung gegenseitig abgeschwächt werden.
Insgesamt überwiegen stark die Vorteile eines breitbandigen Trainings, so dass für die im weiteren erläuterten Untersu- chungen von einem solchen Training ausgegangen wird.
Die Größe des Codebuches ist ein Faktor, der die Qualität der Bandbreitenerweiterung stark beeinflusst. Je größer das Codebuch ist, desto größer wird die Anzahl der speicherbaren ty- pischen Sprachlaute. Außerdem sind die einzelnen spektralen Einhüllenden genauer repräsentiert. Andererseits wächst natürlich mit der Zahl der Einträge auch die Komplexität sowohl des Trainings als auch der eigentlichen Bandbreitenerweiterung. Bei der Festlegung der Codebuchgröße muss also ein Kom- promiss zwischen der algorithmischen Komplexität und der im
Bestfall (d.h. bei "optimaler" Suche im Codebuch) möglichen Signalqualität des Ausgangssignals swb(k') eingestellt werden.
Die Anzahl der in dem Codebuch gespeicherten Einträge wird mit I gekennzeichnet.
Eine Suche durch Inversfilterung mit allen Einträgen eines schmalbandigen Codebuchs gefolgt von einem Vergleich der Restsignalleistungen E^0 führt in der Regel nicht zu befriedigenden Resultaten. Es sollten also zusätzlich zu der Form der spektralen Einhüllenden weitere Eigenschaften des schmalbandigen Eingangssignals snb(k) zur Auswahl des Codebuchein- träges ausgewertet werden.
Bei dem bei dieser Ausführungsform eingeführten statistischen Ansatz zur Suche im Codebuch wird die Gewichtung der einzelnen Sprachmerkmale untereinander implizit während der Trai- ningsphase optimiert. Auf den Vergleich von Einhüllendenformen mittels Inversfilterung wird hierbei komplett verzichtet.
Die Grundlage des statistischen Ansatzes ist ein gegenüber Fig. 1 etwas modifiziertes Modell des Spracherzeugungsprozes- ses, wie es in Fig. 7 skizziert ist. Die Signalquelle wird nun als Hidden-Markov Prozess angenommen, d.h. sie besitzt mehrere mögliche Zustände, die durch die Stellung des Schalters SCH gekennzeichnet sind. Die Schalterstellung wechselt nur jeweils zwischen zwei Sprachrahmen; mit jedem Rahmen ist also ein Zustand der Quelle fest verknüpft. Der aktuelle Zustand der Quelle wird im folgenden mit S-. bezeichnet.
Mit jedem Zustand Si der Quelle sind nun bestimmte Eigenschaften des Anregungssignals xwb(k') sowie des Sprachtraktes bzw. der spektralen Einhüllendenform verbunden. Die möglichen Zustände werden so definiert, dass jedem Eintrag i des breitbandigen Codebuches ein eigener Zustand Sx zugeordnet ist. Durch den Inhalt des Codebucheintrages ist somit bereits die typische Form der spektralen Einhüllenden (durch Hι(z') = 1/ ) vorgegeben. Ebenso lassen sich für jeden Zustand typische Eigenschaften des Anregungssignals xwbi(k') finden.
Hochpassartige Codebucheinträge werden beispielsweise eher in Verbindung mit rauschartigen, stimmlosen Anregungen auftreten, wohingegen stimmhafte Laute mit tonaler Anregung mit e- her tiefpassartigen Einhüllendenformen verbunden sind. Die bei der Codebuchsuche zu lösende Aufgabe besteht nun darin, für jeden Rahmen des Eingangssignals snb(k) die zunächst unbekannte Stellung des Schalters, d.h. den Zustand Si der Quelle zu bestimmen. Für ähnliche Problemstellungen sind vie- le Ansätze, z.B. für die automatische Spracherkennung, entwickelt worden, allerdings besteht dort i.a. die Zielsetzung darin, aus einer Menge abgespeicherter Modelle (für jede zu erkennende Einheit (Phonem, Wort o.a.) wird bei der Spracherkennung in der Regel ein separates Hidden-Markov Modell trai- niert und gespeichert) bzw. Zustandsfolgen die beste auf das Eingangssignal passende auszuwählen, während für die Bandbreitenerweiterung nur ein einziges Modell existiert und die Anzahl der korrekt geschätzten Zustände zu maximieren ist. Die Schätzung der Zustandsfolge wird durch den Umstand er- schwert, dass durch die Tief- bzw. Bandpassfilterung (Übertragungsstrecke) nicht alle Informationen über das (breitbandige) Quellsignal swb(k') zur Verfügung stehen.
Der zur Bestimmung der wahrscheinlichsten Zustandsfolge ange- setzte Algorithmus lässt sich für jeden Sprachrahmen in mehrere Schritte unterteilen, die in den folgenden Teilabschnitten erläutert werden.
1. Zunächst werden aus dem schmalbandigen Signal mehrere Merkmale extrahiert.
2. Mittels eines zuvor trainierten statistischen Modells sowie der erhaltenen Merkmale können verschiedene a priori und/oder a posteriori Wahrscheinlichkeiten bestimmt werden. 3. Diese Wahrscheinlichkeiten können schließlich verwendet werden, um entweder den Sprachrahmen zu klassifizieren oder um eine, nicht an die diskreten Codebucheinträge gebundene, Schätzung der spektralen Einhüllendenform zu berechnen.
Die aus dem schmalbandigen Sprachsignal snb(k) extrahierten Merkmale sind letztlich die Grundlage für die Bestimmung des aktuellen Quellenzustandes S-*.. Daher sollen die Merkmale Informationen enthalten, die möglichst gut mit der Form der breitbandigen spektralen Einhüllenden korrelieren. Um eine hohe Robustheit zu erreichen, dürfen die gewählten Merkmale dagegen nur eine möglichst geringe Abhängigkeit von Sprecher, Sprache, Veränderungen der Sprechweise, Hintergrundgeräuschen, Verzerrungen etc. aufweisen. Die Auswahl der richtigen Merkmale ist ein entscheidender Faktor für die erreichbare Qualität und Robustheit des statistischen . Suchverfahrens .
Die zu dem m-ten Sprachrahmen s^ (κ der Länge K berechneten Merkmale werden zu dem Merkmalsvektor X(m) zusammengefasst, der die Grundlage für die nachfolgenden Schritte darstellt. Im folgenden werden exemplarisch einige einsetzbare Sprachpa- rameter kurz beschrieben. Sämtliche Sprachparameter sind vom Rahmenindex m abhängig - wo die Berechnung eines Parameters nur von Inhalten des aktuellen Rahmens abhängt, wird im folgenden zur Vereinfachung auf die Kennzeichnung der Abhängigkeit vom Rahmenindex m verzichtet.
Ein Merkmal ist die Kurzzeitleistung En.
Die Energie eines Signalabschnittes ist in der Regel, in stimmhaften Abschnitten höher als bei stimmlosen Lauten oder Pausen. Die Energie ist hier definiert als
Figure imgf000044_0001
Diese Rahmenenergie ist aber nicht nur von dem momentan ge- sprochenen Laut, sondern auch von absoluten Pegelunterschieden verschiedener Sprachproben abhängig. Um diesen bei der Bandbreitenerweiterung unerwünschten Einfluss des globalen Abspielpegels auszuschließen, muss die bezogene Rahmenleistung ~ , . E„ (w) E„ ( ) = n n,max
auf die in der gesamten, aus M Rahmen zusammengesetzten Sprachprobe maximalen vorkommenden Rahmenleistung
Figure imgf000045_0001
(
bezogen werden. Für E„(m) ergeben sich also Werte im Bereich von Null bis Eins.
Ein globales Maximum für die Rahmenleistung kann natürlich nur dann berechnet werden, wenn im Voraus die gesamte Sprachprobe vorliegt. In den meisten Fällen wird man daher die maximale Rahmenenergie adaptiv schätzen müssen. Die geschätzte maximale Rahmenleistung Eπjmax( ) wird dann vom Rahmenindex m abhängig und kann z.B. durch die Vorschrift
E„ (m) für E„ (m) > a E„ raax (m - 1)
Figure imgf000045_0002
« E«,m χ ('« - 1) SOflSt
rekursiv bestimmt werden. Mit dem festen Faktor α < 1 kann die Geschwindigkeit der Adaption gesteuert werden.
Ein anderes Merkmal ist der Steigungsindex dn.
Der Steigungsindex (siehe J. Paulus, "Codierung breitbandiger Sprachsignale bei niedriger Datenrate". Aachener Beiträge zu Digitalen Nachrichtensystemen, Verlag der Augustinus Buchhandlung, Aachen, 1997) ist ein Maß, das die Häufigkeit von Richtungsänderungen und die Steigung des Signals auswertet. Da während stimmhafter Laute das Signal einen wesentlich glatteren Verlauf besitzt als bei stimmlosen Lauten, wird der Steigungsindex für stimmhafte Signale auch einen geringeren Wert annehmen als für stimmlose. Die Berechnung des Steigungsindex basiert auf dem Gradienten
^(κ) = xnb(κ) -xnb (κ -l)
des Signals. Zur Berechnung des eigentlichen Steigungsindex werden die Beträge der bei Richtungswechseln des Signals auftretenden Gradienten aufsummiert und mit der RMS-Energie E„ des Rahmens normiert
Figure imgf000046_0001
Die sign-Funktion wertet das Vorzeichen seines Argumentes aus
Figure imgf000046_0002
Ein weiteres Merkmal ist die Nulldurchgangsrate ZCR.
Mit der Nulldurchgangsrate wird angegeben, wie oft der Signalpegel innerhalb eines Rahmens den Nullwert überschreitet, d.h. das Vorzeichen wechselt. Bei rauschartigen Signalen ist die Nulldurchgangsrate höher als bei Signalen mit stark tona- len Komponenten, der Wert wird auf die Zahl der Abtastwerte eines Rahmens normiert, so dass nur Werte zwischen Null und Eins auftreten können.
ZCR = (K)) - sign(snb (K - 1))|
Figure imgf000046_0003
Ein weiteres Merkmal sind Cepstralkoeffizienten cp.
Als Sprachparameter, die die geglättete spektrale Einhüllende eines Signals robust beschreiben, werden in der Spracherkennung häufig Cepstrahlkoeffizienten eingesetzt. Das reellwer- tige Cepstrum des Eingangssignals snb(/r) ist als inverse Fou- riertransformierte des logarithmierten Betragsspektrums definiert
Figure imgf000047_0001
Während der nullte Cepstralkoeffizient co ausschließlich von der Leistung des Signals abhängt, beschreiben die folgenden Koeffizienten die Form der Einhüllenden.
Die Berechnung kann aufwandsgünstig einer LPC-Analyse mittels Levinson-Durbin Algorithmus nachgeschaltet werden; die LPC- Koeffizienten können mit einer rekursiven Vorschrift in Cepstralkoeffizienten umgerechnet werden. Für die erwünschte grobe Beschreibung der Einhüllendenform des schmalbandigen Eingangssignals reicht die Berücksichtigung beispielsweise der ersten acht Koeffizienten aus.
Weitere wichtige Merkmale von Sprachsignalen sind die zeitlichen Veränderungen der oben beschriebenen Parameter. Die ein- fache Verwendung der Differenz zeitlich aufeinanderfolgender Parameter als Schätzung der Ableitung führt allerdings zu sehr verrauschten und unzuverlässigen Ergebnissen. Ein in L. Rabiner, B.-H. Juang, "Fundamentals of Speech Recognition" . Prentice Hall, 1993 beschriebenes Verfahren, das auf einer Näherung der tatsächlichen zeitlichen Ableitung des Parameterverlaufes durch ein Polynom basiert, führt auf eine einfache Vorschrift, die hier am Beispiel der Kurzzeitleistung En(m) angegeben werden soll
Figure imgf000047_0002
Mit der Konstanten Λ lässt sich die Anzahl der Rahmen bestimmen, die bei der Glättung der Ableitung berücksichtigt werden sollen. Ein größerer Wert für Λ bewirkt ein weniger verrauschtes Ergebnis, es muss jedoch beachtet werden, dass hierdurch eine erhöhte Signalverzögerung notwendig wird, da nach obiger Vorschrift auch zukünftige Rahmen in die Schätzung der Ableitung eingehen.
Als akzeptabler Kompromiss zwischen der Dimension des Merk- malsvektors und den erzielten Klassifikationsergebnissen kann die Zusammensetzung des Merkmalsvektors aus den folgenden Komponenten gewählt werden:
• Kurzzeitleistung En (mit adaptivem Normierungsfaktor En,max(m); α = 0.999),
• Steigungsindex dn,
• Acht Cepstralkoeffizienten ci bis c8 und
• Ableitungen aller zehn obigen Parameter mit Λ= 3.
Das Ergebnis sind also zwanzig Sprachparameter, die für jeden Sprachrahmen zu dem Merkmalsvektor X kombiniert werden
Figure imgf000048_0001
Die Dimension des Merkmalsvektors X wird im folgenden mit N bezeichnet (hier: N' = 20) .
Bei den Wahrscheinlichkeiten sind mehrere zu unterscheiden. Unter der Beobachtungswahrscheinlichkeit soll hier die Wahr- scheinlichkeit verstanden werden, dass unter der Voraussetzung, dass die Signalquelle sich in dem definierten Zustand Si befindet, der Merkmalsvektor X beobachtet wird.
Diese Wahrscheinlichkeit P(X|S-_) hängt allein von den Eigen- Schäften der Quelle ab. Insbesondere hängt die Verteilungsdichtefunktion p(X|Si) von der Festlegung der möglichen Quellenzustände ab, d.h. im Falle der Bandbreitenerweiterung von den im Codebuch gespeicherten spektralen Einhüllenden.
Aufgrund der komplexen Zusammenhänge beim Spracherzeugungs- prozess lässt sich die Beobachtungswahrscheinlichkeit nicht in beliebiger Genauigkeit analytisch berechnen, sondern sie muss anhand von Informationen, die in einer Trainingsphase gesammelt wurden, geschätzt werden. Man beachte, dass die Verteilungsdichtefunktion (VDF) wegen der Dimension X eine N- dimensionale Funktion ist. Es müssen daher Wege gefunden werden, diese VDF durch möglichst einfache Modelle, aber dennoch in hinreichender Genauigkeit zu modellieren.
Die einfachste Möglichkeit, die VDF p(X|Si) zu modellieren, besteht in der Verwendung von Histogrammen. Hierbei wird der Wertebereich jedes Elementes des Merkmalsvektors in eine feste Anzahl diskreter Stufen (z.B. 100) unterteilt und in einer Tabelle wird zu jeder Stufe die Wahrscheinlichkeit abgelegt, dass der entsprechende Parameter innerhalb des durch die Stu- fe repräsentierten Werteintervalles liegt. Zu jedem Zustand der Quelle muss eine separate Tabelle angelegt werden.
Es ist leicht einzusehen, dass aus Gründen der Realisierbarkeit bei diesem Verfahren keine Möglichkeit besteht, Kovari- anzen zwischen den einzelnen Elementen des Merkmalsvektors zu berücksichtigen: Wird beispielsweise der Wertebereich jedes Parameters sehr grob in nur 10 Stufen unterteilt, so wären für die Speicherung eines Histogramms, das die 20- dimensionale Verteilungsdichtefunktion vollständig be- schreibt, insgesamt 1020 Speicherstellen notwendig!
In Fig. 8 sind die eindimensionalen Histogramme für die Null- durchgangsrate dargestellt, anhand derer bereits einige Eigenschaften der Quelle erläutert werden können.
Man erkennt an dem Beispiel, dass die für verschiedene Zustände auftretenden Wertebereiche in dieser eindimensionalen Darstellung durchaus sehr stark überlappen können. Diese Ü- berlappung wird bei der späteren Klassifikation zu Unsicher- heiten und Fehlentscheidungen führen. Weiterhin ist zu beobachten, dass die Verteilungsdichtefunktionen in der Regel nicht einer bekannten Form wie z.B. der Gauß- oder Poisson-Verteilung entsprechen. Will man also von der Darstellung als Histogramm zu einer Modellierung der VDF übergehen, so sind solche einfachen Modelle offensichtlich nicht geeignet.
Um 'eine Berücksichtigung der zwischen den im Merkmalsvektor enthaltenen Sprachparameter bestehenden Korrelationen zu er- möglichen, muss ein einfaches Modell für die Darstellung der N-dimensionalen Verteilungsdichtefunktion erstellt werden. Es wurde bereits erwähnt, dass die VDF i.a. schon im eindimensionalen Fall nicht einer der bekannten "Standardformen" entspricht. Aus diesem Grund wurde eine Modellierung mittels so- genannter Gaussian Mixture Models (GMM) realisiert.
Bei dieser Methode wird eine Verteilungsdichtefunktion p(X|Si) durch eine Summe gewichteter mehrdimensionaler Gauß- Verteilungen approximiert
p(X \ Si) ^ fJPilN(X;μ ,Σi!)
1=1
Die in diesem Ausdruck verwendete Funktion N(X; μü,∑ü ) ist die N-dimensionale Gaußfunktion
Figure imgf000050_0001
Zur Beschreibung des Modells für einen Zustand reichen nun also die L skalaren Gewichtungsfaktoren P-u. sowie L Parame- tersätze zur Definition der einzelnen Gauß-Funktionen, jeweils bestehend aus einer NxN Kovarianzmatrix ∑a und dem
Mittelwertvektor μü der Länge N = 20 aus. Die Gesamtheit der
Parameter des Modells eines einzigen Zustandes werden im folgenden mit Θ,. bezeichnet; in Θ werden die Parameter aller Zustände zusammengefasst . Durch die Variation der Anzahl L der in einem Modell enthaltenen Gauß-Verteilungen lässt sich nun theoretisch jede reale Verteilungsdichtefunktion in beliebiger Genauigkeit annähern.
In der Praxis reichen aber meist bereits recht kleine Werte für L, beispielsweise im Bereich um 5 bis 10, für eine ausreichend genaue Modellierung aus.
Das Training der Gaussian Mixture Models erfolgt im Anschluss an die Erstellung der Codebücher anhand der gleichen Trainingsdaten sowie der "optimalen Rahmenzuordnung" iopt (m) mit dem iterativen Estimate-Maximize (EM) Algorithmus (siehe z.B. S.V. Vaseghi, „Advanced Signal Processing and Digital Noise Reduction", Wiley, Teubner, 1996).
In Fig. 9 ist ein Beispiel für die zweidimensionale Modellierung einer VDF dargestellt. Es ist zu beobachten, dass durch die Berücksichtigung der Kovarianzen eine bessere Klassifika- tion ermöglicht wird, da die drei Funktionen im zweidimensio- nalen Fall räumlich weniger stark überlappen, als die beiden eindimensionalen Projektionen auf eine der beiden Achsen. Weiterhin zeigt sich, dass das Modell die tatsächlich gemessene Häufigkeitsverteilung der Merkmalswerte verhältnismäßig gut nachbildet.
Die Wahrscheinlichkeit P(Si), dass die Signalquelle sich ü- berhaupt in einem Zustand Si befindet, soll im folgenden als Zustandswahrscheinlichkeit bezeichnet werden. Bei der Berech- nung der Zustandswahrscheinlichkeiten werden keinerlei Nebeninformationen berücksichtigt, sondern es wird anhand des ganzen Trainingsmaterials das Verhältnis der Anzahl Mi der mittels "optimaler" Suche einem bestimmten Codebucheintrag zugeordneten Rahmen zu der gesamten Rahmenanzahl M bestimmt
M, P(S,) = — • lJ M Auf diese einfache Weise lassen sich die Zustandswahrschein- lichkeiten für alle Einträge des Codebuchs bestimmen und in einer eindimensionalen Tabelle speichern.
Betrachtet man ein Sprachsignal, so stellt man fest, dass einzelne Laute bzw. Einhüllendenformen deutlich wahrscheinlicher auftreten als andere. Schon allein wegen der zeitlichen Dauer stimmhafter Laute kommen entsprechend stimmhafte Rahmen erheblich häufiger vor als beispielsweise Zischlaute oder Plosive.
Die Übergangswahrscheinlichkeit P(SJm) | Sj.m-I)) beschreibt, wie wahrscheinlich der Übergang zwischen den Zuständen von einem Rahmen zum Folgerahmen ist. Grundsätzlich ist der Übergang von jedem Zustand zu jedem anderen möglich, so dass für die Speicherung der trainierten Übergangswahrscheinlichkeiten eine zweidimensionale Matrix mit insgesamt I2 Einträgen nötig ist. Das Training kann ähnlich wie bei den Zustandswahr- scheinlichkeiten durch die Berechnung der Verhältnisse der Anzahlen bestimmter Übergänge zu der Gesamtzahl aller Übergänge erfolgen.
Betrachtet man die Matrix der Übergangswahrscheinlichkeiten, so stellt man fest, dass die größten Maxima auf der Hauptdia- gonalen liegen, dass also die Quelle in der Regel länger als eine Rahmenlänge in dem gleichen Zustand verharrt. Vergleicht man die Einhüllendenformen zweier Codebucheinträge, zwischen denen eine hohe Übergangswahrscheinlichkeit gemessen wurde, so sind sich diese im allgemeinen verhältnismäßig ähnlich.
Aus den anhand der Merkmale ermittelten bzw. a priori vorhandenen Wahrscheinlichkeiten kann nun im letzten Schritt eine Klassifikation des aktuellen Rahmens zu einem der im Codebuch repräsentierten Quellenzustände erfolgen; das Ergebnis ist dann also ein einzelner definierter Index i desjenigen Codebucheintrages, der nach dem statistischen Modell dem aktuellen Sprachrahmen bzw. Quellenzustand am ehesten entspricht. Alternativ können die berechneten Wahrscheinlichkeitswerte für eine Schätzung der nach einem definierten Fehlermaß besten Mischung mehrerer Codebucheinträge genutzt werden.
Das Ergebnis der verschiedenen Verfahren hängt maßgeblich von dem jeweils zu 'optimierenden Kriterium ab. Es wurden die folgenden Verfahren untersucht :
• Bei der Maximum Likelihood (ML) Methode wird derjenige Zustand bzw. Eintrag des Codebuchs ausgewählt, für den die Beobachtungswahrscheinlichkeit maximal ist
SMi = argmax (Z | S,.) .
(=1
En anderer Ansatz besteht darin, denjenigen Zustand anzunehmen, der aufgrund der momentanen Beobachtung am wahrscheinlichsten ist, d.h. es ist die a posteriori Wahrscheinlichkeit P(Si|X) zu maximieren
Figure imgf000053_0001
Mit der Bayes ' sehen Regel lässt sich dieser Ausdruck so umformen, dass mit der Beobachtungswahrscheinlichkeit P(X|Si) und der a priori Wahrscheinlichkeit P(Si) nur noch bekannte bzw. messbare Größen vorkommen
SMAP = aτg ^κP(Si)P(X \ Si) . ι=l
Nach der verwendeten a posteriori Wahrscheinlichkeit wird diese Klassifikationsmethode Maximum A Posteriori (MAP) genannt.
• Auf der Minimierung des mittleren quadratischen Fehlers (Minimum Mean Squared Error) zwischen geschätztem und 0- riginalsignal basiert das MMSE Verfahren. Durch diese Methode wird eine Schätzung erstellt, die sich aus der mit der a posteriori Wahrscheinlichkeit P(Si|X) gewich- teten Summe der Codebucheinträge Ci ergibt
Figure imgf000054_0001
' P(Si)P(X \ Si)c « P(X)
Die Wahrscheinlichkeit des Auftretens des Merkmalsvektors X kann aus dem statistischen Modell berechnet wer- den:
Figure imgf000054_0002
Im Gegensatz zu den vorherigen beiden Klassifikationsverfahren ist das Ergebnis nun nicht mehr an einen der Codebucheinträge gebunden. In Fällen, in denen die a posteriori Wahrscheinlichkeit für einen Zustand dominant ist, das Verfahren sich also quasi seiner Entscheidung sicher ist, entspricht das Resultat der Schätzung dem Ergebnis des MAP Schätzers.
Bei den beiden Methoden MAP-Klassifikation und MMSE-
Schätzung, bei denen die a posteriori Wahrscheinlichkeit P(Si|X) ausgewertet wird, können zu den a priori bekannten Zustandswahrscheinlichkeiten zusätzlich die Übergangswahrscheinlichkeiten berücksichtigt werden. Zu die- sem Zweck muss in den beiden Ausdrücken ??? der Term P(Si|X) für die a posteriori Wahrscheinlichkeit durch den Ausdruck
Figure imgf000054_0003
ersetzt werden, der von sämtlichen in der Vergangenheit beobachteten Rahmen abhängt. Die Berechnung dieser Verbundwahrscheinlichkeit kann rekursiv erfolgen P(S<m),X(0),...,X m)) = P(X(m) | S,.)∑ (S m) | Sf~ ))P(S -l) ,x{Q) ,...,x{m- ))
7=1
Beim ersten Rahmen kann die Startlösung wie folgt berechnet werden:
P(S\Ü) , XmOK ) = P(S, )P(Xm (0) | S, )
Obwohl die Erfindung vorstehend anhand bevorzugter Ausführungsbeispiele erläutert wurde, ist sie darauf nicht beschränkt, sondern in vielfältiger Weise modifizierbar.
Insbesondere ist die Erfindung für jegliche Art von Sprachsignalen anwendbar und nicht auf Telefonsprachsignale beschränkt .
Bezugszeichenliste
Xwb(k') Anregungssignal des Sprachtrakts, breitbandig sWb(k') Sprachsignal, breitbandig Snb(k') Sprachsignal, schmalbandig,
Abtastrate fa- = 16 kHz
Snb(k) Sprachsignal, schmalbandig
Θ
A(z') Übertragungsfunktion des zum Sprachtraktfilter inversen Filters
Hos(z') Übertragungsfunktion des Modells der Übertragungsstrecke
HBP(Z') Übertragungsfunktion des Bandpaßfilters
Änb(z) Koeffizientensatz für LPC-Analysefilter Hι(z) Übertragungsfunktion des LPC-Inversfilters
Hs(z') Übertragungsfunktion des LPC-Synthesefilters
HBS(Z') Übertragungsfunktion des Bandstoppfilters
ÄWb(z') Koeffizientensatz für LPC-Synthesefilter
Λ^nb(k) Schätzung des Anregungssignals des Sprach- trakts, schmalbandig
AxWb(k) Schätzung des Anregungssignals des Sprachtrakts, breitbandig
AE Anregungserzeugung ST Sprachtrakt
TP Tiefpaß
LPCA LPC-Analyse
BP Bandpaß
ADD Addierer LPCA LPC-Analyse
EE Einhüllendenerweiterung
RE Restsignalerweiterung
IF Inversfilter
SF Synthesefilter BS Bandstopp
IP Interpolation
I Anzahl Codebuch RA Reduzierung Abtastfrequenz
SCH Schalter

Claims

Patentansprüche
1. Verfahren zur künstlichen Erweiterung der Bandbreite von Sprachsignalen mit den Schritten:
Bereitstellen eines schmalbandigen Sprachsignals mit einer vorbestimmten Abtastrate;
Durchführen einer Analysefilterung an dem abgetasteten Sprachsignal mit aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten, welche eine Erweiterung der Bandbreite der Einhüllenden bewirken;
Durchführen einer Restsignalerweiterung an dem anlaysegefil- terten Sprachsignal; und
Durchführen einer Synthesefilterung an dem restsignalerweite- reten Sprachsignal zur Erzeugung eines breitbandigeren Sprachsignals mit den aus dem abgetasteten Sprachsignal ge- schätzten Filterkoeffizienten.
2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß die Filterkoeffizienten für die Analysefilterung und die Synthesefilterung durch einen Algorithmus aus einem im voraus trainierten Codebuch ermittelt werden.
3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, daß das abgestastete schmalbandige Sprachsignal im Frequenzbereich 300 Hz bis 3,4 kHz liegt und das breitbandigere Sprachsignal im Frequenzbereich 50 Hz bis 7 kHz liegt.
4. Verfahren nach Anspruch 2, d a d u r c h g e k e n n z e i c h n e t, daß der Algorithmus zur Ermittlung der Filterkoeffizienten folgende Schritte aufweist: Aufstellen des Codebuchs unter Verwendung eines Hidden- Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Abhängigkeit vom Zustand beschreibt;
Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor für einen jeweiligen Zeitabschnitt;
Vergleichen des Merkmalsvektors mit den statistischen Modellen; und
Ermitteln der Filterkoeffizienten aufgrund des Vergleichsergebnisses .
5. Verfahren nach Anspruch 4, d a d u r c h g e k e n n z e i c h n e t, daß beim Vergleichen mindestens eine der folgenden Wahrscheinlichkeiten berücksichtigt wird:
die Beobachtungswahrscheinlichkeit des Auftretens des Merk- malsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand befindet;
die Übergangswahrscheinlichkeit, daß die Quelle für das abgetastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und
die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands .
β. Verfahren nach Anspruch 5, d a d u r c h g e k e n n z e i c h n e t, daß zum Ermitteln der Filterkoeffizienten der Codebucheintrag verwendet wird, für den die Beobachtungswahrscheinlichkeit maximal ist.
7. Verfahren nach Anspruch 5, d a d u r c h g e k e n n z e i c h n e t, daß zum Ermitteln der Filterkoeffizienten der Codebucheintrag verwendet wird, für den die Verbundwahrscheinlichkeit p(X(m),Si) maximal ist.
8. Verfahren nach Anspruch 5, d a d u r c h g. e k e n n z e i c h n e t, daß zum Ermitteln der Filterkoeffizienten eine direkte Schätzung der spektralen Einhüllenden durch die mit der a posteriori Wahrscheinlichkeit p(Si|X(m)) gewichtete Mittelung aller Codebucheinträge erfolgt.
9. Verfahren nach Anspruch 5, d a d u r c h g e k e n n z e i c h n e t, daß die Beobachtungswahrscheinlichkeit durch ein Gauß'sches Mischmodell dargestellt wird.
10. Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß in vorbestimmten Sprachabschnitten die Bandbreitenerwei- terung deaktiviert wird.
11. Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß eine Postfilterung des synthesegefilterten Signals durch- geführt wird.
12. Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen mit:
einer Eingabeeinrichtung zum Bereitstellen eines schmalbandigen Sprachsignals mit einer vorbestimmten Abtastrate; einem Analysefilter (AF) zum Durchführen einer Analysefilterung an dem abgetasteten Sprachsignal mit aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten, welche eine Erweiterung der Bandbreite der Einhüllenden bewirken;
einer Restsignalerweiterungseinrichtung (RE) zum Durchführen einer Restsignalerweiterung an dem anlaysegefilterten Sprachsignal; und
einem Synthesefilter (SF) zum Durchführen einer Synthesefilterung an dem restsignalerweitereten Sprachsignal zur Erzeugung eines breitbandigeren Sprachsignals mit den aus dem abgetasteten Sprachsignal geschätzten Filterkoeffizienten.
13. Vorrichtung nach Anspruch 12, d a d u r c h g e k e n n z e i c h n e t, daß eine Einhüllendenerweiterungseinrichtung (EE) vorgesehen ist, die die Filterkoeffizienten für die Analysefilterung und die Synthesefilterung durch einen Algorithmus aus einem im voraus trainierten Codebuch ermittelt.
14. Vorrichtung nach Anspruch 12 oder 13, d a d u r c h g e k e n n z e i c h n e t, daß das abgestastete schmalbandige Sprachsignal im Frequenz- bereich 300 Hz bis 3,4 kHz liegt und das breitbandigere Sprachsignal im Frequenzbereich 50 Hz bis 7 kHz liegt.
15. Vorrichtung nach Anspruch 13, d a d u r c h g e k e n n z e i c h n e t, daß der Algorithmus der Einhüllendenerweiterungseinrichtung
(EE) zur Ermittlung der Filterkoeffizienten folgende Funktionen ausführt:
Aufstellen des Codebuchs unter Verwendung eines Hidden- Markov-Modells, wobei jedem Codebucheintrag ein Zustand des Hidden-Markov-Modells zugeordnet ist und für jeden Zustand ein separates statistisches Modell trainiert wird, welches vorbestimmte Merkmale des schmalbandigen Sprachsignals in Ab- höngigkeit vom Zustand beschreibt;
Extrahieren der vorbestimmten Merkmale aus dem schmalbandigen Sprachsignal zu einem Merkmalsvektor für einen jeweiligen Zeitabschnitt;
Vergleichen des Merkmalsvektors mit den statistischen Modellen; und
Ermitteln der Filterkoeffizienten aufgrund des Vergleichsergebnisses .
16. Vorrichtung nach Anspruch 15, d a d u r c h g e k e n n z e i c h n e t, daß die Einhüllendenerweiterungseinrichtung (EE)beim Vergleichen durch mindestens eine der folgenden Wahrscheinlichkeiten berücksichtigt:
die Beobachtungswahrscheinlichkeit des Auftretens des Merkmalsvektors unter der Voraussetzung, daß sich die Quelle für das abgetastete Sprachsignal im jeweiligen Zustand befindet;
die Übergangswahrscheinlichkeit, daß die Quelle für das abge- tastete Sprachsignal von dem Zeitabschnitt zum nächsten den Zustand wechselt; und
die Zustandswahrscheinlichkeit des Auftretens des jeweiligen Zustands .
17. Vorrichtung nach Anspruch 16, d a d u r c h g e k e n n z e i c h n e t, daß die Einhüllendenerweiterungseinrichtung (EE) zum Ermitteln der Filterkoeffizienten den Codebucheintrag verwendet, für den die Beobachtungswahrscheinlichkeit maximal ist.
18. Vorrichtung nach Anspruch 16, d a d u r c h g e k e n n z e i c h n e t, daß die Einhüllendenerweiterungseinrichtung (EE) zum Ermitteln der Filterkoeffizienten den Codebucheintrag verwendet, für den die Verbundwahrscheinlichkeit p(X(m),Si) maximal ist.
19. Vorrichtung nach Anspruch 16, d a d u r c h g e k e n n z e i c h n e t, daß die Einhüllendenerweiterungseinrichtung (EE) zum Ermit- .. teln der Filterkoeffizienten eine direkte Schätzung der spektralen Einhüllenden durch die mit der a posteriori Wahrscheinlichkeit p(Si|X(m)) gewichtete Mittelung aller Codebucheinträge durchführt .
20. Vorrichtung nach Anspruch 16, d a d u r c h g e k e n n z e i c h n e t, daß die Einhüllendenerweiterungseinrichtung (EE) die Beobachtungswahrscheinlichkeit durch ein Gauß'sches Mischmodell darstellt.
21. Vorrichtung nach einem der vorhergehenden Ansprüche 12 bis 20, dadurch gekennzeichnet, daß die Einhüllendenerweiterungseinrichtung (EE) in vorbestimmten Sprachabschnitten die Bandbreitenerweiterung deaktiviert .
PCT/EP2001/009125 2000-08-24 2001-08-07 Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen WO2002017303A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10041512.1 2000-08-24
DE10041512A DE10041512B4 (de) 2000-08-24 2000-08-24 Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen

Publications (1)

Publication Number Publication Date
WO2002017303A1 true WO2002017303A1 (de) 2002-02-28

Family

ID=7653597

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2001/009125 WO2002017303A1 (de) 2000-08-24 2001-08-07 Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen

Country Status (3)

Country Link
US (1) US7181402B2 (de)
DE (1) DE10041512B4 (de)
WO (1) WO2002017303A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1581929A2 (de) * 2003-01-10 2005-10-05 Nokia Corporation Verfahren und vorrichtung zur künstlichen bandbreitenerweiterungbei der sprachverarbeitung
DE102005000830A1 (de) * 2005-01-05 2006-07-13 Siemens Ag Verfahren zur Bandbreitenerweiterung
CN108022599A (zh) * 2014-02-07 2018-05-11 皇家飞利浦有限公司 音频信号解码器中改进的频带扩展

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
DE10116358A1 (de) * 2001-04-02 2002-11-07 Micronas Gmbh Vorrichtung und Verfahren zur Erfassung und Unterdrückung von Störungen
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7421304B2 (en) * 2002-01-21 2008-09-02 Kenwood Corporation Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method
DE60311794T2 (de) * 2002-04-22 2007-10-31 Koninklijke Philips Electronics N.V. Signalsynthese
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4433668B2 (ja) * 2002-10-31 2010-03-17 日本電気株式会社 帯域拡張装置及び方法
DE10252070B4 (de) * 2002-11-08 2010-07-15 Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
DE10252327A1 (de) * 2002-11-11 2004-05-27 Siemens Ag Verfahren zur Erweiterung der Bandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals
KR100465318B1 (ko) * 2002-12-20 2005-01-13 학교법인연세대학교 광대역 음성신호의 송수신 장치 및 그 송수신 방법
US7519530B2 (en) * 2003-01-09 2009-04-14 Nokia Corporation Audio signal processing
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US20050216260A1 (en) * 2004-03-26 2005-09-29 Intel Corporation Method and apparatus for evaluating speech quality
US8712768B2 (en) * 2004-05-25 2014-04-29 Nokia Corporation System and method for enhanced artificial bandwidth expansion
US8160887B2 (en) * 2004-07-23 2012-04-17 D&M Holdings, Inc. Adaptive interpolation in upsampled audio signal based on frequency of polarity reversals
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US7698143B2 (en) * 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
US7778718B2 (en) * 2005-05-24 2010-08-17 Rockford Corporation Frequency normalization of audio signals
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
US20070005351A1 (en) * 2005-06-30 2007-01-04 Sathyendra Harsha M Method and system for bandwidth expansion for voice communications
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
EP1772855B1 (de) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Verfahren zur Erweiterung der Bandbreite eines Sprachsignals
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
CN101336451B (zh) 2006-01-31 2012-09-05 西门子企业通讯有限责任两合公司 音频信号编码的方法和装置
US7885419B2 (en) * 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US8538050B2 (en) * 2006-02-17 2013-09-17 Zounds Hearing, Inc. Method for communicating with a hearing aid
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
US7519619B2 (en) * 2006-08-21 2009-04-14 Microsoft Corporation Facilitating document classification using branch associations
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
US7912729B2 (en) 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
GB0705329D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8041577B2 (en) * 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US20100280833A1 (en) * 2007-12-27 2010-11-04 Panasonic Corporation Encoding device, decoding device, and method thereof
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
WO2009116815A2 (en) * 2008-03-20 2009-09-24 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8831958B2 (en) * 2008-09-25 2014-09-09 Lg Electronics Inc. Method and an apparatus for a bandwidth extension using different schemes
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
GB0822537D0 (en) * 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
DK2242045T3 (da) * 2009-04-16 2012-09-24 Univ Mons Talesyntese og kodningsfremgangsmåder
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
SG185606A1 (en) * 2010-05-25 2012-12-28 Nokia Corp A bandwidth extender
US8958510B1 (en) * 2010-06-10 2015-02-17 Fredric J. Harris Selectable bandwidth filter
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
GB2520867B (en) 2011-10-25 2016-05-18 Skype Ltd Jitter buffer
JP5949379B2 (ja) * 2012-09-21 2016-07-06 沖電気工業株式会社 帯域拡張装置及び方法
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
CN105551497B (zh) 2013-01-15 2019-03-19 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
US9319510B2 (en) * 2013-02-15 2016-04-19 Qualcomm Incorporated Personalized bandwidth extension
CN104050971A (zh) * 2013-03-15 2014-09-17 杜比实验室特许公司 声学回声减轻装置和方法、音频处理装置和语音通信终端
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9959888B2 (en) * 2016-08-11 2018-05-01 Qualcomm Incorporated System and method for detection of the Lombard effect
US10264116B2 (en) * 2016-11-02 2019-04-16 Nokia Technologies Oy Virtual duplex operation
EP3616197A4 (de) 2017-04-28 2021-01-27 DTS, Inc. Audiocodiererfenstergrössen und zeit-frequenz-transformationen
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US10672382B2 (en) * 2018-10-15 2020-06-02 Tencent America LLC Input-feeding architecture for attention based end-to-end speech recognition

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
EP0878790A1 (de) * 1997-05-15 1998-11-18 Hewlett-Packard Company Sprachkodiersystem und Verfahren
EP0945852A1 (de) * 1998-03-25 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Sprachsynthese

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ENBOM N ET AL: "Bandwidth expansion of speech based on vector quantization of the mel frequency cepstral coefficients", 1999 IEEE WORKSHOP ON SPEECH CODING PROCEEDINGS. MODEL, CODERS, AND ERROR CRITERIA (CAT. NO.99EX351), PROCEEDINGS OF 1999 IEEE WORKSHOP ON SPEECH CODING PROCEEDINGS. MODEL, CODERS, AND ERROR CRITERIA, PORVOO, FINLAND, 20-23 JUNE 1999, 1999, Piscataway, NJ, USA, IEEE, USA, pages 171 - 173, XP002185446, ISBN: 0-7803-5651-9 *
JAX P ET AL: "Wideband extension of telephone speech using a hidden Markov model", 2000 IEEE WORKSHOP ON SPEECH CODING. PROCEEDINGS. MEETING THE CHALLENGES OF THE NEW MILLENNIUM (CAT. NO.00EX421), 2000 IEEE WORKSHOP ON SPEECH CODING. PROCEEDINGS. MEETING THE CHALLENGES OF THE NEW MILLENNIUM, DELAVAN, WI, USA, 17-20 SEPT. 2000, 2000, Piscataway, NJ, USA, IEEE, USA, pages 133 - 135, XP002185445, ISBN: 0-7803-6416-3 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1581929A2 (de) * 2003-01-10 2005-10-05 Nokia Corporation Verfahren und vorrichtung zur künstlichen bandbreitenerweiterungbei der sprachverarbeitung
EP1581929A4 (de) * 2003-01-10 2007-10-31 Nokia Corp Verfahren und vorrichtung zur künstlichen bandbreitenerweiterungbei der sprachverarbeitung
DE102005000830A1 (de) * 2005-01-05 2006-07-13 Siemens Ag Verfahren zur Bandbreitenerweiterung
CN108022599A (zh) * 2014-02-07 2018-05-11 皇家飞利浦有限公司 音频信号解码器中改进的频带扩展

Also Published As

Publication number Publication date
US7181402B2 (en) 2007-02-20
DE10041512A1 (de) 2002-03-14
US20030050786A1 (en) 2003-03-13
DE10041512B4 (de) 2005-05-04

Similar Documents

Publication Publication Date Title
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE112009000805B4 (de) Rauschreduktion
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE112012002524T5 (de) Statistische Verbesserung von Sprachausgabe aus einem Text-To-Speech-Synthesesystem
DE102013224417B3 (de) Hörhilfevorrichtung mit Grundfrequenzmodifizierung, Verfahren zur Verarbeitung eines Sprachsignals und Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens
Okamoto et al. An investigation of subband WaveNet vocoder covering entire audible frequency range with limited acoustic features
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
Mohammadiha et al. Prediction based filtering and smoothing to exploit temporal dependencies in NMF
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10111522

Country of ref document: US

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP