WO2017186756A1 - Verfahren zur verarbeitung eines fm-stereosignals - Google Patents

Verfahren zur verarbeitung eines fm-stereosignals Download PDF

Info

Publication number
WO2017186756A1
WO2017186756A1 PCT/EP2017/059860 EP2017059860W WO2017186756A1 WO 2017186756 A1 WO2017186756 A1 WO 2017186756A1 EP 2017059860 W EP2017059860 W EP 2017059860W WO 2017186756 A1 WO2017186756 A1 WO 2017186756A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
sum
spectrum
stereo
processing
Prior art date
Application number
PCT/EP2017/059860
Other languages
English (en)
French (fr)
Inventor
Hans-Peter Hahn
Original Assignee
Hans-Peter Hahn
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hans-Peter Hahn filed Critical Hans-Peter Hahn
Priority to CA3021918A priority Critical patent/CA3021918C/en
Publication of WO2017186756A1 publication Critical patent/WO2017186756A1/de

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/44Arrangements characterised by circuits or components specially adapted for broadcast
    • H04H20/46Arrangements characterised by circuits or components specially adapted for broadcast specially adapted for broadcast systems covered by groups H04H20/53-H04H20/95
    • H04H20/47Arrangements characterised by circuits or components specially adapted for broadcast specially adapted for broadcast systems covered by groups H04H20/53-H04H20/95 specially adapted for stereophonic broadcast systems
    • H04H20/48Arrangements characterised by circuits or components specially adapted for broadcast specially adapted for broadcast systems covered by groups H04H20/53-H04H20/95 specially adapted for stereophonic broadcast systems for FM stereophonic broadcast systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/16Circuits
    • H04B1/1646Circuits adapted for the reception of stereophonic signals
    • H04B1/1661Reduction of noise by manipulation of the baseband composite stereophonic signal or the decoded left and right channels
    • H04B1/1669Reduction of noise by manipulation of the baseband composite stereophonic signal or the decoded left and right channels of the demodulated composite stereo signal
    • H04B1/1676Reduction of noise by manipulation of the baseband composite stereophonic signal or the decoded left and right channels of the demodulated composite stereo signal of the sum or difference signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H40/00Arrangements specially adapted for receiving broadcast information
    • H04H40/18Arrangements characterised by circuits or components specially adapted for receiving
    • H04H40/27Arrangements characterised by circuits or components specially adapted for receiving specially adapted for broadcast systems covered by groups H04H20/53 - H04H20/95
    • H04H40/36Arrangements characterised by circuits or components specially adapted for receiving specially adapted for broadcast systems covered by groups H04H20/53 - H04H20/95 specially adapted for stereophonic broadcast receiving
    • H04H40/45Arrangements characterised by circuits or components specially adapted for receiving specially adapted for broadcast systems covered by groups H04H20/53 - H04H20/95 specially adapted for stereophonic broadcast receiving for FM stereophonic broadcast systems receiving
    • H04H40/72Arrangements characterised by circuits or components specially adapted for receiving specially adapted for broadcast systems covered by groups H04H20/53 - H04H20/95 specially adapted for stereophonic broadcast receiving for FM stereophonic broadcast systems receiving for noise suppression

Definitions

  • the invention relates to a method for processing an analog FM stereo signal, which is subjected to a digital signal processing.
  • the pilot tone method described in ITU-R BS.450 is used to transmit stereo signals over FM transmitters. It proposes to first subject the two audio channels left (L) and right (R) to a preemphasis (high-level boost) and then to matrix so that a sum signal (L + R) / 2 and a difference signal (LR) / 2 are generated ,
  • the sum signal is transmitted in the baseband up to 15 kHz.
  • the difference signal is transmitted carrier frequency in double sideband modulation, wherein the carrier is suppressed at a frequency of 38 kHz.
  • a pilot tone signal is transmitted at a frequency of 19 kHz, which is half that
  • Carrier frequency corresponds.
  • the composite signal of the sum, difference and pilot tone signal is referred to as a multiplex signal (MPX).
  • MPX multiplex signal
  • RDS additional signals, such as RDS, modulate in a FM station a high-frequency carrier signal in its frequency.
  • the high-frequency broadcast takes place via an antenna.
  • An FM receiver based on the superheterodyne principle receives the high-frequency signal via an antenna.
  • the radiofrequency signal (RF signal) of the antenna is amplified, preselected in frequency, and shifted to an intermediate frequency (IF) range.
  • IF intermediate frequency
  • An intermediate frequency filter allows the majority of the useful bandwidth to pass and filter
  • FIG. 1 A block diagram of an MPX stereo decoder is shown in FIG.
  • a mono receiver only evaluates the sum signal (L + R) / 2 in the baseband, which extends to 15 kHz.
  • a stereo decoder retrieves the L and R signals from the MPX signal.
  • the stereo decoder demodulates the double sideband modulated differential signal and thus recovers the signal (L-R) / 2.
  • the sum signal (L + R) / 2 is recovered directly from the baseband.
  • dematrixing i. Addition or subtraction of these two signals, the decoder recovers the pre-emphasis L and R signals. These are finally subjected to a deemphasis that compensates for the transmission-side preemphasis.
  • the original signals L and R are available.
  • switch decoder differs from the demodulation and dematrixing signal processing shown above, but can be signal-theoretically converted into the model depicted above.
  • the FM pilot tone system is theoretically considered in terms of noise interference.
  • the constant spectral noise power density in the RF or IF plane is converted by the FM demodulation process into a voltage-density function with a frequency-proportional profile.
  • the MPX spectrum and the noise voltage density are shown in FIG.
  • the monaural audio signal to noise ratio SNRFM prevailing after FM demodulation with respect to +/- 75 kHz frequency deviation without consideration of a pre- / deem phase can be approximately described by the following formula:
  • ß is the modulation index of the FM
  • A is the amplitude of the carrier signal
  • No / 2 is the two-sided noise power density at white noise.
  • BT is the radiofrequency transmission bandwidth.
  • W is the audio signal bandwidth
  • FM threshold for a radio-frequency transmission bandwidth of 180 kHz is approximately 1 1 dB CNR.
  • SNRF 28 dB + CNR with ono reception
  • a mono-audio signal-to-noise ratio of 39 dB + deemphasis gain corresponds.
  • a de-phase of 50 LIS a minimum of 49 dB mono audio-to-audio ratio is to be expected, or a 26 dB stereo audio signal-to-noise ratio.
  • an audio signal to noise ratio of 43.5 dB mono and 20.5 dB stereo is to be expected.
  • the mono gain in the audio signal-to-noise ratio compared to stereo is 23 dB at the FM threshold.
  • the mono gain [N (mono) -N (stereo)] decreases with increasing
  • Audio-to-audio ratio as can be seen from the delineation curve of an exemplary FM receiver shown in FIG.
  • the SNR is limited by the inherent noise of the rest of the transmission chain.
  • Fig. 3 shows the solid curve N (stereo) the size of the noise N in stereo reception.
  • the dashed line N shows the function "stereo-blend", in which below a threshold (in this case about 100 LLV antenna voltage) with falling antenna input voltage, the difference signal is reduced in level
  • a threshold in this case about 100 LLV antenna voltage
  • the difference signal is reduced in level
  • the disturbance power N is thus kept at a reduced level and does not increase further
  • L R, ie no channel separation
  • a reduction of the differential signal level is used to increase the audio signal to noise ratio at the expense of LR channel separation.
  • the reduction may be broadband or frequency ranges, such as high frequency, and is dependent on external signals, external criteria, or an estimate of the noise component.
  • Other measures in the receiver that reduce the audibility of interference disturbances at the audio frequency level or MPX level are the reduction of the higher audio frequencies (Hi-blend, Hi-cut) in stronger noise and the volume reduction or mute (Muting, noise-less) in case of strong interference. These also affect the sum signal (mono signal).
  • the object of the invention is already achieved by a method for processing an FM stereo signal according to one of the independent claims.
  • the invention relates to a method for processing an analog FM stereo signal.
  • the invention thus relates to the processing of analog radio signals that are broadcast in stereo sound.
  • the analog stereo signal can be present both in the form described above as a sum and difference signal and as a signal in which the left and right channels are transmitted separately from each other.
  • the method according to the invention for processing an F stereo signal can also be characterized in that an FM stereo signal is digitized, the digitized signal is subjected to signal processing and then transformed back into the analog signal.
  • the signal processing is digital, so it is by means of a
  • Microprocessors made the processing of the signal in digital form.
  • the analog FM stereo signal is digitized as a sum and difference signal.
  • This digitized signal is split into overlapping blocks.
  • the block length is preferably greater than the time difference between the sum and difference signals.
  • the block length may be between 10 and 1000 ms, preferably between 50 and 150 ms.
  • a large block length leads to a high frequency resolution, but allows a rather lower noise reduction, since the useful signal spectrum of the
  • the overlapping blocks allow a continuous transformation in the frequency domain and there signal processing. After conversion, the signal is as difference and
  • a first aspect of the invention thus relates to digital signal processing in which the analog signal is digitized and at least partially processed in the frequency domain.
  • the spectral lines of the difference signal spectrum are compared with the respectively corresponding spectral lines of the sum signal spectrum.
  • signal spectrum is understood to mean in each case the signal magnitude spectrum and thus thus the comparison relates to the respective amounts. For further explanations these are considered logarithmic.
  • spectral lines of the difference signal spectrum are then lowered if they have a higher magnitude than the respective spectral lines of the sum signal spectrum.
  • the reduction is made to the amount of the sum signal spectrum.
  • This aspect of the invention is based on the assumption that the stereo signal only
  • Runtime stereophony if the propagation delay of both signals or their signal components does not lead to a change in the magnitude spectra. The latter applies if the block length is the
  • Transit time difference significantly exceeds.
  • the conversion into the frequency domain makes it possible to process the signal components in digitized form in a simple manner.
  • this can be purely software-based, for example, on a smartphone or consumer electronics device.
  • the entire signal processing, even in the time domain is purely software-based. After this digital signal processing, the sum and difference signals are transformed back and the overlapping blocks are combined.
  • the signal can now be dematrixed and converted into an analog signal for driving a loudspeaker.
  • interferences due to interference can be caused in particular Spectrums are detected and exceptions are defined in order not to distort the (undisturbed) signal and, if necessary, to reduce interference.
  • the frequency-corresponding spectral lines of the difference signal spectrum are not lowered at all or less.
  • Differential signal spectrum is not lowered or less lowered in this area, if a maximum of the sum channel spectrum is within the frequency bandwidth of the maximum of the difference signal spectrum.
  • This development of the invention relates to the treatment of local maxima, which, like local minima, may have a cause-related cause.
  • Frequency bandwidth and their distance to the spectral substitute value can be identified as such.
  • a reference curve Via a median filtering of the spectra, a reference curve is generated. If the distance of the spectrum from the reference curve exceeds a threshold value, an extinction or a local maximum is identified. Their frequency bandwidth corresponds to the number of consecutive spectral lines exceeding the threshold.
  • the median value is calculated from the spectral values of the spectrum within a window around a frequency. It serves as a replacement value in the spectrum and bridges
  • Difference signal spectrum are each provided with different thresholds in dB, which must exceed a distance to confirm an identification.
  • a development of the invention provides that differences in the transit time between the sum and difference signal via a similarity analysis or a correlation of the signals in the
  • Time range are determined. In particular, it can be determined via a cross-correlation and / or the consideration of the extinction in the frequency domain, in particular via a comparison of the respective frequencies and the respective bandwidths of the extinctions in the sum and difference signal spectrum, whether runtime stereophonic components are present in the signals. if cancellations occur in the sum and difference signal at different frequencies.
  • the spectral line of the difference signal is lowered only to a spectral replacement value, in particular to a median value of the sum signal spectrum.
  • the difference signal spectrum r is lowered in the event of cancellation to the median of the sum signal spectrum determined for this frequency.
  • the difference signal in the time domain is limited to the envelope of the sum signal whose maxima are held for a period after and before the entry time of the maximum (peak hold) and the thus changed envelope or Sum signal is multiplied by a factor greater than 1, in particular a factor between 1 and 2.
  • This aspect of the invention is based on the assumption that the stereo signal does not map any locations outside the stereo base. It follows that the difference signal can each have no higher amount than the sum signal multiplied by a factor that takes into account a statistical signal increase, as may occur in certain signal constellations of sum and difference signal. Preferably, the limitation of the difference signal in the time domain on the envelope of the sum signal is only made when a transient character of the signal is detected via an evaluation of the signal or the envelope of the sum signal.
  • the envelope may be multiplied by a factor, in particular an empirical factor lying between 1, 1 and 2.0, preferably between 1, 3 and 1, 6.
  • the invention further relates to a computer program comprising a plurality of
  • the invention relates in particular to a purely software-based processing of an analog FM stereo signal in a device such as a smartphone, but also a radio with digital signal processing, in particular a car radio. It is understood that in known devices in which a digital signal processing is already present, all possibly necessary further process steps can be integrated into this digital processing. In particular, in smartphones and consumer electronics devices comprising a microprocessor, which are required for carrying out the method according to the invention
  • the method according to the invention can be realized purely software-based via a program (app).
  • the instructions for carrying out the method according to the invention are stored on a data memory.
  • the signal processing takes place in an application-specific integrated circuit (AS IC), which carries out the signal processing according to the method according to the invention.
  • AS IC application-specific integrated circuit
  • Difference signal without explicit knowledge of the interfering signal or without external information audible to approach the undisturbed difference signal and to achieve a noise reduction.
  • the interference signal does not have to be estimated.
  • the rules are obtained exclusively from the signals L and R or (L + R) and (LR). It is therefore possible to edit also recorded stereo signals of an FM stereo receiver later.
  • the signal processing of the difference signal according to the derived rules leads to an approximation of the undisturbed difference signal.
  • the achieved noise reduction is not dependent on a signal threshold. It works in all levels of the signal.
  • the method leaves the effect of individual frequency components within the critical bandwidth to the hearing as well as the masking effect.
  • the modular structure of the method allows different quality levels with different implementation costs of signal processing.
  • the inventive method for signal processing of an F stereo signal processes audio signals of the left and right channels after a stereo decoding in the receiver in digitized form.
  • the sum and difference signals can be processed.
  • the method adapts the signal processing to the conditions of the signal.
  • the signal processing takes place in blocks, ie the audio data of both channels are collected for a certain time and then processed.
  • the signal processing is non-linear and takes place in the time and frequency domain.
  • the term "frequency range” is hereafter the range of the transformed signal.
  • the transformation can be, for example, a Fourier transformation or a wavelet transformation or the like.
  • the signal processing steps for noise reduction are embedded in a weighted overlap add structure (WOLA). Via the WOLA it is possible to carry out a continuous transformation into the frequency domain.
  • WOLA structure used here consists of the following parts:
  • Synthesis window function hides these errors at the block boundaries and avoids audible discontinuities.
  • the WOLA is inherently signal transparent, i. as long as no changes are made to the signal, the output signal corresponds to the input signal.
  • Intensity stereophonic In pure intensity stereophony, a musical instrument or voice within the stereo base is mapped to a virtual location by simultaneously splitting the signal into the left channel (L) and the right channel (R) at a certain level. The location is defined by the level ratio from the left channel (L) to the right channel (R). The signals in L and R are equal in time and in phase.
  • Fig. 4 shows the scheme of a signal division into the channels L and R in pure IS.
  • the audio signals L (t) and R (t) are matrices.
  • the magnitude function jdj can be considered as an envelope which is supported by relative maxima /a of the sum signal.
  • Fig. 5 shows an exemplary sum and difference signal as well as the resulting envelope (of a complex signal and not a simple sine signal).
  • Rule 1 can be defined in the time domain and in the frequency domain of the audio signals: a.
  • Time range At any point in time, the magnitude of the difference signal is smaller than that of the sum signal or at most the same size - the difference signal is within the envelope of the sum signal.
  • the difference signal can be reduced in magnitude to the value of the sum signal at the appropriate time or at the corresponding frequency.
  • the frequency spectrum is defined infinitesimal, as the sum of spectral lines. Each spectral line can be considered as a vector with an amplitude value (magnitude) and an associated phase value. A disturbance can increase or decrease the amplitude value and change the phase value and leads to a falsified via the dematrixing
  • the phase value is adopted unchanged.
  • the sum signal is superimposed on the difference signal in such a way that the sum signal can not be seen in certain parts in this representation.
  • Difference signal is partly outside the envelope. A truncation of the interference signal components, and thus a reduction of the interference in the time domain, is therefore possible.
  • a reduction of the interference is possible, as shown in Fig. 8.
  • the power of a frequency f in the disturbed difference signal can be reduced to the power of the corresponding frequency in the sum signal.
  • the extent of the reduction is indicated here by delta.
  • the application of rule 1 in the frequency domain represents the largest part of the noise reduction. Often many spectral lines of the difference signal are below those of the sum signal, such as an undisturbed signal in which the stereo effect is not extremely pronounced (eg at
  • a reduction of amplitude values of the difference signal spectrum is only carried out if the disturbance exceeds the amplitude value by the value of
  • the method exploits this situation and reduces interference signals in the difference signal spectrum, especially at these points.
  • Frequency groups works. In a frequency group or critical bandwidth, human hearing evaluates the frequencies or spectral lines together. There are 24
  • Frequency groups from 0 to 20000 Hz.
  • Fig. 9 shows the critical band No. 9 from 920 Hz to 1080 Hz with 30 spectral lines, three of which are not lowered.
  • the o.g. Noise reduction at high frequency resolution causes an increase in the SNR within the frequency groups formed in the ear.
  • Fig. 10 shows the masking curves of a 1 kHz sine wave for different levels. For example, if the 1 kHz tone has a level of 100 dB, a 2 kHz tone with 70 dB can not be detected in the same channel. It is understood that such masking effects in the frequency domain for the
  • Perception of the processed signal in particular with regard to residual errors play a role, even if these masking effects are not included in the processing of the signal.
  • the frequency groups are approximately logarithmically divided.
  • a logarithmic scaling in the transformation into the frequency range conceivable. In the embodiment shown here, however, a linear scaling is made.
  • 11a and 11b show an example:
  • L sine signal 900 Hz
  • R sine signal 300 Hz
  • Fig. 12 shows sum signal and difference signal (dotted)
  • the difference signal can have a higher amplitude than the sum signal. With a factor of about 1.4, most cases are detected in more complex signal constellations. It can also be seen that the maxima of the sum and difference signals do not necessarily have to be simultaneous. The envelope of the sum signal must be extended by the factor kis and relative maxima / minima of the sum signal must be kept for a certain time, so that the maxima / minima of the Difference signal can be included. Since a maximum can occur first in each of the two signals, the hold time must also apply for times before the time of the observation.
  • the time difference between the extreme values of the sum and difference signals corresponds to half a period of the higher-frequency signal when the frequency ratio is 3: 1.
  • a time offset of +/- 3ms corresponds to 83/166 Hz. Frequencies in this range are i.d.R. mono, i. their share in the difference signal is low.
  • a range of + / 3ms covers practically all such effects.
  • kis amplitude factor for single tones, e.g. 1.1 *
  • the modified rule 1 in the time domain and in the frequency domain is as follows: a. Time range: The difference signal lies within an envelope. The envelope will be
  • Frequency range At each frequency, the power of the difference signal is less than the power of the sum signal or at most the same size.
  • Time Range For each block, the disturbed difference signal is reduced to the envelope of the sum signal, with the envelope taking into account signal displacements and amplitude increases.
  • relative maxima instantaneous peak values of the magnitude of the sum signal for the range of the time shift Tis (eg -3 / + 3 ms) are held (peak hold) and the resulting signal is increased by the factor kis (eg 1 .4) ,
  • the block length (here approx. 100 ms) covers the time shift of the extreme values between the sum and difference signal.
  • the amplitude value of each spectral line of the disturbed difference signal is reduced to the value of the sum signal.
  • the phase spectrum of the difference signal is further processed unchanged.
  • the human ear can determine the hearing event direction and thus the sound location based on transit time differences between the left and right ear.
  • Fig. 13 shows an example of such AB microphone setup.
  • decca tree is also gladly used to produce complex sound objects, such as To depict the orchestra.
  • additional laterally arranged support microphones are used.
  • the sound of a source hits different microphones at different times.
  • individual levels and runtimes result for each microphone.
  • the individual microphone signals are processed according to certain aspects to a left and right audio signal.
  • the following effects occur after the matrixing:
  • An auditory event that is reflected in the difference signal is, depending on the direction of incidence of the sound wave, not entirely coincident with the sum signal.
  • the intensity-stereophonic part of the signal therefore predominates and the statistical one
  • Time range The difference signal lies within an envelope.
  • the envelope is supported by relative maxima / minima of the sum signal multiplied by a factor kis. Each newly determined and multiplied by kis extreme value is within a
  • Frequency range At each frequency, the power of the difference signal is less than the power of the sum signal or at most the same size.
  • Time interval (here about 100 ms) covers the essential differences in transit time, i. time-shifted signal components still occur in the same block.
  • phase spectrum is processed further unchanged.
  • Reduced sum signal wherein the envelope takes into account runtime-related signal shifts and amplitude increases (especially in transients).
  • relative maximums (instantaneous peak values) of the magnitude of the sum signal for the range of the time shift us eg -3 / + 3 ms held (peak hold) and the resulting signal increased by the factor is (eg 1.4).
  • Rules 1 and 2 can be turned away in the frequency domain on frequency groups. The performances of the individual spectral lines are considered together.
  • Rule 1 is the consideration for intensity stereophony. Rule 1 b or Rule 2b is always applied to the performance of the procedure. 5. Special signal constellations in LS
  • the method according to the invention also incorporates signal constellations in signal transit in the case of time-of-flight stereophony: Erasements:
  • Fig. 14 shows an undisturbed differential signal spectrum at LS.
  • Frequency-selective cancellations in the sum signal spectrum at 2.09 kHz and 2.83 kHz can be seen. Erasures occur in both spectra at different frequencies.
  • An extinction in the sum signal according to rule 2b would greatly reduce the difference signal spectrum at this frequency and possibly the sound of the undisturbed audio signal
  • the unchanged value of the difference signal spectrum is not taken over, since this could be a pure interference signal of any magnitude. Instead, the value of the difference signal spectrum is reduced to the median value of the sum signal spectrum, as shown in FIG. 15, which shows a disturbed difference signal spectrum at LS. Thus, the noise reduction remains effective without distorting the useful signal.
  • LM local / frequency-selective maximum
  • Level maximum is accompanied by a higher frequency selective SNR. If so, the level remains unchanged and will not be lowered. It is assumed that the disturbance has a white spectrum in the larger environment of the maximum level and that the frequency-selective level maximum is higher than this.
  • the difference signal spectrum has a plurality of spectral lines with an increased level, which is not supported by the spectral lines of the sum signal. It can therefore be deduced that the high level
  • Spectral lines of the difference signal originate from an interfering signal. A reduction to the level of the sum signal spectrum can take place.
  • Fig. 17a the median filtered difference signal spectrum can be seen. A maximum in one of the spectra is present when the spectrum exceeds its median value by a given value in dB.
  • LMS sum and LM difference denote the maxima of the sum signal spectrum and the difference signal spectrum, respectively. If LMSum is within the bandwidth of LMDifference, a higher-order local maximum LM is indicated, which causes a decrease in the level of the difference signal spectrum in the corresponding frequency bandwidth to be blocked. For the example in Fig. 17b, this is the case only for a narrow frequency range at 5.75 kHz.
  • Difference signal spectra are identified by means of median labeling. Both cases flow into the spectral correction function as non-linear signal processing. LM and AL contribute to the restoration of the undistorted differential signal spectrum.
  • Identification of IS or LS takes place via a cross-correlation (similarity analysis) of the sum and difference signal. The basic idea behind this is that the cross-correlation of both signals determines their time shift. If this equals zero, IS is present, otherwise LS.
  • an identification in the frequency domain can be made if
  • the cross-correlation function (KKF) is calculated from one block each of the sum and difference signal.
  • the low notes are monaural. They produce small phase differences at the different microphones and dominate in the level i.d.R. higher frequencies. Time shifts at higher frequencies are obscured and not detected by the KKF.
  • the signals of the sum and difference signals are first differentiated in time and only then is the KKF calculated. The differentiation in the time domain corresponds to an increase in the level to higher frequencies in the frequency domain.
  • the KKF is calculated level-independently by determining the covariance function (KOV) (for formulas see Appendix). Subsequent magnitude formation allows maxima to be displayed independently of the signal polarity. Maxima are reported at such time shifts, in which the differentiated sum and difference signal shows similarities. For pure IS, the maximum for the time shift is zero. Further maximums of the KOV can arise if both signals have internal similarities - the difference signal is often a weak copy of the sum signal. To hide these maxima, the covariance function (KOV) (for formulas see Appendix).
  • KOV covariance function
  • Figures 18a and 18b show typical deltaKOV at LS (18a) and IS (18b).
  • the above-mentioned method does not reliably detect superimposed disturbances in each block of time-period stereophonic time shifts between the sum and difference signals. Disturbances alter the time course of the difference signal, lead to the dissimilarity of the sum and difference signal and consequently reduce the level of delta.
  • the signal-to-interference ratio (SNR) is considered in blocks.
  • SNR the ratio of the power of the sum and difference signal is defined here. If the SNR falls below a threshold value in a block - ie the IS / LS decision becomes unreliable - the decision of the last block with high SNR is adopted. The starting value is LS.
  • Audio signals can have a transient or stationary character.
  • Transient signals can be described by an increase in power within a very short time, often associated with upstream signal pauses or quiet passages.
  • Stationary signals have a rather continuous time course of performance.
  • Interference signals can be reduced particularly effectively in the frequency range, if the magnitude spectra of the useful signal and of the interference signal differ significantly.
  • transient useful signals such as guiro, castanets
  • transient useful signals such as guiro, castanets
  • they have an almost white spectrum and there is little difference to the noise as a noise signal.
  • a reduction of selective frequency components can hardly take place. Accordingly high in such cases, the residual noise.
  • Another component of interference is added: the signal processing of a disturbance in the frequency domain produces an alias after the inverse transformation into the time domain, which extends over the block. In stationary useful signals it is usually hidden.
  • residual noise is concealed simultaneously. Residual noises that occur after a transient are better masked, as natural transient signals swing out more slowly and the ear has a temporal concealment. The masking of residual noises, which occur in time before a transient, is less. In signal pauses before a transient, the noise can be heard as a so-called pre-echo. Fig. 19 shows the temporal masking.
  • the useful signal has a transient / pulse character and is superimposed on noise in the differential signal
  • the residual noise can be reduced by additional signal processing in the time domain (temporal processing).
  • the difference signal is limited to the envelope of the sum signal (Ciipping).
  • Fig. 20 shows an undisturbed Guiro, without signal processing, so the original signal.
  • Fig. 21 shows a noisy guiro after signal processing in the frequency domain. A pre-echo is available.
  • Fig. 22 shows the noisy Guiro after signal processing in the time and frequency domain. The pre-echo is significantly reduced.
  • cip- ting also helps to temporarily eliminate or reduce transient disturbances.
  • the limitation to the envelope reduces the interference energy in case of stronger disturbances. In these cases, the magnitude spectrum of the difference signal after ciping is below the untreated magnitude spectrum. The effect of the original perturbation on magnitude and phase of spectral lines is reduced.
  • Frequency range are corrected. Level subsidence can not be corrected.
  • the sum signal (useful signal) is stationary, or if it has a temporally continuous signal form, its frequency spectrum usually offers sufficient gaps for effective selective noise reduction in the frequency range of the difference signal.
  • the temporal processing (limitation on the envelope) worsens the residual noise and thus also the channel separation. Therefore, it is better to turn off temporal processing in this case.
  • the temporal processing reduces in particular pre-echoes.
  • Pre-echoes arise as a form of aliasing after the IFFT and are recognizable in the signal pauses before a transient and without temporal processing u.U. audible.
  • the alias according to the IFFT is usually covered by the continuous signal form.
  • the envelope of the sum signal is examined (T.) If the envelope increases by more than x percent within a period of time AI, then a transient is identified as being the percentage determination.
  • Block the audio samples for the right and left channels An overlapping block structure is created. The overlap is e.g. 50%. The block length is e.g. 4096. The following processing steps are per block.
  • H (n, N) 0.5-0.5 cos ⁇ (2Hn / (N-1) ⁇
  • a OV (x) i : KOV (x, x) i
  • the inventive method reduces noise and other types of interference that occur in the differential signal and exceed the interference in the sum signal. These include disturbances that arise on the transmission chain after the matrixing in the stereo encoder up to the FM demodulator in the receiver, eg self-noise of the FM transmitter, radio transmission interference, noise due to low power of the receiving antenna,
  • Self-noise in the RF part of the receiver RF adjacent channel and DC interference, quantization noise of ADCs in the IF range of the receiver, interference from signals from purely digital or even hybrid transmission systems such as e.g. IBOC, HD radio, FMeXtra, as well as interference and crosstalk within hybrid systems, which affect the differential signal of the analog transmission system.
  • Disturbances which occur in the sum channel, ie even in pure mono reception, can not be eliminated by the method. These include such adjacent channel interference, which leads briefly to strong interference, especially in mobile reception.
  • the process steps mentioned also refer to the FM variant SSBSC used in the USA.
  • the method of the invention is fully compatible with SSBSC.
  • the method was simulated in this embodiment with a math program on a PC and simulated.
  • the analog FM stereo signal is first digitized and matrixed.
  • the already digitized signal can be used.
  • the signal is divided into a sum signal and a difference signal in the time domain and weighted, overlapping blocks are generated.
  • the weighting can be done, for example, using the Hanning function (window function).
  • the summed signal is used to calculate the envelope as well as to identify runtime (LS) and intensity stereophonic (IS) sounds.
  • the identification of LS and IS preferably takes place, as previously described, by means of a correlation analysis.
  • the difference signal can be lowered to the envelope of the sum signal level.
  • a transient detection is provided according to a preferred embodiment of the invention, which decides whether it is a transient or stationary signal.
  • the envelope limit is not applied and the unchanged difference signal is used immediately.
  • the transient signal is subjected to the limitation on the envelope of the sum signal.
  • both sum signal and difference signal from the time domain is transformed into the frequency domain.
  • Frequency range is in this block diagram in the dotted frame, which is marked with frequency range, located.
  • the phase of the difference signal spectrum is further processed unchanged.
  • Difference signal spectrum the affected frequencies or spectral lines can be set.
  • the difference signal spectrum is reduced to the median value of the sum signal spectrum.
  • the difference signal spectrum is directly processed without having to identify cancellations and local maxima, or in this embodiment the identification must be used.
  • Rule 1 is performed in the frequency domain and the difference signal spectrum is lowered to the sum signal spectrum.
  • the result is a corrected difference signal spectrum. This is transformed back into the time domain using the phase spectrum.
  • the sum signal and the corrected difference signal are dematrixed, resulting in a corrected stereo signal.
  • Fig. 24 shows an embodiment of the deletion identification shown as a block in Fig. 23b.
  • the log-quantized sum signal spectrum is compared with its median curve. If the difference is above a threshold, the difference signal spectrum is lowered to the respective median value. If not, rule 1 applies and the difference signal spectrum is lowered to the sum signal spectrum as shown in FIG. 23b.
  • Fig. 25 shows the identification of the maxima made in Fig. 23b.
  • Difference signal spectrum is subjected to median filtering.
  • a reduction of disturbances of a stereo signal can be carried out, so that this approximately reaches the quality of the mono signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Stereophonic System (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Verarbeitung eines FM-Stereosignals. Das FM- Stereosignal wird digitalisiert und in sich überlappende Blöcke unterteilt, welche in den Frequenzbereich transformiert werden. Einzelne Spektrallinien des Differenzsignals werden abgesenkt, falls diese einen höheren Betrag haben als die jeweiligen Spektrallinien des Summensignals. Sodann werden Summen- und Differenzsignal rücktransformiert.

Description

Verfahren zur Verarbeitung eines FM-Stereosignals
Beschreibung Gebiet der Erfindung
Die Erfindung betrifft ein Verfahren zur Verarbeitung eines analogen FM-Stereosignals, welches einer digitalen Signalverarbeitung unterzogen wird.
Hintergrund der Erfindung
Das in ITU-R BS.450 beschriebene Pilotton-Verfahren wird zur Übertragung von Stereosignalen über UKW-Sender eingesetzt. Es sieht vor, die beiden Audiokanäle Links (L) und Rechts (R) zunächst einer Preemphase (Hohenanhebung) zu unterwerfen und anschließend zu matrizieren, so dass ein Summensignal (L+R)/2 und ein Differenzsignal (L-R)/2 erzeugt wird.
Das Summensignal wird im Basisband bis 15 kHz übertragen. Das Differenzsignal wird in Doppelseitenbandmodulation trägerfrequent übertragen, wobei der Träger mit einer Frequenz von 38 kHz unterdrückt wird. Damit der Empfänger das modulierte Differenzsignal demodulieren kann, wird ein Pilottonsignal mit einer Frequenz von 19 kHz übertragen, das der halben
Trägerfrequenz entspricht.
Das Signalgemisch aus Summen-, Differenz- und Pilottonsignal wird als Multiplexsignal (MPX) bezeichnet. Das MPX-Signal und ggfs. Zusatzsignale, wie RDS, modulieren in einem UKW- Sender ein hochfrequentes Trägersignai in seiner Frequenz. Die hochfrequente Ausstrahlung erfolgt über eine Antenne.
Ein UKW-Empfänger nach dem Superheterodyne-Prinzip empfängt das hochfrequente Signal über eine Antenne. Das radiofrequente Signal (RF-Signal) der Antenne wird verstärkt, in der Frequenz vorselektiert und in einen Zwischenfrequenz (ZF)-Bereich verschoben.
Ein Zwischenfrequenzfilter lässt den Großteil der Nutzbandbreite passieren und filtert
Nachbarkanalstörungen weitgehend aus. Durch eine nachfolgende Amplitudenbegrenzung des Zwischenfrequenzsignals in einem Begrenzer (limiter) werden Amplitudenschwankungen beim
Empfang des RF- bzw. ZF-Signals unterdrückt.
Anschließend findet eine Frequenzdemodulation statt, die das MPX-Signal liefert. Dieses wird einem Stereodecoder zugeführt
Ein Blockschaltbild eines MPX-Stereodecoders ist in Fig. 1 dargestellt.
Ein Mono-Empfänger wertet nur das Summensignal (L+R)/2 im Basisband aus, das sich bis 15 kHz erstreckt. In einem Stereo-Empfänger gewinnt ein Stereodecoder die Signale L und R aus dem MPX-Signal wieder.
Im Stereodecoder findet eine Frequenzverdopplung des Pilottonsignals und somit eine
Rückgewinnung der Trägerfrequenz 38 kHz des Differenzsignals statt.
Der Stereodecoder demoduliert das doppelseitenbandmodulierte Differenzsignal und gewinnt somit das Signal (L-R)/2 wieder. Das Summensignal (L+R)/2 wird direkt aus dem Basisband wiedergewonnen. Durch Dematrizierung, d.h. Addition bzw. Subtraktion dieser beiden Signale, gewinnt der Decoder die preemphasebehafteten Signale L und R wieder. Diese werden abschließend einer Deemphase unterworfen, die die sendeseitige Preemphase kompensiert. Somit stehen die ursprünglichen Signale L und R zur Verfügung.
Andere Decodiermethoden, wie z.B. der Schalter-Decoder unterscheiden sich von der oben abgebildeten Signalverarbeitung bezüglich Demodulation und Dematrizierung, lassen sich aber signaltheoretisch in das oben abgebildete Modell überführen.
Das Verhalten von Empfängern nach bisherigem Stand der Technik zeichnet sich wie folgt aus.
Zur Erläuterung wird das FM-Pilottonsystem bezüglich Rauschstörungen theoretisch betrachtet. Die konstante spektrale Rauschleistungsdichte in der RF- bzw. ZF-Ebene wird durch den FM- Demodulationsprozess in eine Spannungs-Dichtefunktion mit frequenzproportionalem Verlauf umgewandelt. Das MPX-Spektrum und die Rauschspannungsdichte sind in Fig. 2 dargestellt.
Aus Fig. 2 ist ersichtlich, dass die Rauschspannungsdichte und damit die Störungen im Bereich des Differenzsignals zwischen 23 und 53 kHz deutlich höher liegen als im Bereich des Summensignals, das nur bis 15 kHz reicht.
Der nach der FM-Demodulation vorherrschende monaurale Audiosignal-Rauschabstand SNRFM mit Bezug auf +/- 75 kHz Frequenzhub ohne Berücksichtigung einer Pre-/Deemphase kann näherungsweise durch folgende Formel beschrieben werden:
SNRFM = 3ß2(ß+1 )CNR mit dem radiofrequenten Störabstand
Figure imgf000005_0001
ß ist der Modulationsindex der FM
A ist die Amplitude des Trägersignals
No/2 ist die zweiseitige Rauschleistungsdichte bei weißem Rauschen.
BT ist die radiofrequente Übertragungsbandbreite.
Sie kann mit der Carson-Formel abgeschätzt werden mit
BT = 2(ß+1 )W
W ist die Audiosignal-Bandbreite
Aus der Carson-Formel ergibt sich ß+1 = BT / 2W
Eingesetzt in die Formel für SNRFM ergibt für ß » 1
SNRFM = 3CNR(BT / 2W)3
O.g. Formeln gelten oberhalb der sogenannten FM-Schwelle, unterhalb der die Signalqualität rapide abnimmt und mit Impuls-Rauschen zu rechnen ist, das sich nach der Demodulation in Klicks oder Prasseln äußert. Die FM-Schwelle bei einer radiofrequenten Übertragungsbandbreite von 180 kHz beträgt ca. 1 1 dB CNR. Oberhalb dieser Schwelle ist SNRF = 28 dB + CNR bei ono-Empfang
SNRFM = 5 dB + CNR bei Stereo-Empfang
Dazu kommen noch ca. 10 dB bei Berücksichtigung einer Pre-/Deemphase von 50 LIS bzw. 13 dB bei 75 LIS.
Mit der FM-Schwelle von ca. 11 dB korrespondiert ein mono-Audio-Störabstand von 39 dB + Deemphase-Gewinn. Bei einer Deemphase von 50 LIS ist also mit mindestens 49 dB Mono- Audiostörabstand zu rechnen, bzw. 26 dB Stereo-Audio-Störabstand. Bezogen auf 40 kHz Frequenzhub ist mit einem Audio-Störabstand von 43.5 dB mono und 20.5 dB stereo zu rechnen. Der mono-Gewinn im Audio-Störabstand gegenüber stereo beträgt an der FM-Schwelle 23 dB. Im Empfänger verringert sich der mono-Gewinn [N(mono)-N(stereo)] mit steigendem
Audiostörabstand, wie aus der Begrenzerkurve eines beispielhaften FM-Empfängers ersichtlich ist, die in Fig. 3 gezeigt ist.
Nach oben hin ist der Audio-Störabstand SNR begrenzt durch das Eigenrauschen der restlichen Übertragungskette.
Fig. 3 zeigt die durchgezogene Kurve N (stereo) die Größe der Störung N beim stereo-Empfang. Die gestrichelte Linie N zeigt die Funktion„stereo-blend", bei der unterhalb einer Schwelle (hier ca. 100 LLV Antennenspannung) mit fallender Antenneneingangsspannung das Differenzsignal im Pegel reduziert wird. Die Störleistung N wird so auf einem reduzierten Niveau gehalten und steigt nicht weiter an. Die Folge davon ist eine zunehmende Verschlechterung der L-R-Kanaltrennung (stereo-blend) bis hin zu mono (L=R, d.h. keine Kanaltrennung).
Ab ca. 40 LLV erreicht das Nutzsignal S seinen vollen Pegel. Der Abstand der Kurve N zur Kurve S+N ist der Audio-Störabstand.
Gemäß dem Stand der Technik wird eine Reduzierung des Differenzsignalpegels eingesetzt um den Audio-Störabstand zu Lasten der L-R-Kanaltrennung zu erhöhen. Die Reduzierung kann breitbandig oder in Frequenzbereichen, wie z.B. im Hochtonbereich, stattfinden und ist in ihrem Ausmaß von externen Signalen, externen Kriterien oder einer Schätzung des Störsignalanteils abhängig. Weitere Maßnahmen im Empfänger, die die Hörbarkeit von Empfangsstörungen auf der Audiofrequenz-Ebene bzw. MPX-Ebene zu reduzieren, sind die Absenkung der höheren Audiofrequenzen (Hi-blend, Hi-cut) bei stärkerem Rauschen und die Lautstärke-Reduzierung bzw. die Stummschaltung (Muting, noise blanker) bei starken Störungen. Diese wirken sich auch auf das Summensignal (mono-Signal) aus.
Aufgabe der Erfindung
Vor diesem Hintergrund ist es Aufgabe der Erfindung, den hörbaren Stereo-Audiostörabstand zu verbessern, ohne die L-R-Kanaltrennung weiter einzuschränken. Der verbesserte Störabstand soll sich insbesondere der mono-Qualität annähern. Weiterhin ist es Aufgabe der Erfindung die Schritte zur Verbesserung aus dem Signal selbst abzuleiten ohne die Hilfe externer Signale oder externe Kriterien (wie z.B. der
Antennenspannung) in Anspruch zu nehmen.
Zusammenfassung der Erfindung
Die Aufgabe der Erfindung wird bereits durch ein Verfahren zur Verarbeitung eines FM- Stereosignals nach einem der unabhängigen Ansprüche gelöst.
Bevorzugte Ausführungsformen und Weiterbildungen der Erfindung sind dem Gegenstand der Unteransprüche, der Beschreibung sowie den Figuren zu entnehmen.
Die Erfindung betrifft ein Verfahren zur Verarbeitung eines analogen FM-Stereosignals. Die Erfindung betrifft also die Verarbeitung von analogen Radiosignalen, die im Stereo-Ton ausgestrahlt werden. Das analoge Stereosignal kann dabei sowohl in der eingangs beschriebenen Form als Summen- und Differenzsignal als auch als Signal vorliegen, bei dem linker und rechter Kanal voneinander getrennt übertragen werden. Das erfindungsgemäße Verfahren zur Verarbeitung eines F -Stereosignals kann auch dadurch charakterisiert werden, dass ein FM-Stereosignai digitalisiert wird, das digitalisierte Signal einer Signalverarbeitung unterzogen wird und sodann in das analoge Signal zurücktransformiert wird.
Gemäß der Erfindung erfolgt die Signalverarbeitung digital, es wird also mittels eines
Mikroprozessors die Verarbeitung des Signals in digitaler Form vorgenommen.
Hierzu wird das analoge FM-Stereosignal als Summen- und Differenzsignal digitalisiert. Dieses digitalisierte Signal wird in überlappende Blöcke aufgeteilt. Die Blocklänge ist vorzugsweise größer als die Zeitverschiebung zwischen Summen- und Differenzsignal. Insbesondere kann die Blocklänge zwischen 10 und 1000 ms, vorzugsweise zwischen 50 und 150 ms liegen. Eine große Blocklänge führt zu einer hohen Frequenzauflösung, ermöglicht aber eine eher geringere Störreduktion, da sich das Nutzsignalspektrum dem
Störsignalspektrum annähert.
Die überlappenden Blöcke ermöglichen eine fortlaufende Transformation in den Frequenzbereich und dort eine Signalverarbeitung. Nach Umwandlung liegt das Signal als Differenz- und
Summenkanalspektrum vor, bei welchem das Signal blockweise jeweils in eine Vielzahl von Spektrallinien unterteilt ist, welche den Betrag und die Phase des Signals an der jeweiligen Frequenz wiedergeben.
Ein erster Aspekt der Erfindung bezieht sich mithin auf eine digitale Signalverarbeitung, bei welcher das analoge Signal digitalisiert wird und zumindest teilweise im Frequenzbereich verarbeitet wird. Hierzu werden die Spektrallinien des Differenzsignalspektrums mit den jeweils korrespondierenden Spektrallinien des Summensignalspektrums verglichen. Es versteht sich, dass unter„Signalspektrum" jeweils das Signalbetragsspektrum verstanden wird und sich somit der Vergleich auf die jeweiligen Beträge bezieht. Für die weiteren Erläuterungen werden diese logarithmiert betrachtet.
Gemäß der Erfindung werden Spektrallinien des Differenzsignalspektrums dann abgesenkt, wenn diese einen höheren Betrag als die jeweiligen Spektrallinien des Summensignalspektrums haben.
Vorzugweise erfolgt die Absenkung auf den Betrag des Summensignalspektrums. Es kann aber auch eine Differenz zum Betrag des Summensignalspektrums übrigbleiben, insbesondere eine Differenz von maximal +/- 6 dB, vorzugsweise +/- 3 dB.
Diesem Aspekt der Erfindung liegt die Annahme zugrunde, dass das Stereosignal nur
Signalanteile aufweist, die innerhalb der Stereobasis lokalisiert werden können. Hieraus folgt, dass eine Spektrallinie des Differenzsignalspektrums keinen höheren Betrag haben kann als die entsprechende Spektrallinie des Summensignalspektrums. Die Folgerung gilt für
Intensitätsstereophonie (zeitgleiches Summen- und Differenzsignal). Sie gilt für
Laufzeitstereophonie, wenn die Laufzeitdifferenz beider Signale oder deren Signalanteile zu keiner Änderung der Betragsspektren führen. Letzteres trifft zu, wenn die Blocklänge die
Laufzeitdifferenz deutlich überschreitet. Durch die Umwandlung in den Frequenzbereich ist eine Verarbeitung der Signalanteile in digitalisierter Form auf einfache Weise möglich. Insbesondere kann diese rein softwarebasiert beispielsweise auf einem Smartphone oder Unterhaltungselektronikgerät erfolgen. Vorzugsweise erfolgt die gesamte Signalverarbeitung, und zwar auch im Zeitbereich, rein softwarebasiert. Nach dieser digitalen Signalverarbeitung werden Summen- und Differenzsignal rücktransformiert und die überlappenden Blöcke zusammengeführt.
Das Signal kann nunmehr dematriziert und in ein analoges Signal zur Ansteuerung eines Lautsprechers umgewandelt werden.
Gemäß den weiteren, im Konkreten ebenfalls beschriebenen Regeln können insbesondere interferenzbedingte Einbrüche des Summensignals sowie interferenzbedingte Erhöhungen der Spektren erkannt werden und Ausnahmeregeln definiert werden, um das (ungestörte) Signal nicht zu verfälschen und ggfs. Störungen zu reduzieren.
Bei einer Weiterbildung der Erfindung werden, falls die Breite eines relativen Minimums des Summensignalspektrums unter einem Schwellenwert liegt und die Tiefe einen Schwellenwert übersteigt und damit eine Auslöschung vorliegt, die frequenzentsprechenden Spektrallinien des Differenzsignalspektrums gar nicht oder weniger abgesenkt.
Diese Betrachtung zur Absenkung des Differenzsignals basiert auf der Betrachtung von
Laufzeitunterschieden der Signale, die zu Interferenzeffekten führen
Interferenzen führen zu Pegeleinbrüchen (Auslöschungen) und/oder Pegelüberhöhungen an bestimmten Stellen des Frequenzspektrums. Derartige Einbrüche haben aber eine schmale Bandbreite. Würde man nunmehr
interferenzbedingte Einbrüche des Summensignals heranziehen, um an diesen Stellen den Pegel des Differenzsignals herabzusetzen, wo würde man hierdurch das FM-Stereosignal verfälschen.
Bei einer Weiterbildung der Erfindung wird im Bereich eines lokalen Maximums des
Differenzsignalspektrums dieses mit dem Summensignalspektrum verglichen und das
Differenzsignalspektrum wird in diesem Bereich nicht abgesenkt oder weniger abgesenkt, falls ein Maximum des Summenkanalspektrums innerhalb der Frequenzbandbreite des Maximums des Differenzsignalspektrums liegt. Diese Weiterbildung der Erfindung betrifft die Behandlung lokaler Maxima, die wie lokale Minima, eine laufzeitbedingte Ursache haben können.
Die Weiterbildung der Erfindung gemäß Anspruch 2 und 3 sieht daher eine Ausnahme von der in Anspruch 1 definierten Regel vor. Auslöschungen und lokale Maxima eines Frequenzspektrums können über deren
Frequenzbandbreite und deren Abstand zum spektralen Ersatzwert als solche identifiziert werden.
Über eine Medianfilterung der Spektren wird eine Referenzkurve erzeugt. Übersteigt der Abstand des Spektrums zur Referenzkurve einen Schwellenwert, ist eine Auslöschung bzw. ein lokales Maximum identifiziert. Deren Frequenzbandbreite entspricht der Anzahl an aufeinanderfolgenden Spektrallinien, die den Schwellenwert überschreiten.
Der Medianwert berechnet sich aus den Spektralwerten des Spektrums innerhalb eines Fensters um eine Frequenz herum. Er dient hier als Ersatzwert im Spektrum und überbrückt
Pegelausreißer.
Für Auslöschungen, lokale Maxima des Summenspektrums, lokale Maxima des
Differenzsignalspektrums sind jeweils verschiedene Schwellenwerte in dB vorgesehen, die ein Abstand überschreiten muss, um eine Identifizierung zu bestätigen.
Ist also eine derartige Auslöschung bestätigt, so wird die Absenkung der entsprechenden Spektrallinien des Differenzsignalspektrums gemäß der zuvor definierten Regel nicht vorgenommen, also eine Ausnahme von der zuvor definierten Regel gemacht.
Eine Weiterbildung der Erfindung sieht vor, dass Unterschiede in der Laufzeit zwischen Summen- und Differenzsignal über eine Ähnlichkeitsanalyse oder eine Korrelation der Signale im
Zeitbereich bestimmt werden. Im Speziellen kann über eine Kreuzkorrelation und/oder die Betrachtung der Auslöschung im Frequenzbereich, insbesondere über einen Vergleich der jeweiligen Frequenzen und der jeweiligen Bandbreiten der Auslöschungen im Summen- und Differenzsignalspektrum, bestimmt werden, ob laufzeitstereophone Anteile in den Signalen vorhanden sind Dies trifft zu, wenn Auslöschungen im Summen- und Differenzsignal bei unterschiedlichen Frequenzen auftreten.
Bei einer Weiterbildung der Erfindung wird bei der blockweisen Ähnlichkeitsanalyse das
Analyseergebnis des vorherigen Blocks übernommen, falls im aktuell verarbeiteten Block ein unter einem Schwellenwert liegendes Signal-Störungs-Verhältnis (SNR) vorliegt. Sinkt nämlich in einem Block das Signal-Störungsverhältnis unter einen Schwellenwert, wird die IS/LS-Analyse unzuverlässig. Daher wird gemäß dieser Ausführungsform die Entscheidung des letzten Blocks mit hohem Signal-Störungs-Verhältnis übernommen.
Falls sich bei der Berechnung herausstellt, dass laufzeitstereophone Signalanteile vorliegen, greift wiederum gemäß dieser Ausführungsform der Erfindung die in Anspruch 2 und/oder 3 definierte Regel. Hierdurch wird sichergestellt, dass nur bei laufzeitbedingter Stereophonie von der Ausnahmeregel gemäß Anspruch 2 und/oder 3 Gebrauch gemacht wird.
Die Weiterbildungen der Erfindung, wie sie in den Ansprüchen 2 bis 4 definiert sind, dienen mithin einer Vermeidung von Klangverfälschungen, insbesondere um zu verhindern, dass ein fehlerfreies Signal hörbar verfälscht wird. Bei einer Weiterbildung der Erfindung wird bei einer Auslöschung einer Spektrallinie im
Summensignalspektrum die Spektrallinie des Differenzsignals nur auf einen Spektralersatzwert, insbesondere auf einen Medianwert, des Summensignalspektrums abgesenkt wird.
Es handelt sich hierbei um eine Differenzierung der Auslöschungsregel.
Falls der Betrag des Differenzsignalspektrums bei einer Frequenz größer ist als der
entsprechende Wert des Summensignalspektrums, wird das Differenzsignalspektrum r im Falle einer Auslöschung auf den für diese Frequenz ermittelten Median des Summensignalspektrums abgesenkt.
Die Absenkung auf den Spektralersatzwert des Summensignalspektrums reduziert
störungsbedingte Erhöhungen des Differenzsignalspektrums und vermeidet eine
Klangverfälschung durch eine sonst tiefere Absenkung der Spektrallinie.
Bei einer Weiterbildung der Erfindung wird das Differenzsignal im Zeitbereich auf die Hüllkurve des Summensignals beschränkt, deren Maxima für einen Zeitraum nach und vor der Eintrittszeit des Maximums gehalten werden (peak hold) und die so veränderte Hüllkurve oder das Summensignal mit einem Faktor größer 1 , insbesondere einem Faktor zwischen 1 und 2 multipliziert wird.
Diesem Aspekt der Erfindung liegt die Annahme zugrunde, dass das Stereosignal außerhalb der Stereobasis keine Orte abbildet. Hieraus folgt, dass das Differenzsignal jeweils keinen höheren Betrag haben kann als das Summensignal, multipliziert mit einem Faktor, der einer statistischen Signalerhöhung Rechnung trägt, wie sie bei bestimmten Signal konstellationen von Summen- und Differenzsignal auftreten kann. Vorzugsweise wird die Beschränkung des Differenzsignals im Zeitbereich auf die Hüllkurve des Summensignals nur vorgenommen, wenn ein transienter Charakter des Signals über eine Auswertung des Signals oder der Hüllkurve des Summensignals detektiert ist.
Dies wird vorzugsweise vor der Absenkung einzelner Spektrallinien des Differenzsignals, also vor der Verarbeitung im Frequenzbereich, vorgenommen.
Die Hüllkurve kann mit einem Faktor multipliziert werden, insbesondere einem empirischen Faktor, der zwischen 1 ,1 und 2,0 liegt, vorzugsweise zwischen 1 ,3 und 1 ,6. Die Erfindung betrifft des Weiteren ein Computerprogramm, welches eine Vielzahl von
Anweisungen enthält, die auf einem Computer, insbesondere auf einem Smartphone oder Unterhaltungselektronikgerät, speicherbar sind, wobei die Anweisungen, wenn sie von einem Mikroprozessor oder Mikrocontroller verarbeitet werden, ein vorstehend beschriebenes Verfahren ausführen.
Die Erfindung bezieht sich insbesondere auf eine rein softwarebasierte Verarbeitung eines analogen FM-Stereosignals in einem Gerät wie beispielsweise einem Smartphone, aber auch einem Radio mit digitaler Signalverarbeitung, insbesondere einem Autoradio. Es versteht sich, dass bei bekannten Geräten, bei denen bereits eine digitale Signalverarbeitung vorhanden ist, alle ggf. weiteren notwendigen Verfahrensschritte in diese digitale Verarbeitung eingebunden werden können. Insbesondere bei Smartphones und Unterhaltungselektronikgeräten, die einen Mikroprozessor umfassen, sind die zur Ausführung des erfindungsgemäßen Verfahrens erforderlichen
Hardwarekomponenten vorhanden, wenn dieses Gerät mit einem Empfänger zum Empfang analoger FM-Stereosignale versehen ist.
Das erfindungsgemäße Verfahren kann insbesondere rein softwarebasiert über ein Programm (App) realisiert werden. Dabei sind die Anweisungen zur Durchführung des erfindungsgemäßen Verfahrens auf einem Datenspeicher hinterlegt.
Bei einer weiteren Ausführungsform der Erfindung erfolgt die Signalverarbeitung in einem anwendungsspezifischen integrierten Schaltkreis (AS IC), der die Signalverarbeitung gemäß dem erfindungsgemäßen Verfahren ausführt.
Beschreibung eines Ausführunqsbeispiels
Das erfindungsgemäße Verfahren soll im Folgenden anhand eines Ausführungsbeispiels und unter Bezugnahme auf die weiteren Zeichnungen im Detail erläutert werden.
1. Übersicht über das Verfahren
Es wird theoretisch abgeleitet, in welcher Form (Zeit-, Frequenzbereich) und in welchem Ausmaß das Differenzsignal vom Summensignal abweichen darf, ohne die Stereobasis einzuschränken. Die daraus abgeleiteten Regeln zur Signalverarbeitung erlauben es, das störbehaftete
Differenzsignal ohne explizite Kenntnis des Störsignals bzw. ohne externe Informationen darüber hörbar dem ungestörten Differenzsignal anzunähern und eine Störreduzierung zu erreichen. Das Störsignal muss nicht geschätzt werden.
Die Regeln werden ausschließlich aus den Signalen L und R bzw. (L+R) und (L-R) gewonnen. Es ist deshalb möglich, auch aufgezeichnete Stereosignale eines FM-Stereo-Empfängers nachträglich zu bearbeiten. Die Signalbearbeitung des Differenzsignals nach den abgeleiteten Regeln führt zu einer Approximation des ungestörten Differenzsignals.
Die dabei erreichte Störreduzierung ist nicht abhängig von einer Signal-Schwelle. Sie arbeitet in allen Pegelbereichen des Signals.
Das Verfahren überlässt die Wirkung einzelner Frequenzanteile innerhalb der kritischen Bandbreite dem Gehör ebenso wie den Verdeckungseffekt.
Die modulare Struktur des Verfahrens ermöglicht verschiedene Qualitätsstufen mit unterschiedlichem Realisierungsaufwand der Signalbearbeitung.
Das erfindungsgemäße Verfahren zur Signalverarbeitung eines F -Stereosignals verarbeitet Audiosignale des linken und rechten Kanals nach einer Stereodecodierung im Empfänger in digitalisierter Form. Alternativ können das Summen- und Differenzsignal verarbeitet werden.
Es wird vorausgesetzt, dass Funktionen wie stereo-blend, hi-blend ausgeschaltet sind und der muting-level und die Lautstärkeabsenkung bei starken Störungen an das Verfahren angepasst sind um die Vorteile des Verfahrens voll auszunutzen.
Das Verfahren passt die Signalverarbeitung an die Gegebenheiten des Signals an.
Dazu werden verschiedene Signalanalysen durchgeführt. Es wird angestrebt, dass ungestörte Signale praktisch hörbar unverändert bleiben, während gestörte Signale sehr effektiv von den Störungen befreit werden unter Beibehaltung der L-R-Kanaltrennung.
2. Blockstruktur und overlap-add
Die Signalverarbeitung findet blockweise statt, d.h. es werden die Audiodaten beider Kanäle für eine gewisse Zeit gesammelt und dann bearbeitet. Die Signalverarbeitung ist nichtlinear und findet im Zeit- und Frequenzbereich statt. Der Begriff "Frequenzbereich" steht im Folgenden für den Bereich des transformierten Signals. Die Transformation kann z.B. eine Fourier- Transformation oder eine Wavelet-Transformation o.a. sein.
Die Signalverarbeitungsschritte zur Störungsreduktion sind eingebettet in eine weighted-overlap- add-Struktur (WOLA). Über die WOLA ist es möglich, eine fortlaufende Transformation in den Frequenzbereich durchzuführen. Die hier verwendete WOLA-Struktur besteht aus folgenden Teilen:
• Erzeugung einer überlappenden Blockstruktur.
• Multiplikation des Blocks mit einer Analysefensterfunktion (hier: root-Hanning). Diese
ermöglicht die Anwendung einer Transformation in den Frequenzbereich ohne sog.
Leckeffekte. · zero-padding des Blocks mit Abtastwerten bis zur gewünschten Blocklänge für die
Transformation in den Frequenzbereich.
• Transformation in den Frequenzbereich, nichtlineares processing, Rücktransformation in den Zeitbereich
• Multiplikation des Blocks mit einer Synthesefensterfunktion (hier: root-Hanning) zur
Reduzierung von Artefakten, die durch das nichtlineare processing entstehen. Die
Synthesefensterfunktion blendet diese Fehler an den Blockgrenzen aus und vermeidet hörbare Diskontinuitäten.
• Addition der überlappenden Blöcke (overlap-add)
Die WOLA ist in sich signaltransparent, d.h. solange keine Veränderungen am Signal vorgenommen werden, entspricht das Ausgangssignal dem Eingangssignal. Die
Synthesefensterfunktion und die Blocküberlappung reduzieren unerwünschte
Signalveränderungen, besonders an den Blockgrenzen. Eine detaillierte Beschreibung findet sich in folgendem Punkt 9. Signalverarbeitung.
3. Intensitätsstereophonie (IS) Bei der reinen Intensitätsstereophonie wird ein Musikinstrument oder eine Stimme innerhalb der Stereobasis an einem virtuellen Ort abgebildet indem das Signal zeitgleich in einem bestimmten Pegelverhältnis auf den linken Kanal (L) und den rechten Kanal (R) aufgeteilt wird. Der Ort wird durch das Pegelverhältnis vom linken Kanal (L) zum rechten Kanal (R) definiert. Die Signale in L und R sind zueinander zeit-/phasengleich.
Bei der Wiedergabe kann das menschliche Gehör die Hörereignisrichtung und damit den Schallort innerhalb der Stereobasis anhand von Pegeldifferenzen zwischen dem linken und rechten Ohr bestimmen. Fig. 4 zeigt das Schema einer Signalaufteilung in die Kanäle L und R bei reiner IS.
Die Stereobasis erstreckt sich von ganz links (R=0) über die Mitte (L=R) bis ganz rechts (L=0).
Für die UKW-Übertragung werden die Audiosignale L(t) und R(t) matriziert.
Es entsteht ein Summensignal 0(1) und ein Differenzsignal 5(t). Im Folgenden wird für L, R, CJ und δ der Vereinfachung halber die Zeitabhängigkeit vorausgesetzt und in der Darstellung weggelassen. Die Matrizierungsvorschrift lautet: σ = (L+R)/2 und δ = (L-R)/2
Auf der Empfängerseite findet eine Dematrizierung statt: Ι_ = σ + δ und R = a - 5 Es soll zunächst ein einziges Sinussiqnal betrachtet werden.
Setzt man voraus, dass sendeseitig keine Überbreite der Stereobasis vorliegt, also R=0 und L=0 die extremen Orte der Stereobasis darstellen, dann ergibt sich für
R = 0: σ = δ
und für L = 0: σ = -δ
und daraus abgeleitet: |δ| = |σ|
Für jeden innerhalb der Stereobasis abgebildeten Ort gilt dann für dieses Sinus-Signal die für das erfindungsgemäße Verfahren maßgebliche Regel 1 : Regel 1 |δ| <. |σ| wobei die Gleichheit gilt für die Fälle R=0 und L=0.
Die Betragsfunktion jdj kann als Hüllkurve aufgefasst werden, die gestützt wird durch relative Maxima/ inima des Summensignals.
Fig. 5 zeigt ein beispielhaftes Summen- und Differenzsignal sowie die sich ergebende Hüllkurve (eines komplexen Signals und nicht eines einfachen Sinussignals). Regel 1 lässt sich im Zeitbereich und im Frequenzbereich der Audiosignale definieren: a. Zeitbereich: Zu jedem Zeitpunkt ist der Betrag des Differenzsignals kleiner als der des Summensignals oder höchstens gleich groß - das Differenzsignal liegt innerhalb der Hüllkurve des Summensignals.
b. Frequenzbereich: Bei jeder Frequenz ist die Leistung des Differenzsignals kleiner als die
Leistung des Summensignals oder höchstens gleich groß. Regel 1 führt erfindungsgemäß zu folgender Signalverarbeitung:
Ist das Differenzsignal mit Störungen überlagert und wird dadurch im Zeit- oder Frequenzbereich o.g. Regel verletzt, kann zu dem entsprechenden Zeitpunkt bzw. an der entsprechenden Frequenz das Differenzsignal betragsmäßig reduziert werden auf den Wert des Summensignals. Das Frequenzspektrum definiert sich, infinitesimal aufgelöst, als Summe von Spektrallinien. Jede Spektrallinie kann als Vektor mit einem Amplitudenwert (Betrag) und einem zugehörigem Phasenwert aufgefasst werden. Eine Störung kann den Amplitudenwert erhöhen oder vermindern und den Phasenwert verändern und führt über die Dematrizierung zu einer verfälschten
Kanaltrennung.
Der Amplitudenwert wird nun gemäß Regel 1 b auf den Wert des Summensignalspektrums reduziert (entspricht dem Fall R=0 bzw. L=0). Dabei ist es wegen der infinitesimal kleinen Bandbreite unerheblich, ob die Leistung vom Nutz- oder Störsignal oder beiden herrührt. Der Phasenwert wird unverändert übernommen.
Die Signalverarbeitung soll an drei Beispielen gemäß Fig. 6 bis Fig. 8 bildlich erläutert werden:
Gemäß der Darstellung in Fig. 6 wird das Summensignal derart vom Differenzsignal überlagert, dass das Summensignal in dieser Darstellung streckenweise nicht zu erkennen ist. Das
Differenzsignal liegt teilweise außerhalb der Hüllkurve. Ein Abschneiden der Störsignalanteile, und damit eine Reduzierung der Störung im Zeitbereich, ist daher möglich.
Gemäß der Darstellung in Fig. 7 ist eine Reduzierung der Störung im Zeitbereich dagegen nicht möglich. Da das gestörte Differenzsignal noch innerhalb der Hüllkurve des Summensignals liegt, kann keine Pegelabsenkung im Zeitbereich erfolgen.
Im Frequenzbereich ist eine Reduzierung der Störung möglich, wie dies in Fig. 8 dargestellt ist. Die Leistung einer Frequenz f im gestörten Differenzsignal kann auf die Leistung der entsprechenden Frequenz im Summensignal reduziert werden. Das Ausmaß der Reduzierung ist hier mit delta angegeben. Die Anwendung der Regel 1 im Frequenzbereich stellt den größten Anteil der Störreduzierung dar. Oft liegen viele Spektrallinien des Differenzsignals unter denen des Summensignals, wie z.B. bei einem ungestörten Signal, bei dem der Stereoeffekt nicht extrem ausgeprägt ist (z.B. bei
R=L/2).
Eine Reduzierung von Amplitudenwerten des Differenzsignalspektrums wird nur dann vorgenommen, wenn die Störung den Amplitudenwert über den Wert des
Summensignalspektrums anhebt. Dies kann besonders bei leisen Passagen vorkommen, bei denen die Störung das Nutzsignal dominiert.
Mit steigender Frequenzauflösung (entspricht steigender Blocklänge) eröffnen sich mehr Details der Spektren, auch in Form von Lücken und Senken des Summensignalspektrums. Das
Verfahren nutzt diesen Sachverhalt aus und senkt insbesondere an diesen Stellen Störsignale im Differenzsignalspektrum ab.
Für das menschliche Gehör ist es relevant, wie gut diese Störbefreiung innerhalb der
Frequenzgruppen funktioniert. In einer Frequenzgruppe oder kritischen Bandbreite wertet das menschliche Gehör die Frequenzen bzw. Spektrallinien gemeinsam aus. Es gibt 24
Frequenzgruppen von 0 bis 20000 Hz.
Fig. 9 zeigt das kritische Band Nr 9 von 920 Hz bis 1080 Hz mit 30 Spektrallinien, von denen drei nicht abgesenkt werden.
Die o.g. Störreduzierung bei hoher Frequenzauflösung bewirkt innerhalb der im Gehör gebildeten Frequenzgruppen eine Erhöhung des SNR.
Das Summensignalspektrum und das störreduzierte Differenzsignalspektrum bilden sich über die Dematrizierung auf die Kanäle L und R ab. Dort findet im Frequenzbereich eine Verdeckung eventueller Restfehler des Entstörungsprozesses statt. Die Verdeckung hängt von den statistischen Eigenschaften und der spektralen Verteilung der Nutzsignale im linken und rechten Kanal ab. Fig. 10 zeigt die Verdeckungskurven eines 1 kHz Sinustones für unterschiedliche Pegel. Hat der 1 kHz Ton beispielsweise einen Pegel von 100 dB, kann im gleichen Kanal ein 2 kHz Ton mit 70 dB nicht wahrgenommen werden. Es versteht sich, dass auch derartige Verdeckungseffekte im Frequenzbereich für die
Wahrnehmung des verarbeiteten Signals, insbesondere im Hinblick auf Restfehler, eine Rolle spielen, auch wenn diese Verdeckungseffekte nicht in die Verarbeitung des Signals eingehen.
Die Frequenzgruppen sind annähernd logarithmisch aufgeteilt. Im Sinne der Erfindung ist z.B. auch eine logarithmische Skalierung bei der Transformation in den Frequenzbereich denkbar. Im dem hier dargestellten Ausführungsbeispiel wird aber eine lineare Skalierung vorgenommen.
Gemäß des erfindungsgemäßen Verfahren werden vorzugsweise keine Spektrallinien des Audiosignals zu Frequenzgruppen zusammengefasst. Vielmehr wird die Bewertung von
Frequenzgruppen dem menschlichen Gehör überlassen, wobei die oben gennannten
Verdeckungseffekte in die Wahrnehmung des menschlichen Gehörs eingehen.
Betrachtet man statt eines einzigen Sinussignals ein Siqnalqemisch, stellt sich die Situation etwas anders dar.
Fig. 11a und Fig. 11 b zeigen ein Beispiel:
L = Sinussignal 900 Hz, R = Sinussignal 300 Hz
Fig. 12 zeigt Summensignal und Differenzsignal (gepunktet)
Anhand dieses Beispiels kann man erkennen, dass das Differenzsignal eine höhere Amplitude als das Summensignal haben kann. Mit einem Faktor von etwa 1.4 werden aber die meisten Fälle bei komplexeren Signalkonstellationen erfasst. Es ist auch ersichtlich, dass die Maxima des Summen- und Differenzsignals nicht unbedingt zeitgleich sein müssen. Die Hüllkurve des Summensignals muss um den Faktor kis erweitert werden und relative Maxima/Minima des Summensignals müssen für eine gewisse Zeit gehalten werden, damit die Maxima/Minima des Differenzsignals eingeschlossen werden können. Da ein Maximum in jedem der beiden Signale zuerst auftreten kann, muss die Haltezeit auch für Zeiten vor dem Betrachtungszeitpunkt gelten.
Die Zeitdifferenz zwischen den Extremwerten des Summen- und Differenzsignal entspricht einer halben Periode des höherfrequenten Signals, wenn das Frequenzverhältnis 3:1 beträgt. Eine Zeitverschiebung von +/- 3ms entspricht 83/166 Hz. Frequenzen in diesem Bereich sind i.d.R. mono, d.h. ihr Anteil im Differenzsignal ist gering. Ein Bereich von +/ 3ms deckt also praktisch alle solche Effekte ab. Bei intensitätsstereophonen Signalgemischen gilt dann für jeden innerhalb der Stereobasis abgebildeten Ort die modifizierte Regel 1 : |δ| < kisjdj innerhalb eines Zeitfensters von TIS mit kis = Amplitudenfaktor bei Signalgemischen, z.B. 1.4
mit kis = Amplitudenfaktor bei Einzeltönen, z.B. 1.1 *
mit xis = peak hold Zeit, z.B. +/- 3 ms
Die modifizierte Regel 1 stellt sich im Zeitbereich und im Frequenzbereich folgendermaßen dar: a. Zeitbereich: Das Differenzsignals liegt innerhalb einer Hüllkurve. Die Hüllkurve wird
gestützt durch relative Maxima/Minima des Summensignals, multipliziert mit einem Faktor kis. Jeder neu ermittelte und mit kis multiplizierte Extremwert wird innerhalb eines Zeitfensters von xis gehalten, (peak hold).
b. Frequenzbereich: Bei jeder Frequenz ist die Leistung des Differenzsignals kleiner als die Leistung des Summensignals oder höchstens gleich groß.
* Dieser Wert (in dem Beispiel 1 .1 ) schließt eine Pegelungleichheit des Empfängers von 1 dB zwischen dem linken und rechten Kanal ein. Bei einem Faktor k = 1 .0 und einer
Pegeldifferenz zwischen dem linken und rechten Audio-Ausgang würde sonst das Differenzsignal unnötig beschnitten. Daraus ergibt sich folgende Signalverarbeitung:
Zeitbereich: Für jeden Block wird das gestörte Differenzsignal auf die Hüllkurve des Summensignals reduziert, wobei die Hüllkurve Signalverschiebungen und Amplitudenerhöhungen berücksichtigt. Zur Berechnung der Hüllkurve werden relative Maxima (momentane Spitzenwerte) des Betrags des Summensignals für den Bereich der Zeitverschiebung Tis (z.B. -3/+3 ms) gehalten (peak hold) und das resultierende Signal um den Faktor kis (z.B. 1 .4) erhöht.
Es ist erforderlich, dass die Blocklänge (hier ca. 100 ms) die Zeitverschiebung der Extremwerte zwischen Summen- und Differenzsignal abdeckt.
Frequenzbereich:
Der Amplitudenwert jeder Spektrallinie des gestörten Differenzsignals wird auf den Wert des Summensignals reduziert. Das Phasenspektrum des Differenzsignals wird unverändert weiterverarbeitet.
4. Laufzeitstereophonie und Intensitätsstereophonie mit laufzeitstereophonen Anteilen (LS)
Bei der reinen Laufzeitstereophonie wird eine Schallquelle über ortsversetzte Mikrofone aufgenommen. Der Schall legt, je nach Einfallsrichtung, unterschiedlich lange Wege zu den Mikrofonen zurück. In den Mikrofonsignalen L und R entstehen Signale, die einen
richtungsabhängigen Laufzeitunterschied haben. Bei der Wiedergabe kann das menschliche Gehör die Hörereignisrichtung und damit den Schallort anhand von Laufzeitunterschieden zwischen dem linken und rechten Ohr bestimmen.
Fig. 13 zeigt ein Bespiel einer derartigen AB-Mikrofon-Aufstellung.
Für die Wegedifferenz gilt ΔΙ = a*sin Θ, für die Laufzeitdifferenz ΔΧ - Δΐ/c mit c = 343 m/s und dem Mikrofonabstand a. In der Praxis liegt oft keine reine Laufzeitstereophonie vor, sondern eine Intensitätsstereophonie mit laufzeitstereophonen Anteilen. Dies äußert sich in abweichenden Phasenwerten in den Spektren des Summen- und Differenzkanals, aber auch in nicht zeitgleichen Amplitudenspitzen im Zeitbereich beider Signale.
Aufnahmen mit laufzeitstereophonen Anteilen werden beispielsweise in AB-Technik
vorgenommen. Gerne wird auch der sog. Decca-Tree verwendet, um komplexe Klangkörper, wie z.B. Orchester abzubilden. Dabei werden teilweise auch zusätzliche seitlich angeordnete Stütz- Mikrofone eingesetzt. Der Schall einer Quelle trifft zeitlich versetzt auf verschiedene Mikrofone auf. Je nach Schall- Einfallsrichtung und Anordnung der Mikrofone ergeben sich für jedes Mikrofon individuelle Pegel und Laufzeiten. Die einzelnen Mikrofonsignale werden nach bestimmten Gesichtspunkten zu einem linken und rechten Audiosignal verarbeitet. Je nach Schall-Einfallsrichtung und Anordnung der Mikrofone ergeben sich nach der Matrizierung folgende Effekte:
• Ein Hörereignis, das sich im Differenzsignal abbildet, ist, je nach Einfallsrichtung der Schallwelle, nicht ganz zeitgleich zum Summensignal.
• Einzelne Mikrofonsignale überlagern sich mit ihren unterschiedlichen Laufzeiten und erzeugen im Differenzsignal eine statistische Änderung der Amplitude gegenüber dem Summensignal. Dies trifft vor allem auf Frequenzen oberhalb des Bass-Bereichs zu, bei denen die individuellen Laufzeiten zu Mehrdeutigkeiten der Phase führen (1 m = 3ms = 360 Grad bei 332 Hz!)
Bei der Aufnahme wird allerdings darauf geachtet, dass eine mono-Kompatibilität besteht.
Das heißt, es wird vermieden, dass Laufzeitunterschiede zwischen den Mikrofonsignalen zu hörbar störenden Auslöschungseffekten im Summensignal (mono-Kanal) führen.
Der intensitätssterophone Anteil am Signal überwiegt deshalb und die statistische
Amplitudenverfälschung des Differenzsignals ist begrenzt. Dies führt zu Regel 2 des erfindungsgemäßen Verfahrens:
Regel 2: |δ| < kLs|cj| innerhalb eines Zeitfensters von us mit kis = Amplitudenfaktor, z.B. 1.4
mit s = peak hold Zeit, z.B. +/- 3 ms
Regel 2 stellt sich im Zeitbereich und im Frequenzbereich folgendermaßen dar: a. Zeitbereich: Das Differenzsignals liegt innerhalb einer Hüllkurve. Die Hüllkurve wird gestützt durch relative Maxima/Minima des Summensignals, multipliziert mit einem Faktor kis. Jeder neu ermittelte und mit kis multiplizierte Extremwert wird innerhalb eines
Zeitfensters von TLS gehalten, (peak hold).
b. Frequenzbereich: Bei jeder Frequenz ist die Leistung des Differenzsignals kleiner als die Leistung des Summensignals oder höchstens gleich groß.
Regel 2 führt zu folgender Signalverarbeitung bei laufzeitstereophonen Anteilen:
Frequenzbereich: Da zeitversetzte Signale die gleichen Betragsspektren aufweisen, kann auch bei der LS der Amplitudenwert (Betrag) der gestörten Spektrallinie des Differenzsignals auf den entsprechenden Wert des Summensignalspektrums reduziert werden. Es ist allerdings erforderlich, dass die Blocklänge bzw. das in den Frequenzbereich zu transformierende
Zeitintervall (hier ca. 100 ms) die wesentlichen Laufzeitunterschiede abdeckt, d.h. zeitversetzte Signalanteile noch im gleichen Block auftreten.
Das Phasenspektrum wird unverändert weiterverarbeitet.
Zeitbereich: Für jeden Block wird das gestörte Differenzsignal auf die Hüllkurve des
Summensignals reduziert, wobei die Hüllkurve laufzeitbedingte Signalverschiebungen und Amplitudenerhöhungen (besonders bei Transienten) berücksichtigt. Zur Berechnung der Hüllkurve werden relative Maxima (momentane Spitzenwerte) des Betrags des Summensignals für den Bereich der Zeitverschiebung us (z.B. -3/+3 ms) gehalten (peak hold) und das resultierende Signal um den Faktor is (z.B. 1.4) erhöht.
Regeln 1 und 2 können im Frequenzbereich auch auf Frequenzgruppen abgewandt werden. Dabei werden die Leistungen der einzelnen Spektrallinien zusammengefasst betrachtet.
Regel 1 ist die Betrachtung für Intensitätsstereophonie. Regel 1 b oder Regel 2b wird für die Durchführung des Verfahrens immer angewandt. 5. Besondere Signal-Konstellationen bei LS
Das erfindungsgemäße Verfahren bezieht bei der Signalverarbeitung femer typische Signal- Konstellationen bei der Laufzeitstereophonie ein: - Auslöschungen:
Bei Aufnahmen mit laufzeitstereophonen Anteilen kann es vorkommen, dass frequenzselektive Auslöschungen (AL) im Summen- und auch im Differenzsignalspektrum auftreten. Wegen der unterschiedlichen Laufzeiten zu den ortsversetzten Mikrofonen L und R kommt es z.B. im Summensignal σ = (L+R)/2 zu einer Auslöschung, wenn eine Frequenz am Mikrofon R eine laufzeitbedingte Phasendrehung um 180 Grad gegenüber Mikrofon L erfährt. Im Differenzsignal δ = (L-R)/2 kommt es zu einer Auslöschung, wenn eine Frequenz zum Mikrofon R eine laufzeitbedingte Phasendrehung um 0 Grad erfährt. Eine Auslöschung bzw. eine destruktive Überlagerung von Schallwellen in beiden Signalen bei der gleichen Frequenz kann nur dann auftreten, wenn diese Frequenz aus verschiedenen Schall-Entstehungsorten/-richtungen stammt und an beiden Mikrofonen mit gleicher Amplitude ankommt. Das ist statistisch unwahrscheinlich. In der Regel treten Auslöschungen in beiden Signalen bei unterschiedlichen Frequenzen auf.
In Fig. 14 zeigt ein ungestörtes Differenzsignalspektrum bei LS. Es sind frequenzselektive Auslöschungen im Summensignalspektrum bei 2.09 kHz und 2.83 kHz zu sehen. Auslöschungen treten in beiden Spektren bei unterschiedlichen Frequenzen auf. Eine Auslöschung im Summensignal würde gemäß Regel 2b das Differenzsignalspektrum bei dieser Frequenz stark absenken und ggf. den Klang des ungestörten Audiosignals
beeinträchtigen. Ist eine schmale Auslöschung identifiziert, kann eine Pegelabsenkung vermieden werden.
Bei Auslöschungen im Summensignalspektrum wird allerdings nicht der unveränderte Wert des Differenzsignalspektrums übernommen, da dieser ein reines Störsignal beliebiger Höhe sein könnte. Stattdessen wird der Wert des Differenzsignalspektrums auf den Medianwert des Summensignalspektrums reduziert, wie dies in Fig. 15 dargestellt ist, welche ein gestörtes Differenzsignalspektrum bei LS zeigt. Damit bleibt die Störreduzierung wirksam, ohne das Nutzsignal zu verfälschen.
- Lokale Pegelmaxima
Bei Aufnahmen mit laufzeitstereophonen Anteilen kann durch konstruktive Überlagerung von Schallwellen ein lokales/frequenzselektives Maximum (LM) im Differenzsignalspektrum entstehen, während das Summensignal dieses Maximum nicht erreicht. In diesem Fall würde es zu einer unerwünschten Pegelabsenkung gemäß Regel 2b kommen.
Um eine Absenkung zu vermeiden, wird deshalb geprüft, ob das frequenzselektive
Pegelmaximum einhergeht mit einem höheren frequenzselektiven SNR. Falls ja, bleibt der Pegel unverändert und wird nicht abgesenkt. Dabei wird angenommen, dass die Störung ein weißes Spektrum im größeren Umfeld des Pegelmaximums aufweist und das frequenzselektive Pegelmaximum dieses überragt.
Diese Strategie versagt aber bei Störungen mit frequenzselektivem Spektrum. Als zusätzliches Kriterium wird deshalb das Summensignalspektrum herangezogen.
Sowohl das Summensignalspektrum als auch das Differenzsignalspektrum müssen mit ihrem frequenzselektiven Pegelmaximum aus dem spektralen Umfeld des Differenzsignalspektrums herausragen. Dann kann man davon ausgehen, dass die frequenzselektive Pegelerhöhung vom Nutzsignal herrührt und nicht von einem Störsignal. Wie in Fig. 14 zu sehen ist, liegen im Summensignalspektrum und ungestörten
Differenzsignalspektrum jeweils zwei Maxima bei 2.12 kHz und 2.17 kHz vor, die sich über die Werte der näheren Umgebung (ca. 59 dB) erheben. Es kann deshalb davon ausgegangen werden, dass beide Maxima vom Nutzsignal herrühren und dass das lokale SNR hoch ist. Diese Maxima des Differenzsignals können für die weitere Signalverarbeitung unverändert bleiben.
Fig. 16 zeigt ein frequenzselektives Störspektrum. Das Differenzsignalspektrum weist dagegen mehrere Spektrallinien mit erhöhtem Pegel aus, der von den Spektrallinien des Summensignals nicht mitgetragen wird. Es kann deshalb abgeleitet werden, dass die hochpegeligen
Spektrallinien des Differenzsignals von einem Störsignal stammen. Eine Absenkung auf das Niveau des Summensignalspektrums kann erfolgen.
Lokale Maxima werden für das Summensignal- und das Differenzsignalspektrum getrennt identifiziert. In Fig. 17a ist das mediangefilterte Differenzsignalspektrum zu sehen. Ein Maximum in einem der Spektren liegt vor, wenn das Spektrum seinen Medianwert um einen jeweils vorgegebenen Wert in dB überschreitet.
In Fig. 17a und Fig. 17b kennzeichnen LMSumme und LMDifferenz (Markierungen im unteren Bildbereich) die Maxima des Summensignalspektrums bzw. Differenzsignalspektrums. Liegt LMSumme innerhalb der Bandbreite von LMDifferenz, wird ein übergeordnetes lokales Maximum LM ausgewiesen, das veranlasst, eine Pegelabsenkung des Differenzsignalspektrums in der entsprechenden Frequenzbandbreite zu blockieren. Für das Beispiel in Fig. 17b ist dies nur für einen schmalen Frequenzbereich bei 5,75 kHz der Fall.
Sowohl Auslöschungen im Summensignalspektrum als auch lokale Maxima im
Differenzsignalspektrum werden mithiife einer median-Fiiterung identifiziert. Beide Fälle fließen in die spektrale Korrekturfunktion als nichtlineare Signalverarbeitung ein. LM und AL tragen zur Restaurierung des ungestörten Differenzsignalspektrums bei.
6. Identifizierung von IS bzw. LS Die Identifizierung von LS findet über eine Kreuzkorrelation (Ähnlichkeitsanalyse) des Summen- und Differenzsignals statt. Die Grundidee dahinter besteht darin, dass durch die Kreuzkorrelation beider Signale deren Zeitverschiebung ermittelt wird. Ist diese gleich Null, liegt IS vor, ansonsten LS.
Ergänzend oder alternativ kann eine Identifizierung im Frequenzbereich erfolgen, wenn
Auslöschungen im Summen- und Differenzsignal bei unterschiedlichen Frequenzen auftreten.
Die Kreuzkorrelationsfunktion (KKF) wird aus je einem Block des Summen- und Differenzsignals berechnet. Bei fast allen Aufnahmen, also auch solchen mit laufzeitstereophonem Charakter, sind die tiefen Töne monaural. Sie erzeugen geringe Phasenunterschiede an den verschiedenen Mikrofonen und dominieren im Pegel i.d.R. höhere Frequenzen. Zeitliche Verschiebungen bei höheren Frequenzen werden verdeckt und durch die KKF nicht erkannt. Um dies zu vermeiden, werden die Signale des Summen- und Differenzsignals zunächst zeitlich differenziert und erst dann wird die KKF berechnet. Die Differentiation im Zeitbereich entspricht im Frequenzbereich einer Anhebung des Pegels zu höheren Frequenzen hin.
Die KKF wird pegelunabhängig berechnet durch Ermittlung der Kovarianzfunktion (KOV) (Formeln siehe Anhang). Durch anschließende Betragsbildung können Maxima unabhängig von der Signalpolarität dargestellt werden. Maxima werden bei solchen Zeitverschiebungen ausgewiesen, bei denen das differenzierte Summen- und Differenzsignal Ähnlichkeiten zeigt. Bei reiner IS liegt das Maximum bei der Zeitverschiebung Null. Weitere Maxima der KOV können entstehen, wenn beide Signale innere Ähnlichkeiten aufweisen - das Differenzsignal ist oft eine abgeschwächte Kopie des Summensignals. Um diese Maxima auszublenden, wird die
Autokovarianz (AKOV) des Summensignals berechnet und von der auf Eins normierten
Kovarianz KOV subtrahiert. Wenn die Differenz (deltaKOV) einen bestimmten Schwellenwert übersteigt, liegt LS vor, ansonsten liegt IS vor.
Fig. 18a und 18b zeigen typische deltaKOV bei LS (18a) und IS (18b).
Die o.g. Methode liefert bei überlagerten Störungen nicht in jedem Block eine sichere Erkennung von laufzeitstereophonie-bedingten Zeitverschiebungen zwischen Summen- und Differenzsignal. Störungen verändern den zeitlichen Verlauf des Differenzsignals, führen zur Unähnlichkeit von Summen- und Differenzsignal und reduzieren folglich den Pegel von delta. Um zu vermeiden, dass auf diese Weise störungsbedingte IS/LS-Fehlentscheidungen getroffen werden, wird das Signal-Störungs-Verhältnis (SNR) blockweise betrachtet. Als SNR ist hier das Verhältnis aus den Leistungen des Summen- und Differenzsignals definiert. Sinkt in einem Block das SNR unter einen Schwellenwert - wird also die IS/LS-Entscheidung unzuverlässig - wird die Entscheidung des letzten Blocks mit hohem SNR übernommen. Als Startwert wird LS vorgegeben.
7. Signal-Klassifizierung und temporales processing
Audiosignale können einen transienten oder stationären Charakter haben. Transiente Signale lassen sich durch einen Anstieg der Leistung innerhalb kürzester Zeit beschreiben, oft verbunden mit vorgelagerten Signalpausen bzw. leisen Passagen. Stationäre Signale haben einen eher kontinuierlichen zeitlichen Verlauf der Leistung.
Störsignale können besonders effektiv im Frequenzbereich reduziert werden, wenn sich die Betragsspektren des Nutzsignals und des Störsignals deutlich unterscheiden.
Leider trifft das auf transiente Nutzsignale (wie z.B. Guiro, Kastagnetten) nicht zu. denn sie haben ein fast weißes Spektrum und es gibt wenig Unterschiede zum Rauschen als Störsignal. Eine Absenkung selektiver Frequenzanteile kann kaum stattfinden. Dementsprechend hoch ist in solchen Fällen das Restgeräusch. Ein weiterer Anteil an Störungen kommt hinzu: Durch die Signalverarbeitung einer Störung im Frequenzbereich entsteht nach der Rücktransformation in den Zeitbereich ein Alias, der sich über den Block erstreckt. Bei stationären Nutzsignalen wird er meistens verdeckt.
Innerhalb der Zeit, in der das transiente Nutzsignal vorhanden ist, werden Restgeräusche simultan verdeckt. Restgeräusche, die zeitlich nach einer Transiente auftreten, werden besser verdeckt, da natürliche transiente Signale langsamer ausschwingen und das Gehör eine zeitliche Nachverdeckung aufweist. Die Verdeckung von Restgeräuschen, die zeitlich vor einer Transiente auftreten, ist geringer. In Signalpausen vor einer Transiente kann das Geräusch als sog. Pre- Echo hörbar werden. Fig. 19 zeigt die Verdeckung im Zeitbereich (.temporal masking").
Hat das Nutzsignal Transienten-/Impulscharakter und ist im Differenzsignal Rauschen überlagert, dann kann das Restgeräusch (u.a. das Pre-Echo) verringert werden durch eine zusätzliche Signalverarbeitung im Zeitbereich (temporales processing). Hierbei wird das Differenzsignal auf die Einhüllende des Summensignals begrenzt (Ciipping).
In den folgenden Bildern ist am Beispiel eines transienten Signals zu sehen, wie ein temporales processing Pre-Echos reduziert.
Fig. 20 zeigt ein ungestörtes Guiro, ohne Signalverarbeitung, also das originale Signal.
Fig. 21 zeigt ein verrauschtes Guiro nach Signalverarbeitung im Frequenzbereich. Ein Pre-Echo ist vorhanden.
Fig. 22 zeigt das verrauschte Guiro nach Signalverarbeitung im Zeit- und Frequenzbereich. Das Pre-Echo ist deutlich reduziert.
Ist das Nutzsignal transient und/oder liegen innerhalb des Blocks kurze Signalpausen vor, hilft das Ciipping auch dabei, Störungen mit transientem Charakter zeitlich auszublenden bzw. zu verringern.
Die Begrenzung auf die Hüllkurve reduziert bei stärkeren Störungen die Störenergie. In diesen Fällen liegt das Betragsspektrum des Differenzsignals nach dem Ciipping unterhalb des unbehandelten Betragsspektrums. Die Auswirkungen der ursprünglichen Störung auf Betrag und Phase von Spektrallinien wird verringert.
Andererseits erzeugt das Ciipping selbst Störsignale mit weißem Spektrum, die sich als Störanteil in Betrag und Phase des Differenzsignalspektrums manifestieren. Dieser Effekt nimmt zu, je mehr Signalanteile abgeschnitten werden. Sofern es in diesem Zusammenhang zu einer Pegelerhöhung bei Spektrallinien kommt, kann diese durch die Signalverarbeitung im
Frequenzbereich korrigiert werden. Pegelabsenkungen können nicht korrigiert werden.
Das verfälschte Phasenspektrum wird unverändert übernommen. Es ist deshalb von Block zu Block zu entscheiden, ob die Begrenzung auf die Hüllkurve eingesetzt werden soll. 8. Kriterium für den Einsatz des temporalen processings
Ist das Summensignal (Nutzsignal) stationär, bzw hat es eine zeitlich durchgängige Signalform, bietet dessen Frequenzspektrum meistens ausreichend Lücken für eine wirksame selektive Störreduzierung im Frequenzbereich des Differenzsignals. Bei stationären Signalen
verschlechtert das temporale processing (Begrenzung auf die Hüllkurve) das Restgeräusch und damit auch die Kanaltrennung. Deshalb ist es besser, in diesem Fall das temporale processing abzuschalten.
Wenn dagegen im Nutzsignal Transienten dominieren oder Pausen innerhalb des Signals vorliegen, ist es günstig, zusätzlich das temporale processing einzusetzen. In diesen Fällen reduziert das temporale processing insbesondere Pre-Echos. Pre-Echos entstehen als eine Form von Alias nach der IFFT und sind in den Signalpausen vor einer Transiente erkennbar und ohne temporales processing u.U. hörbar. Bei stationären Signalen wird der Alias nach der IFFT in der Regel durch die durchgängige Signalform verdeckt.
Hieraus folgt Regel 3:
Regel 3: Das temporale processing (Begrenzung auf die Hüllkurve) wird eingeschaltet, wenn im Summensignal (Nutzsignal) Transienten dominieren oder Pausen innerhalb des Signals vorliegen.
Da eine Begrenzung auf die Hüllkurve vor der Signalverarbeitung im Frequenzbereich liegt, ist es sinnvoll die Bedingung bereits im Zeitbereich zu überprüfen. Zur Identifizierung von Transienten wird die Hüllkurve des Summensignals (T untersucht. Steigt die Hüllkurve innerhalb eines Zeitabschnittes AI um mehr als x Prozent, gilt eine Transiente als identifiziert. Die prozentuale Ermittlung macht die Identifizierung pegelunabhängig.
9. Signalverarbeitung
9.1. Signalverarbeitung im Zeitbereich, Teil 1
(Die Reihenfolge der Schritte 1 und 2 kann vertauscht werden).
1. Blockbildung der Audioabtastwerte für den rechten und linken Kanal. Es wird eine überlappende Blockstruktur erzeugt. Die Überlappung ist z.B. 50 %. Die Blocklänge ist z.B. 4096. Die folgenden Verarbeitungsschritte gelten pro Block.
2. Matrizierung der Kanäle L und R in
σ = (L+R)/2 und δ = (L-R)/2
(alternativ direkte Verarbeitung des Summensignals CT und des Differenzsignals δ)
3. Signalanalyse und Begrenzung auf die Hüllkurve
3.1 Identifizierung von LS bzw. IS auf der Basis von σ und δ
3.1.1 zeitliche Ableitung von O und δ
Es entstehen die Blöcke d(J und dö.
3.1.2 Berechnung des auf 1 normierten Betrags der Kovarianz zwischen dCJ und dö: absKOVnorm
3.1.3 Berechnung des Betrags der Autokovarianz von dQ: absAKOV
3.1 .4 Berechnung der Differenz deltaKOV =
absKOVnorm - absAKOV
3.1 .5 zeitliche Limitierung von deltaKOV auf eine Obergrenze (hier: 3 ms):
Es entsteht deltaKOVIim 3.1 .6 Berechnung des Maximalwertes von
deltaKOVIim
3.1 .7 Identifizierung von LS bzw. IS:
Überprüfung des SNR:
wenn rootSNR< rootSNRthresh (bzw. wenn
Figure imgf000034_0001
Übernahme der LS/IS-Entscheidung des vorigen Blocks
sonst:
wenn max(deltaKOV) < kovlevel: IS
(z.B. kovlevel=0,1 ) sonst: LS
3.1 .8 Berechnung der Hüllkurve von CJ mit Übernahme der Werte für die Zeitverschiebung τ und den
Amplitudenfaktor Ampf :
LS: s = +/-3.0 ms kLS = 1.4 IS: Tis = +/-3.0 ms kis = 1.4
3.1 .9 Identifizierung von Transienten und
Begrenzung von δ:
Berechnung des prozentualen Anstiegs PA der Hüllkurve von σ innerhalb eines Zeitabschnittes von n Abtastwerten. wenn PA < x %; stationäres Signal
sonst Transiente detektiert, Begrenzung des Signals δ auf die Hüllkurve von CT 3.2 Gewichtung jedes Blockes mit einer Analysefensterfunktion, hier: root-Hanning: Es entstehen die gewichteten Blöcke wo und wö
9.2 Signalverarbeitung im Frequenzbereich
4. zero-padding" der gewichteten Blöcke w(J und wö
5. Transformation in den Frequenzbereich.
Es entstehen die Spektren WI(f) und WA(f)
6. Trennung in Betrags- und Phasenspektren
7. Berechnung der spektralen Korrekturfunktion K(f) (siehe Anhang)
8. Multiplikation des Betragsspektrums von WA(f) mit der Korrekturfunktion K(f)in linearer Betrachtung
9. Berechnung des korrigierten komplexen Spektrums von WA(f)
10. Rücktransformation in den Zeitbereich und Kürzen des Blocks. Es entsteht ein korrigiertes Differenzsignal 5(t)
** Auffüllen des Blocks mit Nullen bis zur gewünschten Länge (2er-Potenz für FFT)
9.3 Signalverarbeitung im Zeitbereich, Teil 2
11. Gewichtung jedes Blockes mit einer Synthesefensterfunktion, hier: root-Hanning
12. Overlap add der Blöcke
13. Dematrizierung von σ und dem korrigierten δ in die Kanäle L und R
Anhang / Formeln;
Hanning-Fenster (Analyse- und Synthesefensterfunktion)
H(n,N) = 0.5-0.5cos{(2Hn/(N-1)}
mit N = Anzahl der Abtastwerte pro Block root-Hanning = Λ/Η(Π,Ν)
Störabstand SNR innerhalb eines Blocks:
SNR=Pwa/Pw5 mit P = Leistung rootSNR = \SNR
Kovarianz KOV und Autokovarianz AKOV:
Mittelwert: n
1, X) := Σ Xi
i = 0
Varianz:
Figure imgf000036_0001
Standardabweichung: stdev x) := './vaiix) Kovarianz:
Figure imgf000037_0001
normierte Kovarianz:
Figure imgf000037_0002
Autokovarianz:
A OV(x)i := KOV(x,x)i
spektrale Korrekturfunktion K(f)unter Betrachtung der Spektren im linearen Maßstab: lokale Pegelmaxima im Differenzsignalspektrum: bei LS:
Berechnung des mediangefilterten Summensignalspektrums WE(f) median und des Differenzsignalspektrums WÄ(f)median
Ermittlung der Frequenzen fi_M DIA mit lokalen Pegel- axima (> LMoitf dB) in WA(f) Ermittlung der Frequenzen [LM summe mit lokalen Pegel-Maxima (> LMsumme dB) in WI(f)
wenn in einen zusammenhängenden Bereich von
fi_ Diff eine Frequenz u Summe fällt, dann ist
K(f) = 1 sonst:
wenn |WA(f)| > |WE(f)|: K(f) = |WE(f)|/|WA(f)|
wenn |WA(f)| <|WE(f)|: K(f) = 1 bei IS: wenn |WA(f)j :> |WE(f)|: K(f) = |WE(f)|/|WA(f)|
wenn |WA(f)| <|WE(f)j : K(f) = 1
Auslöschungen im Summenkanalspektrum: bei LS:
Berechnung des mediangefilterten Summensignalspektrums WE(f) median
Identifizierung der Frequenzen fAL , bei denen laufzeitbedingte Auslöschungen (schmale Einbrüche) in WI(f) stattfinden. wenn f = fAL: K(f) = W (f)median
f sonst: wenn |WA(f)| > |WE(f)|: K(f) = |WE(f)|/|WA(f)|
wenn |WA(f)j <jWE(f)|: K(f) = 1 bei IS: wenn |WA(f)| > |WE(f)| : K(f) = |WE(f)|/|WA(f)|
wenn |WA(f)| <|WE(f)|: K(f) = 1 Das erfindungsgemäße Verfahren verringert Rauschen und Störungen anderer Art, die im Differenzsignal auftreten und die Störungen im Summensignal übersteigen. Dazu gehören Störungen, die auf der Übertragungskette nach der Matrizierung im Stereocoder entstehen bis hin zum FM-Demodulator im Empfänger, z.B. Eigenrauschen des FM-Senders, Funk- Übertragungsstörungen, Rauschen durch zu geringe Leistung der Empfangsantenne,
Eigenrauschen im RF-Teil des Empfängers, RF-Nachbarkanal- und Gleich kanalstörungen, Quantisierungsrauschen von ADCs im ZF-Bereich des Empfängers, Störungen durch Signale von rein digitalen oder auch hybriden Übertragunssystemen wie z.B. IBOC, HD-Radio, FMeXtra, sowie Störungen und Übersprechen innerhalb hybrider Systeme, die sich auf das Differenzsignal des analogen Übertragungssystems auswirken.
Störungen, die im Summenkanal, also auch bei reinem mono-Empfang auftreten, kann das Verfahren dagegen nicht beseitigen. Dazu gehören solche Nachbarkanalstörungen, die besonders bei mobilem Empfang kurzzeitig zu starken Störungen führen.
Die genannten Verfahrensschritte beziehen sich auch auf das in USA angewandte FM-Variante SSBSC. Das erfindungsgemäße Verfahren ist voll kompatibel mit SSBSC.
Das Verfahren wurde in diesem Ausführungsbeispiel mit einem Mathematik-Programm auf einem PC simuliert und nachgebildet.
Bezugnehmend auf die Blockschaltbilder gemäß Fig. 23a bis Fig. 25 soll ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens erläutert werden. Wie in Fig. 23a dargestellt ist, wird zunächst das analoge FM-Stereosignal digitalisiert und matriziert. Bei einem Empfänger mit digitaler Signalverarbeitung kann das bereits digitalisierte Signal genutzt werden.
Das Signal wird in ein Summensignal und ein Differenzsignal im Zeitbereich aufgeteilt und es werden gewichtete, überlappende Blöcke erzeugt. Die Gewichtung kann beispielsweise anhand der Hanning-Funktion (Fensterfunktion) erfolgen. Das Summensignal wird sowohl für die Berechnung der Hüllkurve als auch für die Identifizierung von Laufzeit- (LS) und Intensitätsstereophonie (IS) verwendet.
Die Identifizierung von LS und IS erfolgt vorzugsweise, wie zuvor dargestellt, anhand einer Korrelationsanalyse.
Das Differenzsignal kann auf die Hüllkurve des Summensignalpegels abgesenkt werden.
Hierfür ist gemäß einer bevorzugten Ausführungsform der Erfindung eine Transientendetektion vorgesehen, die entscheidet, ob es sich um ein um transientes oder stationäres Signal handelt. Bei einem stationären Signal wird die Hüllkurvenbegrenzung nicht vorgenommen und unmittelbar das unveränderte Differenzsignal verwendet.
Das transiente Signal wird dagegen der Begrenzung auf die Hüllkurve des Summensignals unterzogen.
Sodann wird sowohl Summensignal als auch Differenzsignal aus dem Zeitbereich in den Frequenzbereich transformiert. Der Frequenzbereich bzw. der Teil des Verfahrens, in welchem die Verarbeitung im
Frequenzbereich erfolgt, ist in diesem Blockschaltbild in den gepunkteten Rahmen, der mit Frequenzbereich gekennzeichnet ist, eingezeichnet.
Es liegt nunmehr ein Summensignalspektrum vor, welches einen Betrag aufweist, sowie ein Frequenzsignalspektrum, welches ebenfalls einen Betrag aufweist.
Die Phase des Differenzsignalspektrums wird unverändert weiterverarbeitet.
Wie sodann in Fig. 23b dargestellt, werden über das Summensignalspektrum Auslöschungen bei bestimmten Frequenzen identifiziert. Über eine Identifizierung und den Vergleich der axima des Summensignal- und des
Differenzsignalspektrums können die betroffenen Frequenzen bzw. Spektrallinien festgelegt werden.
Bei Auslöschungen erfolgt eine Absenkung des Differenzsignalspektrums auf den Medianwert des Summensignalspektrums.
Die Identifizierung von Auslöschungen wird im Folgenden Bezug nehmend auf Fig. 24 erläutert.
Identifizierung und Vergleich der Maxima wird im Folgenden Bezug nehmend auf Fig. 25 erläutert.
Wenn es sich um Intensitätsstereophonie handelt, wird das Differenzsignalspektrum direkt weiterverarbeitet, ohne dass Auslöschungen und lokale Maxima identifiziert werden müssen, bzw. in diesem Ausführungsbeispiel die Identifizierung verwendet werden muss.
Für alle die Frequenzen, die nicht identifiziert sind, wird Regel 1 im Frequenzbereich ausgeführt und das Differenzsignalspektrum auf das Summensignalspektrum abgesenkt.
Es entsteht ein korrigiertes Differenzsignalspektrum. Dieses wird in den Zeitbereich unter Verwendung des Phasenspektrums rücktransformiert.
Nach Gewichtung und Zusammenführung der überlappenden Blöcke im Zeitbereich entsteht ein korrigiertes Differenzsignal.
Summensignal und korrigiertes Differenzsignal werden dematriziert und es entsteht ein korrigiertes Stereosignal.
Fig. 24 zeigt ein Ausführungsbeispiel der in Fig. 23b als Block dargestellten Identifizierung von Auslöschungen. Das loganthmierte Summensignalspektrum wird mit seiner Mediankurve verglichen. Liegt die Differenz über einem Schwellenwert, so wird das Differenzsignalspektrum auf den jeweiligen Medianwert abgesenkt. Falls nicht, gilt Regel 1 und das Differenzsignalspektrum wird entsprechend Fig. 23b auf das Summensignalspektrum abgesenkt.
Fig. 25 zeigt die in Fig. 23b vorgenommene Identifizierung der Maxima.
Sowohl das loganthmierte Summensignalspektrum als auch das loganthmierte
Differenzsignalspektrum werden einer Medianfilterung unterzogen.
Liegt die Differenz jeweils über einem Schwellenwert, kann ein Maximum identifiziert werden.
Liegt ein Maximum des Summensignalspektrums innerhalb der Frequenzbandbreite des Maximums des Differenzsignalspektrums, dann wird für diese Frequenzbandbreite das Differenzsignalspektrum nicht abgesenkt.
Durch die Erfindung kann eine Reduktion von Störungen eines Stereosignals erfolgen, so dass dieses annähernd die Qualität des Monosignals erreicht.

Claims

Ansprüche:
1. Verfahren zur Verarbeitung eines FM-Stereosignals mit folgenden Schritten:
- Digitalisieren des analogen FM-Stereosignals als Summen- und Differenzsignal;
- Aufteilen des digitalisierten Signals in überlappende Blöcke;
- Transformieren der überlappenden Blöcke in den Frequenzbereich;
- Vergleichen der Spektrallinien des Differenzsignalspektrums mit den Spektrallinien des Summensignalspektrums;
- Absenkung zumindest von Spektrallinien des Differenzsignalspektrums, falls diese einen höheren Betrag als die jeweilige Spektrallinie des Summensignalspektrums haben, insbesondere auf den Betrag der jeweiligen Spektrallinie des
Summensignalspektrums;
- Rücktransformieren des Summen- und Differenzsignalspektrums und
Zusammenführen der überlappenden Blöcke.
2. Verfahren zur Verarbeitung eines FM-Stereosignals nach dem vorstehenden Anspruch, dadurch gekennzeichnet, dass, falls die Breite eines relativen Minimums des Spektrums des Summensignals unter einem Schwellenwert liegt und die Tiefe einen Schwellenwert übersteigt und damit eine Auslöschung vorliegt, die Spektrallinien des Differenzsignals nicht oder weniger abgesenkt werden, insbesondere auf einen spektralen Ersatzwert des Summensignalspektrums.
3. Verfahren zur Verarbeitung eines FM-Stereosignals nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass im Bereich eines lokalen Maximums des Differenzsignalspektrums dieses mit dem Summensignalspektrum verglichen wird und das Differenzsignalspektrum in diesem Bereich nicht abgesenkt wird, falls ein Maximum des Summenkanalspektrums innerhalb der Frequenzbandbreite des Maximums des Differenzsignalspektrums liegt.
4. Verfahren zur Verarbeitung eines FM-Stereosignals nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass Unterschiede in der Laufzeit zwischen Summen- und
Differenzsignal oder zwischen Teilen beider Signale über eine Ähnlichkeitsanalyse oder über eine Korrelation im Zeitbereich und/oder Frequenzbereich bestimmt werden und dass die Schritte gemäß Anspruch 2 und/oder 3 bei Laufzeitunterschieden ausgeführt werden.
Verfahren zur Verarbeitung eines FM-Stereosignals nach Anspruch 2 bis 4, dadurch gekennzeichnet, dass bei einer Auslöschung einer Spektrallinie im
Summensignalspektrum die Spektrallinie des Differenzsignals nur auf einen
Spektralersatzwert, insbesondere auf einen Medianwert, des Summensignalspektrums abgesenkt wird.
Verfahren zur Verarbeitung eines FM-Stereosignals nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass das Differenzsignal im Zeitbereich auf die Hüllkurve des Summensignals beschränkt wird, deren Maxima für einen Zeitraum nach und vor der Eintrittszeit des Maximums gehalten werden (peak hold) und die so veränderte Hüllkurve oder das Summensignal mit einem Faktor größer 1 , insbesondere einem Faktor zwischen 1 und 2 multipliziert wird.
Verfahren zur Verarbeitung eines FM-Stereosignals nach dem vorstehenden Anspruch, dadurch gekennzeichnet, dass die Beschränkung des Differenzsignals im Zeitbereich auf die Hüllkurve des Summensignals nur vorgenommen wird, wenn ein transienter Charakter des Signals über eine Auswertung des Signals oder der Hüllkurve des Summensignals detektiert ist.
Verfahren zur Verarbeitung eines FM-Stereosignals, insbesondere nach einem der vorstehenden Ansprüche, wobei ein FM-Stereosignal digitalisiert wird, das digitalisierte Signal einer Signalverarbeitung unterzogen wird, wobei die digitale Signalverarbeitung derart erfolgt, dass das FM-Stereosignal derart betrachtet wird, dass dessen
Signalanteile nur innerhalb der Stereobasis lokalisiert werden können.
Computerprogramm enthaltend eine Vielzahl von Anweisungen, die auf einem
Computer, insbesondere einem Smartphone oder Unterhaltungselektronikgerät, speicherbar sind, wobei die Anweisungen, wenn sie von einem Mikroprozessor oder MikroController verarbeitet werden, ein Verfahren nach einem der vorstehenden Ansprüche ausführen.
10. Unterhaltungselektronikgerät oder Smartphone, umfassend Mittel zur Durchführung eines Verfahrens nach einem der vorstehenden Ansprüche, insbesondere wobei die Mittel zur Durchführung des Verfahrens einen anwendungsspezifischen integrierten Schaltkreis (ASIC) oder eine gemäß einem der vorstehenden Ansprüche des Verfahrens programmierte logische Schaltung umfassen, oder einen Datenspeicher, enthaltend eine Vielzahl von Anweisungen, wobei die Anweisungen, wenn sie von einem Mikroprozessor oder MikroController verarbeitet werden, ein Verfahren nach einem der vorstehenden Ansprüche ausführen.
PCT/EP2017/059860 2016-04-27 2017-04-26 Verfahren zur verarbeitung eines fm-stereosignals WO2017186756A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CA3021918A CA3021918C (en) 2016-04-27 2017-04-26 Method for processing an fm stereo signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102016107799.2A DE102016107799B3 (de) 2016-04-27 2016-04-27 Verfahren zur Verarbeitung eines FM-Stereosignals
DE102016107799.2 2016-04-27

Publications (1)

Publication Number Publication Date
WO2017186756A1 true WO2017186756A1 (de) 2017-11-02

Family

ID=58639851

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2017/059860 WO2017186756A1 (de) 2016-04-27 2017-04-26 Verfahren zur verarbeitung eines fm-stereosignals

Country Status (4)

Country Link
US (1) US10003422B2 (de)
CA (1) CA3021918C (de)
DE (1) DE102016107799B3 (de)
WO (1) WO2017186756A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805312B2 (en) 2011-04-06 2014-08-12 Texas Instruments Incorporated Methods, circuits, systems and apparatus providing audio sensitivity enhancement in a wireless receiver, power management and other performances

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007109338A1 (en) * 2006-03-21 2007-09-27 Dolby Laboratories Licensing Corporation Low bit rate audio encoding and decoding
DE102011016338A1 (de) * 2010-05-06 2012-01-12 Silicon Laboratories, Inc. Verfahren und Systeme zum Mischen zwischen Stereo und Mono bei einem Frequenzmodulationsempfänger
US20140355764A1 (en) * 2013-05-31 2014-12-04 Silicon Laboratories Inc. Methods And Systems For Blending Between Analog And Digital Broadcast Signals

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027402A (en) * 1989-12-22 1991-06-25 Allegro Microsystems, Inc. Blend-on-noise stereo decoder
EP1206043B1 (de) * 2000-11-08 2009-12-23 Sony Deutschland GmbH Störungsreduktion eines Stereoempfängers
DE60138281D1 (de) * 2001-08-24 2009-05-20 Sony Deutschland Gmbh Rauschverminderung in einem FM-Stereo-Empfänger
US8023918B2 (en) * 2008-02-13 2011-09-20 Silicon Laboratories, Inc. Methods and systems for stereo noise mitigation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007109338A1 (en) * 2006-03-21 2007-09-27 Dolby Laboratories Licensing Corporation Low bit rate audio encoding and decoding
DE102011016338A1 (de) * 2010-05-06 2012-01-12 Silicon Laboratories, Inc. Verfahren und Systeme zum Mischen zwischen Stereo und Mono bei einem Frequenzmodulationsempfänger
US20140355764A1 (en) * 2013-05-31 2014-12-04 Silicon Laboratories Inc. Methods And Systems For Blending Between Analog And Digital Broadcast Signals

Also Published As

Publication number Publication date
DE102016107799B3 (de) 2017-05-18
US10003422B2 (en) 2018-06-19
CA3021918A1 (en) 2017-11-02
CA3021918C (en) 2021-11-23
US20170317772A1 (en) 2017-11-02

Similar Documents

Publication Publication Date Title
DE4209544C2 (de)
EP2402942B1 (de) Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals
DE4111131C2 (de) Verfahren zum Übertragen digitalisierter Tonsignale
DE60303689T2 (de) Audiodecodierungsvorrichtung und -verfahren
EP2206113B1 (de) Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung
DE102006020832B4 (de) Verfahren zum Unterdrücken von Rückkopplungen bei Hörvorrichtungen
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE602005005186T2 (de) Verfahren und system zur schallquellen-trennung
DE2526034B2 (de) Hoerhilfeverfahren und vorrichtung zur durchfuehrung des verfahrens
EP1143416A2 (de) Geräuschunterdrückung im Zeitbereich
EP2158588A1 (de) Spektralglättungsverfahren von verrauschten signalen
WO2011009649A1 (de) Vorrichtung und verfahren zur verbesserung stereophoner oder pseudostereophoner audiosignale
DE102015204253B4 (de) Verfahren zur frequenzabhängigen Rauschunterdrückung eines Eingangssignals sowie Hörgerät
DE102016107799B3 (de) Verfahren zur Verarbeitung eines FM-Stereosignals
EP3373599A1 (de) Verfahren zur frequenzverzerrung eines audiosignals und nach diesem verfahren arbeitende hörvorrichtung
DE102013114198B4 (de) Verfahren und System zum Mindern des amplitudenmodulierten (AM) Rauschsignals in AM-Rundfunksignalen
DE112018003068T5 (de) Fortgeschrittene paketbasierte probenaudioverdeckung
DE2338482A1 (de) Schaltungsanordnung zur rauschreduzierung einer nach dem fcc-system ausgestrahlten stereosendung auf der empfaengerseite, kombiniert mit einer mono-stereo-anzeige
EP1351550A1 (de) Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät
EP1869765B1 (de) Kompandersystem
DE102021205545A1 (de) Vorrichtung und Verfahren zum Erzeugen eines Ansteuersignals für einen Schallerzeuger oder zum Erzeugen eines erweiterten Mehrkanalaudiosignals unter Verwendung einer Ähnlichkeitsanalyse
DE102010041644B4 (de) Verfahren zur Frequenzkompression mit harmonischer Korrektur und Vorrichtung
EP1024679A2 (de) Verfahren zum Dekodieren gestörter Funksignale von Mehrkanal-Audiosendungen
DE60225089T2 (de) Verfahren und Vorrichtung zur Vor- und Nachbearbeitung eines Audiosignals zur Übertragung über einen sehr gestörten Kanal
DE102019126509A1 (de) Verbesserung der subjektiven bass-wahrnehmung eines audiosignals mit hilfe höherer harmonischer

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 3021918

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17724497

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17724497

Country of ref document: EP

Kind code of ref document: A1