WO2010116068A1 - Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant - Google Patents

Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant Download PDF

Info

Publication number
WO2010116068A1
WO2010116068A1 PCT/FR2010/050583 FR2010050583W WO2010116068A1 WO 2010116068 A1 WO2010116068 A1 WO 2010116068A1 FR 2010050583 W FR2010050583 W FR 2010050583W WO 2010116068 A1 WO2010116068 A1 WO 2010116068A1
Authority
WO
WIPO (PCT)
Prior art keywords
signals
signal
mixed
source
mixing
Prior art date
Application number
PCT/FR2010/050583
Other languages
English (en)
Inventor
Mathieu Parvaix
Laurent Girin
Jean-Marc Brossier
Sylvain Marchand
Original Assignee
Institut Polytechnique De Grenoble
Universite Bordeaux 1
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institut Polytechnique De Grenoble, Universite Bordeaux 1 filed Critical Institut Polytechnique De Grenoble
Priority to US13/262,428 priority Critical patent/US20120203362A1/en
Priority to JP2012504047A priority patent/JP2012523579A/ja
Priority to EP10717676A priority patent/EP2417597A1/fr
Publication of WO2010116068A1 publication Critical patent/WO2010116068A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Definitions

  • Method and device for forming a mixed signal Method and device for separating signals, and corresponding signal
  • the present invention relates to a method for separating at least one of the source signals comprising a global signal.
  • the invention also relates to a method of forming an overall signal for subsequent separation of at least one source signal from the component.
  • the invention relates to devices for implementing these methods.
  • Signal mixing consists of summing several signals, called source signals, to obtain one or more composite signals, called mixed signals.
  • the mixing may consist of a simple addition step of the source signals or may also include signal filtering steps before and / or after the addition.
  • the source signals can be mixed differently to form two mixed signals corresponding to the two channels (left and right) of a stereo signal.
  • Separation of sources consists of estimating source signals from the observation of a certain number of different mixed signals formed from these same source signals.
  • the objective is generally to enhance, if possible to completely extract one or more target source signals.
  • the separation of sources is particularly difficult in so-called "under-determined” cases in which there is a number of mixed signals less than the number of source signals present in the mixed signals. The extraction is in this case very difficult or impossible because of the small amount of information available in these mixed signals compared to that present in the source signals.
  • Music signals on compact-disc audio are a particularly representative example because there are only two stereo channels (ie two mixed signals), generally very redundant, for a large potential number of source signals.
  • blind separation is the most general form, in which no information on the source signals nor on the nature of the mixed signals is known a priori.
  • We then make a number of assumptions about these source signals and the mixed signals for example that the source signals are statistically independent
  • we estimate the parameters of a separation system by maximizing a criterion based on these hypotheses (for example maximizing the independence of the signals obtained by the separation device).
  • this method is generally used in cases where there are many mixed signals (at least as much as source signals) and is therefore not applicable to under-determined cases in which the number of mixed signals is less than number of source signals.
  • the analysis of computational auditory scenes consists of a modeling of the source signals in harmonic partials, but the mixed signal is not decomposed explicitly. This method is based on the mechanisms of the human auditory system to separate the source signals in the same way that our ear does. These include: DPW Ellis, Using knowledge to organize sound: The prediction-driven approach to computational auditory scene analysis, and its application to speech / non-speech mixture (Speech Communication, 27 (3), pp. 281-298, 1999), D. Godsmark and GJBrown, A blackboard architecture for computational auditory scene analysis (Speech Communication, 27 (3), pp. 351-366, 1999), as well as T. Kinoshita, S. Sakai, and H. Tanaka, Musical sound source identification based on frequency adaptation (In Proc. IJCAI Workshop on CASA, pp. 18-24, 1999).
  • the analysis of computational auditory scenes generally leads to poor results on the separation of source signals, especially in the case of audio signals.
  • Another form of separation relies on a decomposition of the mixture on the basis of suitable functions.
  • the dictionary must contain all the translated forms of the waveforms of each type of instrument.
  • the decomposition dictionaries must then be extremely large for projection and thus separation to be effective.
  • ISA independent subspace analysis
  • This analysis consists of breaking down the short-term amplitude spectrum of the mixed signal (calculated by short-term Fourier transform (TFCT)) on an atomic basis, and then grouping the atoms into independent subspaces, each subspace being specific to a source, and then resynthesizing the sources separately.
  • TFCT short-term Fourier transform
  • this approach is generally limited by several factors: the resolution of the TFCT spectral analysis, the superposition of the sources in this spectral domain, and the restriction of the spectral separation to the amplitude (the resynthesized phase of the signals being that of the mixed signal).
  • the mixed signal is thus generally difficult to represent the mixed signal as a sum of independent subspaces because of the complexity of the sound scene in the spectral domain (strong interweaving of the different components) and because of the evolution as a function of time , the contribution of each component in the mixed signal.
  • the methods are often evaluated on well-controlled "simplified" mixed signals (the source signals are MIDI instruments or are relatively well separable instruments, in limited numbers).
  • Y. -W. Liu Sound Source Segregation Assisted by Audio Watermarking (IEEE, Int.ConfMedia and Expo, pages 200-203, 2007) proposes to mark source signals with an identification of the source signal from which they originate.
  • the marking is performed so as to separate, in the frequency spectrum of the mixed signal, the frequencies from each source signal.
  • the number of sources that can be separated is limited.
  • An object of the present invention is therefore to provide a method for separating a source signal included in a mixed signal, more effectively.
  • an object of the invention is to propose a method of separating a source signal in the so-called "under-determined" cases in which the number of mixed signals is less than the number of source signals.
  • a characteristic quantity of a source signal or of the mixing is determined and the value of said characteristic quantity is tattooed on at least one of the signals.
  • a separation method for separating, at least partially, at least one digital source signal contained in one or more mixed signals obtained by mixing source signals, comprising a tattooed value of a magnitude characteristic of a source signal. or mixing.
  • the tattooed value of the characteristic quantity of the source signal or of the mixing is determined, then the mixed signal or signals is processed according to said value so as to obtain, at least partially, said source signal.
  • the tattoo in English "watermarking" consists, in general, to add on a digital signal binary information.
  • the tattoo is used to insert information relating to the content represented by the signal.
  • the tattooed information may be for example the author of the photograph or the song.
  • the audio tattoo is used in the context of the protection and control of copyright ("Digital Rights Management" in English) for works on digital media, and more generally in the context of the traceability of information on this type of support.
  • the objective is to insert in a very robust manner (that is to say, resistant to possible more or less lawful manipulations of the signal) a relatively small quantity information spread over a wide time-frequency range. of the signal then added to it, so that it is very difficult to isolate it to remove it.
  • a tattoo scheme inspired by the work of Chen and Wornell can be used (B. Chen & G. Wornell, Quantization index modulation: a class of provably good methods for digital watermarking and information embedding.) IEEE Trans. Theory, 47, pp. 1423-1443, 2001).
  • the tattoo is introduced by quantification.
  • tattooing is carried by a modification of the quantization levels, in one of the representations of the host signal (temporal, spectral or spectro-temporal representation).
  • the theoretical performance of this technique is similar to Costa's (Costa, Writing on dirty paper, IEEE Trans., Information Theory, 29, pp. 439-441, 1983) which sets the theoretical limit of the transmission capacity. a transmission chain if we know a priori the signal to the transmitter.
  • the tattoo is used to insert information relating to the signal itself, allowing the separation of the source signals from the mixed signal.
  • the information inserted here relates to the source signals themselves (for example their energy distribution in time, in frequency, or in the time-frequency plane), on the source signals and the mixed signal (for example the contribution of each source signal in the mixed signal, at a more or less local scale in the time-frequency plane), or on the mixing process itself (parameters of the mixing step having led to the mixed signal).
  • These are the characteristic quantities of the source and / or the mixing signals, that is to say of the characteristic descriptors of the source signals and / or of the mixing in the sense of the signal processing, these descriptors being able to help to the separation of the signals.
  • tattooing methods can thus be considered as non-safe methods, that is to say methods that are not very robust to signal manipulations, but which make it possible to tattoo information in greater quantity.
  • the combination of a tattooing method and a source separation method allows an improvement in the separation efficiency of a source signal from a mixed signal, as far as it is concerned.
  • an informed separation at the time of separation, information is known on at least one source signal before mixing or on parameters of the mixing process itself.
  • the separation remains possible thanks to the information relating to the source signals themselves, which are tattooed in the mixed signal.
  • tattooing provides the information necessary to achieve effective separation, even with a large number of source signals.
  • the characteristic quantity is tattooed in the signal so as to slightly modify the signal and so as not to change its format.
  • the tattooed mixed signal remains compatible with a conventional compact disc player, and the tattooed value is inserted so as to be little or not audible. It is then possible to read the mixed signal according to already known methods, even if the signal separation is not supported by these methods.
  • the characteristic quantity represents the temporal, spectral or spectro-temporal energy distribution of at least one source signal.
  • the magnitude is characteristic of at least one source signal. It is chosen so as to allow efficient separation while limiting the amount of information to be tattooed in the mixed signal.
  • the characteristic quantity will be more or less precise and more or less voluminous, to obtain a similar separation.
  • the characteristic quantity may represent the spectral contribution in amplitude or in energy, at least at a given moment, of at least one of the source signals in the mixed signal or signals.
  • it is a relative quantity between the source signal (s) and the mixed signal (s), and this quantity is characteristic of the source signal (s) relative to the mixed signals.
  • the characteristic quantity may represent the mixing parameters of the source signals to obtain the mixed signal. It may be for example the set of weighting parameters, and filtering if necessary, associated with each source signal during the mixing step.
  • the magnitude represents the different weighting or filtering parameters of the source signals during the mixing determining the mixed signal thus obtained, and this quantity is characteristic of the mixing.
  • the value of said characteristic quantity may be tattooed on the source signal (s) before mixing and / or on the mixed signal (s) after mixing.
  • the determination and tattooing of this characteristic quantity require the knowledge of the source signals, and / or that of the mixed signal or signals, and / or that of the mixing process.
  • a device for forming one or more mixed signals from at least two digital source signals, in particular audio comprising means for mixing said source signals to form the mixed signal or signals.
  • the device also comprises a means for determining a characteristic quantity of a source signal or of the mixing, and a means for determining 11
  • a separation device for separating, at least partially, at least one digital source signal contained in one or more mixed signals obtained by mixing source signals, comprising a tattooed value of a quantity characteristic of a source signal. or mixing.
  • the device comprises a means for determining the tattooed value of the characteristic quantity of the source signal or of the mixing, and means for processing the signal or signals mixed according to said value, able to obtain, at least partially, said source signal.
  • the tattooing means is mounted upstream of the mixing means and is able to tattoo the value of the characteristic quantity on the source signal or signals.
  • the tattooing means is mounted downstream of the mixing means and is capable of tattooing the value of the characteristic quantity on the mixed signal or signals.
  • the training device may also include means for quantizing a representation of a signal, wherein the tattooing means marks the value of the characteristic quantity using over-levels of quantization of the representation of the signal.
  • the representation of the signal may be a spectral or spectro-temporal representation of the signal.
  • the quantization means makes it possible to determine the amplitude of the modifications that can be introduced into the representation of the signal, so that these modifications do not alter the perceived quality of the signal when the latter is restored by a signaling device. conventional reading or by a separation device according to the invention, and so that these changes can be detected by a separation device according to the invention.
  • this tattooed signal is little or not degraded compared to that of the sound content represented by the initial signal.
  • the return of the signal tattooed by a known device will achieve a quality of sound content little or no change, while the signal processing tattooed by a device according to the invention will determine the tattooed value in the signal.
  • a mixed signal in particular audio signal, obtained by mixing at least two source signals, comprising a tattooed value of a quantity characteristic of a source signal or of the mixing.
  • an information carrier in particular compact-disc audio, comprising said mixed signal.
  • FIG. 1 schematically represents a first embodiment of a device for forming a mixed signal according to the invention
  • FIG. 2 diagrammatically represents a first embodiment of a separation device according to the invention
  • FIG. 3 diagrammatically represents a second embodiment of a device for forming a mixed signal according to the invention
  • FIG. 4 schematically represents a second embodiment of a separation device according to the invention.
  • FIG. 5 is a flow diagram of a process for forming a mixed signal according to the invention.
  • FIG. 6 is a flowchart of a tattooing process
  • FIG. 7 is a flowchart of a separation method according to the invention.
  • FIG. 1 there is shown schematically a first embodiment of forming device 1 of a mixed signal.
  • the training device 1 receives as input the source signals S i and S 2 , and delivers a mixed signal S or t-It has been limited here, for the purpose of 13
  • the purpose of the training device 1 is to deliver a mixed signal S or t formed from the source signals S 1 ,
  • the device comprises a mixing means 2.
  • the mixing means also receives as input the source signals S i and S 2 , and outputs an initial mixed signal S mix resulting from a combination of the source signals.
  • the mixing can consist of a simple summation. It can also be a summation whose coefficients assigned to each source signal vary in time, or even a summation associated with one or more filters.
  • the mixed signal S or t comprises the tattooed value of a characteristic quantity of at least one of the source signals S 1 , S 2 . It will be considered in the remainder of the description that the mixed signal S or t comprises the watermarked values of a characteristic quantity of each source signal.
  • the training device 1 thus comprises a means 3 for determining a signal characteristic quantity.
  • the determination means 3 receives as input the source signals for which it is desired to determine the value of the characteristic quantity, in this case the two signals S i and S 2 .
  • a determination means 3 is selected which is capable of determining, as a characteristic quantity, the spectro-temporal distribution of the energy of the signal considered.
  • the determination means 3 thus comprises a source signal transformation means 4, so as to obtain the representation in a time-frequency plane of the signal.
  • the time-frequency transformation of the signal can be performed by decomposition into a set of coefficients MDCT (in English: "Modified Discrete Cosine Transform"), or else by a 14
  • transformation means 4 a means of decomposing the source signal into a set of MDCT coefficients. We then obtain a representation of the source signal in matrix form. It is from this time-frequency representation that the value of the characteristic quantity of the source signal will be determined.
  • the determination means 3 comprises a detection means 5 and an evaluation means 6 making it possible to characterize the matrix obtained with a quantity W.
  • the detection means 5 may for example, for each source signal S 1 , S 2 , grouping the MDCT coefficients of the matrix time-frequency representation in groups of adjacent coefficients called, hereinafter, molecules.
  • the set of molecules detected by means 5 allows to find the matrix representation of the source signal.
  • the evaluation means 6 makes it possible to determine the characteristic quantity W 1 , W 2 , for each source signal, from all of its molecules. In particular, a value of this magnitude can be determined for each molecule of each source signal. This value then characterizes the energy of the source signal in the time - frequency zone covered by the molecule.
  • a value Wi of a characteristic quantity of the source signal S 1 and a value W 2 of a characteristic quantity of the source signal S 2 are obtained.
  • the values Wi and W 2 will be first tattooed on the initial mixed signal S mix to form the mixed signal S or t, then will be used in a second step to separate the source signals S 1 , S 2 of the mixed signal. S or t-
  • the training device 1 also comprises a tattooing means 7.
  • the tattooing means 7 receives as input the mixed signal S mix and the values W 1 , W 2 of the characteristic quantities of the source signals S 1 , S 2 .
  • the tattooing means 7 can comprise a transformation means 8 for decomposing the initial mix signal S mix 15
  • the decomposed initial mixed signal is then transmitted to a first quantization means 9.
  • the first quantization means 9 makes it possible to quantize the MDCT coefficients, ie the matrix time-frequency representation of the mixed initial signal, with a first resolution chosen so as to restore the signal with the desired quality.
  • the first resolution is to quantize the MDCT coefficients of the initial mixed signal with a minimum interval between two values.
  • the minimum interval is chosen according to the perception of the quantification. In the case of audio signals, if the minimum difference between two values is too large, the quantized mixed signal will be perceived differently by the human ear than the original mixed signal. On the other hand, if the minimum difference between two values is small enough, the human ear will not be able to distinguish the difference between the mixed signal quantized and the initial mixed signal.
  • these intervals must also be chosen large enough to insert the most tattooed information.
  • the quantified MDCT coefficients are then grouped into molecules by a detection means 10.
  • the grouping into molecules of the MDCT coefficients makes it possible here to obtain an elementary support for the tattoo on which it is possible to encode a significantly larger amount of information. Only on a single MDCT coefficient. It is therefore on the molecules of the quantized mixed signal that the values W 1 , W 2 of the characteristic quantities of the molecules of the source signals will be tattooed. It is in particular possible to choose a group of MDCT coefficients of the initial mixed signal analogous to the group obtained with the MDCT coefficients of the source signals, that is to say that the detection means 5 and 10 may be analogous. In this case, if the values W 1 , W 2 represent the energy 16
  • these values may be tattooed on the molecule of the corresponding initial mixed signal (that is to say covering the same area of the time-frequency plane).
  • the values W 1 , W 2 may in this case represent the relative energy of each of the molecules of the source signals relative to the corresponding molecule of the mixed signal, ie an energy ratio.
  • the value of the energy of the mixed signal molecules is then transmitted by the detection means 10 to the evaluation means 6 so that the latter can calculate the energy ratio.
  • Other information useful for the separation can also be encoded according to the available space, for example the "shape" of the molecules of the source signals, ie the more or less precise arrangement of the values of the MDCT coefficients within of a molecule.
  • the tattooing means 7 then comprises a second quantization means 11 which receives the quantized MDCT coefficients grouped into molecules of the mixed signal and the values W 1 , W 2 .
  • the second quantization means 11 makes it possible to quantify the matrix representation of the mixed signal with a second resolution chosen so that it can be detected during the separation of the source signals.
  • the second resolution is to quantify the minimum interval of the first quantization, with a second minimum interval, that is to say to introduce, in the levels of first quantization, over-levels.
  • the second minimum interval is chosen according to the detection during the separation of sources. If the second minimum interval is too small, the tattooed value during the second quantization can not be detected correctly.
  • the tattooing principle is thus a modification of the quantization levels of the MDCT coefficients composing the mixed signal molecule.
  • the modification of the quantization levels is not or not very audible because it is performed in the determined first quantization interval, but remains detectable for source separation because it is performed with a determined second quantization interval.
  • the tattooing means 7 comprises an inverse transformation means 12.
  • the inverse transformation means 12 performs the inverse transformation of that performed by the transformation means 4.
  • the means 12 performs a transformation by inverse MDCT decomposition. (IMDCT).
  • IMDCT inverse MDCT decomposition.
  • the mixed signal S or t may then be transmitted or applied to a recording medium.
  • the mixed signal S or t first undergoes a 16-bit uniform scalar quantization (which corresponds to the audio CD format), then is applied to compact disc.
  • 16-bit uniform scalar quantization is an example of processing limiting the detection of the second quantization performed by the tattooing means.
  • the mixed signal S or t having the same temporal representation as the initial mixed signal S mix , and the values of characteristic variables being tattooed so as to be little or not audible, a conventional device can process the mixed signal S or t as n '. any mixed signal, while a separation device according to the invention, as described below, may, in 18
  • FIG. 2 diagrammatically shows a first embodiment of a device for separating a source signal contained in a mixed signal S or t as defined in the preceding paragraph.
  • the separation device 13 receives as input the mixed signal S O ut, and delivers, in the present case, two source signals at least partially separated S 'i and S' 2 .
  • the purpose of the separation device 13 is to deliver, at least partially, one or more source signals contained in a mixed signal S or t which comprises a tattooed value of a characteristic quantity.
  • the separation device 13 comprises means 14 for determining the watermarked values W 1 , W 2 of the characteristic quantities of the signals to be separated.
  • the means 14 receives as input the mixed signal S or t and outputs the watermarked values W 1 , W 2 .
  • the means 14 also delivers the MDCT coefficient (s) of the mixed signal S or t-
  • the means 14 for determining comprises a transformation means 15 similar to the means 4 described in FIG. 1.
  • the transformation means 15 make it possible to decompose the mixed signal S or t into a matrix of coefficients MDCT.
  • the MDCT coefficients are then transmitted to a first quantization means 16 similar to the means 9 described in FIG. 1.
  • the quantization means 16 makes it possible to quantize the MDCT coefficients of the signal S or t with a first resolution.
  • the quantized coefficients are then transmitted to a detection means 17 similar to the means 10 described in FIG. 1.
  • the detection means 17 groups the MDCT coefficients quantized into molecules, and in particular groups the coefficients according to the same molecules as those produced by the medium 10 described above.
  • the molecules formed by the means 17 are transmitted to a second quantization means 18 which performs a quantization of the coefficients composing these 19
  • the second resolution makes it possible in particular to determine the watermarked values W 1 , W 2 , by reading the second quantization levels of the coefficients and decoding the values associated with these levels.
  • the determination means 14 thus delivers, at the output, the values W 1 , W 2 of the characteristic quantities, which can be used for the separation of sources.
  • the separation device 13 also comprises a processing means 19 receiving the values of characteristic quantities from the determination means 14, as well as the coefficients grouped into molecules also determined by the means 14.
  • the processing means 19 comprises a first separation means 20 capable of separating, at least partially, the source signals of the mixed signal.
  • the values of the characteristic quantities are used, on the MDCT coefficients grouped into molecules, to improve the separation of the source signals carried out by the separation means 20.
  • the characteristic quantities have been determined from the MDCT coefficients of the source signals, it is from the MDCT coefficients of the mixed signal S O ut that it will be possible to find the MDCT coefficients of the source signals, and thus that a separation of the source signals is performed.
  • each molecule of each source signal to be separated is estimated by the molecule of the mixed signal affected by the relative energy level of the molecule of the source signal in question (value of the characteristic quantity) determined during the detection of the tattooed value.
  • the other tattooed information may be used to refine the estimation of the molecule of the source signal, especially if one has also encoded information characterizing the shape of the molecule of the source signal.
  • the MDCT coefficients separated by the separation means 20 are then transmitted to an inverse transformation means 21 similar to the means 12 described in FIG. 1.
  • the means 21 makes it possible to transform the separated MDCT coefficients into time signals S 'i and S' 2 corresponding, at least partially, to the source signals S 1 , S 2 . 20
  • FIG 3 there is shown a second embodiment of a forming device 22 according to the invention.
  • the training device 22 receives as input at least two source signals S 1 , S 2 and provides, as output, two mixed signals S or ti, S or t2 different, which correspond to stereo signals.
  • the device 22 comprises a mixing means 23 receiving the two source signals S 1 , S 2 and supplying a first initial mixed signal S mix i and a second initial mixed signal S miX 2.
  • the mixing means 23 performs operations different mixes to form the two signals S mix i and S miX 2, to obtain two stereo channels conferring a sound spatialization effect.
  • This spatialisation effect notably involves the introduction of multiplicative factors and different delays on the two paths.
  • the mixing operations on the two source signals can then be represented in the form of a mixing matrix in the frequency domain, after application of a frequency transformation of the signals.
  • the mixing operation then consists of a multiplication of a source signal vector (comprising, as components, the two source signals) by the mixing matrix, to obtain an initial mixed signal vector (comprising, as components, the two initial mixed signals) .
  • the mixing matrix comprises four components which each represent, for each value of the frequency, the contribution of one of the source signals in one of the initial mixed signals. These components may vary over time.
  • the device 22 comprises a first determination means 24.
  • the first determination means 24 here determines the components of the mixing matrix corresponding to the mixed signal.
  • the device 22 comprises a second determination means 25.
  • the second determination means 25 here determines the components of the mixing matrix corresponding to the mixed signal S miX 2. These components are the mixing parameters making it possible to obtain the initial mixed signal S miX 2 from the source signals S i and S 2 . These components therefore represent a value W 2 of a characteristic quantity of the mix leading to the mixed signal S or t2, namely the mixing parameters which make it possible to obtain the mixed signal S or t2-
  • the training device 22 also comprises a tattooing means 26.
  • the tattooing means 26 receives as inputs the initial mix signals S mix1 and S miX 2, and the values W 1 , W 2 , and outputs the mixed signals S 0 Ut 1 and S or t2-
  • the tattooing means 26 successively comprises a transformation means 8, a first quantization means 9 and a detection means 10.
  • the initial mixed signals are processed successively by these means in order to obtain the MDCT coefficients grouped into molecules, for each of the two signals S mix1 and S mix2 .
  • the tattooing means 22 comprises a second quantization means 1 1 receiving the MDCT coefficients grouped into molecules and the values W 1 , W 2 .
  • the tattooing means 22 makes it possible to insert the values Wi and W 2 in the coefficients MDCT of the signal Smixi and in the coefficients MDCT of the signal S mix2 .
  • the mixed signals S or ti, S or t2 are tattooed with the characteristic magnitude values corresponding to them.
  • the two mixed signals being different, it is then possible to exploit this difference, and to exploit the knowledge of the mixing parameters carried by Wi and W 2 , to separate, at least partially, the source signals from
  • mixed signals S or ti, S or t2 obtained by mixing at least two source signals, and each comprising a tattooed value of a quantity characteristic of said mixed signals, namely: the components of the 22
  • the mixed signals S or ti, S or t2 are presented with the same temporal representation as the initial mixed signals S mix1 , S miX 2, and the values of characteristic variables being tattooed so as to be little or not audible, a conventional device can process the mixed signals S 0 Ut 1 ,
  • FIG. 4 shows a second embodiment of a separating device 27 according to the invention.
  • the separation device 27 receives as input two mixed signals S 0 Ut 1 , S or t 2 and outputs two signals S 'i, S' 2 corresponding, at least in part, to the source signals S i, S 2 .
  • the separating device 27 comprises a means for determining the tattooed value 28.
  • the means 28 receives as input the signals S or t1 and S or t2, and outputs the tattooed values Wi, W 2 .
  • the means 28 comprises successively a means of transformation
  • the mixed signals S or ti, S or t2 are processed separately by the means 15, 16 and 17 so as to obtain the grouped MDCT coefficients of each of the mixed signals.
  • the means 28 finally comprises second quantization means 29.
  • the second quantization means 29 makes it possible to determine the tattooed value Wi in the mixed signal S or ti, and the tattooed value W 2 in the mixed signal S or t2. , W 2 and the mixed signals S O uti and S or t2 are transmitted to a processing means 31 comprising a separation means 32.
  • the separation means 32 makes it possible to find, at least partially, the source signals from the values Wi, W 2 and the mixed signals S or t 1 and S 2 or t 2. Indeed, even if the mixing matrix is not invertible when there are more than two source signals, it is 23
  • FIG. 5 shows a flowchart representing the various steps of the process for forming a mixed signal according to the invention.
  • the method comprises a first step 33 in which the value W of a characteristic quantity is determined. Then, during a step 34, the mixing of the source signals is performed to obtain an initial mixed signal. Finally, in step 34, the value W of the characteristic quantity is tattooed on the initial mixed signal to obtain the mixed signal.
  • the tattooing step 35 prior to the mixing step 34.
  • the value W of the characteristic quantity is tattooed on at least one of the source signals, and the mixing step makes it possible to obtain the mixed signal.
  • FIG. 6 represents a flowchart of the different steps of an embodiment of the tattooing step 35.
  • the tattooing begins with a step 36 during which the initial mixed signal is decomposed into MDCT coefficients.
  • the MDCT coefficients are then subjected to a first quantification, during step 37, and then grouped into molecules in step 38. It may however be noted that steps 37 and 38 may also be reversed.
  • the grouped coefficients then undergo a second quantization, during step 39, during which the value W of the characteristic quantity is inserted into the mixed signal.
  • the MDCT coefficients comprising the watermarked value W undergo an IMDCT inverse decomposition, in order to obtain, at the output, the temporal representation of the mixed signal.
  • the method comprises a first step 41 in which the mixed signal is decomposed into MDCT coefficients.
  • the MDCT coefficients are then quantized a first time, during step 42, and grouped into molecules during step 43.
  • the grouped MDCT coefficients then undergo a second quantization to determine the watermarked value W on the mixed signal.
  • the separation, at least partially, of a source signal is carried out in step 45.
  • audio signals it is thus possible to perform a number of major controls in audio listening (volume, tone, effects) independently on the various elements of the sound stage (instruments and voices obtained by the separation device).
  • one of the important advantages of the proposed technique is to be fully compatible with the CD-audio format: a
  • CD tattooed with the proposed method can be used as it is on any conventional player (without benefit of separation features) without any distinction with a conventional CD through an inaudible or almost inaudible tattoo.
  • the speech signal can be tattooed at the transmitter (when it is produced in good conditions) before it is transmitted in a channel that can degrade it (or mix it up with other signals), in order to recover this signal.
  • signal 25 the speech signal can be tattooed at the transmitter (when it is produced in good conditions) before it is transmitted in a channel that can degrade it (or mix it up with other signals), in order to recover this signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

L 'invention concerne un procédé de formation d'un ou plusieurs signaux mixés (Sout) à partir d' au moins deux signaux sources numériques (S 1, S2), notamment audio, dans lequel le ou les signaux mixés (Sout) sont formés par mixage des signaux sources (S 1, S2). En particulier, une grandeur caractéristique d'un signal source ou du mixage est déterminée et la valeur (W1, W2) de ladite grandeur caractéristique est tatouée sur au moins un des signaux (S 1, S2, Sout). L 'invention concerne également un procédé de séparation destiné à séparer, au moins partiellement, au moins un signal source numérique contenu dans un ou plusieurs signaux mixés comprenant une valeur tatouée d'une grandeur caractéristique d'un signal source ou du mixage. Selon le procédé, on détermine la valeur tatouée de la grandeur caractéristique du signal source ou du mixage, puis on traite le ou les signaux mixés en fonction de ladite valeur de manière à obtenir, au moins partiellement, ledit signal source. L 'invention concerne aussi le signal mixé (Sout) correspondant, ainsi que les dispositifs correspondants.

Description

GRB08/4772EXT/PCT/GBO
Etablissement public à caractère scientifique, culturel et professionnel dit INSTITUT POLYTECHNIQUE DE GRENOBLE
Etablissement public à caractère scientifique, culturel et professionnel dit UNIVERSITE BORDEAUX 1
Procédé et dispositif de formation d'un signal mixé, procédé et dispositif de séparation de signaux, et signal correspondant
Invention de : PARVAIX Mathieu GIRIN Laurent BROSSIER Jean-Marc MARCHAND Sylvain Procédé et dispositif de formation d'un signal mixé, procédé et dispositif de séparation de signaux, et signal correspondant
La présente invention concerne un procédé destiné à séparer au moins un des signaux sources composant un signal global. L 'invention concerne également un procédé de formation d'un signal global permettant la séparation ultérieure d' au moins un signal source le composant. Enfin, l'invention concerne des dispositifs destinés à mettre en œuvre ces procédés. Le mixage de signaux consiste à sommer plusieurs signaux, appelés signaux sources, pour obtenir un ou plusieurs signaux composites, appelés signaux mixés. Dans les applications audio notamment, le mixage peut consister en une simple étape d'addition des signaux sources ou peut également comprendre des étapes de filtrage des signaux avant et/ou après l' addition. Par ailleurs, pour certaines applications telles que le compact-disc audio, les signaux sources peuvent être mixés de manière différentes pour former deux signaux mixés correspondant aux deux voies (gauche et droite) d'un signal stéréo. La séparation de sources consiste à estimer des signaux sources à partir de l'observation d'un certain nombre de signaux mixés différents formés à partir de ces mêmes signaux sources. L 'objectif est généralement de rehausser, voire si possible d' extraire complètement un ou plusieurs signaux sources cibles. La séparation de sources est notamment difficile dans les cas dits « sous-déterminés » dans lesquels on dispose d'un nombre de signaux mixés inférieur au nombre des signaux sources présents dans les signaux mixés. L ' extraction est dans ce cas très difficile voire impossible en raison de la faible quantité d'information disponible dans ces signaux mixés par rapport à celle présente dans les signaux sources. Les signaux de musique sur compact-disc audio en sont un exemple particulièrement représentatif car on ne dispose que de deux voies stéréo (c' est-à-dire deux signaux mixés), généralement très redondantes, pour un grand nombre potentiel de signaux sources. II existe plusieurs types d'approches dans la séparation de signaux sources : parmi elles la séparation aveugle, l'analyse de scènes auditives computationnelle, et la séparation basée sur des modèles. La séparation aveugle est la forme la plus générale, dans laquelle aucune information sur les signaux sources ni sur la nature des signaux mixés n'est connue à priori. On fait alors un certain nombre d'hypothèses sur ces signaux sources et les signaux mixés (par exemple que les signaux sources sont statistiquement indépendants) et on estime les paramètres d'un système de séparation en maximisant un critère basé sur ces hypothèses (par exemple en maximisant l'indépendance des signaux obtenus par le dispositif de séparation). Cependant, cette méthode est utilisée généralement dans les cas où l'on dispose de nombreux signaux mixés (au moins autant que de signaux sources) et n'est donc pas applicable aux cas sous-déterminés dans lesquels le nombre de signaux mixés est inférieur au nombre de signaux sources.
L 'analyse de scènes auditives computationnelles consiste en une modélisation des signaux sources en partiels harmoniques, mais le signal mixé n'est pas décomposé explicitement. Cette méthode se base sur les mécanismes du système auditif humain pour séparer les signaux sources de la même façon que le fait notre oreille. On peut notamment citer : D. P. W. Ellis, Using knowledge to organize sound: The prediction-driven approach to computational auditory scène analysis, and its application to speech/non-speech mixture (Speech Communication, 27(3), pp . 281 -298 , 1999), D. Godsmark et G.J.Brown, A blackboard architecture for computational auditory scène analysis (Speech Communication, 27(3), pp . 351 -366, 1999), de même que T. Kinoshita, S . Sakai, et H. Tanaka, Musical sound source identification based on frequency component adaptation (In Proc. IJCAI Workshop on CASA, pp . 18-24, 1999). Cependant, l' analyse de scènes auditives computationnelles conduit généralement à de mauvais résultats sur la séparation de signaux sources, en particulier dans le cas de signaux audio .
Une autre forme de séparation repose sur une décomposition du mélange sur une base de fonctions adaptées. Il en existe deux grandes catégories : la décomposition parcimonieuse temporelle et la décomposition parcimonieuse en fréquence.
Pour la première il s 'agit de décomposer la forme d'onde du mélange, et pour l'autre il s 'agit de décomposer sa représentation spectrale, en une somme de fonctions élémentaires appelées « atomes » éléments d'un dictionnaire. Divers algorithmes permettent de choisir le type de dictionnaire et la décomposition correspondante la plus vraisemblable. Pour le domaine temporel, on peut citer notamment : L . Benaroya, Représentations parcimonieuses pour la séparation de sources avec un seul capteur (Proc. GRETSI, 2001 ), ou PJ. Wolfe et
S J. Godsill, A Gabor régression scheme for audio signal analysis (Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp. 103- 106, 2003). Dans la méthode proposée par Gribonval (R. Gribonval and E. Bacry, Harmonie Décomposition of Audio Signais With Matching Pursuit, IEEE Trans. Signal Proc , 5 1 ( 1 ), pp. 101 - 1 12, 2003), on classe les atomes de décomposition en sous- espaces indépendants, ce qui permet d'extraire des groupes de partiels harmoniques. Une des restrictions de cette méthode est que des dictionnaires génériques d'atomes tels que les atomes de Gabor par exemple, non adaptés aux signaux, ne donnent pas de bons résultats.
De plus, pour que ces décompositions soient efficaces, il faut que le dictionnaire contienne toutes les formes translatées des formes d'ondes de chaque type d'instrument. Les dictionnaires de décomposition doivent alors être extrêmement volumineux pour que la projection et donc la séparation soient efficaces.
Pour pallier à ce problème d'invariance par translation qui apparaît dans le cas temporel, il existe des approches de décomposition parcimonieuse en fréquence. On peut citer notamment M. A. Casey et A. Westner (Séparation of mixed audio sources by independent subspace analysis, Proc. Int. Computer Music Conf. ,
2000) qui ont introduit l' analyse en sous-espaces indépendants (ISA) . Cette analyse consiste à décomposer le spectre d'amplitude à court terme du signal mixé (calculé par transformée de Fourier à court terme (TFCT)) sur une base d' atomes, et ensuite à regrouper les atomes en sous-espaces indépendants, chaque sous-espace étant propre à une source, pour ensuite resynthétiser les sources séparément. Cependant, cette approche est généralement limitée par plusieurs facteurs : la résolution de l' analyse spectrale par TFCT, la superposition des sources dans ce domaine spectral, et la restriction de la séparation spectrale à l'amplitude (la phase des signaux resynthétisée étant celle du signal mixé). Il est ainsi généralement difficile de représenter le signal mixé comme une somme de sous-espaces indépendants du fait de la complexité de la scène sonore dans le domaine spectral (imbrication forte des différentes composantes) et en raison de l'évolution, en fonction du temps, de la contribution de chaque composante dans le signal mixé. De fait, les méthodes sont souvent évaluées sur des signaux mixés « simplifiés » bien contrôlés (les signaux sources sont des instruments MIDI ou sont des instruments relativement bien séparables, en nombre restreint).
On peut également citer également L. Benaroya, F. Bimbot et R. Gribonval Audio sources séparation with a single sensor (IEEE Trans. Audio, Speech, & Language Proc , 14( 1 ), 2006) qui utilisent des modèles statistiques des différentes sources. Cependant, les paramètres de ces modèles sont réglés à partir d' exemples de pistes audio des différents instruments à séparer.
S .D.Teddy et E. Lai, Model-based approach to separating instrumental music from single track recordings (Int. Conf. Control, Automation, Robotics and Vision, Kunming, China, 2004) utilisent un réseau de neurones pour « apprendre » des caractéristiques de divers instruments de musique. Ils extraient des caractéristiques auditives du timbre du piano grâce à un modèle d'images auditives, puis tentent de mettre en évidence ces caractéristiques dans le mélange afin d'isoler le piano. K. I. Molla et K. Hirose, Single-Mixture audio source séparation by subspace décomposition of Hilbert spectrum (IEEE Trans. Audio, Speech, & Language Proc , 15(3), 2007) ont travaillé sur une séparation de sources par une décomposition du spectre de Hilbert du mélange en sous-espaces indépendants, la transformée de Hilbert fournissant de meilleurs résultats de discrimination des différentes sources que la transformée de Fourier.
N. Cho, Y. Shiu et C-C. J. Kuo, Audio source séparation with matching pursuit and content-adaptative dictionaries (IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2007) proposent une séparation par décomposition du mélange sur une base d' atomes de Gabor appris pour un instrument particulier, et pour les différentes notes de cet instrument. Par technique de « matching pursuit », certains de ces atomes sont retenus puis rassemblés en un sous-espace adapté à la note extraite.
Enfin, Y. -W. Liu, Sound source ségrégation assisted by audio watermarking (IEEE, Int. Conf. Multimedia and Expo. , pages 200-203 , 2007) propose de marquer les signaux sources avec une identification du signal source dont ils sont issus. En particulier, le marquage est réalisé de manière à séparer, dans le spectre fréquentiel du signal mixé, les fréquences issues de chaque signal source. Cependant, le nombre de sources pouvant ainsi être séparées est limité. De plus, il n' est pas envisageable de marquer toutes les fréquences contenues dans un signal source : il peut y avoir alors superposition d'une fréquence non-marquée d'un signal source avec une fréquence marquée de l' autre signal source.
Pour toutes ces études, les tests sont effectués sur des mélanges artificiels peu réalistes et en conditions très contrôlées par rapport aux cas réels auxquels ils sont destinés à s' appliquer. D ' autre part, les méthodes de séparation basées sur des mélanges sous-déterminés présentent une efficacité limitée en raison du manque d'informations disponibles, autres que celles fournies par les signaux mixés eux-mêmes.
Un but de la présente invention est donc de proposer un procédé permettant de séparer un signal source compris dans un signal mixé, de manière plus efficace. En particulier, un but de l'invention est de proposer un procédé de séparation d'un signal source dans les cas dits « sous-déterminés » dans lesquels le nombre de signaux mixés est inférieur au nombre de signaux sources. A cet effet, dans un mode de réalisation, il est proposé un procédé de formation d'un ou plusieurs signaux mixés à partir d' au moins deux signaux sources numériques, notamment audio, dans lequel le ou les signaux mixés sont formés par mixage des signaux sources. En particulier, une grandeur caractéristique d'un signal source ou du mixage est déterminée et la valeur de ladite grandeur caractéristique est tatouée sur au moins un des signaux.
Il est également proposé un procédé de séparation destiné à séparer, au moins partiellement, au moins un signal source numérique contenu dans un ou plusieurs signaux mixés obtenus par mixage de signaux sources, comprenant une valeur tatouée d'une grandeur caractéristique d'un signal source ou du mixage. Selon le procédé, on détermine la valeur tatouée de la grandeur caractéristique du signal source ou du mixage, puis on traite le ou les signaux mixés en fonction de ladite valeur de manière à obtenir, au moins partiellement, ledit signal source.
Le tatouage (en anglais : « watermarking ») consiste, en toute généralité, à ajouter sur un signal numérique une information binaire. En particulier, le tatouage est utilisé pour insérer des informations relatives au contenu représenté par le signal. Ainsi, dans le cas où le signal représente une photographie ou une chanson, l'information tatouée peut être par exemple l'auteur de la photographie ou de la chanson.
On considère dans la suite les techniques de tatouage audio . Le tatouage d'un signal exploite les défauts du système perceptif humain pour insérer dans un signal, en l'occurrence un signal sonore, une information qui soit de préférence imperceptible, c' est-à-dire inaudible. Typiquement, les techniques employées sont de type étalement spectral (R. Garcia : Digital watermarking of audio signais using psychoacoustic auditory model and spread spectrum theory,
107th Convention of Audio Engineering Society (AES), 1999), (Cox, I. J. , Kilian, J. , Leighton, F. T. , Shamoon, T. : Secure spread spectrum watermarking for multimédia, IEEE Transactions on Image Processing, 6( 12), pp.1673 - 1687, 1997). Généralement, le tatouage audio est utilisé dans le cadre de la protection et du contrôle des droits d' auteur (« Digital Rights Management » en anglais) pour les œuvres sur support numérique, et plus généralement dans le cadre de la traçabilité d'informations sur ce type de support. On peut ainsi tatouer sur une chanson des informations permettant d'identifier l' auteur ou le propriétaire de la chanson. Dans ce cas, l'objectif est d'insérer de façon très robuste (c' est-à-dire résistante à de possibles manipulations plus ou moins licites du signal) une information de quantité relativement faible et étalée dans une large plage temps-fréquence du signal puis ajoutée à celui-ci, de sorte qu'il est très difficile de pouvoir l'isoler pour le supprimer.
Lorsqu'on connaît à l' émetteur (là où est formé le tatouage) le signal hôte, on peut parler de « tatouage informé » (« watermarking with side-information »). Le but est dans ce cas de choisir un tatouage optimal adapté au signal sur lequel il est inséré (I. J. Cox, M. L. Miller et A. L. McKellips, Watermarking as communications with side information, IEEE Proc , 87(7), pp. 1 127- 1 141 , 1999). Les contraintes à satisfaire sont d'obtenir un débit de transmission le plus élevé possible sans pour autant que le tatouage soit audible, et également d' assurer une fiabilité de transmission la meilleure possible (peu d' erreurs faites au cours de la transmission). Le tatouage pour la transmission de données est ainsi utilisé entre autre pour l' annotation de documents en vue par exemple d'une indexation dans une base de données (Ryuki Tachibana : Audio watermarking for live performance, SPIE Electronic Imaging : Security and Watermarking of Multimedia
Content V, volume 5020, pp. 32-43 , 2003), ou l'identification de documents dans le but d' établir des statistiques sur la diffusion de ce document par exemple (T. Nakamura, R. Tachibana & S . Kobayashi, Automatic music monitoring and boundary détection for broadcast using audio watermarking, SPIE Electronic Imaging : Security and
Watermarking of Multimedia Content IV, vol 4675 , pp. 170- 180, 2002). Dans le cadre du tatouage pour la transmission de données, on peut citer également la technique de tatouage substitutif dans laquelle les caractéristiques du signal hôte sont remplacées par celles du tatouage. Des exemples de tatouages substitutifs sont décrits par Chen (B. Chen et C-E. W. Sundberg : Digital audio broadcasting in the fm band by means of contiguous band insertion and precanceling techniques, IEEE Transactions on Communications, 48( 10), pp. 1634- 1637, 2000), ou encore par Bourcet (P. Bourcet, D. Masse et B. Jahan :
Système de diffusion de données, 1995. Brevet d'Invention 95 06727, Télédiffusion de France).
On peut utiliser, dans le cas présent, un schéma de tatouage inspiré des travaux de Chen et Wornell (B. Chen & G. Wornell, Quantization index modulation : a class of provably good methods for digital watermarking and information embedding. IEEE Trans. Information Theory, 47, pp. 1423- 1443 , 2001 ). Dans ces travaux, le tatouage est introduit par quantification. De manière simplifiée, le tatouage est porté par une modification des niveaux de quantification, dans une des représentations du signal hôte (représentation temporelle, spectrale ou spectro-temporelle). Les performances théoriques de cette technique s 'approchent du modèle de Costa (M. Costa, Writing on dirty paper, IEEE Trans. Information Theory, 29, pp. 439-441 , 1983) qui fixe la limite théorique de la capacité de transmission d'une chaîne de transmission si l'on connaît à priori le signal à l' émetteur.
Dans le cas présent, le tatouage est utilisé pour insérer une information relative au signal lui-même, permettant la séparation des signaux sources à partir du signal mixé. L 'information insérée porte ici sur les signaux sources eux-mêmes (par exemple leur répartition énergétique dans le temps, en fréquence, ou encore dans le plan temps- fréquence), sur les signaux sources et le signal mixé (par exemple la contribution de chaque signal source dans le signal mixé, à une échelle plus ou moins locale dans le plan temps-fréquence), ou encore sur le procédé de mixage lui-même (paramètres de l' étape de mixage ayant conduit au signal mixé). Il s 'agit ainsi de grandeurs caractéristiques des signaux sources et/ou du mixage, c 'est-à-dire de descripteurs caractéristiques des signaux sources et/ou du mixage au sens du traitement du signal, ces descripteurs devant permettre d' aider à la séparation des signaux. Il s 'agit donc ici d'une information à la fois relativement volumineuse et éventuellement répartie de façon bien localisée et bien contrôlée dans le plan temps-fréquence. En revanche, le tatouage n' a pas besoin de présenter des propriétés particulières de robustesse, notamment par rapport à des manipulations illicites que pourrait subir le signal. On peut considérer ainsi, comme méthodes de tatouage, les méthodes de type non-sécuritaire, c' est-à-dire des méthodes peu robustes aux manipulations du signal mais permettant de tatouer des informations en plus grande quantité.
L 'association d'un procédé de tatouage et d'un procédé de séparation de sources permet une amélioration de l' efficacité de séparation d'un signal source à partir d'un signal mixé, dans la mesure où il s ' agit d'une séparation informée : on connaît, au moment de la séparation, des informations sur au moins un signal source avant mixage ou sur des paramètres du procédé de mixage lui-même. En particulier, dans les cas dits « sous-déterminés », même avec un seul signal mixé, la séparation reste possible grâce aux informations relatives aux signaux sources eux-mêmes, qui sont tatouées dans le signal mixé. Autrement dit, le tatouage fournit les informations nécessaires à l'obtention d'une séparation efficace, même avec un nombre élevé de signaux sources.
La grandeur caractéristique est tatouée dans le signal de manière à peu modifier le signal et de manière à ne pas modifier son format. En particulier, dans le cas de signaux audios, le signal mixé tatoué reste compatible avec un lecteur classique de compact-disc, et la valeur tatouée est insérée de manière à être peu ou pas audible. Il est alors possible de lire le signal mixé selon des procédés déjà connus, même si la séparation de signaux n' est pas prise en charge par ces procédés.
Préférentiellement, la grandeur caractéristique représente la répartition énergétique temporelle, spectrale ou spectro-temporelle d' au moins un signal source. La grandeur est dans ce cas caractéristique d'au moins un signal source. Elle est choisie de manière à permettre une séparation efficace tout en limitant la quantité d'information à tatouer dans le signal mixé. Ainsi, selon les 10
caractéristiques du signal source, la grandeur caractéristique sera plus ou moins précise et plus ou moins volumineuse, pour obtenir une séparation similaire.
Alternativement, la grandeur caractéristique peut représenter la contribution spectrale en amplitude ou en énergie, à au moins un instant déterminé, d' au moins un des signaux sources dans le ou les signaux mixés. Dans ce cas, il s' agit d'une grandeur relative entre le ou les signaux sources et le ou les signaux mixés, et cette grandeur est caractéristique du ou des signaux sources par rapport aux signaux mixés.
Enfin, la grandeur caractéristique peut représenter les paramètres de mixage des signaux sources pour obtenir le signal mixé. Il peut s' agir par exemple de l' ensemble des paramètres de pondération, et de filtrage le cas échéant, associés à chaque signal source lors de l' étape de mixage. Dans ce cas, la grandeur représente les différents paramètres de pondération ou de filtrage des signaux sources lors du mixage déterminant le signal mixé ainsi obtenu, et cette grandeur est caractéristique du mixage. En particulier, pour des signaux stéréo, il est possible dans certains cas, en dépit du caractère sous-déterminé du problème de séparation, d'exploiter la connaissance du procédé de mixage pour séparer au moins partiellement un signal source.
La valeur de ladite grandeur caractéristique peut être tatouée sur le ou les signaux sources avant mixage et/ou sur le ou les signaux mixés après mixage. Dans tous les cas, la détermination et le tatouage de cette grandeur caractéristique nécessitent la connaissance des signaux sources, et/ou celle du ou des signaux mixés, et/ou celle du procédé de mixage.
Selon un autre aspect, il est proposé un dispositif de formation d'un ou plusieurs signaux mixés à partir d' au moins deux signaux sources numériques, notamment audio, comprenant un moyen de mixage desdits signaux sources pour former le ou les signaux mixés. Le dispositif comprend également un moyen de détermination d'une grandeur caractéristique d'un signal source ou du mixage, et un moyen 11
de tatouage de la valeur de ladite grandeur caractéristique sur au moins un des signaux.
Il est également proposé un dispositif de séparation destiné à séparer, au moins partiellement, au moins un signal source numérique contenu dans un ou plusieurs signaux mixés obtenus par mixage de signaux sources, comprenant une valeur tatouée d'une grandeur caractéristique d'un signal source ou du mixage. Le dispositif comprend un moyen de détermination de la valeur tatouée de la grandeur caractéristique du signal source ou du mixage, et un moyen de traitement du ou des signaux mixés en fonction de ladite valeur, apte à obtenir, au moins partiellement, ledit signal source.
Selon un mode de réalisation du dispositif de formation, le moyen de tatouage est monté en amont du moyen de mixage et est capable de tatouer la valeur de la grandeur caractéristique sur le ou les signaux sources.
Selon un autre mode de réalisation du dispositif de formation, le moyen de tatouage est monté en aval du moyen de mixage et est capable de tatouer la valeur de la grandeur caractéristique sur le ou les signaux mixés. Le dispositif de formation peut également comprendre un moyen de quantification d'une représentation d'un signal, dans lequel le moyen de tatouage marque la valeur de la grandeur caractéristique en utilisant des sur-niveaux de quantification de la représentation du signal. La représentation du signal peut être une représentation spectrale ou spectro-temporelle du signal.
En particulier, le moyen de quantification permet de déterminer l' amplitude des modifications pouvant être introduites dans la représentation du signal, de manière à ce que ces modifications n'altèrent pas la qualité perçue du signal lorsque celui-ci est restitué par un dispositif de lecture classique ou par un dispositif de séparation selon l'invention, et de manière à ce que ces modifications puissent être détectées par un dispositif de séparation selon l' invention.
Il est ainsi possible d'obtenir un signal tatoué avec une grandeur caractéristique, tel que la qualité du contenu sonore 12
représenté par ce signal tatoué est peu ou pas dégradée par rapport à celle du contenu sonore représenté par le signal initial. La restitution du signal tatoué par un dispositif connu permettra d'obtenir une qualité du contenu sonore peu ou pas modifiée, alors que le traitement du signal tatoué par un dispositif selon l'invention permettra de déterminer la valeur tatouée dans le signal.
Selon un autre aspect, il est proposé un signal mixé, notamment audio, obtenu par mixage d' au moins deux signaux sources, comprenant une valeur tatouée d'une grandeur caractéristique d'un signal source ou du mixage.
Il est également proposé un support d'information, notamment compact-disc audio, comprenant ledit signal mixé.
L 'invention sera mieux comprise à l'étude d'un mode de réalisation particulier, pris à titre d'exemple nullement limitatif et illustré par les dessins annexés, sur lesquels :
-la figure 1 représente schématiquement un premier mode de réalisation d'un dispositif de formation d'un signal mixé selon l' invention ;
- la figure 2 représente schématiquement un premier mode de réalisation d'un dispositif de séparation selon l'invention ;
-la figure 3 représente schématiquement un deuxième mode de réalisation d'un dispositif de formation d'un signal mixé selon l' invention ;
- la figure 4 représente schématiquement un deuxième mode de réalisation d'un dispositif de séparation selon l'invention ;
-la figure 5 est un organigramme d'un procédé de formation d'un signal mixé selon l'invention ;
- la figure 6 est un organigramme d'un procédé de tatouage, et
- la figure 7 est un organigramme d'un procédé de séparation selon l' invention.
Sur la figure 1 , on a représenté schématiquement un premier mode de réalisation de dispositif de formation 1 d'un signal mixé. Le dispositif de formation 1 reçoit en entrée les signaux sources S i et S2, et délivre un signal mixé Sout- On a limité ici, à des fins de 13
simplification, le nombre de signaux sources à deux. Cependant, on comprendra que le nombre de signaux sources peut être beaucoup plus élevé. Par ailleurs, on considère dans la suite de la description, que les signaux sont des signaux audio . Le dispositif de formation 1 a pour but de délivrer un signal mixé Sout formé à partir des signaux sources S 1 ,
S2 et comprenant la valeur tatouée d'une grandeur caractéristique d' au moins un des signaux sources.
Le dispositif comprend un moyen de mixage 2. Le moyen de mixage reçoit également en entrée les signaux sources S i et S2, et délivre en sortie un signal mixé initial Smix résultant d'une combinaison des signaux sources. En particulier, le mixage peut consister en une simple sommation. Il peut aussi s ' agir d'une sommation dont les coefficients affectés à chaque signal source varient dans le temps, ou bien encore d'une sommation associée à un ou plusieurs filtres.
Selon ce mode de réalisation, le signal mixé Sout comprend la valeur tatouée d'une grandeur caractéristique d' au moins un des signaux sources S 1 , S2. On considère dans la suite de la description que le signal mixé Sout comprend les valeurs tatouées d'une grandeur caractéristique de chaque signal source.
Le dispositif de formation 1 comprend ainsi un moyen 3 de détermination d'une grandeur caractéristique de signal. Le moyen 3 de détermination reçoit en entrée les signaux sources pour lesquels on souhaite déterminer la valeur de la grandeur caractéristique, dans le cas présent les deux signaux S i et S2.
On choisit, dans la suite de la description, un moyen de détermination 3 capable de déterminer, comme grandeur caractéristique, la répartition spectro-temporelle de l' énergie du signal considéré. Le moyen de détermination 3 comprend ainsi un moyen de transformation 4 du signal source, de manière à obtenir la représentation dans un plan temps-fréquence du signal. La transformation en temps-fréquence du signal peut être effectuée par décomposition en un ensemble de coefficients MDCT (en anglais : « Modified Discrète Cosine Transform »), ou bien encore par une 14
transformée de Fourier à court-terme. On considérera dans la suite de la description, comme moyen de transformation 4, un moyen de décomposition du signal source en un ensemble de coefficients MDCT. On obtient alors une représentation du signal source sous forme matricielle. C ' est à partir de cette représentation temps-fréquence que va être déterminée la valeur de la grandeur caractéristique du signal source. En particulier, le moyen de détermination 3 comprend un moyen de détection 5 et un moyen d' évaluation 6 permettant de caractériser la matrice obtenue avec une grandeur W. Le moyen de détection 5 peut par exemple, pour chaque signal source S 1 , S2, regrouper les coefficients MDCT de la représentation temps-fréquence matricielle, en groupes de coefficients adjacents appelés, ci-après, molécules. L ' ensemble des molécules détectées par le moyen 5 permet de retrouver la représentation matricielle du signal source.
Le moyen d' évaluation 6 permet de déterminer la grandeur caractéristique W1 , W2, pour chaque signal source, à partir de l'ensemble de ses molécules. En particulier, une valeur de cette grandeur peut être déterminée pour chaque molécule de chaque signal source. Cette valeur caractérise alors l' énergie du signal source dans la zone temps-fréquence couverte par la molécule.
On obtient ainsi, en sortie du moyen d' évaluation 6 et donc du moyen de détermination 3 , une valeur Wi d'une grandeur caractéristique du signal source S 1 , et une valeur W2 d'une grandeur caractéristique du signal source S2. Les valeurs Wi et W2 vont être tatouées dans un premier temps sur le signal mixé initial Smix pour former le signal mixé Sout, puis vont être utilisées dans un deuxième temps pour séparer les signaux sources S 1 , S2 du signal mixé Sout-
Le dispositif de formation 1 comprend également un moyen de tatouage 7. Le moyen de tatouage 7 reçoit en entrée le signal mixé Smix et les valeurs W1 , W2 des grandeurs caractéristiques des signaux sources S 1 , S2. Afin d' améliorer le tatouage et la récupération des valeurs tatouées, le moyen de tatouage 7 peut comprendre un moyen de transformation 8 permettant de décomposer le signal mixé initial Smix 15
selon la même représentation temps-fréquence MDCT que celle utilisée pour décomposer les signaux sources S i et S2.
Le signal mixé initial décomposé est alors transmis à un premier moyen de quantification 9. Le premier moyen de quantification 9 permet de quantifier les coefficients MDCT, c' est-à- dire la représentation temps-fréquence matricielle du signal initial mixé, avec une première résolution choisie de manière à restituer le signal avec la qualité voulue. La première résolution consiste à quantifier les coefficients MDCT du signal mixé initial avec un intervalle minimum entre deux valeurs. L 'intervalle minimum est choisi en fonction de la perception de la quantification. Dans le cas de signaux audio, si l' écart minimum entre deux valeurs est trop grand, le signal mixé quantifié sera perçu différemment par l'oreille humaine que le signal mixé initial. Par contre, si l' écart minimum entre deux valeurs est suffisamment petit, l'oreille humaine ne pourra pas distinguer de différence entre le signal mixé quantifié le signal mixé initial.
En revanche, comme le tatouage va être inséré au sein des intervalles de première quantification, ces intervalles doivent être également choisis suffisamment larges pour pouvoir y insérer le plus d'informations tatouées.
Les coefficients MDCT quantifiés sont ensuite regroupés en molécules par un moyen de détection 10. Le groupement en molécules des coefficients MDCT permet ici d'obtenir un support élémentaire pour le tatouage sur lequel il est possible d' encoder une quantité d'information significativement plus importante que sur un seul coefficient MDCT. C ' est donc sur les molécules du signal mixé quantifié que vont être tatouées les valeurs W1 , W2 des grandeurs caractéristiques des molécules des signaux sources. II est notamment possible de choisir un groupement en molécules des coefficients MDCT du signal mixé initial, analogue au groupement obtenu avec les coefficients MDCT des signaux sources, c' est-à-dire que les moyens de détection 5 et 10 peuvent être analogues. Dans ce cas, si les valeurs W1 , W2 représentent l' énergie 16
d'une molécule particulière de chaque signal source, ces valeurs pourront être tatouées sur la molécule du signal mixé initial correspondante (c ' est-à-dire couvrant la même zone du plan temps- fréquence). De plus, les valeurs W1 , W2 pourront dans ce cas représenter l'énergie relative de chacune des molécules des signaux sources par rapport à la molécule correspondante du signal mixé, c' est-à-dire un rapport d'énergie. La valeur de l'énergie des molécules de signal mixé est alors transmise par le moyen de détection 10 au moyen d' évaluation 6 afin que celui-ci puisse calculer le rapport d' énergie. D ' autres informations utiles à la séparation peuvent être aussi encodées selon la place disponible, par exemple la « forme » des molécules des signaux sources, c' est-à-dire l' arrangement plus ou moins précis des valeurs des coefficients MDCT au sein d'une molécule. Le moyen de tatouage 7 comprend alors un deuxième moyen de quantification 1 1 qui reçoit les coefficients MDCT quantifiés et groupés en molécules du signal mixé et les valeurs W1 , W2. Le deuxième moyen de quantification 1 1 permet de quantifier la représentation matricielle du signal mixé avec une deuxième résolution choisie de manière à pouvoir être détectée lors de la séparation des signaux sources. La deuxième résolution consiste à quantifier l' intervalle minimum de la première quantification, avec un deuxième intervalle minimum, c 'est-à-dire consiste à introduire, dans les niveaux de première quantification, des sur-niveaux. Le deuxième intervalle minimum est choisi en fonction de la détection lors de la séparation de sources. Si le deuxième intervalle minimum est trop petit, la valeur tatouée lors de la deuxième quantification ne pourra pas être détectée correctement.
En revanche, comme le tatouage va être codé par les sur- niveaux de la deuxième quantification, les intervalles entre ces surniveaux doivent être également choisis suffisamment petits pour pouvoir tatouer le plus d'informations possible. La quantité d'informations pouvant être tatouées dépend donc de la première et de la deuxième quantification. 17
Le principe du tatouage est donc une modification des niveaux de quantification des coefficients MDCT composant la molécule de signal mixé. La modification des niveaux de quantification n' est pas ou peu audible car elle est effectuée dans l'intervalle déterminé de première quantification, mais reste détectable pour la séparation de sources car effectuée avec un intervalle déterminé de deuxième quantification.
Enfin, le moyen de tatouage 7 comprend un moyen de transformation inverse 12. Le moyen de transformation inverse 12 effectue la transformation inverse de celle effectuée par le moyen de transformation 4. Dans le cas présent, le moyen 12 effectue une transformation par décomposition MDCT inverse (IMDCT). On obtient alors une représentation temporelle du signal mixé tatoué, qui constitue le signal mixé Sout- On obtient donc en sortie du dispositif de formation 1 un signal mixé de sortie Sout avec la même représentation temporelle que le signal mixé initial Smix, mais comprenant un tatouage peu ou pas audible et détectable pour la séparation de source. Le signal mixé Sout peut ensuite être transmis ou appliqué sur un support d' enregistrement. Dans le cas par exemple d'un compact-disc, le signal mixé Sout subit d' abord une quantification scalaire uniforme sur 16 bits (qui correspond au format CD audio), puis est appliqué sur compact-disc. La quantification scalaire uniforme sur 16 bits est un exemple de traitement limitant la détection de la deuxième quantification effectuée par le moyen de tatouage. On obtient ainsi, en sortie du dispositif de formation 1 , un signal mixé Sout obtenu par mixage d' au moins deux signaux sources, et comprenant une valeur tatouée d'une grandeur caractéristique d' au moins un des signaux sources. Le signal mixé Sout présentant la même représentation temporelle que le signal mixé initial Smix, et les valeurs de grandeurs caractéristiques étant tatouées de manière à être peu ou pas audibles, un dispositif classique pourra traiter le signal mixé Sout comme n'importe quel signal mixé, tandis qu'un dispositif de séparation selon l' invention, tel que décrit plus bas, pourra, en 18
complément, séparer au moins partiellement un des signaux sources du signal mixé Sout-
Sur la figure 2, on a représenté schématiquement un premier mode de réalisation de dispositif de séparation d'un signal source contenu dans un signal mixé Sout tel que défini au paragraphe précédent. Le dispositif de séparation 13 reçoit en entrée le signal mixé SOut, et délivre, dans le cas présent, deux signaux sources séparés au moins partiellement S ' i et S '2. Le dispositif de séparation 13 a pour but de délivrer, au moins partiellement, un ou plusieurs signaux sources contenus dans un signal mixé Sout qui comprend une valeur tatouée d'une grandeur caractéristique.
Le dispositif de séparation 13 comprend un moyen 14 de détermination des valeurs tatouées W1 , W2 des grandeurs caractéristiques des signaux à séparer. Le moyen 14 reçoit en entrée le signal mixé Sout et délivre en sortie les valeurs tatouées W1 , W2. Dans le cas présent, le moyen 14 délivre également le ou les coefficients MDCT du signal mixé Sout-
Le moyen 14 de détermination comprend un moyen de transformation 15 analogue au moyen 4 décrit à la figure 1. Le moyen de transformation 15 permet de décomposer le signal mixé Sout en matrice de coefficients MDCT.
Les coefficients MDCT sont ensuite transmis à un premier moyen de quantification 16 analogue au moyen 9 décrit à la figure 1. Le moyen de quantification 16 permet de quantifier les coefficients MDCT du signal Sout avec une première résolution.
Les coefficients quantifiés sont ensuite transmis à un moyen de détection 17 analogue au moyen 10 décrit à la figure 1. Le moyen de détection 17 regroupe les coefficients MDCT quantifiés en molécules, et en particulier regroupe les coefficients selon les mêmes molécules que celles réalisées par le moyen 10 décrit précédemment.
Il est alors possible de détecter et de déterminer les valeurs tatouées sur lesdites molécules. Ainsi, les molécules formées par le moyen 17 sont transmises à un deuxième moyen de quantification 18 qui effectue une quantification des coefficients composant ces 19
molécules avec une deuxième résolution plus élevée. La deuxième résolution permet notamment de déterminer les valeurs tatouées W1 , W2, par lecture des niveaux de deuxième quantification des coefficients et décodage des valeurs associées à ces niveaux. Le moyen de détermination 14 délivre donc, en sortie, les valeurs W1 , W2 des grandeurs caractéristiques, qui peuvent être utilisées pour la séparation de sources.
Le dispositif de séparation 13 comprend aussi un moyen de traitement 19 recevant les valeurs de grandeurs caractéristiques issues du moyen de détermination 14, ainsi que les coefficients groupés en molécules déterminés aussi par le moyen 14.
Le moyen 19 de traitement comprend un premier moyen de séparation 20 capable de séparer, au moins partiellement, les signaux sources du signal mixé. En particulier, les valeurs des grandeurs caractéristiques sont utilisées, sur les coefficients MDCT groupés en molécules, pour améliorer la séparation des signaux sources effectuée par le moyen de séparation 20. Dans la mesure où les grandeurs caractéristiques ont été déterminées à partir des coefficients MDCT des signaux sources, c' est à partir des coefficients MDCT du signal mixé SOut qu'il va être possible de retrouver les coefficients MDCT des signaux sources, et donc qu'on opère une séparation des signaux sources. Par exemple, chaque molécule de chaque signal source à séparer est estimée par la molécule du signal mixé affectée du niveau d' énergie relative de la molécule du signal source en question (valeur de la grandeur caractéristique) déterminée lors de la détection de la valeur tatouée. Eventuellement, les autres informations tatouées peuvent intervenir pour affiner l' estimation de la mo lécule du signal source, notamment si on a également encodé des informations caractérisant la forme de la molécule du signal source. Les coefficients MDCT séparés par le moyen 20 de séparation sont alors transmis à un moyen de transformation inverse 21 analogue au moyen 12 décrit sur la figure 1. Le moyen 21 permet de transformer les coefficients MDCT séparés en signaux temporels S ' i et S '2 correspondant, au moins partiellement, aux signaux sources S 1 , S2. 20
Sur la figure 3 , on a représenté un deuxième mode de réalisation d'un dispositif de formation 22 selon l'invention. Dans ce mode de réalisation, les éléments identiques à ceux du premier mode de réalisation, sont identifiés avec les mêmes références. Le dispositif de formation 22 reçoit en entrée au moins deux signaux sources S 1 , S2 et fournit, en sortie, deux signaux mixés Souti , Sout2 différents, qui correspondent à des signaux stéréo.
Le dispositif 22 comprend un moyen de mixage 23 recevant les deux signaux sources S 1 , S2 et fournissant un premier signal mixé initial Smixi et un deuxième signal mixé initial SmiX2. En particulier, le moyen de mixage 23 effectue des opérations de mixage différentes pour former les deux signaux Smixi et SmiX2, afin d'obtenir deux voies stéréo conférant un effet de spatialisation du son. Cet effet de spatialisation passe notamment par l' introduction de facteurs multiplicatifs et de retards différents sur les deux voies. Les opérations de mixage sur les deux signaux sources peuvent alors être représentées sous forme d'une matrice de mixage dans le domaine fréquentiel, après application d'une transformée en fréquence des signaux. L 'opération de mixage consiste alors en une multiplication d'un vecteur signal source (comprenant comme composantes, les deux signaux sources) par la matrice de mixage, pour obtenir un vecteur signaux mixés initiaux (comprenant comme composantes, les deux signaux mixés initiaux). Dans le cas considéré, la matrice de mixage comprend quatre composantes qui représentent chacune, pour chaque valeur de la fréquence, la contribution d'un des signaux sources dans un des signaux mixés initiaux. Ces composantes peuvent varier dans le temps.
Le dispositif 22 comprend un premier moyen de détermination 24. Le premier moyen de détermination 24 détermine ici les composantes de la matrice de mixage correspondant au signal mixé
Smixl . Ces composantes sont les paramètres de mixage permettant d'obtenir le signal mixé initial Smixi à partir des signaux sources S i et S2. Ces composantes représentent donc une valeur Wi d'une grandeur 21
caractéristique du mixage conduisant au signal mixé S0Ut1 , à savoir les paramètres de mixage qui permettent d'obtenir le signal mixé Souti -
Le dispositif 22 comprend un deuxième moyen de détermination 25. Le deuxième moyen de détermination 25 détermine ici les composantes de la matrice de mixage correspondant au signal mixé SmiX2. Ces composantes sont les paramètres de mixage permettant d'obtenir le signal mixé initial SmiX2 à partir des signaux sources S i et S2. Ces composantes représentent donc une valeur W2 d'une grandeur caractéristique du mixage conduisant au signal mixé Sout2, à savoir les paramètres de mixage qui permettent d'obtenir le signal mixé Sout2-
Le dispositif de formation 22 comprend également un moyen de tatouage 26. Le moyen de tatouage 26 reçoit en entrées les signaux mixés initiaux Smixl et SmiX2, et les valeurs W1 , W2, et fournit en sortie les signaux mixés S0Ut1 et Sout2- Le moyen de tatouage 26 comprend successivement un moyen de transformation 8, un premier moyen de quantification 9 et un moyen de détection 10. Les signaux mixés initiaux sont traités successivement par ces moyens afin d'obtenir les coefficients MDCT groupés en molécules, pour chacun des deux signaux Smixl et Smix2. Le moyen de tatouage 22 comprend un deuxième moyen de quantification 1 1 recevant les coefficients MDCT groupés en molécules et les valeurs W1 , W2. Le moyen de tatouage 22 permet d'insérer les valeurs Wi et W2 dans les coefficients MDCT du signal Smixi et dans les coefficients MDCT du signal Smix2. Ainsi, les signaux mixés Souti , Sout2 sont tatoués avec les valeurs de grandeur caractéristique leur correspondant. Les deux signaux mixés étant différents, il est alors possible d' exploiter cette différence, et d' exploiter la connaissance des paramètres de mixage portés par Wi et W2, pour séparer, au moins partiellement, les signaux sources à partir
Figure imgf000024_0001
On obtient ainsi, en sortie du dispositif de formation 22, des signaux mixés Souti , Sout2 obtenus par mixage d' au moins deux signaux sources, et comprenant chacun une valeur tatouée d'une grandeur caractéristique desdits signaux mixés, à savoir les composantes de la 22
matrice de mixage utilisées pour former lesdits signaux mixés. Les signaux mixés Souti , Sout2 se présentant avec la même représentation temporelle que les signaux mixés initiaux Smixl , SmiX2, et les valeurs de grandeurs caractéristiques étant tatouées de manière à être peu ou pas audibles, un dispositif classique pourra traiter les signaux mixés S0Ut1 ,
Sout2 comme n'importe quels signaux mixés, notamment stéréo, tandis qu'un dispositif de séparation selon l'invention, tel que décrit plus bas, pourra, en complément, séparer au moins partiellement un des signaux sources à partir des signaux mixés Souti , Sout2- Sur la figure 4, on a représenté un deuxième mode de réalisation d'un dispositif de séparation 27 selon l' invention. Dans ce mode de réalisation, les éléments identiques à ceux du premier mode de réalisation, sont identifiés avec les mêmes références. Le dispositif de séparation 27 reçoit en entrée deux signaux mixés S0Ut1 , Sout2 et fournit, en sortie, deux signaux S ' i , S '2 correspondant, au moins en partie, aux signaux sources S i , S2.
Le dispositif de séparation 27 comprend un moyen de détermination de la valeur tatouée 28. Le moyen 28 reçoit en entrée les signaux Souti et Sout2, et fournit en sortie les valeurs tatouées Wi , W2. Le moyen 28 comprend successivement un moyen de transformation
15 , un moyen de première quantification 16 et un moyen de détection 17. Les signaux mixés Souti , Sout2 sont traités séparément par les moyens 15 , 16 et 17 de manière à obtenir les coefficients MDCT groupés de chacun des signaux mixés. Le moyen 28 comprend enfin un moyen de deuxième quantification 29. Le moyen 29 de deuxième quantification permet de déterminer la valeur tatouée Wi dans le signal mixé Souti , et la valeur tatouée W2 dans le signal mixé Sout2- Les valeurs Wi , W2 et les signaux mixés SOuti et Sout2 sont transmis à un moyen de traitement 3 1 comprenant un moyen de séparation 32.
Le moyen de séparation 32 permet de retrouver, au moins partiellement, les signaux sources à partir des valeurs Wi , W2 et des signaux mixés Souti et Sout2- En effet, même si la matrice de mixage n' est pas inversible lorsqu'on a plus de deux signaux sources, il est 23
possible, sous certaines conditions, d' exploiter la connaissance de la matrice de mixage utilisée par le moyen de mixage 23 , pour obtenir, à partir du vecteur des signaux mixés, une estimation du vecteur des signaux sources. En particulier, le moyen de séparation 32 peut déterminer la matrice de mixage grâce aux valeurs Wi et W2, et la connaissance de cette matrice de mixage peut permettre au moyen de séparation 32 de mieux séparer, même partiellement, les signaux sources, par rapport à la même tâche sans connaissance de cette matrice de mixage. Sur la figure 5 , on a représenté un organigramme représentant les différentes étapes du procédé de formation d'un signal mixé selon l' invention.
Le procédé comprend une première étape 33 au cours de laquelle la valeur W d'une grandeur caractéristique est déterminée. Puis, au cours d'une étape 34, on effectue le mixage des signaux sources pour obtenir un signal mixé initial. Enfin, à l' étape 34, la valeur W de la grandeur caractéristique est tatouée sur le signal mixé initial afin d'obtenir le signal mixé.
Il est également possible d' effectuer l' étape 35 de tatouage avant l' étape 34 de mixage. Dans ce cas, la valeur W de la grandeur caractéristique est tatouée sur au moins un des signaux sources, et l' étape de mixage permet d'obtenir le signal mixé.
La figure 6 représente un organigramme des différentes étapes d'un mode de mise en œuvre de l' étape de tatouage 35. Le tatouage commence par une étape 36 au cours de laquelle le signal mixé initial est décomposé en coefficients MDCT. Les coefficients MDCT sont alors soumis à une première quantification, lors de l' étape 37, puis groupés en molécules lors de l' étape 38. On peut noter cependant que les étapes 37 et 38 peuvent être également inversées.
Les coefficients groupés subissent ensuite une deuxième quantification, lors de l' étape 39, au cours de laquelle la valeur W de la grandeur caractéristique est insérée dans le signal mixé. 24
Enfin, les coefficients MDCT comprenant la valeur W tatouée subissent une décomposition inverse IMDCT, afin d'obtenir, en sortie, la représentation temporelle du signal mixé.
Sur la figure 7, on a représenté un organigramme représentant les différentes étapes du procédé de séparation selon l'invention.
Le procédé comprend une première étape 41 au cours de laquelle le signal mixé est décomposé en coefficients MDCT. Les coefficients MDCT sont alors quantifiés une première fois, lors de l'étape 42, et groupés en molécules lors de l'étape 43. Les coefficients MDCT groupés subissent alors une deuxième quantification permettant de déterminer la valeur W tatouée sur le signal mixé. Enfin, à partir de la valeur W qui a été déterminée à l' étape 44, la séparation, au moins partielle, d'un signal source est effectuée à l'étape 45. Dans le cas de signaux audios, il est ainsi possible d' effectuer un certain nombre de contrôles majeurs en écoute audio (volume, tonalité, effets) de façon indépendante sur les différents éléments de la scène sonore (instruments et voix obtenus par le dispositif de séparation). De plus, un des avantages important de la technique proposée est d' être tout à fait compatible avec le format CD-audio : un
CD tatoué avec le procédé proposé peut-être utilisé tel quel sur n'importe quel lecteur conventionnel (sans bénéficier des fonctionnalités de séparation) sans aucune distinction avec un CD classique grâce à un tatouage inaudible ou quasi-inaudible. Alternativement, il faut bien sûr un lecteur spécifique intégrant le procédé de séparation selon l'invention pour pouvoir effectuer les contrôles en écoute audio .
D ' autres applications concernant l'extraction et le rehaussement de la parole dans des systèmes de communication peuvent être envisagées. On peut par exemple tatouer le signal de parole au niveau de l 'émetteur (lorsqu'il est produit dans de bonnes conditions) avant sa transmission dans un canal pouvant le dégrader (ou le mélanger à d'autres signaux), pour pouvoir récupérer ce signal 25
de parole, à partir de sa forme dégradée ou mélangée, au niveau du récepteur.

Claims

26REVENDICATIONS
1. Procédé de formation d'un ou plusieurs signaux mixés (Sout) à partir d'au moins deux signaux sources numériques (S 1 , S2), notamment audio, dans lequel le ou les signaux mixés sont formés par mixage des signaux sources, caractérisé en ce qu'une grandeur caractéristique d'un signal source (S 1 , S2) ou du mixage est déterminée et en ce que la valeur (W1 , W2) de ladite grandeur caractéristique est tatouée sur au moins un des signaux (S 1 , S2, Sout).
2. Procédé de formation selon la revendication 1 dans lequel la grandeur caractéristique représente la répartition énergétique temporelle, spectrale ou spectro-temporelle d'au moins un signal source (S 1 , S2).
3. Procédé de formation selon la revendication 1 dans lequel la grandeur caractéristique représente la contribution spectrale en amplitude ou énergétique, à au moins un instant déterminé, d'au moins un des signaux sources (S 1 , S2) dans le ou les signaux mixés (Sout).
4. Procédé de formation selon la revendication 1 dans lequel la grandeur caractéristique représente les paramètres de mixage des signaux sources (S 1 , S2) pour obtenir le ou les signaux mixés.
5. Procédé de formation selon l'une des revendications 1 à 4 dans lequel la valeur (W1 , W2) de ladite grandeur caractéristique est tatouée sur le ou les signaux sources avant mixage et/ou sur le ou les signaux mixés après mixage.
6. Procédé de séparation destiné à séparer, au moins partiellement, au moins un signal source numérique contenu dans un ou plusieurs signaux mixés obtenus selon l'une des revendications 1 à 5 , dans lequel on détermine la valeur tatouée (W1 , W2) de la grandeur caractéristique du signal source ou du mixage, puis on traite le ou les signaux mixés en fonction de ladite valeur de manière à obtenir, au moins partiellement, ledit signal source (S ' i , S '2).
7. Dispositif de formation d'un ou plusieurs signaux mixés à partir d'au moins deux signaux sources numériques, notamment audio, comprenant un moyen de mixage (2) desdits signaux sources pour 27
former le ou les signaux mixés, caractérisé en ce que le dispositif comprend également un moyen de détermination (3) d'une grandeur caractéristique d'un signal source ou du mixage, et un moyen de tatouage (7) de la valeur de ladite grandeur caractéristique sur au moins un des signaux.
8. Dispositif de formation selon la revendication 7 dans lequel le moyen de tatouage (7) est monté en amont du moyen de mixage (2) et est capable de tatouer la valeur de la grandeur caractéristique sur le ou les signaux sources.
9. Dispositif de formation selon la revendication 7 dans lequel le moyen de tatouage est monté en aval du moyen de mixage et est capable de tatouer la valeur de la grandeur caractéristique sur le ou les signaux mixés.
10. Dispositif de séparation destiné à séparer, au moins partiellement, au moins un signal source numérique contenu dans un ou plusieurs signaux mixés sortant du dispositif selon l'une des revendications 7 à 9, comprenant un moyen de détermination ( 14) de la valeur tatouée de la grandeur caractéristique du signal source ou du mixage, et un moyen de traitement ( 19) du ou des signaux mixés en fonction de ladite valeur apte à obtenir, au moins partiellement, ledit signal source.
1 1. Signal mixé (Sout), notamment audio, obtenu par mixage d'au moins deux signaux sources, comprenant une valeur tatouée d'une grandeur caractéristique d'un signal source ou du mixage.
12. Support d'information, notamment compact-disc audio , comprenant le signal mixé (Sout) selon la revendication précédente.
PCT/FR2010/050583 2009-04-10 2010-03-30 Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant WO2010116068A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/262,428 US20120203362A1 (en) 2009-04-10 2010-03-30 Method and device for forming a mixed signal, method and device for separating signals, and corresponding signal
JP2012504047A JP2012523579A (ja) 2009-04-10 2010-03-30 混合信号を形成する方法及び装置、信号を分離する方法及び装置、並びに対応する信号
EP10717676A EP2417597A1 (fr) 2009-04-10 2010-03-30 Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0952397A FR2944403B1 (fr) 2009-04-10 2009-04-10 Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant
FR0952397 2009-04-10

Publications (1)

Publication Number Publication Date
WO2010116068A1 true WO2010116068A1 (fr) 2010-10-14

Family

ID=41319715

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2010/050583 WO2010116068A1 (fr) 2009-04-10 2010-03-30 Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant

Country Status (6)

Country Link
US (1) US20120203362A1 (fr)
EP (1) EP2417597A1 (fr)
JP (1) JP2012523579A (fr)
KR (1) KR20120006050A (fr)
FR (1) FR2944403B1 (fr)
WO (1) WO2010116068A1 (fr)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9191516B2 (en) * 2013-02-20 2015-11-17 Qualcomm Incorporated Teleconferencing using steganographically-embedded audio data
EP4246513A3 (fr) 2013-12-23 2023-12-13 Wilus Institute of Standards and Technology Inc. Procédé de traitement de signal audio, dispositif de paramétrage associé et dispositif de traitement de signal audio
WO2015152665A1 (fr) 2014-04-02 2015-10-08 주식회사 윌러스표준기술연구소 Procédé et dispositif de traitement de signal audio
FR3050277B1 (fr) 2016-04-14 2018-04-13 Commissariat A L'energie Atomique Et Aux Energies Alternatives Systeme et procede de detection d'un arc electrique
CN110087098B (zh) 2018-01-26 2021-12-03 阿里巴巴(中国)有限公司 水印处理方法及装置
JP2023183660A (ja) * 2022-06-16 2023-12-28 ヤマハ株式会社 パラメータ推定方法、音処理装置、および音処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US20090055196A1 (en) * 2005-05-26 2009-02-26 Lg Electronics Method of Encoding and Decoding an Audio Signal

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2038878T3 (pl) * 2006-07-07 2012-06-29 Fraunhofer Ges Forschung Urządzenie i sposób do łączenia wielu zakodowanych parametrycznie źródeł audio

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US20090055196A1 (en) * 2005-05-26 2009-02-26 Lg Electronics Method of Encoding and Decoding an Audio Signal

Non-Patent Citations (25)

* Cited by examiner, † Cited by third party
Title
B. CHEN; C.-E. W. SUNDBERG: "Digital audio broadcasting in the fm band by means of contiguous band insertion and precanceling techniques", IEEE TRANSACTIONS ON COMMUNICATIONS, vol. 48, no. 10, 2000, pages 1634 - 1637, XP000969616, DOI: doi:10.1109/26.871388
B. CHEN; G. WORNELL: "Quantization index modulation : a class of provably good methods for digital watermarking and information embedding", IEEE TRANS. INFORMATION THEORY, vol. 47, 2001, pages 1423 - 1443
COX, I. J.; KILIAN, J.; LEIGHTON, F. T.; SHAMOON, T.: "Secure spread spectrum watermarking for multimedia", IEEE TRANSACTIONS ON IMAGE PROCESSING, vol. 6, no. 12, 1997, pages 1673 - 1687, XP000199950, DOI: doi:10.1109/83.650120
D. GODSMARK; G.J.BROWN: "A blackboard architecture for computational auditory scene analysis", SPEECH COMMUNICATION, vol. 27, no. 3, 1999, pages 351 - 366, XP004163259, DOI: doi:10.1016/S0167-6393(98)00082-X
D.P.W. ELLIS: "Using knowledge to organize sound: The prediction-driven approach to computational auditory scene analysis, and its application to speechlnon-speech mixture", SPEECH COMMUNICATION, vol. 27, no. 3, 1999, pages 281 - 298
ENFIN, Y.; W. LIU: "Sound source segregation assisted by audio watermarking", IEEE, INT. CONF. MULTIMEDIA AND EXPO., 2007, pages 200 - 203, XP031123596
I. J. COX; M. L. MILLER; A. L. MCKELLIPS: "Watermarking as communications with side information", IEEE PROC., vol. 87, no. 7, 1999, pages 1127 - 1141, XP000914457, DOI: doi:10.1109/5.771068
K.I. MOLLA; K. HIROSE: "Single-Mixture audio source separation by subspace decomposition of Hilbert spectrum", IEEE TRANS. AUDIO, SPEECH, & LANGUAGE PROC., vol. 15, no. 3, 2007, XP011165551, DOI: doi:10.1109/TASL.2006.885254
L. BENAROYA: "Représentations parcimonieuses pour la séparation de sources avec un seul capteur", PROC. GRETSI, 2001
L. BENAROYA; F. BIMBOT; R. GRIBONVAL: "Audio sources separation with a single sensor", IEEE TRANS. AUDIO, SPEECH, & LANGUAGE PROC., vol. 14, no. 1, 2006
M. COSTA: "Writing on dirty paper", IEEE TRANS. INFORMATION THEORY, vol. 29, 1983, pages 439 - 441
M.A. CASEY; A. WESTNER: "Separation of mixed audio sources by independent subspace analysis", PROC. INT. COMPUTER MUSIC CONF., 2000
MATHIEU PARVAIX ET AL: "A watermarking-based method for single-channel audio source separation", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2009. ICASSP 2009. IEEE INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 19 April 2009 (2009-04-19), pages 101 - 104, XP031459176, ISBN: 978-1-4244-2353-8 *
MATHIEU PARVAIX ET AL: "An audio watermarking method based on molecular matching pursuit", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2008. ICASSP 2008. IEEE INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 31 March 2008 (2008-03-31), pages 1721 - 1724, XP031250903, ISBN: 978-1-4244-1483-3 *
N. CHO; Y. SHIU; C.-C. J. KUO: "Audio source separation with matching pursuit and content-adaptative dictionaries", IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS, 2007
P. BOURCET; D. MASSE; B. JAHAN: "Système de diffusion de données", BREVET D'INVENTION 95 06727, 1995
P.J. WOLFE; S.J. GODSILL: "A Gabor regression scheme for audio signal analysis", PROC. IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS, 2003, pages 103 - 106, XP010696463, DOI: doi:10.1109/ASPAA.2003.1285830
R. GARCIA: "Digital watermarking of audio signals using psychoacoustic auditory model and spread spectrum theory", 107TH CONVENTION OF AUDIO ENGINEERING SOCIETY (AES), 1999
R. GRIBONVAL; E. BACRY: "Harmonic Decomposition of Audio Signals With Matching Pursuit", IEEE TRANS. SIGNAL PROC., vol. 5 1, no. 1, 2003, pages 101 - 112
RYUKI TACHIBANA: "Audio watermarking for live performance", SPIE ELECTRONIC IMAGING : SECURITY AND WATERMARKING OF MULTIMEDIA CONTENT V, vol. 5020, 2003, pages 32 - 43, XP002442545, DOI: doi:10.1117/12.476832
S.D.TEDDY: "Model-based approach to separating instrumental music from single track recordings", INT. CONF. CONTROL, AUTOMATION, ROBOTICS AND VISION, KUNMING, CHINA, 2004
See also references of EP2417597A1
T. KINOSHITA; S. SAKAI; H. TANAKA: "Musical sound source identification based on frequency component adaptation", PROC. IJCAI WORKSHOP ON CASA, 1999, pages 18 - 24
T. NAKAMURA; R. TACHIBANA; S. KOBAYASHI: "Automatic music monitoring and boundary detection for broadcast using audio watermarking", SPIE ELECTRONIC IMAGING : SECURITY AND WATERMARKING OF MULTIMEDIA CONTENT IV, vol. 4675, 2002, pages 170 - 180, XP002599365
YI-WEN LIU ED - ANONYMOUS: "Sound Source Segregation Assisted by Audio Watermarking", MULTIMEDIA AND EXPO, 2007 IEEE INTERNATIONAL CONFERENCE ON, IEEE, PI, 1 July 2007 (2007-07-01), pages 200 - 203, XP031123596, ISBN: 978-1-4244-1016-3 *

Also Published As

Publication number Publication date
FR2944403A1 (fr) 2010-10-15
JP2012523579A (ja) 2012-10-04
EP2417597A1 (fr) 2012-02-15
US20120203362A1 (en) 2012-08-09
FR2944403B1 (fr) 2017-02-03
KR20120006050A (ko) 2012-01-17

Similar Documents

Publication Publication Date Title
Hua et al. Twenty years of digital audio watermarking—a comprehensive review
Khaldi et al. Audio watermarking via EMD
EP1132895B1 (fr) Procédé de génération d'un filigrane pour des signaux audios
WO2010116068A1 (fr) Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant
Wang et al. EMD and psychoacoustic model based watermarking for audio
Umapathy et al. Audio signal processing using time-frequency approaches: coding, classification, fingerprinting, and watermarking
Kumsawat A genetic algorithm optimization technique for multiwavelet-based digital audio watermarking
JP2014521112A (ja) 入力信号に透かし入れするための量子化インデックス変調の方法および装置
El Hamdouni et al. A blind digital audio watermarking scheme based on EMD and UISA techniques
FR2966277A1 (fr) Procede et dispositif de formation d'un signal mixe numerique audio, procede et dispositif de separation de signaux, et signal correspondant
Lalitha et al. Audio authentication using arnold and discrete cosine transform
US20060168448A1 (en) Raising detectability of additonal data in a media signal having few frequency components
CN108877816B (zh) 基于qmdct系数的aac音频重压缩检测方法
Patel et al. Secure transmission of password using speech watermarking
WO2013053631A1 (fr) Procédé et dispositif pour séparer des signaux par filtrage spatial itératif
EP2901447B1 (fr) Procédé et dispositif pour séparer des signaux par filtrage spatial à variance minimum sous contrainte linéaire
Hu et al. FFT-Based Dual-Mode Blind Watermarking for Hiding Binary Logos and Color Images in Audio
Xu et al. Content-adaptive digital music watermarking based on music structure analysis
Chowdhury et al. A tutorial for audio watermarking in the cepstrum domain
Guerchi et al. Narrowband speech hiding using vector quantization
Gopalan Robust watermarking of music signals by cepstrum modification
Ketcham et al. An algorithm for intelligent audio watermaking using genetic algorithm
CN1930609A (zh) 1位音频文件中插入数字水印的方法
Cichowski et al. Low-level music feature vectors embedded as watermarks
Bellaaj et al. High capacity digital audio watermarking technique in the frequency domain exploiting the properties of a psychoacoustic model

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10717676

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010717676

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2012504047

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20117026796

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13262428

Country of ref document: US