WO2001031629A1 - Dispositif de traitement de signaux et procede associe et support de stockage de programme - Google Patents

Dispositif de traitement de signaux et procede associe et support de stockage de programme Download PDF

Info

Publication number
WO2001031629A1
WO2001031629A1 PCT/JP2000/007593 JP0007593W WO0131629A1 WO 2001031629 A1 WO2001031629 A1 WO 2001031629A1 JP 0007593 W JP0007593 W JP 0007593W WO 0131629 A1 WO0131629 A1 WO 0131629A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
input signal
watermark
digital watermark
signal
Prior art date
Application number
PCT/JP2000/007593
Other languages
English (en)
French (fr)
Inventor
Yuuki Matsumura
Hideo Sato
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to JP2001534134A priority Critical patent/JP4582384B2/ja
Priority to EP00970176A priority patent/EP1202250A4/en
Priority to US09/869,170 priority patent/US7272718B1/en
Publication of WO2001031629A1 publication Critical patent/WO2001031629A1/ja

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00086Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00086Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
    • G11B20/00884Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving a watermark, i.e. a barely perceptible transformation of the original data which can nevertheless be recognised by an algorithm
    • G11B20/00891Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving a watermark, i.e. a barely perceptible transformation of the original data which can nevertheless be recognised by an algorithm embedded in audio data

Definitions

  • the present invention relates to a signal processing device and method, and a program storage medium, and is suitably applied to, for example, a case where copyright of music data or the like is protected.
  • the computer user can create a music software in which favorite music is recorded with high sound quality at will. it can.
  • the present invention has been made in consideration of the above points, and for example, a signal processing apparatus and a method thereof capable of effectively suppressing copyright infringement of contents distributed to an unspecified number of terminal devices via a network It also proposes a program storage medium.
  • the input signal when the input signal is compressed Psychoacoustic analysis of the remaining state of the force signal corresponding to the compression process, outputs the analysis result as psychoacoustic coded information, and superimposes electronic watermarking information on the input signal based on the psychoacoustic coded information
  • digital watermark information with high compression resistance and digital watermark information with low compression resistance can be easily generated.
  • FIG. 1 is a block diagram showing the overall configuration of a copy control system using a watermark according to the present invention.
  • FIG. 2 is a schematic diagram illustrating an application example of copy control in a copy control system.
  • FIG. 3 is a block diagram illustrating a configuration of a watermark encoder according to an embodiment of the present invention.
  • FIG. 4 is a schematic diagram for explaining the watermark superimposition principle.
  • FIG. 5 is a schematic diagram used to explain the processing of the psychological hearing analysis unit.
  • FIG. 6 is a schematic diagram used to explain the processing of the psychological hearing analysis unit.
  • FIG. 7 is a schematic diagram used for describing psychoacoustic coding.
  • c 9 is a schematic diagram illustrating a Enko one de example of ⁇ O one Tamaku according to the invention is a Furochiya one preparative illustrating a processing procedure of the watermark encoder
  • FIG. 10 is a block diagram showing the configuration of the digital mark decoder.
  • FIG. 11 is a flowchart showing a processing procedure of the watermark decoder.
  • FIG. 12 is a block diagram showing an internal configuration of the computer. BEST MODE FOR CARRYING OUT THE INVENTION
  • reference numeral 10 denotes a content copy control system as a whole.
  • a digital audio signal DA which is an audio source
  • a watermark (electronic watermark information) encoder 1 uses a Robust signal.
  • (Strong) Water mark DC 1 and Fragi 1 e (Weak level) Water mark DC 2 is added to digital audio signal DA and recorded on optical disc 2.
  • R obust water mark DC 1 is composed of information such as the copyright holder of the audio source and whether or not copying is permitted.
  • Fragile water mark DC 2 is composed of information such as a trigger for detecting the compression history. Be composed.
  • R obust watermark DC 1 does not disappear even if it passes through a compression system such as MP3. It is an watermark, and fragile watermark DC 2 is quantized when it passes through a compression system such as MP 3. It is a water mark that disappears due to errors (remains low).
  • the optical discs 2 on which the digital audio signal DA including the Robust watermark DC 1 and the Fragi 1 e-marker DC 2 is recorded for example, MP 3 (MPEG Audio Layer 3)
  • MP 3 MPEG Audio Layer 3
  • the personal computer 5 When the optical disk 2 on which the digital audio signal DA including the water mark DC 2 is recorded and the optical disk 2 circulating without any compression processing is loaded into the personal computer 5, first, the personal computer 5 The input signal is an uncompressed digital audio signal DA or a compressed stream based on an input signal input to a codec (Code and Code) constituting a modem (modulator / demodulator). It determines whether the signal is a signal DS or a compressed stream signal DS encoded according to which compression standard, and selectively switches the switch SW according to the result of the determination.
  • a codec Code and Code
  • the embedded mark information is detected from the input signal of the personal computer 5 by the water mark decoder 6, and the input signal (digital audio signal) to a PD (Potable Device) 8 such as a memory card is detected.
  • Signal DA, compressed stream signal DS, etc. That is, the data-mark decoder 6 detects the robust water mark DC 1 and the Fraggi 1 e data mark DC 2.
  • the L CM (L icensed SDM I (Secure Digital Music Initiative) Compliant Module) 7 is composed of two types of data marks (Ro bust) detected by the watermark decoder 6.
  • the watermark DC 1 and the Fragi 1 e-watermark DC 2) control whether music content is copied to the PD 8.
  • FIG. 2 shows an example in which LCM7 controls whether or not music content is copied to PD 8 using two types of detected watermarks.
  • LCM7 is a Robust data mark DC1. Is detected and the Fragile Watermark DC2 is not detected, it is determined that the music content has a compression history, and copying of the music content to the pD8 is prohibited.
  • the LCM 7 determines that the music content does not have a compression history, and proceeds to the PD 8 of the music content. Allow copying of.
  • LCM7 does not have information about the copyright holder of the music content and whether or not to permit copying. Copying of the music content to PD 8 is permitted. Further, in the LCM 7, the case where the Robust water mark DC1 is not detected and the Fragile water mark DC2 is not detected is an exception because it is technically impossible.
  • FIG. 3 shows the configuration of the watermark encoder 1.
  • the digital audio signal DA1 which is sequentially input, is analyzed using a psychological auditory model, and a watermark having a R obust watermark superimposition section and a Fragi 1 e watermark superimposition section is performed. Controls the superposition unit 16.
  • the digital audio signal DA 1 is converted to the MDCT (Modified Discrete Cosine Transform:
  • the processing unit 14 generates MDCT coefficients D 14, and outputs this to the watermark superimposition processing unit 16.
  • the water mark superimposition processing section 16 converts the R obust water mark DC 1 and the Fragi 1 e watermark DC 2 into a frequency spectrum obtained by performing MDCT conversion on a time series sample block of the digital audio signal DA 1. Of these, the spectrum is superimposed on the spectrum of the frequency band determined based on the analysis result of the psychological auditory analysis unit 11 described later.
  • the watermark superimposition processing unit 16 is configured to perform a RCT water mark one DC 1 and a Fraggi e water among frequency spectra obtained by performing MDCT conversion on a time-series sample block of the input audio signal DA 1.
  • the spectrum f1 in the frequency band where the single mark DC2 is superimposed is extracted (Fig. 4 (A)).
  • the watermark superimposition processing section 16 performs scaling on the frequency spectrum f1 at a fixed ratio to generate an attenuated frequency spectrum f2 (FIG. 4 (B)).
  • the polarity of the data to be embedded is "1”
  • the data is used as it is
  • the polarity of the data to be embedded is "0”
  • the frequency spectrum f2 obtained by inverting the polarity is used.
  • the watermark superimposition processing unit 16 shifts the frequency spectrum f2 in the direction in which the frequency increases or decreases, for example, so that four spectrums are separated (FIG. 4 (C)).
  • FIG. 4C four lines are shifted in the direction of increasing frequency to generate a frequency spectrum # 3.
  • the water mark superimposition processing section 16 performs the frequency spectrum shifted in this manner.
  • the frequency spectrum f 3 (Fig. 4 (O))
  • the original frequency spectrum f 1 (Fig. 4 (A)
  • the obtained frequency spectrum f 4 (Fig. 4 (D) ) Is superimposed with Ro bust watermark DC 1 and Fragi 1 e-marker DC 2 (Fig. 4 (D)).
  • processing is performed so that the polarity correlation between a certain frequency spectrum and a frequency spectrum four distances apart is biased positively or negatively. That is, processing is performed only when the sign of the frequency spectrum f4 is inverted by adding the frequency spectrum f3 to the frequency spectrum f1 and when no other sign inversion is involved. Does not perform any processing.
  • the white frame is the signal component removed from the frequency spectrum f 1 (FIG. 4 (A)), and the hatching frame is the signal component obtained as a result of the addition.
  • the level of the first frequency component f 1 (FIG. 4 (A)), which is determined to embed the watermark, is attenuated at a fixed ratio, and the level obtained by multiplying the polarity of the watermark to be embedded is Is added to the level of the first frequency component f 2 (FIG. 4 (B)) and the second frequency component f 3 (FIG. 4 (C)) separated by, for example, four frequency components.
  • the first frequency component fl (Fig. 4 (A)) and the second frequency component f3 (Fig. 4 (C)) are correlated, the polarity is the same after embedding the watermark. (Positive or negative) increases, and the watermark mark decoder described later uses this to detect watermarks.
  • the watermark superimposition processing unit 16 generates the R obust watermark DC 1 and the Fraggi e watermark based on the analysis result D 11 analyzed in the psychological auditory analysis unit 11.
  • DC 2 is assigned to each The embedding is made so that the frequency band and sound pressure level take into account the minimum audible limit and masking / threshold effect described later in the number of frequency bands.
  • the psychological hearing analysis unit 11 analyzes the input digital audio signal DA1, and calculates a masking threshold, which is a limit that can be perceived while actually hearing the original sound, from the curve of the original sound and the minimum audible limit.
  • a masking threshold which is a limit that can be perceived while actually hearing the original sound, from the curve of the original sound and the minimum audible limit.
  • the masking ability for a given digital audio signal DA1 depends on its frequency band and sound pressure level
  • an encoder that performs a compression process determines the best method for expressing an input audio signal with a limited bit resolution based on information on a frequency band and a sound pressure level.
  • the psychological auditory model used for compression embedding the watermark with the position and energy of the frequency that is easily cut by the compression processing, it is possible to realize the Fragi 1 e watermark DC 2 that is weak in compression. it can.
  • Figure 5 shows the minimum audibility limit.
  • the minimum audibility limit in silence is the minimum level of sound that can be detected by hearing, and is related to the limit of noise that can be heard when hearing is quiet. As shown in Fig. 5, sound with a sound pressure level higher than the minimum audible limit during silence, such as tone A, can be heard, but sound pressure below the minimum audible limit during confusion, such as tone B. Level sounds cannot be heard. Also, as shown in Fig. 5, the minimum audible limit in silence depends on the frequency, and even if the tones A and B have the same sound pressure level, they can be heard at the frequency of the sound. There are times when it can be done and times when it cannot.
  • Figure 6 shows the masking effect.
  • the masking effect is mainly related to the detection limit of quantization distortion and background noise, and the detection limit of a specific sound is heard simultaneously. It changes greatly with other sounds. As shown in Fig. 6, other sounds are difficult to hear within a certain frequency range with respect to tone C. For example, tone D is difficult to hear even a pure tone with a relatively high sound pressure level. On the other hand, tone E is audible.
  • the masking effect works stronger as the frequencies of the masking sound (masker) and the masked sound that cannot be heard (masky) are closer.
  • the digital mark encoder 1 utilizes these principles to take advantage of these principles to consider the compression characteristics of the compression processing of signals such as MP3 (R obust ust water mark DC 1 and Fragi 1 e DC By the way, the embedding process of 2) is performed.
  • Fig. 7 shows the encoding (psychological auditory encoding considering psychological auditory sense) in the MP3 encoder 3 (Fig. 1).
  • the MP3 encoder 3 converts the input audio signal DA into 3 After dividing into two frequency bands (subbands), psychoacoustic coding is performed so that the quantization noise falls below the minimum audible limit.
  • the solid line in Fig. 7 represents the frequency distribution of the audio signal DA, and the thick line represents the minimum audible limit during silence.
  • the masking threshold (dashed line in Fig. 7), which is the limit that can be perceived when the original sound is actually heard, is calculated from the curve of the original sound and the minimum audible limit.
  • a quantization step for each subband is assigned so that the quantization noise is at a level lower than the masking 'threshold.
  • the range to be sampled by the compression processing is indicated by a rectangular area, and the bottom of the rectangle is the quantization noise level.
  • the quantization step is reduced. Reduce the level of quantization noise.
  • the psychological auditory analysis section 11 of the watermark encoder 1 converts the input digital audio signal DA 1 into a digital audio signal DA 1 based on the characteristics of the psychoacoustic encoding of the MP3 encoder 3. Analyze 1 and Then, based on the analysis result, the frequency band in which the R obust watermark DC 1 and the Fragi 1 e watermark DC 2 are to be embedded and its sound pressure level are calculated, and the calculation result (psychological auditory coding information Dl 1)
  • the watermark overlap section 16 is controlled by the control section.
  • the watermark functions as a strong R obust water mark DC1 and is compressed.
  • the water mark functions as a Fragi 1 e water mark DC 2 that is weak in compression.
  • the water mark superimposing unit 16 adds the R obust watermark DC 1 and the Fragi 1 e to the digital audio signal DA 1. Embed water mark DC 2.
  • the area in which the watermark is embedded is not limited to the frequency domain, but may be the time domain.
  • the MDCT coefficient D 16 output from the water mark superimposing unit 16 is subjected to inverse orthogonal transformation in the I MDCT processing unit 15, so that it has the same format as the original digital audio signal DA 1. It is output as a digital audio signal DA 2 in which the watermark watermark DC 1 and the watermark 1 DC 2 are embedded.
  • a digital audio signal DA2 is encoded by a predetermined encoder (not shown) to expose a master disk, and the optical disk 2 is mass-produced from the master disk.
  • Fig. 9 shows the processing procedure of the watermark encoder 1 for processing the digital audio signal DA1, and the watermark encoder 1 moves from step SP11 to step SP12 and sequentially samples the digital audio signal DA1. Read for each lock. Subsequently, the watermark encoder 1 proceeds to step SP13, analyzes the digital audio signal DA1, and extracts psychoacoustic encoded information D11 from the digital audio signal DA1.
  • the watermark 1 embeds the R obust watermark DC 1 in the digital signal DA 1 based on the psychoacoustic coded information D 11, and furthermore, in step SP 15 the psychological hearing The Fraggi 1 e-watermark DC 2 is embedded in the digital audio signal DA 1 based on the encoding information D 11.
  • the watermark encoder 1 has the same format as the input digital audio signal DA 1, and has the R obust watermark DC 1 and the Fragi 1 e watermark DC 2 embedded therein.
  • the digital audio signal DA 2 is obtained.
  • step SP16 determines whether or not the processing of the digital audio signal DA1 has been completed. If a negative result is obtained here, the process returns to step SP12. As a result, the watermark encoder 1 sequentially processes the digital audio signal DA 1 by repeating this processing procedure for each sample block, and when a positive result is obtained in step SP 16, the steps SP 16 to SP 16 are performed. It moves to 17 and ends the processing procedure.
  • FIG. 10 shows the configuration of the water mark decoder 6 of the personal computer 5 described above with reference to FIG. 1, and the water mark decoder 6 converts the digital audio signals DA 2 to R obtained from the reproduction of the optical disc 2 (FIG. 1).
  • Obust ⁇ O - in Tamaku DC 1 and F Ragi 1 c ie water one mark decoder 6 detects the e watermark DC 2, R obust ⁇ O one Tama Kudekodo portion 6 1, the digital audio signal DA 2 sequentially input
  • the MDCT processing section 60 performs MDCT processing to obtain an MDCT coefficient D60, which is output to the water mark detection section 61.
  • the watermark detection unit 61 determines, for the input MDCT coefficient D 60, a plurality of each of which is separately allocated in advance as an embedding frequency band of the radio watermark DC 1 and the radio watermark DC 2.
  • the frequency component is shifted by, for example, four frequency components in the direction in which the frequency increases or decreases, and a new MDCT coefficient obtained by the process and an MDCT coefficient D 60 obtained from the MDCT processing unit 60 are performed.
  • the polarities of the frequency components are compared based on the above, and based on the deviation of the polarities, the Rustust DC1 and the Fragment ewatermark DC2 are detected.
  • the area for detecting the watermark is not limited to the frequency domain, but may be a time domain.
  • Fig. 11 shows the processing procedure of the watermark decoder 6 for processing the digital audio signal DA2.
  • the watermark 6 enters the processing procedure from step SP21, the watermark 6 moves to step SP22, and the digital audio signal DA2 is processed.
  • Read DA 2 sequentially for each sample block.
  • the watermark decoder 6 proceeds to step SP23 to detect the watermark water mark DC1 from the digital audio signal DA2, and then detects the Fragi1 ewatermark DC2 in step SP24. .
  • step SP 25 determines whether or not the processing of the digital audio signal DA 2 has been completed, and obtains a negative result. And return to step SP22. Thereby, the watermark decoder 6 processes the digital audio signal DA 2 by repeating this processing procedure for each sample block in sequence, and if a positive result is obtained in step SP 25, the process proceeds to step SP 26. Move to end the processing procedure.
  • the psychological auditory analysis unit 11 of the watermark encoder 1 determines a compression characteristic (a psychological auditory model such as a minimum audible limit and a masking effect adopted in various compression standards) in the MP3 encoder 3.
  • R obust data — Mark DC 1 and Fragi 1 e Water mark DC 2 Decide the embedding position (for example, frequency band) and sound pressure level, and determine the compression that matches the compression characteristics of MP3 encoder 3.
  • Fragi 1 e Watermark DC 2 can be embedded in the digital audio signal DA 1.
  • the compression rate of the Fragi 1 e-watermark DC 2 which is vulnerable to compression, decreases sufficiently when compressed through the MP3 encoder 3 and is not detected by the watermark decoder 6. Will be.
  • the digital watermark signal obtained by reproducing the optical disk 2 is used to obtain the watermark watermark DC 1 and the! 7 Ragi 1 e Watermark DC 2 has been described, but the present invention is not limited to this.
  • the present invention is also applicable to the case where a watermark is detected from a stream signal obtained by compressing a digital audio signal. can do. This eliminates the need to expand the compressed stream signal again and convert the compressed stream signal into the same format as the original digital audio signal, thereby increasing the processing speed.
  • the Fragi 1 e-watermark DC 2 is not erased by the predetermined compression processing. It may be embedded.
  • the Fragi 1 e-watermark DC 2 is embedded in a form that is not deleted by the compression processing at the time of valid distribution, and the digital audio signal with the watermark is subjected to other compression processing such as MP3.
  • the watermark DC 2 may be embedded in such a manner that the watermark DC 2 is erased when the operation is performed. Specifically, by comparing the compression characteristics of the compression process used at the time of valid distribution with the compression characteristics of other compression processes, they are not deleted by the compression process used at the time of distribution. The minimum audible limit and masking used. ⁇
  • a Fragi 1 e watermark DC 2 is embedded in a signal deleted by a quantization process performed on a digital audio signal based on a threshold.
  • both the Rust water mark DC 1 and the Fragi 1 e water mark DC 2 are embedded in the digital audio signal.
  • the present invention is not limited to this, but the Rustust mark DC1 is embedded in the digital audio signal, the compression processing is performed, and the compression-processed stream signal is applied to the Fragi1e.
  • the water mark DC 2 may be embedded.
  • the present invention is not limited to this, and it is not necessary to completely delete the Fragi 1 e watermark DC 2 even after compression processing such as MP3.
  • the detection side determines whether or not the detection level of the Fragi 1 e water mark DC 2 is equal to or lower than a predetermined threshold. If the detection level is lower than the threshold, the digital audio signal to be detected is illegally copied. In the case where the digital audio signal to be detected is equal to or greater than the threshold, the digital audio signal to be detected is determined to be a valid copy. Just do it.
  • the detection After performing compression processing such as MP3 on the digital audio signal embedded with the R obust watermark DC 1 and the Fraggi 1 e data mark DC 2, the detection If it is possible to detect the fact that the compression processing has been performed based on the degree of decrease in the remaining ratio of the water mark DC 2, the Fragile watermark DC 2 is embedded in the digital audio signal in any configuration. You may do it.
  • the digital audio signal is added to the R obust water mark DC 1 and the psychological auditory model, which is the compression characteristic of MP3. It is described for embedding a finely F Ragi 1 e water one mark DC 2, the present invention is not limited to this, for example, MP EG- AAC, ATRAC, AT R AC 2 x A TRA C 3, D olby AC 3, MS (Microsoft) It can be widely applied when using a psychoacoustic model based on various compression standards such as Au dio, Tw in VQ, or a combination of these. In this way, a general-purpose fragile watermark that supports more compression standards can be realized.
  • the present invention is not limited to this.
  • a connection configuration can also be applied.
  • the configuration has been described in which the watermark decoder section and the watermark 1e watermark section are integrated in the watermark decoder 6.
  • the R obust watermark decoding unit and the Fragi 1 e watermark decoding unit are connected in series, or the R obust watermark decoding unit and the Fragi 1 e watermark decoding unit are connected in parallel It is also possible to apply a configuration that implements this.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • a RAM Random Access Memory
  • a hard disk drive 74 storing various data
  • the CPU 71 via a network. It has a communication port 75 which is an interface for communicating with the outside, and these are connected to each other via a bus 76.
  • a program for realizing each of the above-described functions is stored in the hard disk device 74 or the ROM 72, and at the time of execution, the CPU 71 responds based on the work memory stored in the RAM 73. What is necessary is just to realize each functional part. Further, in the computer 70, programs for realizing the above-described functions may be installed via the communication port 75.
  • the present invention relates to a signal processing device and method, and a program storage medium, and can be applied to, for example, a case where copyright of music data or the like is protected.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

明 細 書 信号処理装置及びその方法並びにプログラム格納媒体 技術分野
本発明は信号処理装置及びその方法並びにプロダラム格納媒体に関し、 例えば 音楽データ等の著作権を保護する場合に適用して好適なものである。
背景技術
近年、 ウェブサイ トからィンタ一ネット等のネッ トワークを介して不特定多数 のネッ トワーク端末装置 (コンピュータ) に音楽コンテンツ等が配信されるよう になっている。
コンピュータのユーザは配信された音楽コンテンツをディジタルデータの状態 で種々の記録媒体に記録することにより、 好みの音楽を高音質で記録した音楽ソ フトをュ一ザが意のままに作成することができる。
このように、 コンピュータを操作するユーザがウェブサイ トにアクセスするだけ で、 自由に音楽コンテンツを記録媒体に記録することができるのであるが、 ゥェ ブサイ トの開設側が著作権者の許可なく無断でその著作物である音楽コンテンツ を配信する行為は、 当該音楽コンテンツの著作権侵害が発生する問題がある。 発明の開示
本発明は以上の点を考慮してなされたもので、 例えばネッ トワークを介して不 特定多数の端末装置に配信されたコンテンツについての著作権侵害行為を有効に 抑制し得る信号処理装置及びその方法並びにプログラム格納媒体を提案しようと するものである。
かかる課題を解決するため本発明においては、 入力信号を圧縮処理した際の入 力信号の残存状態を圧縮処理に対応して心理聴覚分析し、 当該分析結果を心理聴 覚符号化情報として出力し、 心理聴覚符号化情報に基づいて、 入力信号に電子透 かし情報を重畳するようにしたことにより、 圧縮耐性の大きい電子透かし情報及 び圧縮耐性の小さい電子透かし情報を容易に生成し得る。 図面の簡単な説明
図 1は、 本発明によるウォーターマークを利用したコピー制御システムの全体 構成を示すブロック図である。
図 2は、 コピー制御システムにおけるコピ一制御の適用例を示す略線図である 図 3は、 本発明の実施の形態によるウォーターマークエンコーダの構成を示す ブロック図である。
図 4は、 ウォーターマーク重畳原理の説明に供する略線図である。
図 5は、 心理聴覚分析部の処理の説明に供する略線図である。
図 6は、 心理聴覚分析部の処理の説明に供する略線図である。
図 7は、 心理聴覚符号化の説明に供する略線図である。
図 8は、 本発明によるゥォ一ターマークのェンコ一ド例を示す略線図である c 図 9は、 ウォーターマークエンコーダの処理手順を示すフローチヤ一トである
図 1 0は、 ゥォ一タ一マークデコーダの構成を示すブロック図である。
図 1 1は、 ゥォ一ターマークデコーダの処理手順を示すフローチャートである 図 1 2は、 コンピュータの内部構成を示すブロック図である。 発明を実施するための最良の形態
以下図面について、 本発明の一実施の形態を詳述する。 図 1において、 1 0は全体としてコンテンツのコピー制御システムを示し、 ォ —ディォソースであるディジタルオーディォ信号 D Aを光ディスク 2に記録する 際に、 ウォータ一マーク (電子透かし情報) エンコーダ 1により、 Ro b u s t (強い) ウォータ一マーク D C 1及び F r a g i 1 e (弱レ、) ウォーターマーク DC 2をディジタルオーディォ信号 D Aに付加して光ディスク 2に記録する。 ここで、 R o b u s t ウォータ一マーク DC 1はオーディオソースの著作権者 、 コピーを許可するか否か等の情報により構成され、 F r a g i l eウォータ一 マーク DC 2は圧縮履歴を検出する トリガ等の情報により構成される。 因みに、 R o b u s t ウォーターマーク DC 1は MP 3等の圧縮系を介しても消えないゥ オーターマ一クであり、 F r a g i l eゥォ一ターマーク D C 2は M P 3等の圧 縮系を通るとその量子化誤差により消える (残存率が低くなる) ウォーターマー クである。
このようにして Ro b u s t ゥォ一ターマーク DC 1及び F r a g i 1 eゥォ 一ターマーク DC 2を含むディジタルオーディオ信号 D Aが記録された光ディス ク 2のうち、 例えば M P 3 (MPEG Au d i o L a y e r 3) ェンコ一 ダ 3等による圧縮処理を介して、 ネットワーク 4上のサイ トにアップ口一ドされ た圧縮ストリ一ム信号 D Sをパーソナルコンピュータ 5にダウン口一ドする場合 、 また R o b u s t ウォータ一マーク DC 1及び! r a g i 1 eウォーターマ一 ク DC 2を含むディジタルオーディォ信号 D Aが記録された光ディスク 2のうち 、 圧縮処理を介さずに流通する光ディスク 2をパーソナルコンピュータ 5に装填 する場合において、 まずパーソナルコンピュータ 5は、 モデム (変復調装置) を 構成するコーデック (C o d e c : C o d e a n d D e c o d e) に入力さ れた入力信号に基づいて、 当該入力信号が圧縮されていないディジタルオーディ ォ信号 D Aであるか、 又は圧縮ストリーム信号 D Sであるか、 さらにはいずれの 圧縮規格によりエンコードされた圧縮ストリーム信号 DSであるかを判別し、 当 該判別結果に応じてスィッチ S Wを選択的に切り換える。 そして、 ウォータ一マークデコーダ 6により、 パーソナルコンピュータ 5の入 力信号から、 埋め込まれた著作権情報を検出し、 例えばメモリカードのような P D (P o t a b l e D e v i c e) 8への入力信号 (ディジタルオーディオ信 号 DA、 圧縮ストリーム信号 DS等) のコピーを制御する。 すなわち、 ゥォ一タ —マークデコーダ 6は、 R o b u s t ウォータ一マーク DC 1及び F r a g i 1 e ゥォ一タ一マーク D C 2を検出する。 L CM (L i c e n s e d S DM I (S e c u r e D i g i t a l Mu s i c I n i t i a t i v e) C omp l i a n t Mo d u l e) 7は、 ウォーターマークデコーダ 6によつ て検出された 2種類のゥォ一タ一マーク (Ro b u s t ウォーターマーク DC 1 及び F r a g i 1 eウォーターマーク DC 2) により、 音楽コンテンツを PD 8 にコピーするか否かを制御する。
図 2は、 検出された 2種類のウォーターマークを用いて、 LCM7が音楽コン テンッを P D 8にコピーするか否かを制御する一例を示し、 LCM7は、 Ro b u s t ゥォ一タ一マーク DC 1が検出され、 F r a g i l e ウォータ一マーク DC 2が検出されない場合には、 音楽コンテンツに圧縮履歴が有ると判断して当 該音楽コンテンツの p D 8へのコピーを禁止する。
また LCM7は、 R o b u s t ウォータ一マ一ク DC 1及び F r a g i 1 e ウォータ一マーク DC 2が共に検出された場合には、 音楽コンテンツに圧縮履歴 がないと判断して当該音楽コンテンツの PD 8へのコピーを許可する。
さらに LCM7は、 R o b u s t ウォータ一マーク D C 1及び F r a g i 1 e ウォーターマーク DC 2が共に検出されなかった場合には、 音楽コンテンツの著 作権者及びコピーの許可の是非等の情報がないため、 当該音楽コンテンツの PD 8へのコピ一を許可する。 さらに LCM7は、 R o b u s t ウォーターマ一ク D C 1が検出されず、 F r a g i l eウォータ一マーク DC 2が検出されない場合 とレヽうのは、 技術的にありえないため例外とする。
図 3は、 ウォーターマークエンコーダ 1の構成を示し、 心理聴覚分析部 1 1は 、 順次入力されるディジタルオーディオ信号 DA 1に対して、 心理聴覚モデルを 利用して分析を行い、 R o b u s t ゥォ一ターマーク重畳部及び F r a g i 1 e ゥォ一ターマーク重畳部を有するウォーターマ一ク重畳部 1 6を制御する。 ディジタルオーディオ信号 D A 1は、 MDCT (変形離散コサイン変換:
o d i f i e d D i s c r e t e し o s ! n e r a n s i o r m) 処理部 1 4において MDCT係数 D 1 4を生成し、 これをウォーターマーク重畳 処理部 1 6に出力する。
ウォータ一マーク重畳処理部 1 6は、 R o b u s tウォータ一マーク DC 1及 び F r a g i 1 eウォーターマーク DC 2をそれぞれディジタルオーディオ信号 D A 1の時系列サンプルブロックを MD C T変換した周波数スぺク トラムのうち 、 後述する心理聴覚分析部 1 1の分析結果に基づいて決定された周波数帯域のス ぺク トラムに重畳するようになされている。
具体的には、 まずウォーターマーク重畳処理部 1 6は、 入力オーディオ信号 D A 1の時系列サンプルブロックを MDCT変換した周波数スぺク トラムのうち、 R o b u s t ウォータ一マーク D C 1及び F r a g i 1 eウォータ一マーク DC 2を重畳する周波数帯域のスペク トラム f 1を抽出する (図 4 (A))。
そしてウォーターマーク重畳処理部 1 6は、 この周波数スぺク トラム f 1に対 して一定比率でスケーリングを行い、 減衰させた周波数スぺク トラム f 2を生成 する (図 4 (B))。 このとき埋め込むデータの極性が 「1」 の場合にはそのまま 、 埋め込むデータの極性が 「0」 の場合には周波数スぺク トラム f 2を正負反転 したものを用いる。
続いてウォーターマーク重畳処理部 1 6は、 周波数スぺク トラム f 2を周波数 が増加又は減少する方向に、 例えばスぺク トラム 4本分離れるようにシフトする (図 4 (C))。 図 4 Cでは周波数が増加する方向に 4本分シフ トし、 周波数スぺ ク トラム ί 3を生成する。
次にウォータ一マーク重畳処理部 1 6は、 こうしてシフトした周波数スぺク ト ラム f 3 (図 4 (O) を、 元の周波数スぺク トラム f 1 (図 4 (A)) に加算す ることにより、 得られた周波数スぺク トラム f 4 (図 4 (D)) に Ro b u s t ゥォ一ターマーク D C 1及び F r a g i 1 eゥォ一ターマーク D C 2を重畳する (図 4 (D))。
ここで加算する際には、 ある周波数スぺク トラムと 4本離れた周波数スぺク ト ラムとの極性の相関が正又は負に偏るように処理する。 すなわち周波数スぺク ト ラム f 1に周波数スぺク トラム f 3を加算することによって周波数スぺク トラム f 4の符号が反転する場合のみ処理を行い、 それ以外の符号反転を伴わない場合 には処理を行わない。 この図 4 (D) において、 白枠は周波数スペク トラム f 1 (図 4 (A)) から除去された信号成分であり、 ハツチング枠は当該加算結果と して得られた信号成分である。
これにより音質劣化の原因となる一方で検出精度に寄与しないウォーターマー クの埋め込み量を低減することができる。 また元の周波数スぺク トラムをスケ一 リングしてその近傍に加算することにより、 マスキング効果を利用して音質劣化 の小さい埋め込みを実現することができる。
因みに、 ゥォ一タ一マークを埋め込むことが決定された第 1の周波数成分 f 1 (図 4 (A)) のレベルを一定の比率で減衰して、 埋め込むウォーターマークの 極性を乗算したレベルを、 当該第 1の周波数成分 f 2 (図 4 (B)) と例えば 4 個の周波数成分だけ離れた第 2の周波数成分 f 3 (図 4 (C)) のレベルに加算 してウォーターマ一クを埋め込むと、 ウォーターマークを埋め込んだ後に、 第 1 の周波数成分 f l (図 4 (A)) と第 2の周波数成分 f 3 (図 4 (C)) との相関 をとつたときの極性が同じ (正又は負) になる確率が高くなり、 後述するゥォ一 ターマークデコーダでは、 このことを利用してゥォ一ターマークの検出を行う。 このようにしてウォーターマーク重畳処理部 1 6は、 心理聴覚分析部 1 1にお いて分析された分析結果 D 1 1を基に、 R o b u s t ゥォ一ターマーク DC 1及 び F r a g i 1 eウォーターマーク DC 2をそれぞれ予め別々に割当てられた複 数の周波数帯域の中で、 後述する最小可聴限界やマスキング . スレショルド効果 を考慮した周波数帯域及び音圧レベルとなるように埋め込む。
すなわち、 心理聴覚分析部 1 1は、 入力ディジタルオーディオ信号 D A 1を分 析し、 原音と最小可聴限界の曲線から実際に原音を聞きながら感知できる限界で あるマスキング ' スレツショルドを算出する。 与えられたディジタルオーディオ 信号 D A 1に対するマスキング能力は、 その周波数帯域と音圧レベルとに依存し ている
一般に圧縮処理を行うエンコーダでは、 周波数帯域と音圧レベルとの情報を基 に、 限定されたビッ ト分解能で入力オーディオ信号を表現する最良の方法を決定 することになる。 すなわち、 圧縮で用いられる心理聴覚モデルを利用して、 圧縮 処理によって削られ易い周波数のポジション、 エネルギーでウォータ一マークを 埋め込むことにより、 圧縮に弱い F r a g i 1 eウォーターマーク D C 2を実現 することができる。
以下、 圧縮処理によって削られ易い周波数帯域を利用して圧縮に強い R o b u s tウォータ一マーク D C 1及び圧縮に弱い F r a g i 1 eウォータ一マーク D C 2を埋め込む方法の原理について説明する。
図 5は、 最小可聴限界を示し、 静寂時の最小可聴限界とは聴覚が検知できる音 の最小レベルであり、 聴覚が静寂時に聞き取ることができるノィズの限界に関係 している。 図 5に示すように、 ト一ン Aのように静寂時の最小可聴限界より高い 音圧レベルの音は聞き取ることができるが、 トーン Bのように諍寂時の最小可聴 限界より低い音圧レベルの音は聞き取ることができない。 また図 5に示すように 、 最小可聴限界は、 静寂時の最小可聴限界は周波数に依存しており、 同じ音圧レ ベルを有する トーン A及び Bであっても、 その音の周波数によって聞き取ること ができる場合とできない場合とがある。
また、 図 6はマスキング効果を示すものであり、 マスキング効果は主に量子化 歪みや背景ノイズの検知限界と関係し、 特定の音の検知限界は同時に聞いている 他の音によって大きく変化する。 図 6に示すように、 トーン Cに対して一定の周 波数範囲内では他の音は聞き取り難くなり、 例えばトーン Dは比較的音圧レベル の高い純音であっても聞き取ることが困難であり、 一方、 トーン Eは聞き取り得 ることになる。 マスキング効果はマスクする音 (マスカ一) とマスクされて聞こ えなくなる音 (マスキー) の周波数が近くなるほど強く働く。
従って、 ゥォ一タ一マークエンコーダ 1では、 これらの原理を利用して、 M P 3等の信号の圧縮処理の圧縮特性を考慮したウォーターマーク (R o b u s t ゥ オーターマーク D C 1及び F r a g i 1 e D C 2 ) の埋め込み処理が行われる 因みに、 図 7は M P 3エンコーダ 3 (図 1 ) における符号化 (心理聴覚を考慮 した心理聴覚符号化) を示し、 例えば M P 3エンコーダ 3では、 入力オーディオ 信号 D Aを 3 2個の周波数帯域 (サブバンド) に分割した後、 量子化ノイズが最 小可聴限界以下に収まるように心理聴覚符号化を行う。 図 7の実線はオーディォ 信号 D Aの周波数分布、 太線は静寂時の最小可聴限界を表す。
心理聴覚符号化では、 まず、 原音と最小可聴限界の曲線から、 実際に原音を聞 いた際に感知できる限界であるマスキング · スレツショルド (図 7の破線) を算 出する。 次に各サブバンド毎に、 量子化ノイズがマスキング 'スレツショルドよ り小さいレベルとなるように、 各サブバンドの量子化ステップを割り当てる。 図 7において圧縮処理によりサンプルする範囲を矩形領域で示し、 矩形の底辺 が量子化ノイズレベルになる。 原音がマスキング · スレツショルドより小さい領 域では、 原音は聞こえないためサンプルから削ることが可能であり、 一方、 聴覚 の感度が高く、 マスキングが十分働いていない領域では、 量子化ステップを細か く して量子化ノイズのレベルを下げる。
従って、 ゥォ一ターマークエンコーダ 1の心理聴覚分析部 1 1では、 入力され たディジタルォ一ディォ信号 D A 1について、 かかる M P 3エンコーダ 3の心理 聴覚符号化の特性に基づいてディジタルオーディォ信号 D A 1を分析すると共に 、 当該分析結果に基づいて R o b u s tウォータ一マーク DC 1及び F r a g i 1 eウォーターマーク DC 2を埋め込むべき周波数帯域及びその音圧レベルを算 出し、 当該算出結果 (心理聴覚符号化情報 D l 1 ) によってウォーターマーク重 畳部 1 6を制御する。
この結果、 図 8に示すように、 圧縮処理でサンプルされる矩形領域に重なる様 にウォータ一マークを埋め込むことにより、 当該ウォーターマークは圧縮に強い R o b u s t ウォータ一マーク DC 1 として機能し、 圧縮処理で削られる矩形領 域外にウォーターマークを埋め込めむことにより、 当該ウォータ一マークは圧縮 に弱い F r a g i 1 eウォータ一マーク DC 2として機能する。
従って、 ウォータ一マーク重畳部 1 6は、 心理聴覚分析部 1 1により計算され た心理聴覚符号化情報 D l 1に基づいて、 ディジタルオーディオ信号 D A 1に R o b u s tウォーターマーク DC 1及び F r a g i 1 eウォーターマ一ク DC 2 を埋め込む。
なお、 ウォータ一マークを埋め込む領域は周波数領域に限らず、 時間領域であ つても良い。
かく してウォータ一マーク重畳部 1 6から出力された MDCT係数 D 1 6は、 I MDCT処理部 1 5において逆直交変換されることにより、 元のディジタルォ —ディォ信号 D A 1 と同一の形式でありかつ R o b u s t ウォーターマーク D C 1及び F r a g i 1 e ウォーターマーク D C 2が埋め込まれたディジタルオー ディォ信号 D A 2として出力される。
この実施の形態においては、 ディジタルオーディォ信号 D A 2を所定のェンコ —ダ (図示せず) によりエンコードしてディスク原盤を露光し、 このディスク原 盤から光ディスク 2が量産される。
図 9はディジタルオーディォ信号 D A 1を処理するウォーターマ一クェンコー ダ 1の処理手順を示し、 ウォーターマークエンコーダ 1はステップ S P 1 1から ステップ S P 1 2に移り、 ディジタルオーディオ信号 D A 1を順次サンプルプロ ック毎に読み込む。 続いて、 ウォーターマークエンコーダ 1は、 ステップ S P 1 3に移って、 ディジタルオーディオ信号 D A 1を分析して当該ディジタルオーデ ィォ信号 D A 1から心理聴覚符号化情報 D 1 1を抽出する。
そして、 ウォーターマーク 1は続くステップ S P 1 4において、 心理聴覚符号 化情報 D 1 1に基づいて、 R o b u s t ウォーターマーク D C 1をディジタルォ —ディォ信号 D A 1に埋め込み、 さらにステップ S P 1 5において心理聴覚符号 化情報 D 1 1に基づき F r a g i 1 eウォータ一マーク DC 2をディジタルオー ディォ信号 D A 1に埋め込む。
これにより、 ゥォ一ターマークエンコーダ 1は入力されたディジタルオーディ ォ信号 D A 1 と同一形式でありかつ R o b u s t ゥォ一タ一マーク DC 1及び F r a g i 1 eゥォ一ターマーク DC 2が埋め込まれたディジタルオーディォ信号 D A 2を得る。
続いてウォータ一マークエンコーダ 1は、 ステップ S P 1 6に移り、 ディジタ ルオーディオ信号 D A 1の処理を完了したか否かを判断し、 ここで否定結果が得 られるとステップ S P 1 2に戻る。 これによりウォータ一マークエンコーダ 1は 、 順次サンプルブロック毎にこの処理手順を繰り返してディジタルオーディォ信 号 DA 1を処理し、 ステップ S P 1 6において肯定結果が得られると、 ステップ S P 1 6からステップ S P 1 7に移って当該処理手順を終了する。
図 1 0は、 図 1について上述したパーソナルコンピュータ 5のウォータ一マー クデコーダ 6の構成を示し、 ウォータ一マークデコーダ 6は、 光ディスク 2 (図 1 ) を再生して得られるディジタルオーディオ信号 DA 2から R o b u s tゥォ —ターマーク D C 1及び F r a g i 1 eウォーターマーク D C 2を検出する c すなわちウォータ一マークデコーダ 6において、 R o b u s t ゥォ一ターマー クデコード部 6 1は、 順次入力されるディジタルオーディオ信号 D A 2を MD C T処理部 6 0において MDC T処理することにより MD CT係数 D 6 0を得、 こ れをウォータ一マーク検出部 6 1に出力する。 ウォーターマーク検出部 6 1は、 入力された MDCT係数 D 60について、 R o b u s tゥォ一ターマーク DC 1及び F r a g i 1 eウォータ一マーク DC 2 の埋め込み周波数帯域として予め別々に割当てられている各複数の周波数成分を 、 例えば、 周波数が増加又は減少する方向に例えば 4個の周波数成分だけシフ ト する処理を行い、 当該処理によって得られた新たな MDCT係数と MDCT処理 部 60から得られる MDCT係数 D 60とに基づいて、 周波数成分の極性を比較 し、 極性の偏り分に基づいて R o b u s t ゥォ一ターマ一ク DC 1及び F r a g i 1 eウォータ一マーク D C 2を検出する。
なお、 ウォーターマークを検出する領域は周波数領域に限らず、 時間領域であ つても良い。
かく して光ディスク 2に記録されているディジタルオーディォ信号 D A 2をパ —ソナルコンピュータ 5を介して P D 8にコピーする際に、 R o b u s tゥォ一 ターマーク DC 1のみが検出されると、 このことは MP 3による圧縮履歴が有る こと、 すなわちこのとき検出された R o b u s t ゥォ一タ一マーク DC 1が埋め 込まれているディジタルオーディオ信号 D A 2がネットヮ一ク 4を介して配信さ れたコンテンツであると判断でき、 著作権者によって予めコピー制限が設定され ている場合には当該コピー制限を行うことにより著作権者が意図しない不正コピ 一を防止できる。
また、 Ro b u s t ウォーターマーク D C 1及び F r a g i l eウォーターマ ーク DC 2の両方が検出されると、 このことは MP 3の圧縮履歴がないこと、 す なわちネットワーク 4を介して配信されたものではないことを表しており、 著作 権者によって無料で開放されているとして当該コピー制限を行う必要がないこと が分かる。
このように、 パーソナルコンピュータ 5では、 R o b u s t ウォーターマーク DC 1及び F r a g i 1 eウォータ一マーク DC 2による著作権情報や圧縮履歴 情報に基づいてコピー制限を行うことができる。 図 1 1はディジタルオーディォ信号 D A 2を処理するウォーターマークデコー ダ 6の処理手順を示し、 ウォーターマーク 6はステップ S P 2 1から当該処理手 順に入るとステップ S P 2 2に移り、 ディジタルオーディォ信号 D A 2を順次サ ンプルプロック毎に読み込む。 続いてウォーターマークデコーダ 6はステップ S P 2 3に移って、 ディジタルオーディオ信号 D A 2から R o b u s tウォータ一 マーク D C 1を検出し、 続くステップ S P 2 4において F r a g i 1 eウォータ 一マーク D C 2を検出する。
F r a g i 1 eウォーターマーク D C 2を検出した後、 ウォーターマークデコ —ダ 6は、 ステップ S P 2 5に移り、 ディジタルオーディオ信号 D A 2の処理を 完了したか否かを判断し、 否定結果が得られるとステップ S P 2 2に戻る。 これ により、 ウォータ一マークデコーダ 6は、 順次サンプルブロック毎にこの処理手 順を繰り返してディジタルオーディオ信号 D A 2を処理し、 ステップ S P 2 5に おいて肯定結果が得られると、 ステップ S P 2 6に移って当該処理手順を終了す る。
以上の構成において、 ウォーターマークエンコーダ 1の心理聴覚分析部 1 1は 、 MP 3エンコーダ 3における圧縮特性 (種々の圧縮規格に採用されている最小 可聴限界、 マスキング効果等の心理聴覚モデル) に応じて R o b u s t ゥォ一タ —マーク D C 1及び F r a g i 1 e ウォータ一マーク D C 2の埋め込む位置 (例 えば周波数帯域) 及び音圧レベルを決定することにより、 M P 3エンコーダ 3の 圧縮特性に合致した圧縮に弱い F r a g i 1 eウォーターマ一ク D C 2をディジ タルオーディオ信号 D A 1に埋め込むことができる。
従って、 圧縮に弱い F r a g i 1 eウォータ一マーク D C 2は、 M P 3ェンコ —ダ 3を介して圧縮されると、 その残存率は十分に低下することになり、 ウォー ターマークデコーダ 6において検出されないことになる。
かく して以上の構成によれば、 圧縮に強い R o b u s tゥォ一タ一マーク D C 1及び圧縮に弱い F r a g i 1 eウォーターマーク D C 2を容易に実現すること ができる。 因みに、 圧縮耐性の強い R o b u s t ウォーターマーク D C 1に著作 権情報を埋め込むことにより、 圧縮系を通った後に検出された R o b u S tゥォ 一ターマーク D C 1に基づいて著作権情報を検出することができると共に、 圧縮 系を通った後に F r a g i 1 eウォーターマーク D C 2の除去又は減少に基づい て圧縮履歴を判断することができることにより、 ネッ トワークを介した不正コピ 一を未然に防止することができる。
なお上述の実施の形態においては、 光ディスク 2を再生して得られるディジタ ルオーディォ信号から、 R o b u s t ウォーターマーク D C 1及び!7 r a g i 1 eウォーターマーク D C 2を検出する場合について述べたが、 本発明はこれに限 らず、 例えばディジタルオーディオ信号を圧縮処理したス ト リーム信号から、 ゥ オーターマークを検出する場合にも適用することができる。 このようにすれば、 圧縮ストリ一ム信号を再び伸長して元のディジタルオーディォ信号と同一の形式 に変換する手間を省く ことができ、 処理を高速化することができる。
またディジタルオーディオ信号に R o b u s tウォーターマーク D C 1及び F r a g i 1 eウォーターマ一ク D C 2を埋め込む場合に、 F r a g i 1 eウォー タ一マーク D C 2が所定の圧縮処理に対しては消去されない形態で埋め込むよう にしても良い。
この場合、 F r a g i 1 eゥォ一ターマーク D C 2は、 正当な配布時の圧縮処 理によって消去されない形態で埋め込んでおき、 当該ウォーターマーク付きディ ジタルオーディオ信号を M P 3等の他の圧縮処理を行ったときに F r a g i 1 e ウォーターマーク D C 2が消去される形態で埋め込むようにすれば良い。 具体的 には、 正当な配布時に用いる圧縮処理の圧縮特性と、 他の圧縮処理の圧縮特性と を比較して、 配布時に用いる圧縮処理では削除されないが、 他の圧縮処理では圧 縮処理時に上述した最小可聴限界及びマスキング ■ スレツショルドに基づいてデ イジタルオーディオ信号に対して行われる量子化処理で削除される信号に F r a g i 1 eウォーターマーク D C 2を埋め込むようにする。 さらに上述の実施の形態においては、 ディジタルオーディオ信号に R o b u s tウォータ一マ一ク D C 1及び F r a g i 1 e ゥォ一タ一マーク D C 2を共に埋 め込むようにした場合について述べたが、 本発明はこれに限らず、 ディジタルォ 一ディォ信号に R o b u s tゥォ一タ一マーク D C 1を埋め込んでおき、 圧縮処 理を行った後で当該圧縮処理したス トリーム信号に対して F r a g i 1 eウォー タ一マーク D C 2を埋め込むようにしても良い。 この結果、 コ一デック (C o d e c ) の特性を考盧することなく F r a g i 1 eウォーターマーク D C 2の圧縮 処理による消去の度合いを限りなく低いレベルで容易に設定することができる。 さらに上述の実施の形態においては、 F r a g i 1 eゥォ一タ一マーク D C 2 を M P 3等の圧縮処理後に完全に削除される位置及びレベルでディジタルオーデ ィォ信号に埋め込むように構成した場合について述べたが、 本発明はこれに限ら ず、 M P 3等の圧縮処理後であっても完全に F r a g i 1 eウォーターマーク D C 2を削除しなくても良い。
すなわち検出側において F r a g i 1 e ウォータ一マーク D C 2の検出レベル が所定の閾値以下であるか否かを判断し、 当該閾値未満の場合には、 検出対象で あるディジタルオーディオ信号が不正にコピーされたものであると判断するよう に構成しておく一方、 当該閾値以上の場合には、 検出対象であるディジタルォー ディォ信号が正当にコピーされたものであると判断するように構成しておくよう にすれば良い。 要は、 R o b u s t ウォーターマーク D C 1及び F r a g i 1 e ゥォ一タ一マーク D C 2が埋め込まれたディジタルオーディォ信号に M P 3等の 圧縮処理を行った後に、 検出側において、 F r a g i 1 eウォータ一マーク D C 2の残存率の低下度に基づいて当該圧縮処理が行われた事実を検知することがで きれば、 ディジタルオーディオ信号に対して F r a g i l eウォーターマーク D C 2をどのような構成で埋め込むようにしても良い。
さらに上述の実施の形態においては、 M P 3の圧縮特性である心理聴覚モデル を用いて、 ディジタルオーディォ信号に R o b u s t ウォータ一マ一ク D C 1及 び F r a g i 1 eウォータ一マーク DC 2を埋め込む場合について述べたが、 本 発明はこれに限らず、 例えば MP EG— AAC、 ATRAC、 AT R AC 2 x A TRA C 3、 D o l b y AC 3、 MS (M i c r o s o f t ) Au d i o、 Tw i n VQ等の種々の圧縮規格に基づく心理聴覚モデル、 又はこれらの組み 合わせた心理聴覚モデルを用いる場合に広く適用することができる。 このように すれば、 より多くの圧縮規格に対応した汎用的な F r a g i l eウォーターマー クを実現することができる。
また上述の実施の形態においては、 ウォーターマークエンコーダ 1において R o b u s tウォーターマークェンコ一ド部及び F r a g i 1 eウォーターマーク エンコード部を統合した構成について述べたが、 本発明はこれに限らず、 例えば R o b u s tウォーターマークェンコ一ド部及び F r a g i 1 eウォータ一マー クェンコード部を直列に接続した構成、 又は R o b u s t ウォーターマークェン コード部及び F r a g i 1 eウォーターマークェンコ一ド部を並列に接続する構 成を適用することもできる。
また上述の実施の形態においては、 ゥォ一ターマークデコーダ 6において R o b u s tゥォ一タ一マークデコ一ド部及び F r a g i 1 eウォーターマークデコ —ド部を統合した構成について述べたが、 本発明はこれに限らず、 例えば R o b u s t ウォーターマークデコード部及び F r a g i 1 eウォーターマークデコー ド部を直列に接続した構成、 又は R o b u s tウォーターマークデコード部及び F r a g i 1 eウォーターマークデコード部を並列に接続する構成を適用するこ ともできる。
また上述の実施の形態においては、 著作権情報及び圧縮履歴情報をディジタル オーディオ信号に重畳する場合について述べたが、 本発明はこれに限らず、 必要 に応じて種々の情報を重畳して伝送する場合に本発明を適用することができる。 また上述の実施の形態においては、 ウォーターマークエンコーダ 1によってゥ ォ一ターマークの埋め込み処理が行われる場合について述べたが、 本発明はこれ に限らず、 ウォーターマークエンコーダ 1の各機能を実現するプログラムを格納 したプログラム格納媒体 (フロッピィディスク、 光ディスク等) からこれらのプ ログラムを情報処理装置 (コンピュータ) にロードして各機能を実行させるよう にしても良レ、。
例えば図 1 2に示すような通常のコンピュータ 70においては、 全体の制御を 司る C PU (C e n t r a l P r o c e s s i n g Un i t ) 7 1 と、 各種 ソフ トウェアが格納された ROM (R e a d On l y Me mo r y) 72と 、 C PU 7 1のワークメモリ と しての R AM (R a n d om Ac c e s s Me mo r y) 73と、 各種データが格納されたハードディスク装置 74と、 C PU 7 1がネットワークを介して外部と通信するためのィンターフェ一スである 通信ポート 75とを有し、 これらがバス 76を介して相互に接続されることによ り構成されている。
この場合コンピュータ 70では、 上述の各機能を実現するプログラムがハード ディスク装置 74又は ROM7 2に格納されており、 実行時に C PU 7 1が R A M73に格納されているワークメモリに基づいて、 対応する各機能部を実現する ようにすれば良い。 またコンピュータ 70では、 上述の各機能を実現するプログ ラムを通信ポ一ト 75を介してインス トールするようにしても良い。 産業上の利用の可能性
本発明は信号処理装置及びその方法並びにプロダラム格納媒体に関し、 例えば 音楽データ等の著作権を保護する場合に適用することができる。

Claims

請 求 の 範 囲
1 . 所定の入力信号に電子透かし情報を重畳する信号処理装置において、 上記入力信号を圧縮処理した際の上記入力信号の残存状態を上記圧縮処理に対 応して心理聴覚分析し、 当該分析結果を心理聴覚符号化情報として出力する心理 聴覚分析手段と、
上記心理聴覚符号化情報に基づいて、 上記入力信号に上記電子透かし情報を重 畳する重畳手段と
を具えることを特徴とする信号処理装置。
2 . 上記心理聴覚分析手段は、
最小可聴限界に基づいて上記心理聴覚符号化情報を生成する
ことを特徴とする請求の範囲第 1項に記載の信号処理装置。
3 . 上記心理聴覚分析手段は、
音声信号のマスキング効果に基づいて上記心理聴覚符号化情報を生成する ことを特徴とする請求の範囲第 1項に記載の信号処理装置。
4 . 上記重畳手段は、
上記心理聴覚符号化情報に基づいて、 上記圧縮処理に対する圧縮耐性の大きな 電子透かし情報及び上記圧縮処理に対する圧縮耐性の小さな電子透かし情報を上 記入力信号に重畳する
ことを特徴とする請求の範囲第 1項に記載の信号処理装置。
5 . 上記電子透かし情報は、 上記入力信号に関する著作権情報である
ことを特徴とする請求の範囲第 1項に記載の信号処理装置。
6 . 所定の入力信号に電子透かし情報を重畳する信号処理方法において、 上記入力信号を圧縮処理した際の上記入力信号の残存状態を上記圧縮処理に対 応して心理聴覚分析し、 当該分析結果を心理聴覚符号化情報として出力するステ ップと、
上記心理聴覚符号化情報に基づいて、 上記入力信号に上記電子透かし情報を重 畳するステップと
を具えることを特徴とする信号処理方法。
7 . 上記心理聴覚分析するステップでは、
最小可聴限界に基づいて上記心理聴覚符号化情報が生成される
ことを特徴とする請求の範囲第 6項に記載の信号処理方法。
8 . 上記心理聴覚分析するステップでは、
音声信号のマスキング効果に基づいて上記心理聴覚符号化情報が生成される ことを特徴とする請求の範囲第 6項に記載の信号処理方法。
9 . 上記入力信号に上記電子透かし情報を重畳するステップでは、
上記心理聴覚符号化情報に基づいて、 上記圧縮処理に対する圧縮耐性の大きな 電子透かし情報及び上記圧縮処理に対する圧縮耐性の小さな電子透かし情報が上 記入力信号に重畳される
ことを特徴とする請求の範囲第 6項に記載の信号処理方法。
1 0 . 上記電子透かし情報は、 上記入力信号に関する著作権情報である
ことを特徴とする請求の範囲第 6項に記載の信号処理方法。
1 1 . 入力信号を圧縮処理した際の上記入力信号の残存状態を上記圧縮処理に対 応して心理聴覚分析し、 当該分析結果を心理聴覚符号化情報として出力するステ ップと、
上記心理聴覚符号化情報に基づいて、 上記入力信号に上記電子透かし情報を重 畳するステップと
を含むプログラムを信号処理装置に実行させるプログラム格納媒体。
1 2 . 上記心理聴覚分析するステップでは、
最小可聴限界に基づいて上記心理聴覚符号化情報が生成される
ことを特徴とする請求の範囲第 1 1項に記載のプログラム格納媒体。
1 3 . 上記心理聴覚分析するステップでは、
音声信号のマスキング効果に基づいて上記心理聴覚符号化情報が生成される ことを特徴とする請求の範囲第 1 1項に記載のプログラム格納媒体。
1 4 . 上記入力信号に上記電子透かし情報を重畳するステップでは、
上記心理聴覚符号化情報に基づいて、 上記圧縮処理に対する圧縮耐性の大きな 電子透かし情報及び上記圧縮処理に対する圧縮耐性の小さな電子透かし情報が上 記入力信号に重畳される
ことを特徴とする請求の範囲第 1 1項に記載のプログラム格納媒体。
1 5 . 上記電子透かし情報は、 上記入力信号に関する著作権情報である
ことを特徴とする請求の範囲第 1 1項に記載のプロダラム格納媒体。
PCT/JP2000/007593 1999-10-29 2000-10-27 Dispositif de traitement de signaux et procede associe et support de stockage de programme WO2001031629A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001534134A JP4582384B2 (ja) 1999-10-29 2000-10-27 信号処理装置及びその方法並びにプログラム格納媒体
EP00970176A EP1202250A4 (en) 1999-10-29 2000-10-27 METHOD, DEVICE AND DATA CARRIER COMPUTER PROGRAM FOR SIGNAL PROCESSING
US09/869,170 US7272718B1 (en) 1999-10-29 2000-10-27 Device, method and storage medium for superimposing first and second watermarking information on an audio signal based on psychological auditory sense analysis

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11/310324 1999-10-29
JP31032499 1999-10-29

Publications (1)

Publication Number Publication Date
WO2001031629A1 true WO2001031629A1 (fr) 2001-05-03

Family

ID=18003874

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/007593 WO2001031629A1 (fr) 1999-10-29 2000-10-27 Dispositif de traitement de signaux et procede associe et support de stockage de programme

Country Status (4)

Country Link
US (1) US7272718B1 (ja)
EP (1) EP1202250A4 (ja)
JP (1) JP4582384B2 (ja)
WO (1) WO2001031629A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008114432A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited データ埋め込み装置、データ抽出装置、及び音声通信システム
US9002487B2 (en) 2008-08-14 2015-04-07 Sk Telecom Co., Ltd. System and method for data reception and transmission in audible frequency band
CN110110574A (zh) * 2018-01-30 2019-08-09 普天信息技术有限公司 心理压力参数的获取方法和标注方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8144368B2 (en) 1998-01-20 2012-03-27 Digimarc Coporation Automated methods for distinguishing copies from original printed objects
US6744906B2 (en) 1995-05-08 2004-06-01 Digimarc Corporation Methods and systems using multiple watermarks
US7006661B2 (en) 1995-07-27 2006-02-28 Digimarc Corp Digital watermarking systems and methods
US6850626B2 (en) 1998-01-20 2005-02-01 Digimarc Corporation Methods employing multiple watermarks
US6633654B2 (en) 2000-06-19 2003-10-14 Digimarc Corporation Perceptual modeling of media signals based on local contrast and directional edges
US8094869B2 (en) 2001-07-02 2012-01-10 Digimarc Corporation Fragile and emerging digital watermarks
US7728048B2 (en) 2002-12-20 2010-06-01 L-1 Secure Credentialing, Inc. Increasing thermal conductivity of host polymer used with laser engraving methods and compositions
US20060075424A1 (en) * 2003-02-10 2006-04-06 Koninklijke Philips Electronics N.V. Import control of content
US7225991B2 (en) 2003-04-16 2007-06-05 Digimarc Corporation Three dimensional data storage
CN101136202B (zh) * 2006-08-29 2011-05-11 华为技术有限公司 音频信号处理系统、方法以及音频信号收发装置
US9160988B2 (en) * 2009-03-09 2015-10-13 The Nielsen Company (Us), Llc System and method for payload encoding and decoding
US8522032B2 (en) * 2010-03-30 2013-08-27 Disney Enterprises, Inc. System and method to prevent audio watermark detection
JP6007481B2 (ja) * 2010-11-25 2016-10-12 ヤマハ株式会社 マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム
US10573329B2 (en) * 2017-05-31 2020-02-25 Dell Products L.P. High frequency injection for improved false acceptance reduction

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11232779A (ja) * 1997-11-20 1999-08-27 Toshiba Corp コピー防止装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760463B2 (en) * 1995-05-08 2004-07-06 Digimarc Corporation Watermarking methods and media
US6061793A (en) * 1996-08-30 2000-05-09 Regents Of The University Of Minnesota Method and apparatus for embedding data, including watermarks, in human perceptible sounds
US6272634B1 (en) * 1996-08-30 2001-08-07 Regents Of The University Of Minnesota Digital watermarking to resolve multiple claims of ownership
US6031914A (en) * 1996-08-30 2000-02-29 Regents Of The University Of Minnesota Method and apparatus for embedding data, including watermarks, in human perceptible images
US6282299B1 (en) * 1996-08-30 2001-08-28 Regents Of The University Of Minnesota Method and apparatus for video watermarking using perceptual masks
US6330672B1 (en) * 1997-12-03 2001-12-11 At&T Corp. Method and apparatus for watermarking digital bitstreams
US6332194B1 (en) * 1998-06-05 2001-12-18 Signafy, Inc. Method for data preparation and watermark insertion
US6154571A (en) * 1998-06-24 2000-11-28 Nec Research Institute, Inc. Robust digital watermarking
JP2000058928A (ja) * 1998-08-12 2000-02-25 Shin Aizawa ブラウン官の三原色発光ダイオードの改良
US6591365B1 (en) * 1999-01-21 2003-07-08 Time Warner Entertainment Co., Lp Copy protection control system
US6952774B1 (en) 1999-05-22 2005-10-04 Microsoft Corporation Audio watermarking with dual watermarks
FR2816153B1 (fr) * 2000-10-27 2002-12-20 Canon Kk Procede de controle prealable de la detectabilite d'un signal de marquage
WO2002049363A1 (en) * 2000-12-15 2002-06-20 Agency For Science, Technology And Research Method and system of digital watermarking for compressed audio
US7043019B2 (en) * 2001-02-28 2006-05-09 Eastman Kodak Company Copy protection for digital motion picture image data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11232779A (ja) * 1997-11-20 1999-08-27 Toshiba Corp コピー防止装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MITCHELL D. SWANSON ET AL.: "Robust audio watermarking using perceptual masking", SIGNAL PROCESSING, vol. 66, 1998, pages 337 - 355, XP002935138 *
See also references of EP1202250A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008114432A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited データ埋め込み装置、データ抽出装置、及び音声通信システム
US9002487B2 (en) 2008-08-14 2015-04-07 Sk Telecom Co., Ltd. System and method for data reception and transmission in audible frequency band
CN110110574A (zh) * 2018-01-30 2019-08-09 普天信息技术有限公司 心理压力参数的获取方法和标注方法

Also Published As

Publication number Publication date
EP1202250A1 (en) 2002-05-02
EP1202250A4 (en) 2006-12-06
US7272718B1 (en) 2007-09-18
JP4582384B2 (ja) 2010-11-17

Similar Documents

Publication Publication Date Title
WO2001031629A1 (fr) Dispositif de traitement de signaux et procede associe et support de stockage de programme
AU2005241609B2 (en) Watermark incorporation
US20040059918A1 (en) Method and system of digital watermarking for compressed audio
CA2527011C (en) Audio encoding/decoding apparatus having watermark insertion/abstraction function and method using the same
Qiao et al. Noninvertible watermarking methods for mpeg-encoded audio
Nematollahi et al. Blind digital speech watermarking based on Eigen-value quantization in DWT
JP2001188549A (ja) 情報処理装置及びその方法並びにプログラム格納媒体
Foo et al. An adaptive audio watermarking system
Yan et al. Speech authentication by semi-fragile speech watermarking utilizing analysis by synthesis and spectral distortion optimization
JP2005530206A (ja) 合成されたスペクトル成分に適合するようにデコードされた信号の特性を使用するオーディオコーディングシステム
US20070052560A1 (en) Bit-stream watermarking
EP1634276B1 (en) Apparatus and method for embedding a watermark using sub-band filtering
Attari et al. Robust and transparent audio watermarking based on spread spectrum in wavelet domain
EP1104969A1 (en) Method and apparatus for encoding/decoding and watermarking a data stream
Xu et al. Digital audio watermarking and its application in multimedia database
Xu et al. Content-based digital watermarking for compressed audio
Wei et al. Audio watermarking using time-frequency compression expansion
Kirbiz et al. Decode-time forensic watermarking of AAC bitstreams
Kalantari et al. A robust audio watermarking scheme using mean quantization in the wavelet transform domain
Gopalan Robust watermarking of music signals by cepstrum modification
Trivedi et al. An algorithmic digital audio watermarking in perceptual domain using direct sequence spread spectrum
Cvejic et al. Audio watermarking: Requirements, algorithms, and benchmarking
Quan et al. Data hiding in MPEG compressed audio using wet paper codes
KR20180058611A (ko) 오디오 워터마크 삽입 방법 및 장치, 그리고 오디오 워터마크 검출 방법 및 장치
Kui-long et al. A mp3 watermarking scheme based on the energy relation of two adjacent channels

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): DE FR GB

WWE Wipo information: entry into national phase

Ref document number: 2000970176

Country of ref document: EP

ENP Entry into the national phase

Ref country code: JP

Ref document number: 2001 534134

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 09869170

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2000970176

Country of ref document: EP