WO2013035537A1 - 電子透かし検出装置及び電子透かし検出方法、並びに電子透かしを用いた改ざん検出装置及び改ざん検出方法 - Google Patents

電子透かし検出装置及び電子透かし検出方法、並びに電子透かしを用いた改ざん検出装置及び改ざん検出方法 Download PDF

Info

Publication number
WO2013035537A1
WO2013035537A1 PCT/JP2012/071202 JP2012071202W WO2013035537A1 WO 2013035537 A1 WO2013035537 A1 WO 2013035537A1 JP 2012071202 W JP2012071202 W JP 2012071202W WO 2013035537 A1 WO2013035537 A1 WO 2013035537A1
Authority
WO
WIPO (PCT)
Prior art keywords
digital watermark
cochlear delay
acoustic signal
embedded
data
Prior art date
Application number
PCT/JP2012/071202
Other languages
English (en)
French (fr)
Inventor
祐史 鵜木
良太 宮内
敏三 小杉
Original Assignee
国立大学法人北陸先端科学技術大学院大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2011196449A external-priority patent/JP5879075B2/ja
Priority claimed from JP2011240692A external-priority patent/JP5889601B2/ja
Application filed by 国立大学法人北陸先端科学技術大学院大学 filed Critical 国立大学法人北陸先端科学技術大学院大学
Priority to US14/343,676 priority Critical patent/US20140278447A1/en
Publication of WO2013035537A1 publication Critical patent/WO2013035537A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal

Definitions

  • the present invention relates to a digital watermark detection apparatus and digital watermark detection method for detecting digital watermark data embedded in an acoustic signal (speech, music, etc.) that is digital data, and to detect tampering with an acoustic signal using the digital watermark data.
  • the present invention relates to a falsification detection device and a falsification detection method.
  • LSB Least Significant
  • a method of embedding a watermark at an encoding / quantization level as in (Bit replacement) method (see Non-Patent Document 1)
  • a wide range of original signals as in a DSS (Direct Spread Spectrum) method
  • Non-Patent Document 2 There is a method of embedding information in a spectrum.
  • a method based on a perceptual characteristic relating to a phase (3) an echo hiding method (hereinafter referred to as “ECHO method”, refer to Non-Patent Document 3), and (4) a periodic phase modulation (PPM) method (PPM)
  • PPM periodic phase modulation
  • CD Cochlear Delay
  • Non-Patent Document 5 discusses the relationship between the cochlear delay and the determination of sound simultaneity. Specifically, (a) normal (no cochlear delay operation) harmonic complex sound, (b) harmonic complex sound with a group delay that cancels the cochlear delay on the basement membrane of the cochlea, (c) cochlea An auditory psychophysical experiment was performed using three complex tones of harmonic complex tones with increasing group delay, and based on the results of the experiment, what effect cochlear delay has on sound simultaneity Whether to give In this non-patent document 5, it is clarified that the composite sound (c) is used in the same way as the composite sound (a) when compared to the composite sound (b).
  • Non-Patent Documents 6 and 7 propose "CD method".
  • imperceptibility is not perceived by the user and perceptible distortion of the original signal due to embedding does not occur
  • robustness normal signal conversion processing and embedded information Is not affected by malicious attacks such as deletion
  • confidentiality not knowing that the information is embedded, and not being able to detect the information easily even if it is noticed
  • the LSB method (1) above embeds information in lower bits that do not significantly affect amplitude information, it satisfies the imperceptibility, but has a problem with robustness because it is sensitive to bit changes.
  • the DSS method (2) information is embedded in the entire spectrum, so that signal transformation processing is robust. However, since the embedded information can be easily perceived, there is a problem in imperceptibility.
  • the ECHO method of (3) above can adjust the echo time and the amplitude of the primary reflected sound without distortion and realize non-perceptible embedding
  • the watermark information can be obtained by using the autocorrelation method and the cepstrum processing. Can be easily detected / removed, and thus lacks robustness and secrecy among the above conventional methods.
  • the PPM method (4) is based on the auditory characteristic that periodic phase modulation is relatively difficult to perceive. However, since the phase spectrum of frequency components with high phase modulation is randomly distorted, it cannot be perceived. There is a problem with sex.
  • the present invention has been made in view of such circumstances, and a main object thereof is a digital watermark detection apparatus and a digital watermark detection method capable of detecting information embedded by a CD method without referring to an original signal. Is to provide. Another object of the present invention is to provide a falsification detection device and a falsification detection method to which the digital audio watermark technology is applied.
  • a digital watermark detection apparatus performs phase modulation on an acoustic signal, which is digital data, using a cochlear delay filter that simulates cochlear delay characteristics.
  • the digital watermark data embedding device generates a plurality of different phase-modulated acoustic signals by performing phase modulation on the acoustic signals using a plurality of different cochlear delay filters, and according to the digital watermark data Selecting one acoustic signal from the plurality of different phase-modulated acoustic signals, and joining the selected acoustic signals to embed digital watermark data, and estimating the cochlear delay characteristics Means is configured to estimate a plurality of different cochlear delay characteristics respectively simulated by the plurality of different cochlear delay filters, and wherein the digital watermark detection means is the plurality of different cochleas estimated by the cochlear delay characteristic estimation means Based on the delay characteristics, the acoustic signal in which the digital watermark data is embedded is converted into the plurality of different cochlear delay filters.
  • any cochlear delay filter Chi is applied to determine whether the phase modulation is performed, may be configured to detect the electronic watermark data.
  • the cochlear delay characteristic estimating means may be configured to estimate a cochlear delay characteristic by estimating a zero point of the cochlear delay filter.
  • the cochlear delay characteristic estimating means may be configured to estimate a zero point of the cochlear delay filter using chirp z-transform.
  • the acoustic signal before the digital watermark data is embedded You may further provide the original signal acquisition means to acquire.
  • the digital watermark data is obtained by applying an inverse filter of the cochlear delay filter determined by the digital watermark detection means to be applied to the phase modulation of the acoustic signal in which the digital watermark data is embedded. You may further provide the original signal acquisition means which acquires the acoustic signal before being embedded.
  • An electronic watermark detection method performs phase modulation on an acoustic signal that is digital data using a cochlear delay filter that simulates cochlear delay characteristics, and performs digital watermarking on the acoustic signal that has been subjected to the phase modulation.
  • the digital watermark data embedding device generates a plurality of different phase-modulated acoustic signals by performing phase modulation on the acoustic signals using a plurality of different cochlear delay filters, and according to the digital watermark data
  • the digital watermark data is embedded by selecting one acoustic signal from the plurality of different phase-modulated acoustic signals and joining the selected acoustic signals together, the step (a) In the step (b), in the step (b) based on the plurality of different cochlear delay characteristics estimated in the step (a),
  • the acoustic signal embedded with the digital watermark data is one of the plurality of different cochlear delay filters. By filter is applied to determine whether the phase modulation is performed, it may be detected electronic watermark data.
  • the cochlear delay characteristic may be estimated by estimating the zero point of the cochlear delay filter.
  • the zero point of the cochlear delay filter may be estimated using chirp z-transform in step (a).
  • the tampering detection apparatus using the digital watermark performs phase modulation on an acoustic signal that is digital data by using a cochlear delay filter that simulates cochlear delay characteristics.
  • a tamper detection device that detects tampering of the acoustic signal after the digital watermark data is embedded, and estimates the cochlear delay characteristic simulated by the acoustic signal acquisition means for acquiring the acoustic signal from the outside and the cochlear delay filter
  • the embedded data detected by the embedded data detecting means and the digital watermark data are collated That includes a matching means, based on a result of collation by the collating means, and determining alteration determination means for determining whether or not the
  • the falsification detection method using the digital watermark performs phase modulation on an acoustic signal that is digital data by using a cochlear delay filter that simulates the cochlear delay characteristic.
  • a tamper detection method for detecting tampering with the sound signal after the digital watermark data is embedded, the step (a) of acquiring the sound signal from the outside, and estimating a cochlear delay characteristic simulated by the cochlear delay filter Step (b), detecting step (c) embedded data embedded in the acquired acoustic signal based on the estimated cochlear delay characteristics, and detecting the embedded data and the watermark data
  • the digital watermark detection apparatus and digital watermark detection method of the present invention it is possible to detect digital watermark data embedded by the CD method without referring to the original signal. Moreover, according to the tampering detection method and tampering detection apparatus using the digital watermark according to the present invention, it is possible to accurately detect tampering with respect to an acoustic signal.
  • 1 is a block diagram showing a configuration of a digital watermark embedding apparatus according to an embodiment of the present invention.
  • 1 is a functional block diagram showing a configuration of a digital watermark embedding device according to an embodiment of the present invention.
  • the graph which shows the characteristic of the cochlear delay filter with which the digital watermark embedding apparatus in embodiment of this invention is provided.
  • 1 is a block diagram showing a configuration of a digital watermark detection apparatus according to an embodiment of the present invention.
  • the functional block diagram which shows the structure of the digital watermark detection apparatus which concerns on embodiment of this invention.
  • the graph which shows the result of the frequency analysis by chirp z conversion.
  • the flowchart which shows the procedure of the digital watermark embedding process which the digital watermark embedding apparatus in embodiment of this invention performs.
  • the flowchart which shows the procedure of the digital watermark detection process which the digital watermark detection apparatus in embodiment of this invention performs.
  • the graph which shows the result of objective evaluation experiment.
  • the flowchart which shows the procedure of the original signal acquisition process which the digital watermark detection apparatus in embodiment of this invention performs.
  • Explanatory drawing which shows the outline
  • the functional block diagram which shows the structure of the tampering detection apparatus which concerns on Embodiment 2 of this invention.
  • the flowchart which shows the procedure of the embedded data detection process which the tampering detection apparatus in Embodiment 2 of this invention performs.
  • FIG. 9 is a functional block diagram illustrating configurations of a digital watermark embedding device and a falsification detection device according to a third embodiment.
  • 10 is a flowchart illustrating a procedure of digital watermark embedding processing executed by the digital watermark embedding device according to the third embodiment.
  • FIG. 9 is a functional block diagram illustrating a configuration of a digital watermark embedding device according to a third embodiment. The flowchart which shows the procedure of an embedded data detection process (non-blind detection).
  • FIG. 9 is a functional block diagram illustrating a configuration of a tampering detection apparatus according to a third embodiment. The graph which shows the result of objective evaluation experiment. The graph which shows the result of a tolerance evaluation test.
  • the figure which shows the example of the bitmap image used as electronic watermark data The figure which shows the bitmap image after the detection in the case where tampering is not performed on the acoustic signal.
  • the figure which shows the difference of the spectrum in the case of information substitution type alteration, the difference of a spectrum when a bit value is 0 and 1, and a detected value.
  • the flowchart which shows the procedure of the tampering mode determination process which a tampering detection apparatus performs.
  • the digital watermark detection apparatus is an apparatus that can detect digital watermark data embedded in an original signal without referring to the original signal. This detection of digital watermark data without referring to the original signal is referred to as “blind detection” in this specification.
  • blind detection the digital watermark detection apparatus and the digital watermark embedding apparatus for embedding digital watermark data will be described.
  • FIG. 1 is a block diagram showing a configuration of a digital watermark embedding apparatus according to an embodiment of the present invention.
  • the digital watermark embedding apparatus 1 includes a CPU 11, a ROM 12, a RAM 13, a signal input unit 14, a signal output unit 15, and a hard disk 16, and these CPU 11, ROM 12, RAM 13, and signal input unit 14.
  • the signal output unit 15 and the hard disk 16 are connected by a bus 17.
  • the CPU 11 executes computer programs stored in the ROM 12 and the hard disk 16. As a result, the digital watermark embedding apparatus 1 executes an operation as described later, and realizes embedding of the digital watermark data into the acoustic signal.
  • the ROM 12 is configured by a mask ROM, PROM, EPROM, EEPROM, or the like, and stores a computer program executed by the CPU 11, data used for the same, and the like.
  • the RAM 13 is configured by SRAM, DRAM or the like, and is used for reading a program stored in the hard disk 16.
  • the RAM 13 is also used as a work area for the CPU 11 when the CPU 11 executes a computer program.
  • the signal input unit 14 receives an input of an acoustic signal as an original signal to be processed and digital watermark data embedded in the acoustic signal from an external device.
  • the signal output unit 15 outputs an acoustic signal in which the digital watermark data is embedded (hereinafter referred to as “watermarked acoustic signal”) to an external device.
  • the acoustic signal that is the original signal is digital data.
  • the sound signal may be analog data.
  • the signal input unit 14 having an A / D conversion function converts the input sound signal into digital data by A / D conversion.
  • the subsequent processing may be performed.
  • the hard disk 16 is installed with an operating system, application programs, and the like, various computer programs to be executed by the CPU 11, data used for executing the computer programs, and the like.
  • This computer program includes a digital watermark embedding program 16A for embedding digital watermark data.
  • the digital watermark embedding program 16A installed on the hard disk 16 is read from a portable recording medium via an external storage device (not shown) such as a flexible disk drive, a CD-ROM drive, or a DVD-ROM drive.
  • an external storage device such as a flexible disk drive, a CD-ROM drive, or a DVD-ROM drive.
  • the digital watermark is not only provided by the portable recording medium as described above, but also from an external device that is communicably connected to the digital watermark embedding device 1 via a telecommunication line (whether wired or wireless). It is also possible to provide an embedded program 16A. For example, when the digital watermark embedding program 16A is stored in the hard disk of a server computer on the Internet, the digital watermark embedding apparatus 1 accesses this server computer, downloads the computer program, and stores it in the hard disk 16 can also be installed.
  • the multi-task operating system such as Windows (registered trademark) manufactured and sold by US Microsoft Co. is installed in the hard disk 16.
  • Windows registered trademark
  • US Microsoft Co. The multi-task operating system
  • the digital watermark embedding apparatus 1 includes a frame processing unit 101 that frames an acoustic signal x (n), two cochlear delay filters 102a and 102b, and a value of digital watermark data s (k). And a filter selection unit 103 that selects one of the first cochlear delay filter 102a and the second cochlear delay filter 102b.
  • the filter selection unit 103 selects the first cochlear delay filter 102a when the bit value of the digital watermark data is “0”, and selects the second cochlear delay filter 102b when the bit value is “1”.
  • the first cochlear delay filter 102a and the second cochlear delay filter 102b give a group delay to the acoustic signal as described later. In this way, the acoustic signals to which the group delay is added are integrated, and a watermarked acoustic signal y (n) that is an acoustic signal in which digital watermark data is embedded is generated.
  • the frame processing unit 101, the first cochlear delay filter 102a and the second cochlear delay filter 102b, and the filter selection unit 103 are realized by the CPU 11 executing the digital watermark embedding program 16A. Is done.
  • the first cochlear delay filter 102a and the second cochlear delay filter 102b are digital filters that simulate the cochlear delay characteristics of human hearing, and specifically, only the phase characteristics are not affected at all by the amplitude component. It is composed of an all-pass filter that changes.
  • cochlear delay filters 102a and 102b are configured by first-order infinite impulse response type all-pass filters defined by a transfer function H (z) of the following equation (1).
  • H (z) a transfer function of the following equation (1).
  • b m represents a filter coefficient of H m (z).
  • the filter order may be 1st or more, and the filter cascade stage is 1 or more. May be.
  • the group delay ⁇ m ( ⁇ ) given by the first cochlear delay filter 102a and the second cochlear delay filter 102b is calculated by the following equation (2).
  • FIG. 3 is a graph showing characteristics of the first cochlear delay filter 102a and the second cochlear delay filter 102b included in the digital watermark embedding device 1 according to the first embodiment of the present invention.
  • the vertical axis represents the group delay
  • the horizontal axis represents the frequency of the acoustic signal.
  • the thin solid line indicates the cochlear delay characteristic obtained by reducing the cochlear delay in human hearing to 1/10 times.
  • the characteristic of 2 cochlear delay filter 102b is shown.
  • the cochlear delay characteristic shown by the thin solid line in FIG. 3 is “T. Dau, O. Wegner, V. Mellert, and B. Kollmeier,“ Auditory brainstem responses (ABR) with optimized chirp signals compensating basilar membrane dispersion , "J.” Acoust. "Soc.” Am., "107,” 1530-1540, "2000”.
  • the first cochlear delay filter 102a and the second cochlear delay filter 102b are respectively adapted to the acoustic signal x (n) that is the original signal according to the following formulas (3) and (4).
  • the filter selection unit 103 selects and integrates the intermediate signals w 0 (n) and w 1 (n) for each frame according to the bit value of the digital watermark data, thereby expressing the following equation (5).
  • a watermarked acoustic signal y (n) is acquired.
  • (k ⁇ 1) ⁇ W ⁇ n ⁇ k ⁇ W is satisfied.
  • f s represents the sampling frequency of the original signal
  • N bit represents the information embedding bit rate per second.
  • FIG. 4 is a block diagram showing the configuration of the digital watermark detection apparatus according to the embodiment of the present invention.
  • the digital watermark detection apparatus 2 includes a CPU 21, a ROM 22, a RAM 23, a signal input unit 24, and a hard disk 25, similar to the digital watermark embedding apparatus 1, and these CPU 21 and ROM 22.
  • the RAM 23, the signal input unit 24, and the hard disk 25 are connected by a bus 26.
  • each of the CPU 21, ROM 22, and RAM 23 is the same as the CPU 11, ROM 12, and RAM 13 provided in the digital watermark embedding apparatus 1, description thereof will be omitted.
  • the signal input unit 24 receives an input of a watermarked acoustic signal from an external device.
  • the watermarked acoustic signal may be directly input from the digital watermark embedding device 1 to the signal input unit 24, or may be input via another device and / or a communication network.
  • the hard disk 25 is installed with an operating system and various computer programs to be executed by the CPU 21.
  • This computer program includes a digital watermark detection program 25A for detecting digital watermark data.
  • the digital watermark detection program 25A installed in the hard disk 25 may be provided by a portable recording medium or may be provided via an electric communication line.
  • the digital watermark detection program 25A operates on an operating system installed in the hard disk 25, as in the digital watermark embedding program 16A.
  • the digital watermark detection apparatus 2 includes a frame processing unit 201 that frames the watermarked audio signal y (n) generated by the digital watermark embedding apparatus 1, and a framed watermarked audio signal. Based on two chirp z-transformers 202a and 202b that perform chirp z-transform on y (n), and the result of chirp z-transform by these first chirp z-transformer 202a and second chirp z-transformer 202b A bit value detecting unit 203 for detecting the bit value of the digital watermark data.
  • the CPU 21 executes the digital watermark detection program 25A in the frame processing unit 201, the first chirp z conversion unit 202a, the second chirp z conversion unit 202b, and the bit value detection unit 203. It is realized by.
  • the chirp z-transform is expressed by the following equation (6).
  • ⁇ 0 and ⁇ 0 are initial phases.
  • CZT matches DFT.
  • blind detection of digital watermark data embedded in an acoustic signal is realized using the first cochlear delay filter 102a and the second cochlear delay filter 102b by using the chirp z-transform described above.
  • the principle of blind detection will be described.
  • the poles and zeros of the first cochlear delay filter 102a and the second cochlear delay filter 102b are arranged as shown in FIG.
  • These cochlear delay filters 102a and 102b are first-order IIR all-pass filters as described above, and their poles (“ ⁇ ” in FIG. 6) and zero points (“ ⁇ ” in FIG. 6) are centered.
  • in FIG. 6
  • b m and 1 / b m the pole approaches the center point and the zero point moves away from the unit circle toward the outside.
  • the watermarked acoustic signal y (n) is observed as a signal in which the delay information as described above is embedded. Therefore, blind detection can be realized by estimating the positions of the poles and zeros of the cochlear delay filter used for providing delay information, that is, delay information, from y (n).
  • the original signal x (n) itself has a pole and a zero as the characteristics of the sequence (such as a pole related to the attenuation of the signal when the sound source is bounded)
  • an instrument sound which is an original signal is set to x (n), and a signal in which digital watermark data of “AIS-Lab.” Is embedded using the first cochlear delay filter 102a and the second cochlear delay filter 102b is expressed as y (n ).
  • FIG. 7 is a graph showing the analysis results. 7 (a) to (i) show the frequency spectrum of x (n) in frame # 1, y (n) in frame # 1, and y (n) in frame # 2 from the top to the left, from right to left.
  • FIG. 7 (g) in the analysis result regarding x (n), no particular change is observed in the spectrum near the frequency of the pole and zero arrangement.
  • the position of the zero point of the cochlear delay filter is estimated from y (n) by performing the chirp z-transform along the locus on the z plane so as to cross the zero point of the cochlear delay filter regardless of the target signal. It can be seen that it is possible. In principle, it is also possible to perform chirp z-transform with r being a pole value instead of a zero point (in the case of a pole, a spectrum peak of ⁇ dB is obtained), but dynamics on the computer It is preferable to use a zero because an overflow in the range must be detected. When the zero point is used, it is sufficient to search for 0 within the dynamic range, so that easier processing is sufficient.
  • Chirp z transformation is performed along the locus on the z plane.
  • the target signal is given a group delay by either the first cochlear delay filter 102a (filter coefficient b 0 ) or the second cochlear delay filter 102b (filter coefficient b 1 ). It is possible to estimate whether it is a thing.
  • FIG. 8 is a flowchart showing the procedure of the digital watermark embedding process executed by the digital watermark embedding apparatus 1 in the embodiment of the present invention.
  • the frame processing unit 101 divides an externally input acoustic signal (original signal) into each frame (S101).
  • the filter selection unit 103 selects a cochlear delay filter to be applied according to the bit value of the digital watermark data.
  • the bit value of the digital watermark data input from the outside and converted into binary representation data is “0” or “1” (S102), and according to the determination result Then, one of the first cochlear delay filter 102a and the second cochlear delay filter 102b is selected.
  • the digital watermark data include copyright information such as a copyright holder name or a serial number.
  • step S102 When it is determined in step S102 that the bit value of the digital watermark data is “0” (“0” in S102), the digital watermark embedding device 1 uses the first cochlear delay filter 102a to generate an acoustic signal (original signal). ) Is subjected to phase modulation (S103). On the other hand, when it is determined that the bit value of the digital watermark data is “1” (“1” in S102), the digital watermark embedding device 1 uses the second cochlear delay filter 102b to generate an acoustic signal (original signal). Is subjected to phase modulation (S104). Through these steps S103 and S104, the digital watermark data is embedded by an acoustic signal.
  • the digital watermark embedding apparatus 1 determines whether or not all the bits of the digital watermark data embedded in the frame have been processed (S105). If it is determined that there is a bit that has not yet been processed (NO in S105), the digital watermark embedding apparatus 1 returns to step S102 and repeats the subsequent processing. On the other hand, if it is determined that all the bits have been processed (YES in S105), the digital watermark embedding device 1 joins the audio signal in which each bit of the digital watermark data is embedded in steps S103 and S104, thereby providing a watermark. An incoming sound signal is generated (S106).
  • the above-described digital watermark embedding process is performed for all frames, and by connecting them, a watermarked acoustic signal y (n) is generated.
  • a watermarked acoustic signal y (n) is generated.
  • several points after the frame before the connection about 1 ms It is desirable to smooth the image with spline interpolation.
  • the digital watermark detection apparatus 2 stores information indicating the bit rate when the digital watermark data is embedded by the digital watermark embedding apparatus 1, and sets the following segments based on the information. To do.
  • FIG. 9 is a flowchart showing a procedure of digital watermark detection processing executed by the digital watermark detection apparatus 2 according to the embodiment of the present invention.
  • the frame processing unit 201 divides a watermarked acoustic signal input from the outside into frames (S201).
  • the digital watermark detection apparatus 2 sets a segment to be processed (S202), and the first chirp z conversion unit 202a performs chirp z conversion on the acoustic signal of the segment (S203).
  • the second chirp z conversion unit 202b performs chirp z conversion on the same acoustic signal (S204).
  • the digital watermark detection apparatus 2 determines whether one of the two frequency spectra obtained in steps S203 and S204 has a sharp decrease in the value of the spectrum at the lowest frequency. Based on the determination result, the zero point of the cochlear delay filter obtained by phase-modulating the acoustic signal is estimated (S205). In the case of the present embodiment, when the spectrum value rapidly decreases as described above is the frequency spectrum obtained by the first chirp z-transformer 202a, the zero point is 1 / b 0. If the frequency spectrum is also estimated and obtained by the second chirp z-transformer 202b, the zero point is estimated to be 1 / b 1 .
  • the digital watermark detection apparatus 2 determines in the bit value detection unit 203 whether the zero point of the cochlear delay filter estimated in step S205 is 1 / b 0 or 1 / b 1 (S206). When it is determined that 1 / b 0 (1 / b 0 in S206), the bit value “0” is detected (S207). On the other hand, when it is determined as 1 / b 1 (1 / b 1 in S206), the bit value “1” is detected (S208).
  • the digital watermark detection apparatus 2 determines whether or not all segments of the processing target frame have been processed (S209). If it is determined that there is a segment that has not yet been processed (NO in S209), the digital watermark detection apparatus 2 returns to step S202 and repeats the subsequent processing. On the other hand, if it is determined that processing has been performed for all segments (YES in S209), the digital watermark detection apparatus 2 joins the bit values detected by the bit value detection unit 203 in steps S207 and S208, thereby adding digital watermark data. Is restored (S210).
  • the digital watermark data embedded in the acoustic signal can be blind-detected using the cochlear delay filter.
  • RWC music database (Goto, Hashiguchi, Nishimura, Oka, “RWC research music database: music genre database and instrument sound database,” affairs research report, 2002-MUS-45-4, 19- 26, 2002) was used as an original signal for evaluation (sampling frequency 44.1 kHz, 16-bit quantization), and an objective evaluation experiment was conducted.
  • the first 10 seconds is used as the original music
  • 8-character information (“AIS-Lab.”) Is embedded in each original signal as watermark information.
  • sound quality evaluation based on “Y. Lin and WH Abdulla,“ Perceptual evaluation of audio watermarking using objective quality measure, ”Proc. ICASSP2008, 1745-1748, 2008, the perceptual evaluation scale (PEAQ) for audio signals (P. Kabal, “An examination and interpretation of ITU-R BS.1387: Perceptual evaluation of audio quality,” TSP Lab. Technical Report, Dept. Electrical & Computer Engineering, McGUniv. 2002) and logarithmic spectral distortion scale (LSD) .
  • PEAQ perceptual evaluation scale
  • LSB method As a method to be compared, LSB method, DSS method, ECHO method, and PPM method, which are typical electronic acoustic watermarking methods, were used. These methods are all blind detection methods except for the PPM method.
  • the CD method proposed by the inventors in Non-Patent Documents 6 and 7 was also compared.
  • the CD method to be compared is referred to as a CD (Non-Blind) method
  • the digital watermark detection method of the present embodiment is referred to as a CD (Blind) method.
  • FIG. 10 is a graph showing the results of the objective evaluation experiment, and (a) to (c) show the experimental results for PEAQ, LSD, and bit detection rate, respectively. In addition, in FIG. 10, the average value about said 102 music is shown.
  • the result shown in FIG. 10B LSD is said to have good sound quality if it is a distortion within 1 dB. Therefore, the LSD threshold is set to 1 dB here. As shown in FIG. 10B, the LSB method is not affected by distortion due to embedding even when the bit rate is changed, and a good result is obtained. On the other hand, in the case of the DSS method, it is above the evaluation threshold regardless of the increase in bit rate, and it can be seen that there is a problem in sound quality evaluation. Both the ECHO method and the PPM method are within the evaluation threshold, and it cannot be said that there is a problem with respect to sound quality.
  • the CD (Non-Blind) method is within the threshold value at all bit rates, and has a good result of maintaining within 0.5 dB up to 256 bps.
  • the CD (Blind) method monotonously increases with the increase in bit rate, and is below the threshold value (-1 dB) up to N bit ⁇ 1024 bps, but compared with the CD (Non-Blind) method. It is a slightly large value.
  • the LSD in the CD (Blind) method is slightly smaller than that in the CD (Non-Blind) method. Note that the difference in the LSD between the CD (Blind) method and the CD (Non-Blind) method is not as great as in the case of PEAQ shown in FIG. This is considered to be due to the difference between the two in the scale based on the auditory impression, compared with the case of looking at simple spectral distortion.
  • the threshold of the bit detection rate is set to 75%.
  • the bit detection rate is hardly lowered, and a good result is obtained as compared with the CD (Non-Blind) method. Specifically, N bit ⁇ 512 is almost 100%, reaching 1024 bps and 98%.
  • the LSB method gives the best results.
  • the LSB method has a big problem in robustness because it cannot be detected when the embedded signal is altered even a little. Is pointed out in Non-Patent Documents 6 and 7, etc.
  • the CD (Non-Blind) method “Unoki, M., Imabeppu, K., Hamada, D., Haniu, A., and Miyauchi, R.“ Embedding limitations with digital-audio watermarking method based On cochlear delay characteristics, "J. Information Hiding and Multimedia Signal Processing, 2 (1), 1-23, 2011" etc., it has sufficient robustness.
  • the CD (Non-Blind) method has a problem that blind detection cannot be performed. In the CD (Blind) method of the present embodiment, this problem can be solved and excellent perceptibility and robustness can be obtained. Is possible.
  • FIG. 11 is a flowchart showing the procedure of the original signal acquisition process executed by the digital watermark detection apparatus 2 in the embodiment of the present invention.
  • the digital watermark detection apparatus 2 is an inverse filter of the first cochlear delay filter 102a and the second cochlear delay filter 102b included in the digital watermark embedding apparatus 1, that is, the first cochlear delay filter 102a and the second cochlear delay filter. It is assumed that a filter having a reverse characteristic of the cochlear delay characteristic simulated by 102b is provided.
  • the frame processing unit 201 divides the watermarked acoustic signal input from the outside into frames (S301).
  • the digital watermark detection apparatus 2 refers to the digital watermark data detected by the digital watermark detection process (S302), and whether the bit value of the digital watermark data is “0” or “1”. Is determined (S303).
  • step S303 When it is determined in step S303 that the bit value of the digital watermark data is “0” (“0” in S303), the digital watermark detection apparatus 2 uses the inverse filter of the first cochlear delay filter 102a to perform watermarked sound. Phase modulation is performed on the signal (S304). On the other hand, when it is determined that the bit value of the digital watermark data is “1” (“1” in S303), the digital watermark detection apparatus 2 uses the inverse filter of the second cochlear delay filter 102b to apply the watermarked acoustic signal. Is subjected to phase modulation (S305).
  • the digital watermark embedding apparatus 1 determines whether or not all the bits of the digital watermark data embedded in the frame have been processed (S306). If it is determined that there is a bit that has not yet been processed (NO in S306), the digital watermark detection apparatus 2 returns to step S303 and repeats the subsequent processing. On the other hand, if it is determined that all the bits have been processed (YES in S306), the digital watermark detection apparatus 2 restores the original signal by joining the acoustic signals that have been subjected to phase modulation in steps S304 and S305. (S307).
  • the original signal is acquired by performing the above-described original signal acquisition process for all frames and connecting them.
  • the digital watermark embedding process in order to prevent the perceptibility from being affected by the occurrence of discontinuous points at the connection points of the frames, several points behind the frame before the connection part ( It is desirable to smoothen 1 ms) by spline interpolation.
  • FIG. 12 is a graph showing the result of the objective evaluation experiment on the watermarked acoustic signal generated by the digital watermark embedding process in the CD (Non-Blind) method and the CD (Blind) method. c) show experimental results for PEAQ, LSD, and bit detection rate, respectively. FIG. 12 shows the average value for the 102 songs.
  • FIG. 12 the results of the CD (Blind) method are shown separately when the above-described spline interpolation is performed (Blind (with Spline)) and when it is not performed (Blind (without Spline)).
  • FIG. 12 it can be seen that the spline interpolation produces better results for any of PEAQ, LSD, and bit detection rate. However, there is almost no difference in the bit detection rate.
  • FIG. 13 is a graph showing the result of the objective evaluation experiment before and after deleting the digital watermark data by the original signal acquisition processing of the present embodiment, and (a) to (c) are respectively shown.
  • the experimental result about PEAQ, LSD, and SNR (Signal-Noise Ratio) is shown.
  • SNR S means the original signal
  • N means the difference between the original signal and the recovery signal (the signal obtained by the original signal acquisition process).
  • the average value for the 102 songs is also shown here.
  • the result after the deletion is generally better than that before the deletion of the digital watermark data. This is particularly noticeable in the SNR shown in FIG. Since the SNR increases as the recovery signal approaches the original sound, the result shown in FIG. 13C indicates that the signal acquired by the original signal acquisition processing of the present embodiment is close to the original signal, in other words, watermarked. It can be said that the digital watermark data embedded from the acoustic signal can be effectively deleted.
  • the original signal can be obtained by removing the digital watermark data from the watermarked acoustic signal by a simple process of performing phase modulation using the inverse filter of the cochlear delay filter.
  • the original signal can be acquired, it is possible to embed new digital watermark data in the original signal and distribute it. Accordingly, it is possible to realize an electronic audio watermark technique that can update the contents of embedded information (for example, copyright information, serial number, etc.).
  • the second embodiment is a tampering detection apparatus that can detect tampering with an acoustic signal by using the watermark detection method described in the first embodiment.
  • the acoustic signal may be falsified in a manner not intended by the original owner.
  • it is difficult to detect such tampering with respect to the acoustic signal at the present time there is a possibility that unauthorized duplicated data that has been tampered with may be spread.
  • the present inventors have focused on multimedia information hiding (MIH) technology, and based on digital watermark data embedded in the acoustic signal, the acoustic signal I have learned how to determine whether or not tampering has occurred.
  • MIH multimedia information hiding
  • the present inventors have thought that the use of digital watermark data in this way can detect tampering also as a measure against illegal copying, and thus can be applied to various areas.
  • the configuration and operation of the tampering detection apparatus according to the present embodiment will be described.
  • FIG. 14 is an explanatory diagram showing an overview of a falsification detection system according to Embodiment 2 of the present invention.
  • the tampering detection system according to the present embodiment includes the digital watermark embedding device 1 described in the first embodiment and the tampering detection device 3 that detects tampering with an acoustic signal.
  • the owner of the acoustic signal inputs the owned acoustic signal to the digital watermark embedding apparatus 1.
  • the digital watermark embedding apparatus 1 receives an acoustic signal and embeds digital watermark data in the acoustic signal.
  • the watermarked acoustic signal generated in this way is distributed to each user via a communication network such as the Internet and other means.
  • the falsification detection device 3 that has acquired the illegally distributed falsification sound signal detects falsification in the falsification sound signal by using the digital watermark data embedded in the sound signal by the digital watermark embedding device 1.
  • the falsification detection by the falsification detection system of the present embodiment is realized by the cooperation of the digital watermark embedding apparatus 1 and the falsification detection apparatus 3.
  • the alteration detection device 3 will be described.
  • FIG. 15 is a block diagram showing the configuration of the tampering detection apparatus according to Embodiment 1 of the present invention.
  • the falsification detection device 3 includes a CPU 31, a ROM 32, a RAM 33, a signal input unit 34, a hard disk 35, a display unit 36, and an acoustic output unit 37.
  • These CPU 31, ROM 32, RAM 33, signal The input unit 34, hard disk 35, display unit 36, and sound output unit 37 are connected by a bus 38.
  • each of the CPU 31, ROM 32, and RAM 33 is the same as the CPU 11, ROM 12, and RAM 13 provided in the digital watermark embedding apparatus 1, description thereof is omitted.
  • the signal input unit 34 receives an input of an acoustic signal that is a target of tampering detection from an external device.
  • This acoustic signal includes a watermarked acoustic signal generated by the digital watermark embedding device 1 and a tampered acoustic signal generated by tampering with the watermarked acoustic signal.
  • the hard disk 35 is installed with an operating system and various computer programs to be executed by the CPU 31.
  • This computer program includes a falsification detection program 35A that detects embedded data embedded in an acoustic signal that is subject to falsification detection and determines whether or not falsification has occurred based on the detected embedded data.
  • the falsification detection program 35A installed in the hard disk 35 may be provided by a portable recording medium or may be provided via an electric communication line. Further, it is assumed that the falsification detection program 35A operates on an operating system installed in the hard disk 35, as in the case of the digital watermark embedding program 16A.
  • the display unit 36 is composed of a liquid crystal display or the like, and displays an image (screen) in accordance with an instruction from the CPU 31.
  • the sound output unit 37 is configured with a speaker or the like, and outputs a sound signal in accordance with an instruction from the CPU 31.
  • FIG. 16 is a functional block diagram showing the configuration of the CPU 31.
  • the CPU 31 includes an embedded data detection unit 301, a digital watermark data generation unit 302, a data collation unit 303, and a falsification detection unit 304.
  • the embedded data detection unit 301 detects embedded data embedded in an acoustic signal supplied from the outside via the signal input unit 34.
  • the detailed configuration of the embedded data detection unit 301 will be described later with reference to FIG.
  • the digital watermark data generation unit 302 generates image data (digital watermark data), which is bit string data, using owner information supplied from the outside via the signal input unit 34.
  • the owner information is the same as that supplied to the digital watermark data generation unit 101 of the digital watermark embedding apparatus 1. Therefore, the digital watermark embedding apparatus 1 and the falsification detection apparatus 3 generate the same digital watermark data.
  • the data collating unit 303 collates the embedded data detected by the embedded data detecting unit 301 with the digital watermark data generated by the digital watermark data generating unit 302.
  • the falsification detection unit 304 determines whether or not the falsification detection target acoustic signal has been falsified based on the result of collation by the data collation unit 303.
  • FIG. 17 is a functional block diagram illustrating a configuration of the embedded data detection unit 301.
  • the embedded data detection unit 301 is a frame processing unit 301a that frames the acoustic signal y (n) to be detected from the outside, which is the same as the frame processing unit 201 in the first embodiment.
  • a bit value detection unit 301d that detects the bit value of the embedded data based on the result of the chirp z conversion by the first chirp z conversion unit 301b and the second chirp z conversion unit 301c (the bit value in the first embodiment) The same configuration as the detection unit 203).
  • these embedded data detection units 301 (frame processing unit 301a, first chirp z conversion unit 301b and second chirp z conversion unit 301c, and bit value detection unit 301d), digital watermark data generation unit 302, the data collation unit 303, and the falsification detection unit 304 are realized by the CPU 31 executing the falsification detection program 35A.
  • the digital watermark embedding apparatus 1 generates a watermarked acoustic signal by executing a process similar to the digital watermark embedding process in the first embodiment described above with reference to the flowchart of FIG.
  • the watermarked acoustic signal generated in this way is converted into an appropriate format by the encoding processing unit 303 as described above, and is output to the outside for distribution to the user.
  • the falsification detection device 3 stores information indicating the bit rate when the digital watermark data is embedded by the digital watermark embedding device 1, and sets the following segments based on the information. .
  • FIG. 18 is a flowchart showing a procedure of embedded data detection processing executed by the falsification detection device 3.
  • the tampering detection device 3 divides the tampering detection target acoustic signal acquired from the outside into each frame in the frame processing unit 301a (S401).
  • the falsification detection device 3 sets a segment to be processed (S402), and performs chirp z conversion on the acoustic signal of the segment in the first chirp z conversion unit 301b (S403).
  • S404 Digital watermark detection processing
  • the falsification detection device 3 determines which of the two frequency spectra obtained in steps S403 and S404 has a sharp decrease in the value of the spectrum at the lowest frequency. Based on the result, the zero point of the cochlear delay filter obtained by phase-modulating the acoustic signal is estimated (S405).
  • the zero point is 1 / b 0. it is estimated, if also the frequency spectrum obtained by the second chirp z-transform unit 301c the zero point is estimated to be 1 / b 1.
  • the tampering detection apparatus 3 determines in the bit value detection unit 301d whether the zero point of the cochlear delay filter estimated in step S405 is 1 / b 0 or 1 / b 1 (S406). When it is determined as / b 0 (“1 / b 0 ” in S406), the bit value “0” is detected (S407). On the other hand, when it is determined as 1 / b 1 (“1 / b 1 ” in S406), the bit value “1” is detected (S408).
  • the falsification detection device 3 determines whether or not all segments of the processing target frame have been processed (S409). If it is determined that there is a segment that has not yet been processed (NO in S409), the falsification detection device 3 returns to step S402 and repeats the subsequent processing. On the other hand, if it is determined that all segments have been processed (YES in S409), the alteration detection device 3 restores the embedded data by joining the bit values detected by the bit value detection unit 303 in steps S407 and S408. (S410).
  • the embedded data embedded in the acoustic signal can be blind-detected using the cochlear delay filter.
  • FIG. 19 is a flowchart showing the procedure of falsification determination processing executed by the falsification detection device 3.
  • the falsification detection device 3 includes a digital collation data (bit string) generated by the digital watermark data generation unit 302 in the data collating unit 303 and embedded data (detected and restored by the embedded data detection unit 301 as described above). (Bit string) is collated for each bit (S501). As a result, if the bit values of all the bits in both data match (YES in S502), the falsification detection device 3 displays a falsification non-detection message indicating that falsification has not been detected from the falsification detection target acoustic signal.
  • the information is displayed on the display unit 36 (S503).
  • the tampering detection device 3 identifies a mismatching bit (S504) and displays a tampering detection message indicating that the tampering has been performed on the bit. This is displayed on the part 36 (S505).
  • the tamper detection device 3 includes all of the acoustic signals in which tampering is detected or one of the tampered bits when the tamper detection message is displayed in accordance with an instruction from the user or in step S505 described above.
  • the sound output unit 37 may output the unit. In this case, when outputting the bit portion that has been tampered with, it is desirable to display on the display unit 36 that the portion has been tampered with. Thereby, the user can easily confirm which part has been tampered with.
  • the digital watermark data is not easily broken when signal conversion (speech coding) is performed on the acoustic signal, and on the other hand, the acoustic signal is not tampered with. It becomes fragile when done. Therefore, in the case of the present embodiment, it is possible to accurately determine the presence or absence of tampering by measuring the degree of breakage of the digital watermark data.
  • the tampering detection apparatus uses blind detection.
  • the falsification detection apparatus uses non-blind detection (detects digital watermark data with reference to the original signal).
  • the configuration and operation of the tampering detection apparatus according to the present embodiment will be described. Note that the hardware configurations of these digital watermark embedding device and falsification detection device are the same as those of the digital watermark embedding device 1 and the falsification detection device 3 described above, and a description thereof will be omitted.
  • FIG. 20 is a functional block diagram showing configurations of the digital watermark embedding device and the falsification detection device according to the third embodiment.
  • the digital watermark embedding device 4 includes an encoding unit 401 that converts digital watermark data into data of a predetermined expression, a first cochlear delay filter 402a and a second cochlear delay filter 402b, which will be described later. And a selective load sum joint 403 that executes a selective load sum process.
  • the encoding unit 401, the first cochlear delay filter 402a and the second cochlear delay filter 402b, and the selective load sum joining unit 403 are processed by the CPU of the digital watermark embedding device 4 as described later. This is realized by executing a digital watermark embedding program for watermark embedding processing.
  • the first cochlear delay filter 402a and the second cochlear delay filter 402b are the same as the first cochlear delay filter 102a and the second cochlear delay filter 102b in the first embodiment, and thus description thereof is omitted.
  • the tampering detection apparatus 5 detects the phase difference between the acoustic signals and the acoustic calculation target 501a and 501b for obtaining the phase spectrum of the acoustic signal and the acoustic signal (original signal), respectively.
  • a phase difference detection unit 502 that performs the decoding and a decoding unit 503 that restores the embedded data.
  • the phase calculation units 501a and 501b, the phase difference detection unit 502, and the decoding unit 503 are such that the CPU of the falsification detection device 5 executes a falsification detection program for falsification detection processing described later. It is realized by.
  • FIG. 21 is a flowchart showing a procedure of digital watermark embedding processing executed by the digital watermark embedding device 3 according to the second embodiment.
  • the encoding unit 401 converts the digital watermark data embedded in the acoustic signal into binary representation data (S601).
  • This digital watermark data is bitmap format image data, as in the first embodiment.
  • the digital watermark data converted into the binary number representation in this way is output to the selective load sum junction unit 403.
  • the digital watermark embedding device 4 performs phase modulation on the externally input acoustic signal (original signal) using the first cochlear delay filter 402a and the second cochlear delay filter 402b (S602).
  • the first cochlear delay filter 402a and the second cochlear delay filter 402b are generated.
  • the two acoustic signals phase-modulated using the first cochlear delay filter 402a and the second cochlear delay filter 402b in this way are output to the selective load sum junction 403.
  • the digital watermark embedding device 4 executes the following selective load sum processing in the selective load sum joining unit 403 to embed the digital watermark data in the phase-modulated acoustic signal (S603).
  • the selective load sum processing when the bit of the digital watermark data is 0, the acoustic signal output from the first cochlear delay filter 402a is selected, and when the bit is 1, the acoustic signal output from the second cochlear delay filter 402b is selected. Is done. Then, the selected acoustic signals are joined together to generate a watermarked acoustic signal in which digital watermark data is embedded.
  • the acoustic signals are joined by load-summing the acoustic signals so that a sudden phase change does not occur in the joined portions.
  • This load sum processing is performed, for example, by applying a ramped-cos load. By performing such load sum processing, distortion of the watermarked acoustic signal is reduced.
  • step S601 the digital watermark data is converted into binary representation data s (k).
  • step S602 if the acoustic signal that is the original signal is x (n) and the first cochlear delay filter 402a and the second cochlear delay filter 402b are H 0 (z) and H 1 (z), respectively, in step S602 above.
  • the two acoustic signals (w 0 (n), w 1 (n)) subjected to the phase modulation are generated by the above-described equations (3) and (4).
  • step S603 w 0 (n) or w 1 (n) is selected according to whether the bit of the digital watermark data s (k) is 0 or 1, as shown in the above equation (5). , A watermarked acoustic signal y (n) is generated.
  • the falsification detection process includes an embedded data detection process and a falsification determination process.
  • the tampering determination process is the same as that in the second embodiment, and thus description thereof is omitted.
  • the embedded data detection process non-blind detection
  • a watermarked acoustic signal is generated by switching two acoustic signals phase-modulated by two cochlear delay filters every time. Since these two acoustic signals are obtained by subjecting the original signal to phase modulation, by using the difference in phase characteristics between the original signal and the watermarked acoustic signal, the watermarked acoustic signal is converted into the above two cochleas. It is possible to specify which cochlear delay filter of the delay filter is the phase-modulated signal.
  • the embedded data detection process uses such a property to detect embedded data embedded in the acoustic signal to be detected for alteration.
  • FIG. 23 is a flowchart showing a procedure of embedded data detection processing (non-blind detection).
  • the tampering detection apparatus 5 obtains the phase spectrum of the acoustic signal (original signal) and the acoustic signal to be tampered with by fast Fourier transform (FFT) in each of the phase calculation units 501a and 501b (S701).
  • FFT fast Fourier transform
  • the phase spectrum of each acoustic signal is calculated for each bit used in the digital watermark embedding process.
  • the phase spectrum of each acoustic signal obtained in this way is output to the phase difference detection unit 502.
  • the phase difference detection unit 502 calculates the difference between the phase spectra of both acoustic signals (S702), and the group given by the difference between the calculated phase spectrum and the first cochlear delay filter 402a.
  • a total value (first total value) of the difference from the delay and a total value (second total value) of the difference between the phase spectrum difference and the group delay given by the second cochlear delay filter 402b are calculated (second total value) ( S703).
  • the phase difference detection unit 502 compares the first total value with the second total value, and if the first total value is smaller than the second total value, “0” is set as the bit value of the digital watermark data.
  • the tampering detection apparatus 5 uses the bit value detected as described above in the decoding unit 503 to restore the embedded data embedded in the tampering detection target acoustic signal (S705).
  • the embedded data embedded in the acoustic signal can be detected using the cochlear delay filter.
  • step S701 the phase spectrum of the acoustic signal x (n) and the acoustic signal y (n) to be detected for tampering is obtained by FFT.
  • step S702 the phase spectrum difference ⁇ ( ⁇ ) between the two acoustic signals is calculated as follows. (7).
  • ⁇ ( ⁇ ) arg (FFT [y (n)]) ⁇ arg (FFT [x (n)]) (7)
  • step S703 the total value ⁇ 0 of the difference between the phase spectra of the two acoustic signals and the first cochlear delay filter 402a (H 0 (z)) and the difference between the phase spectra and the second cochlear delay filter 402b.
  • (8) ⁇ 1
  • step S704 the bit value s (k) of the embedded data is detected according to the following equation (10) based on the magnitude relationship between the total values ⁇ 0 and ⁇ 1 .
  • s (k) 0, ⁇ 0 ⁇ 1 or 1, ⁇ 0 ⁇ ⁇ 1 (10)
  • step S705 the embedded data is restored using these detected bit values s (k).
  • the embedded data detection process non-blind detection
  • the embedded data can be detected from the acoustic signal to be detected for falsification.
  • the falsification determination process it is determined whether or not the sound signal has been falsified and, if so, which part has been falsified. can do.
  • the blind detection method in the second embodiment is expressed as a CD (Blind) method
  • the non-blind detection method in the third embodiment is expressed as a CD (Non-Blind) method.
  • the present inventors embed digital watermark data (bitmap image) in the audio signal for the long sentence data (12 sentences, mixed male and female speakers, sampling frequency 16 kHz) of about 8 seconds in the ATR audio database, and MIH
  • the evaluation items (PESQ (Perceptual Evaluation of Speech Quality) and LSD (Log Spectrum Distortion)) used in the technical requirements (imperceptibility and robustness) and the bit detection rate of digital watermark data were examined.
  • the present inventors also conducted a bit detection rate after performing signal conversion (three types of speech coding: PCM (G711), ADPCM (G726), and CS-ACELP (G729)) on an acoustic signal as a tolerance evaluation. I investigated. Hereinafter, these experimental results will be described.
  • FIG. 25 is a graph showing the results of the objective evaluation experiment, wherein (a) to (c) are PESQ, LSD, and bit detection in the CD (Non-Blind) method, the CD (Blind) method, and the LSB method, respectively.
  • the experimental result about the rate is shown.
  • the average value about the said 12 sentences is shown.
  • the evaluation threshold values of PESQ and LSD are set to 3 (corresponding to ⁇ 1 in PEAQ for music signal evaluation) and 1 dB, respectively. Referring to FIGS. 25 (a) and (b), it can be confirmed that the LSB method is very excellent in PESQ and LSD.
  • the CD (Non-Blind) method and the CD (Blind) method are not as good as in the case of the LSB method, but are well within the evaluation threshold and can be said to satisfy the requirements of the MIH technology. Further, as shown in FIG. 25C, the bit detection rate is sufficiently above the evaluation threshold value 75% by any method, and a good result is obtained. In the CD (Blind) method, PESQ and LSD are reduced as compared with the CD (Non-Blind) method, but the bit detection rate is improved.
  • FIG. 26 is a graph showing the results of the resistance evaluation test described above, and (a) to (c) show the results in the CD (Non-Blind) method, the CD (Blind) method, and the LSB method, respectively.
  • a bit detection rate of 75% is used as an evaluation threshold.
  • the CD (Non-Blind) method and the CD (Blind) method have better results than the LSB method.
  • a detection rate of 50% corresponds to a chance level. That is, since the target bit is 0 or 1, the correct answer rate when a bit is appropriately selected and assigned is a probability of 50%. Therefore, no matter how low the bit detection rate is, it will statistically wander around 50%. As can be seen from FIG.
  • the LSB method is excellent in imperceptibility, it becomes very sensitive to small waveform processing such as signal conversion, and is vulnerable to speech coding processing that cannot be interpreted as information alteration. is there.
  • the CD (Non-Blind) method and the CD (Blind) method are robust to G711 and G726 speech coding and are not sufficiently compatible with G729. It can be understood from. However, this result is due to the fact that G729 speech coding is not based on waveform processing. In recent years, with the spread of broadband broadband, speech coding has shifted to waveform-based coding that generates high-quality speech, so it can be said that practicality is sufficient even if G729 is not supported.
  • alteration modes that can be handled in the second and third embodiments will be described.
  • a mode of alteration a pattern in which at least a part of audio content is replaced with another audio content (hereinafter referred to as “information replacement type alteration”), a pattern in which at least a part of the audio content is provided with another audio content (hereinafter referred to as “information replacement type alteration”).
  • information replacement type alteration is executed by, for example, a phoneme speech synthesis technology or a VOCODER type speech synthesis technology.
  • the information-adding type alteration is executed by, for example, a process for making it difficult to hear the utterance content from the other party. Specifically, processing such as applying low SNR (high noise) noise or adding reverberation is assumed in order to reduce the clarity of speech.
  • the present inventors have used the bitmap image (shown in FIG. 27) for the long sentence data (5 sentences, mixed male / female speaker, sampling frequency 16 kHz) of about 8 seconds in the ATR speech database. (Acoustic watermark data) was embedded, and the bit detection rate and the bitmap image after detection were examined.
  • this image is obtained by shifting the vertical scanning lines from the top to the bottom in the horizontal direction from the left to the right, as indicated by arrows in FIG. Note that the size of this image is 32 ⁇ 32 bits.
  • the results when the information-giving type alteration was applied to the acoustic signal were as follows. First, when low SNR white noise is applied to an acoustic signal for the purpose of hindering the utterance content due to the influence of masking, the bit detection rate is 79%, and the bitmap image after detection is shown in FIG. It became as shown to a) thru
  • the bit detection rate is 74% and the detected bitmap image. As shown in FIGS. 32 (a) to 32 (e). As described above, when the information-giving type alteration is performed, the bit detection rate is less than 75%, which is on the evaluation threshold when viewed as the tolerance, but the detected bitmap as shown in FIGS. 30 to 32 The image does not retain its original shape.
  • the bit detection rate is 91% and the bitmap image is shown in FIG. ) To (e). In this way, when information replacement type alteration is performed, the bit detection rate is as high as about 90%. Further, as shown in FIGS. 33 to 35, the commonity is that the detected bitmap image has a broken central area, but the left and right sides are close to the original image.
  • the alteration detection device detects whether or not the acoustic signal has been tampered with by detecting the degree of breakage, and what type of tampering has been performed when it has been applied. Can be determined.
  • the determination of the mode of alteration as described above can also be performed as follows.
  • the delay information embedded in the acoustic signal using the cochlear delay characteristic is lost, so that it is determined whether it is “0” or “1” in any of the second and third embodiments. There are situations where this is impossible.
  • forcible determination is made with the “if” statement, so “0” is always detected.
  • a segment of 2.5 to 5 seconds is synthesized as shown in FIG. 36 (a)
  • a drop in the low-frequency spectrum due to the zero point determination is not confirmed, and 0 and The magnitude of the spectrum at 1 is almost the same.
  • the difference between the two is around 0 dB, and the bit value “0” is detected by the above-mentioned forced determination.
  • the second embodiment For this reason, after the acoustic signal alteration region is specified, if a large number of 0-bit sequences are observed in the specified region as shown in FIG. 36C, it is considered that the information replacement type alteration has been performed. be able to. On the other hand, when the falsified area is specified and the bit sequence of the area is random, it can be considered that the information-added falsification has been performed.
  • the central region of the image in FIGS. 33 to 35 is broken because the replacement is performed at 2.5 seconds to 5 seconds of the voice section, that is, 0 is concentrated in the section. This is because bits are detected and the image is obtained by scanning from top to bottom and from right to left.
  • FIG. 37 is a flowchart showing the alteration mode determination method described above.
  • the tampering detection apparatus of the second or third embodiment extracts the tampered area from the acoustic signal determined to have been tampered with by the tampering determination process described above (S801), and the bit value “0” in the tampering area. It is determined whether or not the number of sequences is equal to or greater than a predetermined threshold (S802). When it determines with it being more than a threshold value here (it is YES at S802), a tampering detection apparatus displays the information replacement type alteration message which shows that the information substitution type alteration is performed with respect to the acoustic signal on a display part. (S803).
  • the tampering detection apparatus displays an information-added tampering message indicating that the information-giving type tampering is performed on the acoustic signal on the display unit ( S804).
  • Embodiments 2 and 3 it is possible to determine not only the presence / absence of tampering but also the mode of tampering.
  • the digital watermark data embedding process and the falsification detection process are implemented by software, but the present invention is not limited to this.
  • all or part of these processes may be realized by a dedicated hardware circuit such as a DSP (Digital Signal Processor).
  • DSP Digital Signal Processor
  • the digital watermark data is embedded in the monaural music signal that is the original signal.
  • the present invention is not limited to this, and both channels of the stereo music signal are used. It is also possible to embed digital watermark data.
  • the digital watermark detection apparatus and the digital watermark detection method of the present invention are respectively a digital watermark detection apparatus and a digital watermark detection method for detecting digital watermark data when the digital watermark data is embedded in acoustic signals of various music genres. Useful as.
  • the tamper detection apparatus and the tamper detection method using the digital watermark of the present invention are useful as a tamper detection apparatus and a tamper detection method for detecting tampering with various acoustic signals, respectively.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

 電子透かし検出装置は、音響信号への電子透かしデータの埋め込みの際に用いられた蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するための第1チャープz変換部202a及び第2チャープz変換部202bを備えており、これらの第1チャープz変換部202a及び第2チャープz変換部202bによるチャープz変換の結果により推定された蝸牛遅延特性に基づいて、音響信号に埋め込まれた電子透かしデータを検出する。

Description

電子透かし検出装置及び電子透かし検出方法、並びに電子透かしを用いた改ざん検出装置及び改ざん検出方法
 本発明は、デジタルデータである音響信号(音声、音楽など)に埋め込まれた電子透かしデータを検出する電子透かし検出装置及び電子透かし検出方法、並びに電子透かしデータを用いて音響信号に対する改ざんを検出する改ざん検出装置及び改ざん検出方法に関する。
 近年では、インターネット等の通信ネットワークの普及に伴い、デジタル音楽コンテンツの配信サービス等が提供されるようになっている。しかしながら、デジタル音楽コンテンツの場合、音質をほとんど劣化することなく複製することが可能であるため、違法コピーが横行し、社会問題となっている。そこで、デジタル音楽コンテンツの著作権を保護するための技術として、著作権情報またはシリアルナンバー等の付加情報(電子透かしデータ)を音響信号に埋め込むことにより、違法コピー等の防止及び追跡等を図ることができる電子音響透かし技術が注目されている。
 電子音響透かし技術としては、例えば、(1)LSB(Least Significant
Bit replacement)法(非特許文献1を参照)のように符号化/量子化レベルで透かしを埋め込む方法、(2)DSS(Direct Spread Spectrum)法(非特許文献2)のように原信号の広範なスペクトルに情報を埋め込む方法がある。また、位相に係わる知覚特性に基づく方法として、(3)エコーハイディング法(以下「ECHO法」、非特許文献3を参照)、(4)周期的位相変調(PPM:Periodical Phase Modulation)法(非特許文献4及び特許文献1を参照)等が提案されている。
 ところで、人間の聴覚が備える特性の一つに、蝸牛遅延(Cochlear Delay:CD)特性と呼ばれるものがある。音信号が蝸牛内(前庭階及び鼓室階にある非圧縮性のリンパ液内)を伝搬するとき、それらの二つの階の間の圧力差によって生じる蝸牛の基底膜の振動(伝播)には、信号の周波数に依存して、多少の時間差がみられる。この現象が蝸牛遅延であり、音信号の周波数が低いほど遅延が長くなることが知られている。
 非特許文献5においては、上記の蝸牛遅延と音の同時性判断との間にどのような関係があるのかが検討されている。具体的には、(a)通常(蝸牛遅延操作なし)の調波複合音、(b)蝸牛の基底膜上において蝸牛遅延を打ち消すような群遅延を与えた調波複合音、(c)蝸牛遅延を増長するような群遅延を与えた調波複合音の三つの複合音を用いて聴覚心理物理実験を行い、その実験結果に基づいて、蝸牛遅延が音の同時性判断にどのような影響を与えるのかが検討されている。この非特許文献5では、複合音(b)よりも、複合音(c)を用いた場合の方が、複合音(a)と同等の同時性判断を示すことが明らかにされている。
 上記の蝸牛遅延特性に着目し、電子透かしとして埋め込む情報の2値データに対応する二種類の異なる蝸牛遅延に似た遅延パターンを原信号に付与することにより、電子音響透かしを実現する方法(以下、「CD法」という)が非特許文献6及び7で提案されている。
特許第3627022号
N. Cvejic and T. Seppanen, "Digital audio watermarking techniques and technologies," IGI Global, 2007 Boney, L., Tewfik, H. H., andHamdy, K. N., "Digital watermarks for audio signals," Proc. ICMCS, 473-480, 1996 Daniel Gruhl, Anthony LuWalter Bender, "Echo Hiding,"Proc.Information Hiding 1st Workshop, pp.295-315, Cambridge Univ., 1996 西村竜一、鈴木陽一、「周期的位相変調に基づく音響電子透かし」、日本音響学会誌、vol.60、no.5、pp.269-272、2004 E. Aiba, S. Tanaka, M. Tsuzaki,and M. Unoki, "Judgment of perceptual synchrony betweentwo pulses and its relation to the cochlear delays,"Proc. Fechner day 2007, 211-214, 2007 Unoki, M. and Hamada, D. "Audio watermarking method based on the cochlear delaycharacteristics,"Proc. IIHMSP2008, 616-619, 2008 Unoki, M. and Hamada, D. "Method of digital-audio watermarking based on cochlear delaycharacteristics,"Int. J. Innv. Comp., Inf. Cont.,6(3(B)), 1325-1346, 2010
 一般に、電子音響透かし技術では、知覚不可能性(埋め込み情報が利用者に知覚されず、埋め込みによる原信号の知覚可能な歪みが生じないこと)、頑健性(通常の信号変換処理及び埋め込み情報を削除するといった悪意のある攻撃に対して影響を受けないこと)、及び秘匿性(情報が埋め込まれていることに気付かせないこと、気付かれてもその情報を容易に検出されないこと)が要求されている。
 上記(1)のLSB法は、振幅情報に大きく影響を与えない下位ビットに情報を埋め込むため、知覚不可能性を満たすが、ビット変化に敏感なため頑健性に問題がある。また、上記(2)のDSS法の場合、スペクトル全体に情報を埋め込むため、信号変形処理には頑健であるが、埋め込まれた情報を容易に知覚できるため知覚不可能性に問題がある。
 上記(3)のECHO法は、エコー時間及び1次反射音の振幅を調整することで歪みがなく、知覚不可能な埋め込みを実現できるが、自己相関法及びケプストラム処理を利用することで透かし情報を容易に検出・除去できるため、上記の従来の方法の中でもっとも頑健性・秘匿性に欠ける。また、上記(4)のPPM法は、周期的な位相変調が比較的知覚され難いという聴覚特性に基づいているが、位相変調が高い周波数成分の位相スペクトルをランダムに歪ませるため、知覚不可能性に問題がある。
 他方、上記のCD法の場合、知覚不可能性、秘匿性、及び頑健性を十分に満足するものの、埋め込まれた情報を検出するために原信号を参照することが必要となるため、応用範囲が限定されるという問題がある。
 本発明は斯かる事情に鑑みてなされたものであり、その主たる目的は、CD法により埋め込まれた情報を、原信号を参照することなく検出することができる電子透かし検出装置及び電子透かし検出方法を提供することにある。また、本発明の他の目的は、電子音響透かし技術を応用した改ざん検出装置及び改ざん検出方法を提供することにある。
 上述した課題を解決するために、本発明の一の態様の電子透かし検出装置は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施し、前記位相変調が施された音響信号に電子透かしデータを埋め込む電子透かしデータ埋め込み装置によって、デジタルデータである音響信号に電子透かしデータが埋め込まれた場合に、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定する蝸牛遅延特性推定手段と、前記蝸牛遅延特性推定手段により推定された蝸牛遅延特性に基づいて、音響信号に埋め込まれた前記電子透かしデータを検出する電子透かし検出手段とを備える。
 この態様において、前記電子透かしデータ埋め込み装置が、複数の異なる蝸牛遅延フィルタを用いて音響信号に位相変調を施すことにより、複数の異なる位相変調された音響信号を生成し、電子透かしデータに応じて、前記複数の異なる位相変調された音響信号の中から一の音響信号を選択し、選択した音響信号同士を接合することにより、電子透かしデータを埋め込むように構成されており、前記蝸牛遅延特性推定手段が、前記複数の異なる蝸牛遅延フィルタがそれぞれ模擬する複数の異なる蝸牛遅延特性を推定するように構成され、前記電子透かし検出手段が、前記蝸牛遅延特性推定手段により推定された前記複数の異なる蝸牛遅延特性に基づいて、電子透かしデータが埋め込まれた音響信号が、前記複数の異なる蝸牛遅延フィルタのうちの何れの蝸牛遅延フィルタが適用されて位相変調が施されたかを判定することにより、電子透かしデータを検出するように構成されていてもよい。
 また、前記態様において、前記蝸牛遅延特性推定手段が、前記蝸牛遅延フィルタの零点を推定することにより、蝸牛遅延特性を推定するように構成されていてもよい。
 また、前記態様において、前記蝸牛遅延特性推定手段が、チャープz変換を用いて、前記蝸牛遅延フィルタの零点を推定するように構成されていてもよい。
 また、前記態様において、前記蝸牛遅延特性手段により推定された蝸牛遅延特性の逆特性を有するフィルタを電子透かしデータが埋め込まれた音響信号に施すことにより、電子透かしデータが埋め込まれる前の音響信号を取得する原信号取得手段をさらに備えていてもよい。
 また、前記態様において、電子透かしデータが埋め込まれた音響信号の位相変調に適用されたと前記電子透かし検出手段により判定された蝸牛遅延フィルタの逆フィルタを当該音響信号に施すことにより、電子透かしデータが埋め込まれる前の音響信号を取得する原信号取得手段をさらに備えていてもよい。
 本発明の一の態様の電子透かし検出方法は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施し、前記位相変調が施された音響信号に電子透かしデータを埋め込む電子透かしデータ埋め込み装置によって、デジタルデータである音響信号に電子透かしデータが埋め込まれた場合に、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するステップ(a)と、推定された蝸牛遅延特性に基づいて、音響信号に埋め込まれた前記電子透かしデータを検出するステップ(b)とを有する。
 この態様において、前記電子透かしデータ埋め込み装置が、複数の異なる蝸牛遅延フィルタを用いて音響信号に位相変調を施すことにより、複数の異なる位相変調された音響信号を生成し、電子透かしデータに応じて、前記複数の異なる位相変調された音響信号の中から一の音響信号を選択し、選択した音響信号同士を接合することにより、電子透かしデータを埋め込むように構成されており、前記ステップ(a)において、前記複数の異なる蝸牛遅延フィルタがそれぞれ模擬する複数の異なる蝸牛遅延特性を推定し、前記ステップ(b)において、前記ステップ(a)により推定された前記複数の異なる蝸牛遅延特性に基づいて、電子透かしデータが埋め込まれた音響信号が、前記複数の異なる蝸牛遅延フィルタのうちの何れの蝸牛遅延フィルタが適用されて位相変調が施されたかを判定することにより、電子透かしデータを検出するようにしてもよい。
 また、前記態様において、前記ステップ(a)において、前記蝸牛遅延フィルタの零点を推定することにより、蝸牛遅延特性を推定するようにしてもよい。
 また、前記態様において、前記ステップ(a)においてチャープz変換を用いて、前記蝸牛遅延フィルタの零点を推定するようにしてもよい。
 また、本発明の一の態様の電子透かしを用いた改ざん検出装置は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータが埋め込まれた後に、当該音響信号に対する改ざんを検出する改ざん検出装置であって、前記音響信号を外部から取得する音響信号取得手段と、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定する蝸牛遅延特性推定手段と、 前記蝸牛遅延特性推定手段により推定された蝸牛遅延特性に基づいて、前記音響取得手段によって取得された音響信号に埋め込まれている埋め込みデータを検出する埋め込みデータ検出手段と、前記埋め込みデータ検出手段によって検出された埋め込みデータと前記電子透かしデータとを照合する照合手段と、前記照合手段による照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定する改ざん判定手段とを備える。
 さらに、本発明の一の態様の電子透かしを用いた改ざん検出方法は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータが埋め込まれた後に、当該音響信号に対する改ざんを検出する改ざん検出方法であって、前記音響信号を外部から取得するステップ(a)と、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するステップ(b)と、推定された蝸牛遅延特性に基づいて、取得された前記音響信号に埋め込まれている埋め込みデータを検出するステップ(c)と、検出された前記埋め込みデータと前記電子透かしデータとを照合するステップ(d)と、照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定するステップ(e)とを有する。
 本発明に係る電子透かし検出装置及び電子透かし検出方法によれば、原信号を参照することなく、CD法により埋め込まれた電子透かしデータを検出することができる。また、本発明に係る電子透かしを用いた改ざん検出方法及び改ざん検出装置によれば、音響信号に対する改ざんの検出を適確に行うことができる。
本発明の実施の形態に係る電子透かし埋込装置の構成を示すブロック図。 本発明の実施の形態に係る電子透かし埋込装置の構成を示す機能ブロック図。 本発明の実施の形態における電子透かし埋込装置が備える蝸牛遅延フィルタの特性を示すグラフ。 本発明の実施の形態に係る電子透かし検出装置の構成を示すブロック図。 本発明の実施の形態に係る電子透かし検出装置の構成を示す機能ブロック図。 蝸牛遅延フィルタの極及び零点を説明するためのグラフ。 チャープz変換による周波数分析の結果を示すグラフ。 本発明の実施の形態における電子透かし埋込装置が実行する電子透かし埋込処理の手順を示すフローチャート。 本発明の実施の形態における電子透かし検出装置が実行する電子透かし検出処理の手順を示すフローチャート。 客観評価実験の結果を示すグラフ。 本発明の実施の形態における電子透かし検出装置が実行する原信号取得処理の手順を示すフローチャート。 透かし入り音響信号についての客観評価実験の結果を示すグラフ。 本発明の実施の形態の原信号取得処理により電子透かしデータを削除する前及び削除した後における客観評価実験の結果を示すグラフ。 本発明の実施の形態2に係る改ざん検出システムの概要を示す説明図。 本発明の実施の形態2に係る改ざん検出装置の構成を示すブロック図。 本発明の実施の形態2に係る改ざん検出装置の構成を示す機能ブロック図。 本発明の実施の形態2に係る改ざん検出装置の構成を示す機能ブロック図。 本発明の実施の形態2における改ざん検出装置が実行する埋め込みデータ検出処理の手順を示すフローチャート。 本発明の実施の形態2における改ざん検出装置が実行する改ざん判定処理の手順を示すフローチャート。 実施の形態3に係る電子透かし埋込装置及び改ざん検出装置の構成を示す機能ブロック図。 実施の形態3における電子透かし埋込装置が実行する電子透かし埋込処理の手順を示すフローチャート。 実施の形態3に係る電子透かし埋込装置の構成を示す機能ブロック図。 埋め込みデータ検出処理(ノンブラインド検出)の手順を示すフローチャート。 実施の形態3に係る改ざん検出装置の構成を示す機能ブロック図。 客観評価実験の結果を示すグラフ。 耐性評価試験の結果を示すグラフ。 電子透かしデータとして用いるビットマップ画像の例を示す図。 音響信号に対して改ざんを施さなかった場合における検出後のビットマップ画像を示す図。 音響信号に対してPCM(G711)の音声符号化を行った場合における検出後のビットマップ画像を示す図。 音響信号に対して低SNRの白色雑音を音響信号に対して付与した場合における検出後のビットマップ画像を示す図。 音響信号に対して人工残響を付与した場合における検出後のビットマップ画像を示す図。 音響信号に対して実環境の残響を付与した場合における検出後のビットマップ画像を示す図。 音響信号に対してwaveletタイプの音声分析合成系で改変を行った場合における検出後のビットマップ画像を示す図。 音響信号に対して短時間フーリエ変換対を利用した音声分析合成系で改変を行った場合における検出後のビットマップ画像を示す図。 音響信号に対して音素片合成による内容改変を行った場合における検出後のビットマップ画像を示す図。 情報入替型改ざんの場合の音響信号の波形、ビット値が0及び1のときのスペクトルの差、及び検出値を示す図。 改ざん検出装置が実行する改ざん態様判定処理の手順を示すフローチャート。
 以下、本発明の好ましい実施の形態を、図面を参照しながら説明する。なお、以下に示す各実施の形態は、本発明の技術的思想を具体化するための方法及び装置を例示するものであって、本発明の技術的思想は下記のものに限定されるわけではない。本発明の技術的思想は、特許請求の範囲に記載された技術的範囲内において種々の変更を加えることができる。
 (実施の形態1)
 本実施の形態に係る電子透かし検出装置は、原信号に埋め込まれた電子透かしデータをその原信号を参照することなく検出することができる装置である。このように原信号を参照することなく電子透かしデータを検出することを、本明細書では「ブラインド検出」と称する。以下、この電子透かし検出装置と、電子透かしデータを埋め込む電子透かし埋込装置について説明する。
 [電子透かし埋込装置の構成]
 図1は、本発明の実施の形態に係る電子透かし埋込装置の構成を示すブロック図である。図1に示すように、電子透かし埋込装置1は、CPU11、ROM12、RAM13、信号入力部14、信号出力部15及びハードディスク16を備えており、これらのCPU11、ROM12、RAM13、信号入力部14、信号出力部15及びハードディスク16は、バス17によって接続されている。
 CPU11は、ROM12及びハードディスク16に記憶されているコンピュータプログラムを実行する。これにより、電子透かし埋込装置1は、後述するような動作を実行し、音響信号に対する電子透かしデータの埋め込みを実現する。
 ROM12は、マスクROM、PROM、EPROM、又はEEPROM等によって構成されており、CPU11によって実行されるコンピュータプログラム及びこれに用いられるデータ等を記憶している。
 RAM13は、SRAMまたはDRAM等によって構成されており、ハードディスク16に記憶されているプログラムの読み出しに用いられる。また、RAM13は、CPU11がコンピュータプログラムを実行するときに、CPU11の作業領域としても利用される。
 信号入力部14は、処理対象となる原信号である音響 信号及びその音響信号に埋め込まれる電子透かしデータの入力を、外部の装置から受け付ける。また、信号出力部15は、電子透かしデータが埋め込まれた音響信号(以下、「透かし入り音響信号」という)を外部の装置へ出力する。
 なお、本実施の形態においては、原信号である音響信号はデジタルデータである。しかし、当該音響信号がアナログデータであってもよく、その場合は、A/D変換機能を備えた信号入力部14が、入力された音響信号をA/D変換することによりデジタルデータに変換した上で、その後の処理を行うようにすればよい。
 ハードディスク16には、オペレーティングシステム及びアプリケーションプログラム等、並びにCPU11に実行させるための種々のコンピュータプログラムおよび当該コンピュータプログラムの実行に用いられるデータ等がインストールされている。このコンピュータプログラムには、電子透かしデータの埋め込みを行うための電子透かし埋込プログラム16Aが含まれる。
 ハードディスク16にインストールされる電子透かし埋込プログラム16Aは、フレキシブルディスクドライブ、CD-ROMドライブ、またはDVD-ROMドライブ等の外部記憶装置(図示せず)を介して、可搬型記録媒体から読み出される。
 なお、このように可搬型記録媒体によって提供されるのみならず、電気通信回線(有線、無線を問わない)を介して電子透かし埋込装置1と通信可能に接続された外部の装置から電子透かし埋込プログラム16Aを提供することも可能である。例えば、電子透かし埋込プログラム16Aがインターネット上のサーバコンピュータのハードディスク内に格納されている場合において、このサーバコンピュータに電子透かし埋込装置1がアクセスして、当該コンピュータプログラムをダウンロードし、これをハードディスク16にインストールすることも可能である。
 ハードディスク16には、例えば米マイクロソフト社が製造販売するWindows(登録商標)等のマルチタスクオペレーティングシステムがインストールされている。以下の説明において、本実施の形態に係る電子透かし埋込プログラム16Aは当該オペレーティングシステム上で動作するものとする。
 次に、上記の電子透かし埋込装置1の構成を、図2に示す機能ブロック図を参照しながら説明する。なお、以下において、nはサンプリング番号を、kは音響信号のフレーム番号をそれぞれ示している。
 図2に示すように、電子透かし埋込装置1は、音響信号x(n)をフレーム化するフレーム処理部101と、2つの蝸牛遅延フィルタ102a及び102bと、電子透かしデータs(k)の値に応じて第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bの何れかを選択するフィルタ選択部103とを備えている。
 フィルタ選択部103は、電子透かしデータのビット値が“0”である場合に第1蝸牛遅延フィルタ102aを選択し、同じく“1”である場合に第2蝸牛遅延フィルタ102bを選択する。第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bでは、後述するようにして音響信号に群遅延を与える。このようにして群遅延が付与された音響信号が統合され、電子透かしデータが埋め込まれた音響信号である透かし入り音響信号y(n)が生成される。
 なお、本実施の形態において、これらのフレーム処理部101、第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102b、並びにフィルタ選択部103は、CPU11が電子透かし埋込プログラム16Aを実行することによって実現される。
 [蝸牛遅延フィルタ]
 以下、第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bの詳細について説明する。これらの第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bは、人間の聴覚の蝸牛遅延特性を模擬したデジタルフィルタであり、具体的には、振幅成分にはまったく影響を与えず、位相特性のみを変化させる全域通過フィルタで構成される。
 本実施の形態において、蝸牛遅延フィルタ102a及び102bは、以下の式(1)の伝達関数H(z)により定義される1次の無限インパルス応答型全域通過フィルタで構成される。
Figure JPOXMLDOC01-appb-M000001
 
 ここで、bはH(z)のフィルタ係数を表している。
 このように、第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bを1次の無限インパルス応答型全域通過フィルタで構成することにより、高速な処理が可能になる。
 なお、無限インパルス応答型全域通過フィルタの群遅延特性が蝸牛遅延特性をより正確に表していれば、フィルタ次数は1次以上であってもよく、また、フィルタのカスケード段数は1段以上であってもよい。
 第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bにより与えられる群遅延τm(ω)は以下の式(2)により算出される。
Figure JPOXMLDOC01-appb-M000002
 
 図3は、本発明の実施の形態1における電子透かし埋込装置1が備える第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bの特性を示すグラフである。図3において、縦軸は群遅延を、横軸は音響信号の周波数をそれぞれ示している。
 図3において、細い実線は、人間の聴覚における蝸牛遅延を1/10倍に縮小した蝸牛遅延特性を示している。また、太い実線は、フィルタ係数b=0.795の場合に上記式(1)により定義される第1蝸牛遅延フィルタ102aの特性を示し、破線は、フィルタ係数b=0.865の場合に同じく定義される第2蝸牛遅延フィルタ102bの特性を示している。
 なお、図3において細い実線で示されている蝸牛遅延特性は、「T. Dau, O. Wegner, V. Mellert, and B. Kollmeier, “Auditory brainstem responses (ABR) with optimized chirp signals compensating basilar membrane dispersion,” J. Acoust. Soc. Am., 107, 1530-1540, 2000」を参考にして定めたものである。
 以上より、第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bを音響信号にかけると、実際の蝸牛遅延の1/10倍の蝸牛遅延を当該音響信号に付与することになる。したがって、人間の実際の蝸牛遅延特性を近似するためには、このような蝸牛遅延フィルタを10段カスケード接続する必要がある。しかし、実際と同様の蝸牛遅延量を音響信号に与えることにすると、その音響信号を知覚する際の群遅延量は実際の蝸牛遅延量の2倍になってしまうため、遅延が大きすぎると考えられる。そこで、本実施の形態においては、上記のように実際の蝸牛遅延の1/10倍の蝸牛遅延を音響信号に与えることにしている。
 本実施の形態において、第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bはそれぞれ、下記の式(3)及び式(4)にしたがって、原信号である音響信号x(n)に蝸牛遅延パターンを付与し、中間信号w(n)及びw(n)を得る。そして、フィルタ選択部103が、電子透かしデータのビット値に応じて、フレーム毎に中間信号w(n)及びw(n)を選択・統合することにより、下記の式(5)に示す透かし入り音響信号y(n)を取得する。
Figure JPOXMLDOC01-appb-M000003
ただし、(k-1)ΔW<n≦kΔWを満足する。ここで、ΔW(=fs/Nbit)はフレーム長であり、fsは原信号のサンプリング周波数を、Nbitは1秒あたりの情報埋込ビットレートをそれぞれ表している。
 [電子透かし検出装置の構成]
 図4は、本発明の実施の形態に係る電子透かし検出装置の構成を示すブロック図である。図4に示すように、電子透かし検出装置2は、上記の電子透かし埋込装置1と同様に、CPU21、ROM22、RAM23、信号入力部24、及びハードディスク25を備えており、これらのCPU21、ROM22、RAM23、信号入力部24及びハードディスク25は、バス26によって接続されている。
 CPU21、ROM22及びRAM23のそれぞれについては、電子透かし埋込装置1が備えるCPU11、ROM12及びRAM13と同様であるので、説明を省略する。
 信号入力部24は、透かし入り音響信号の入力を外部の装置から受け付ける。この透かし入り音響信号は、信号入力部24に対して電子透かし埋込装置1から直接入力されてもよく、他の装置及び/又は通信ネットワーク等を介して入力されてもよい。
 ハードディスク25には、電子透かし埋込装置1の場合と同様に、オペレーティングシステム及びCPU21に実行させるための種々のコンピュータプログラム等がインストールされている。このコンピュータプログラムには、電子透かしデータの検出を行うための電子透かし検出プログラム25Aが含まれる。
 電子透かし埋込プログラム16Aの場合と同様に、ハードディスク25にインストールされる電子透かし検出プログラム25Aは、可搬型記録媒体によって提供されてもよく、電気通信回線を介して提供されてもよい。また、この電子透かし検出プログラム25Aは、電子透かし埋込プログラム16Aの場合と同様に、ハードディスク25にインストールされているオペレーティングシステム上で動作するものとする。
 次に、上記の電子透かし検出装置2の構成を、図5に示す機能ブロック図を参照しながら説明する。
 図5に示すように、電子透かし検出装置2は、電子透かし埋込装置1により生成された透かし入り音響信号y(n)をフレーム化するフレーム処理部201と、フレーム化された透かし入り音響信号y(n)に対して、チャープz変換を施す2つのチャープz変換部202a及び202bと、これらの第1チャープz変換部202a及び第2チャープz変換部202bによるチャープz変換の結果に基づいて、電子透かしデータのビット値を検出するビット値検出部203とを備えている。なお、本実施の形態において、これらのフレーム処理部201、第1チャープz変換部202a及び第2チャープz変換部202b、並びにビット値検出部203は、CPU21が電子透かし検出プログラム25Aを実行することによって実現される。
 [チャープz変換]
 第1チャープz変換部202a及び第2チャープz変換部202bが実行するチャープz変換(CZT)は、周波数スペクトルのフレキシブルな分析を可能とする手法として知られ(例えば、「Wang, T. T. “The segmented chirp z-transform and its application in spectrum analysis,”IEEE Trans. Instrumentation and measurement, 39(2), 318-323, 1990」を参照)、高速フーリエ変換(FFT)の実装にも活用されている。このチャープz変換は、離散フーリエ変換(DFT)と比較して、周波数分解能及び周波数応答のダイナミックレンジを自由に変えられるという特徴を有している。また、z平面上で任意のM点でのz変換を効率良く求めることができるという特徴も有している。
 一般に、チャープz変換は、z=rexp(jω)でN点のDFTと結ばれる(大きさr=1で正規化周波数ω=2πn/Nのとき単位円周上のDFTと等価である)関係にある。ここで、チャープz変換は下記の式(6)により表される。
Figure JPOXMLDOC01-appb-M000004
ただし、A=Aexp(j2πθ)、W=Wexp(j2πφ)である。ここで、θ及びφは初期位相である。上述したように、A=1、M=N、W=exp(-j2π/N)のとき、CZTはDFTに一致する。
 [ブラインド検出の原理]
 本実施の形態では、上記のチャープz変換を用いることにより、第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bを用いて音響信号に埋め込まれた電子透かしデータのブラインド検出を実現する。以下、このブラインド検出の原理について説明する。
 第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bの極及び零点は、図6に示すとおりに配置される。これらの蝸牛遅延フィルタ102a及び102bは、上述したように1次IIR型全域通過フィルタであり、その特徴として極(図6中の“×”)及び零点(図6中の“○”)は中心点から単位円に向かって垂線を描いたときに交差する半径及びその逆数(b及び1/b)の関係にある。一般に、bの値が減少するにしたがい、極は中心点に近付き、零点は単位円から外側に向かって離れていく。反対に、bの値が増加するにしたがい、極及び零点は互いに単位円に向かって近付いていく。この場合の群遅延量は、図3に示すように、bの値の増加とともに増加する。なお、図6において、太字の“○”及び“×”は第1蝸牛遅延フィルタ102aの曲及び零点をそれぞれ示し、細字の“○”及び“×”は第2蝸牛遅延フィルタ102bの曲及び零点をそれぞれ示している。
 透かし入り音響信号y(n)は、上述したような遅延情報が埋め込まれた信号として観測されることになる。そのため、y(n)から遅延情報、すなわち遅延情報の付与に利用された蝸牛遅延フィルタの極及び零点の位置を推定することにより、ブラインド検出を実現することができる。
 なお、原信号x(n)自体も数列の特性として極及び零点を持つため(音源が有界であるとして、その信号の減衰に関係する極など)、観測信号y(n)から仮に極及び零点の位置を推定できたとしても、それはIIR型全域通過フィルタ(蝸牛遅延フィルタ)によって付与されたものなのか、原信号そのものが持つものであるのかを見極める必要がある。
 チャープz変換を用いることにより、蝸牛遅延フィルタの極及び零点の位置を推定することができることを示すために、上記の式(1)の蝸牛遅延フィルタの零点r=1/bを通るようにrを選択して、原信号x(n)及び遅延情報を埋め込んだ信号y(n)をチャープz変換(A=r、M=N、W=exp(-j2π/N))することにより周波数分析を行う。
 以下、原信号である楽器音をx(n)とし、第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bを利用して“AIS-Lab.”の電子透かしデータを埋め込んだ信号をy(n)とする。ここでは、第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bはいずれも直流成分のところに極及び零点を配置しており、r=1/b又はr=1/bとしたチャープz変換の周波数分析を行う。なお、サンプリング周波数は44.1kHz、ビットレートはNbit=4bpsとして、1フレーム(250ms)に1ビット相当の遅延情報を埋め込むものとする。
 図7は、その分析結果を示すグラフである。図7(a)乃至(i)は、左から右にフレーム#1でのx(n)、フレーム#1でのy(n)、フレーム#2のy(n)の周波数スペクトルを、上から下にr=1、r=1/b、r=1/bでのチャープz変換により分析した結果をそれぞれ示している。図7(g)に示すように、x(n)に関する分析結果では、極及び零点配置の周波数付近でのスペクトルには特段変化がみられない。他方、フレーム#1のy(n)ではr=1/bでのチャープz変換の結果(図7(h))において、フレーム#2のy(n)ではr=1/bでのチャープz変換の結果(図7(f))において、最も低い周波数領域(直流成分から低周波数域までの範囲;例えば図3に示す遅延が見られる周波数帯)のところでスペクトル成分が劇的に減少していることがわかる(図中の矢印で示す箇所)。これは、零点の影響によるディップ(くぼみ)に対応しているため、原理的にはその大きさは-∞dBになる。それ以外の分析(r=1、r=1/b(フレーム#1の場合)、及びr=1/b(フレーム#2の場合))では、最も低い周波数のところでスペクトル成分の変化はほとんど見られない(すなわち、-∞dB(線形で0)に近付かない)。なお、この結果に関しては、他のフレーム及び他の対象信号でも同様のことが起こることが確認されている。
 以上より、対象信号に係わらず、蝸牛遅延フィルタの零点を交差するようにz平面上の軌跡に沿ってチャープz変換を行うことにより、y(n)から蝸牛遅延フィルタの零点の位置を推定することが可能であることが分かる。なお、原理的には、rを零点ではなく極の値にしてチャープz変換を行うことも可能である(極の場合は∞dBのスペクトルピークを得ることになる)が、計算機上でのダイナミックレンジ内のオーバーフローを検出しなければならないため、零点を用いる方が望ましい。零点を利用する場合は、ダイナミックレンジ内の0を探せばよいため、より容易な処理で足りることになる。
 本実施の形態では、第1チャープz変換部202aがr=1/bのz平面上の軌跡に沿ったチャープz変換を行い、第2チャープz変換部202bがr=1/bのz平面上の軌跡に沿ったチャープz変換を行う。これらのチャープz変換の結果を用いることにより、対象信号が、第1蝸牛遅延フィルタ102a(フィルタ係数b)及び第2蝸牛遅延フィルタ102b(フィルタ係数b)の何れにより群遅延が与えられたものであるのかを推定することが可能になる。
 [電子透かし埋込装置1及び電子透かし検出装置2の動作]
 次に、上述したように構成された本実施の形態の電子透かし埋込装置1及び電子透かし検出装置2の動作について、図8及び図9に示すフローチャートと図2及び図5とを参照しながら説明する。
 [電子透かし埋込処理]
 図8は、本発明の実施の形態における電子透かし埋込装置1が実行する電子透かし埋込処理の手順を示すフローチャートである。
 電子透かし埋込装置1は、フレーム処理部101において、外部から入力された音響信号(原信号)を各フレームに分割する(S101)。次に、電子透かし埋込装置1は、フィルタ選択部103において、電子透かしデータのビット値に応じて適用する蝸牛遅延フィルタの選択を行う。具体的には、外部から入力され、2進数表現のデータに変換された電子透かしデータのビット値が“0”及び“1”の何れであるかを判定し(S102)、その判定結果に応じて第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bの何れかを選択する。なお、電子透かしデータとしては、例えば著作権者名等の著作権情報またはシリアルナンバー等が挙げられる。
 ステップS102において電子透かしデータのビット値が“0”であると判定した場合(S102で“0”)、電子透かし埋込装置1は、第1蝸牛遅延フィルタ102aを用いて、音響信号(原信号)に対して位相変調を施す(S103)。他方、電子透かしデータのビット値が“1”であると判定した場合(S102で“1”)、電子透かし埋込装置1は、第2蝸牛遅延フィルタ102bを用いて、音響信号(原信号)に対して位相変調を施す(S104)。これらのステップS103及びS104により、電子透かしデータが音響信号により埋め込まれることになる。
 次に、電子透かし埋込装置1は、当該フレームに埋め込む電子透かしデータのすべてのビットが処理されたか否かを判定する(S105)。ここでまだ処理されていないビットがあると判定した場合(S105でNO)、電子透かし埋込装置1は、ステップS102へ戻り、それ以降の処理を繰り返す。他方、すべてのビットが処理されたと判定した場合(S105でYES)、電子透かし埋込装置1は、ステップS103及びS104により電子透かしデータの各ビットが埋め込まれた音響信号を接合することにより、透かし入り音響信号を生成する(S106)。
 上記の電子透かし埋込処理をすべてのフレームについて行い、それらを接続することにより、透かし入り音響信号y(n)が生成される。なお、フレームの接続箇所に不連続点が生じることにより(スペクトル拡散の原因でもある)知覚不可能性に影響が出ることを防止するために、接続部前のフレームの後ろ数点(1ms程度)をスプライン(Spline)補間で滑らかにすることが望ましい。
 [電子透かし検出処理]
 次に、上記のようにして電子透かしデータが埋め込まれた透かし入り音響信号から、当該電子透かしデータを検出する電子透かし検出処理について説明する。本実施の形態では、上述したように、原信号を参照しないブラインド検出を行う。なお、電子透かし検出装置2は、電子透かし埋込装置1により電子透かしデータが埋め込まれた際のビットレートを示す情報を記憶しており、当該情報に基づいて下記のセグメントの設定を行うものとする。
 図9は、本発明の実施の形態における電子透かし検出装置2が実行する電子透かし検出処理の手順を示すフローチャートである。
 電子透かし検出装置2は、フレーム処理部201において、外部から入力された透かし入り音響信号を各フレームに分割する(S201)。次に、電子透かし検出装置2は、処理対象のセグメントを設定し(S202)、第1チャープz変換部202aにおいて、当該セグメントの音響信号に対してチャープz変換を行う(S203)。さらに、第2チャープz変換部202bにおいて、同じ音響信号に対してチャープz変換を行う(S204)。
 次に、電子透かし検出装置2は、ステップS203及びS204により得られた2つの周波数スペクトルのうちの何れが、最も低い周波数でのスペクトルの値が急激に減少しているか否かを判定し、その判定結果に基づき、当該音響信号に対して位相変調を施した蝸牛遅延フィルタの零点を推定する(S205)。本実施の形態の場合、上記のようにスペクトルの値が急激に減少しているのが第1チャープz変換部202aにより得られた周波数スペクトルである場合は当該零点が1/bであると推定され、同じく第2チャープz変換部202bにより得られた周波数スペクトルである場合は当該零点が1/bであると推定される。
 次に、電子透かし検出装置2は、ビット値検出部203において、ステップS205により推定された蝸牛遅延フィルタの零点が1/b及び1/bの何れであるかを判定し(S206)、1/bと判定した場合(S206で1/b)はビット値“0”を検出する(S207)。他方、1/bと判定した場合(S206で1/b)はビット値“1”を検出する(S208)。
 その後、電子透かし検出装置2は、処理対象のフレームのすべてのセグメントについて処理を行ったか否かを判定する(S209)。ここで、まだ処理を行っていないセグメントがあると判定した場合(S209でNO)、電子透かし検出装置2は、ステップS202へ戻り、それ以降の処理を繰り返す。他方、すべてのセグメントについて処理を行ったと判定した場合(S209でYES)、電子透かし検出装置2は、ステップS207及びS208においてビット値検出部203により検出したビット値を接合することにより、電子透かしデータを復元する(S210)。
 以上のようにして、蝸牛遅延フィルタを用いて音響信号に埋め込まれた電子透かしデータをブラインド検出することができる。
 [他の手法との比較評価]
 次に、上述した本実施の形態の電子透かし埋込処理により埋め込まれた電子透かしデータの知覚不可能性と、同じく電子透かし検出処理によるビット検出の正確性とについて、他の手法と比較評価する。
 本発明者等は、RWC音楽データベース(後藤、橋口、西村、岡、“RWC 研究用音楽データベース:音楽ジャンルデータベースと楽器音データベース,” 情処学研究報告、2002-MUS-45-4, 19-26, 2002)の全102曲を評価用の原信号(サンプリング周波数44.1kHz、16ビット量子化)として利用して、客観評価実験を行った。ここでは、冒頭10秒間を元曲として、8文字の情報(“AIS-Lab.”)を透かし情報として各原信号に埋め込んだ。また、Nbit=4bpsをベースとし、12条件のNbit(Nbit = 4,8,16,32,64,128,256,512,1024,2048,4096,819bps)で、電子透かしデータを原信号の両チャンネルに埋め込み、その特性評価を行った。音質評価に関しては、「Y. Lin and W. H. Abdulla, “Perceptual evaluation of audio watermarking using objective quality measure,” Proc. ICASSP2008, 1745-1748, 2008」に基づき、オーディオ信号に対する知覚評価尺度(PEAQ)(P. Kabal, “An examination and interpretation of ITU-R BS.1387: Perceptual evaluation of audio quality,”TSP Lab. Technical Report, Dept. Electrical & Computer Engineering, McGUniv. 2002)及び対数スペクトル歪尺度(LSD)を利用した。
 比較対象の手法としては、代表的な電子音響透かし法であるLSB法、DSS法、ECHO法、PPM法を利用した。なお、これらの手法は、PPM法を除き、何れもブラインド検出法である。また、発明者等により非特許文献6及び7にて提案されているCD法も比較対象とした。以下、この比較対象のCD法をCD(Non-Blind)法とし、本実施の形態の電子透かし検出方法をCD(Blind)法と表現する。
 図10は、上記の客観評価実験の結果を示すグラフであり、(a)乃至(c)はそれぞれPEAQ、LSD、ビット検出率についての実験結果を示している。なお、図10では、上記102曲についての平均値が示されている。
 まず、図10(a)に示す結果について検討する。PEAQのODG(Objective Difference Grade)値は0(知覚不可能)~-4(非常に耳障りである)であるため、ここでは-1(知覚される可能性があるが耳障りではない)を知覚不可能性の閾値と定めた。図10(a)に示されるように、DSS法が最も悪く、ECHO法もビットレートが8bps以降から先で急激に悪くなっている。また、PPM法は全般的にODGが-2程度となっている。他方、LSB法は、今回の全てのビットレートにおいて良好な結果が得られている。また、CD(Non-Blind)法では、ビットレートが4bpsでは全く問題がないが、128bpsあたりからODG値が減少し、1024bps程度以降で閾値-1を下回っている。これらに対し、本実施の形態のCD(Blind)法では、64bpsの時点で既に-1.0付近となり、bpsの増加とともに-3.0付近まで低下している。
 次に、図10(b)に示す結果について検討する。一般にLSDは1dB内の歪みであれば音質がよいといわれているため、ここでは、LSDの閾値を1dBに設定した。図10(b)に示すように、LSB法は、ビットレートを変えても埋め込みによる歪みの影響を受けておらず、良好な結果が得られている。他方、DSS法の場合、ビットレートの増加にかかわらず評価閾値の上にあり、音質評価では問題があることが分かる。ECHO法及びPPM法は、いずれも評価閾値内にあり、特に音質に関して問題があるとはいえない。また、CD(Non-Blind)法は、すべてのビットレートで閾値内にあり、256bpsまでは0.5dB以内を維持するという良好な結果となっている。これらに対し、CD(Blind)法は、ビットレートの増加に対して単調増加しており、Nbit<1024bpsまでは閾値以下(-1dB)にあるものの、CD(Non-Blind)法と比較すると若干大きな値となっている。しかし、4~64bpsの付近では、CD(Blind)法でのLSDがCD(Non-Blind)法のものよりも若干小さい値になっている。なお、CD(Blind)法及びCD(Non-Blind)法のLSDでの差は、図10(a)に示すPEAQの場合ほど大きくはなっていない。これは、単純なスペクトル歪みでみる場合と比べると、聴覚的な印象に基づく尺度では両者により違いが現れるためであると考えられる。
 最後に、図10(c)に示す結果について検討する。ここでは、ビット検出率の閾値を75%とした。図10(c)に示すように、LSB法を除き、いずれの手法ともビットレートの増加に伴いビット検出率の低下が見られる。CD(Non-Blind)法は、Nbit=1024bps程度で閾値を切るが、他の従来手法ではもっと低いビットレートで閾値を切っている。他方、本実施の形態のCD(Blind)法では、ビット検出率の低下はほとんど見られず、CD(Non-Blind)法と比べても良好な結果が得られている。具体的には、Nbit<512まではほぼ100%であり、1024bpsに至って98%となっている。
 なお、上記の客観評価実験では、LSB法が最も良い結果を出しているが、LSB法の場合、埋め込みされた信号が少しでも改変された場合に検出できないため、頑健性に大きな問題があることが非特許文献6及び7等で指摘されている。これに対し、CD(Non-Blind)法の場合、「Unoki, M., Imabeppu, K., Hamada, D., Haniu, A., and Miyauchi, R. “Embedding limitations with digital-audio watermarking method based on cochlear delay characteristics,” J. Information Hiding and Multimedia Signal Processing, 2(1), 1-23, 2011」等に示されるように、十分な頑健性を備えている。しかしながら、CD(Non-Blind)法ではブラインド検出ができないという問題があり、本実施の形態のCD(Blind)法では、この問題を解消しつつ、優れた知覚不可能性及び頑健性を得ることが可能である。
 [原信号取得処理]
 従来の多くの電子音響透かし技術では、電子透かしデータを原信号に埋め込んだ後、それを検出することのみが考慮され、検出後にその電子透かしデータを取り除くことまでは検討されていない。そのため、埋め込まれた電子透かしデータを取り除くための工夫はなされず、除去が困難な態様で電子透かしデータの埋め込みを行っている。このことから、従来の多くの技術は、非可逆的な電子音響透かし技術であるといえる。これに対し、本実施の形態では、原信号に対して蝸牛遅延フィルタにより位相変調を施すという比較的単純な処理で電子透かしデータの埋め込みを行っており、その後検出された電子透かしデータを利用することにより、簡易な方法で当該電子透かしデータを取り除いて原信号を取得することができる。このように、本実施の形態では、可逆型の電子音響透かし技術を実現することができる。以下、この原信号を取得するための処理について説明する。
 図11は、本発明の実施の形態における電子透かし検出装置2が実行する原信号取得処理の手順を示すフローチャートである。なお、以下では、電子透かし検出装置2が、電子透かし埋込装置1が備える第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bの逆フィルタ、すなわち第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bが模擬する蝸牛遅延特性の逆特性を有するフィルタを備えているものとする。
 電子透かし検出装置2は、フレーム処理部201において、外部から入力された透かし入り音響信号を各フレームに分割する(S301)。次に、電子透かし検出装置2は、上記の電子透かし検出処理により検出された電子透かしデータを参照し(S302)、その電子透かしデータのビット値が“0”及び“1”の何れであるかを判定する(S303)。
 ステップS303において電子透かしデータのビット値が“0”であると判定した場合(S303で“0”)、電子透かし検出装置2は、第1蝸牛遅延フィルタ102aの逆フィルタを用いて、透かし入り音響信号に対して位相変調を施す(S304)。他方、電子透かしデータのビット値が“1”であると判定した場合(S303で“1”)、電子透かし検出装置2は、第2蝸牛遅延フィルタ102bの逆フィルタを用いて、透かし入り音響信号に対して位相変調を施す(S305)。
 次に、電子透かし埋込装置1は、当該フレームに埋め込まれている電子透かしデータのすべてのビットについて処理がなされたか否かを判定する(S306)。ここでまだ処理がなされていないビットがあると判定した場合(S306でNO)、電子透かし検出装置2は、ステップS303へ戻り、それ以降の処理を繰り返す。他方、すべてのビットについて処理がなされたと判定した場合(S306でYES)、電子透かし検出装置2は、ステップS304及びS305により位相変調が施された音響信号を接合することにより、原信号を復元する(S307)。
 上記の原信号取得処理をすべてのフレームについて行い、それらを接続することにより、原信号が取得されることになる。なお、電子透かし埋込処理の場合と同様に、フレームの接続箇所に不連続点が生じることにより知覚不可能性に影響が出ることを防止するために、接続部前のフレームの後ろ数点(1ms程度)をスプライン補間で滑らかにすることが望ましい。
 [原信号取得処理の評価]
 上述した原信号取得処理により取得された信号が実際の原信号と一致しているか等の点について確認するために、上記の客観評価実験と同様の実験を行った。以下、この結果について検討する。
 図12は、CD(Non-Blind)法及びCD(Blind)法における電子透かし埋込処理により生成された透かし入り音響信号についての上記客観評価実験の結果を示すグラフであり、(a)乃至(c)はそれぞれPEAQ、LSD、ビット検出率についての実験結果を示している。なお、図12には、上記102曲についての平均値が示されている。
 図12において、CD(Blind)法の結果は、上述したスプライン補間を行った場合(Blind(Splineあり))と行っていない場合(Blind(Splineなし))とに分けて示されている。図12を参照すると、スプライン補間を行っている方が、PEAQ、LSD、ビット検出率の何れについても良い結果が出ていることが分かる。ただし、ビット検出率についてはほとんど違いがない。
 他方、図13は、本実施の形態の原信号取得処理により電子透かしデータを削除する前及び削除した後における上記の客観評価実験の結果を示すグラフであり、(a)乃至(c)はそれぞれPEAQ、LSD、SNR(Signal-Noise Ratio)についての実験結果を示している。このSNRにおいて、Sは原信号、Nは原信号と回復信号(上記の原信号取得処理により得られた信号)との差を意味している。なお、ここでも、上記102曲についての平均値が示されている。
 図13を参照すると、電子透かしデータを削除する前よりも、削除した後の方が全般的に良好な結果となっていることが分かる。特に、図13(c)に示すSNRではそのことが顕著となっている。回復信号が原音に近付くほどSNRは高い値になるため、図13(c)に示す結果は、本実施の形態の原信号取得処理により取得された信号が原信号に近いこと、換言すると透かし入り音響信号から埋め込まれた電子透かしデータを効果的に削除することができたことを表しているといえる。
 このように、本実施の形態では、蝸牛遅延フィルタの逆フィルタを用いて位相変調を行うという簡易な処理で、透かし入り音響信号から電子透かしデータを除去して原信号を取得することができる。このように、原信号を取得することができるため、その原信号に新たな電子透かしデータを埋め込み、これを流通させるようなことも可能となる。これにより、埋め込み情報(例えば、著作権情報、シリアルナンバー等)の内容を更新することができる電子音響透かし技術を実現することができる。
 (実施の形態2)
 実施の形態2は、実施の形態1に記載された透かし検出方法を用いることによって、音響信号に対する改ざんを検出することができる改ざん検出装置である。
 近年では、デジタル技術の進展に伴い、音声・音楽等の各種の音響信号がデジタルデータとして扱われている。今後この傾向はより顕著となり、様々な領域でデジタルデータの音響信号が用いられるようになることが予測される。デジタルデータの場合、アナログデータと比べて加工処理が容易であるため、加工・編集するための種々の技術が既に多く存在しており、音響信号を対象にしたものも種々提案されている。例えば、特開2003-108177号公報では、音素片データをピッチ変換して音声合成する際に自然な発音を得ることを可能にする音素片音声合成システムが提案されている。また、特許第3251555号では、所謂VOCODERタイプの音声合成系が提案されている。これらのような音声合成技術等を用いることにより、音響信号の加工・編集を容易に行うことが可能になる。その結果、例えば元の所有者が意図しない態様で音響信号が改ざんされる等の事態も生じ得る。しかしながら、現時点ではそのような音響信号に対する改ざんを検出することが困難であるため、改ざんが施された不正な複製データが拡散するおそれがある。
 本発明者等は、音響信号に対する改ざんの検出方法を種々検討した結果、マルチメディア情報ハイディング(MIH:Multimedia Information Hiding)技術に着目し、音響信号に埋め込まれる電子透かしデータに基づいて当該音響信号の改ざんの有無を判定する方法を知見した。また、本発明者等は、このように電子透かしデータを用いることにより、違法コピー対策を兼ねて改ざんの検出を行うことができるため、様々な領域に応用可能であると考えた。以下、本実施の形態の改ざん検出装置の構成及び動作について説明する。
  [改ざん検出システムの構成]
 図14は、本発明の実施の形態2に係る改ざん検出システムの概要を示す説明図である。図14に示すように、本実施の形態の改ざん検出システムは、実施の形態1において記載した電子透かし埋込装置1と、音響信号に対する改ざんを検出する改ざん検出装置3とを備えている。音響信号の所有者は、所有している音響信号を電子透かし埋込装置1に対して入力する。電子透かし埋込装置1は、音響信号の入力を受けて、当該音響信号に対して電子透かしデータを埋め込む。このようにして生成された透かし入り音響信号は、インターネット等の通信ネットワーク及びその他の手段を介して各利用者に対して配布される。
 各利用者の中に、透かし入り音響信号に対してその一部を書き換える等の処理を施すことにより改ざんを行う改ざん者が現れた場合、その改ざん者によって作成された改ざん音響信号が不正に配布される。その不正に配布された改ざん音響信号を取得した改ざん検出装置3は、電子透かし埋込装置1によって音響信号に埋め込まれた電子透かしデータを用いて、当該改ざん音響信号における改ざんを検出する。
 このように、本実施の形態の改ざん検出システムによる改ざん検出は、電子透かし埋込装置1及び改ざん検出装置3が協働することにより実現される。以下、改ざん検出装置3の詳細な構成について説明する。
 [改ざん検出装置の構成]
 図15は、本発明の実施の形態1に係る改ざん検出装置の構成を示すブロック図である。図15に示すように、改ざん検出装置3は、CPU31、ROM32、RAM33、信号入力部34、ハードディスク35、表示部36、及び音響出力部37を備えており、これらのCPU31、ROM32、RAM33、信号入力部34、ハードディスク35、表示部36、及び音響出力部37は、バス38によって接続されている。
 CPU31、ROM32及びRAM33のそれぞれについては、電子透かし埋込装置1が備えるCPU11、ROM12及びRAM13と同様であるので、説明を省略する。
 信号入力部34は、改ざん検出の対象となる音響信号の入力を外部の装置から受け付ける。この音響信号には、電子透かし埋込装置1によって生成された透かし入り音響信号及びその透かし入り音響信号に改ざんが施されることにより生成される改ざん音響信号が含まれる。
 ハードディスク35には、電子透かし埋込装置1の場合と同様に、オペレーティングシステム及びCPU31に実行させるための種々のコンピュータプログラム等がインストールされている。このコンピュータプログラムには、改ざん検出の対象となる音響信号に埋め込まれている埋め込みデータを検出し、その検出された埋め込みデータに基づいて改ざんの有無を判定する改ざん検出プログラム35Aが含まれる。
 電子透かし埋込プログラム16Aの場合と同様に、ハードディスク35にインストールされる改ざん検出プログラム35Aは、可搬型記録媒体によって提供されてもよく、電気通信回線を介して提供されてもよい。また、この改ざん検出プログラム35Aは、電子透かし埋込プログラム16Aの場合と同様に、ハードディスク35にインストールされているオペレーティングシステム上で動作するものとする。
 表示部36は、液晶ディスプレイ等で構成されており、CPU31の指示にしたがって画像(画面)を表示する。また、音響出力部37は、スピーカ等で構成されており、CPU31の指示にしたがって音響信号を出力する。
 次に、上記の改ざん検出装置3の構成を、図16及び図17に示す機能ブロック図を参照しながら説明する。
 図16は、CPU31の構成を示す機能ブロック図である。図16に示すとおり、CPU31は、埋め込みデータ検出部301と、電子透かしデータ生成部302と、データ照合部303と、改ざん検出部304とを備えている。埋め込みデータ検出部301は、信号入力部34を介して外部から供給された音響信号に埋め込まれている埋込データを検出する。この埋め込みデータ検出部301の詳細な構成については図17を参照しながら後述する。
 電子透かしデータ生成部302は、信号入力部34を介して外部から供給された所有者情報を用いてビット列のデータである画像データ(電子透かしデータ)を生成する。ここで、この所有者情報は、電子透かし埋込装置1の電子透かしデータ生成部101に供給されるものと同一である。したがって、電子透かし埋込装置1及び改ざん検出装置3では同一の電子透かしデータが生成されることになる。
 データ照合部303は、埋め込みデータ検出部301によって検出された埋め込みデータと、電子透かしデータ生成部302によって生成された電子透かしデータとの照合を行う。改ざん検出部304は、データ照合部303による照合の結果に基づいて、改ざん検出対象の音響信号に対する改ざんの有無を判定する。
 次に、埋め込みデータ埋込部301の詳細について説明する。図17は、埋め込みデータ検出部301の構成を示す機能ブロック図である。図17に示すように、埋め込みデータ検出部301は、外部から取得された改ざん検出対象の音響信号y(n)をフレーム化するフレーム処理部301a(実施の形態1におけるフレーム処理部201と同様の構成)と、フレーム化された音響信号y(n)に対して、チャープz変換を施す2つのチャープz変換部301b及び301c(実施の形態1におけるチャープz変換部202a及び202bと同様の構成)と、これらの第1チャープz変換部301b及び第2チャープz変換部301cによるチャープz変換の結果に基づいて、埋め込みデータのビット値を検出するビット値検出部301d(実施の形態1におけるビット値検出部203と同様の構成)とを備えている。
 なお、本実施の形態において、これらの埋め込みデータ検出部301(フレーム処理部301a、第1チャープz変換部301b及び第2チャープz変換部301c、並びにビット値検出部301d)、電子透かしデータ生成部302、データ照合部303、及び改ざん検出部304は、CPU31が改ざん検出プログラム35Aを実行することによって実現される。
 [電子透かし埋込装置1及び改ざん検出装置3の動作]
 次に、上述したように構成された電子透かし埋込装置1及び改ざん検出装置3の動作について、フローチャートを参照しながら説明する。
 [電子透かし埋込処理]
 電子透かし埋込装置1は、図8のフローチャートを参照しながら上述した実施の形態1における電子透かし埋込処理と同様な処理を実行することにより、透かし入り音響信号を生成する。
 このようにして生成された透かし入り音響信号は、上述したように、符号化処理部303により適宜の形式に変換され、利用者に配布すべく外部に出力される。
 [改ざん検出処理]
 次に、上述したようにして電子透かしデータが埋め込まれた透かし入り音響信号が各利用者に配布された後、改ざん検出装置3が外部から取得した音響信号に対して改ざんが施されているか否かを判定する改ざん検出処理について、(a)埋め込みデータ検出処理(ブラインド検出)及び(b)改ざん判定処理の2つに分けて説明する。なお、音響信号の取得の態様としては、インターネット等の通信ネットワークを介して取得したり、CD-ROM等の可搬型記録媒体から取得したりする等、様々なものが想定される。
 本実施の形態では、上述したように、原信号を参照しないブラインド検出を行う。なお、改ざん検出装置3は、電子透かし埋込装置1により電子透かしデータが埋め込まれた際のビットレートを示す情報を記憶しており、当該情報に基づいて下記のセグメントの設定を行うものとする。
 (a)電子透かし検出処理(ブラインド検出)
 図18は、改ざん検出装置3が実行する埋め込みデータ検出処理の手順を示すフローチャートである。
 改ざん検出装置3は、フレーム処理部301aにおいて、外部から取得した改ざん検出対象の音響信号を各フレームに分割する(S401)。次に、改ざん検出装置3は、処理対象のセグメントを設定し(S402)、第1チャープz変換部301bにおいて、当該セグメントの音響信号に対してチャープz変換を行う(S403)。さらに、第2チャープz変換部301cにおいて、同じ音響信号に対してチャープz変換を行う(S404)。
 次に、改ざん検出装置3は、ステップS403及びS404により得られた2つの周波数スペクトルのうちの何れが、最も低い周波数でのスペクトルの値が急激に減少しているか否かを判定し、その判定結果に基づき、当該音響信号に対して位相変調を施した蝸牛遅延フィルタの零点を推定する(S405)。本実施の形態の場合、上記のようにスペクトルの値が急激に減少しているのが第1チャープz変換部301bにより得られた周波数スペクトルである場合は当該零点が1/bであると推定され、同じく第2チャープz変換部301cにより得られた周波数スペクトルである場合は当該零点が1/bであると推定される。
 次に、改ざん検出装置3は、ビット値検出部301dにおいて、ステップS405により推定された蝸牛遅延フィルタの零点が1/b及び1/bの何れであるかを判定し(S406)、1/bと判定した場合(S406で“1/b”)はビット値“0”を検出する(S407)。他方、1/bと判定した場合(S406で“1/b”)はビット値“1”を検出する(S408)。
 その後、改ざん検出装置3は、処理対象のフレームのすべてのセグメントについて処理を行ったか否かを判定する(S409)。ここで、まだ処理を行っていないセグメントがあると判定した場合(S409でNO)、改ざん検出装置3は、ステップS402へ戻り、それ以降の処理を繰り返す。他方、すべてのセグメントについて処理を行ったと判定した場合(S409でYES)、改ざん検出装置3は、ステップS407及びS408においてビット値検出部303により検出したビット値を接合することにより、埋め込みデータを復元する(S410)。
 以上のようにして、蝸牛遅延フィルタを用いて音響信号に埋め込まれた埋め込みデータをブラインド検出することができる。
 (b)改ざん判定処理
 図19は、改ざん検出装置3が実行する改ざん判定処理の手順を示すフローチャートである。
 改ざん検出装置3は、データ照合部303において、電子透かしデータ生成部302によって生成された電子透かしデータ(ビット列)と、埋め込みデータ検出部301により上述したようにして検出されて復元された埋め込みデータ(ビット列)とをビット毎に照合する(S501)。その結果、両データにおける全てのビットについてビット値が一致した場合(S502でYES)、改ざん検出装置3は、改ざん検出対象の音響信号からは改ざんが検出されなかったことを示す改ざん非検出メッセージを表示部36にて表示する(S503)。他方、不一致のビット値が一つでもあった場合(S502でNO)、改ざん検出装置3は、不一致ビットを特定し(S504)、そのビットについて改ざんがなされていることを示す改ざん検出メッセージを表示部36にて表示する(S505)。
 このように、本実施の形態では、音響信号に対して改ざんがなされているか否か、及び改ざんがなされている場合に音響信号中のどのビットが改ざんされているのかを判定することができる。
 なお、改ざん検出装置3は、ユーザからの指示にしたがって、又は上記のステップS505により改ざん検出メッセージを表示する場合に、改ざんが検出された音響信号のすべて、又は改ざんされているビットを含むその一部を、音響出力部37にて出力するようにしてもよい。この場合、改ざんされているビット部分を出力する際に、当該部分が改ざんされていることを表示部36にて表示することが望ましい。これにより、ユーザは、どの部分が改ざんされているのかを容易に確認することが可能である。
 本実施の形態のように蝸牛遅延フィルタを用いた場合、電子透かしデータは、音響信号に対して信号変換(音声符号化)が行われたときは壊れにくく、他方、音響信号に対して改ざんが行われたときは壊れやすくなる。そのため、本実施の形態の場合、電子透かしデータの壊れ度合いを測定することにより、改ざんの有無を適確に判別することが可能になる。
 (実施の形態3)
 上述したように、実施の形態2の改ざん検出装置は、ブラインド検出を用いている。これに対し、実施の形態3の改ざん検出装置は、ノンブラインド検出(原信号を参照して電子透かしデータを検出する)を用いている。以下、本実施の形態の改ざん検出装置の構成及び動作について説明する。なお、これらの電子透かし埋込装置及び改ざん検出装置のハードウェア構成については、上述した電子透かし埋込装置1及び改ざん検出装置3と同様であるので説明を省略する。
 [電子透かし埋込装置及び改ざん検出装置の構成]
 図20は、実施の形態3に係る電子透かし埋込装置及び改ざん検出装置の構成を示す機能ブロック図である。図20に示すように、電子透かし埋込装置4は、電子透かしデータを所定の表現のデータに変換する符号化部401と、第1蝸牛遅延フィルタ402a及び第2蝸牛遅延フィルタ402bと、後述する選択的荷重和処理を実行する選択的荷重和接合部403とを備えている。本実施の形態において、これらの符号化部401、第1蝸牛遅延フィルタ402a及び第2蝸牛遅延フィルタ402b、並びに選択的荷重和接合部403は、電子透かし埋込装置4のCPUが、後述する電子透かし埋込処理のための電子透かし埋込プログラムを実行することによって実現される。なお、第1蝸牛遅延フィルタ402a及び第2蝸牛遅延フィルタ402bは、実施の形態1における第1蝸牛遅延フィルタ102a及び第2蝸牛遅延フィルタ102bと同様であるので、説明を省略する
 また、改ざん検出装置5は、図20に示すように、改ざん検出対象の音響信号及び音響信号(原信号)の位相スペクトルをそれぞれ求める位相算出部501a及び501bと、両音響信号の位相差を検出する位相差検出部502と、埋め込みデータを復元する復号部503とを備えている。本実施の形態において、これらの位相算出部501a及び501b、位相差検出部502、並びに復号部503は、改ざん検出装置5のCPUが、後述する改ざん検出処理のための改ざん検出プログラムを実行することによって実現される。
 [電子透かし埋込装置及び改ざん検出装置の動作]
 次に、上述したように構成された本実施の形態の電子透かし埋込装置4及び改ざん検出装置5の動作について説明する。
 [電子透かし埋込処理]
 図21は、実施の形態2における電子透かし埋込装置3が実行する電子透かし埋込処理の手順を示すフローチャートである。
 電子透かし埋込装置4は、符号化部401において、音響信号に埋め込む電子透かしデータを、2進数表現のデータに変換する(S601)。この電子透かしデータは、実施の形態1の場合と同様に、ビットマップ形式の画像データである。
 このようにして2進数表現に変換された電子透かしデータは、選択的荷重和接合部403に出力される。
 次に、電子透かし埋込装置4は、第1蝸牛遅延フィルタ402a及び第2蝸牛遅延フィルタ402bを用いて、外部から入力された音響信号(原信号)に対して位相変調を施す(S602)。その結果、人工的に蝸牛遅延が付加された二つの音響信号が生成されることになる。
 このようにして第1蝸牛遅延フィルタ402a及び第2蝸牛遅延フィルタ402bを用いて位相変調された二つの音響信号は、選択的荷重和接合部403に出力される。
 次に、電子透かし埋込装置4は、選択的荷重和接合部403において、以下のような選択的荷重和処理を実行して電子透かしデータを、位相変調された音響信号に埋め込む(S603)。
 選択的荷重和処理では、電子透かしデータのビットが0のときは第1蝸牛遅延フィルタ402aから出力された音響信号が、1のときは第2蝸牛遅延フィルタ402bから出力された音響信号がそれぞれ選択される。そして、これらの選択された音響信号同士が接合されることにより、電子透かしデータが埋め込まれた透かし入り音響信号が生成される。
 ここで、その接合した部分において急激な位相変化が起こらないように、音響信号同士を荷重和することにより、音響信号の接合が行われる。この荷重和処理は、例えばramped-cosの荷重を付与する等して行われる。このような荷重和処理を行うことにより、透かし入り音響信号の歪みが軽減される。
 以上の電子透かし埋込処理を式で表すと次のようになる。図22に示す概念図も参照しながら説明する。なお、以下において、nはサンプリング番号を、kは音響信号のフレーム番号をそれぞれ示している。
 まず、ステップS601において、電子透かしデータが2進数表現のデータs(k)へと変換される。
 次に、原信号である音響信号をx(n)とし、第1蝸牛遅延フィルタ402a及び第2蝸牛遅延フィルタ402bそれぞれをH0(z)及びH1(z)とすると、上記のステップS602において、位相変調が施された二つの音響信号(w0(n)、w1(n))が上述した式(3)及び式(4)により生成される。
 そして、ステップS603において、電子透かしデータs(k)のビットが0であるか1であるかに応じてw0(n)又はw1(n)が選択され、上述した式(5)のとおり、透かし入り音響信号y(n)が生成される。
 [改ざん検出処理]
 本実施の形態においても、実施の形態2の場合と同様、改ざん検出処理には埋め込みデータ検出処理及び改ざん判定処理が含まれる。このうち、改ざん判定処理については実施の形態2の場合と同様であるので説明を省略する。以下、埋め込みデータ検出処理(ノンブラインド検出)について説明する。
 上述したように、本実施の形態における電子透かし埋込処理では、二つの蝸牛遅延フィルタによって位相変調された二つの音響信号を、時間毎に切り替えることにより、透かし入り音響信号を生成している。これらの二つの音響信号は、原信号に位相変調をかけたものであるため、原信号と透かし入り音響信号との位相特性の差を用いることにより、透かし入り音響信号が、上記の二つの蝸牛遅延フィルタの何れの蝸牛遅延フィルタによって位相変調された信号であるのかを特定することができる。埋め込みデータ検出処理(ノンブラインド検出)は、このような性質を利用して改ざん検出対象の音響信号に埋め込まれている埋め込みデータの検出を行うものである。
 図23は、埋め込みデータ検出処理(ノンブラインド検出)の手順を示すフローチャートである。
 改ざん検出装置5は、位相算出部501a及び501bのそれぞれにおいて、高速フーリエ変換(FFT:Fast Fourier Transform)により、音響信号(原信号)及び改ざん検出対象の音響信号の位相スペクトルを求める(S701)。ここでは、電子透かし埋込処理で利用されたビット単位で、各音響信号の位相スペクトルが算出される。
 このようにして求められた各音響信号の位相スペクトルは、位相差検出部502に出力される。
 次に、改ざん検出装置5は、位相差検出部502において、両音響信号の位相スペクトルの差を算出し(S702)、その算出された位相スペクトルの差と第1蝸牛遅延フィルタ402aによって与えられる群遅延との差の合計値(第1の合計値)、及び同じく位相スペクトルの差と第2蝸牛遅延フィルタ402bによって与えられる群遅延との差の合計値(第2の合計値)を算出する(S703)。そして、位相差検出部502において、これら第1の合計値と第2の合計値とを比較し、第1の合計値が第2の合計値より小さければ電子透かしデータのビット値として“0”を検出し、第1の合計値が第2の合計値以上であれば“1”を検出する(S704)。なお、この処理は、第1蝸牛遅延フィルタ402a及び第2蝸牛遅延フィルタ402bの何れのフィルタを用いて位相変調されたのかを推定することに相当する。
 このようにして電子透かしデータのすべてのビットの値が検出された後、それら検出されたビット値が復号部503に出力される。
 次に、改ざん検出装置5は、復号部503において、上述したようにして検出されたビット値を用いて、改ざん検出対象の音響信号に埋め込まれている埋め込みデータを復元する(S705)。
 以上のようにして、蝸牛遅延フィルタを用いて音響信号に埋め込まれた埋め込みデータを検出することができる。
 以上の埋め込みデータ検出処理を式で表すと次のようになる。図24に示す概念図も参照しながら説明する。なお、以下において、nはサンプリング番号を、kは音響信号のフレーム番号をそれぞれ示している。
 まず、ステップS701において、音響信号x(n)及び改ざん検出対象の音響信号y(n)の位相スペクトルがFFTにより求められ、ステップS702において、両音響信号の位相スペクトルの差Φ(ω)が次の式(7)により算出される。
 Φ(ω)=arg(FFT[y(n)])-arg(FFT[x(n)]) … (7)
 次に、ステップS703において、両音響信号の位相スペクトルの差と第1蝸牛遅延フィルタ402a(H0(z))との差の合計値ΔΦ0及び当該位相スペクトルの差と第2蝸牛遅延フィルタ402b(H1(z))との差の合計値ΔΦ1が、次の式(8)及び式(9)によってそれぞれ算出される。ただし、z=eである。
 ΔΦ0=Σ|Φ(ω)-arg(H0(e))| … (8)
 ΔΦ1=Σ|Φ(ω)-arg(H1(e))| … (9)
 そして、ステップS704において、上記の合計値ΔΦ0及びΔΦ1の大小関係に基づいて、次の式(10)にしたがって埋め込みデータのビット値s(k)が検出される。
 s(k)=0,ΔΦ0<ΔΦ1 又は 1,ΔΦ0≧ΔΦ1 … (10)
 最後に、ステップS705において、これらの検出されたビット値s(k)を用いて埋め込みデータが復元される。
 上述したように、埋め込みデータ検出処理(ノンブラインド検出)を実行することにより、改ざん検出対象の音響信号から埋め込みデータを検出することができる。その後、実施の形態2の場合と同様に、改ざん判定処理を実行することにより、当該音響信号に改ざんが施されているか否か、施されている場合にどの部分が改ざんされているのかを判定することができる。
 (他の手法との比較評価)
 次に、上述した実施の形態2及び3による改ざん検出とLSB法による場合との比較評価を行う。以下では、実施の形態2におけるブラインド検出方法をCD(Blind)法と表現し、実施の形態3におけるノンブラインド検出方法をCD(Non-Blind)法と表現する。
 本発明者等は、ATR音声データベースにある約8秒の長文データ(12文章,男性・女性話者混在,サンプリング周波数16kHz)に対し、電子透かしデータ(ビットマップ画像)を音声信号に埋め込み、MIH技術の要求項目(知覚不可能性,頑健性)で利用される評価項目(PESQ(Perceptual Evaluation of Speech Quality)及びLSD(Log Spectrum Distortion))と電子透かしデータのビット検出率とを調べた。また、本発明者等は、耐性評価として音響信号に信号変換(3種類の音声符号化:PCM(G711),ADPCM(G726),CS-ACELP(G729))を施した後でのビット検出率を調べた。以下、これらの実験結果について説明する。
 図25は、上記の客観評価実験の結果を示すグラフであり、(a)乃至(c)はそれぞれCD(Non-Blind)法、CD(Blind)法、及びLSB法におけるPESQ、LSD及びビット検出率についての実験結果を示している。なお、図25では、上記12文章についての平均値が示されている。ここでは、PESQ及びLSDの評価閾値をそれぞれ、ODG値で3(音楽信号評価用のPEAQでの-1に対応)及び1dBとした。図25(a)及び(b)を参照すると、LSB法がPESQ及びLSDが非常に優れていることが確認できる。他方、CD(Non-Blind)法及びCD(Blind)法は、LSB法の場合ほど良好ではないものの、十分に評価閾値内にあり、MIH技術の要求項目を満たしていると言える。また、図25(c)に示すように、ビット検出率については、何れの手法でも十分に評価閾値75%より上にあり、良好な結果が得られている。なお、CD(Blind)法では、CD(Non-Blind)法と比べてPESQ及びLSDが低下しているが、ビット検出率は向上している。
 図26は、上述した耐性評価試験の結果を示すグラフであり、(a)乃至(c)はそれぞれCD(Non-Blind)法、CD(Blind)法、及びLSB法における結果を示している。ここではビット検出率75%を評価閾値としている。図26(a)乃至(c)を参照すると、LSB法と比べて、CD(Non-Blind)法及びCD(Blind)法が良好な結果が得られている。なお、検出率50%はチャンスレベルに相当する。すなわち、対象ビットは0又は1であるため、適当に選んでビットを割り当てたときの正答率が確率50%となる。そのため、ビット検出率はどんなに低い場合でも統計的には50%付近をうろつくことになる。図25(c)から分かるように、LSB法は知覚不可能性には優れているものの信号変換といったささいな波形処理に非常に敏感となり、情報改ざんとは解釈できない音声符号化処理には脆弱である。他方、CD(Non-Blind)法及びCD(Blind)法では、G711及びG726の音声符号化には頑健であり、G729には十分対応できていないことが、図26(a)及び(b)から理解できる。但し、この結果はG729の音声符号化が波形処理ベースではないことに起因している。近年、広帯域ブロードバンド化の普及に伴い音声符号化も高品質音声を生成する波形ベースの符号化に移行しているため、G729に対応できていなくても実用性は十分であるといえる。
 このように、CD(Non-Blind)法及びCD(Blind)法を利用した場合、MIH技術の要求を十分に満足した上で、改ざん検出を行うことが可能になる。
 次に、実施の形態2及び3において対応可能な改ざんの態様の例について説明する。改ざんの態様としては、音声内容の少なくとも一部を別の音声内容に入れ替えるパターン(以下、「情報入替型改ざん」という)、音声内容の少なくとも一部に別の音声内容が付与されるパターン(以下、「情報付与型改ざん」という)等が挙げられる。情報入替型改ざんは、例えば音素片音声合成技術又はVOCODERタイプの音声合成技術等によって実行される。また、情報付与型改ざんは、例えば発話内容を相手に聞き取り難くするための処理等によって実行される。具体的には、音声の明瞭性を低下させるために低SNR(高騒音)の雑音を付与したり残響を付与したり等の処理が想定される。
 本発明者等は、実施の形態2にしたがって、ATR音声データベースにある約8秒の長文データ(5文章,男性・女性話者混在,サンプリング周波数16kHz)に対し、図27に示すビットマップ画像(音響透かしデータ)を埋め込み、ビット検出率及び検出後のビットマップ画像を調べた。ここで、この画像は、図27において矢符にて示したとおり、上からの下への垂直方向の走査線を左から右への水平方向にずらしていくことによって得られたものである。なお、この画像のサイズは32×32ビットである。
 音響信号に対して改ざんを施さなかった場合、ビット検出率は100%であり、また、検出後のビットマップ画像は図28(a)乃至(e)に示すとおりとなった。なお、これ以降の図面も含めて、(a)乃至(e)は、5つの異なる音声文章(音響信号)に対する結果をそれぞれ示している。これら図28(a)乃至(e)に示すとおり、ほぼ原画像が保存されている。これに対し、音響信号に対してPCM(G711)の音声符号化を行うと、ビット検出率は85%まで低下するものの、検出後のビットマップ画像は図29(a)乃至(e)に示すように原画像に非常に近いことがわかった。
 次に、音響信号に対して情報付与型改ざんを施した場合の結果は以下のとおりとなった。まず、マスキングの影響により発話内容の聞き取りを妨害する目的で、低SNRの白色雑音を音響信号に対して付与した場合、ビット検出率は79%であり、検出後のビットマップ画像は図30(a)乃至(e)に示すとおりとなった。また、残響の影響により発話内容の聞き取りを妨害する目的で、音響信号に対して残響を付与した場合であって、人工残響(0.3秒)を付与したときはビット検出率が74%で検出後のビットマップ画像は図31(a)乃至(e)に示すとおりとなり、実環境の雑音(約1.0秒)を付与したときはビット検出率が74%で検出後のビットマップ画像は図32(a)乃至(e)に示すとおりとなった。このように、情報付与型改ざんを施した場合は、いずれもビット検出率は75%弱と耐性としてみたときの評価閾値上にあるものの、図30乃至図32に示すように検出後のビットマップ画像は原形をとどめていない。
 最後に、音響信号に対して情報入替型改ざんを施した場合の結果は以下のとおりとなった。まず、話者の情報を残した上で発話内容を改ざんする目的で、VOCODERタイプの音声分析合成のうちwaveletタイプの音声分析合成系(GTFB:Gamma Tone FilterBank)を用いて改変を行った場合のビット検出率は90%で検出後のビットマップ画像は図33(a)乃至(e)に示すとおりとなり、同じく短時間フーリエ変換対を利用した音声分析合成系(STFT:Short-time Fourier Transform)を用いて改変を行った場合のビット検出率は91%で検出後のビットマップ画像は図34(a)乃至(e)に示すとおりとなった。なお、ここでは、音声区間の2.5~5秒のところのみ、これらの分析合成系で加工されたものと入れ替えを行った。また、話者の情報を残した上で発話内容を改ざんする目的で、音響信号に対して音素片合成による内容改変を行った場合、ビット検出率は91%でビットマップ画像は図35(a)乃至(e)に示すとおりとなった。このように、情報入替型改ざんを施した場合、いずれもビット検出率は90%程度と高い。また、図33乃至図35に示すように、検出後のビットマップ画像は中央領域が壊れているもののその左右は原画像に近いという共通性がみられる。
 このように、検出後のビットマップ画像は、音声符号化では壊れない一方で、改ざんが施された場合は一定程度壊れることになる。また、情報入替型改ざんと情報付与型改ざんとでは、その壊れ度合いが異なっている。そのため、改ざん検出装置が、この壊れ度合いを検出することで、音響信号に対して改ざんが施されているか否か、及び施されている場合にどのような態様の改ざんが施されているのかを判定することができる。
 上記のような改ざんの態様の判定は、次のようにして行うことも可能である。情報入替型改ざんの場合、蝸牛遅延特性を用いて音響信号に埋め込まれた遅延情報が消失してしまうため、実施の形態2及び3の何れの場合でも、“0”か“1”かの判定が不可能な状況が生じる。この場合、実施の形態2及び3では、if文で強制判定することとしているため、必ず“0”が検出されることになる。例えば、図36(a)に示すように2.5~5秒の区間を音素片合成すると、実施の形態1の場合、零点の判定に伴う低域側スペクトルの落ち込みが確認されず、0及び1のときのスペクトルの大きさがほぼ同じ状態となる。そのため、図36(b)に示すように両者の差は0dB付近となり、上記の強制判定によってビット値“0”が検出されることになる。これは実施の形態2の場合も同様である。そのため、音響信号の改ざん領域が特定された後、図36(c)に示すようにその特定された領域に0ビットの系列が大量に観測されたときは、情報入替型改ざんが行われたと考えることができる。これに対し、改ざん領域が特定された後、その領域のビットの系列がランダムであるような場合は、情報付与型改ざんが行われたと考えることができる。
 なお、上述したように、図33乃至図35において画像の中央領域が壊れているのは、音声区間の2.5秒~5秒のところに入れ替えが行われ、すなわち当該区間において集中して0ビットが検出され、且つ、当該画像が上から下へ、右から左へ走査することによって得られるためである。
 上記の改ざん態様の判定手法をフローチャートで示すと図37のとおりとなる。実施の形態2又は3の改ざん検出装置は、上述した改ざん判定処理によって改ざんが施されたと判定された音響信号からその改ざんされた領域を抽出し(S801)、その改ざん領域においてビット値“0”の系列の数が所定の閾値以上であるか否かを判定する(S802)。ここで閾値以上であると判定した場合(S802でYES)、改ざん検出装置は、音響信号に対して情報入替型改ざんが施されていることを示す情報入替型改ざんメッセージを表示部にて表示する(S803)。他方、閾値より少ないと判定した場合(S802でNO)、改ざん検出装置は、音響信号に対して情報付与型改ざんが施されていることを示す情報付与型改ざんメッセージを表示部にて表示する(S804)。
 このようにして、実施の形態2及び3においては、改ざんの有無のみならず、その改ざんの態様を判定することも可能となる。
 (その他の実施の形態)
 上記の各実施の形態においては、電子透かしデータの埋め込み処理及び改ざん検出処理がソフトウェアにより実現されているが、本発明はこれに限定されるわけではない。例えば、これらの処理の全部又は一部が、DSP(Digital Signal Processor)等の専用のハードウェア回路によって実現されてもよい。
 また、上記の各実施の形態においては、原信号であるモノラル音楽信号に対して電子透かしデータを埋め込んでいるが、本発明はこれに限られるわけではなく、ステレオ音楽信号の両チャンネルに対して電子透かしデータを埋め込むことも可能である。
 本発明の電子透かし検出装置及び電子透かし検出方法はそれぞれ、種々の音楽ジャンルの音響信号に電子透かしデータが埋め込まれている場合に当該電子透かしデータを検出する電子透かし検出装置及び電子透かし検出方法等として有用である。また、本発明の電子透かしを用いた改ざん検出装置及び改ざん検出方法はそれぞれ、種々の音響信号に対する改ざんの検出を行うための改ざん検出装置及び改ざん検出方法等として有用である。
 1 電子透かし埋込装置
 11 CPU
 12 ROM
 13 RAM
 14 信号入力部
 15 信号出力部
 16 ハードディスク
 16A 電子透かし埋込プログラム
 17 バス
 101 フレーム処理部
 102a 第1蝸牛遅延フィルタ
 102b 第2蝸牛遅延フィルタ
 103 フィルタ選択部
 2 電子透かし検出装置
 21 CPU
 22 ROM
 23 RAM
 24 信号入力部
 25 ハードディスク
 25A 電子透かし検出プログラム
 26 バス
 201 フレーム処理部
 202a、202b 変換部
 202a 第1チャープz変換部
 202b 第2チャープz変換部
 203 ビット値検出部
 3 改ざん検出装置
 301 埋め込みデータ検出部
 301a フレーム処理部
 301b 第1チャープz変換部
 301c 第2チャープz変換部
 301d ビット値検出部
 302 電子透かしデータ生成部
 303 データ照合部
 304 改ざん検出部
 4 電子透かし埋込装置
 5 改ざん検出装置

Claims (12)

  1.  蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施し、前記位相変調が施された音響信号に電子透かしデータを埋め込む電子透かしデータ埋め込み装置によって、デジタルデータである音響信号に電子透かしデータが埋め込まれた場合に、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定する蝸牛遅延特性推定手段と、
     前記蝸牛遅延特性推定手段により推定された蝸牛遅延特性に基づいて、音響信号に埋め込まれた前記電子透かしデータを検出する電子透かし検出手段と
     を備える、電子透かし検出装置。
  2.  前記電子透かしデータ埋め込み装置が、複数の異なる蝸牛遅延フィルタを用いて音響信号に位相変調を施すことにより、複数の異なる位相変調された音響信号を生成し、電子透かしデータに応じて、前記複数の異なる位相変調された音響信号の中から一の音響信号を選択し、選択した音響信号同士を接合することにより、電子透かしデータを埋め込むように構成されており、
     前記蝸牛遅延特性推定手段が、前記複数の異なる蝸牛遅延フィルタがそれぞれ模擬する複数の異なる蝸牛遅延特性を推定するように構成され、
     前記電子透かし検出手段が、前記蝸牛遅延特性推定手段により推定された前記複数の異なる蝸牛遅延特性に基づいて、電子透かしデータが埋め込まれた音響信号が、前記複数の異なる蝸牛遅延フィルタのうちの何れの蝸牛遅延フィルタが適用されて位相変調が施されたかを判定することにより、電子透かしデータを検出するように構成されている、
     請求項1に記載の電子透かし検出装置。
  3.  前記蝸牛遅延特性推定手段が、前記蝸牛遅延フィルタの零点を推定することにより、蝸牛遅延特性を推定するように構成されている、
     請求項1又は2に記載の電子透かし検出装置。
  4.  前記蝸牛遅延特性推定手段が、チャープz変換を用いて、前記蝸牛遅延フィルタの零点を推定するように構成されている、
     請求項3に記載の電子透かし検出装置。
  5.  前記蝸牛遅延特性手段により推定された蝸牛遅延特性の逆特性を有するフィルタを電子透かしデータが埋め込まれた音響信号に施すことにより、電子透かしデータが埋め込まれる前の音響信号を取得する原信号取得手段をさらに備える、
     請求項4に記載の電子透かし検出装置。
  6.  電子透かしデータが埋め込まれた音響信号の位相変調に適用されたと前記電子透かし検出手段により判定された蝸牛遅延フィルタの逆フィルタを当該音響信号に施すことにより、電子透かしデータが埋め込まれる前の音響信号を取得する原信号取得手段をさらに備える、
     請求項2に記載の電子透かし検出装置。
  7.  蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施し、前記位相変調が施された音響信号に電子透かしデータを埋め込む電子透かしデータ埋め込み装置によって、デジタルデータである音響信号に電子透かしデータが埋め込まれた場合に、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するステップ(a)と、
     推定された蝸牛遅延特性に基づいて、音響信号に埋め込まれた前記電子透かしデータを検出するステップ(b)と
     を有する、電子透かし検出方法。
  8.  前記電子透かしデータ埋め込み装置が、複数の異なる蝸牛遅延フィルタを用いて音響信号に位相変調を施すことにより、複数の異なる位相変調された音響信号を生成し、電子透かしデータに応じて、前記複数の異なる位相変調された音響信号の中から一の音響信号を選択し、選択した音響信号同士を接合することにより、電子透かしデータを埋め込むように構成されており、
     前記ステップ(a)において、前記複数の異なる蝸牛遅延フィルタがそれぞれ模擬する複数の異なる蝸牛遅延特性を推定し、
     前記ステップ(b)において、前記ステップ(a)により推定された前記複数の異なる蝸牛遅延特性に基づいて、電子透かしデータが埋め込まれた音響信号が、前記複数の異なる蝸牛遅延フィルタのうちの何れの蝸牛遅延フィルタが適用されて位相変調が施されたかを判定することにより、電子透かしデータを検出する、
     請求項7に記載の電子透かし検出方法。
  9.  前記ステップ(a)において、前記蝸牛遅延フィルタの零点を推定することにより、蝸牛遅延特性を推定する、
     請求項8又は9に記載の電子透かし検出方法。
  10.  前記ステップ(a)においてチャープz変換を用いて、前記蝸牛遅延フィルタの零点を推定する、
     請求項9に記載の電子透かし検出方法。
  11.  蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータが埋め込まれた後に、当該音響信号に対する改ざんを検出する改ざん検出装置であって、
     前記音響信号を外部から取得する音響信号取得手段と、
     前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定する蝸牛遅延特性推定手段と、
     前記蝸牛遅延特性推定手段により推定された蝸牛遅延特性に基づいて、前記音響取得手段によって取得された音響信号に埋め込まれている埋め込みデータを検出する埋め込みデータ検出手段と、
     前記埋め込みデータ検出手段によって検出された埋め込みデータと前記電子透かしデータとを照合する照合手段と、
     前記照合手段による照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定する改ざん判定手段と
     を備える、電子透かしを用いた改ざん検出装置。
  12.  蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータが埋め込まれた後に、当該音響信号に対する改ざんを検出する改ざん検出方法であって、
     前記音響信号を外部から取得するステップ(a)と、
     前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するステップ(b)と、
     推定された蝸牛遅延特性に基づいて、取得された前記音響信号に埋め込まれている埋め込みデータを検出するステップ(c)と、
     検出された前記埋め込みデータと前記電子透かしデータとを照合するステップ(d)と、
     照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定するステップ(e)と
     を有する、電子透かしを用いた改ざん検出方法。
PCT/JP2012/071202 2011-09-08 2012-08-22 電子透かし検出装置及び電子透かし検出方法、並びに電子透かしを用いた改ざん検出装置及び改ざん検出方法 WO2013035537A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/343,676 US20140278447A1 (en) 2011-09-08 2012-08-22 Digital watermark detection device and digital watermark detection method, as well as tampering detection device using digital watermark and tampering detection method using digital watermark

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011-196449 2011-09-08
JP2011196449A JP5879075B2 (ja) 2011-09-08 2011-09-08 電子透かし検出装置及び電子透かし検出方法
JP2011240692A JP5889601B2 (ja) 2011-11-01 2011-11-01 音響信号に対する改ざん検出方法及び改ざん検出装置
JP2011-240692 2011-11-01

Publications (1)

Publication Number Publication Date
WO2013035537A1 true WO2013035537A1 (ja) 2013-03-14

Family

ID=47831987

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/071202 WO2013035537A1 (ja) 2011-09-08 2012-08-22 電子透かし検出装置及び電子透かし検出方法、並びに電子透かしを用いた改ざん検出装置及び改ざん検出方法

Country Status (2)

Country Link
US (1) US20140278447A1 (ja)
WO (1) WO2013035537A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719660A (zh) * 2016-01-21 2016-06-29 宁波大学 一种基于量化特性的语音篡改定位检测方法
CN106228501A (zh) * 2016-07-13 2016-12-14 西安电子科技大学 一种基于整数变换的自适应可逆数字水印方法
US11217076B1 (en) * 2018-01-30 2022-01-04 Amazon Technologies, Inc. Camera tampering detection based on audio and video

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2565667A1 (en) * 2011-08-31 2013-03-06 Friedrich-Alexander-Universität Erlangen-Nürnberg Direction of arrival estimation using watermarked audio signals and microphone arrays
EP3085596B1 (en) 2015-04-20 2017-11-29 Autoliv Development AB A vehicle safety electronic control system
US11244692B2 (en) * 2018-10-04 2022-02-08 Digital Voice Systems, Inc. Audio watermarking via correlation modification using an amplitude and a magnitude modification based on watermark data and to reduce distortion
CN110853656B (zh) * 2019-09-06 2022-02-01 南京工程学院 基于改进神经网络的音频篡改识别方法
CN113012703B (zh) * 2021-03-17 2024-03-01 南京航空航天大学 一种基于Chirp在音乐中隐藏信息的方法
US11875193B2 (en) * 2021-03-25 2024-01-16 Oracle International Corporation Tracking frame states of call stack frames including colorless roots
CN113178199B (zh) * 2021-06-29 2021-08-31 中国科学院自动化研究所 基于相位偏移检测的数字音频篡改取证方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251676A (ja) * 2005-03-14 2006-09-21 Akira Nishimura 振幅変調を用いた音響信号への電子透かしデータの埋め込み・検出装置
JP2009210828A (ja) * 2008-03-04 2009-09-17 Japan Advanced Institute Of Science & Technology Hokuriku 電子透かし埋込装置及び電子透かし検出装置、並びに電子透かし埋込方法及び電子透かし検出方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983051B1 (en) * 1993-11-18 2006-01-03 Digimarc Corporation Methods for audio watermarking and decoding
WO2001091120A1 (en) * 2000-05-22 2001-11-29 Koninklijke Philips Electronics N.V. Watermark insertion and extraction
US20040006696A1 (en) * 2000-06-08 2004-01-08 Seung-Won Shin Watermark embedding and extracting method for protecting digital audio contents copyright and preventing duplication and apparatus using thereof
US6892175B1 (en) * 2000-11-02 2005-05-10 International Business Machines Corporation Spread spectrum signaling for speech watermarking
US6915264B2 (en) * 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
KR20060023974A (ko) * 2003-05-28 2006-03-15 코닌클리케 필립스 일렉트로닉스 엔.브이. 서브-대역 필터링을 사용하여 워터마크를 임베딩하는 장치및 방법
US7369677B2 (en) * 2005-04-26 2008-05-06 Verance Corporation System reactions to the detection of embedded watermarks in a digital host content
US9055239B2 (en) * 2003-10-08 2015-06-09 Verance Corporation Signal continuity assessment using embedded watermarks
US9311923B2 (en) * 2011-05-19 2016-04-12 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
US9454343B1 (en) * 2015-07-20 2016-09-27 Tls Corp. Creating spectral wells for inserting watermarks in audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251676A (ja) * 2005-03-14 2006-09-21 Akira Nishimura 振幅変調を用いた音響信号への電子透かしデータの埋め込み・検出装置
JP2009210828A (ja) * 2008-03-04 2009-09-17 Japan Advanced Institute Of Science & Technology Hokuriku 電子透かし埋込装置及び電子透かし検出装置、並びに電子透かし埋込方法及び電子透かし検出方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ATSUSHI HANIU: "Kagyu Chien Tokusei o Riyo shita Denshi Joho Sukashi no Blind Kenshutsu ni Kansuru Kento", REPORT OF THE 2010 AUTUMN MEETING, THE ACOUSTICAL SOCIETY OF JAPAN, 16 September 2010 (2010-09-16), pages 731 - 734 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719660A (zh) * 2016-01-21 2016-06-29 宁波大学 一种基于量化特性的语音篡改定位检测方法
CN106228501A (zh) * 2016-07-13 2016-12-14 西安电子科技大学 一种基于整数变换的自适应可逆数字水印方法
CN106228501B (zh) * 2016-07-13 2019-07-26 西安电子科技大学 一种基于整数变换的自适应可逆数字水印方法
US11217076B1 (en) * 2018-01-30 2022-01-04 Amazon Technologies, Inc. Camera tampering detection based on audio and video

Also Published As

Publication number Publication date
US20140278447A1 (en) 2014-09-18

Similar Documents

Publication Publication Date Title
WO2013035537A1 (ja) 電子透かし検出装置及び電子透かし検出方法、並びに電子透かしを用いた改ざん検出装置及び改ざん検出方法
Lin et al. Audio watermarking techniques
US10026410B2 (en) Multi-mode audio recognition and auxiliary data encoding and decoding
Lei et al. Blind and robust audio watermarking scheme based on SVD–DCT
Nematollahi et al. An overview of digital speech watermarking
Lin et al. Audio watermark
Xiang et al. Digital audio watermarking: fundamentals, techniques and challenges
Unoki et al. Robust, blindly-detectable, and semi-reversible technique of audio watermarking based on cochlear delay characteristics
Wang et al. Detection of speech tampering using sparse representations and spectral manipulations based information hiding
JP5879075B2 (ja) 電子透かし検出装置及び電子透かし検出方法
Wang et al. Formant enhancement based speech watermarking for tampering detection
JP5004094B2 (ja) 電子透かし埋込装置及び電子透かし検出装置、並びに電子透かし埋込方法及び電子透かし検出方法
JP5889601B2 (ja) 音響信号に対する改ざん検出方法及び改ざん検出装置
Wang et al. Watermarking method for speech signals based on modifications to LSFs
Lei et al. Perception-based audio watermarking scheme in the compressed bitstream
Wang et al. Watermarking of speech signals based on formant enhancement
Korany et al. High capacity, secure audio watermarking technique integrating spread spectrum and linear predictive coding
Kondo et al. A digital watermark for stereo audio signals using variable inter-channel delay in high-frequency bands and its evaluation
Chen et al. Speech watermarking for tampering detection based on modifications to lsfs
Patel et al. Secure transmission of password using speech watermarking
Singh et al. Multiplicative watermarking of audio in DFT magnitude
Su Robust data embedding based probabilistic global search in MDCT domain
Blackledge et al. Audio data verification and authentication using frequency modulation based watermarking
Erçelebi et al. Robust multi bit and high quality audio watermarking using pseudo-random sequences
Deshpande et al. A substitution-by-interpolation algorithm for watermarking audio

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12829807

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14343676

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 12829807

Country of ref document: EP

Kind code of ref document: A1