WO2013008956A1 - 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム - Google Patents

音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム Download PDF

Info

Publication number
WO2013008956A1
WO2013008956A1 PCT/JP2012/068535 JP2012068535W WO2013008956A1 WO 2013008956 A1 WO2013008956 A1 WO 2013008956A1 JP 2012068535 W JP2012068535 W JP 2012068535W WO 2013008956 A1 WO2013008956 A1 WO 2013008956A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic
time
identifier
region
sound
Prior art date
Application number
PCT/JP2012/068535
Other languages
English (en)
French (fr)
Inventor
直毅 藤田
野村 俊之
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US14/131,580 priority Critical patent/US9215350B2/en
Priority to JP2013524017A priority patent/JP5772957B2/ja
Publication of WO2013008956A1 publication Critical patent/WO2013008956A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal

Definitions

  • the present invention relates to a technique for generating an identifier for identifying acoustic characteristics and a technique for using the same.
  • the sound in this specification is used as a concept including all sounds including voice and music (music).
  • acoustic fingerprints obtained by analyzing acoustic signals are known as acoustic identifiers for identifying acoustic features.
  • the sound processing system in Non-Patent Document 1 cuts out an overlapped 25 ms frame from a sampled sound signal by shifting by 5 to 10 ms. Then, the acoustic processing system performs a fast Fourier transform (FFT) process, a logarithmic process, and a discrete cosine transform (DCT) process on the acoustic signal to generate a mel frequency cepstrum.
  • FFT fast Fourier transform
  • DCT discrete cosine transform
  • the acoustic processing system takes out the lower 12th to 16th dimensions of the mel frequency cepstrum as a mel frequency cepstrum coefficient (MFCC: Mel Frequency Cepstrum Coefficient), and generates an acoustic fingerprint from the time difference.
  • MFCC Mel Frequency Cepstrum Coefficient
  • the sound processing system in Non-Patent Document 2 cuts out an overlapping 370 ms frame with a shift of 11.6 ms. Then, the acoustic processing system generates an acoustic fingerprint expressed in 32 dimensions by a discrete Fourier transform (DFT), logarithmic processing, and time and frequency differences with respect to the average power divided into subbands.
  • DFT discrete Fourier transform
  • the sound processing system in Non-Patent Document 3 cuts an overlapped 370 ms frame by shifting 11.6 ms.
  • the acoustic processing system generates an acoustic fingerprint expressed in 32 dimensions by a discrete wavelet transform, a frequency difference, and a time difference.
  • the acoustic processing system in Patent Document 1 cuts out overlapping 10 to 30 ms frames and generates a time-frequency segment through Fourier transform, division by Mel scale or Bark scale, and calculation of an average value using a window function. .
  • the low frequency is set as the voice feature amount.
  • 112 featured voice features are generated. Considering the processing speed during use, 30 low-frequency elements are used for speech recognition and speaker recognition. Is selected as an audio feature amount.
  • the acoustic processing system in the background art described above is still insufficient to increase the time accuracy and be robust to mixing with other sounds, and for real-time acoustic identification and verification with reduced computational complexity.
  • the dimension of any feature vector is limited to about 30 dimensions. Therefore, real-time acoustic identification and collation that solves both the problem of shortening the frame length and improving the time accuracy and the problem of being robust in mixing with other sounds cannot be performed.
  • the objective of this invention is providing the technique which solves the above-mentioned subject.
  • the sound processing apparatus includes a time-frequency analysis unit that generates a time-frequency plane by performing time-frequency analysis from an acoustic signal, and is configured on the time-frequency plane and has two partial regions and the two parts. For a plurality of partial region pairs that differ from each other in at least one of the region positions, region feature amount extraction means for extracting a region feature amount from each partial region, and using the region feature amount from each partial region, the sound And an acoustic identifier generating means for generating an acoustic identifier for identifying.
  • the acoustic processing system includes the acoustic processing device described above and an acoustic matching device that performs acoustic matching or identification using the acoustic identifier generated by the acoustic processing device.
  • the video processing system includes the above-described acoustic processing device that generates an acoustic identifier from an acoustic signal included in a video signal, and video collation or identification using the acoustic identifier generated by the acoustic processing device. And a video collating device for performing.
  • the control method of the sound processing apparatus includes a time-frequency analysis step for generating a time-frequency plane by performing time-frequency analysis from an acoustic signal, and the shape of two partial regions set on the time-frequency plane and the For a plurality of partial region pairs in which at least one of the positions of the two partial regions is different from each other, a region feature amount extracting step for extracting a region feature amount from each partial region, and a region feature amount from each partial region are used.
  • a sound identifier generating step for generating a sound identifier for identifying the sound includes a time-frequency analysis step for generating a time-frequency plane by performing time-frequency analysis from an acoustic signal, and two partial areas set on the generated time-frequency plane.
  • a region feature amount extraction step for extracting a region feature amount from each partial region for a plurality of partial region pairs in which at least one of the shape of the region and the position of the two partial regions is different from each other;
  • the computer is caused to execute an acoustic identifier generation step of generating an acoustic identifier for identifying the acoustic using the region feature value from each of the partial regions.
  • An acoustic processing method includes: an acoustic processing step for generating an acoustic identifier for identifying an acoustic based on time-frequency analysis of an acoustic signal; and an acoustic matching step for performing acoustic matching using the generated acoustic identifier. And the acoustic processing step is set on the generated time-frequency plane and a time-frequency analysis step for generating a time-frequency plane by performing time-frequency analysis from an acoustic signal.
  • a region feature amount extraction step for extracting a region feature amount from each partial region for a plurality of partial region pairs in which at least one of the shape of two partial regions and the position of the two partial regions are different from each other;
  • a sound identifier generating step for generating a sound identifier for identifying the sound using the region feature amount from each of the partial regions.
  • a video processing method includes a video processing step of generating an audio identifier from an audio signal included in a video signal, and a video verification step of performing video verification using the generated audio identifier.
  • the sound processing step includes a time frequency analysis step of generating a time frequency plane by performing time frequency analysis from an acoustic signal, and two subregions set on the generated time frequency plane.
  • a region feature amount extraction step for extracting a region feature amount from each partial region for a plurality of partial region pairs in which at least one of the shape and the position of the two partial regions is different from each other, and the region feature amount extraction means
  • a sound identifier generating step for generating a sound identifier for identifying the sound using the region feature amount from each of the partial regions; No.
  • the present invention it is possible to solve both the problem of increasing the time accuracy by shortening the time length of the frame and the problem of being robust in mixing with other sounds, and performing real-time acoustic identification and collation.
  • FIG. 1 is a block diagram showing a configuration of a sound processing apparatus according to the first embodiment of the present invention.
  • FIG. 2 is a diagram showing the concept of acoustic processing according to the second embodiment of the present invention.
  • FIG. 3 is a block diagram showing a functional configuration of the sound processing apparatus according to the second embodiment of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a time-frequency analysis unit according to the second embodiment of the present invention.
  • FIG. 5 is a block diagram showing the configuration of the region feature quantity extraction unit according to the second embodiment of the present invention.
  • FIG. 6A is a diagram showing a configuration of an extraction area storage unit according to the second embodiment of the present invention.
  • FIG. 6B is a diagram showing a specific example of dimension-specific extraction region information according to the second embodiment of the present invention.
  • FIG. 7 is a block diagram showing a configuration of an acoustic identifier generation unit according to the second embodiment of the present invention.
  • FIG. 8 is a block diagram showing a hardware configuration of the sound processing apparatus according to the second embodiment of the present invention.
  • FIG. 9 is a flowchart showing an operation procedure of the sound processing apparatus according to the second embodiment of the present invention.
  • FIG. 10A is a block diagram showing another configuration of the time-frequency analysis unit according to the second embodiment of the present invention.
  • FIG. 10B is a block diagram showing still another configuration of the time-frequency analysis unit according to the second embodiment of the present invention.
  • FIG. 10C is a block diagram showing still another configuration of the time-frequency analysis unit according to the second embodiment of the present invention.
  • FIG. 11 is a diagram showing the concept of acoustic processing according to the third embodiment of the present invention.
  • FIG. 12 is a block diagram showing a configuration of an acoustic identifier generation unit according to the third embodiment of the present invention.
  • FIG. 13 is a block diagram showing a configuration of an acoustic identifier generation unit according to the fourth embodiment of the present invention.
  • FIG. 14 is a flowchart showing an operation procedure of the sound processing apparatus according to the fourth embodiment of the present invention.
  • FIG. 15 is a block diagram showing a functional configuration of a sound processing apparatus according to the fifth embodiment of the present invention.
  • FIG. 16 is a block diagram showing a configuration of a region feature quantity extraction unit according to the fifth embodiment of the present invention.
  • FIG. 17 is a diagram showing a configuration of a region feature quantity extraction method storage unit according to the fifth embodiment of the present invention.
  • FIG. 18 is a flowchart showing an operation procedure of the sound processing apparatus according to the fifth embodiment of the present invention.
  • FIG. 19 is a block diagram showing a functional configuration of a sound processing apparatus according to the sixth embodiment of the present invention.
  • FIG. 20 is a block diagram showing a configuration of an acoustic identifier generation unit according to the sixth embodiment of the present invention.
  • FIG. 21 is a diagram showing a configuration of a comparison / quantization method storage unit according to the sixth embodiment of the present invention.
  • FIG. 22 is a flowchart showing an operation procedure of the sound processing apparatus according to the sixth embodiment of the present invention.
  • FIG. 23 is a block diagram showing a functional configuration of a sound processing apparatus according to the seventh embodiment of the present invention.
  • FIG. 24 is a block diagram showing a configuration of a time-frequency analysis unit according to the seventh embodiment of the present invention.
  • FIG. 25 is a diagram illustrating a configuration of an acoustic identifier generation method storage unit according to the seventh embodiment of the present invention.
  • FIG. 26 is a flowchart showing an operation procedure of the sound processing apparatus according to the seventh embodiment of the present invention.
  • FIG. 27 is a block diagram showing a configuration of a sound processing system according to the eighth embodiment of the present invention.
  • FIG. 28 is a block diagram showing a configuration of a sound processing system according to the ninth embodiment of the present invention.
  • FIG. 29 is a block diagram showing a configuration of a video processing system according to the tenth embodiment of the present invention.
  • FIG. 30 is a block diagram showing a configuration of a video processing system according to the eleventh embodiment of the present invention.
  • FIG. 31 is a block diagram showing a configuration of a video processing system according to the twelfth embodiment of the present invention.
  • FIG. 1 is a block diagram of a sound processing apparatus 100 according to the first embodiment of the present invention.
  • the sound processing device 100 is a device that generates the sound identifier 104a for identifying sound based on the time-frequency analysis of the sound signal 101a.
  • the acoustic processing device 100 includes a time-frequency analysis unit 101, a region feature amount extraction unit 103, and an acoustic identifier generation unit 104.
  • the time-frequency analysis unit 101 generates a time-frequency plane 102 by performing time-frequency analysis from the acoustic signal 101a.
  • a plurality of partial region pairs 102-1 and 102-2 in which at least one of the shapes of the two partial regions and the positions of the two partial regions are different from each other are set on the time-frequency plane 102.
  • the area feature quantity extraction unit 103 extracts area feature quantities 103a and 103b from each partial area for a plurality of partial area pairs 102-1 and 102-2.
  • the acoustic identifier generation unit 104 generates an acoustic identifier 104a for identifying a sound using the region feature amounts 103a and 103b from the partial regions extracted by the region feature amount extraction unit 103.
  • the sound processing apparatus can perform real-time sound identification that solves both the problem of shortening the time length of a frame to increase time accuracy and the problem of being robust in mixing with other sounds.
  • the acoustic processing device extracts region feature quantities of each partial region of a partial region pair composed of two partial regions on a time-frequency plane obtained by time-frequency analysis from an acoustic signal. Then, the result of comparing the region feature values is quantized. For example, the quantization is ternary and the dimension is 300 dimensions sufficient for the accuracy of the acoustic identifier.
  • the sound processing apparatus in the second embodiment generates a series of sound identifiers by generating a series of continuous time-frequency planes. As a result, a more accurate acoustic identifier can be obtained.
  • the storage capacity can be reduced with a small amount of information, and an acoustic identifier can be generated in real time.
  • FIG. 2 is a diagram illustrating a processing concept of the sound processing apparatus 200 (FIG. 3) according to the present embodiment. Since various methods are known for generating the time-frequency plane, FIG. 2 shows processing after the generation of the time-frequency plane.
  • the first process 210 in FIG. 2 shows a state in which a time frequency analysis is performed on the acoustic signal to generate a plurality of time frequency planes and a plurality of partial region pairs are generated. A partial region pair is set inside each time frequency plane.
  • Each partial region pair has at least one of a difference in positional relationship including a difference in relative positional relationship or a difference in absolute position between the partial regions, and a difference in shape of the partial regions.
  • the second process 230 in FIG. 2 shows a state in which region feature amounts are extracted from each partial region. In the same time-frequency plane 220, the relationship between each partial region of the partial region pair and the difference between the partial regions is expressed. Two partial regions of the partial region pair are set in the time-frequency plane 220, a representative value or an average value of the power spectrum included in each partial region is calculated, and the difference is calculated as shown in each partial region. It is indicated by an arrow connecting the centers.
  • the third process 240 in FIG. 2 shows how the calculated difference is quantum-encoded.
  • the third processing 240 if the difference obtained by subtracting the second region feature value from the first region feature value is the difference “0” (corresponding to the case where the power spectrum is equal), “0” is output as the output value of the quantum encoding. And If the same difference is a positive (+) value, “+1” is set as an output value of quantum coding. If the same difference is a negative ( ⁇ ) value, “ ⁇ 1” is set as an output value of quantum coding.
  • the encoding of the ternary quantized values of “ ⁇ 1”, “0”, and “+1” facilitates the separation of the acoustic feature amount by using as many dimensions as possible, and the acoustic feature amount. This is to reduce the amount of calculation for collation.
  • the present embodiment need not be limited to the above three-value example, and may be configured by binarization.
  • an acoustic identifier element that is an acoustic identifier element is generated.
  • This acoustic identifier element generation is repeated for the number of dimensions (the number of partial region pairs).
  • 240a of FIG. 2 has shown the example of the acoustic feature-value produced
  • the acoustic feature amount 240a is data in which a difference quantum-coded value is arranged in a one-dimensional direction in a dimensional order.
  • FIG. 3 is a block diagram illustrating a functional configuration of the sound processing apparatus 200 according to the present embodiment.
  • the time frequency analysis unit 310 analyzes the input sample acoustic signal 301a and outputs time frequency data 310a.
  • the time frequency data 310a is a power spectrum positioned on the plane of the time axis and the frequency axis.
  • the sampling period of the sample sound signal 301a can be adjusted according to the input sound. For example, it is desirable that sampling is performed with a sampling frequency of 44.1 kHz for audio reproduced from a CD (Compact Disk). In addition, it is desirable to sample at a sampling frequency of 48 kHz for audio reproduced from a DVD (Digital Versatile Disk). The shorter the sampling period, the better the instantaneous sound reproducibility and the less noise, so it is preferable to increase the sampling frequency.
  • an appropriate sampling frequency (sampling period) is selected based on the characteristics of the input sound, for example, the type of storage medium and the characteristics of the playback device.
  • the time-frequency plane storage unit 320 arranges the time-frequency data 310a in which time and frequency are discretized on the time-frequency plane by arranging them on the time axis in time order.
  • the area feature quantity extraction unit 330 reads out the dimension-specific extraction area information 350a indicating the partial area pairs sequentially from the partial area pairs formed of the two partial areas stored in the extraction area storage unit 350 according to the number of dimensions.
  • the region feature amount extraction unit 330 reads the power spectrum 320a in each partial region of the partial region pair from the time-frequency plane storage unit 320, performs a predetermined calculation, and calculates the first region feature amount 330a from the first partial region.
  • the second region feature quantity 330b is extracted from the second partial region.
  • the predetermined calculation here is selected from the average, maximum value, median value, mode value, etc. of the power spectrum in the partial area.
  • the acoustic identifier generation unit 340 performs ternary quantization based on the magnitude relationship based on the comparison between the first region feature value 330a and the second region feature value 330b, and combines the result with the number of dimensions (corresponding to the number of partial region pairs).
  • FIG. 4 is a block diagram illustrating a configuration of the time-frequency analysis unit 310 according to the present embodiment.
  • the time frequency analysis unit 310 includes a frame cutout unit 401 and a wavelet transform unit 402.
  • the frame cutout unit 401 cuts out a frame having a predetermined time length while shifting from the sample acoustic signal 301a every predetermined time.
  • the frame cutout unit 401 stores a shift time 401a to be used and a frame time length 401b.
  • As the shift time 401a about 10 ms, particularly 11.6 ms, which is often used in this technical field, is used.
  • the shift time between frames is preferably in the range of 5 ms to 15 ms.
  • the frame time length 401b for example, around 30 ms is used.
  • the frame time length is in the range of 30 ms to several seconds. This frame time length is necessary so as not to drop the information amount in the entire frequency region.
  • processing delay may occur due to the frame time length, and real-time processing may be difficult.
  • the sampling period can be thinned out appropriately so that the sampling period is not constant, for example, the start time period is short and the period is gradually extended.
  • FIG. 5 is a block diagram illustrating a configuration of the region feature amount extraction unit 330 according to the present embodiment.
  • the region feature amount extraction unit 330 includes a dimension determination unit 501, an extraction region acquisition unit 502, and a region feature amount extraction unit 503.
  • the area feature quantity extraction unit 503 includes a first area feature quantity extraction unit 503A that extracts the feature quantity of the first extraction area of the partial area pair, and a second area feature quantity extraction unit 503B that extracts the feature quantity of the second extraction area. Including.
  • the dimension determining unit 501 determines a dimension in which the region feature amount extraction unit 330 uses the partial region pair to extract the region feature amount.
  • the dimension of the dimension determination unit 501 may be a configuration in which a predetermined dimension is stored in the storage unit. Moreover, the structure which an operator sets according to the kind of object sound, etc.
  • the extraction region acquisition unit 502 acquires the number of dimensions from the dimension determination unit 501, and acquires dimension-specific extraction region information 350 a that is partial region pair information from the extraction region storage unit 350. Then, each partial area of the partial area pair is output as first extraction area information and second extraction area information.
  • the reference in magnitude or difference in the acoustic identifier generation unit 340 (side to be subtracted in the difference) is defined as the first region.
  • the first region feature amount extraction unit 503A of the region feature amount extraction unit 503 extracts the first region feature amount 330a by extracting the power spectrum in the first extraction region from the power spectrum 320a read from the time-frequency plane storage unit 320. To do. Note that there are various calculation methods for extracting feature values such as an average value and a maximum value (see FIG. 17). In the present embodiment, a case where the average value is used as a feature value will be described.
  • the second region feature amount extraction unit 503B extracts the power spectrum in the second extraction region from the power spectrum 320a read from the time-frequency plane storage unit 320, and extracts the second region feature amount 330b.
  • FIG. 6A is a diagram showing a configuration of the extraction area storage unit 350 according to the present embodiment.
  • the extraction area storage unit 350 in FIG. 6A stores four coordinates as first extraction area information 602 in association with each dimension (first dimension, second dimension,..., Nth dimension) 601 and performs second extraction.
  • Four coordinates are stored as area information 603.
  • FIG. 6A shows rectangular information in which each extraction area is represented by four coordinates, but information on an extraction area that is a partial area is not limited to four coordinates.
  • the extraction region storage unit 350 may store two diagonal coordinates if the extraction region shape is a square.
  • FIG. 6B is a diagram showing a specific example of dimension-specific extraction region information 350a according to the present embodiment.
  • FIG. 6B is a diagram illustrating 12 types of partial region pairs corresponding to 12 dimensions. As shown in FIG. 6B, the shape and position of each partial region of the partial region pair are desirably determined so that the partial region pair on the time-frequency plane includes information effective for identifying the target sound. Further, instead of determining one partial region pair, the extraction region may be determined by comprehensively recognizing the relation with other partial region pairs.
  • FIG. 7 is a block diagram illustrating a configuration of the acoustic identifier generation unit 340 according to the present embodiment.
  • the acoustic identifier generation unit 340 of the present embodiment includes a size comparison unit 701, a quantization unit 702, and a data combination unit 703.
  • the size comparison unit 701 receives the first region feature value 330a and the second region feature value 330b output from the region feature value extraction unit 330, compares the size, and outputs the size comparison result.
  • the quantization unit 702 outputs “1” as quantized data if the second region feature amount is larger than the first region feature amount. If the second region feature value is equal to the first region feature value, the quantization unit 702 outputs “0” as quantized data. If the second region feature amount is smaller than the first region feature amount, the quantization unit 702 outputs “ ⁇ 1” as the quantized data.
  • a so-called ternary quantization is performed (see the third process 240 in FIG. 2).
  • the data combination unit 703 combines the ternary quantized data output from the quantization unit 702 by the number of dimensions from the dimension determination unit 501, and outputs an acoustic identifier 340a of the target sound.
  • the combining method may simply arrange ternary quantized data for the number of dimensions in the output order, or may collect quantized data determined to have more features (large differences). Further, when the generated acoustic identifier is stored, “0” may be collected in accordance with the encoding.
  • FIG. 8 is a block diagram showing a hardware configuration of the sound processing apparatus 200 according to this embodiment.
  • a CPU 810 is a processor for arithmetic control, and implements each functional component of FIG. 3 by executing a program.
  • the ROM 820 stores fixed data and programs such as initial data and programs.
  • the sound processing apparatus 200 when the sound processing apparatus 200 is connected to a network and transmits / receives data or operates through the network, the sound processing apparatus 200 includes a communication control unit (not shown).
  • the RAM 840 is a random access memory that the CPU 810 uses as a work area for temporary storage.
  • the RAM 840 has an area for storing data necessary for realizing the present embodiment.
  • the RAM 840 is sampled and inputted acoustic signal data 841, frame data 842 extracted from the acoustic signal according to the shift time 401a and the frame time length 401b, and time frequency data 843 generated from each frame data 842.
  • the storage 850 stores a database, various parameters, or data or a program necessary for realizing the present embodiment. More specifically, the storage 850 includes an extraction area storage unit 350 (see FIGS.
  • the acoustic processing program 852 includes a time-frequency analysis module 853 that performs time-frequency analysis, a region feature amount extraction module 854 that extracts region feature amounts of each dimension, and a sound that collects region feature amounts for the number of dimensions and generates an acoustic identifier.
  • An identifier generation module 855 is included.
  • the input interface 860 is an interface for inputting an acoustic signal as digital data.
  • the output interface is an interface that outputs the generated acoustic identifier.
  • FIG. 8 does not show general-purpose data or programs such as an OS.
  • FIG. 9 is a flowchart showing an operation procedure of the sound processing apparatus according to the present embodiment.
  • the CPU 810 in FIG. 8 executes this flowchart using the RAM 840.
  • Each of the functional components shown in FIGS. 3 to 5 and FIG. 7 executes this flowchart by the CPU 810.
  • the time-frequency analysis unit 310 performs time-frequency analysis on the input acoustic signal to generate a time-frequency plane.
  • step S903 the dimension determining unit 501 of the region feature quantity extracting unit 330 initializes a loop parameter n for looping the following steps S905 to S915 for each dimension to 1.
  • the extraction region acquisition unit 502 of the region feature amount extraction unit 330 acquires a partial region pair of the first extraction region and the second extraction region of the dimension n.
  • the region feature amount extraction unit 503 of the region feature amount extraction unit 330 calculates a first region feature amount and a second region feature amount of dimension n.
  • step S909 the magnitude comparison unit 701 of the acoustic identifier generation unit 340 compares the first region feature quantity of dimension n with the second region feature quantity, and the quantization unit 702 of the acoustic identifier generation unit 340 compares The result is ternary quantized to output quantized data.
  • step S911 the data combination unit 703 of the acoustic identifier generation unit 340 adds the quantized data of dimension n to the quantized data of dimension n-1.
  • step S ⁇ b> 913 the acoustic identifier generation unit 340 determines whether calculation of the determined quantized data up to N dimensions has been completed.
  • FIG. 10A is a block diagram showing a time-frequency analysis unit 1010-1 having another configuration of the time-frequency analysis unit according to the present embodiment.
  • the time frequency analysis unit 1010-1 includes a frame cutout unit 401, a fast Fourier transform (hereinafter referred to as FFT) unit 1002, a mel scale (hereinafter referred to as log) processing unit 1003, a discrete cosine transform (hereinafter referred to as “cosine transform”). Part 1004).
  • FFT fast Fourier transform
  • log mel scale
  • cosine transform discrete cosine transform
  • the frame cutout unit 401 selects the shift time and the frame time length, the basic operation is the same as that in FIG.
  • the FFT unit 1002 analyzes the frequency component of the acoustic signal in the extracted frame.
  • the log processing unit 1003 executes a process of taking a logarithm of an integral value obtained by multiplying the absolute value of the frequency component by a plurality of frequency domain windows (Mel scales).
  • the DCT unit 1004 executes a process of collecting spectrum information in a low frequency with respect to the output of the log processing unit 1003.
  • a mel frequency cepstrum coefficient (hereinafter referred to as MFCC) obtained by extracting low-order 12 to 16 dimensions of the output of the DCT 1004 is used as time frequency data 1010-1a arranged in time order on the time frequency plane of this embodiment.
  • MFCC mel frequency cepstrum coefficient
  • Such a time-frequency analysis can use a configuration similar to the configuration shown in Non-Patent Document 1 (see Non-Patent Document 1 for a detailed description of the processing).
  • FIG. 10B is a block diagram showing a time-frequency analysis unit 1010-2 having still another configuration in the time-frequency analysis unit according to the present embodiment.
  • the time frequency analysis unit 1010-2 includes a frame cutout unit 401, a discrete Fourier transform (hereinafter referred to as DFT) unit 1006, a mel scale (log) processing unit 1007, and a subband division unit 1008.
  • DFT discrete Fourier transform
  • mel scale log
  • subband division unit 1008 a discrete Fourier transform
  • the log processing unit 1007 executes a process of taking a logarithm of an integral value obtained by multiplying the absolute value of the frequency component by a plurality of frequency domain windows (Mel scales).
  • the subband division unit 1008 divides the output of the log processing unit 1007 into 33 bandwidths and calculates the average power.
  • the output of the subband division 1008 is time frequency data 1010-2a arranged in time order on the time frequency plane of the present embodiment.
  • FIG. 10C is a block diagram illustrating a time-frequency analysis unit 1010-3 having still another configuration of the time-frequency analysis unit according to the present embodiment.
  • the time frequency analysis can use the configuration described in the following non-patent document 4 (refer to the following document for the detailed description thereof).
  • Masataka Goto "A Chorus Section Detection Method for Music Audio Signals and It's Application to a Music LISTING GU", IEEE TRANSION 14, NO. 5, SEPTEMBER 2006 1783
  • the time frequency analysis unit 1010-3 includes a frame cutout unit 401, a fast Fourier transform (FFT) unit 1002, or a discrete Fourier transform (DFT) unit 1006, and a chroma vector calculation unit 1009.
  • FFT fast Fourier transform
  • DFT discrete Fourier transform
  • the FFT 1002 or the DFT 1006 analyzes the frequency component of the acoustic signal in the extracted frame.
  • a chroma vector calculation unit 1009 calculates a chroma vector, which is a feature amount expressing a power distribution with chroma (sound name: chroma) as a frequency axis.
  • the output of the chroma vector calculation unit 1009 is used as time frequency data 1010-3a arranged in time order on the time frequency plane of the present embodiment.
  • a part of the procedure used in Non-Patent Documents 1 to 3 is applied to the creation of the time-frequency plane, but the present invention is not limited to this.
  • overlapping frames are extracted from an acoustic signal while shifting, and frequency analysis is performed to calculate the frequency distribution of the power spectrum.
  • a time frequency plane can be created by setting a plurality of window functions and interval functions for selecting different frequency widths and calculating an average power.
  • FFT Fast Fourier Transform
  • DFT Discrete Fourier Transform
  • DCT Discrete Cosine Transform
  • MCLT Modulated Complex Transform
  • Haar Transform Walsh-Hadamard Transform
  • Wavelet Transform Wavelet Transform
  • log processing such as chroma vector calculation , Part of the specific example.
  • the sound processing apparatus is “0” in ternary quantization, compared to the case where the first region feature value and the second region feature value are equal to “0” in the second embodiment. "Is different in that the range of the difference to be quantized is set. That is, when the difference between the first region feature value and the second region feature value is within a predetermined range, the sound processing device quantizes to “0” because there is no feature. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 11 is a diagram illustrating a concept of acoustic processing according to the present embodiment. Since various methods are known for generating the time-frequency plane, FIG. 11 shows processing after the generation of the time-frequency plane. Since the first process 210, the time-frequency plane 220, and the second process 230 in FIG. 11 are the same as those in FIG. 2 of the second embodiment, description thereof is omitted. The fourth process 1140 in FIG. 11 shows a state where the calculated difference is quantum-encoded.
  • the difference obtained by subtracting the second region feature amount from the first region feature amount is between the differences “+ ⁇ ” and “ ⁇ ” (corresponding to between the broken lines 1141a to 1141b in FIG. 11). ) Is “0” as an output value of quantum coding. If the same difference is larger than + ⁇ , “+1” is set as an output value of quantum coding. If the same difference is smaller than ⁇ , “ ⁇ 1” is set as an output value of quantum coding.
  • appropriate values for the values of “ ⁇ ” and “ ⁇ ” vary depending on the type of the target sound. For example, different values may be set depending on whether music or voice. In particular, it is desirable to set an optimum value when collating a predetermined instrument or a predetermined sound.
  • FIG. 12 is a block diagram illustrating a configuration of the acoustic identifier generation unit 1240 according to the present embodiment.
  • the acoustic identifier generation unit 1240 includes a difference value calculation unit 1241, a quantization unit 1242, a quantization boundary information storage unit 1244, and a data combination unit 703.
  • the function of the data combination unit 703 is the same as that of the second embodiment shown in FIG.
  • the difference value calculation unit 1241 calculates the difference between the first region feature value 330a and the second region feature value 330b output from the region feature value extraction unit 330.
  • signed difference (second region feature amount ⁇ first region feature amount).
  • the quantization boundary information storage unit 1244 stores quantization boundary information that is a preset threshold value for ternary quantization.
  • the quantization boundary information may be “+ ⁇ ” and “ ⁇ ”, which are different in numerical value between plus and minus as shown in FIG. 11, or may be the same numerical value.
  • the quantization boundary information storage unit 1244 may have a hardware configuration such as a switch or a software configuration that an operator inputs from the operation unit.
  • the quantization unit 1242 uses the signed difference value output from the difference value calculation unit 1241 and the quantization boundary information set by the quantization boundary determination unit 1244 to “+1”, “0”, “ ⁇ 1”. “3” quantized data is output.
  • the sound processing apparatus differs from the third embodiment in that quantization boundary information for ternary quantization is automatically set inside the apparatus.
  • quantization boundary information is determined based on the distribution of difference values in all dimensions. Since other configurations and operations are the same as those of the third embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 13 is a block diagram illustrating a configuration of the acoustic identifier generation unit 1340 according to the present embodiment.
  • the acoustic identifier generation unit 1340 includes a difference value calculation unit 1241, a quantization unit 1242, a quantization boundary determination unit 1344, and a data combination unit 703.
  • the functions of the difference value calculation unit 1241, the quantization unit 1242, and the data combination unit 703 are the same as those in FIG.
  • the quantized boundary determining unit 1344 is supplied with all-dimensional difference values between the first region feature value 330a and the second region feature value 330b supplied from the difference value calculating unit 1241, the distribution of all-dimensional difference values is distributed.
  • Quantization boundary is determined based on the above, and the determined quantization boundary information is supplied to the quantization unit 1242.
  • the distribution of difference values in all dimensions is the occurrence frequency (probability) for the difference value.
  • the quantization unit is set with the value range (threshold value) as quantization boundary information.
  • a value range that is, a threshold value
  • the quantization unit is set with the value range (threshold value) as quantization boundary information.
  • a vector quantity for example, a parameter for performing vector quantization, for example, a representative vector (such as a centroid vector) of each quantization index is determined, and is quantized as quantization boundary information.
  • M 2, 3,..., Etc.
  • the quantization range may be determined so that the ratios of the respective quantization indexes to all dimensions are uniform. Further, for example, when the difference value is a scalar quantity and ternary quantization is performed, the quantization boundary determination unit 1344 indicates a threshold value indicating a range when quantizing to “0” indicating that there is no difference. Is determined based on the distribution of difference values in all dimensions. Subsequently, the quantization boundary determination unit 1344 supplies the determined threshold value to the quantization unit 1242. . For example, the quantization boundary determination unit 1344 calculates the absolute values of the difference values of all dimensions, sorts the calculated absolute values of the difference values, and sets a specified ratio (note that the specified ratio) from the upper or lower order.
  • floor () is a function for truncating after the decimal point.
  • the quantization boundary determination unit 1344 determines the threshold so that, for example, the ratio of (+1, 0, ⁇ 1) quantized data approaches evenly, in addition to using the prescribed ratio as described above as a threshold. May be. According to the determination of the quantization boundary by the quantization boundary determination unit 1344 of the present embodiment, for example, when the fixed threshold in the third embodiment is used, the sound with less undulations in the power spectrum in the time-frequency plane is There is room for the quantized data of the majority (or all dimensions) to become “0”.
  • FIG. 14 is a flowchart showing an operation procedure of the sound processing apparatus according to the present embodiment.
  • the CPU 810 in FIG. 8 executes this flowchart using the RAM 840.
  • Each of the functional components shown in FIGS. 3 to 5 and FIG. 13 is executed by the CPU 810.
  • an area for storing quantization boundary data is added to the RAM 840 of FIG. 8, and a quantization boundary determination module is added to the storage 850.
  • FIG. 14 is a flowchart showing an operation procedure of the sound processing apparatus according to the present embodiment.
  • the CPU 810 in FIG. 8 executes this flowchart using the RAM 840.
  • Each of the functional components shown in FIGS. 3 to 5 and FIG. 13 is executed by the CPU 810.
  • an area for storing quantization boundary data is added to the RAM 840 of FIG. 8, and a quantization boundary determination module is added to the storage 850.
  • FIG. 14 is a flowchart showing an operation procedure of the sound processing apparatus according to the present embodiment.
  • step S905 the extraction region acquisition unit 502 of the region feature amount extraction unit 330 acquires the first region feature amount and the second region feature amount of dimension n.
  • step S907 the region feature amount extraction unit 503 of the region feature amount extraction unit 330 calculates the first region feature amount and the second region feature amount of dimension n.
  • step S1409 the difference value calculation unit 1241 calculates a difference value between the first area feature quantity and the second area feature quantity of dimension n.
  • step S1411 the difference value of dimension n is stored in association with dimension n.
  • the acoustic identifier generation unit 1340 proceeds from step S913 to S1413, and the quantization boundary determination unit 1344 of the acoustic identifier generation unit 1340 is based on the distribution of the difference values in all dimensions. Determine the quantization boundary.
  • step S1415 the loop value n is initialized to “1”.
  • step S1417 the quantization unit 1242 of the acoustic identifier generation unit 1340 quantizes the difference value of the dimension n and outputs quantized data.
  • step S1419 the data combining unit 703 of the acoustic identifier generation unit 1340 adds the output quantized data of dimension n to the quantized data of dimension n-1.
  • step S1421 the acoustic identifier generation unit 1340 repeats the quantization loop of each dimension while incrementing +1 in step S1423 until the loop value n reaches the total dimension number N. If all-dimensional quantization is completed, the process advances to step S917.
  • the sound processing apparatus differs from the second to fourth embodiments in that the region feature extraction method is selected according to each dimension (that is, each partial region pair). Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted. According to the present embodiment, the correlation between dimensions can be further reduced by the difference in the area feature value calculation method between dimensions (the area feature value calculation method has diversity). Therefore, in addition to the effects of the above-described embodiment, it is possible to further increase the discrimination ability that is the degree to which different sounds can be discriminated. ⁇ Functional configuration of sound processing apparatus >> FIG. 15 is a block diagram illustrating a functional configuration of the sound processing device 1500 according to the present embodiment.
  • FIG. 15 the functional components having the same functions as those in FIG. 3 of the second embodiment are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the characteristic configuration in FIG. 15 is that it has a region feature quantity extraction method storage unit 1560 that stores a region feature quantity extraction method.
  • the region feature quantity extraction method storage unit 1560 corresponds to each dimension (since it is known what shape and position the partial region pair in each dimension has in the first partial region and the second partial region).
  • a region feature amount extraction method suitable for region feature amount extraction is stored.
  • the area feature quantity extraction unit 1530 obtains area feature quantities of the first partial area and the second partial area according to the area feature quantity extraction method 1560a sent from the area feature quantity extraction method storage unit 1560 corresponding to each dimension.
  • FIG. 16 is a block diagram illustrating a configuration of the region feature quantity extraction unit 1530 according to the present embodiment.
  • the functional components that perform the same functions as those in FIG. 5 of the second embodiment are denoted by the same reference numerals, and detailed description thereof is omitted.
  • a region feature amount extraction method acquisition unit 1604 is newly added to the region feature amount extraction unit 1530 in FIG.
  • a region feature quantity extraction method acquisition unit 1604 acquires a region feature quantity extraction method corresponding to each dimension from the region feature quantity extraction method storage unit 1560, and performs a region feature quantity extraction unit according to the extraction method.
  • the region feature amount calculation method information is output to 503.
  • FIG. 17 is a diagram showing a configuration of the region feature quantity extraction method storage unit 1560 according to the present embodiment.
  • the region feature quantity extraction method storage unit 1560 stores one set of region feature quantity extraction methods corresponding to each dimension.
  • the configuration may be such that the set is stored and one set is selected according to the input acoustic signal.
  • the area feature quantity extraction method storage unit 1560 in FIG. 17 stores an area feature quantity extraction method in association with each dimension 1701.
  • the region feature amount extraction method 1702 is read out and sent to the region feature amount extraction method acquisition unit 1604 of the region feature amount extraction unit 1530.
  • FIG. 18 is a flowchart showing an operation procedure of the sound processing apparatus according to this embodiment.
  • the CPU 810 in FIG. 8 executes this flowchart using the RAM 840.
  • Each of the functional components in FIGS. 15, 4, 7, and 13 executes this flowchart by the CPU 810.
  • an area for storing the dimension being executed and an area for storing area feature amount extraction information of the dimension are added to the RAM 840 of FIG.
  • an area feature quantity extraction method storage unit 1560 and an area feature quantity extraction method acquisition module are added to the storage 850.
  • step S 18 steps that perform the same processing as in FIG. 9 are given the same step numbers, and descriptions thereof are omitted.
  • a characteristic step in FIG. 18 is the addition of step S1801.
  • step S ⁇ b> 1801 the region feature amount extraction unit 1530 acquires the region feature amount calculation method corresponding to the dimension n or information indicating the method from the region feature amount extraction method storage unit 1560.
  • step S1807 the area feature quantity extraction unit 1530 extracts the first area feature quantity and the second area feature quantity by the area feature quantity extraction method acquired in step S1801. Note that step S1801 may be located before step S905. [Sixth Embodiment] Next, a sound processing apparatus according to the sixth embodiment of the present invention will be described.
  • the comparison / quantization method storage unit stores the comparison / quantization method corresponding to each dimension, and the acoustic identifier generation unit The difference is that the comparison / quantization corresponding to the dimension is performed. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted. According to this embodiment, since the comparison / quantization method differs between dimensions (the comparison / quantization method has diversity), the correlation between dimensions can be further reduced. Therefore, in addition to the effects of the second embodiment, it is possible to further increase the discrimination ability that is the degree to which different images can be discriminated.
  • FIG. 19 is a block diagram illustrating a functional configuration of the sound processing apparatus 1900 according to the present embodiment.
  • the functional components having the same functions as those in FIG. 3 of the second embodiment are denoted by the same reference numerals, and detailed description thereof is omitted.
  • a characteristic configuration in FIG. 19 is that a comparison / quantization method storage unit 1970 that stores the comparison / quantization method is included.
  • the comparison / quantization method storage unit 1970 corresponds to each dimension (since it is known in what shape and in which position the partial region pair in each dimension has the first partial region and the second partial region).
  • a comparison / quantization method suitable for comparison / quantization is stored.
  • FIG. 20 is a block diagram illustrating a configuration of the acoustic identifier generation unit 1940 according to the present embodiment.
  • the functional components that perform the same functions as those in FIG. 7 of the second embodiment are denoted by the same reference numerals, and detailed description thereof is omitted.
  • a comparison / quantization method acquisition unit 2004 is newly added.
  • the comparison / quantization method acquisition unit 2004 acquires a comparison / quantization method corresponding to each dimension from the comparison / quantization method storage unit 1970, and performs comparison / quantization according to the comparison / quantization method.
  • the comparison / quantization method information is output to the unit 701 and the quantization unit 702. (Comparison and quantization method storage)
  • FIG. 21 is a diagram showing a configuration of the comparison / quantization method storage unit 1970 according to the present embodiment. In the present embodiment, a case where the comparison / quantization method storage unit 1970 stores one set of comparison / quantization methods corresponding to each dimension will be described. May be stored, and one set may be selected according to the input acoustic signal.
  • the comparison / quantization method 2102 stores a comparison / quantization method 2102 in association with each dimension 2101. Corresponding to the signal representing each dimension, the comparison / quantization method 2102 is read and sent to the comparison / quantization method acquisition unit 2004 of the acoustic identifier generation unit 1940. If the order of dimensions is fixed, a configuration may be employed in which the next comparison / quantization method is read out by notifying a signal representing the dimension but informing the end of comparison / quantization.
  • the comparison / quantization method A is binarization of magnitude comparison.
  • the comparison / quantization method B is ternarization having the same threshold quantization boundary that is quantized to “0”.
  • the comparison / quantization method C is quantization of four or more values.
  • the comparison / quantization method D is a method of performing quantization by converting into a scalar quantity when the region feature quantity is a vector value.
  • the comparison / quantization method E performs quantization so that the similarity with the representative vector such as the center of gravity vector is the highest (shortest distance) when the region feature is a vector value.
  • a quantization boundary is determined so that the ratios to all dimensions are equal, and quantization is performed based on the boundary.
  • the comparison / quantization method G calculates the absolute values of the difference values of all dimensions, sorts the calculated absolute values of the difference values, and sets a certain percentage of points from the upper or lower order to the quantization boundary ( Quantization).
  • FIG. 22 is a flowchart showing an operation procedure of the sound processing apparatus according to the present embodiment.
  • the CPU 810 in FIG. 8 executes this flowchart using the RAM 840.
  • Each of the functional components in FIGS. 19, 4, 5, and 19 executes this flowchart by the CPU 810.
  • an area for storing the dimension being executed and an area for storing the comparison / quantization method information of the dimension are added to the RAM 840 of FIG. Further, a comparison / quantization method storage unit 1970 and a comparison / quantization method acquisition module are added to the storage 850. Also, in FIG. 22, steps that perform the same processing as in FIG. A characteristic step in FIG. 22 is the addition of step S2201. In step S2201, the acoustic identifier generation unit 1940 acquires the comparison / quantization method corresponding to the dimension n or information indicating the comparison / quantization method storage unit 1970.
  • step S2209 the acoustic identifier generation unit 1940 performs comparison / quantization using the comparison / quantization method acquired in step S2201. Note that even if step S2201 is before step S905, step S907 is performed. May be behind.
  • the acoustic identifier generation method storage unit stores an acoustic identifier generation method corresponding to each dimension and generates an acoustic identifier corresponding to each dimension.
  • Other configurations and operations are the same as those of the second embodiment, the fifth embodiment, and the sixth embodiment.
  • FIG. 23 is a block diagram illustrating a functional configuration of the sound processing apparatus 2300 according to the present embodiment.
  • the same reference numerals are given to the functional components that perform the same functions as those in FIG. 15 of the fifth embodiment and FIG.
  • the acoustic identifier generation method storage unit 2380 stores a sampling method, a frame time length / shift time, a time frequency analysis method, a region feature amount extraction method, and a comparison / quantization method in association with dimensions.
  • the dimension is output from the region feature quantity extraction unit 1530 in correspondence with FIG. 5 of the second embodiment.
  • the dimension determination unit may be in a component other than the region feature quantity extraction unit, or may be external as an independent component.
  • the acoustic identifier generation method storage unit 2380 selects a sampling method corresponding to a dimension.
  • any one of the sampled sound signals 2301a to 2301c sampled and input by the selected sampling method 2502 is selected from the time frequency analysis unit 2310 according to the time frequency analysis method 2504 corresponding to the first time. Analysis is performed by the frequency analysis unit 310, the second time frequency analysis unit 1010-1, and the third time frequency analysis unit 1010-2. Further, the frame time length / shift time 2503 may be changed corresponding to the dimension. FIG. 23 shows only three sampling methods and actual frequency analysis methods, but the number is not limited. Further, the first time frequency analysis unit 310, the second time frequency analysis unit 1010-1, and the third time frequency analysis unit 1010-2 correspond to FIGS. 4, 10A, and 10B of the above embodiment, It is not limited to this.
  • the time frequency analysis unit 1010-3 illustrated in FIG. 10C may be used.
  • the first time frequency analysis unit 310, the second time frequency analysis unit 1010-1, and the third time frequency analysis unit 1010-1 are each time frequency data 310 a composed of a power spectrum positioned on the plane of the time axis and the frequency axis. 1010-1a and 1010-2a are output.
  • the time frequency data whose time and frequency are discretized are arranged on the time axis in time order, and the first time frequency plane 2320-1 and the second time frequency plane 2320-2 of the time frequency plane storage unit 2320. , In the third time frequency plane 2320-3.
  • the region feature amount extraction unit 1530 reads out the dimension-specific extraction region information 350 a indicating the partial region pairs sequentially from the partial region pairs formed of the two partial regions stored in the extraction region storage unit 350 according to the number of dimensions. Then, the power spectrum 2320-1a, 2320-2a, or 2320-3a in each partial region of the partial region pair is read from the time-frequency plane storage unit 2320 from the time-frequency plane corresponding to the dimension. An operation is performed on the power spectrum in each partial region of the partial region pair from the time frequency plane corresponding to the read dimension by the region feature amount extraction method 2505 corresponding to the dimension, and the first region feature amount 1530a is calculated from the first partial region. The second region feature quantity 1530b is extracted from the second partial region.
  • FIG. 24 is a block diagram showing the configuration of the time-frequency analysis unit 2310 according to this embodiment. As shown in FIG. 24, the first time frequency analysis unit 310 of the time frequency analysis unit 2310 of this embodiment generates a time frequency plane using the wavelet transform shown in FIG. 4 of the second embodiment.
  • the second time frequency analysis unit 1010-1 generates a time frequency plane using the FFT 1002, log 1003, and DCT 1004 shown in FIG. 10A.
  • the third time-frequency analysis unit 1010-2 generates a time-frequency plane using the DFT 1006, log 1007, and subband division 1008 shown in FIG. 10B.
  • the time frequency data 310a, 1010-1a, and 1010-2a output from each time frequency analysis unit are used as the first time frequency plane 2320-1, the second time frequency plane 2320-2, and the second time frequency plane storage unit 2320, respectively. Store in the 3-hour frequency plane 2320-3.
  • the time frequency analysis unit 2310 performs selection processing based on the frame time length / shift time from the acoustic identifier generation method storage unit 2380, the time frequency analysis method, and the dimensions from the region feature quantity extraction unit 1530. Then, the data of the first partial region and the second partial region on the time frequency plane corresponding to the dimension is output to the region feature amount extraction unit 1530.
  • FIG. 25 is a diagram illustrating a configuration of the acoustic identifier generation method storage unit 2380 according to the present embodiment. Note that the method described in each column of FIG. 25 is an example, and is not limited to this arrangement.
  • the acoustic identifier generation method storage unit 2380 in FIG. 25 is associated with the dimension 2501, and includes a sampling method 2502, a frame time length / shift time 2503, a time frequency analysis method 2504, a region feature amount extraction method 2505, and a comparison / quantization method 2506. , Is stored. In this embodiment, an example in which each method is selected is shown, but there may be a method of fixing.
  • FIG. 26 is a flowchart showing an operation procedure of the sound processing apparatus 2300 according to this embodiment.
  • the CPU 810 in FIG. 8 executes this flowchart using the RAM 840.
  • 23 and 24 execute this flowchart by the CPU 810.
  • step S2 the acoustic processing device 2300 corresponds to the dimension n from the acoustic identifier generation method storage unit 2380, the sampling method 2502, the frame time length / shift time 2503, the time frequency analysis method 2504, and the region feature amount extraction method 2505.
  • the comparison / quantization method 2506 is acquired.
  • the time-frequency analysis unit 2310 performs time-frequency analysis corresponding to the dimension n on the acoustic signal sampled and input corresponding to the dimension n, and generates a time-frequency plane.
  • the subsequent processing is a procedure in which the processing in FIGS. 9, 18 and 22 is combined.
  • the sampling method to the comparison / quantization method are selected and executed corresponding to each dimension, and these are combined to generate an acoustic identifier. Note that the arrangement position in the acoustic identifier, the calculation method with other quantized data, and the like may be stored and selected corresponding to the dimension.
  • FIG. 27 is a block diagram showing a configuration of a sound processing system 2700 according to this embodiment.
  • the acoustic identification system 2710 includes a communication control unit 2711 that receives acoustic signals from various devices via the network 2780 and transmits identification results to the various devices.
  • the received acoustic signal is input to the acoustic processing apparatus of this embodiment, and an acoustic identifier is generated.
  • the sound DB 2712 stores sound identifiers that are generated in advance in association with the sound contents or their IDs.
  • the acoustic identification device 2713 compares the acoustic identifier generated by the acoustic processing device of the present embodiment with the acoustic identifier stored in the acoustic DB 2712, and communicates the acoustic content corresponding to the acoustic identifier matched within a predetermined range as the identification result. Notification is made via the control unit 2711.
  • Various devices that transmit acoustic signals to identify acoustic content may be any devices that can transmit acoustic signals to the acoustic identification system 2710 via the network 2780.
  • a music distribution site 2720, a music production site 2730, an audio player 2740, an audio recorder 2750, a portable terminal 2760 that can be viewed, a notebook personal computer (hereinafter referred to as a personal computer) 2770, or the like may be used.
  • a sound processing system according to a ninth embodiment of the present invention to which the sound processing apparatus of the present invention is applied will be described.
  • the acoustic processing system according to the present embodiment is an application of the acoustic processing device of the present invention to an acoustic collation system that collates acoustic content based on acoustic signals transmitted from various devices via a network.
  • FIG. 28 is a block diagram showing a configuration of a sound processing system 2800 according to this embodiment.
  • the acoustic processing system 2800 in FIG. 28 includes an acoustic matching system 2810 having the acoustic processing apparatus of this embodiment.
  • the acoustic matching system 2810 includes a communication control unit 2711 that receives acoustic signals from various devices via the network 2780 and transmits a matching result or an illegality determination result to the various devices.
  • the received acoustic signal is input to the acoustic processing apparatus of this embodiment, and an acoustic identifier is generated.
  • the sound DB 2712 stores sound identifiers that are generated in advance in association with the sound contents or their IDs.
  • the acoustic collation device 2813 collates the acoustic identifier generated by the acoustic processing device of the present embodiment with the acoustic identifier stored in the acoustic DB 2712.
  • the acoustic verification device 2813 notifies the illegality notification unit 2814. Notice.
  • the illegality notification unit 2814 notifies the input acoustic signal of illegal content via the communication control unit 2711.
  • Various devices that transmit an acoustic signal to collate acoustic content may be any devices that can transmit an acoustic signal to the acoustic collation system 2810 via the network 2780 as in the device of FIG. [Tenth embodiment] Next, a video processing system according to the tenth embodiment of the present invention to which the sound processing apparatus of the present invention is applied will be described.
  • FIG. 29 is a block diagram showing a configuration of a video processing system 2900 according to the present embodiment.
  • a video processing system 2900 in FIG. 29 includes a video identification system 2910 having the sound processing apparatus of this embodiment.
  • the video identification system 2910 includes a communication control unit 2911 that receives an acoustic signal included in a video signal from various devices via the network 2980 and transmits an identification result to the various devices.
  • the received acoustic signal is input to the acoustic processing apparatus of this embodiment, and an acoustic identifier is generated.
  • the video DB 2912 stores a video identifier or an acoustic identifier generated in advance in association with its ID.
  • the video identification device 2913 compares the acoustic identifier generated by the acoustic processing device of the present embodiment with the acoustic identifier stored in the video DB 2912 and communicates the video content corresponding to the acoustic identifier matched within a predetermined range as the identification result. Notification is made via the control unit 2911.
  • Various devices that transmit an audio signal to identify video content may be any devices that can transmit an audio signal to the video identification system 2910 via the network 2980.
  • a video distribution site 2920, a video production site 2930, a video player 2940, a video recorder 2950, a portable terminal 2960 that can be viewed, a notebook personal computer 2970, or the like may be used.
  • FIG. 30 is a block diagram showing a configuration of a video processing system 3000 according to the present embodiment.
  • a video processing system 3000 in FIG. 30 includes a video collation system 3010 having the sound processing apparatus of this embodiment.
  • the video matching system 3010 includes a communication control unit 2911 that receives an acoustic signal via the network 2980 and transmits an identification result.
  • the received acoustic signal is input to the acoustic processing apparatus of this embodiment, and an acoustic identifier is generated.
  • the video DB 2912 stores a video identifier or an acoustic identifier generated in advance in association with its ID.
  • the video collation device 3013 collates the acoustic identifier generated by the acoustic processing device of the present embodiment with the acoustic identifier stored in the video DB 2912, and when there is video content that matches within a predetermined range, the illegality notification unit 3014. Notify The illegality notification unit 3014 notifies that the video content of the received audio signal is illegal via the communication control unit 2911.
  • a device similar to that shown in FIG. 29 is connected via the network 2980 to transmit an audio signal to collate video content. Any device can be used as long as it can transmit an acoustic signal to the video verification system 3010 via a network.
  • the video processing system according to the present embodiment is an application of the above-described sound processing apparatus of the present invention to a video collating system that collates video contents based on acoustic signals transmitted from various devices via a network.
  • both the audio identifier and the video identifier are used for video content verification.
  • the determination of illegality may be made on the condition that both the sound identifier and the video identifier match, or on the condition that either the sound identifier or the video identifier matches.
  • FIG. 31 is a block diagram showing a configuration of a video processing system 3100 according to this embodiment.
  • a video processing system 3100 in FIG. 31 includes a video collation system 3110 having the sound processing apparatus of the present embodiment.
  • the video verification system 3110 includes a communication control unit 3111 that receives an audio signal and a video identifier from various devices via the network 3180 and transmits a verification result to the various devices.
  • the received acoustic signal is input to the acoustic processing apparatus of this embodiment, and an acoustic identifier is generated.
  • the video DB 3112 accumulates a sound identifier and a video identifier generated in advance in association with the video content or its ID.
  • the video identifier may be another known video identifier even if a video identifier (a so-called frame feature amount) generated from the difference (in luminance) of the partial region pair similar to the present embodiment is used from the video frame. May be used.
  • the video collation device 3113 collates the audio identifier generated by the audio processing device of this embodiment with the audio identifier stored in the video DB 3112, and the video identifier received by the communication control unit 3111 and the video stored in the video DB 3112. Match the identifier.
  • the illegality notification unit 2714 is notified.
  • the illegality notification unit 3114 notifies the received audio signal and the video content of the video identifier through the communication control unit 3111 that there is an illegality.
  • a device similar to that shown in FIG. 29, which transmits an audio signal and a video identifier to collate video content, is connected via the network 3180.
  • Any device can be used as long as it can transmit an audio signal and a video identifier to the video verification system 3110 via a network.
  • a configuration is considered in which these devices include a video processing device that generates a video identifier from a video signal included in a video signal in synchronization with the sound processing device.
  • a video processing device may be arranged in the video verification system 3110.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device.
  • the present invention can also be applied to a case where a control program for realizing the functions of the embodiment is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention with a computer, a control program installed in the computer, a medium storing the control program, and a WWW (World Wide Web) server for downloading the control program are also included in the scope of the present invention. include.

Abstract

フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決してリアルタイムの音響識別や照合ができる装置を提供する。 音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理装置で、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析部と、生成された前記時間周波数平面上に設定された、2つの部分領域の形状と2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出部と、抽出した各部分領域からの領域特徴量を用いて、音響を識別する音響識別子を生成する音響識別子生成部と、を備える。

Description

音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム
 本発明は、音響の特徴を識別する識別子の生成技術およびその利用技術に関する。なおここで、本明細書における音響とは、音声および楽曲(音楽)を含むあらゆる音を含む概念として使用している。
 上記技術分野において、音響の特徴を識別する音響識別子として、音響信号を解析して得られる音響指紋(オーディオ電子指紋)が知られている。
 例えば、非特許文献1における音響処理システムは、サンプリングした音響信号から、5~10msシフトしてオーバーラップした25msのフレームを切り出す。そして、その音響処理システムは、音響信号に対し高速フーリエ変換(FFT:Fast Fourier Transform)処理と、対数処理と、離散コサイン変換(DCT:Discrete Cosign Transform)処理とを行なって、メル周波数ケプストラムを生成する。その音響処理システムは、メル周波数ケプストラムの低次の12~16次元をメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)として取り出し、その時間差分から音響指紋を生成する。
 非特許文献2における音響処理システムは、11.6msシフトしてオーバーラップした370msのフレームを切り出す。そして、音響処理システムは、離散フーリエ変換(DFT:Discrete Fourier Transform)と、対数処理と、サブバンド分割した平均パワーに対する時間および周波数差分とによって、32次元で表わされた音響指紋を生成する。
 非特許文献3における音響処理システムは、11.6msシフトしてオーバーラップした370msのフレームを切り出す。そして、その音響処理システムは、離散ウェーブレット(Wavelet)変換と周波数差分および時間差分とによって、32次元で表わされた音響指紋を生成する。
 また、特許文献1における音響処理システムは、オーバーラップした10~30msのフレームを切り出し、フーリエ変換,メルスケールやバークスケールによる分割,窓関数を用いた平均値算出を経て時間−周波数セグメントを生成する。そして、2次元DCT(Discrete Cosine Transform)した後にその低域を音声特徴量とする。
 特許文献1における音響処理システムは、例えば、112個の要素の音声特徴量が生成されるが、使用時の処理速度を考慮して、低域の30個の要素を音声認識や話者認識のための音声特徴量として選択する。
 また、特許文献2における音響処理システムは、50%オーバーラップした64msのフレームに対してFFTを行なって特徴ベクトルを生成し、例えば、M=13のバンドの隣接バンド対について差分を取り、差分結果に基づいてエンコードしたオーディオ指紋を生成する。
特開2003−044077号公報 特開2007−065659号公報
P.Cano,E.Batlle,T.Kalker,and J.Haitsma,"A review ofalgorithms for audio fingerprinting",in International Workshop on Mutimedia Signal Processing,Dec.2002. Jaap Haitsma,Ton Klker"A Highly Robust Audio Fingerprinting System"Proc.ISMIR 2002 3rd International Conference on Music Information Retrieval 井口 寧,and Vijay K.Jain"適正な音楽流通のためのインターネットを介したオーディオ電子指紋の超高速検出"財団法人電気通信普及財団、研究調査報告書 No.24 2009,p604−615
 しかしながら、上記背景技術における音響処理システムは、時間精度を上げて他の音響との混合に頑健とすることがまだ不十分であり、また、計算量を削減したリアルタイムの音響識別や照合のためにどの特徴量ベクトルの次元も30次元ほどに制限されている。
 そのため、フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決したリアルタイムの音響識別や照合ができなかった。
 本発明の目的は、上述の課題を解決する技術を提供することにある。
 本発明に係る音響処理装置は、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析手段と、前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出手段と、前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成手段と、を備える。
 本発明に係る音響処理システムは、上記記載の音響処理装置と、前記音響処理装置により生成された前記音響識別子を用いて音響の照合又は識別を行なう音響照合装置と、を含む。
 本発明に係るビデオ処理システムは、ビデオ信号に含まれる音響信号から音響識別子を生成する上記記載の音響処理装置と、前記音響処理装置により生成された前記音響識別子を用いてビデオの照合又は識別を行なうビデオ照合装置と、を含む。
 本発明に係る音響処理装置の制御方法は、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、を含む、
 本発明に係る音響処理装置の制御プログラムは、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、をコンピュータに実行させる。
 本発明に係る音響処理方法は、音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いて音響の照合を行なう音響照合ステップと、を含む音響処理方法であって、前記音響処理ステップが、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、を含む。
 本発明に係るビデオ処理方法は、ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いてビデオの照合を行なうビデオ照合ステップと、を含むビデオ処理方法であって、前記音響処理ステップが、音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、前記生成された前記時間周波数平面の上に設定され2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、を含む。
 本発明によれば、フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決してリアルタイムの音響識別や照合ができる。
図1は、本発明の第1実施形態に係る音響処理装置の構成を示すブロック図である。 図2は、本発明の第2実施形態に係る音響処理の概念を示す図である。 図3は、本発明の第2実施形態に係る音響処理装置の機能構成を示すブロック図である。 図4は、本発明の第2実施形態に係る時間周波数解析部の構成を示すブロック図である。 図5は、本発明の第2実施形態に係る領域特徴量抽出部の構成を示すブロック図である。 図6Aは、本発明の第2実施形態に係る抽出領域記憶部の構成を示す図である。 図6Bは、本発明の第2実施形態に係る次元別抽出領域情報の具体例を示す図である。 図7は、本発明の第2実施形態に係る音響識別子生成部の構成を示すブロック図である。 図8は、本発明の第2実施形態に係る音響処理装置のハードウェア構成を示すブロック図である。 図9は、本発明の第2実施形態に係る音響処理装置の動作手順を示すフローチャートである。 図10Aは、本発明の第2実施形態に係る時間周波数解析部の他の構成を示すブロック図である。 図10Bは、本発明の第2実施形態に係る時間周波数解析部のさらに他の構成を示すブロック図である。 図10Cは、本発明の第2実施形態に係る時間周波数解析部のさらに他の構成を示すブロック図である。 図11は、本発明の第3実施形態に係る音響処理の概念を示す図である。 図12は、本発明の第3実施形態に係る音響識別子生成部の構成を示すブロック図である。 図13は、本発明の第4実施形態に係る音響識別子生成部の構成を示すブロック図である。 図14は、本発明の第4実施形態に係る音響処理装置の動作手順を示すフローチャートである。 図15は、本発明の第5実施形態に係る音響処理装置の機能構成を示すブロック図である。 図16は、本発明の第5実施形態に係る領域特徴量抽出部の構成を示すブロック図である。 図17は、本発明の第5実施形態に係る領域特徴量抽出方法記憶部の構成を示す図である。 図18は、本発明の第5実施形態に係る音響処理装置の動作手順を示すフローチャートである。 図19は、本発明の第6実施形態に係る音響処理装置の機能構成を示すブロック図である。 図20は、本発明の第6実施形態に係る音響識別子生成部の構成を示すブロック図である。 図21は、本発明の第6実施形態に係る比較・量子化方法記憶部の構成を示す図である。 図22は、本発明の第6実施形態に係る音響処理装置の動作手順を示すフローチャートである。 図23は、本発明の第7実施形態に係る音響処理装置の機能構成を示すブロック図である。 図24は、本発明の第7実施形態に係る時間周波数解析部の構成を示すブロック図である。 図25は、本発明の第7実施形態に係る音響識別子生成方法記憶部の構成を示す図である。 図26は、本発明の第7実施形態に係る音響処理装置の動作手順を示すフローチャートである。 図27は、本発明の第8実施形態に係る音響処理システムの構成を示すブロック図である。 図28は、本発明の第9実施形態に係る音響処理システムの構成を示すブロック図である。 図29は、本発明の第10実施形態に係るビデオ処理システムの構成を示すブロック図である。 図30は、本発明の第11実施形態に係るビデオ処理システムの構成を示すブロック図である。 図31は、本発明の第12実施形態に係るビデオ処理システムの構成を示すブロック図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 [第1実施形態]
 図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。
 音響処理装置100は、音響信号101aの時間周波数解析に基づいて音響を識別する音響識別子104aを生成する装置である。図1に示すように、音響処理装置100は、時間周波数解析部101と、領域特徴量抽出部103と、音響識別子生成部104と、を備える。
 時間周波数解析部101は、音響信号101aから時間周波数解析して時間周波数平面102を生成する。時間周波数平面102には、2つの部分領域の形状と2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対102−1,102−2が設定される。
 領域特徴量抽出部103は、複数の部分領域対102−1,102−2について、各部分領域から領域特徴量103a,103bを抽出する。
 音響識別子生成部104は、領域特徴量抽出部103が抽出した各部分領域からの領域特徴量103a,103bを用いて、音響を識別する音響識別子104aを生成する。
 本実施形態の音響処理装置は、フレームの時間長を短くして時間精度を上げるという課題と、他の音響との混合に頑健であるという課題とを共に解決するリアルタイムの音響識別ができる。
 [第2実施形態]
 次に、本発明の第2実施形態に係る音響処理装置について説明する。
 本実施形態に係る音響処理装置は、音響信号から時間周波数解析によって得られた時間周波数平面上に、2つの部分領域からなる部分領域対の各部分領域の領域特徴量を抽出する。そして、この領域特徴量を比較した大小の結果を量子化する。
 例えば、量子化は3値、次元は音響識別子の精度として十分な300次元とする。300次元は、時間周波数平面上の部分領域対における部分領域の形状と位置との組み合わせを変えることで生成される。この場合、600ビット(=2ビット(3値)×300)で表わされ、75バイトの音響識別子が生成される。
 この他、第2の実施の形態における音響処理装置は、連続する一連の時間周波数平面を生成して一連の音響識別子を生成する。その結果、更に精度の高い音響識別子が得られる。
 本実施形態によれば、少ない情報により記憶容量が少なくて済み、かつ、リアルタイムに音響識別子が生成できる。そのため、音響識別子の比較処理が必要な音響識別や音響照合などもリアルタイムで実現できる。
 《音響処理の概念》
 図2は、本実施形態に係る音響処理装置200(図3)の処理概念を示す図である。
 なお、時間周波数平面の生成は種々の方法が知られているので、図2には、時間周波数平面生成後の処理を示す。
 図2の第1の処理210は、音響信号を時間周波数解析して複数の時間周波数平面を生成し複数の部分領域対を生成した状態を示す。時間周波数平面のそれぞれの内部に部分領域対が設定される。
 各部分領域対は、部分領域間の相対的位置関係の相違又は絶対位置の相違を含む位置関係の相違と、部分領域の形状の相違との少なくともいずれかを有す。
 図2の第2の処理230は、各部分領域から領域特徴量を抽出する状態を示す。同じ時間周波数平面220内において、部分領域対のそれぞれの部分領域とその部分領域間の差分を取る関係が表現されている。
 時間周波数平面220内に部分領域対の2つの部分領域が設定されて、それぞれの部分領域に含まれるパワースペクトラムの代表値あるいは平均値などが算出され、その差分が算出さる様子が各部分領域の中心を結ぶ矢印で示されている。
 図2の第3の処理240は、算出された差分を量子符号化する様子を示したものである。
 第3の処理240では、第1領域特徴量から第2領域特徴量を差し引いた差分が、差分“0”(パワースペクトラムが等しい場合に相当)であれば“0”を量子符号化の出力値とする。同じ差分が正(+)の値であれば“+1”を量子符号化の出力値とする。同じ差分が負(−)の値であれば“−1”を量子符号化の出力値とする。
 このように、“−1”、“0”、“+1”の3値の量子化値に符号化するのは、できるだけ多次元とすることで音響特徴量の分離を容易にし、かつ音響特徴量の照合の計算量を削減するためである。
 したがって、本実施の形態は、上記3値の例に限定される必要はなく、2値化による構成であってもよい。このようにして、音響識別子の要素となる音響識別子要素が生成される。この音響識別子要素生成が次元数(部分領域対の数)だけ繰り返される。
 図2の240aは、差分の量子符号化の結果を集めて生成された音響特徴量の例を示している。音響特徴量240aは、簡単な例としては、差分の量子符号化された値を一次元方向に次元順に並べたデータである。
 例えば300次元であれば、600ビット(=2ビット(3値)×300)で表わされ、75バイトの音響識別子が生成される。なお、音量識別子は、単純に差分の量子符号化された値を一次元方向に次元順に並べたデータではなく、多次元方向に並べたものやさらに追加の演算を加えたデータであってもよく、本例には限定されない。
 《音響処理装置の機能構成》
 図3は、本実施形態に係る音響処理装置200の機能構成を示すブロック図である。
 時間周波数解析部310は、入力されたサンプル音響信号301aを解析し時間周波数データ310aを出力する。時間周波数データ310aは、時間軸と周波数軸との平面上に位置付けられるパワースペクトラムである。
 ここで、サンプル音響信号301aのサンプリング周期は、入力される音響に応じて調整できることが望ましい。例えば、CD(Compact Disk)から再生した音声だとサンプリング周波数を44.1kHzとしてサンプリングするのが望ましい。また、DVD(Digital Versatile Disk)から再生した音声だとサンプリング周波数を48kHzとしてサンプリングするのが望ましい。
 短いサンプリング周期ほど、瞬間的な音の再現性がよい、雑音が少ないなどのメリットがあるので、サンプリング周波数を高くするのが好ましい。このように、入力される音響の特徴、例えば記憶媒体の種別や再生装置の特徴などの基づき適切なサンプリング周波数(サンプリング周期)が選択される。
 時間周波数平面記憶部320は、時間および周波数が離散化された時間周波数データ310aを、時間順に時間軸上に並べて時間周波数平面に配置する。
 領域特徴量抽出部330は、抽出領域記憶部350に記憶された2つの部分領域からなる部分領域対から、次元数にしたがって順次に部分領域対を示す次元別抽出領域情報350aを読み出す。
 そして、領域特徴量抽出部330は、その部分領域対の各部分領域内のパワースペクトラム320aを時間周波数平面記憶部320から読み出して所定演算を行ない、第1部分領域から第1領域特徴量330aを抽出し、第2部分領域から第2領域特徴量330bを抽出する。ここでの所定演算としては、部分領域内のパワースペクトラムの平均、最大値、メディアン値、最頻値、などから選ばれる。
 音響識別子生成部340は、第1領域特徴量330aと第2領域特徴量330bとの比較による大小関係により3値の量子化を行ない、その結果を次元数(部分領域対の数に相当)結合することにより、音響識別子340aを生成する。
 (時間周波数解析部)
 図4は、本実施形態に係る時間周波数解析部310の構成を示すブロック図である。
 時間周波数解析部310は、フレーム切出部401とウェーブレット変換部402とを有する。フレーム切出部401は、サンプル音響信号301aから所定時間ごとシフトしながら所定時間長を有するフレームを切り出す。フレーム切出部401は、使用するシフト時間401aとフレーム時間長401bとを記憶している。
 シフト時間401aとしては、本技術分野でよく使用される10ms前後、特に11.6msを使用する。フレーム間のシフト時間は、5ms~15msの範囲が好ましい。また、フレーム時間長401bとしては、たとえば30ms前後を使用する。なお、フレーム時間長に制限はない。
 本実施形態においては、フレーム時間長として30ms~数秒の範囲とした。このフレーム時間長は、全周波数領域の情報量を落とさないようにするために必要である。しかしながら、フレーム時間長により処理の遅延が発生し、実時間の処理が難しくなる場合もある。
 そのため、フレーム時間長が長い場合は、サンプル周期を一定にせず、例えば、開始時間の周期を短く、徐々に周期を延ばすように、適宜間引きすることも可能である。これにより、開始時間付近の瞬間的な音の再現性を維持しながら、低い周波数の再現性も改善できる。
 ウェーブレット変換部402は、各フレーム内のサンプル音響信号に対してウェーブレット変換を行なう。そして、ウェーブレット変換部402は、時間周波数平面上のパワースペクトラムである時間周波数データ310aを出力する。その時間周波数データ310aを時間軸に並べることによって、時間周波数平面が生成される。
 なお、ウェーブレット変換は、非特許文献3の処理の一部として記載されているようによく知られているためここでは詳説しない。
 (領域特徴量抽出部)
 図5は、本実施形態に係る領域特徴量抽出部330の構成を示すブロック図である。
 領域特徴量抽出部330は、次元決定部501と、抽出領域取得部502と、領域特徴量抽出部503とを有する。領域特徴量抽出部503は、部分領域対の第1抽出領域の特徴量を抽出する第1領域特徴量抽出部503Aと、第2抽出領域の特徴量を抽出する第2領域特徴量抽出部503Bとを含む。
 次元決定部501は、領域特徴量抽出部330にて部分領域対を用いて領域特徴量を抽出する次元を決定する。
 なお、次元決定部501の次元は、予め決められた次元を記憶部で記憶する構成でもよい。また、オペレータが対象音響の種別などに対応して設定する構成でも、音響処理装置200が対象音響の種別などを判定して設定する構成であってもよい(図示せず)。
 抽出領域取得部502は、次元決定部501から次元の数を取得し、抽出領域記憶部350からの部分領域対の情報である次元別抽出領域情報350aを取得する。そして、部分領域対の各部分領域を第1抽出領域情報と第2抽出領域情報として出力する。以下、音響識別子生成部340における大小あるいは差分における基準(差分においては引く側)を、第1領域とする。
 領域特徴量抽出部503の第1領域特徴量抽出部503Aは、時間周波数平面記憶部320から読み出したパワースペクトラム320aから、第1抽出領域内のパワースペクトラムを取り出して第1領域特徴量330aを抽出する。なお、特徴量抽出のための演算方法には、平均値や最大値など種々あるが(図17参照)、本実施形態では平均値を特徴量とする場合を説明する。
 第2領域特徴量抽出部503Bは、時間周波数平面記憶部320から読み出したパワースペクトラム320aから、第2抽出領域内のパワースペクトラムを取り出して第2領域特徴量330bを抽出する。なお、第1領域と第2領域との特徴量抽出のための演算方法は通常同じであるが、異なる演算方法を組み合わせてもよい。
 (抽出領域記憶部)
 図6Aは、本実施形態に係る抽出領域記憶部350の構成を示す図である。
 図6Aの抽出領域記憶部350は、各次元(第1次元,第2次元,…,第n次元)601に対応付けて、第1抽出領域情報602として4つの座標を記憶し、第2抽出領域情報603として4つの座標を記憶する。
 なお、図6Aは、各抽出領域が4つの座標で表された矩形の情報を示しているが、部分領域である抽出領域の情報は4つの座標に限らない。例えば、抽出領域記憶部350は、抽出領域形状が方形であれは対角の2つの座標を記憶すればよい。また、その形状が複雑な形状の抽出領域であれば4つ以上の特徴点を記憶すればよい。さらに、その形状が曲線の場合は、抽出領域記憶部350は焦点と半径、あるいは、スプライン曲線のパラメータなどを記憶してもよい。
 図6Bは、本実施形態に係る次元別抽出領域情報350aの具体例を示す図である。
 図6Bは、12次元に相当する12種類の部分領域対を示す図である。図6Bに示すように部分領域対の各部分領域の形状や位置は、時間周波数平面上の部分領域対が、対象とする音響の識別に有効な情報を含むよう決定することが望ましい。
 また、1つの部分領域対の決定ではなく、他の部分領域対との関連を総合的に好著して抽出領域を決定してもよい。例えば、音響の種別に応じて、各次元の部分領域対の順序を特徴付けるものを前に置くように変更してもよい。
 (音響識別子生成部)
 図7は、本実施形態に係る音響識別子生成部340の構成を示すブロック図である。
 本実施形態の音響識別子生成部340は、大小比較部701と量子化部702とデータ結合部703とを有する。
 大小比較部701は、領域特徴量抽出部330から出力された第1領域特徴量330aと第2領域特徴量330bとを入力し、大小比較してその大小比較結果を出力する。本実施形態においては、上述の如く、第2領域特徴量330bが第1領域特徴量330aより大きいか/等しいか/小さいかを示す情報を出力する。
 量子化部702は、大小比較結果から、第2領域特徴量が第1領域特徴量より大きければ量子化データとして“1”を出力する。また、第2領域特徴量が第1領域特徴量と等しければ、量子化部702は量子化データとして“0”を出力する。また、第2領域特徴量が第1領域特徴量より小ければ、量子化部702は量子化データとして“−1”を出力する。
 いわゆる3値化の量子化を行なう(図2の第3の処理240参照)。かかる3値化は少ないビット数(2ビット)で演算処理の高速化を図ると同時に精度を上げるための情報量を確保するためである。
 データ結合部703は、量子化部702から出力された3値の量子化データを次元決定部501からの次元数分結合して、対象音響の音響識別子340aを出力する。
 なお、結合方法は、3値の量子化データを単純に出力順に次元数分並べてもよいし、より特徴を有する(相違点が大きい)と判断する量子化データを集めてもよい。また、生成された音響識別子を保存する場合は符号化に合わせて“0”を集めてもよい。
 あるいは、単に量子化データを集めるのではなく、何らかの数値演算や論理演算を行なってもよい。
 《音響処理装置のハードウェア構成》
 図8は、本実施形態に係る音響処理装置200のハードウェア構成を示すブロック図である。
 図8で、CPU810は演算制御用のプロセッサであり、プログラムを実行することで図3の各機能構成部を実現する。ROM820は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。なお、音響処理装置200がネットワークに接続して、ネットワークを介してデータを送受信する、あるいは操作する場合には、通信制御部を有する(図示せず)。
 RAM840は、CPU810が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM840には、本実施形態の実現に必要なデータを記憶する領域が確保されている。
 RAM840は、サンプルされて入力された音響信号データ841、シフト時間401aとフレーム時間長401bにしたがって、音響信号から切り出されたフレームデータ842、各フレームデータ842から生成された時間周波数データ843、ある1つの次元の部分領域対の第1抽出領域情報844、ある1つの次元の部分領域対の第2抽出領域情報845、第1抽出領域の第1領域特徴量330a、第1領域特徴量330aと第2領域特徴量330bとの大小比較結果846、大小比較結果846から3値化された量子化データ847、3値化された量子化データ847を次元数分結合した音響識別子340、を記憶する。
 ストレージ850は、データベースや各種のパラメータ、あるいは本実施形態の実現に必要なデータまたはプログラムを格納する。
 より具体的には、ストレージ850は、抽出領域記憶部350(図6A、図6B参照)、フレーム間のシフト時間401a、各フレームのフレーム時間長401b、次元決定部501の次元851、複数のフレームから生成された時間周波数平面データ320bを記憶する。
 また、ストレージ850は、全体の処理を実行させる音響処理プログラム852を記憶する。その音響処理プログラム852には、時間周波数解析を行なう時間周波数解析モジュール853、各次元の領域特徴量を抽出する領域特徴量抽出モジュール854、領域特徴量を次元数分集めて音響識別子を生成する音響識別子生成モジュール855が含まれる。
 入力インタフェース860は、音響信号をデジタルデータとして入力するインタフェースである。また、出力インタフェースは、生成された音響識別子を出力するインタフェースである。
 なお、図8には、OSなどの汎用のデータやプログラムは示していない。
 《音響処理装置の動作手順》
 図9は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。図8のCPU810は、RAM840を使用してこのフローチャートを実行する。図3~図5および図7の各機能構成部は、このフローチャートをCPU810により実行する。
 始めに、ステップS901において、時間周波数解析部310は、入力された音響信号に対して時間周波数解析をして、時間周波数平面を生成する。ステップS903において、領域特徴量抽出部330の次元決定部501は、以下のステップS905~S915を各次元についてループするループ用パラメータnを1に初期化する。
 各次元のループは、ステップS905において、領域特徴量抽出部330の抽出領域取得部502は、次元nの第1抽出領域と第2抽出領域の部分領域対を取得する。
 ステップS907において、領域特徴量抽出部330の領域特徴量抽出部503は、次元nの第1領域特徴量と第2領域特徴量とを算出する。そして、ステップS909において、音響識別子生成部340の大小比較部701は、次元nの第1領域特徴量と第2領域特徴量とを比較し、音響識別子生成部340の量子化部702は、比較結果を3値量子化して量子化データを出力する。ステップS911においては、音響識別子生成部340のデータ結合部703は、次元nの量子化データを次元n−1までの量子化データに追加する。ステップS913において、音響識別子生成部340は、決定されているN次元までの量子化データの算出が終了したかを判断する。量子化データの算出が終了してなければステップS915に進んで、ループ用パラメータnに+1をする(図9では、n=n+1)して、ステップS905に戻る。
 一方、量子化データの算出が終了していればステップS917に進んで、音響識別子生成部340は、生成された音響識別子を出力する。
 (時間周波数解析部の他の構成)
 図10Aは、本実施形態に係る時間周波数解析部の他の構成の時間周波数解析部1010−1を示すブロック図である。
 時間周波数解析部1010−1は、フレーム切出部401と、高速フーリエ変換(以下、FFTと示す)部1002と、メルスケール(以下、logと示す)処理部1003と、離散コサイン変換(以下、DCTと示す)部1004とを有する。フレーム切出部401は、シフト時間やフレーム時間長の選択はあるが、基本的な動作が図4と同様であるので説明は省略する。
 FFT部1002は、切り出されたフレーム内の音響信号の周波数成分を解析する。log処理部1003は、その周波数成分の絶対値に複数の周波数領域の窓(メル尺度)をかけた積分値に対する対数をとる処理を実行する。DCT部1004は、log処理部1003の出力に対して、スペクトル情報を低域に集める処理を実行する。DCT1004の出力の低次の12~16次元を取り出したメル周波数ケプストラム係数(以下、MFCCと示す)は、本実施形態の時間周波数平面に時間順に配置する時間周波数データ1010−1aとして使用される。
 かかる時間周波数解析は、非特許文献1に示された構成と同様な構成を用いることができる(その詳細な処理の説明は、非特許文献1を参照されたい)。
 (時間周波数解析部のさらに他の構成)
 図10Bは、本実施形態に係る時間周波数解析部における更に他の構成の時間周波数解析部1010−2を示すブロック図である。かかる時間周波数解析は、非特許文献2に示された構成と同様な構成を用いることができる(その詳細な処理の説明は、非特許文献2を参照されたい)。
 時間周波数解析部1010−2は、フレーム切出部401と、離散フーリエ変換(以下、DFTと示す)部1006と、メルスケール(log)処理部1007と、サブバンド分割部1008とを有する。フレーム切出部401は、シフト時間やフレーム時間長の選択はあるが、基本的な動作が図4と同様であるので説明は省略する。
 DFT部1006は、切り出されたフレーム内の音響信号の離散した周波数成分を解析する。log処理部1007は、周波数成分の絶対値に複数の周波数領域の窓(メル尺度)をかけた積分値に対する対数をとる処理を実行する。
 サブバンド分割部1008は、log処理部1007の出力を33のバンド幅に分割して、その平均パワーを算出する。サブバンド分割1008の出力は、本実施形態の時間周波数平面に時間順に配置する時間周波数データ1010−2aである。
 (時間周波数解析部のさらに他の構成)
 図10Cは、本実施形態に係る時間周波数解析部の更に他の構成の時間周波数解析部1010−3を示すブロック図である。かかる時間周波数解析は、次の非特許文献4に記載された構成を用いることができる(その詳細な説明は、下記の文献を参照されたい。
 Masataka Goto,″A Chorus Section Detection Method for Musical Audio Signals and Its Application to a Music Listening Station″,IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING,VOL.14,NO.5,SEPTEMBER 2006 1783
 時間周波数解析部1010−3は、フレーム切出部401と、高速フーリエ変換(FFT)部1002または離散フーリエ変換(DFT)部1006と、クロマベクトル(chroma vector)算出部1009とを有する。フレーム切出部401は、シフト時間やフレーム時間長の選択はあるが基本的な動作が図4と同様であるので説明は省略する。
 FFT1002またはDFT1006は、切り出されたフレーム内の音響信号の周波数成分を解析する。クロマベクトル算出部1009は、クロマ(音名:chroma)を周波数軸としてパワーの分布を表現した特徴量であるクロマベクトルを算出する。クロマベクトル算出部1009の出力を、本実施形態の時間周波数平面に時間順に配置する時間周波数データ1010−3aとして使用する。
 なお、本実施形態では、非特許文献1~3でそれぞれ使用している手順の一部を時間周波数平面の作成に適用したが、これに限定されるものではない。
 一般に、音響信号からシフトしながらオーバーラップするフレームを切り出し、周波数解析してパワースペクトラムの周波数分布を算出する。そして、異なる周波数幅を選択するウインドウ関数や区間関数を複数設定して平均パワーを算出することで、時間周波数平面が作成可能であることは知られている。
 上述のFFT(Fast Fourier Transform),DFT(Discrete Fourier Transform),DCT(Discrete Cosine Transform),MCLT(Modulated Complex Transform),Haar Transform,Walsh−Hadamard Transform,Wavelet Transform、log、chroma vector算出などの処理は、その具体例の一部である。
 [第3実施形態]
 次に、本発明の第3実施形態に係る音響処理装置について説明する。
 本実施形態に係る音響処理装置は、上記第2実施形態において第1領域特徴量と第2領域特徴量とが等しい場合を“0”に量子化したのに比べ、3値量子化において“0”と量子化する差分の範囲を設定する点で異なる。すなわち、第1領域特徴量と第2領域特徴量との差分が所定範囲にある場合には、音響処理装置は、特徴が無いとして“0”に量子化する。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 本実施形態によれば、特徴のある部分領域対と特徴の少ない部分領域対とを分離することにより、情報量の低減と共に冗長性を無くして音響識別子の精度を上げることができる。
 《音響処理の概念》
 図11は、本実施形態に係る音響処理の概念を示す図である。
 なお、時間周波数平面の生成は種々の方法が知られているため、図11は、時間周波数平面の生成後の処理を示す。そして、図11の第1の処理210、時間周波数平面220および第2の処理230は、第2実施形態の図2と同様であるので、その説明は省略する。
 図11の第4の処理1140は、算出された差分を量子符号化する様子を示したものである。
 第4の処理1140では、第1領域特徴量から第2領域特徴量を差し引いた差分が、差分“+α”から“−β”の間であれば(図11の破線1141aから1141bの間に相当)であれば“0”を量子符号化の出力値とする。同じ差分が+αより大きい値であれば“+1”を量子符号化の出力値とする。同じ差分が−βより小さい値であれば“−1”を量子符号化の出力値とする。
 ここで、“α”や“β”の値は、対象とする音響の種別によって適切な値は異なる。例えば、音楽か音声かによっては異なる値を設定してもよい。特に、決まった楽器や、あるいは決まった音響を照合する場合には、最適な値を設定するのが望ましい。
 音響特徴量1140aは、簡単な例としては、差分の量子符号化した値を一次元方向に次元順に並べたものである。例えば300次元であれば600ビット(=2ビット(3値)×300)で表わされ、75バイトの音響識別子が生成される。
 なお、単純に差分の量子符号化された値を一次元方向に次元順に並べたものではなく、多次元方向に並べたものやさらに追加の演算を加えたものであってもよく、本例には限定されない。
 (音響識別子生成部)
 図12は、本実施形態に係る音響識別子生成部1240の構成を示すブロック図である。
 音響識別子生成部1240は、差分値算出部1241と、量子化部1242と、量子化境界情報記憶部1244と、データ結合部703とを有する。なお、データ結合部703の機能は、第2実施形態の図7と同様であるので説明は省略する。
 差分値算出部1241は、領域特徴量抽出部330から出力された第1領域特徴量330aと第2領域特徴量330bとの差分を算出する。本例では、符号付き差分=(第2領域特徴量−第1領域特徴量)である。
 量子化境界情報記憶部1244は、予め設定された3値量子化の閾値である量子化境界情報を記憶している。なお、量子化境界情報は、図11に示したようにプラスとマイナスとで数値が異なる“+α”、“−β”であってもよいし、同じ数値であってもよい。また、量子化境界情報記憶部1244はスイッチなどのハードウェア構成であっても、オペレータが操作部から入力するソフトウェア構成であってもよい。
 量子化部1242は、差分値算出部1241の出力である符号付きの差分値と、量子化境界決定部1244により設定された量子化境界情報に基づいて“+1”、“0”、“−1”の3値の量子化データを出力する。
 [第4実施形態]
 次に、本発明の第4実施形態に係る音響処理装置について説明する。
 第3実施形態のように、量子化の境界が固定化されると、特定の音響に対して、有意な値(+1や−1)が音響識別子の特定位置に偏るという事態が発生する(エントロピーが低くなる)。したがって、これらの音響に対して識別能力が低下するという問題が発生する。
 本実施形態に係る音響処理装置は、上記第3実施形態と比べると、3値量子化の量子化境界情報を装置内部で自動的に設定する点で異なる。本実施形態においては、全次元の差分値の分布に基づいて、量子化境界情報を決定する。その他の構成および動作は、第3実施形態と同様であるため、同じ構成および動作は同じ符号を付してその詳しい説明を省略する。
 本実施形態によれば、量子化の境界が音響に対して適応的に(動的に)算出されることにより、どの音響に対しても有意な値(+1や−1)が音響識別子の特定位置に偏ることを抑えることができる。そのため、識別能力を高くすることができる。
 (音響識別子生成部)
 図13は、本実施形態に係る音響識別子生成部1340の構成を示すブロック図である。
 音響識別子生成部1340は、差分値算出部1241と、量子化部1242と、量子化境界決定部1344と、データ結合部703とを有する。なお、差分値算出部1241と、量子化部1242と、データ結合部703の機能は、第3実施形態の図12と同様であるので説明は省略する。
 量子化境界決定部1344は、差分値算出部1241から供給される第1領域特徴量330aと第2領域特徴量330bとの全次元の差分値が供給されると、全次元の差分値の分布に基づいて、量子化の境界を決定し、決定した量子化境界情報を量子化部1242へ供給する。ここで、全次元の差分値の分布とは、差分値に対する生起の頻度(確率)である。
 なお、差分値がスカラー量である場合は、例えば、各量子化レベル(+1、0、−1)に対する値域(すなわち閾値)を決定し、その値域(閾値)を量子化境界情報として量子化部1242へ供給する。また、差分値がベクトル量である場合は、例えばベクトル量子化を行うためのパラメータ、例えば、各量子化インデックスの代表ベクトル(重心ベクトルなど)を決定し、それを量子化境界の情報として量子化部1242へ供給する。
 量子化境界決定部1344は、差分値がスカラー量の場合であって、M値の量子化を行う場合(M=2、3、…など)に、すべての次元の差分値の分布に基づいて、それぞれの量子化インデックスの全次元に対する割合が均等になるように、量子化の値域(閾値)を決定してもよい。
 また、例えば、差分値がスカラー量の場合であって3値の量子化を行う場合、量子化境界決定部1344は、差分がないことを示す“0”に量子化する際の範囲を示す閾値を、全次元の差分値の分布に基づいて決定する。続いて量子化境界決定部1344は、決定した閾値を量子化部1242へ供給する。。例えば、量子化境界決定部1344は、全次元の差分値の絶対値を算出し、算出した差分値の絶対値をソートして、その上位または下位から、ある規定の割合(なおこの規定の割合は、例えば、入力として供給されるとする)の点を閾値として出力してもよい。
 規定の割合として、百分率でP%とした場合(例えばP=25%)を例に挙げて、具体的に説明する。量子化境界決定部1344は、全次元(次元数=Nとする)の差分値の絶対値を昇順にソートする。この場合、昇順にソートされた差分値の絶対値の集合は、D(i)={D(0)、D(1)、D(2)、…、D(N−1)}と表わされる。ここで、昇順にソートされた順列の下位からP%の位置にある値は、例えば、D(floor(N×P/100))となり、閾値th=D(floor(N×P/100))となる。なお、floor()は、小数点以下の切り捨てを行う関数である。
 なお、量子化境界決定部1344は、上述のような規定の割合を閾値とする他に、例えば、(+1、0、−1)の量子化データの割合が均等に近づくように閾値を決定してもよい。
 本実施形態の量子化境界決定部1344による量子化境界の決定によれば、例えば、第3実施形態における固定化された閾値を用いた場合、時間周波数平面でパワーススペクトラムに起伏の少ない音響は、大多数の次元(またはすべての次元)の量子化データが“0”になってしまう余地が有る。
 これに対して、本実施形態における適応的な閾値を用いると、起伏の少ない音響に対しては閾値が小さい値に自動的に調整されるため、大多数の次元の量子化データが“0”になるような事態が発生しない。
 《音響処理装置の動作手順》
 図14は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。
 図8のCPU810は、RAM840を使用してこのフローチャートを実行する。図3~図5および図13の各機能構成部は、このフローチャートをCPU810により実行する。なお、本実施形態を実行するためには、図8のRAM840に量子化境界のデータを記憶する領域が追加され、ストレージ850に量子化境界決定モジュールが追加される。
 また、図14では、第2実施形態の図9におけるステップS901とS917とは記載を省略している。また、図9と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
 まず、各次元の差分演算するループでは、ステップS905において、領域特徴量抽出部330の抽出領域取得部502は、次元nの第1領域特徴量と第2領域特徴量を取得する。そしてステップS907において、領域特徴量抽出部330の領域特徴量抽出部503は、次元nの第1領域特徴量と第2領域特徴量とを算出する。その後、ステップS1409において、差分値算出部1241は、次元nの第1領域特徴量と第2領域特徴量との差分値を算出する。ステップS1411においては、次元nの差分値を次元nに対応付けて記憶する。
 音響識別子生成部1340は、全次元の差分値の演算が終了すると、ステップS913からS1413に進んで、音響識別子生成部1340の量子化境界決定部1344は、全次元の差分値の分布に基づいて量子化境界を決定する。
 次に、各次元の量子化ループでは、まずステップS1415において、ループ値nを“1”に初期化する。ステップS1417において、音響識別子生成部1340の量子化部1242は、次元nの差分値を量子化し、量子化データを出力する。そして、ステップS1419において、音響識別子生成部1340のデータ結合部703は、出力された次元nの量子化データを次元n−1までの量子化データに追加する。
 ステップS1421において、音響識別子生成部1340は、ループ値nが全次元数NになるまでステップS1423で+1をしながら各次元の量子化ループを繰り返す。全次元の量子化が終了すればステップS917に進む。
 [第5実施形態]
 次に、本発明の第5実施形態に係る音響処理装置について説明する。
 本実施形態に係る音響処理装置は、上記第2乃至第4実施形態と比べると、領域特徴量の抽出方法が各次元(すなわち、各部分領域対)によって選択される点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 本実施形態によれば、次元間で領域特徴量算出方法が異なる(領域特徴量算出方法に多様性がある)ことにより、次元間の相関をより小さくできる。したがって、上記実施形態の効果に加えて、異なる音響を識別できる度合いである識別能力をさらに高くすることができる。
 《音響処理装置の機能構成》
 図15は、本実施形態に係る音響処理装置1500の機能構成を示すブロック図である。
 なお、図15において、第2実施形態の図3と同様の機能を有する機能構成部は、同じ符号を付してその詳しい説明を省略する。
 図15における特徴的な構成は、領域特徴量の抽出方法を記憶する領域特徴量抽出方法記憶部1560を有する点である。
 領域特徴量抽出方法記憶部1560は、各次元(各次元における部分領域対が、どのような形状でどの位置に第1部分領域と第2部分領域とを有するかは分かっているので)に対応して、領域特徴量抽出に適切な領域特徴量抽出方法を記憶している。
 そして、領域特徴量抽出部1530は、領域特徴量抽出方法記憶部1560から各次元に対応して送られる領域特徴量抽出方法1560aにしたがって第1部分領域と第2部分領域との領域特徴量を抽出して、音響識別子生成部340に出力する。
 (領域特徴量抽出部)
 図16は、本実施形態に係る領域特徴量抽出部1530の構成を示すブロック図である。
 図16において、第2実施形態の図5と同様の機能を果たす機能構成部には、同じ参照符号を付してその詳しい説明を省略する。
 図16の領域特徴量抽出部1530には、領域特徴量抽出方法取得部1604が新たに追加されている
 領域特徴量抽出方法取得部1604は、領域特徴量抽出方法記憶部1560から各次元に対応した領域特徴量抽出方法を取得して、その抽出方法にしたがって領域特徴量抽出を行なう領域特徴量抽出部503に領域特徴量算出方法情報を出力する。
 (領域特徴量抽出方法記憶部)
 図17は、本実施形態に係る領域特徴量抽出方法記憶部1560の構成を示す図である。
 なお、本実施形態においては、領域特徴量抽出方法記憶部1560が各次元に対応する領域特徴量抽出方法の1セットを記憶する場合を説明するが、音響の種別や特徴に応じて複数の異なるセットを記憶しておき、入力する音響信号に応じて1セットを選択する構成であってもよい。
 図17の領域特徴量抽出方法記憶部1560は、各次元1701に対応付けて、領域特徴量抽出方法を記憶している。各次元を表わす信号に対応して、領域特徴量抽出方法1702を読み出して、領域特徴量抽出部1530の領域特徴量抽出方法取得部1604に送る。
 なお、次元の順序が固定であるならば、次元を表わす信号ではなく、領域特徴量抽出終了を報知して次の領域特徴量抽出方法を読み出す構成でもよい。
 《音響処理装置の動作手順》
 図18は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。
 図8のCPU810は、RAM840を使用してこのフローチャートを実行する。図15,図4,図7および図13の各機能構成部は、このフローチャートをCPU810により実行する。
 なお、本実施形態を実行するためには、図8のRAM840に実行中の次元を記憶する領域とその次元の領域特徴量抽出情報を記憶する領域とが追加される。また、ストレージ850に領域特徴量抽出方法記憶部1560と領域特徴量抽出方法取得モジュールとが追加される。また、図18では、図9と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
 図18おける特徴的なステップは、ステップS1801の追加である。ステップS1801において領域特徴量抽出部1530は、次元nに対応する領域特徴量算出方法あるいはそれを示す情報を、領域特徴量抽出方法記憶部1560から取得する。そして、ステップS1807において、ステップS1801で取得された領域特徴量抽出方法によって、領域特徴量抽出部1530は、第1領域特徴量と第2領域特徴量との抽出が行なわれる。なお、ステップS1801は、ステップS905の前にあってもよい。
 [第6実施形態]
 次に、本発明の第6実施形態に係る音響処理装置について説明する。
 本実施形態に係る音響処理装置は、上記第2乃至第5実施形態と比べると、比較・量子化方法記憶部が各次元に対応する比較・量子化方法を記憶し、音響識別子生成部が各次元に対応する比較・量子化を行なう点で異なる。
 その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 本実施形態によれば、次元間で比較・量子化方法が異なる(比較・量子化方法に多様性がある)ことにより、次元間の相関をより小さくできる。したがって、第2実施形態の効果に加えて、異なる画像を識別できる度合いである識別能力をさらに高くすることができる。
 《音響処理装置の機能構成》
 図19は、本実施形態に係る音響処理装置1900の機能構成を示すブロック図である。
 なお、図19において、第2実施形態の図3と同様の機能を有する機能構成部は、同じ符号を付してその詳しい説明を省略する。
 図19における特徴的な構成は、比較・量子化方法を記憶する比較・量子化方法記憶部1970を有する点である。比較・量子化方法記憶部1970は、各次元(各次元における部分領域対が、どのような形状でどの位置に第1部分領域と第2部分領域とを有するかは分かっているので)に対応して、比較・量子化に適切な比較・量子化方法を記憶している。
 そして、音響識別子生成部1940は、比較・量子化方法記憶部1970から各次元に対応して送られる比較・量子化方法1970aにしたがって比較・量子化を行ない、全次元の結果から音響識別子を生成する。
 (音響識別子生成部)
 図20は、本実施形態に係る音響識別子生成部1940の構成を示すブロック図である。
 図20において、第2実施形態の図7と同様の機能を果たす機能構成部には、同じ参照符号を付してその詳しい説明を省略する。
 図20の音響識別子生成部1940においては、比較・量子化方法取得部2004が新たに追加された。比較・量子化方法取得部2004は、比較・量子化方法記憶部1970から各次元に対応した比較・量子化方法を取得して、その比較・量子化方法にしたがって比較・量子化を行なう大小比較部701および量子化部702に比較・量子化方法情報を出力する。
 (比較・量子化方法記憶部)
 図21は、本実施形態に係る比較・量子化方法記憶部1970の構成を示す図である。
 なお、本実施形態では、比較・量子化方法記憶部1970が各次元に対応する比較・量子化方法の1セットを記憶する場合を説明するが、音響の種別や特徴に応じて複数の異なるセットを記憶しておき、入力する音響信号に応じて1セットを選択する構成であってもよい。
 図21の比較・量子化方法記憶部1970は、各次元2101に対応付けて比較・量子化方法2102を記憶している。各次元を表わす信号に対応して、比較・量子化方法2102を読み出して、音響識別子生成部1940の比較・量子化方法取得部2004に送る。なお、次元の順序が固定であるならば、次元を表わす信号ではなく、比較・量子化終了を報知して次の比較・量子化方法を読み出す構成でもよい。
 図21において、比較・量子化方法Aは、大小比較の2値化である。比較・量子化方法Bは、“0”に量子化する同じ閾値の量子化境界を有する3値化である。比較・量子化方法Cは、4値以上の量子化である。比較・量子化方法Dは、領域特徴量がベクトル値である場合にスカラー量に変換して量子化を行なう方法である。比較・量子化方法Eは、領域特徴量がベクトル値である場合に重心ベクトルなどの代表ベクトルとの類似度が最も大きい(最短距離)なるように量子化する。比較・量子化方法Fは、全次元に対する割合が均等になるように量子化の境界を決定し、それに基づいて量子化を行う。比較・量子化方法Gは、すべての次元の差分値の絶対値を算出し、算出した差分値の絶対値をソートして、その上位または下位から、ある規定の割合の点を量子化境界(閾値)とする量子化である。比較・量子化方法Hは、比較・量子化方法Gのような規定の割合ではなく、+1、0、−1の量子化インデックスの割合が均等に近づくように、量子化境界(閾値)を決定する。
 また、図21において、Mは量子化のレベル数、thは固定の量子化境界を決める閾値である。
 《音響処理装置の動作手順》
 図22は、本実施形態に係る音響処理装置の動作手順を示すフローチャートである。
 図8のCPU810は、RAM840を使用してこのフローチャートを実行する。図19,図4,図5および図19の各機能構成部は、このフローチャートをCPU810により実行する。
 なお、本実施形態を実行するためには、図8のRAM840に実行中の次元を記憶する領域とその次元の比較・量子化方法情報を記憶する領域とが追加される。また、ストレージ850に比較・量子化方法記憶部1970と比較・量子化方法取得モジュールとが追加される。また、図22では、図9と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
 図22における特徴的なステップは、ステップS2201の追加である。ステップS2201において、音響識別子生成部1940は、次元nに対応する比較・量子化方法あるいはそれを示す情報を、比較・量子化方法記憶部1970から取得する。そして、ステップS2209において、ステップS2201で取得された比較・量子化方法によって、音響識別子生成部1940は、比較・量子化を行うなお、ステップS2201は、ステップS905の前にあっても、ステップS907の後ろにあってもよい。
 [第7実施形態]
 次に、上記本発明の音響処理装置を適用した本発明の第7実施形態に係る音響処理システムについて説明する。
 上記第2乃至第6実施形態と比べると、音響識別子生成方法記憶部が各次元に対応する音響識別子生成方法を記憶して、各次元に対応する音響識別子生成を行なう点で異なる。その他の構成および動作は、第2実施形態、第5実施形態および第6実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 本実施形態によれば、次元間で音響識別子生成方法が異なる(音響識別子生成方法に多様性がある)ことにより、次元間の相関をより一層小さくできる。したがって、第2実施形態の効果に加えて、異なる画像を識別できる度合いである識別能力をより一層高くすることができる。
 《音響処理装置の機能構成》
 図23は、本実施形態に係る音響処理装置2300の機能構成を示すブロック図である。
 なお、本実施形態において、第5実施形態の図15および第6実施形態の図19と同様の機能を果たす機能構成部には、同じ参照番号を付しその説明は省略する。
 本実施形態は、音響識別子生成方法記憶部2380を有することが、上記実施形態とは異なっている。音響識別子生成方法記憶部2380には、次元に対応付けて、サンプリング方法、フレーム時間長/シフト時間、時間周波数解析方法、領域特徴量抽出方法、比較・量子化方法、が記憶されている。
 なお、図23において次元が領域特徴量抽出部1530から出力されているのは、第2実施形態の図5に対応させたものである。次元決定部は領域特徴量抽出部以外の構成要素にあってもよいし、独立した構成要素として外部にあってもよい。
 まず、音響識別子生成方法記憶部2380は、次元に対応してサンプリング方法を選択する。選択されたサンプリング方法2502によりサンプリングされて入力されたサンプル音響信号2301a~2301cのいずれかは、次元に対応して、時間周波数解析部2310内から時間周波数解析方法2504に従って選択された、第1時間周波数解析部310、第2時間周波数解析部1010−1、第3時間周波数解析部1010−2で解析される。
 また、次元に対応してフレーム時間長/シフト時間2503が変更されてもよい。なお、図23にはサンプリング方法および実感周波数解析方法を3つしか示していないが、その数は限定されない。
 また、第1時間周波数解析部310、第2時間周波数解析部1010−1、第3時間周波数解析部1010−2は、上記実施形態の図4、図10A、図10Bに対応させているが、これに限定されるものではない。例えば、図10Cに図示した時間周波数解析部1010−3が使用されてもよい。
 第1時間周波数解析部310、第2時間周波数解析部1010−1、第3時間周波数解析部1010−1は、それぞれ時間軸と周波数軸との平面上に位置付けられるパワースペクトラムからなる時間周波数データ310a、1010−1a、1010−2aを出力する。
 時間および周波数が離散化されているそれぞれの時間周波数データは、時間順に時間軸上に並べられて時間周波数平面記憶部2320の、第1時間周波数平面2320−1、第2時間周波数平面2320−2、第3時間周波数平面2320−3、に配置される。
 領域特徴量抽出部1530は、抽出領域記憶部350に記憶された2つの部分領域からなる部分領域対から、次元数にしたがって順次に部分領域対を示す次元別抽出領域情報350aを読み出す。
 そして、次元に対応した時間周波数平面から部分領域対の各部分領域内のパワースペクトラム2320−1a、2320−2aまたは2320−3aを時間周波数平面記憶部2320から読み出す。
 読み出した次元に対応した時間周波数平面から部分領域対の各部分領域内のパワースペクトラムに、次元に対応する領域特徴量抽出方法2505による演算を行ない、第1部分領域から第1領域特徴量1530aを抽出し、第2部分領域から第2領域特徴量1530bを抽出する。
 音響識別子生成部1940は、次元に対応する比較・量子化方法2506に基づいて、第1領域特徴量1530aと第2領域特徴量1530bとの比較および3値の量子化を行ない、その結果を次元数(部分領域対の数に相当)結合することにより、音響識別子340aを生成する。
 (時間周波数解析部)
 図24は、本実施形態に係る時間周波数解析部2310の構成を示すブロック図である。
 図24に示すように、本実施形態の時間周波数解析部2310の、第1時間周波数解析部310は、第2実施形態の図4に示したウェーブレット変換を使用して時間周波数平面を生成する。
 第2時間周波数解析部1010−1は、図10Aに示したFFT1002,log1003,DCT1004を使用して時間周波数平面を生成する。
 第3時間周波数解析部1010−2は、図10Bに示したDFT1006,log1007,サブバンド分割1008を使用して時間周波数平面を生成する。
 それぞれの時間周波数解析部から出力された時間周波数データ310a、1010−1a、1010−2aを、時間周波数平面記憶部2320の第1時間周波数平面2320−1、第2時間周波数平面2320−2、第3時間周波数平面2320−3、に記憶する。
 本実施形態の時間周波数解析部2310は、音響識別子生成方法記憶部2380からのフレーム時間長/シフト時間や時間周波数解析方法、および、領域特徴量抽出部1530からの次元に基づいて選択処理する。そして、次元に対応した時間周波数平面の第1部分領域と第2部分領域とのデータを領域特徴量抽出部1530に出力する。
 (音響識別子生成方法記憶部)
 図25は、本実施形態に係る音響識別子生成方法記憶部2380の構成を示す図である。
 なお、図25の各欄に記載された方法などはその一例であって、この配置に限定されない。音響種別や内容、あるいは音響取得環境、さらには音響記憶媒体などに応じて適切な配置と次元数などが設定される。
 図25の音響識別子生成方法記憶部2380は、次元2501に対応付けて、サンプリング方法2502、フレーム時間長/シフト時間2503、時間周波数解析方法2504、領域特徴量抽出方法2505、比較・量子化方法2506、が記憶される。
 なお、本実施形態においては、各方法が選択されている例を示しているが、固定にする方法もあってよい。例えば、領域特徴量抽出方法2505を次元に対応して選択し他を固定とすれば第5実施形態に相当し、比較・量子化方法2506を次元に対応して選択し他を固定とすれば第6実施形態に相当する。
 《音響処理装置の動作手順》
 図26は、本実施形態に係る音響処理装置2300の動作手順を示すフローチャートである。
 図8のCPU810は、RAM840を使用してこのフローチャートを実行する。図23および図24の各機能構成部は、このフローチャートをCPU810により実行するなお、本実施形態を実行するためには、図8のRAM840に実行中の次元を記憶する領域とその次元の各方法情報を記憶する領域とが追加され、ストレージ850に音響識別子生成方法記憶部2380と音響特徴量抽出方法取得モジュールとが追加される。
 また、図26では、図9、図18,図22と同じ処理を行なうステップには同じステップ番号を付し、説明は省略する。
 図26においては、最初のステップS903において、現在の次元を示すパラメータnが“1”に初期化される。ステップS2601において、音響処理装置2300は、次元nに対応して、音響識別子生成方法記憶部2380から、サンプリング方法2502、フレーム時間長/シフト時間2503、時間周波数解析方法2504、領域特徴量抽出方法2505、比較・量子化方法2506、を取得する。次に、ステップS2603において、時間周波数解析部2310は、次元nに対応してサンプリングして入力した音響信号に対して、次元nに対応した時間周波数解析をして、時間周波数平面を生成する。
 以降の処理は、図9と図18と図22の処理を組み合わせた手順である。図26においては、各次元に対応して、サンプリング方法から比較・量子化方法までが選択されて実行され、それらが結合されて音響識別子が生成される。なお、次元に対応して、音響識別子内の配置位置や他の量子化データとの演算方法などが記憶されて、選択されてもよい。
 [第8実施形態]
 次に、上記本発明の音響処理装置を適用した本発明の第8実施形態に係る音響処理システムについて説明する。
 本実施形態に係る音響処理システムは、上記本発明の音響処理装置を、ネットワークを介して送信されてくる音響信号に基づいて音響コンテンツを識別する音響識別システムに適用したものである。音響処理装置の構成および動作は第2乃至第7実施形態に記載したので、その詳しい説明を省略する。
 本実施形態によれば、音響コンテンツの識別を少ない情報量で精度よく実施できる。
 《音響処理システムの構成》
 図27は、本実施形態に係る音響処理システム2700の構成を示すブロック図である。図27の音響処理システム2700は、本実施形態の音響処理装置を有する音響識別システム2710を有する。
 音響識別システム2710は、ネットワーク2780を介して各種機器から音響信号を受信し、識別結果を各種機器へ送信する通信制御部2711を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。音響DB2712は、音響コンテンツまたはそのIDに対応付けて予め生成された音響識別子を蓄積している。
 音響識別装置2713は、本実施形態の音響処理装置が生成した音響識別子と音響DB2712に蓄積された音響識別子とを照合して、所定範囲で合致した音響識別子に対応する音響コンテンツを識別結果として通信制御部2711を介して報知する。
 音響コンテンツを識別するために音響信号を送信する各種機器としては、ネットワーク2780を介して音響信号を音響識別システム2710に送信できるものであればよい。例えば、音楽配信サイト2720、音楽制作サイト2730、音声再生機2740、音声録音機2750、あるいは、視聴可能な携帯端末2760、ノート型のパーソナルコンピュータ(以下、パソコン)2770などでもよい。
 [第9実施形態]
 次に、上記本発明の音響処理装置を適用した本発明の第9実施形態に係る音響処理システムについて説明する。
 本実施形態に係る音響処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号に基づいて音響コンテンツを照合する音響照合システムに適用したものである。音響処理装置の構成および動作は第2乃至第7実施形態に記載したので、その詳しい説明を省略する。
 なお、本実施形態においては、照合結果から合致すれば違法性があるものとして報知する例を示すが、これに限定されない。音響照合の結果を利用するあらゆるシステムに適用可能である。
 本実施形態によれば、音響コンテンツの照合を少ない情報量で精度よく実施できる。
 《音響処理システムの構成》
 図28は、本実施形態に係る音響処理システム2800の構成を示すブロック図である。
 図28の音響処理システム2800は、本実施形態の音響処理装置を有する音響照合システム2810を有する。
 音響照合システム2810は、ネットワーク2780を介して各種機器から音響信号を受信し、照合結果あるいは違法性判定結果を各種機器へ送信する通信制御部2711を有する。
 受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。音響DB2712は、音響コンテンツまたはそのIDに対応付けて予め生成された音響識別子を蓄積している。
 音響照合装置2813は、本実施形態の音響処理装置が生成した音響識別子と音響DB2712に蓄積された音響識別子とを照合して、所定範囲で合致した音響コンテンツがあれば、違法性報知部2814に通知する。違法性報知部2814は、通信制御部2711を介して、入力した音響信号が違法コンテンツのものであることを報知する。
 音響コンテンツを照合するために音響信号を送信する各種機器としては図27の機器と同様に、ネットワーク2780を介して音響信号を音響照合システム2810に送信できるものであればよい。
 [第10実施形態]
 次に、上記本発明の音響処理装置を適用した本発明の第10実施形態に係るビデオ処理システムについて説明する。
 本実施形態に係るビデオ処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号に基づいて映像コンテンツを識別するビデオ識別システムに適用したものである。音響処理装置の構成および動作は第2乃至第7実施形態に記載したので、その詳しい説明を省略する。
 本実施形態によれば、映像コンテンツの識別を少ない情報量で精度よく実施できる。
 《ビデオ処理システムの構成》
 図29は、本実施形態に係るビデオ処理システム2900の構成を示すブロック図である。
 図29のビデオ処理システム2900は、本実施形態の音響処理装置を有するビデオ識別システム2910を有する。
 ビデオ識別システム2910は、ネットワーク2980を介してビデオ信号に含まれる音響信号を各種機器から受信し、識別結果を各種機器へ送信する通信制御部2911を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。ビデオDB2912は、映像コンテンツまたはそのIDに対応付けて予め生成された音響識別子を蓄積している。
 ビデオ識別装置2913は、本実施形態の音響処理装置が生成した音響識別子とビデオDB2912に蓄積された音響識別子とを照合して、所定範囲で合致した音響識別子に対応するビデオコンテンツを識別結果として通信制御部2911を介して報知する。
 映像コンテンツを識別するために音響信号を送信する各種機器としては、ネットワーク2980を介して音響信号をビデオ識別システム2910に送信できるものであればよい。例えば、ビデオ配信サイト2920、ビデオ制作サイト2930、ビデオ再生機2940、ビデオ録画機2950、あるいは、視聴可能な携帯端末2960、ノート型のパソコン2970などでもよい。
 [第11実施形態]
 次に、上記本発明の音響処理装置を適用した本発明の第11実施形態に係るビデオ処理システムについて説明する。
 本実施形態に係るビデオ処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号に基づいて映像コンテンツを照合するビデオ照合システムに適用したものである。音響処理装置の構成および動作は第2乃至第7実施形態に記載したので、その詳しい説明を省略する。
 本実施形態によれば、映像コンテンツの照合を少ない情報量で精度よく実施できる。
 《ビデオ処理システムの構成》
 図30は、本実施形態に係るビデオ処理システム3000の構成を示すブロック図である。
 図30のビデオ処理システム3000は、本実施形態の音響処理装置を有するビデオ照合システム3010を有する。
 ビデオ照合システム3010は、ネットワーク2980を介して音響信号を受信し、識別結果を送信する通信制御部2911を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。
 ビデオDB2912は、映像コンテンツまたはそのIDに対応付けて予め生成された音響識別子を蓄積している。
 ビデオ照合装置3013は、本実施形態の音響処理装置が生成した音響識別子とビデオDB2912に蓄積された音響識別子とを照合して、所定範囲で合致したビデオコンテンツが有る場合に、違法性報知部3014に通知する。違法性報知部3014は、通信制御部2911を介して、受信した音響信号の映像コンテンツに違法性があることを報知する。
 ネットワーク2980を介して、映像コンテンツを照合するために音響信号を送信する、図29と同様の機器が接続されている。なお、接続される機器は、ネットワークを介して音響信号をビデオ照合システム3010に送信できるものであれば問わない。
 [第12実施形態]
 次に、上記本発明の音響処理装置を適用した本発明の第12実施形態に係るビデオ処理システムについて説明する。
 本実施形態に係るビデオ処理システムは、上記本発明の音響処理装置を、ネットワークを介して各種機器から送信されてくる音響信号等に基づいて映像コンテンツを照合するビデオ照合システムに適用したものである。本実施形態のビデオ照合システムにおいては、音響識別子と映像識別子との両方を映像コンテンツの照合に使用する。
 なお、違法性の判定は、音響識別子および映像識別子の両方で合致した場合を条件としても、音響識別子または映像識別子のいずれかで合致した場合を条件としてもよい。音響処理装置の構成および動作は第2乃至第7実施形態に記載したので、その詳しい説明を省略する。
 本実施形態によれば、映像コンテンツの照合を少ない情報量でより精度よく実施できる。
 《音響処理システムの構成》
 図31は、本実施形態に係るビデオ処理システム3100の構成を示すブロック図である。
 図31のビデオ処理システム3100は、本実施形態の音響処理装置を有するビデオ照合システム3110を有する。
 ビデオ照合システム3110は、ネットワーク3180を介して各種機器から音響信号および映像識別子を受信し、照合結果を各種機器へ送信する通信制御部3111を有する。受信した音響信号は本実施形態の音響処理装置に入力されて、音響識別子が生成される。
 ビデオDB3112は、映像コンテンツまたはそのIDに対応付けて予め生成された音響識別子と映像識別子とを蓄積している。なお、映像識別子は、映像のフレームから本実施形態と同様の部分領域対の差分(輝度の)から生成した映像識別子(いわゆる、フレーム特徴量)を使用しても、他の公知の映像識別子を使用してもよい。
 ビデオ照合装置3113は、本実施形態の音響処理装置が生成した音響識別子とビデオDB3112に蓄積された音響識別子とを照合すると共に、通信制御部3111が受信した映像識別子とビデオDB3112に蓄積された映像識別子とを照合する。
 所定範囲で両方にあるいは一方に合致したビデオコンテンツが有る場合に、違法性報知部2714に通知する。違法性報知部3114は、通信制御部3111を介して、受信した音響信号と映像識別子の映像コンテンツに違法性があることを報知する。
 ネットワーク3180を介して、映像コンテンツを照合するために音響信号と映像識別子を送信する、図29と同様の機器が接続されている。なお、接続される機器は、ネットワークを介して音響信号および映像識別子をビデオ照合システム3110に送信できるものであれば問わない。
 また、本実施形態においては、これら機器が音響処理装置と同期してビデオ信号に含まれる映像信号から映像識別子を生成する映像処理装置を備える構成を考えている。しかしながら、ネットワーク3180による通信容量が十分であれば、ビデオ照合システム3110に映像処理装置を配置してもよい。
 [他の実施形態]
 以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。
 したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2011年7月14日に出願された日本出願特願2011−155541を基礎出願とする優先権を主張し、その開示の全てをここに取り込む。

Claims (28)

  1.  音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析手段と、
     前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出手段と、
     前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成手段と、
     を備える、音響処理装置。
  2.  前記位置の相違は、
     相対的位置関係の相違と絶対位置の相違と
     を含む、請求項1に記載の音響処理装置。
  3.  前記領域特徴量抽出手段は、
     各部分領域におけるパワースペクトラムの代表値または平均値のいずれかを当該部分領域の領域特徴量とする請求項1または2に記載の音響処理装置。
  4.  前記音響識別子生成手段は、
     前記部分領域対に含まれる2つの部分領域から抽出された領域特徴量を用いて音響識別子要素を生成する要素生成手段を有し、該要素生成手段が生成した音響識別子要素を前記複数の部分領域対の数だけ集めた集合を前記音響識別子とする、
     請求項1乃至3のいずれか1項に記載の音響処理装置。
  5.  前記要素生成手段は、
     前記領域特徴量抽出手段で抽出された領域特徴量の差分値を量子化し、前記音響識別子要素を生成する、
     請求項4に記載の音響処理装置。
  6.  前記量子化は、
     所定の量子化境界による3値の量子化である、
     請求項5に記載の音響処理装置。
  7.  前記要素生成手段は、
     前記領域特徴量抽出手段で抽出された領域特徴量の差分値が、プラスの量子化境界とマイナスの量子化境界との間であれば第1量子化値を生成し、プラスの量子化境界より大きければ第2量子化値を生成し、マイナスの量子化境界より小さければ第3量子化値を生成する、請求項6に記載の音響処理装置。
  8.  前記要素生成手段は、
     前記第1量子化値、前記第2量子化値および前記第3量子化値となる前記部分領域対の割合が均等になるように、前記量子化境界を決定する第2量子化境界決定手段を有する、
     請求項7に記載の音響処理装置。
  9.  前記要素生成手段は、
     前記領域特徴量抽出手段抽出された領域特徴量の差分値の分布に基づいて、前記量子化境界を決定する第1量子化境界決定手段を有する、
     請求項6乃至8のいずれか1項に記載の音響処理装置。
  10.  前記要素生成手段は、
     前記領域特徴量抽出手段で抽出された領域特徴量の差分値の絶対値をソートし、上位または下位から規定の割合の位置にある値を前記量子化境界として決定する第3量子化境界決定手段を有する、
     請求項6乃至8のいずれか1項に記載の音響処理装置。
  11.  前記時間周波数解析手段は、
     音響信号をサンプリングするサンプリング手段と、
     前記サンプリングした音響信号から、順次にシフトして互いにオーバーラップした所定時間長の複数のフレームを切り出すフレーム切出手段と、
     前記切り出された複数のフレームの各フレームに対して時間および周波数が離散化された変換を行ない、前記時間周波数平面を生成する平面生成手段と、
     を有する、請求項1乃至10のいずれか1項に記載の音響処理装置。
  12.  前記平面生成手段における時間および周波数が離散化された変換は、
     FFT(Fast Fourier Transform),DFT(Discrete Fourier Transform),DCT(Discrete Cosine Transform),MCLT(Modulated Complex Transform),Haar Transform,Walsh−Hadamard Transform,Wavelet Transformの少なくとも1つを含む、請求項11に記載の音響処理装置。
  13.  前記領域特徴量抽出手段は、前記部分領域対に対応付けて領域特徴量抽出方法を記憶する第1記憶手段を有し、前記部分領域対に対応する領域特徴量抽出方法で領域特徴量を抽出する、請求項1乃至12のいずれか1項に記載の音響処理装置。
  14.  前記音響識別子生成手段は、前記部分領域対に対応付けて比較および量子化方法を記憶する第2記憶手段を有し、前記部分領域対に対応する比較および量子化方法で比較および量子化を行ない、音響識別子を生成する、請求項1乃至13のいずれか1項に記載の音響処理装置。
  15.  前記時間周波数解析手段は、音響信号から異なる時間周波数解析をして複数の時間周波数平面を生成し、
     前記領域特徴量抽出手段は、前記時間周波数解析手段により生成された前記複数の時間周波数平面の上に設定された、前記時間周波数平面と2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する、請求項1乃至14のいずれか1項に記載の音響処理装置。
  16.  前記時間周波数解析手段は、さらに、異なるサンプリングをした音響信号から時間周波数解析をして複数の時間周波数平面を生成する、請求項15に記載の音響処理装置。
  17.  請求項1乃至16のいずれか1項に記載の音響処理装置と、
     前記音響処理装置により生成された前記音響識別子を用いて音響の照合を行なう音響照合装置と、
     を含む、音響処理システム。
  18.  請求項1乃至16のいずれか1項に記載の音響処理装置と、
     前記音響処理装置により生成された前記音響識別子を用いて音響の識別を行なう音響識別装置と、
     を含む音響処理システム。
  19.  ビデオ信号に含まれる音響信号から音響識別子を生成する請求項1乃至16のいずれか1項に記載の音響処理装置と、
     前記音響処理装置により生成された前記音響識別子を用いてビデオの照合を行なうビデオ照合装置と、
     を含む、ビデオ処理システム。
  20.  ビデオ信号に含まれる音響信号から音響識別子を生成する請求項1乃至16のいずれか1項に記載の音響処理装置と、
     前記音響処理装置により生成された前記音響識別子を用いてビデオの識別を行なうビデオ識別装置と、
     を含む、ビデオ処理システム。
  21.  ビデオ信号に含まれる音響信号から音響識別子を生成する請求項1乃至16のいずれか1項に記載の音響処理装置と、
     前記音響処理装置と同期して前記ビデオ信号に含まれる映像信号から映像識別子を生成する映像処理装置と、
     前記映像処理装置により生成された前記映像識別子と前記音響処理装置により生成された前記音響識別子とを用いてビデオの照合を行なうビデオ照合装置と、
     を含む、ビデオ処理システム。
  22.  音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
     前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
     前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
     を含む、音響処理装置の制御方法。
  23.  音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
     前記生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
     前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
     をコンピュータに実行させる、音響処理装置の制御プログラム。
  24.  音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いて音響の照合を行なう音響照合ステップと、を含む音響処理方法であって、
     前記音響処理ステップが、
     音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
     前記生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
     前記抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
     を含む、音響処理方法。
  25.  音響信号の時間周波数解析に基づいて音響を識別する音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いて音響の識別を行なう音響識別ステップと、を含む音響処理方法であって、
     前記音響処理ステップが、
     音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
     前記生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
     前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
     を含む、音響処理方法。
  26.  ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、前記生成された前記音響識別子を用いてビデオの照合を行なうビデオ照合ステップと、を含むビデオ処理方法であって、
     前記音響処理ステップが、
     音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
     前記生成された前記時間周波数平面の上に設定され2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
     前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
     を含む、ビデオ処理方法。
  27.  ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、
     前記生成された前記音響識別子を用いてビデオの識別を行なうビデオ識別ステップと、を含むビデオ処理方法であって、
     前記音響処理ステップが、
     音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
     生成された前記時間周波数平面の上に設定され、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
     前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
     を含む、ビデオ処理方法。
  28.  ビデオ信号に含まれる音響信号から音響識別子を生成する音響処理ステップと、
     前記音響処理ステップに同期して前記ビデオ信号に含まれる映像信号から映像識別子を生成する映像処理ステップと、
     前記生成された前記映像識別子と前記生成された前記音響識別子とを用いてビデオの照合を行なうビデオ照合ステップと、を含むビデオ処理方法であって、
     前記音響処理ステップが、
     音響信号から時間周波数解析して時間周波数平面を生成する時間周波数解析ステップと、
     前記生成された前記時間周波数平面の上に設定された、2つの部分領域の形状と前記2つの部分領域の位置との少なくとも1つが互いに相違する複数の部分領域対について、各部分領域から領域特徴量を抽出する領域特徴量抽出ステップと、
     前記領域特徴量抽出手段で抽出された前記各部分領域からの領域特徴量を用いて、前記音響を識別する音響識別子を生成する音響識別子生成ステップと、
     を含む、ビデオ処理方法。
PCT/JP2012/068535 2011-07-14 2012-07-13 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム WO2013008956A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/131,580 US9215350B2 (en) 2011-07-14 2012-07-13 Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same
JP2013524017A JP5772957B2 (ja) 2011-07-14 2012-07-13 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-155541 2011-07-14
JP2011155541 2011-07-14

Publications (1)

Publication Number Publication Date
WO2013008956A1 true WO2013008956A1 (ja) 2013-01-17

Family

ID=47506227

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/068535 WO2013008956A1 (ja) 2011-07-14 2012-07-13 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム

Country Status (3)

Country Link
US (1) US9215350B2 (ja)
JP (1) JP5772957B2 (ja)
WO (1) WO2013008956A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714811A (zh) * 2013-12-29 2014-04-09 广州视声电子科技有限公司 一种语音控制物业系统方法及装置
CN110322886A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116768A (ja) * 2000-10-05 2002-04-19 Sony Corp 携帯電話端末、楽曲同定方法及び装置、楽曲同定配信方法及びシステム
JP2008145505A (ja) * 2006-12-06 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> 信号箇所・変動パラメータ検出方法、信号箇所・変動パラメータ検出装置ならびにそのプログラムと記録媒体
JP2009036862A (ja) * 2007-07-31 2009-02-19 Univ Chuo 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム
JP2009276776A (ja) * 2009-08-17 2009-11-26 Sony Corp 楽曲同定装置及び方法、楽曲同定配信装置及び方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
JP3699912B2 (ja) 2001-07-26 2005-09-28 株式会社東芝 音声特徴量抽出方法と装置及びプログラム
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
US7516074B2 (en) 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
CN102822864B (zh) * 2009-06-16 2016-01-13 日本电气株式会社 图像签名匹配设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116768A (ja) * 2000-10-05 2002-04-19 Sony Corp 携帯電話端末、楽曲同定方法及び装置、楽曲同定配信方法及びシステム
JP2008145505A (ja) * 2006-12-06 2008-06-26 Nippon Telegr & Teleph Corp <Ntt> 信号箇所・変動パラメータ検出方法、信号箇所・変動パラメータ検出装置ならびにそのプログラムと記録媒体
JP2009036862A (ja) * 2007-07-31 2009-02-19 Univ Chuo 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム
JP2009276776A (ja) * 2009-08-17 2009-11-26 Sony Corp 楽曲同定装置及び方法、楽曲同定配信装置及び方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714811A (zh) * 2013-12-29 2014-04-09 广州视声电子科技有限公司 一种语音控制物业系统方法及装置
CN103714811B (zh) * 2013-12-29 2016-09-14 广州视声智能科技有限公司 一种语音控制物业系统方法及装置
CN110322886A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
JP2020527255A (ja) * 2018-03-29 2020-09-03 北京字節跳動網絡技術有限公司Beijing Bytedance Network Technology Co., Ltd. オーディオ指紋抽出方法及び装置
US10950255B2 (en) 2018-03-29 2021-03-16 Beijing Bytedance Network Technology Co., Ltd. Audio fingerprint extraction method and device

Also Published As

Publication number Publication date
JP5772957B2 (ja) 2015-09-02
JPWO2013008956A1 (ja) 2015-02-23
US9215350B2 (en) 2015-12-15
US20140139739A1 (en) 2014-05-22

Similar Documents

Publication Publication Date Title
Rakotomamonjy et al. Histogram of gradients of time–frequency representations for audio scene classification
US9313593B2 (en) Ranking representative segments in media data
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
EP1763018B1 (en) System for detection section including particular acoustic signal, method and program thereof
EP2791935B1 (en) Low complexity repetition detection in media data
Anguera et al. Mask: Robust local features for audio fingerprinting
US20040172411A1 (en) Method and device for producing a fingerprint and method and method and device for identifying an audio signal
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
CN110647656B (zh) 一种利用变换域稀疏化和压缩降维的音频检索方法
CN113436646B (zh) 一种采用联合特征与随机森林的伪装语音检测方法
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
JP5772957B2 (ja) 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム
Han et al. Environmental sound classification based on feature collaboration
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
Williams et al. Efficient music identification using ORB descriptors of the spectrogram image
Malekesmaeili et al. A novel local audio fingerprinting algorithm
Felipe et al. Acoustic scene classification using spectrograms
Jleed et al. Acoustic environment classification using discrete hartley transform features
Yang Towards real-time music auto-tagging using sparse features
Suhaimy et al. Classification of ambulance siren sound with MFCC-SVM
Agarwaal et al. Robust and lightweight audio fingerprint for Automatic Content Recognition
Nagano et al. A fast audio search method based on skipping irrelevant signals by similarity upper-bound calculation
Zhang et al. A two phase method for general audio segmentation
Deshpande et al. Mugec: Automatic music genre classification
Marupaka et al. Comparison of classification results obtained by using cyclostationary features, MFCC, proposed algorithm and development of an environmental sound classification system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12812083

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14131580

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2013524017

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12812083

Country of ref document: EP

Kind code of ref document: A1