WO2001016935A1 - Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage - Google Patents

Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage Download PDF

Info

Publication number
WO2001016935A1
WO2001016935A1 PCT/JP2000/005771 JP0005771W WO0116935A1 WO 2001016935 A1 WO2001016935 A1 WO 2001016935A1 JP 0005771 W JP0005771 W JP 0005771W WO 0116935 A1 WO0116935 A1 WO 0116935A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
signal
acoustic
searcher
video
Prior art date
Application number
PCT/JP2000/005771
Other languages
English (en)
French (fr)
Inventor
Masayoshi Miura
Susumu Yabe
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP00955045A priority Critical patent/EP1132890B1/en
Priority to KR1020017005244A priority patent/KR100782286B1/ko
Priority to DE60038535T priority patent/DE60038535T2/de
Priority to US09/830,222 priority patent/US7260226B1/en
Publication of WO2001016935A1 publication Critical patent/WO2001016935A1/ja
Priority to US11/656,402 priority patent/US8165306B2/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/066MPEG audio-visual compression file formats, e.g. MPEG-4 for coding of audio-visual objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
    • G10H2240/281Protocol or standard connector for transmission of analog or digital data to or from an electrophonic musical instrument
    • G10H2240/315Firewire, i.e. transmission according to IEEE1394
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/571Waveform compression, adapted for music synthesisers, sound banks or wavetables
    • G10H2250/575Adaptive MDCT-based compression, e.g. using a hybrid subband-MDCT, as in ATRAC
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2525Magneto-optical [MO] discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Definitions

  • the present invention relates to a search processing method and apparatus for searching, for example, a part of a specific musical instrument, a specific human voice, a sound of an animal, a specific person image, a specific scene, or the like from an audio signal or a video signal to be searched.
  • the present invention also relates to an information storage method and apparatus using the search processing method and apparatus.
  • the present invention does not require the operation of recording a marker or recording the count value and time at the time of recording, and also searches for a specific speaker or musical instrument. It is an object of the present invention to provide a method and an apparatus that can perform the method.
  • the sound search processing method includes, for one or a plurality of sound signals as search elements, each of search element sound characteristic parameters consisting of sound characteristic parameters depending on structural elements of a sound source; By comparing the acoustic feature parameters obtained by analyzing the sound signal of the search target and the similarity between the two, and calculating the similarity between the two, the similarity to the sound signal of the search element is obtained from the sound signal of the search target. It is characterized by searching for a part.
  • the input acoustic signal is recorded on a recording medium, and the input acoustic signal is analyzed to obtain an acoustic feature parameter dependent on a structural element of a sound source.
  • a comparison is made between each of the search consonant characteristic parameters for one or more sound signals as one or more search signals and one or more of the acoustic characteristic parameters for the input sound signal.
  • the acoustic information search device comprises: an acoustic feature parameter overnight analyzing means for analyzing an acoustic signal to be searched over an acoustic feature parameter dependent on a structural element of a sound source; A search is performed by comparing the acoustic characteristic parameter of the searcher composed of the acoustic characteristic parameters with respect to the signal and the acoustic characteristic parameter of the acoustic signal to be retrieved from the acoustic characteristic parameter analysis means.
  • a search unit for searching a target audio signal for a portion similar to the audio signal from the sound source of the probe, and a result display unit for displaying a result of the search unit.
  • the acoustic information search device comprises: an acoustic feature parameter overnight analyzing means for analyzing an acoustic signal to be searched over an acoustic feature parameter dependent on a structural element of a sound source; A comparison is made between a searcher acoustic feature parameter set consisting of the acoustic feature parameter set for the signal and an acoustic feature parameter set of the search target audio signal from the sound feature parameter set analysis unit, Searching means for searching for a part similar to the sound signal from the sound source of the searcher from the sound signal to be searched, and extracting and reproducing only the similar part based on a search result by the searching means And reproducing means for performing the operation.
  • the acoustic information storage device includes a recording unit that records an input acoustic signal on a recording medium, and analyzes the input acoustic signal into acoustic characteristic parameters that depend on structural elements of a sound source.
  • An acoustic feature parameter overnight analysis means each of the searcher acoustic feature parameters comprising one or more acoustic feature parameters for one or more audio signals to be a search element, and the above-mentioned input audio signal
  • a search means for searching for a part similar to the acoustic signal from the sound source of the searcher from the acoustic signal to be searched is provided. And recording a search result of the search means in association with a position where the search element and the input audio signal are recorded on the recording medium.
  • the audiovisual image search processing method is an audiovisual image search processing method for searching a predetermined portion from an input signal composed of a video signal and an audio signal related to the video signal.
  • ⁇ Acoustic feature pattern of multiple sound signals depending on the structural elements of the sound source Comparing each of the acoustic feature parameters of the search element consisting of lame and the acoustic feature parameters obtained by analyzing the acoustic signal in the input signal to be searched, and calculating the similarity between the two. By doing so, a portion similar to the audio signal of the search element is searched for from the audio signal in the input signal, and the searched portion is used as a search result for the input signal.
  • the audiovisual image search processing method is an audiovisual image search processing method for searching a predetermined portion from an input signal composed of a video signal and an audio signal related to the video signal. For each of a plurality of acoustic signals, each of the searcher acoustic feature parameters consisting of the acoustic feature parameters depending on the structural element of the sound source and the acoustic signal in the input signal to be searched are analyzed. By comparing the obtained acoustic feature parameters and the similarity, and calculating the similarity between the two, a portion similar to the acoustic signal of the searcher is retrieved from the acoustic signal in the input signal, and the retrieval is performed.
  • each of the search child video feature parameters consisting of video feature parameters representing image features and the video signal in the input signal to be searched are solved.
  • an image portion similar to the image of the search element is searched from the video signal in the input signal,
  • a predetermined portion is searched from the input signal based on a search result for the signal and a search result for the video signal.
  • the audiovisual information storage method records an input signal including a video signal and an audio signal related to the video signal on a recording medium, and analyzes the audio signal in the input signal.
  • Sound source structure An acoustic feature parameter that depends on the structural element is obtained, and a search element comprising one or more of the acoustic feature parameters for one to a plurality of acoustic signals is used as a search element.
  • a search element comprising one or more of the acoustic feature parameters for one to a plurality of acoustic signals is used as a search element.
  • the audio-video information storage method records an input signal composed of a video signal and an audio signal related to the video signal on a recording medium, and includes a method for searching for one or more audio signals as a search element.
  • Each of the searcher acoustic feature parameters consisting of the acoustic feature parameters depending on the structural elements of the sound source, the acoustic feature parameters obtained by analyzing the acoustic signal in the input signal to be searched, and By calculating the similarity between the two, a portion similar to the acoustic signal of the searcher is searched for from the audio signal in the input signal, and further a searcher is used.
  • an image portion similar to the image of the search element is searched from the video signal in the input signal. Is recorded in association with the search element and the recording position of the input signal on the recording medium.
  • the audiovisual information search device comprises: a video signal; An audio feature parameter analysis means for analyzing the audio signal in an input signal composed of an audio signal related to a video signal and an audio feature parameter dependent on a structural element of a sound source; For a signal, a searcher acoustic feature parameter set consisting of the acoustic feature parameter set and a sound feature parameter set of the search target audio signal from the acoustic feature parameter set analysis means are compared. It is characterized by comprising a search means for searching a part similar to the sound signal from the sound source of the search element from the sound signal to be searched, and a result display means for displaying a result of the search means.
  • the audiovisual information search device may further include: converting the audio signal in an input signal including a video signal and an audio signal related to the video signal into an audio feature parameter dependent on a structural element of a sound source.
  • An acoustic feature parameter overnight analyzing means for analyzing in the evening; a search element acoustic feature parameter overnight consisting of the acoustic feature parameter overnight for an acoustic signal as a search element; and A search unit for comparing a sound characteristic parameter of the search target audio signal with a search for a part similar to the sound signal from the sound source of the searcher from the search target audio signal; and the search unit.
  • reproducing means for extracting and reproducing the input signal portion corresponding to the similar portion based on the search result at step (a).
  • the audiovisual information retrieval apparatus may further include: converting the audio signal in an input signal including a video signal and an audio signal related to the video signal into an audio feature parameter dependent on a structural element of a sound source.
  • An audio part searching means for searching for a part; a video characteristic parameter analyzing means for analyzing a video signal in the input signal over a video representing feature of an image; and one or more videos as search elements
  • a comparison is made between each of the search child video feature parameters consisting of the video feature parameters for the signal and the video feature parameters of the video signal in the input signal from the video feature parameter analysis means.
  • a video part search means for searching a video signal in the input signal for a part similar to the video signal of the search element; and a result display means for displaying results of the audio part search means and the video part search means. And a step.
  • the audiovisual information search device may further include: converting the audio signal in an input signal including a video signal and an audio signal related to the video signal into an audio feature parameter dependent on a structural element of a sound source.
  • Acoustic feature parameter overnight analysis means for analyzing in the evening; a search element acoustic feature parameter overnight comprising the acoustic feature parameter overnight for a sound source to be a search element; and the input from the acoustic feature parameter overnight analysis means
  • a sound part search unit that compares a sound parameter of the sound signal in the signal with a sound parameter in the input signal and searches for a part similar to the sound signal from the sound source of the searcher from the sound signal in the input signal;
  • a video feature parameter analyzing means for analyzing a video signal in the input signal into video feature parameters representing image features; and a video feature parameter analyzing means for one or more video signals as a search element.
  • Video section search means for searching a video signal in the input signal for a portion similar to the video signal of the search element, and searching by the audio part search means and the video part search means Reproducing means for extracting and reproducing the input signal portion determined based on the result.
  • the audio-video information storage device includes a recording unit that records an input signal composed of a video signal and an audio signal related to the video signal on a recording medium, and analyzes the audio signal in the input signal.
  • Acoustic feature parameter analysis means for analyzing the acoustic feature parameters that depend on the structural elements of the sound source, and a search consisting of the above-described acoustic feature parameters for one or more sound signals as search elements By comparing each of the sub-acoustic feature parameters and the acoustic feature parameter of the audio signal in the input signal, and calculating the similarity between the two, the audio signal in the input signal has And a sound part search means for searching for a part similar to the sound signal of the search element from the search result.
  • the search result of the sound part search means is stored in the storage position of the search element and the input signal on the recording medium. It is communicated, characterized in that to record it.
  • the audiovisual information storage device includes: a recording unit that records an input signal including a video signal and an audio signal related to the video signal on a recording medium;
  • a searcher composed of a set of acoustic feature parameters depending on the structural elements of a sound source for an acoustic signal. Each of the acoustic feature parameters and the acoustic signal in the input signal to be searched are obtained by analyzing the acoustic signal.
  • an acoustic part search means for searching for a part similar to the acoustic signal of the searcher from the acoustic signal in the input signal, For each of one or more video signals as a search element, each of the search element video feature parameters consisting of video feature parameters representing image features and the video signal in the input signal to be searched are analyzed.
  • a video portion search means for searching the video signal in the input signal for an image portion similar to the image of the searcher by comparing the video feature parameter and the obtained video feature parameter and calculating the similarity between the two. And recording the search results of the audio partial search unit and the video partial search unit in association with the search element and the recording position of the input signal on the recording medium.
  • FIG. 1 is a block diagram of a first embodiment of a sound retrieval processing device according to the present invention.
  • 2A and 2B are diagrams showing a frequency component distribution and a time waveform for showing acoustic features of a male voice.
  • FIGS. 3A and 3B are diagrams showing a frequency component distribution and a time waveform for showing acoustic features of a female voice.
  • FIG. 4A and FIG. 4B are diagrams showing frequency component distributions and time waveforms for showing acoustic characteristics of saxophones.
  • 5A and 5B are diagrams showing a frequency component distribution and a time waveform for showing the acoustic characteristics of the base band.
  • FIG. 6 is a flowchart for explaining a search element registration processing operation in the first embodiment.
  • FIG. 7 is a flowchart illustrating a search processing operation according to the first embodiment.
  • FIGS. 8A and 8B are diagrams showing display examples of search processing results according to the first embodiment.
  • FIG. 9 is a diagram illustrating another example of the display example of the search processing result according to the first embodiment.
  • FIG. 10 is a diagram illustrating another example of the display example of the search processing result according to the first embodiment.
  • FIG. 11 is a block diagram of a second embodiment of the sound retrieval processing device according to the present invention.
  • FIG. 12 is a block diagram of a third embodiment of the sound retrieval processing device according to the present invention.
  • FIG. 13 is a block diagram of a fourth embodiment of the sound retrieval processing device according to the present invention.
  • FIG. 14 is a diagram used to explain a main part of a fifth embodiment of the sound retrieval processing device according to the present invention.
  • FIG. 15 is a flowchart used to explain the main part of a fifth embodiment of the sound retrieval processing device according to the present invention.
  • FIG. 16 is a block diagram of the first embodiment of the audiovisual image search processing device according to the present invention.
  • FIG. 17 is a diagram used for explaining the first embodiment of the audiovisual image search processing device according to the present invention.
  • FIG. 1 is a block diagram of a first embodiment of the present invention.
  • the first embodiment has a function of recording and reproducing an input audio signal to be searched, for example, an input audio signal picked up by a microphone.
  • the reproduced audio signal also has a function of being an audio signal to be searched.
  • the input audio signal is supplied to the switch circuit SW 1 through the input terminal 11.
  • the switch circuit SW1 is switched to the terminal a when recording the input audio signal and when searching for the input audio signal by the switching signal from the control unit 10, and switches the audio signal of the search element from the input audio signal. When extracting, it is switched to the terminal b side.
  • the audio signal obtained on the terminal a side of the switch circuit SW 1 is transmitted to a recording medium 13, for example, a memory card, an optical disk such as a magnetic disk or a magneto-optical disk, or a hard disk via an acoustic signal recording unit 12. Recorded on the disc.
  • the sound signal recording unit 12 is activated by a control signal from the control unit 10 and performs recording when a recording instruction is given from the user through the key operation unit 20. .
  • the input audio signal through the input terminal 11 is also supplied to the input terminal IN of the switch circuit SW2.
  • An audio amplifier 15 and a speaker 16 are connected to the subsequent stage of the switch circuit SW2, and the switch circuit SW2 receives an input terminal according to a switching control signal from the control unit 10 except during reproduction described later. Switch to IN side. Therefore, at times other than reproduction, the input audio signal is supplied to the speaker 16 through the audio amplifier 15 and is reproduced as sound.
  • the control signal from the control unit 10 activates the sound signal reproduction unit 14 and reads the reproduction sound signal from the recording medium 13. Then, it is reproduced and supplied to the input terminal PB of the switch circuit SW2.
  • the switch circuit SW2 is switched to the input terminal PB side by a switching control signal from the control unit 10. Therefore, the reproduced sound signal is supplied to the speaker 16 through the audio amplifier 15 and reproduced.
  • the input audio signal obtained on the terminal a side of the switch circuit SW1 is also supplied to one input terminal d of the switch circuit SW3.
  • a reproduced sound signal from the sound signal reproducing unit 14 is supplied to the other input terminal c of the switch circuit SW3.
  • the switch circuit SW3 switches the audio signal to be searched, and is switched according to a user's instruction to select the audio signal to be searched through the key operation unit 20.
  • the acoustic signal to be searched for obtained from the switch circuit SW 3 is supplied to the acoustic feature parameter analysis unit 21, and for example, structural elements of the sound source such as the difference in the structure of the sounding body and the resonance system.
  • Dependent acoustic features Analyze the parameters overnight.
  • Such acoustic feature parameters include pitch frequency, its harmonic component frequency, formant frequency, cepstrum information, linear prediction coefficient and its residual signal, Percoll coefficient, and the like.
  • Fig. 2 shows the frequency component distribution of a typical male voice
  • FIG. 3 shows the frequency component distribution (Fig. 3 (A)) and time waveform (Fig.
  • FIG. 4 shows an example of the saxophone frequency component distribution (Fig. 4 (A)) and the time waveform (Fig. 4 (B)).
  • Figure 1 shows an example of the saxophone frequency component distribution (Fig. 4 (A)) and the time waveform (Fig. 4 (B)).
  • Figure 2 shows an example of the saxophone frequency component distribution (Fig. 4 (A)) and the time waveform (Fig. 4 (B)).
  • Figs. 2 to 5 are simply frequency component distributions and time waveforms, and it can be seen that acoustic characteristics are found in the pitch frequency, its harmonic components, the formant structure, and its presence or absence.
  • the characteristics of an acoustic signal can be represented by acoustic feature parameters such as a linear prediction coefficient and its residual signal.
  • the inflection parameter of speech obtained from the temporal variation of the pitch frequency is also effective as a parameter parameter representing the characteristics of the sound signal. Can be distinguished from the situation. For example, if the pitch is lower than usual and the inflection tends to decrease, it is identified as a situation that is not energetic-a situation that is sad. Therefore, the intonation information can also be used for the acoustic feature parameters.
  • the acoustic feature parameters from the acoustic feature parameter analyzer 21 are: It is supplied to the similarity calculation unit 22.
  • the similarity calculation unit 22 includes an audio feature parameter set (hereinafter referred to as a search element acoustic feature set) for an audio signal serving as a search element, and an acoustic feature parameter set analysis unit 21. Calculate the similarity of the audio signal to be searched with the acoustic feature parameters.
  • the similarity calculation in the output unit 22 is not based on the similarity determination of the sound time-series waveform pattern such as voice recognition, but is generated from a sound source having a similar structure for the sounding body and the resonance system. It is a judgment. Since it does not calculate the coincidence or similarity of the time-series waveform patterns, for example, when reproducing an audio signal, the similarity can be calculated even if the reproduction speed is increased.
  • the search feature acoustic feature parameters in a section of a certain time width TW are (x0, y0, z0), and the acoustic feature parameters of the search target acoustic signal are (X i, yi, zi), the similarity calculator 22 calculates the distance S between the two as the similarity as shown in the following equation.
  • the above-mentioned time width TW is set in advance by the similarity calculation unit 22 in consideration of parameter information and time sufficient for determining similarity.
  • sqrt () indicates the square root operation in (). The smaller this distance S is, the greater the similarity is. You.
  • the similarity calculation unit 22 calculates the distance S for each section of a predetermined time width TW, and when the calculated distance S is smaller than a predetermined value Sth.
  • the sound signal in the section of the time width TW is determined to be the same or similar to the sound signal of the search element, and otherwise, it is determined to be dissimilar.
  • the similarity determination output of the similarity calculation unit 22 is supplied to the display unit 24 via the display control unit 23.
  • the display control unit 23 outputs the similarity determination output in correspondence with the time from the beginning of the audio signal to be searched, for example, as in a horizontal bar graph, on the screen of the display unit 24. (See Fig. 8 etc. which will be described later).
  • an audio signal as a search element is extracted from an input audio signal or a reproduced audio signal and stored in the storage unit 32 in advance.
  • the input audio signal obtained at the terminal b of the switch circuit SW1 is supplied to the input terminal f of the switch circuit SW4, and the reproduced audio signal from the audio signal reproduction unit 14 is supplied to the switch circuit SW4. It is supplied to input terminal e.
  • the switch circuit SW 4 switches whether to extract the sound signal of the search element from the input sound signal or to extract the sound signal from the reproduced sound signal.
  • the key operation unit is controlled by a control signal from the control unit 10. Switching is performed according to a user's selection instruction through 20.
  • the sound signal from the switch circuit SW 4 is used to extract the searcher sound signal. It is supplied to the storage unit 31.
  • a control signal corresponding to the operation of the user through the key operation unit 20 is supplied from the control unit 10 to the search child acoustic signal extraction storage unit 31.
  • the user operates the key operation unit 20 while listening to the input audio signal from the loudspeaker or the sound reproduction output sound of the reproduction sound signal, when the sound signal part to be used as a search element is obtained.
  • Operate the searcher instruction key (not shown).
  • an audio signal in a section of a predetermined time width TW including the key operation time point is extracted and stored in the search memory 32.
  • the search element memory 32 has a storage area for each search element, and each search element is stored in a separate storage area.
  • the searcher acoustic signal extraction storage unit 31 is provided with a buffer memory so that the section of the time width TW starts from a point slightly before the key operation point.
  • the sound signal in the section of the designated time width T W is stored in the searcher memory 32 as a searcher sound signal.
  • a plurality of search elements can be stored, and each time the user specifies a sound signal of the search element, a search signal in the search element memory 32 is obtained by a control signal from the control section 10.
  • the storage area is updated. That is, the search element storage area address is updated.
  • the acoustic signal of the search element in the section of the time width TW extracted by the user's instruction from the search element acoustic signal extraction storage unit 31 is searched according to the switching control signal from the control unit 10.
  • the switch circuit SW5 is switched in synchronization with the update of the search element storage area of the child memory 32, the data is sequentially stored in separate search element storage areas of the search element memory 32.
  • the acoustic signal of A memo can be entered via the key operation unit 20 to indicate whether the data has been stored in the memory 32.
  • the memo entry of the search element is displayed in a table format, for example, corresponding to the search element storage area number. It is shown in part 24.
  • the user can execute a search with a desired search element by referring to the search element table on the display unit 24 and specifying the search element storage number in which the search element to be searched is stored. That is, when the user selects a search mode through the key operation unit 20 and designates a predetermined search element storage area number, the switch circuit SW 6 is switched by the control signal from the control unit 10 and the search is performed.
  • the child acoustic signal reading unit 33 reads the acoustic signal of the search element from the specified search element storage area of the search element memory 32.
  • the read-out acoustic signal of the searcher is supplied to the searcher acoustic feature parameter analyzer 34 and analyzed, whereby the searcher acoustic feature parameter of the searcher acoustic signal is obtained.
  • the searcher acoustic feature parameters are supplied to the similarity calculator 22 described above, and as described above, for each section of the time width TW, the searcher performs Is searched for.
  • FIG. 6 is a flowchart of an operation mainly performed by the control unit 10 when the search element is registered. The processing routine shown in FIG. It starts when the search child registration mode is selected through 0.
  • the search child registration operation will be described with reference to FIG.
  • control unit 10 determines a user's selection instruction through the key operation unit 20, and determines whether to extract a search element from an input audio signal or a search element from a reproduced audio signal (step S10).
  • the control unit 10 switches the switch circuit SW1 to the output terminal b, the switch circuit SW2 to the input terminal IN, and the switch circuit SW4. Switches to the input terminal f side (step S102).
  • the control unit 10 switches the switch circuit SW1 to the output terminal a, the switch circuit SW2 to the input terminal PB, and the switch circuit SW4 to the input terminal e. (Step S103).
  • step S104 the control unit 10 waits for an instruction of the acoustic signal portion of the search element by the user through the key operation unit 20.
  • the audio signal from which the search element is extracted is supplied to the sub-power 16 through the audio amplifier 15 and is reproduced as sound.
  • the user listens to the sound emitted from the speaker 16 and instructs, through the key operation unit 20, an acoustic signal part desired to be used as a searcher, for example, a specific searcher sound source such as a specific speaker.
  • step S104 when the instruction input of the acoustic part of the search element is detected, the control unit 10 updates the search element storage area of the search element memory 32 (step S105), and extracts the search element acoustic signal.
  • the storage unit 31 is controlled so as to extract the sound signal in the section of the fixed time width TW as described above (step S106).
  • control is performed so that the extracted acoustic signal portion of the search element is written into the updated search element storage area of the search element memory 32 (step S 107).
  • step S108 it is determined whether or not an instruction to end the search element registration mode has been issued through the key operation unit 20 (step S108). If the end instruction has been issued, the search element registration mode processing routine is executed. If there is no end instruction, the process returns to step S104, and waits for the user to input the next search element extraction instruction, and repeats the above operation.
  • the searcher memory 32 can register and store the searcher's sound signal extracted from the input sound signal or the reproduced sound signal by the user. In this case, if the memory capacity of the search element memory 32 is sufficient, the sound signal of the search element can be stored without being erased.
  • the similarity is calculated by using the acoustic feature parameters. Therefore, the accumulated acoustic signal of the searcher is similar to the audio signal portion of the searcher from the extracted audio signal. It is used not only when searching for a part to be searched, but also when searching for a part similar to the sound signal part of the searcher for another search target audio signal that is not an extracted one. Can be.
  • the search processing is executed as follows using the acoustic signal of the search element stored in the search element memory 32.
  • Figure 7 shows the processing routine for this search processing.
  • the processing routine of FIG. 7 is started when the user selects the search processing mode through the key operation unit 20.
  • the control unit 10 determines a user's selection instruction through the key operation unit 20 and determines whether a search target is an input audio signal or a reproduced audio signal (step S201).
  • the control unit 10 switches the switch circuit SW 1 to the output terminal a, the switch circuit SW 2 to the input terminal IN, and the switch circuit SW 2 to the input terminal IN.
  • SW3 switches to the input terminal d side (step S202).
  • the control unit 10 switches the switch circuit SW2 to the input PB side and switches the switch circuit SW3 to the input terminal c side (step S20). 3) o
  • step S204 the control unit 10 recognizes what the user has selected as a search element (step S204). ), And control so that the acoustic signal of the selected probe is read out from the retriever memory 32 (step S205).
  • the acoustic signal of the search element read from the memory 32 is supplied to the search element acoustic feature parameter analysis section 34 via the search element acoustic signal reading section 33, and the search element acoustic feature parameter is read. Evening, similarity calculation Supplied to part 22.
  • the similarity calculator 22 performs the above-described similarity calculation between the acoustic feature parameters of the audio signal to be searched, for example, for each section of the time width TW, and the probe acoustic feature parameters.
  • the similarity which is an index of the similarity between the two, is calculated (step S206). In this example, as described above, the similarity is obtained as the distance S between the two.
  • step S207 it is determined whether or not the distance S, which is the similarity, is smaller than a predetermined threshold Sth. If the distance S is smaller than the threshold Sth, the sound similar to the search element is determined. It is determined as a signal portion (step S208), and when it is larger than the threshold value Sth, it is determined that they are dissimilar (step S209). Then, the determination result is displayed on the screen of the display unit 24 via the display control unit 23 (step S 21
  • step S211 upon completion of the audio signal to be searched or by a user's termination instruction, it is determined whether or not the search processing has been completed (step S211). End the routine, otherwise return to step S206 and continue searching with the search term.
  • Figure 8 shows a display example of the search results as described above.
  • the example in FIG. 8 is a case where the search target is a reproduced audio signal of a conference recording and the search element is a specific speaker A. According to this display example, at which time position in the entire conference recording speaker A is speaking is shown.
  • search element has been described. However, a plurality of search elements are specified, and the similarity of the plurality of search elements is calculated. Can also be displayed. In this case, for example, the search element may be switched in a time-division manner every 10 milliseconds, and the similarity calculation unit 22 may perform the calculation operation.
  • a plurality of similarity calculation units may be provided, and the similarity calculation units may calculate the similarity for each of the plurality of search elements in parallel.
  • Fig. 9 shows a display example of search results obtained by performing a search by setting a plurality of search elements in this way.
  • This display example shows the time intervals of three speakers A, B, and C in the entire conference recording.
  • the similarity determination result is a binary result based on whether or not a predetermined threshold has been exceeded.
  • the distance S as the similarity calculation result is calculated.
  • the value may be directly reflected on the display. That is, the shorter the distance S is, the higher the similarity is, and according to the high similarity, the time section display is displayed with shading as shown in Fig. 8 (B). You may. For example, in the example of FIG. 8 (B), the higher the shade, the higher the similarity. Also, instead of shading, differences in the degree of similarity may be displayed by differences in display colors.
  • the display color of the similarity judgment output is made different for each search element. Alternatively, it may be displayed.
  • the similarity determination output is displayed corresponding to the passage of time of the audio signal to be searched.
  • the audio signal to be searched is a reproduced audio signal
  • the recording medium 1 of the audio signal in each time interval is used.
  • the recording position on 3 can be easily known. Therefore, once the similarity judgment display output as the search result for the reproduced sound signal is obtained, while displaying it on the display unit 23, the similarity judgment display output is displayed as shown in FIG.
  • the playback position can be displayed in correspondence with, for example, a prosodic position.
  • the search target audio signal can be played back from the position of the specified playback position force. it can.
  • the search makes it possible to extract and reproduce the audio signal for each of the classified search elements from the audio signal to be searched.
  • the sound characteristic parameter is used. Therefore, a sound using a pattern matching process for determining whether or not the waveform patterns match is used. Unlike voice recognition, there is no need to use the time-series waveform of the acoustic signal as it is. For this reason, when the playback audio signal is to be searched, the same similarity judgment output can be obtained even if the playback speed is not normal speed (1x speed) but high-speed playback such as 2x speed or 3x speed. it can. Therefore, it is possible to increase the search speed.
  • the address on the recording medium can be associated with the search result, and only the audio signal portion similar to the specific search element is extracted from the recording medium using the search result. It is also possible to make it play back.
  • the search target is a reproduced sound signal.
  • the input sound signal is searched for using the input sound signal as a search target using a search element registered in advance.
  • search element registered in advance.
  • the sound signals of a plurality of musical instruments are registered as search elements, and the type of instrument used to play each part of the input sound signal can be classified and displayed.
  • the search elements are extracted from the input sound signal and the reproduced sound signal and stored in the search element memory 32.
  • the search element library includes a plurality of search elements. Search signal memory
  • the similarity was calculated as the geometric distance S between the acoustic feature parameters, but a new parameter was calculated from several parameters, and the acoustic feature parameters were calculated using the new parameters. You can ask for the evening distance.
  • the acoustic feature parameters of the search target and the search element are obtained.
  • the evening distance may be calculated. It is also possible to calculate the similarity focusing on important parameters by weighting the parameters of each acoustic feature.
  • the searcher memory 32 may be a memory card or the like that can be taken out instead of a built-in memory.
  • a plurality of types of search elements are stored and prepared in a plurality of memory cards, and a memory card is exchanged according to an audio signal to be searched, thereby obtaining a desired search object. For, the search using the desired search element can be easily performed.
  • a sound source of an acoustic signal to be used as a search element is prepared, and an acoustic signal from the sound source is input from an input terminal 11 in advance, and stored as a search element acoustic signal in a search element memory 32. You can also. Furthermore, instead of storing in the searcher memory 32, the sound signal from the sound source of the searcher is input separately from the sound signal to be searched, and the sound signal of the searcher is temporarily stored in the sofa memory. May be used for search. It should be noted that the search element is not limited to an audio signal from a single sound source, but may be an audio signal in a predetermined section extracted from an input audio signal or a reproduced audio signal.
  • the image can also be displayed on the display unit.
  • the classification of the search results can be confirmed. For example, you can search and classify recordings using audio signals.
  • FIG. 11 shows a processor of the audio signal search processing device according to the second embodiment.
  • the block diagram is shown.
  • the acoustic signal is stored as a registered search element.
  • the acoustic feature parameters are stored in the search element memory 32 as the registered search element. Store it.
  • Other configurations are exactly the same as those of the apparatus of FIG. 1, and the same parts as those of FIG. 1 are denoted by the same reference numerals.
  • a search element acoustic signal extraction unit 35 is provided on the output side of the switch circuit SW4. This corresponds to a part of the means for extracting the acoustic signal portion of the search element specified by the user in the search element acoustic signal extraction storage unit 31 in FIG.
  • the acoustic signal of the search element extracted by the search element acoustic signal extraction unit 35 is analyzed by the search element acoustic feature parameter analysis unit 36, and is set as an acoustic feature parameter. It is stored in the search memory 32 through the overnight storage section 37 and the switch circuit SW5.
  • the search element acoustic feature parameter storage unit 37 stores the search information in the search element acoustic signal extraction storage unit 31 in FIG. In the same manner as described above, each of the search elements (in this embodiment, the acoustic feature parameters) is stored separately in the search element memory 32. Write to the search area.
  • the acoustic feature parameters of the search element stored in the search element memory 32 are changed by the control signal from the control section 10 generated based on the user's instruction through the key operation section 20. 6 and search are read by the child acoustic feature parameter reading unit 38.
  • the read-out data is the audio feature parameters, the read-out data is directly supplied to the similarity calculation unit 22 and searched. A similarity calculation is performed.
  • the second embodiment is different from the first embodiment only in that the searcher acoustic feature parameters are stored in the searcher memory 32.
  • the searcher registration operation and the search operation using the searcher are performed in the following manner. This is performed in the same manner as in the first embodiment. Therefore, according to the second embodiment, the same functions and effects as those of the above-described first embodiment can be obtained. Further, modifications similar to those of the above-described first embodiment are possible.
  • the searcher stores not the sound signal itself but the searcher acoustic feature parameters in the searcher memory 32, so that the storage capacity per searcher is smaller. It is possible to reduce the number, and to increase the number of search elements that can be stored and accumulated.
  • the third embodiment is a case in which an acoustic feature parameter that can be re-synthesized into an acoustic signal is used. Since it is possible to re-synthesize the acoustic feature parameter into the acoustic signal, the recording of the acoustic signal is also recorded as the acoustic feature parameter. Then, in the third embodiment, as in the second embodiment, the searcher stores the sound characteristic parameters in the searcher memory 32.
  • FIG. 12 is a block diagram of the acoustic signal search processing device according to the third embodiment. Also in FIG. 12, the same parts as those in the above-described embodiment are denoted by the same reference numerals.
  • a parameter of a vocoder is used as the parameter of the acoustic feature.
  • an input audio signal is supplied to an audio characteristic parameter analysis unit 41 through an input terminal 11, for example, a vocoder-type audio.
  • the feature parameters are analyzed overnight.
  • the acoustic feature parameter overnight from the acoustic feature parameter overnight analyzing unit 41 is supplied to the acoustic feature parameter overnight recording unit 42 through the switch circuit SW 1, and under the control of the control unit 10,
  • the acoustic feature parameter recording unit 42 records the acoustic feature parameter of the input acoustic signal on the recording medium 13.
  • the acoustic feature parameters of the input acoustic signal recorded on the recording medium 13 are reproduced by the acoustic feature parameter reproducing unit 43 under the control of the control unit 10, and are transmitted to the acoustic signal synthesizing unit 44. Supplied.
  • the acoustic signal synthesizing unit 44 synthesizes the original audio signal from the acoustic feature parameters.
  • the reproduced sound signal obtained from the sound signal synthesizing section 44 is supplied to the speaker 16 through the audio amplifier 15 through the input terminal PB of the switch circuit SW2, and is reproduced as sound.
  • the input audio signal from the input terminal 11 is supplied to the speaker 16 through the input end IN of the switch circuit SW2 and the audio amplifier 15 and is reproduced as sound in the first and second embodiments. This is the same as the case of the embodiment.
  • the acoustic feature parameter analysis unit 21 is not provided, and the switch circuit SW 3 is connected to the output terminal a of the switch circuit SW 1 to output the acoustic feature parameter of the input audio signal.
  • One of the sound characteristic parameter and the reproduced sound characteristic parameter from the sound characteristic parameter reproducing unit 43 is determined by the switching control signal from the control unit 10 according to the user's instruction through the key operation unit 20. Select to the similarity calculator 2 2 Supply.
  • the searcher stores the searcher acoustic feature parameters in the searcher memory 32 in the third embodiment, as in the second embodiment.
  • the acoustic feature parameter the acoustic feature parameter from the evening analysis unit 41 is transmitted to one of the switch circuits SW 4 through the output terminal b of the switch circuit SW 1.
  • the input audio signal f is supplied to the input terminal f, and the reproduced audio parameter from the audio characteristic parameter overnight reproducing unit 43 is supplied to the other input terminal e of the switch circuit SW4.
  • the switch circuit SW 4 receives the switching control signal from the control unit 10 and determines whether or not to extract the acoustic feature parameters of the search element from the input audio signal or from the reproduced audio signal.
  • the terminal is switched to either terminal e or input terminal.
  • the acoustic feature parameters from the switch circuit SW 4 are supplied to the searcher acoustic feature parameter overnight storage unit 45.
  • the user listens to the input audio signal from the speaker or the audio reproduction output of the reproduced audio signal, Operate the searcher instruction key (not shown) of the key operation unit 20.
  • the retrieval child acoustic feature parameter extraction storage unit 45 extracts the acoustic characteristic parameters of the acoustic signal in the section of the predetermined time width TW including the key operation time point, and stores them in the retrieval child memory 32. Store in search element storage.
  • the searcher memory 32 stores the sound characteristic parameters of the searcher's sound signal extracted from the input sound signal or the reproduced sound signal.
  • the searcher acoustic feature parameters stored in the searcher memory 32 are stored in the searcher memory 32 in the same manner as in the above-described second embodiment.
  • it is read out by the searcher acoustic feature parameter overnight reading unit 38 and supplied to the similarity calculating unit 22.
  • the recording capacity of the recording medium can be effectively utilized.
  • the acoustic feature parameter overnight analysis unit can be used as a common one for the search target and the search element, and the configuration is simplified. Can be changed.
  • resynthesizable acoustic feature parameters include MPEG (Moving Picture Experts Group) sound compression formats (MPEG audio layer I, layer II, layer III). ) Data transfer and ATRAC (Adaptive Transform Acoustic Coding) ⁇ type data transfer.
  • MPEG Motion Picture Experts Group
  • ATRAC Adaptive Transform Acoustic Coding
  • subband coding is performed by subdividing the audio band into multiple parts in order to use human auditory psychological characteristics efficiently.
  • MP EG audio In layer I the entire band of the audio signal is divided into 32 subbands with equal frequency widths, and each signal is subsampled and encoded at 1/32 of the original sampling frequency.
  • the band level distribution of the band Calculation, calculation of the main band frequency, detection of the harmonic structure, detection of the time transition of the main band frequency, etc. are performed, and the detection results are used as the searcher acoustic feature parameters.
  • the audio feature parameter analysis unit 41 When applying the method of using the audio compression format data and ATRAC format data of the MPEG audio standard to the example in Fig. 12, when the input audio signal from the input terminal 11 is an analog signal or linear PCM signal, In this case, the audio feature parameter analysis unit 41 generates the audio compression format data of the MPEG standard or ATRAC format data. Then, the recording unit 42 records the acoustic compression data on the recording medium 13.
  • the subband data is generated from the acoustic compression data from the acoustic feature parameter analysis unit 41 or the audio compression data from the reproduction unit 43, As described above, for the data of the subband, calculation of the band level distribution, calculation of the main band frequency, detection of the harmonic structure, detection of the time transition of the main band frequency, etc. are performed, and the detection results are searched. It is written in the searcher memory 32 as a parameter of the child acoustic feature.
  • an acoustic feature parameter analysis unit is provided in the preceding stage of the similarity calculation unit 22 as in the examples of FIGS. 1 and 11, and the acoustic compression from the switch SW1 or the reproduction unit 43 is performed.
  • Subband from data As described above, for the sub-band data, the band level distribution, the main band frequency is calculated, the harmonic structure is detected, and the time transition of the main band frequency is detected. To do. In this case, the configuration of the acoustic feature parameter overnight analysis unit is simplified. Then, the similarity calculation unit 22 compares the acoustic feature parameters obtained through the analysis with the searcher acoustic feature parameters from the searcher acoustic feature parameter readout unit 38 and performs similarity determination. .
  • the input audio signal from the input terminal 11 is an analog signal or a linear PCM signal, but I EEE (The Ins tit ut eof Electrical and Electronic Enginers, Inc.) If the signal is input as a serial digital signal from a 1394 standard interface, or if a signal obtained as a digital audio compression signal is input to a digital broadcast receiver, the MPEG standard audio Since the compression format data and the ATRAC format data can be obtained as they are, the acoustic feature parameter analyzer 41 in FIG. 12 is not required.
  • the above-described search method using the acoustic compression signal as a search target has a longer time lag for analysis than decoding the digital audio compression format data and converting it back to a linear PCM audio signal and then performing acoustic feature analysis.
  • the sound characteristic parameter is recorded on the recording medium instead of the sound signal.
  • the sound signal and the sound characteristic parameter are mutually recorded. It is recorded on a recording medium incidentally.
  • the acoustic signal is an acoustic signal. Since the recording is performed together with the feature parameters, the acoustic feature parameters are not limited to those that can be re-synthesized into an acoustic signal as in the third embodiment.
  • the sound characteristic parameter is recorded on a recording medium such as a magnetic disk, a magneto-optical disk, an optical disk, and a memory card along with the sound signal.
  • the sound signal and the sound characteristic parameter are recorded on the recording medium for each sound signal recording unit section (a section such as a pack, a packet, and a sector).
  • the data and the acoustic feature parameters for the corresponding unit section are recorded in a form that can be mutually associated, such as adjacent recording areas, that is, in a linked structure.
  • FIG. 13 is a block diagram of the acoustic signal search processing device according to the fourth embodiment.
  • the same parts as those shown in FIGS. 1, 11, and 12 of the above-described embodiment are denoted by the same reference numerals, and detailed description thereof will be omitted.
  • the input audio signal through the audio input terminal 11 is supplied to the audio signal recording unit 12 through the switch circuit SW7.
  • the switch circuit SW 7 is turned on during recording by a switching control signal from the control unit 10. Then, in the fourth embodiment, the input audio signal through the audio signal recording unit 12 is supplied to the recording data control unit 51.
  • the input audio signal through the input terminal 11 is supplied to the acoustic feature parameter analyzing unit 41, and is analyzed in the acoustic feature parameter.
  • the acoustic feature parameter from the acoustic feature parameter analyzer 41 is used as a switch circuit S as an acoustic feature parameter of the input audio signal to be searched.
  • the sound feature parameter data from the sound feature parameter data analysis unit 41 is supplied to the recording data control unit 51.
  • the recording / night control unit 51 records the sound signal and the sound characteristic parameter in a predetermined recording format in association with the recording.
  • the recording controller 51 records the sound signal on the recording medium 13 for each recording unit section, as described above, and records the sound signal for the corresponding recording unit section.
  • the characteristic parameters are recorded on the recording medium 13 at a position adjacent to the acoustic signal recording position.
  • the input sound signal and its sound characteristic parameters recorded on the recording medium 13 in the recording format as described above are reproduced by the read data control unit 52 under the control of the control unit 10. That c Then, the acoustic signal reproduced from the recording medium 1 3 at the read data control unit 5 2 is supplied to the audio signal reproducing unit 1 4, through the input end PB side of the switch circuit SW 2, a speaker through an audio amplifier 1 5 The sound is supplied to 16 and is reproduced.
  • the corresponding acoustic feature parameter reproduced from the recording medium 13 by the read-out data controller 52 is the input of the switch circuit SW 3 as the acoustic feature parameter of the reproduced audio signal to be searched. In addition to being supplied to c, it is also supplied to an input terminal e of a switch circuit SW4 in order to extract an acoustic feature parameter of the searcher from the reproduced audio signal.
  • the audio signal and the audio feature parameter reproduced from the recording medium 13 by the read-out data controller 52 are added to the audio signal by another device.
  • it can be transferred to the outside through the external output terminal (not shown). Therefore, it is not necessary to provide an acoustic feature parameter analysis unit in order to create an acoustic feature parameter in another apparatus for performing a search.
  • the input sound signal and its sound characteristic parameters are recorded on a recording medium by the recording data control unit 51 in a linked state, and are linked to each other.
  • the point that the read data control unit 52 reads and reproduces the acoustic signal and the acoustic feature parameter is different from the above-described embodiment, but the search is performed using the acoustic feature parameter.
  • the third embodiment is similar to the third embodiment in that the searcher acoustic feature parameters can be extracted from the input audio signal and the reproduced audio signal.
  • the search object and the search element can be made one common, and the configuration can be simplified. Also, when performing a search using another search device, the sound feature parameter analysis unit can be provided to the other search device. Therefore, another search device is provided with an acoustic feature parameter analysis unit. There is an advantage that there is no need.
  • the audio signal to be recorded and the corresponding acoustic feature parameter need only be recorded on the recording medium in a linked manner, and therefore need not be recorded adjacently as in the above-described example.
  • Acoustic in advance to the medium The recording area of the signal and the recording area of the sound feature parameter are determined separately, and the corresponding sound signal and the sound characteristic parameter are recorded in the (linked) address corresponding to each recording area. It may be recorded. Alternatively, the link information of the sound signal and the sound feature parameter—evening may be separately recorded, and the link information may be used to associate and reproduce the link information.
  • the search target audio signal can be searched for by performing similarity determination with the searcher based on the acoustic feature parameters. While recording, the search for the specified search element can be performed in parallel. Therefore, at the end of recording, a search result for the search element for the audio signal to be searched is obtained. Therefore, it is also possible to record this search result on a recording medium that is separate from the acoustic signal recording area.
  • the search result of the reproduced audio signal can be recorded later on the recording medium by preparing an area separate from the recording area of the audio signal on the recording medium.
  • the search result is recorded together with the audio signal to be searched.
  • a search for an input audio signal to be recorded is performed in parallel with the recording process using one or a plurality of search elements registered in advance.
  • a disk medium such as a magnetic disk, a magneto-optical disk, or an optical disk or a memory card is used. In that case, At the time of recording, recording is performed while monitoring the address on the recording medium.
  • an address (recording position) on a recording medium on which an audio signal portion determined to be similar is recorded is identified by the search element.
  • switching control information of the switch circuit SW 6 (corresponding to a search element storage area, that is, a search element number) is used as the search element identification information.
  • FIG. 14 shows a search result as a table after the end of recording in the case of the fifth embodiment.
  • This table serves as a search index table for signals recorded on the recording medium.
  • the searcher name is, for example, a name given in advance when the searcher was registered.
  • the section data is data indicating a section determined to be similar to the search element, and is represented by a start address ST and an end address ED of the section.
  • ADR i (i is an integer) indicates an address value on the recording medium.
  • the information of the search index table is recorded in a predetermined recording area on a recording medium separately from the recording audio signal.
  • FIG. 15 shows a processing routine for the search and reproduction.
  • a search / playback instruction was issued through the key operation unit. Sometimes it starts.
  • the search index data for creating the search index table is read from the recording medium (step S301).
  • the control unit 10 creates a search index table as shown in FIG. 14 based on the read data and displays it on the display screen (step S302).
  • the user looks at the displayed search index table, and inputs a search element to be searched and reproduced through the key operation unit. Then, the search element specified by the user is recognized (step S303). Then, with reference to the search index table, the section data determined as a similar section is recognized for the recognized search element (step S304). Then, the sound signal of the address section indicated by the recognized section data is sequentially read out from the recording medium and reproduced (step S305).
  • the fifth embodiment it is possible to easily extract and reproduce only the sound signal portion similar to the search element.
  • it is of course it is of course possible to perform a search by specifying a search element that is not in the search index table from the search element memory.
  • the identification information of the search element and the search element name are included in the search index table.
  • the sound signal of the search element is replaced with the search element name, or It may be recorded at the same time. By doing so, it is possible to easily find out what kind of sound signal the search element was by playing back the sound.
  • the search result is recorded on the recording medium.
  • the search result may be recorded in a memory managed by the control unit in correspondence with the recording medium.
  • the search element is described as being registered in the memory in advance or used separately.
  • the user searches the audio signal for the search element.
  • the specified audio signal can be searched using the specified search element. In that case, it is not necessary to register the search element in advance.
  • search element memory it is not necessary to extract the search element registered in the search element memory from the input sound signal or the reproduced sound signal.
  • a sound source it is possible to prepare a sound source to be used as a search element and register the search element using an acoustic signal from the sound source.
  • an acoustic signal and an acoustic feature parameter can be registered as a search element through a network such as an in-net network and register it in the search memory.
  • search element candidates may be recorded together in advance in the recording medium. Further, when the recording medium is sold, a memory card storing the search element candidates may be added and sold.
  • the input signal to be searched is an audio signal alone, but the audio signal is converted to a video signal.
  • audio and video signals that are linked and related Input signal.
  • FIG. 16 is a block diagram showing a configuration example in a case where the audio-video search device and the audio-video storage device according to the present embodiment are applied to a recording / reproduction device that records and reproduces an audio-video signal compressed according to the MPEG2 standard. is there.
  • the recording / reproducing apparatus shown in FIG. 1 compresses and encodes video signals and audio signals according to the MPEG2 standard and multiplexes them as a transport stream (TS) of an MPEG system. This is a case where recording is made on a hard disk in a hard disk drive (HDD: Hard Disk Drive) and played back from the hard disk.
  • HDD Hard Disk Drive
  • analog video signals and analog audio signals are referred to as video signals and audio signals
  • digital video signals and digital audio signals are referred to as digital video data and digital audio data, or simply video data and audio data. It will be referred to as Acoustic Sound.
  • the recording / reproducing device 70 is connected to an antenna 61 for receiving an analog television broadcast, an analog input terminal 7 IV, 71 A, 71 S, an analog output terminal 72 V, 72 A, 72 S, and a digital input / output.
  • Terminal 73 Digital interface 74, Input processor 80, Output processor 90, Multiplexer / Demultiplexer 100, Buffer controller 110, Hard disk drive 120, Synchronous control circuit 130, System controller 140, Sound search processor 150, and an operation input unit 160.
  • the hard disk drive 120 includes three hard disks 121, 122, and 123, in which a transport stream is recorded, and a transport stream is transmitted from any of them. It is configured to be played.
  • the system controller 140 has a CPU (Central Processing Unit) 141, and a ROM (Read Only Memory) 143 and 1 ⁇ AM (Random Access Memory) 144 and the like are connected to a system bus 142 thereof. Be composed.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • AM Random Access Memory
  • a program to be executed by the CPU 141 is stored in the ROM 143 in advance, and the CPU 141 reads the program and controls each unit of the recording / reproducing device 70.
  • the RAMI 44 In the RAMI 44, other programs and data necessary for the CPU 141 to control each part of the recording / reproducing device 70 are written as appropriate.
  • the operation input unit 160 includes a keyboard, a mouse, a button, a switch, a remote commander, and the like, and is connected to the system bus 142 of the system controller 140 via an input / output interface (not shown).
  • the acoustic search processing unit 150 is a part configured to have any of the functions of the first to fifth embodiments described above.
  • the case of the third embodiment is preferable as described above.
  • the recording medium 13 uses the hard disk of the hard disk device 120. Therefore, the storage unit 12 or 42, the reproduction unit 14 or 44, and the like are constituted by the buffer controller 110. Therefore, in the figures of each of the above-described embodiments, the sound detection except for the recording and reproduction of the sound data as the main data is performed.
  • the acoustic search processing unit 150 is configured by a part that performs the search processing.
  • the searcher memory 32 can be provided in the sound searcher processing unit 150, or a part of the hard disk of the hard disk device 120 can be used.
  • the frame number file is used as linked address information indicating the relevant section for search or registration.
  • Field number, PTS (Present at ion Time Stamp), bucket number, etc. are used.
  • the analog television broadcast signal received by the antenna 61 is selected by the tuner 81 according to the instruction of the system controller 140 based on the operation of the operation input unit 160, and the channel selected by the tuner 81 is selected.
  • the composite video signal and the audio signal are obtained, and the composite video signal and the audio signal are supplied to one input terminal of the input switching circuit 82.
  • a composite video signal from an external device is input to the input terminal 7IV, an audio signal is input from the external device to the input terminal 71A, and a separate video signal (luminance signal and color difference signal) is input to the input terminal 71S from the external device. ) Are supplied respectively.
  • the composite video signal from the input terminal 7 IV and the audio signal from the input terminal 71 A are supplied to the other input terminal of the input switching circuit 82, and the input switching circuit 82 is switched by the system controller 140 to switch the input. From the circuit 82, one of the composite video signal and the audio signal is selected and taken out.
  • the composite video signal from the input switching circuit 82 is separated into a luminance signal and a color difference signal by a YC separation circuit 83 and supplied to one input terminal of another input switching circuit 84. Further, a separate video signal (luminance signal and color difference signal) from the input terminal 71 S is supplied to the other input terminal of the input switching circuit 84, and the input switching circuit 84 is switched by the system controller 140, and the input switching is performed. From the circuit 84, one of the luminance signal and the color difference signal is selected and taken out.
  • the luminance signal and the color difference signal from the input switching circuit 84 are A / D (Analogto Digita 1) converted by an NTSC (National Television System on Computer System) decoder 85, respectively. Further, it is chroma-encoded and the component video data is obtained from the NTSC decoder 85.
  • NTSC National Television System on Computer System
  • a vertical synchronizing signal and a horizontal synchronizing signal are separated from the luminance signal from the input switching circuit 84, and a clock and a field discrimination signal are generated based on the separated synchronizing signal.
  • the synchronization signal, the clock, and the field determination signal are supplied to the synchronization control circuit 130.
  • the synchronization control circuit 130 generates a clock and a timing signal necessary for each section of the recording / reproducing apparatus 70 based on these signals, and supplies the generated clock and timing signals to each section of the recording / reproducing apparatus 70.
  • the video data from the NTSC decoder 85 is subjected to processing such as pre-filling processing in a pre-video processing circuit 86, and then supplied to an MPEG video encoder 87 and a lost video processing circuit 92 in an output processing unit 90.
  • processing such as pre-filling processing in a pre-video processing circuit 86
  • MPEG video encoder 87 the video data from the pre-video processing circuit 86 is subjected to encoding processing such as block DCT (Discrete Cosine Tran sfo rm), and the video elementary stream is processed.
  • ES Elementary Stream
  • the video elementary stream is supplied to the multiplexer Z demultiplexer 100.
  • the audio signal from the input switching circuit 82 is converted into a digital audio signal by the / 0 converter 88, and then supplied to the MPEG audio encoder 89 and the output switching circuit 95 of the output processing unit 90.
  • the audio data from the A / D converter 88 is compression-coded by the MPEG method to generate an audio elementary stream, and the audio elementary stream is multiplexed into a multiplexer multiplexer. Supplied to 100.
  • the multiplexer / demultiplexer 100 in the multiplexer, the video elementary stream from the MPEG video encoder 87 and the audio elementary stream from the MPEG audio encoder 89 are multiplexed and various control signals are multiplexed. A transport stream of the system is generated, and the transport stream is sent to the buffer controller 110.
  • the buffer controller 110 intermittently sends the transport stream continuously input from the multiplexer / demultiplexer 100 to the hard disk drive 120. That is, since writing cannot be performed when the hard disk drive 120 is performing a seek operation, the input transport stream is temporarily stored in a buffer, and when the hard disk drive 120 is writable, The transport stream is read out from the buffer at a higher rate than the incoming stream and sent to the hard disk device 120. Thus, the trans- port stream continuously input to the sofa controller 110 is recorded on the hard disks 121 to 123 without interruption.
  • the hard disk drive 120 is controlled by the system controller 140 to write a transport stream to the hard disks 121 to 123.
  • a protocol interface
  • an IDE internal interface
  • the hard disk device 120 is controlled by the system controller 140 to read a transport stream from the hard disks 121 to 123 and send it to the buffer controller 110.
  • the buffer controller 110 converts the transport stream intermittently input from the hard disk drive 120 into a continuous transport stream and supplies the continuous stream to the multiplexer / demultiplexer 100, contrary to the case of recording. I do.
  • the demultiplexer analyzes the header of the continuous transport stream, thereby converting the transport stream to a packetized elementary stream (PES). It is separated and supplied to the MPEG video / audio decoder 91.
  • PES packetized elementary stream
  • the MPEG video / audio decoder 91 has a multiplexer / demultiplexer.
  • the PES from Plexa 100 is separated into a video elementary stream and an audio elementary stream, and the video elementary stream is decoded by an MPEG video decoder and converted to baseband video data.
  • the audio elementary stream is decoded by the MPEG audio decoder and converted to a base-spanned audio data stream.
  • the converted video data is supplied to a boost video processing circuit 92, and the audio data is supplied to an output switching circuit 95.
  • the lost video processing circuit 92 switches or synthesizes the video data from the MPEG video / audio decoder 91 and the video data from the pre-video processing circuit 86 according to the instructions of the system controller 140. And processing such as a post-fill ring processing.
  • the post-video processing circuit 92 also generates a representative screen (still image) for a GUI (Graphic ca 1 User Center), reduces a plurality of representative screens, and pastes them into a window.
  • Image display processing is performed, and the processed image data is supplied to an OSD (On Screen Disp 1 ay) processing circuit 93.
  • Representative screens include, for example, one characteristic scene from the program title, and a screen of the program's index point (one scene) to enable quick access to the desired scene in the program. is there.
  • the OSD processing circuit 93 generates image data corresponding to text information and the like in accordance with an instruction from the system controller 140, and outputs the image data of the above window portion of the image data from the boost image processing circuit 92.
  • the video data after the processing is supplied to the NTSC encoder 34.
  • Multiple images displayed as reduced still images Figure 17 shows an example of the front screen. In the example of FIG. 17, 16 reduced still images 200 are pasted and displayed on the window.
  • the video data (component video data) from the 0 SD processing circuit 93 is converted into a luminance data and a color difference data, or is not converted. As they are, they are D / A (Digital to Ana 1 og) converted, and separate video signals and composite video signals of analog signals are generated respectively.
  • the separate video signal is led to an output terminal 72S, and the composite video signal is led to an output terminal 72V.
  • the output switching circuit 95 either the audio data from the MPEG video / audio decoder 91 or the audio data from the AZD converter 88 is selected by the system controller 140. It is taken out. The selected audio data is converted into an analog audio signal by the D / A converter 36 and is output to the output terminal 72A.
  • the separate video signal output to the output terminal 72 S, the composite video signal output to the output terminal 72 V, and the audio signal output to the output terminal 72 A are used to monitor external television receivers. By being output to the device 2, an image is displayed and sound is output on the monitor device 2.
  • the recording / reproducing device 70 has a digital input / output terminal 74 connected between the digital input / output terminal 73 and the multiplexer / demultiplexer 100, and is connected to the digital input / output terminal 73.
  • the transport stream input from the external device 63 is recorded on the hard disks 121 to 123, and The transport stream reproduced from the disks 121 to 123 is configured to be output to the external device 63.
  • the external device 63 a device such as an IRD (IntegrateredRecceivverDecoder) or a personal computer can be connected.
  • the digital interface 74 an IEEE 1394 (Institut eof Electronical and Electronics Encoders) 1394 digital interface is used, and the external device 63, the digital input / output terminal 73, The IEEE 1394 serial bus is used as the serial bus 64 for connecting the I / O.
  • the transport stream input from the external device 63 to the digital input / output terminal 73 via the serial path 64 is interface-processed by the digital interface 74, sent to the multiplexer / demultiplexer 100, and sent to the multiplexer / demultiplexer 100. Is sent to the buffer controller 110 and is recorded on the hard disks 121 to 123 by the hard disk device 120. At the same time, the PES is separated from the transport stream to be recorded by the demultiplexer of the multiplexer / demultiplexer 100 and supplied to the MPEG video / audio decoder 91, so that the output terminals 72 V, 72 S And 72 A, an analog video signal and an analog audio signal can be obtained.
  • the transport stream is read from the hard disk 12 1 to 123 by the hard disk device 120, and the reproduced transport stream is sent to the buffer controller 110, and the buffer controller 110 Multiplex from 1 1 0
  • the signal is sent to the digital / demultiplexer 100, is subjected to interface processing at the digital input / output interface 74, is output to the digital input / output terminal 73, and is transmitted from the digital input / output terminal 73 to the serial bus 64.
  • the image is displayed on the monitor device 7 connected to the external device 63 via the external device 63, and the sound is output.
  • the PES is separated from the reproduced transport stream by the demultiplexer of the multiplexer / demultiplexer 100 and supplied to the MPEG video / audio decoder 91, so that the output terminals 72 V, 7 At 2S and 72A, a reproduced analog video signal and a reproduced analog audio signal can be obtained.
  • sound search can be performed by the sound search processing unit 150 in the same manner as in the above-described first to fifth embodiments.
  • the audio signal of the part searched by specifying the specific searcher sound parameter and the video signal part corresponding to the searched sound signal part are obtained from the link relationship between the two.
  • the audio signal to be searched may be not only audio data recorded in the hard disk device 120 but also received or input audio data.
  • the other input audio data A search is performed for the audio signal in the video signal, and the image portion of the search result is displayed, for example, in a sub-screen (sub-picture).
  • the screen may be displayed only when it is searched, or may be displayed at all times.) Alternatively, the screen may be displayed on a part of the parent screen being viewed. This function can be used, for example, to use the voiceprint of a favorite actor as a search parameter for an acoustic parameter, and to convey the scene that the actor appears on the inset screen.
  • the searcher acoustic feature parameters are registered in advance, and the user can select one of the reduced still images 200 as a searcher.
  • an acoustic search operation using the searcher acoustic feature parameters corresponding to the instructed still image 200 may be performed.
  • a specific person is displayed in the reduced still image, and the voiceprint of the person is stored in the searcher memory as the searcher acoustic feature parameters, and the reduced still image of the person is searched.
  • a sound search process can be performed to extract a scene in which the person appears and speaks out. In this way, by registering the search acoustic feature parameters in correspondence with the reduced still image, the reduced still image can be used as an index for search.
  • the scene searched for that searcher acoustic feature parameter is registered as a reduced still image used for reduced still image display. It can also be. For example, a scene in which a person is not shown but includes acoustic features such as a voiceprint of a specific person can be registered as the reduced still image.
  • searcher acoustic signal and the searcher acoustic feature parameters can be provided as data superimposed on the broadcast signal.
  • the user From the provided search elements, a desired one is selected and used for the search.
  • necessary search element acoustic signals and search element acoustic feature parameters from the provided elements are stored in the search element memory 3 2 It can be registered and saved in.
  • a search is performed only for an audio signal using a search element.
  • the search is similarly performed for the video signal.
  • a search child video feature parameter consisting of video feature parameters representing image features is registered for video signal search.
  • the feature amount of the video to be extracted as the search child video feature parameter for example, luminance and its change, hue and its change, an image of a person or an object, and its change can be used.
  • This search child video feature parameter can be obtained by analyzing the video signal of the section specified by the user from the input audio / video signals in the same manner as the search child audio feature parameter.
  • a video signal consisting of a video portion serving as a searcher may be separately input and analyzed.
  • the video feature parameters obtained by analyzing the video signal to be searched are compared with the video feature parameters of the searched child, and the similarity between the two is calculated.
  • search for sound signals A predetermined portion is searched from the input audio / video signal based on a result and a search result for the video signal.
  • the search parameter video feature parameter and the search parameter audio feature parameter may be registered as separate search elements and used separately, or registered in association with each other. You may use it.
  • the search can be performed by individually designating both the search child video feature parameter and the search child acoustic feature parameter.
  • a search element can be designated so as to use the search element video feature parameters and the search element acoustic feature parameters that are associated with each other.
  • the searched portion may be displayed as address information or the like.
  • the first scene of the searched portion may be displayed as the reduced still image. It may be.
  • the signal portion of the search result may be sequentially reproduced.
  • the search result and the search element are stored in the memory in association with each other, and the search element is relied on. Alternatively, the data can be read out and reproduced at a later time.
  • the detection of the scene section using the video feature and the detection of the scene section using the acoustic feature are used together to obtain the search result.
  • Scene sections can be meaningful. For example, even if a scene changes in terms of video, a scene that continues acoustically, such as a narration, can be detected without being separated by a change point in the video.
  • the overlapping part of similar parts searched by the search child video feature parameter and the search child acoustic feature parameter is extracted.
  • a sound signal to be searched and a sound signal as a search element are each analyzed over the acoustic feature parameters, and the acoustic feature parameters are compared with each other.
  • search elements for search elements selected from the registered ones can be easily performed.
  • search elements for search elements selected from the registered ones can be easily performed.
  • a search for a search element prepared in advance can be performed for an audio signal to be searched.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

明細書 情報の検索処理方法、 検索処理装置、 蓄積方法及び蓄積装置
技術分野
この発明は、 検索対象の音響信号や映像信号から、 例えば特定の 楽器、 特定の人声、 動物の鳴き声等の部分や特定の人物画像、 特定 のシーンなどの部分を検索する検索処理方法及び装置、 また、 この 検索処理方法及び装置を用いた情報蓄積方法及び装置に関する。
背景技術 例えば、 会議録音を行った場合、 記録された音響信号について、 記録後に、 特定の発言部分などを検索したりする要求がある。 このように、 記録された音響信号について、 使用者が希望する音 響信号部分を検索する場合、 従来は、 記録時にマーカ一を打ち込ん でおき、 再生時に、 この打ち込みマ一カーを検出することにより、 希望する音響信号部分を検索するようにしている。
また、 記録時に、 後で検索したい音響信号部分が判るように、 力 ゥン夕数値や、 記録開始時点からの時間を、 それぞれの音響信号部 分と対応を付けて記録するようにする方法も知られている。
しかしながら、 上述の方法の場合、 記録時に、 後で検索するであ ろう音響信号部分を判断してマ一カーを打ち込んだり、 カウン夕数 値や時間を記録したりする必要があり、 使い勝手について、 次のよ うな問題があった。
1 . 記録時に、 マ一カーを使用者が打ち込んだり、 カウン夕数値 や時間を別途に記録しなければならず、 マーカー打ち込み操作や力 ゥン夕数値や時間を記録する操作が厄介である。
2 . マーカ一やカウン夕数値、 時間が記録されていない箇所は、 検索することはできない。
3 . 特定の話者のみ、 あるいは特定の楽器のみなどの部分を検索 することができない。 このため、 例えば会議記録において発言区間 を話者毎に分類したり、 演奏区間を楽器毎に分類したりするなどと いうことができない。
4 . 一旦、 記録して、 マ一力一やカウン夕数値等を記録する必要 があるため、 記録を行わずに、 複数の検索子について検索して分類 するなどということはできなかった。
発明の開示 この発明は、 以上の点にかんがみ、 記録時に、 マーカーを打ち込 んだり、 カウン夕数値や時間を記録する操作が必要なく、 しかも、 特定の話者や楽器などの部分を検索することができる方法及び装置 を提供することを目的とする。
また、 音響信号を記録しなくても、 検索対象の音響信号から、 特 定の音源などの音響信号を検索子とする検索が行えるようにする方 法及び装置を提供することを目的とする。
本発明に係る音響検索処理方法は、 検索子とする 1〜複数の音響 信号についての、 音源の構造的な要素に依存する音響特徴パラメ一 夕からなる検索子音響特徴パラメ一夕のそれぞれと、 検索対象の音 響信号を解析して得た前記音響特徴パラメ一夕とを比較し、 両者の 類似性を算出することにより、 前記検索対象の音響信号中から前記 検索子の音響信号と類似する部分を検索することを特徴とする。
また、 本発明に係る音響情報蓄積方法は、 入力音響信号を記録媒 体に記録するとともに、 前記入力音響信号を解析して、 音源の構造 的な要素に依存する音響特徴パラメ一夕を得、 検索子とする 1〜複 数の音響信号についての前記音響特徴パラメ一夕からなる検索子音 響特徴パラメ一夕のそれぞれと、 前記入力音響信号についての前記 音響特徴パラメ一夕とを比較し、 両者の類似性を算出することによ り、 前記検索対象の音響信号中から前記検索子の音響信号と類似す る部分を検索し、 その検索結果を、 前記検索子及び前記入力音響信 号の前記記録媒体上の記録位置に関連させて記録するようにするこ とを特徴とする。
また、 本発明に係る音響情報検索装置は、 検索対象の音響信号を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響 特徴パラメ一夕解析手段と、 検索子とする音響信号についての前記 音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前記音 響特徴パラメータ解析手段からの前記検索対象の音響信号の音響特 徴パラメ一夕とを比較して、 前記検索対象の音響信号中から前記検 索子の音源からの音響信号と類似する部分を検索する検索手段と、 前記検索手段の結果を表示する結果表示手段とを備えることを特徴 とする。
また、 本発明に係る音響情報検索装置は、 検索対象の音響信号を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響 特徴パラメ一夕解析手段と、 検索子とする音響信号についての前記 音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前記音 響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音響特 徴パラメ一夕とを比較して、 前記検索対象の音響信号中から前記検 索子の音源からの音響信号と類似する部分を検索する検索手段と、 前記検索手段での検索結果に基づいて、 前記類似する部分のみを抽 出して再生する再生手段とを備えることを特徴とする。
また、 本発明に係る音響情報蓄積装置は、 入力音響信号を記録媒 体に記録する記録手段と、 前記入力音響信号を、 音源の構造的な要 素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解 析手段と、 検索子とする 1〜複数の音響信号についての前記音響特 徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 前 記入力音響信号についての前記音響特徴パラメ一夕とを比較し、 両 者の類似性を算出することにより、 前記検索対象の音響信号中から 前記検索子の音源からの音響信号と類似する部分を検索する検索手 段とを備え、 前記検索手段の検索結果を、 前記検索子及び前記入力 音響信号の前記記録媒体上の記録位置に関連させて記録するように することを特徴とする。
また、 本発明に係る音響映像検索処理方法は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号から、 所定の部分 を検索する音響映像検索処理方法において、 検索子とする 1〜複数 の音響信号についての、 音源の構造的な要素に依存する音響特徴パ ラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 検索対 象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ —夕とを比較し、 両者の類似性を算出することにより、 前記入力信 号中の音響信号中から前記検索子の音響信号と類似する部分を検索 し、 その検索した部分を、 前記入力信号についての検索結果とする ことを特徴とする。
また、 本発明に係る音響映像検索処理方法は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号から、 所定の部分 を検索する音響映像検索処理方法において、 検索子とする 1〜複数 の音響信号についての、 音源の構造的な要素に依存する音響特徴パ ラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 検索対 象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ 一夕とを比較し、 両者の類似性を算出することにより、 前記入力信 号中の音響信号中から前記検索子の音響信号と類似する部分を検索 するとともに、 検索子とする 1〜複数の映像信号についての、 画像 の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一 夕のそれぞれと、 検索対象の前記入力信号中の映像信号を解析して 得た前記映像特徴パラメ一夕とを比較し、 両者の類似性を算出する ことにより、 前記入力信号中の映像信号中から前記検索子の画像と 類似する画像部分を検索し、 前記音響信号についての検索結果と、 前記映像信号についての検索結果とに基づいて、 前記入力信号中か ら所定の部分を検索することを特徴とする。
また、 本発明に係る音響映像情報蓄積方法は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号を記録媒体に記録 するとともに、 前記入力信号中の音響信号を解析して、 音源の構 造的な要素に依存する音響特徴パラメ一夕を得、 検索子とする 1〜 複数の音響信号についての前記音響特徴パラメ一夕からなる検索子 音響特徴パラメ一夕のそれぞれと、 前記入力信号中の音響信号につ いての前記音響特徴パラメ一夕とを比較し、 両者の類似性を算出す ることにより、 前記入力信号中の音響信号中から前記検索子の音響 信号と類似する部分を検索し、 その検索結果を、 前記検索子と前記 入力信号の前記記録媒体上の記録位置とに関連させて記録するよう にすることを特徴とする。
また、 本発明に係る音響映像情報蓄積方法は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号を記録媒体に記録 するとともに、 検索子とする 1〜複数の音響信号についての、 音源 の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響 特徴パラメ一夕のそれぞれと、 検索対象の前記入力信号中の音響信 号を解析して得た前記音響特徴パラメータとを比較し、 両者の類似 性を算出することにより、 前記入力信号中の音響信号中から前記検 索子の音響信号と類似する部分を検索し、 さらに、 検索子とする 1
〜複数の映像信号についての、 画像の特徴を表す映像特徴パラメ一 夕からなる検索子映像特徴パラメ一夕のそれぞれと、 検索対象の前 記入力信号中の映像信号を解析して得た前記映像特徴パラメ一夕と を比較し、 両者の類似性を算出することにより、 前記入力信号中の 映像信号中から前記検索子の画像と類似する画像部分を検索し、 前 記音響信号及び映像信号についての検索結果を、 前記検索子と前記 入力信号の前記記録媒体上の記録位置とに関連させて記録するよう にすることを特徴とする。
また、 本発明に係る音響映像情報検索装置は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号中の前記音響信号 を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する 音響特徴パラメ一夕解析手段と、 検索子とする音響信号についての 前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前 記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音 響特徴パラメ一夕とを比較して、 前記検索対象の音響信号中から前 記検索子の音源からの音響信号と類似する部分を検索する検索手段 と、 前記検索手段の結果を表示する結果表示手段とを備えることを 特徴とする。
また、 本発明に係る音響映像情報検索装置は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号中の前記音響信号 を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する 音響特徴パラメ一夕解析手段と、 検索子とする音響信号についての 前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前 記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音 響特徴パラメ一夕とを比較して、 前記検索対象の音響信号中から前 記検索子の音源からの音響信号と類似する部分を検索する検索手段 と、 前記検索手段での検索結果に基づいて、 前記類似する部分に対 応する前記入力信号部分を抽出して再生する再生手段とを備えるこ とを特徴とする。
また、 本発明に係る音響映像情報検索装置は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号中の前記音響信号 を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する 音響特徴パラメ一夕解析手段と、 検索子とする音源についての前記 音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前記音 響特徴パラメ一夕解析手段からの前記入力信号中の音響信号の音響 特徴パラメ一夕とを比較して、 前記入力信号中の音響信号中から前 記検索子の音源からの音響信号と類似する部分を検索する音響部分 検索手段と、 前記入力信号中の映像信号を、 画像の特徴を表す映像 特徴パラメ一夕に解析する映像特徴パラメ一夕解析手段と、 検索子 とする 1〜複数の映像信号についての前記映像特徴パラメ一夕から なる検索子映像特徴パラメ一夕のそれぞれと、 前記映像特徴パラメ 一夕解析手段からの前記入力信号中の映像信号の映像特徴パラメ一 夕とを比較して、 前記入力信号中の映像信号中から前記検索子の映 像信号と類似する部分を検索する映像部分検索手段と、 前記音響部 分検索手段及び映像部分検索手段の結果を表示する結果表示手段と を備えることを特徴とする。
また、 本発明に係る音響映像情報検索装置は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号中の前記音響信号 を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する 音響特徴パラメ一夕解析手段と、 検索子とする音源についての前記 音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前記音 響特徴パラメ一夕解析手段からの前記入力信号中の音響信号の音響 特徴パラメ一夕とを比較して、 前記入力信号中の音響信号中から前 記検索子の音源からの音響信号と類似する部分を検索する音響部分 検索手段と、 前記入力信号中の映像信号を、 画像の特徴を表す映像 特徴パラメ一夕に解析する映像特徴パラメ一夕解析手段と、 検索子 とする 1〜複数の映像信号についての前記映像特徴パラメ一夕から なる検索子映像特徴パラメ一夕のそれぞれと、 前記映像特徴パラメ 一夕解析手段からの前記入力信号中の映像信号の映像特徴パラメ一 夕とを比較して、 前記入力信号中の映像信号中から前記検索子の映 像信号と類似する部分を検索する映像部分検索手段と、 前記音響部 分検索手段及び映像部分検索手段での検索結果に基づいて決定され る前記入力信号部分を抽出して再生する再生手段とを備えることを 特徴とする。
また、 本 明に係る音響映像情報蓄積装置は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号を記録媒体に記録 する記録手段と、 前記入力信号中の音響信号を解析して、 音源の構 造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラ メータ解析手段と、 検索子とする 1〜複数の音響信号についての前 記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれそ れと、 前記入力信号中の音響信号についての前記音響特徴パラメ一 夕とを比較し、 両者の類似性を算出することにより、 前記入力信号 中の音響信号中から前記検索子の音響信号と類似する部分を検索す る音響部分検索手段とを備え、 前記音響部分検索手段の検索結果を、 前記検索子と前記入力信号の前記記録媒体上の記録位置とに関連さ せて記録するようにすることを特徴とする。
さらに、 本発明に係る音響映像情報蓄積装置は、 映像信号と、 そ の映像信号に関連する音響信号とからなる入力信号を記録媒体に記 録する記録手段と、 検索子とする 1〜複数の音響信号についての、 音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子 音響特徴パラメ一夕のそれぞれと、 検索対象の前記入力信号中の音 響信号を解析して得た前記音響特徴パラメ一夕とを比較し、 両者の 類似性を算出することにより、 前記入力信号中の音響信号中から前 記検索子の音響信号と類似する部分を検索する音響部分検索手段と、 検索子とする 1〜複数の映像信号についての、 画像の特徴を表す映 像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、 検索対象の前記入力信号中の映像信号を解析して得た前記映像特徴 パラメ一夕とを比較し、 両者の類似性を算出することにより、 前記 入力信号中の映像信号中から前記検索子の画像と類似する画像部分 を検索する映像部分検索手段とを備え、 前記音響部分検索手段及び 映像部分検索手段の検索結果を、 前記検索子と前記入力信号の前記 記録媒体上の記録位置とに関連させて記録するようにすることを特 徴とする。
図面の簡単な説明 図 1は、 この発明による音響検索処理装置の第 1の実施の形態の ブロック図である。
図 2 A及び図 2 Bは、 男性音声の音響的特徴を示すための周波数 成分分布及び時間波形を示す図である。
図 3 A及び図 3 Bは、 女性音声の音響的特徴を示すための周波数 成分分布及び時間波形を示す図である。
図 4 A及び図 4 Bは、 サキソホンの音響的特徴を示すための周波 数成分分布及び時間波形を示す図である。
図 5 A及び図 5 Bは、 ベースギ夕一の音響的特徴を示すための周 波数成分分布及び時間波形を示す図である。
図 6は、 第 1の実施の形態における検索子の登録処理動作を説明 するためのフローチヤ一トである。 図 7は、 第 1の実施の形態における検索処理動作を説明するため のフ口一チヤ一トである。
図 8 A及び図 8 Bは、 第 1の実施の形態における検索処理結果の 表示例を示す図である。
図 9は、 第 1の実施の形態における検索処理結果の表示例の他の 例を示す図である。
図 1 0は、 第 1の実施の形態における検索処理結果の表示例の他 の例を示す図である。
図 1 1は、 この発明による音響検索処理装置の第 2の実施の形態 のブロック図である。
図 1 2は、 この発明による音響検索処理装置の第 3の実施の形態 のブロック図である。
図 1 3は、 この発明による音響検索処理装置の第 4の実施の形態 のブロック図である。
図 1 4は、 この発明による音響検索処理装置の第 5の実施の形態 の要部の説明に用いる図である。
図 1 5は、 この発明による音響検索処理装置の第 5の実施の形態 の要部の説明に用いるフロ一チヤ一トである。
図 1 6は、 この発明による音響映像検索処理装置の第 1の実施の 形態のプロック図である。
図 1 7は、 この発明による音響映像検索処理装置の第 1の実施の 形態の説明に用いる図である。
発明を実施するための最良の形態 以下、 本発明を実施するための最良の形態について図面を参照し ながら詳細に説明する。
以下、 この発明の実施の形態を、 図を参照しながら説明する。
[第 1の実施の形態]
図 1は、 この発明の第 1の実施の形態のブロック図である。 この 第 1の実施の形態では、 検索対象の入力音響信号、 例えばマイクロ ホンで収音した入力オーディオ信号を記録し、 再生する機能を備え る。 この実施の形態では、 再生音響信号も、 検索対象の音響信号と する機能を備える。 また、 検索対象の入力音響信号又は再生音響信 号から検索子の音響信号を抽出して記憶蓄積する機能と、 この蓄積 された検索子の音響信号を用いて入力音響信号又は再生音響信号に ついて検索する機能と、 さらに、 検索結果を表示部に表示する機能 を備える。
入力音響信号は、 入力端子 1 1を通じて、 スィッチ回路 S W 1に 供給される。 このスィッチ回路 S W 1は、 コントロール部 1 0から の切り換え信号により、 入力音響信号の記録時及び入力音響信号に ついての検索時には、 端子 a側に切り換えられ、 入力音響信号から 検索子の音響信号を抽出するときには、 端子 b側に切り換えられる。 そして、 スィツチ回路 S W 1の端子 a側に得られるオーディオ信 号は、 音響信号記録部 1 2を介して記録媒体 1 3、 例えばメモリ力 —ド、 磁気ディスクや光磁気ディスクなどの光ディスクや、 ハード ディスクに記録される。 音響信号記録部 1 2は、 キー操作部 2 0を 通じて記録指示が使用者から与えられたときに、 コン卜口一ル部 1 0からの制御信号により、 アクティブになり、 記録を実行する。 入力端子 1 1を通じた入力音響信号は、 また、 スィッチ回路 S W 2の入力端 I Nに供給される。 このスィツチ回路 S W 2の後段には、 オーディオアンプ 1 5及びスピーカ 1 6が接続されており、 後述す る再生時以外は、 スィツチ回路 S W 2はコントロール部 1 0からの 切り換え制御信号により、 入力端 I N側に切り換えられる。 したが つて、 再生時以外の時には、 入力音響信号がオーディオアンプ 1 5 を通じてスピーカ 1 6に供給されて、 音響再生される。
キー操作部 2 0を通じて再生指示が使用者から与えられると、 コ ントロール部 1 0からの制御信号により、 音響信号再生部 1 4がァ クティブになり、 記録媒体 1 3から再生音響信号が読み出されて再 生され、 スィッチ回路 S W 2の入力端 P Bに供給される。 この再生 時には、 スイッチ回路 S W 2は、 コントロール部 1 0からの切り換 え制御信号により、 入力端 P B側に切り換えられる。 したがって、 再生音響信号が、 オーディオアンプ 1 5を通じてスピーカ 1 6に供 給されて、 音響再生される。
スィツチ回路 S W 1の端子 a側に得られる入力音響信号は、 また、 スィツチ回路 S W 3の一方の入力端 dに供給される。 このスィッチ 回路 S W 3の他方の入力端 cには、 音響信号再生部 1 4からの再生 音響信号が供給される。
スィツチ回路 S W 3は、 検索対象の音響信号を切り換えるもので、 キー操作部 2 0を通じた使用者による検索対象の音響信号の選択指 示に応じて切り換えられる。
このスィツチ回路 S W 3から得られる検索対象の音響信号は、 音 響特徴パラメ一夕解析部 2 1に供給されて、 例えば、 発音体の構造 や共振系などの違いなどの音源の構造的な要素に依存する音響特徴 パラメ一夕に解析する。 この音響特徴パラメ一夕としては、 ピッチ 周波数、 その高調波成分周波数、 フォルマント周波数や、 ケプスト ラム情報、 線形予測係数とその残差信号、 パーコール係数などが挙 げられる。
例えば、 図 2は一般的な男性音声の周波数成分分布 (図 2
( A ) ) と時間波形 (図 2 ( B ) ) の例である。 また、 図 3は一般 的な女性音声の周波数成分分布 (図 3 ( A ) ) と時間波形 (図 3
( B ) ) の例である。 また、 図 4はサキソホンの周波数成分分布 (図 4 ( A ) ) と時間波形 (図 4 ( B ) ) の例である。 さらに、 図
5はベースギターの周波数成分分布 (図 5 ( A ) ) と時間波形 (図
5 ( B ) ) の例である。
これらの図 2〜図 5は、 単なる周波数成分分布及び時間波形であ るが、 それぞれ、 ピッチ周波数、 その高調波成分、 フォルマント構 造やその有無に、 音響的な特徴が見られることが判る。
このような周波数成分分布の他にも、 線形予測係数とその残差信 号などの音響特徴パラメ一夕でも、 音響信号の特徴を表すことがで きる。
また、 ピッチ周波数の時間的変動から得られる音声の抑揚パラメ 一夕も音響信号の特徴を表すパラメ一夕として有効であることが知 られており、 同一人物が話した言葉でも、 抑揚によって別な状況と 識別することができる。 例えば、 ピッチが通常より低く、 さらに抑 揚も下がる傾向のときには、 元気のない場面ゃ悲しい場面であると 識別される。 したがって、 抑揚情報も音響特徴パラメ一夕に用いる こともできる。
この音響特徴パラメ一夕解析部 2 1からの音響特徴パラメ一夕は、 類似性算出部 22に供給される。 この類似性算出部 22では、 後述 するように、 検索子となる音響信号についての音響特徴パラメ一夕 (以下、 検索子音響特徴パラメ一夕という) と、 音響特徴パラメ一 夕解析部 21からの検索対象の音響信号の音響特徴パラメ一夕との 類似性を算出する。
この類似性!?:出部 22での類似性算出は、 音声認識などのような 音声時系列波形パターンの類似判定ではなく、 発音体の構造や共振 系について類似した構造を持った音源から発したものであるかの判 定である。 時系列波形のパターンの一致や類似度を算出するもので はないので、 例えばオーディオ信号の再生時に、 再生速度を高速に しても類似性の算出が可能である。
すなわち、 例えば、 類似性の算出に当たって、 音響特徴パラメ一 夕として、 前述したもののうちの、 例えば、 ビヅチ周波数、 フオル マント周波数などの 3項目を取り上げて、 パラメ一夕 (x, y, z) で表すことにする。
今、 ある時間幅 TWの区間での検索子音響特徴パラメ一夕が、 (x0, y0, z 0) であり、 検索対象の音響信号の音響特徴パラ メ一夕が、 (X i , y i, z i) であったとしたとき、 類似性算出 部 22では、 次式に示す両者の距離 Sを類似度として算出する。 前 記時間幅 TWは、 類似性算出部 22で、 類似性を判定するのに十分 な程度のパラメ一夕情報と時間を見込んで、 予め設定される。
S=sqrt { (x i-xO) 2 + (y i-yO) 2
+ ( z i - z 0) 2 }
ここで、 sqrt () は、 () 内の平方根演算を示すものである。 この距離 Sが、 小さければ小さいほど、 類似度が大きいことにな る。 この実施の形態において、 類似性算出部 2 2では、 予め定めた 時間幅 T Wの区間ごとに、 前記距離 Sを算出し、 その算出した距離 Sが、 予め定めた所定値 S thよりも小さいときに、 前記時間幅 T W の区間の音響信号は、 検索子の音響信号と同じあるいは類似してい ると判定し、 そうでないときには、 非類似であると判定するように している。
なお、 距離 Sの値は、 類似の程度を表しているので、 その類似の 程度をそのまま出力として用いるようにすることも、 勿論可能であ る。
この類似性算出部 2 2の類似性判定出力は、 表示制御部 2 3を通 じて表示部 2 4に供給される。 表示制御部 2 3は、 この実施の形態 では、 検索対象の音響信号の先頭からの時間に対応させて、 前記類 似性判定出力を、 例えば横バーグラフのように、 表示部 2 4の画面 に表示するようにする (後述する図 8等参照) 。
次に、 検索子について説明する。 この実施の形態では、 検索子と する音響信号は、 入力音響信号あるいは再生音響信号から抽出して、 予め記憶部 3 2に記憶させておく。
すなわち、 スィツチ回路 S W 1の端子 bに得られる入力音響信号 は、 スィッチ回路 S W 4の入力端 f に供給され、 また、 音響信号再 生部 1 4からの再生音響信号が、 スィツチ回路 S W 4の入力端 eに 供給される。 このスィッチ回路 S W 4は、 検索子の音響信号を入力 音響信号から抽出するか、 再生音響信号から抽出するかを、 切り換 えるもので、 コントロール部 1 0からの制御信号により、 キ一操作 部 2 0を通じた使用者の選択指示に応じて切り換えられる。
このスィツチ回路 S W 4からの音響信号は、 検索子音響信号抽出 格納部 3 1に供給される。 この検索子音響信号抽出格納部 3 1には、 コントロール部 1 0から、 キー操作部 2 0を通じた使用者の操作に 応じた制御信号が供給される。
この実施の形態においては、 使用者は、 スピーカからの入力音響 信号又は再生音響信号の音響再生出力音を聴取しながら、 検索子と したい音響信号部分になったときに、 キー操作部 2 0の検索子指示 キ一 (図示せず) を操作する。 すると、 そのキー操作時点を含む予 め定めた時間幅 T Wの区間の音響信号を抽出し、 それを検索子メモ リ 3 2に格納する。 検索子メモリ 3 2は、 検索子単位の格納エリア を有し、 各検索子は、 それぞれ別々の格納エリアに格納される。 この例の場合、 時間幅 T Wの区間は、 キ一操作時点よりもわずか に前の時点から開始するように、 検索子音響信号抽出格納部 3 1は、 バッファメモリを備えている。 そして、 指示された時間幅 T Wの区 間の音響信号を検索子音響信号として、 検索子メモリ 3 2に格納す る
この場合、 検索子は、 複数個が格納可能とされており、 使用者が 検索子の音響信号を指示するごとに、 コントロール部 1 0からの制 御信号により、 検索子メモリ 3 2の検索子格納エリアが更新される。 つまり、 検索子格納エリアアドレスが更新される。 そして、 検索子 音響信号抽出格納部 3 1からの、 使用者の指示により抽出された時 間幅 T Wの区間の検索子の音響信号は、 コントロール部 1 0からの 切り換え制御信号に応じて、 検索子メモリ 3 2の検索子格納エリア の更新に同期してスィツチ回路 S W 5が切り換えられることにより、 順次に、 検索子メモリ 3 2の別々の検索子格納エリアに格納される。 このとき、 図示しないが、 どのような検索子の音響信号を検索子 メモリ 3 2に格納したかを、 キー操作部 2 0を通じてメモ入力する ことができるようにされており、 その検索子のメモ入力が、 検索子 格納エリア番号に対応して、 例えばテーブル形式で表示部 2 4に表 示される。 使用者は、 この表示部 2 4の検索子のテーブルを参照し ながら、 検索したい検索子が格納されている検索子格納ェリァ番号 を指定することにより、 所望の検索子により検索が実行できる。 すなわち、 キー操作部 2 0を通じて、 使用者が検索モードを選択 し、 所定の検索子格納エリア番号を指定すると、 コントロール部 1 0からの制御信号により、 スィツチ回路 S W 6が切り換えられると ともに、 検索子音響信号読出部 3 3により、 検索子メモリ 3 2の指 定された検索子格納ェリアから検索子の音響信号が読み出される。 読み出された検索子の音響信号は、 検索子音響特徴パラメ一夕解 析部 3 4に供給されて解析され、 これより、 当該検索子の音響信号 についての検索子音響特徴パラメ一夕が得られる。 そして、 この検 索子音響特徴パラメ一夕が前述した類似性算出部 2 2に供給され、 前述したようにして、 前記時間幅 T Wの区間ごとに、 検索対象の音 響信号について、 当該検索子の音響信号の検索が行われる。
以上のような構成の音響信号検索処理装置における動作について、 さらに手順を追って説明する。
[検索子登録動作]
この実施の形態の場合、 実際の検索処理に先立ち、 検索子の登録 が行われる。 この例では、 検索子は、 前述したように音響信号の形 で検索子メモリ 3 2に格納されて登録される。 この検索子登録のと きのコントロール部 1 0を主体にした動作のフローチヤ一トは図 6 のようになる。 この図 6の処理ルーチンは、 使用者がキ一操作部 2 0を通じて検索子登録モードを選択したときに開始となる。 以下、 この図 6を参照して、 検索子登録動作について説明する。
まず、 コントロール部 10は、 キー操作部 20を通じての使用者 の選択指示を判定し、 入力音響信号から検索子を抽出するのか、 再 生音響信号から検索子を抽出するのか判定する (ステップ S 10
1)
この判定の結果、 抽出元が、 入力音響信号であると判別したとき には、 コントロール部 10は、 スィッチ回路 SW 1は出力端 b側に、 スィヅチ回路 SW2は入力端 I N側に、 スィヅチ回路 SW4は入力 端 f側に、 それぞれ切り換える (ステップ S 102) 。
また、 抽出元が再生音響信号であると判別したときには、 コント ロール部 10は、 スイッチ回路 SW1は出力端 a側に、 スィッチ回 路 SW2は入力端 PB側に、 スィツチ回路 SW4は入力端 e側に、 それぞれ切り換える (ステップ S 103) 。
ステップ S 102又はステップ S 103の次には、 ステップ S 1 04に進み、 コントロール部 10は、 使用者によるキー操作部 20 を通じた検索子の音響信号部分の指示を待つ。 このとき、 検索子の 抽出元のオーディオ信号は、 オーディオアンプ 15を通じてスビ一 力 16に供給されて、 音響再生される。 使用者は、 そのスピーカ 1 6から放音された音を聴取して、 検索子としたい、 例えば特定話者 など特定の検索子音源として利用したい音響信号部分をキー操作部 20を通じて指示入力する。
そして、 ステップ S 104で、 検索子の音響部分の指示入力を検 出したら、 コントロール部 10は、 検索子メモリ 32の検索子格納 エリアを更新し (ステップ S 105) 、 また、 検索子音響信号抽出 格納部 3 1を制御して、 前述したように、 一定時間幅 T Wの区間の 音響信号を抽出するようにする (ステップ S 1 0 6 ) 。 そして、 抽 出した検索子の音響信号部分を、 検索子メモリ 3 2の、 前記の更新 した検索子格納エリアに書き込むように制御する (ステップ S 1 0 7 ) o
そして、 次に、 キー操作部 2 0を通じて検索子の登録モードの終 了指示があつたかどうか判別し (ステップ S 1 0 8 ) 、 終了指示あ れば、 この検索子の登録モードの処理ルーチンを終了させ、 終了指 示がなければ、 ステップ S 1 0 4に戻り、 使用者による次の検索子 の抽出指示入力を待ち、 上述の動作を繰り返す。
以上のようにして、 検索子メモリ 3 2には、 使用者が入力音響信 号あるいは再生音響信号から抽出した検索子の音響信号を、 登録し て格納しておくことができる。 この場合、 検索子メモリ 3 2のメモ リ容量が十分に余裕がある場合には、 検索子の音響信号は、 消去せ ずに、 蓄積しておくことができる。
この発明では、 音響特徴パラメ一夕を用いて類似性を算出するも のであるので、 蓄積した検索子の音響信号は、 これを抽出したォー ディォ信号から、 当該検索子の音響信号部分と類似する部分を検索 する場合にのみ用いられるのではなく、 これを抽出したものではな い他の検索対象の音響信号について、 その検索子の音響信号部分と 類似する部分を検索する場合にも用いることができる。
したがって、 この第 1図の実施の形態の場合、 予め、 使用者が検 索したい音源についての音響信号を、 前記時間幅 T Wずつ検索子メ モリ 3 2に格納して蓄積しておくことにより、 何時でも必要なとき に、 その検索子を用いた検索を行うことができる。 [検索処理動作]
以上のようにして検索子メモリ 3 2に格納された検索子の音響信 号を用いて、 次のようにして検索処理が実行される。 この検索処理 の処理ルーチンを図 7に示す。 この図 7の処理ルーチンは、 使用者 がキー操作部 2 0を通じて検索処理モードを選択したときに開始と なる。 以下、 この図 7を参照して、 検索処理動作について説明する。 まず、 コントロール部 1 0は、 キー操作部 2 0を通じての使用者 の選択指示を判定し、 検索対象は、 入力音響信号か、 再生音響信号 かを判定する (ステップ S 2 0 1 ) 。
この判定の結果、 検索対象が入力音響信号であると判別したとき には、 コントロール部 1 0は、 スイッチ回路 S W 1は出力端 a側に、 スィツチ回路 S W 2は入力端 I N側に、 スィツチ回路 S W 3は入力 端 d側に、 それぞれ切り換える (ステップ S 2 0 2 ) 。
また、 検索対象が再生音響信号であると判別したときには、 コン トロール部 1 0は、 スィッチ回路 S W 2は入力 P B側に、 スィッチ 回路 S W 3は入力端 c側に、 それぞれ切り換える (ステップ S 2 0 3 ) o
ステップ S 2 0 2又はステップ S 2 0 3の次には、 ステップ S 2 0 4に進み、 コントロール部 1 0は、 使用者により検索子として何 が選択されたかを認識し (ステップ S 2 0 4 ) 、 その選択された検 索子の音響信号を、 検索子メモリ 3 2から読み出すように制御する (ステップ S 2 0 5 ) 。
すると、 メモリ 3 2から読み出された検索子の音響信号は、 検索 子音響信号読出部 3 3を介して検索子音響特徴パラメ一夕解析部 3 4に供給されて、 検索子音響特徴パラメ一夕とされて、 類似性算出 部 2 2に供給される。 類似性算出部 2 2では、 検索対象のオーディ ォ信号の例えば時間幅 T Wの区間ごとの音響特徴パラメ一夕と、 検 索子音響特徴パラメ一夕との前述したような類似性演算がなされて、 両者の類似性の指標である類似度が算出される (ステップ S 2 0 6 ) 。 この例では、 前述したように、 類似度は、 両者の距離 Sとし て求められる。
そして、 この類似度である前記距離 Sが、 予め定めた閾値 S thよ りも小さいか否かを判別し (ステップ S 2 0 7 ) 、 閾値 S thよりも 小さいときには、 検索子に類似する音響信号部分として判定し (ス テツプ S 2 0 8 ) 、 閾値 S thよりも大きいときには、 非類似である と判定する (ステップ S 2 0 9 ) 。 そして、 その判定結果を、 表示 制御部 2 3を介して表示部 2 4の画面に表示する (ステップ S 2 1
0 ) o
そして、 検索対象のオーディオ信号が終了することにより、 ある いは、 使用者の終了指示により、 検索処理が終了したか否かを判定 し (ステップ S 2 1 1 ) 、 終了であれば、 この処理ルーチンを終了 し、 そうでなければ、 ステップ S 2 0 6に戻って、 検索子による検 索を継続する。
以上のようにして、 検索された結果の表示例を図 8に示す。 この 図 8の例は、 検索対象が会議録音の再生音響信号であって、 検索子 が特定の話者 Aである場合である。 この表示例によれば、 会議録音 全体の中のどの時間的位置で話者 Aが発言しているかが示されるこ とになる。
なお、 以上の例では、 検索子は、 一つとして説明したが、 複数個 の検索子を指定し、 その複数個の検索子についての類似性を算出し て、 表示するようにすることもできる。 その場合、 例えば 1 0数ミ リ秒ごとに、 検索子を時分割的に切り換えて、 類似性算出部 2 2で 算出演算を行うようにすればよい。
また、 類似性算出部を複数個設け、 それらの類似性算出部で並列 的に複数個の検索子のそれぞれについての類似性算出を行うように してもよい。
そのように複数個の検索子を設定して検索を行った検索結果の表 示例を図 9に示す。 この表示例は、 会議録音全体の中で、 3名の話 者 A、 B , Cがそれぞれどのような時間区間で発言を行つたかを示 している。
こうして、 この実施の形態によれば、 例えば、 複数の会議参加者 が参加している会議において、 各会議参加者ごとの音響信号を検索 子として予め登録しておけば、 会議の時間経過に伴った各会議参加 者ごとの発言区間を分類して表示することが可能になる。
なお、 以上の説明では、 類似性の判定結果は、 所定の閾値を超え たか否かによる 2値的なものとしたが、 前述の例の場合には、 類似 性の算出結果としての距離 Sの値をそのまま表示に反映するように してもよい。 すなわち、 距離 Sが短ければ短いほど類似度が高いと して、 その類似度の高さに応じて、 図 8 ( B ) に示すように、 時間 区間表示に濃淡を付けて、 表示するようにしてもよい。 例えば、 図 8 ( B ) の例では、 濃淡が濃い区間ほど、 類似性が高いことを示す ようにしている。 また、 濃淡の代わりに、 類似度の高さの違いを表 示色の違いにより、 表示するようにしてもよい。
また、 検索子が複数の場合には、 検索子ごとに類似性判定出力の 表示色を異ならせ、 また、 類似度の高さの違いを表示色の濃度の違 いにより、 表示するようにしてもよい。
なお、 以上の表示例は、 類似性判定出力を検索対象の音響信号の 時間経過に対応して表示したものである。 一方、 検索対象の音響信 号が再生音響信号の場合には、 各時間区間の音響信号の記録媒体 1
3上における記録位置は容易に知ることができる。 したがって、 一 度、 再生音響信号についての検索結果としての類似性判定表示出力 を得たら、 それを表示部 2 3に表示しながら、 図 1 0に示すように、 その類似性判定表示出力に現在再生位置を、 例えば苒生位置力一ソ ルによって対応表示するようにすることもできる。
また、 逆に、 図 1 0の再生位置カーソルを、 使用者が指定できる ようにすることにより、 その指定した再生位置力一ソルの位置から 検索対象の音響信号の再生を行うようにすることもできる。 その場 合には、 検索により、 分類した検索子ごとの音響信号を、 検索対象 の音響信号から抽出して再生することが可能になる。
なお、 検索対象の音響信号と検索子との類似性を算出するのは、 この発明においては、 音響特徴パラメ一夕を用いているので、 波形 パターンが一致するかどうかのパターンマッチング処理を用いる音 声認識などと異なり、 音響信号の時系列波形をそのまま用いる必要 がない。 このため、 再生音響信号を検索対象とする場合、 再生速度 はノーマル速度 ( 1倍速) ではなく、 2倍速や 3倍速というような 高速再生を行っても、 同様の類似性判定出力を得ることができる。 したがって、 検索速度を高速にすることが可能である。
したがって、 検索子を用いた検索を高速再生速度にて行い、 検索 子と類似している音響信号部分を検出したときに、 その部分をノー マル再生するようにすることにより、 検索子に類似する部分のみを 抽出再生することができる。
また、 一旦、 検索を行えば、 記録媒体上のアドレスと、 検索結果 とを対応させることができるので、 その検索結果を用いて、 特定の 検索子と類似する音響信号部分のみを記録媒体から抽出して、 再生 するようにすることも可能である。
以上の効果の説明は、 検索対象が再生音響信号の場合であるが、 この実施の形態では、 入力音響信号を検索対象として、 予め登録し てある検索子を用いて検索して、 入力音響信号について、 検索子ご との分類などを行うことができるという効果もある。 例えば、 複数 個の楽器の音響信号を検索子として登録しておき、 入力音響信号の 各パートが、 どのような楽器を用いて演奏されたものであるかなど を分類表示することができる。
なお、 以上の実施の形態では、 検索子は、 入力音響信号や再生音 響信号から抽出して、 検索子メモリ 3 2に格納するようにしたが、 検索子ライブラリとして複数個の検索子の音響信号を検索子メモリ
3 2に予め記憶しておいても、 もちろんよい。
また、 類似性の算出は、 音響特徴パラメ一夕間の幾何学的距離 S として求めるようにしたが、 幾つかのパラメ一夕から新しいパラメ 一夕を算出し、 それを用いて音響特徴パラメ一夕間の距離を求める ようにすることもできる。
例えば、 上述の例の x, y , zの 3項目の音響特徴パラメ一夕を 用いる場合において、 新しいパラメ一夕を kとしたとき、
k = a y + b z
として、 パラメ一夕 xと、 この新たなパラメ一夕 kとの 2つのパラ メ一夕 (x、 k ) を用いて、 検索対象と検索子の音響特徴パラメ一 夕間の距離を算出するようにしてもよい。 また、 それぞれの音響特 徴パラメ一夕に重み付けを行って、 重要なパラメ一夕に着目した類 似性を算出するようにすることもできる。
また、 検索子メモリ 3 2は、 内蔵のメモリではなく、 メモリカー ドなどの取り出し可能のものであってもよい。 その場合には、 複数 個のメモリカードに、 複数種の検索子を記憶して用意しておき、 メ モリ力一ドを検索対象のオーディオ信号に合わせて交換することに より、 希望する検索対象について、 希望の検索子を用いた検索を容 易に行うことができる。
また、 検索子とする音響信号の音源を用意し、 その音源からの音 響信号を予め入力端子 1 1から入力し、 検索子メモリ 3 2に、 検索 子の音響信号として記憶格納するようにすることもできる。 さらに、 検索子メモリ 3 2に記憶することなく、 検索子の音源からの音響信 号を検索対象の音響信号とは別に入力し、 ノ ソファメモリにその検 索子の音響信号を一時的に蓄えて、 検索に用いるようにしてもよい。 なお、 検索子は、 単一音源からの音響信号に限定されるものでは なく、 入力音響信号や再生音響信号から抽出された所定区間の音響 信号であってもよいことはいうまでもない。
なお、 表示部には、 画像を伴う音響信号の場合には、 画像も一緒 に表示することもできる。 画像を併せて表示することで、 検索を行 つた結果の分類の確認をすることができる。 例えば、 録画内容を音 響信号を使用して検索、 分類することも
可能である。
[第 2の実施の形態]
図 1 1に、 この第 2の実施の形態の音響信号検索処理装置のプロ ック図を示す。 第 1の実施の形態は、 登録検索子として、 音響信号 を格納するようにしたが、 この第 2の実施の形態では、 登録検索子 として、 その音響特徴パラメ一夕を検索子メモリ 3 2に格納するよ うにする。 その他の構成は、 図 1の装置と全く同様であり、 図 1と 同一部分については、 同一符号を付してある。
すなわち、 この第 2の実施の形態においては、 スィッチ回路 S W 4の出力側には、 検索子音響信号抽出部 3 5が設けられる。 これは、 図 1の検索子音響信号抽出格納部 3 1のうちの、 使用者の指示した 検索子の音響信号部分を抽出する手段の部分に相当する。
この検索子音響信号抽出部 3 5で抽出された検索子の音響信号は、 検索子音響特徴パラメ一夕解析部 3 6で解析されて、 音響特徴パラ メ一夕とされ、 検索子音響特徴パラメ一夕格納部 3 7及びスィツチ 回路 S W 5を通じて検索子メモリ 3 2に格納される。 検索子音響特 徴パラメ一夕格納部 3 7は、 格納する対象情報が、 検索子音響特徴 パラメ一夕に変わるだけで、 図 1の検索子音響信号抽出格納部 3 1 のうちの、 検索子として抽出した音響信号部分を検索子メモリ 3 2 に格納する手段に相当し、 前述と同様にして、 各検索子 (この実施 の形態では、 音響特徴パラメ一夕) を検索子メモリ 3 2の別々の検 索子格納エリアに書き込む。
検索子メモリ 3 2に格納された検索子の音響特徴パラメ一夕は、 キー操作部 2 0を通じた使用者の指示に基づいて生成されるコント ロール部 1 0からの制御信号により、 スィツチ回路 S W 6及び検索 子音響特徴パラメ一夕読出部 3 8によって読み出される。 この第 2 の実施の形態の場合には、 読み出されたものは音響特徴パラメ一夕 であるので、 そのまま、 類似性算出部 2 2に供給されて、 検索のた めの類似性算出が実行される。
この第 2の実施の形態は、 検索子メモリ 3 2に検索子音響特徴パ ラメ一夕が格納される点が異なるのみで、 検索子の登録動作や、 検 索子を用いた検索動作は、 前述した第 1の実施の形態と同様に行わ れるものである。 したがって、 この第 2の実施の形態によれば、 上 述した ¾ 1の実施の形態の場合と同様の作用効果が得られる。 また、 上述した第 1の実施の形態と同様の変形例が可能である。
さらに、 この第 2の実施の形態では、 検索子としては、 その音響 信号そのものではなく、 検索子音響特徴パラメ一夕を検索子メモリ 3 2に記憶するので、 一つの検索子当たりの記憶容量が少なくて済 み、 格納して蓄積することができる検索子の数を多くすることが可 能である。
[第 3の実施の形態]
この第 3の実施の形態は、 音響特徴パラメ一夕として、 音響信号 への再合成が可能なものを用いる場合である。 音響特徴パラメ一夕 から音響信号への再合成が可能であることから、 音響信号の記録も、 音響特徴パラメ一夕として記録するようにする。 そして、 この第 3 の実施の形態では、 第 2の実施の形態と同様に、 検索子は、 その音 響特徴パラメ一夕を検索子メモリ 3 2に記憶格納しておくようにす る。
図 1 2は、 この第 3の実施の形態の音響信号検索処理装置のプロ ック図である。 この図 1 2においても、 前述の実施の形態の場合と 同一部分には同一符号を付すことにする。 この第 3の実施の形態で は、 音響特徴パラメ一夕として、 例えばボコーダのパラメ一夕等を 用いる。 図 1 2に示すように、 この第 3の実施の形態の場合には、 入力端 子 1 1を通じて入力音響信号は、 音響特徴パラメ一夕解析部 4 1に 供給されて、 例えばボコーダ方式の音響特徴パラメ一夕に解析され る。 そして、 この音響特徴パラメ一夕解析部 4 1からの音響特徴パ ラメ一夕が、 スィツチ回路 S W 1を通じて音響特徴パラメ一夕記録 部 4 2に供給され、 コントロール部 1 0の制御の下、 この音響特徴 パラメ一夕記録部 4 2により、 入力音響信号の音響特徴パラメ一夕 が記録媒体 1 3に記録される。
そして、 記録媒体 1 3に記録された入力音響信号の音響特徴パラ メータは、 コントロール部 1 0の制御の下、 音響特徴パラメ一夕再 生部 4 3により再生され、 音響信号合成部 4 4に供給される。 この 音響信号合成部 4 4は、 音響特徴パラメ一夕から、 元の音響信号を 合成する。
この音響信号合成部 4 4から得られた再生音響信号は、 スィツチ 回路 S W 2の入力端 P B側を通じ、 オーディオアンプ 1 5を通じて スピーカ 1 6に供給され、 音響再生される。 なお、 入力端子 1 1か らの入力音響信号がスィツチ回路 S W 2の入力端 I N側及びオーデ ィォアンプ 1 5を通じてスピーカ 1 6に供給されて、 音響再生され るのは、 第 1及び第 2の実施の形態の場合と同様である。
そして、 この第 3の実施の形態では、 音響特徴パラメ一夕解析部 2 1は設けられず、 スィツチ回路 S W 3は、 スィツチ回路 S W 1の 出力端 a側を通じて入力音響信号の音響特徴パラメ一夕と、 音響特 徴パラメ一夕再生部 4 3からの再生音響特徴パラメ一夕とのいずれ かを、 キー操作部 2 0を通じた使用者の指示に応じたコントロール 部 1 0からの切り換え制御信号より選択して、 類似性算出部 2 2に 供給する。
一方、 検索子は、 この第 3の実施の形態では、 第 2の実施の形態 と同様に、 検索子音響特徴パラメ一夕を検索子メモリ 3 2に格納す る。 このため、 この第 3の実施の形態の場合には、 音響特徴パラメ —夕解析部 4 1からの音響特徴パラメ一夕が、 スィツチ回路 S W 1 の出力端 b側を通じてスィツチ回路 S W 4の一方の入力端 f に供給 され、 また、 音響特徴パラメ一夕再生部 4 3からの再生音響パラメ 一夕がスィツチ回路 S W 4の他方の入力端 eに供給される。
そして、 スィツチ回路 S W 4がコントロール部 1 0からの切り換 え制御信号により、 検索子の音響特徴パラメ一夕を入力音響信号か ら抽出するか、 再生音響信号から抽出するかに応じて、 入力端 e又 は入力端: のいずれかに切り換えられる。
そして、 このスィツチ回路 S W 4からの音響特徴パラメ一夕が検 索子音響特徴パラメ一夕抽出格納部 4 5に供給される。 前述の第 1 の実施の形態の場合と同様にして、 使用者は、 スピーカからの入力 音響信号又は再生音響信号の音響再生出力を聴取しながら、 検索子 としたい音響信号部分になったときに、 キ一操作部 2 0の検索子指 示キー (図示せず) を操作する。 すると、 検索子音響特徴パラメ一 夕抽出格納部 4 5は、 そのキ一操作時点を含む予め定めた時間幅 T Wの区間の音響信号の音響特徴パラメ一夕を抽出し、 検索子メモリ 3 2の検索子格納部に格納する。
こうして、 検索子メモリ 3 2には、 入力音響信号あるいは再生音 響信号のうちから抽出された検索子の音響信号の音響特徴パラメ一 夕が格納される。 この検索子メモリ 3 2に格納された検索子音響特 徴パラメ一夕は、 前述の第 2の実施の形態と同様にして、 使用者の 指示に応じて、 検索子音響特徴パラメ一夕読出部 38により読み出 されて、 類似性算出部 22に供給される。
検索子の登録動作と、 検索動作は、 前述の 2つの実施の形態とほ ぼ同様であるので、 その詳細は省略する。 このように、 この第 3の 実施の形態も、 検索子メモリ 32に検索子音響特徴パラメ一夕が格 納される点が 4なるのみで、 検索子の登録動作や検索動作は、 前述 した第 1の実施の形態や第 2の実施の形態と同様に行われるもので ある。 したがって、 この第 3の実施の形態の場合も、 上述した第 1 の実施の形態の場合と同様の作用効果が得られ、 また、 上述した第 1の実施の形態と同様の変形例が可能である。
そして、 この第 3の実施の形態の場合には、 特に、 音響特徴パラ メ一夕を音響信号の代わりに記録媒体に記録するので、 記録媒体の 記録容量を有効に活用することができる。 そして、 第 1の実施の形 態や第 2の実施の形態に比べて、 音響特徴パラメ一夕解析部を、 検 索対象と検索子とで共通の一つとすることができて、 構成を簡略化 することができる。
再合成可能な音響特徴パラメ一夕としての具体的な例としては、 MPEG (Moving P i c ture Expe rt s G r oup) 規格の音響圧縮形式 (MPEGオーディオのレイヤ I、 レ ィャ II、 レイヤ III ) デ一夕や ATRAC (Adapt i v e T rans f o rm Acous t i c C o d i n g ) 开式のデ一 夕などを用いる例も挙げられる。
これら MP E Gオーディォ規格や ATRACでは、 人間の聴覚心 理特性を効率良く利用するために、 オーディオ帯域を複数個に細分 化してサブバンド符号化を行っている。 例えば MP EGオーディオ のレイヤ Iでは、 オーディォ信号の全帯域を等間隔の周波数幅で 3 2個のサブバンドに分割し、 それそれの信号を元のサンプリング周 波数の 1/32でサブサンプリングして符号化する。
そこで、 MP EGオーディオ規格の音響圧縮形式のデ一夕や AT R AC形式のデ一夕 (音響圧縮符号化データ) を検索対象とする場 合には、 そのサブバンドデ一夕から、 帯域レベル分布の算出、 主要 帯域周波数の算出、 調波構造の検出、 主要帯域周波数の時間推移の 検出などを行い、 その検出結果を検索子音響特徴パラメ一夕とする。
MP E Gオーディオ規格の音響圧縮形式のデータや ATRAC形 式のデータを用いる方法を、 図 12の例に適用するときは、 入力端 子 1 1からの入力音響信号がアナログ信号やリニア P CM信号の場 合には、 音響特徴パラメ一夕解析部 41では、 前記 MPEG規格の 音響圧縮形式デ一夕や ATRAC形式のデータを生成する。 そして、 記録部 42は、 その音響圧縮デ一夕を記録媒体 13に記録するよう にする。
そして、 検索子音響特徴パラメ一夕抽出格納部 45では、 音響特 徴パラメ一夕解析部 41からの、 あるいは再生部 43からの音響圧 縮デ一夕からサブバンドのデ一夕を生成し、 そのサブバンドのデ一 夕について、 前述のように、 帯域レベル分布の算出、 主要帯域周波 数の算出、 調波構造の検出、 主要帯域周波数の時間推移の検出など を行い、 その検出結果を検索子音響特徴パラメ一夕として、 検索子 メモリ 32に書き込むようにする。
そして、 この場合、 類似性算出部 22の前段には、 図 1や図 1 1 の例と同様に、 音響特徴パラメ一夕解析部を設け、 スィッチ SW1 からの、 あるいは再生部 43からの音響圧縮データからサブバンド のデ一夕を生成し、 そのサブバンドのデータについて、 前述のよう に、 帯域レベル分布の算出、 主要帯域周波数の算出、 調波構造の検 出、 主要帯域周波数の時間推移の検出などを行うようにする。 この 場合の音響特徴パラメ一夕解析部は、 構成が簡単になる。 そして、 類似性算出部 22は、 その解析により得た音響特徴パラメ一夕と、 検索子音響特徴パラメ一夕読出部 38からの検索子音響特徴パラメ 一夕とを比較して、 類比判定を行う。
以上の入力端子 1 1からの入力音響信号がアナログ信号やリニア P CM信号の場合であるが、 I EEE (The I ns t i t ut e o f E l e c t r i c a l and E l e c t r o n i c s E ng i ne e r s, I n c. ) 1394規格のイン夕一フエ —スからのシリアルデジ夕ルデ一夕で入力された場合や、 デジタル 放送受信装置においてデジタル音響圧縮信号として得られる信号が 入力される場合には、 MP EG規格の音響圧縮形式デ一夕や AT R A C形式のデ一夕がそのまま得られるので、 図 12の音響特徴パラ メータ解析部 41は不要となる。
以上説明した音響圧縮信号を検索対象とする検索方法は、 デジ夕 ルオーディオ圧縮形式データを復号化して、 リニア P CMオーディ ォ信号に戻してから音響特徴分析するよりも分析のための時間遅れ が小さくなるとともに、 演算規模が小さくなる、 という利点がある。
[第 4の実施の形態]
第 3の実施の形態では、 音響特徴パラメ一夕を音響信号の代わり に記録媒体に記録するようにしたが、 第 4の実施の形態では、 音響 信号と、 音響特徴パラメ一夕とを、 互いに付随的に記録媒体に記録 するようにする。 この第 4の実施の形態の場合は、 音響信号が音響 特徴パラメ一夕とともに記録されるので、 音響特徴パラメ一夕は、 第 3の実施の形態のように音響信号に再合成できるものに限定され ない。
そして、 この第 4の実施の形態においては、 磁気ディスク、 光磁 気ディスク、 光ディスク、 メモリカードなどの記録媒体へは、 音響 信号に付随して音響特徴パラメ一夕を記録するようにする。 すなわ ち、 音響信号と音響特徴パラメ一夕とは、 音響信号の記録単位区間 (パック、 パケッ ト、 セクタなどの区間) 分ごとに記録媒体に記録 するが、 音響信号の記録単位区間分のデータと、 対応する単位区間 分の音響特徴パラメ一夕は、 隣接した記録エリア等、 互いに対応が とれる形態で、 つまり、 リンクされた構造で記録される。
図 1 3に、 この第 4の実施の形態の音響信号検索処理装置のプロ ック図を示す。 この図 1 3において、 前述の実施の形態の図 1、 図 1 1及び図 1 2に示した各部と同一部分には同一符号を付して、 そ の詳細な説明は省略する。
すなわち、 この第 4の実施の形態では、 オーディオ入力端子 1 1 を通じた入力音響信号は、 スィツチ回路 S W 7を通じて音響信号記 録部 1 2に供給される。 スィツチ回路 S W 7は、 コントロール部 1 0からの切り換え制御信号により、 記録時にオンとされる。 そして、 この第 4の実施の形態では、 音響信号記録部 1 2を通じた入力音響 信号は、 記録データ制御部 5 1に供給される。
また、 入力端子 1 1を通じた入力音響信号は、 音響特徴パラメ一 夕解析部 4 1に供給されて、 音響特徴パラメ一夕に解析される。 こ の音響特徴パラメ一夕解析部 4 1からの音響特徴パラメ一夕は、 検 索対象の入力音響信号の音響特徴パラメ一夕としてスィツチ回路 S W 3の入力端 dに供給されるとともに、 入力音響信号から検索子の 音響特徴パラメ一夕を抽出するために、 スィツチ回路 S W 4の入力 端 f に供給される。 さらに、 音響特徴パラメ一夕解析部 4 1からの 音響特徴パラメ一夕は、 記録デ一夕制御部 5 1に供給される。
記録デ一夕制御部 5 1は、 コントロール部 1 0の制御を受けて、 記録時には、 ^め定められている記録フォーマッ トで、 音響信号と 音響特徴パラメ一夕とを対応付けて記録する。 この例では、 記録デ 一夕制御部 5 1は、 記録時には、 前述したように、 音響信号を記録 単位区間分ごとに、 記録媒体 1 3に記録するとともに、 対応する記 録単位区間分の音響特徴パラメ一夕を、 記録媒体 1 3の、 当該音響 信号記録位置に隣接する位置に記録する。
そして、 上記のような記録フォーマツ トで記録媒体 1 3に記録さ れた入力音響信号及びその音響特徴パラメ一夕は、 読み出しデータ 制御部 5 2により、 コントロール部 1 0の制御を受けて再生される c そして、 読み出しデータ制御部 5 2で記録媒体 1 3から再生された 音響信号は、 音響信号再生部 1 4に供給され、 スィッチ回路 S W 2 の入力端 P B側を通じ、 オーディオアンプ 1 5を通じてスピーカ 1 6に供給されて、 音響再生される。
また、 読み出しデ一夕制御部 5 2で記録媒体 1 3から再生された 対応する音響特徴パラメ一夕は、 検索対象の再生音響信号の音響特 徴パラメ一夕として、 スィツチ回路 S W 3の入力端 cに供給される とともに、 再生音響信号から検索子の音響特徴パラメ一夕を抽出す るために、 スィッチ回路 S W 4の入力端 eに供給される。
さらに、 読み出しデ一夕制御部 5 2で記録媒体 1 3から再生され た音響信号及び音響特徴パラメ一夕は、 他の装置で音響信号につい ての検索を行うために、 外部出力端子 (図示せず) を通じて、 外部 へ転送可能とされている。 したがって、 検索を行う他の装置では、 音響特徴パラメ一夕を作成するために、 音響特徴パラメ一夕解析部 を備える必要はない。
この第 4の実施の形態は、 入力音響信号と、 その音響特徴パラメ 一夕とが、 リンクさせた状態で、 記録データ制御部 5 1により、 記 録媒体に記録され、 また、 互いにリンクされて、 音響信号と、 その 音響特徴パラメ一夕とが、 読み出しデータ制御部 5 2により読み出 されて再生される点が、 前述の実施の形態と異なるが、 音響特徴パ ラメ一夕を用いて検索を行い、 また、 入力音響信号や再生音響信号 について検索子音響特徴パラメ一夕の抽出を行えるようにした点は、 第 3の実施の形態と同様である。
したがって、 この第 4の実施の形態の場合も、 上述した第 1の実 施の形態の場合と同様の作用効果が得られ、 また、 上述した第 1の 実施の形態と同様の変形例が可能である。
そして、 この第 4の実施の形態の場合には、 第 3の実施の形態と 同様に、 第 1の実施の形態や第 2の実施の形態に比べて、 音響特徴 パラメ一夕解析部を、 検索対象と検索子とで共通の一つとすること ができて、 構成を簡略化することができる。 また、 他の検索装置で 検索を行う場合にも、 当該他の検索装置に、 音響特徴パラメ一夕を 供給することができるので、 他の検索装置には、 音響特徴パラメ一 夕解析部は設ける必要がないという利点がある。
なお、 記録する音響信号と、 対応する音響特徴パラメ一夕とは、 リンクして記録媒体に記録されていればよいので、 上述の例のよう に必ずしも隣接して記録される必要はなく、 記録媒体に、 予め音響 信号の記録エリアと音響特徴パラメ一夕の記録エリァを別々に決め ておき、 それぞれの記録エリアの対応関係にある (リンクされてい る) アドレスに、 対応する音響信号と音響特徴パラメ一夕のそれそ れを記録するようにしてもよい。 また、 音響信号と音響特徴パラメ —夕のリンク情報を別に記録して、 そのリンク情報を用いて、 両者 を対応付けて、 再生するようにしても勿論よい。
[第 5の実施の形態]
上述したように、 この発明によれば、 検索対象の音響信号につい て、 音響特徴パラメ一夕によって、 検索子と類似性判定をすること により、 検索が可能であるので、 検索対象の音響信号を記録しなが ら、 指定した検索子についての検索を並行して行うことができる。 したがって、 記録終了時には、 当該検索対象の音響信号についての その検索子についての検索結果が得られる。 そこで、 記録媒体には、 音響信号の記録領域と別個のェリァに、 この検索結果を合わせて記 録することも可能である。
また、 再生音響信号についての検索結果も、 音響信号の記録領域 と別個のエリアを記録媒体に用意することにより、 後から記録媒体 に記録することも可能である。
第 5の実施の形態においては、 以上の点を考慮して、 検索対象の 音響信号とともに、 その検索結果を記録するようにする。
すなわち、 この第 5の実施の形態では、 予め登録した検索子の一 つあるいは複数個を用いて、 記録する入力音響信号についての検索 を、 記録処理に並行して行う。
例えば、 記録媒体 1 3としては、 磁気ディスク、 光磁気ディスク、 光ディスクなどのディスク媒体やメモリ力一ドを用いる。 その場合、 記録時には、 記録媒体上のアドレスを監視しながら、 記録が行われ る。 この第 5の実施の形態では、 検索子による検索の結果、 類似す ると判定された音響信号部分が、 記録媒体上のどのアドレス (記録 位置) に記録されているかを、 その検索子の識別情報に対応して記 憶しておく。 検索子の識別情報としては、 例えば、 この例では、 ス イッチ回路 S W 6の切り換え制御情報 (検索子格納エリア、 つまり 検索子ナンバーに対応) を用いる。
図 1 4は、 この第 5の実施の形態の場合において、 記録終了後の、 検索結果をテーブルとして表したものである。 このテ一ブルは、 記 録媒体に記録された信号についての検索用ィンデックステ一ブルと なる。
この図 1 4において、 検索子名は、 例えば、 検索子の登録時に予 め付与した名称であり、 例えば、 会議録音などの場合には、 会議参 加者名となる。 区間データは、 検索子と類似すると判定された区間 を示すデータで、 その区間の開始アドレス S Tと、 終了アドレス E Dとで表される。 また、 A D R i ( iは整数) は、 記録媒体上のァ ドレス値をそれぞれ示すものである。
この第 5の実施の形態においては、 この検索用ィンデヅクステ一 ブルの情報を、 記録媒体上の予め定めた記録エリアに、 記録音響信 号とは別個に記録するようにする。
この第 5の実施の形態の場合、 この検索用ィンデックステーブル を用いることにより、 例えば特定の検索子と類似する音響信号部分 を抽出して再生 (検索再生と称する) することが容易にできる。 図 1 5は、 その検索再生の際の処理ルーチンを示すものである。 この処理ルーチンは、 キー操作部を通じて、 検索再生指示を行った ときに開始となる。
まず、 記録媒体から検索用ィンデックステーブルを作成するため の検索用ィンデヅクスのデ一夕が読み出される (ステップ S 3 0 1 ) 。 コントロール部 1 0は、 読み出したデ一夕を基に、 図 1 4に 示したような検索用ィンデックステーブルを作成し、 表示画面に表 示する (ステップ S 3 0 2 ) 。
使用者は、 表示された検索用インデックステーブルを見て、 検索 再生したい検索子をキー操作部を通じて入力する。 そこで、 使用者 により指定された検索子を認識する (ステップ S 3 0 3 ) 。 そして、 検索用ィンデヅクステ一ブルを参照し、 その認識した検索子につい て、 類似区間として判定された区間データを認識する (ステップ S 3 0 4 ) 。 そして、 その認識した各区間データで示されるアドレス 区間の音響信号を、 記録媒体から順次読み出して、 再生する (ステ ップ S 3 0 5 ) 。
こうして、 この第 5の実施の形態によれば、 検索子に類似する音 響信号部分のみを簡単に抽出して再生することができる。 もっとも、 この第 5の実施の形態の場合にも、 検索用ィンデックステ一プルに ない検索子を検索子メモリから指定して、 検索を行うことも勿論可 能である。
なお、 上述の第 5の実施の形態の説明では、 検索子の識別情報と 検索子名とを検索用インデックステーブルに含めるようにしたが、 検索子の音響信号を検索子名に替えて、 あるいは併せて記録するよ うにしてもよい。 そのようにすれば、 検索子がどのような音響信号 であつたかを、 それを音響再生することにより、 容易に知ることが できる。 また、 上述の説明では、 検索結果を記録媒体に記録するようにし たが、 コントロール部が管理するメモリに、 記録媒体に対応させて、 検索結果を記録するようにするようにしてもよい。
[その他の実施の形態]
以上の実施の形態では、 検索子は、 予めメモリに登録したり、 別 個に用 ¾するように説明したが、 例えば、 音響信号の記録中に、 使 用者が、 その音響信号について検索子の音響信号部分を指定したと き、 その指定後の音響信号については、 指定した検索子を用いて検 索を行うようにすることもできる。 その場合には、 予め検索子を登 録しておく必要はない。
また、 検索子メモリに登録する検索子は、 入力音響信号や再生音 響信号から抽出する必要もない。 例えば、 検索子としたい音源を用 意し、 その音源からの音響信号を用いて、 検索子を登録することも できる。
また、 検索子として登録する音響信号や音響特徴パラメ一夕を、 例えば、 イン夕一ネッ トなどのネットワークを通じて取得して、 検 索子メモリに登録するようにすることもできる。
また、 例えば記録済み記録媒体を販売するときに、 その記録媒体 に、 検索子の候補を予め一緒に記録するようにしてもよい。 また、 その記録媒体を販売するときに、 検索子の候補を記録したメモリ力 一ドなどを付加して販売するようにしてもよい。
[音響映像検索装置、 音響映像蓄積装置の第 1の実施の形態] 以上説明した実施の形態では、 検索対象の入力信号は、 音響信号 単独の場合であつたが、 音響信号が、 映像信号に関連するものとし てリンクされて、 例えば記録再生される音響映像信号を、 検索対象 の入力信号とすることもできる。
図 16は、 MP EG 2規格で圧縮された音響映像信号を記録再生 する記録再生装置に、 この実施の形態の音響映像検索装置及び音響 映像蓄積装置を適用した場合の構成例を示すプロック図である。 この図 1に示した記録再生装置は、 映像信号及び音響信号を、 M PEG2規格によって圧縮符号化し、 多重化して、 MPEGシステ ムのトランスポ一トストリ一ム (TS : Transpo rt St r eam) として、 ハードディスク装置 (HDD : Ha r d D i s k Dr ive) 内のハードディスクに記録し、 ハードディスク から再生する場合である。
なお、 以下では、 アナログ映像信号及びアナログ音響信号を、 映 像信号及び音響信号と称し、 デジタル映像信号及びデジタル音響信 号は、 デジタル映像デ一夕及びデジタル音響データ、 又は単に映像 デ一夕及び音響デ一夕と称する。
この例では、 記録再生装置 70は、 アナログテレビジョン放送を 受信するアンテナ 61が接続され、 アナログ入力端子 7 IV, 71 A, 71 S、 アナログ出力端子 72 V, 72 A, 72 S、 デジタル 入出力端子 73、 デジタルイン夕フェース 74、 入力処理部 80、 出力処理部 90、 マルチプレクサ/デマルチプレクサ 100、 バッ フアコントロ一ラ 1 10、 ハードディスク装置 120、 同期制御回 路 130、 システムコントローラ 140、 音響検索処理部 150、 操作入力部 160を備える。
ハードディスク装置 120は、 この例では、 3枚のハードデイス ク 121, 122, 123を備え、 そのいずれかにトランスポ一ト ス トリ一ムが記録され、 いずれかからトランスポ一トストリームが 再生されるように構成される。
システムコントローラ 140は、 CPU (Cent r a l P r o c e s s ing Uni t) 141を備え、 そのシステムバス 1 42に ROM (Read Only Memo ry) 143及び1^ AM (Random Ac c e s s Memo ry) 144などが 接続されて構成される。
ROM 143には、 CPU 141が実行すべきプログラムが、 あ らかじめ格納され、 CPU 141は、 そのプログラムを読み出して、 記録再生装置 70の各部を制御する。 RAMI 44には、 CPU 1 41が記録再生装置 70の各部を制御する上で必要な、 その他のプ ログラムゃデ一夕が適宜、 書き込まれる。
操作入力部 160は、 キーボード、 マウス、 ボタン、 スィッチ、 リモートコマンダなどによって構成され、 図示を省略した入出力ィ ン夕フェースを介してシステムコントロ一ラ 140のシステムバス 142に接続される。
音響検索処理部 150は、 前述した第 1の実施の形態から第 5の 実施の形態のうちのいずれかの機能を備えるものとして構成される 部分である。 特に、 この実施の形態は MP EG規格の圧縮符号化デ —夕が検索対象であるので、 前述したように、 第 3の実施の形態の 場合が好適である。
ただし、 この場合、 記録媒体 13は、 ハードディスク装置 120 のハードディスクを用いるようにされており、 このため、 記憶部 1 2又は 42、 再生部 14又は 44などはバッファコントローラ 1 1 0の部分により構成されるので、 前述の各実施の形態の図のうち、 主データとしての音響データの記録再生に関する部分を除く音響検 索処理を行う部分により、 この音響検索処理部 150が構成される。 なお、 検索子メモリ 32は、 音響検索子処理部 150内に設ける こともできるし、 ハードディスク装置 120のハ一ドディスクの一 部の記憶ェリアを用いることもできる。
なお、 デジタル音響圧縮データや、 音響データと映像デ一夕とが リンクされて記録 ¾生される音響映像データでは、 検索や登録の該 当区間を示すリンクされたアドレス情報として、 フレーム番号ゃフ ィ一ルド番号、 PTS (Pre s ent at i on T ime S t amp) 、 バケツ ト番号などが用いられる。
(アナ口グ入力処理及び記録)
アンテナ 61で受信されたアナログテレビジョン放送の信号は、 操作入力部 160での操作に基づくシステムコントロ一ラ 140の 指示によって、 チューナ 81で選局されて、 チューナ 8 1から、 選 択されたチャンネルのコンポジッ ト映像信号及び音響信号が得られ、 そのコンポジッ ト映像信号及び音響信号が、 入力切換回路 82の一 方の入力端に供給される。
入力端子 7 IVには、 外部機器からコンポジッ ト映像信号が、 入 力端子 71 Aには、 外部機器から音響信号が、 入力端子 71 Sには、 外部機器からセパレート映像信号 (輝度信号と色差信号とに分離さ れたもの) が、 それぞれ供給される。
入力端子 7 IVからのコンポジッ ト映像信号、 及び入力端子 71 Aからの音響信号は、 入力切換回路 82の他方の入力端に供給され、 入力切換回路 82がシステムコントローラ 140によって切り換え られて、 入力切換回路 82から、 いずれかのコンポジッ ト映像信号 及び音響信号が選択されて取り出される。 入力切換回路 82からのコンポジッ ト映像信号は、 YC分離回路 83で輝度信号と色差信号に分離されて、 別の入力切換回路 84の 一方の入力端に供給される。 また、 入力端子 71 Sからのセパレー ト映像信号 (輝度信号及び色差信号) が、 入力切換回路 84の他方 の入力端に供給され、 入力切換回路 84がシステムコントローラ 1 40によって切り換えられて、 入力切換回路 84から、 いずれかの 輝度信号及び色差信号が選択されて取り出される。
入力切換回路 84からの輝度信号及び色差信号は、 NTSC (N at i ona l Te l evi s i on Sys t em Co mm i t t e e ) デコーダ 85で、 それぞれ A/D (Ana l o g t o D i g i t a 1) 変換され、 さらにクロマエンコード処理され て、 NT S Cデコーダ 85からコンポーネント映像デ一夕が得られ る。
また、 NT S Cデコーダ 85では、 入力切換回路 84からの輝度 信号から垂直同期信号及び水平同期信号が分離されるとともに、 そ の分離された同期信号に基づいてクロヅク及びフィールド判別信号 が生成され、 これら同期信号、 クロック及びフィールド判別信号が、 同期制御回路 130に供給される。 同期制御回路 130では、 これ らの信号を基準として記録再生装置 70の各部に必要なクロック及 びタイミング信号が生成されて、 記録再生装置 70の各部に供給さ れ 0
NT S Cデコーダ 85からの映像デ一夕は、 プリ映像処理回路 8 6でプリフィル夕リング処理などの処理が施されたのち、 MPEG 映像エンコーダ 87及び出力処理部 90のボスト映像処理回路 92 に供給される。 MP E G映像エンコーダ 87では、 プリ映像処理回路 86からの 映像データに対してブロック D C T (D i s c re t e Co s i n e T r an s f o rm) などの符号化処理が施されて、 映像ェ レメン夕リストリーム (ES : E l ement ary St rea m) が生成され、 その映像エレメン夕リストリームがマルチプレク サ Zデマルチプレクサ 100に供給される。
一方、 入力切換回路 82からの音響信号は、 /0変換器88で デジタル音響デ一夕に変換されたのち、 MP E G音声エンコーダ 8 9及び出力処理部 90の出力切換回路 95に供給される。
MPEG音声エンコーダ 89では、 A/D変換器 88からの音響 デ一夕が MP E G方式によって圧縮符号化されて、 音声エレメン夕 リスト リームが生成され、 その音声エレメン夕リストリームがマル チプレクサノデマルチプレクサ 100に供給される。
マルチプレクサ/デマルチプレクサ 100では、 そのマルチプレ クサにおいて、 MP EG映像エンコーダ 87からの映像エレメン夕 リストリーム及び MP E G音声エンコーダ 89からの音声エレメン 夕リス トリームと各種の制御信号が多重化されて、 MP EGシステ ムのトランスポートストリームが生成され、 そのトランスポ一トス トリームがバッファコントローラ 1 10に送出される。
ノ ヅ フ ァコントローラ 1 10は、 マルチプレクサ/デマルチプレ クサ 100から連続的に入力されるトランスポートストリームを、 ハードディスク装置 120に断続的に送出する。 すなわち、 ハード ディスク装置 120がシーク動作を行っているときには、 書き込み ができないので、 入力されたトランスポ一トストリームをバッファ に一時蓄え、 ハードディスク装置 120が書き込み可能なときに、 そのトランスポ一トストリームを入カレ一トょり高いレートでバヅ ファから読み出してハードディスク装置 120に送出する。 これに よって、 ノ ソファコン トローラ 1 10に連続的に入力される トラン スポ一トストリームは、 途切れることなくハードディスク 12 1〜 123に記録される。
ハ一ドディスク装置 120は、 システムコントローラ 140によ つて制御されて、 ハードディスク 121〜123にトランスポート ス トリームを書き込む。 ノ ソファコントローラ 11ひとハ一ドディ スク装置 120との間のプロ トコル (イン夕フェース) としては、 IDE ^i nt e grat ed Dr ive E l e c t r oni c s ) などが用いられる。
(再生及びアナログ出力処理)
再生時には、 ハードディスク装置 120は、 システムコントロー ラ 140によって制御されて、 ハードディスク 121〜 123から トランスポートス ト リームを読み出し、 ノ ッファコン トローラ 1 1 0に送出する。 ノ ッファコントローラ 1 10は、 記録時とは逆に、 ハードディスク装置 120から断続的に入力されるトランスポート ス トリームを、 連続的なトランスポートス トリームに変換して、 マ ルチプレクサ/デマルチプレクサ 100に供給する。
マルチプレクサ/デマルチプレクサ 100では、 そのデマルチプ レクサにおいて、 その連続的なトランスポ一トストリームのヘッダ が解析処理されることによって、 トランスポートストリームから P ES (Packe t i z ed E l ement ary St r ea m) が分離されて、 MPEG映像音声デコーダ 91に供給される。
MP E G映像音声デコーダ 9 1では、 マルチプレクサ/デマルチ プレクサ 100からの PE Sが映像エレメン夕リストリームと音声 エレメン夕リストリームに分離され、 さらに、 その映像エレメン夕 リストリ一ムが MP E G映像デコーダで復号されてべ一スバンドの 映像データに変換され、 音声エレメン夕リストリームが MP E G音 声デコーダで復号されてべ一スパンドの音響デ一夕に変換される。 変換後の映像データはボス ト映像処理回路 92に供給され、 音響デ 一夕は出力切換回路 95に供給される。
ボスト映像処理回路 92では、 システムコントロ一ラ 140の指 示によって、 MP E G映像音声デコーダ 9 1からの映像デ一夕及び プリ映像処理回路 86からの映像データに対して、 両者の切り換え、 又は合成や、 ボストフィル夕リング処理などの処理が施される。 ポスト映像処理回路 92では、 また、 GUI (Graphi ca 1 Us e r I nt erf ac e) 用に、 代表画面 (静止画) を 生成し、 複数の代表画面を縮小して、 ウィンドウに貼り付ける縮小 静止画表示処理が施され、 処理後の映像データが、 OSD (On S c re en D i s p 1 a y ) 処理回路 93に供給される。
代表画面としては、 例えば番組夕ィ トルの中から特徴的な 1場面 や、 番組の中の見たい場面を素早くアクセスできるようにするため の、 その番組のインデックスポイント (ワンシーン) の画面等があ る。
OSD処理回路 93では、 システムコントロ一ラ 140の指示に よって、 テキスト情報などに対応する画像データを生成して、 ボス 卜映像処理回路 92からの映像デ一夕の、 上記のウインドウ部分の 映像データに重畳する処理が施され、 処理後の映像デ一夕が、 NT S Cエンコーダ 34に供給される。 縮小静止画表示された複数の代 表画面の例を、 図 1 7に示す。 この図 1 7の例では、 1 6枚の縮小 静止画 2 0 0がウィンドウに貼り付けられて表示される。
N T S Cエンコーダ 9 4では、 0 S D処理回路 9 3からの映像デ 一夕 (コンポーネント映像デ一夕) が、 輝度デ一夕と色差デ一夕と に変換された上で、 又は変換されることなくそのまま、 それぞれ D /A ( D i g i t a l t o A n a 1 o g ) 変換されて、 それぞ れアナログ信号のセパレート映像信号及びコンポジッ ト映像信号が 生成される。 そのセパレ一卜映像信号は出力端子 7 2 Sに導出され、 コンポジッ ト映像信号は出力端子 7 2 Vに導出される。
一方、 出力切換回路 9 5では、 システムコントローラ 1 4 0によ つて、 M P E G映像音声デコーダ 9 1からの音響デ一夕と、 AZD 変換器 8 8からの音響デ一夕との、 いずれかが選択されて取り出さ れる。 その選択された音響デ一夕は、 D /A変換器 3 6でアナログ 音響信号に変換されて、 出力端子 7 2 Aに導出される。
出力端子 7 2 Sに導出されたセパレート映像信号、 出力端子 7 2 Vに導出されたコンポジッ 卜映像信号、 及び出力端子 7 2 Aに導出 された音響信号が、 外部のテレビジョン受信機などのモニタ装置 2 に出力されることによって、 モニタ装置 2において、 画像が表示さ れ、 音声が出力される。
(外部装置からの映像音響データの記録再生)
この例では、 記録再生装置 7 0は、 デジタル入出力端子 7 3とマ ルチプレクサ/デマルチプレクサ 1 0 0との間にデジ夕ルイン夕フ エース 7 4が接続されて、 デジタル入出力端子 7 3に外部装置 6 3 を接続することによって、 外部装置 6 3から入力されたトランスポ —トストリームをハ一ドディスク 1 2 1〜 1 2 3に記録し、 ハード ディスク 12 1〜 1 23から再生されたトランスポートストリーム を外部装置 63に出力することができるように構成される。
外部装置 63としては、 I RD (I nt e gr a t e d R e c e i v e r D e c o d e r) やパーソナルコンビュ一夕などの機 器を接続することができる。 デジタルイン夕フ ェース 74としては、 I EE E ( I ns t i t ut e o f E l e c t r i c a l a n d E l e c t r on i c s Eng i ne e r s) 1394デ ジ夕ルイン夕フェースが用いられ、 外部装置 63とデジタル入出 力端子 73とを接続するシリアルバス 64としては、 I EEE 1 3 94シリアルバスが用いられる。
外部装置 63からシリアルパス 64を介してデジタル入出力端子 73に入力されたトランスポートストリームは、 デジタルインタフ エース 74でィン夕フェース処理されてマルチプレクサ/デマルチ プレクサ 100に送出され、 マルチプレクサ/デマルチブレクサ 1 00からバッファコントローラ 1 10に送出されて、 ハ一ドデイス ク装置 1 20によってハ一ドディスク 1 2 1〜 1 23に記録される。 これと同時に、 マルチプレクサ/デマルチプレクサ 100のデマ ルチプレクサで、 記録されるトランスポートストリームから PE S が分離されて、 MP E G映像音声デコーダ 9 1に供給されることに よって、 出力端子 72 V, 72 S及び 72 Aに、 アナログ映像信号 及びアナ口グ音響信号を得ることができる。
再生時には、 ハードディスク装置 1 20によってハードディスク 1 2 1 ~ 123から トランスポートス トリームが読み出されて、 そ の再生されたトランスポ一トストリ一ムが、 バッファコントロ一ラ 1 10に送出され、 ノ ヅファコントローラ 1 1 0からマルチプレク ザ/デマルチプレクサ 1 0 0に送出されて、 デジ夕ルイン夕フエ一 ス 7 4でイン夕フェース処理されてデジタル入出力端子 7 3に出力 され、 デジタル入出力端子 7 3からシリアルバス 6 4を介して外部 装置 6 3に送出されて、 外部装置 6 3に接続されたモニタ装置 7に おいて、 画像が表示され、 音声が出力される。
これと同時に、 マルチプレクサ/デマルチプレクサ 1 0 0のデマ ルチプレクサで、 再生されたトランスポートストリームから P E S が分離されて、 M P E G映像音声デコーダ 9 1に供給されることに よって、 出力端子 7 2 V , 7 2 S及び 7 2 Aに、 再生アナログ映像 信号及び再生アナ口グ音響信号を得ることができる。
(音響検索処理)
前述したように、 音響検索処理部 1 5 0により、 前述した第 1の 実施の形態〜第 5の実施の形態と同様にして、 音響検索することが できる。 この場合に、 特定の検索子音響パラメ一夕を指定して検索 された部分の音響信号だけでなく、 その検索された音響信号部分に 対応する映像信号部分を、 両者のリンク関係から、 検索結果として 抽出することができる。 例えば、 音楽番組の場合には、 音楽が流れ ているシーン部分のみを検索して抽出することができる。
この場合、 検索対象の音響信号は、 ハードディスク装置 1 2 0に 記録された音響データだけではなく、 受信したあるいは入力された 音響デ一夕であっても良いことは、 前述した通りである。 この場合 に、 この実施の形態の場合には、 複数の入力音響データが存在する ので、 ある入力音響映像信号による画像と音声とをモニタ装置 6 2 で視聴しているときに、 他の入力音響映像信号中の音響信号につい て、 検索を行い、 その検索結果の画像部分を、 例えば子画面 (子画 面は検索されたときにのみ表示しても良いし、 常時表示しておいて も良い) として、 視聴している親画面の一部に表示するようにする こともできる。 この機能は、 例えば、 お気に入りの俳優の声紋など を検索子音響パラメ一夕として用い、 その俳優がでてくるシーンを 子画面に衷示するなどの使い方ができる。
また、 図 1 7に示した縮小静止画 2 0 0のそれぞれに対応して、 検索子音響特徴パラメ一夕を登録しておき、 使用者が検索子として 縮小静止画 2 0 0のいずれかを指示したとき、 その指示された縮小 静止画 2 0 0に対応する検索子音響特徴パラメ一夕を用いた音響検 索動作を行うようにすることもできる。
例えば、 縮小静止画には、 特定の人物が表示されており、 その人 物の声紋などを検索子音響特徴パラメ一夕として検索子メモリに記 憶しておき、 その人物の縮小静止画が検索子として指定されたとき に、 音響検索処理を行って、 当該人物が登場して声を出しているシ ーンを抽出することができる。 このように、 縮小静止画に対応して、 検索音響特徴パラメ一夕を登録しておくことにより、 縮小静止画を 検索のためのインデックスとして使用することができる。
また、 逆に、 特定の検索子音響特徴パラメ一夕を指定することに より、 その検索子音響特徴パラメ一夕で検索されたシーンを、 縮小 静止画表示に使用する縮小静止画として登録するようにすることも できる。 例えば、 人物は映し出されていないが、 特定の人物の声紋 などの音響的特徴を含むシーンを、 前記縮小静止画として登録する ことができる。
なお、 検索子音響信号や検索子音響特徴パラメ一夕を放送信号に データとして重畳して提供するようにすることもできる。 使用者は、 提供された検索子の中から所望のものを選択して検索に利用したり、 また、 その提供されたものの中から必要な検索子音響信号や検索子 音響特徴パラメ一夕を検索子メモリ 3 2に登録して保存するように することもできる。
[音響映像検索装置、 音響映像蓄積装置の第 2の実施の形態] 上述の第 1の実施の形態では、 音響信号についてのみ検索子を用 いて検索を行うようにしたが、 この第 2の実施の形態では、 映像信 号についても、 同様にして検索を行うようにする。
すなわち、 この第 2の実施の形態では、 映像信号の検索のために、 画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラ メ一夕を登録しておくようにする。 この検索子映像特徴パラメ一夕 として抽出する映像の特徴量としては、 例えば、 輝度とその変化、 色合いとその変化、 人物、 物体などの映っているものとその変化な どを用いることができる。
この検索子映像特徴パラメ一夕も、 前述の検索子音響特徴パラメ 一夕と同様に、 入力音響映像信号のうちから、 使用者が指定した区 間の映像信号を解析することにより得ることができるし、 別途、 検 索子とする映像部分からなる映像信号を入力して、 それを解析して 得ることもできる。 また、 パーソナルコンピュータなどで予め解析 して得られた検索子を、 装置に登録するようにすることも、 勿論で きる。
そして、 検索対象の映像信号を解析して得た映像特徴パラメ一夕 と、 検索子映像特徴パラメ一夕とを比較し、 両者の類似性を算出す ることにより、 検索対象の映像信号中から検索子の画像と類似する 画像部分を検索するようにする。 そして、 音響信号についての検索 結果と、 前記映像信号についての検索結果とに基づいて、 入力音響 映像信号中から所定の部分を検索するようにする。
この場合に、 検索子映像特徴パラメ一夕と、 検索子音響特徴パラ メ一夕とは、 それそれ別々の検索子として登録して別々に用いるよ うにしても良いし、 互いに関連付けて登録して用いるようにしても 良い。 例えば、 ある人物の映像の検索子映像特徴パラメ一夕と、 そ の人物の声紋などの検索子音響特徴パラメ一夕とは互いに関連付け て登録しておくと良い。
この第 2の実施の形態においては、 検索に当たっては、 検索子映 像特徴パラメ一夕と、 検索子音響特徴パラメ一夕との両方をそれぞ れ個別に指定して検索を行うことができる。 また、 前記の互いに関 連付けられている検索子映像特徴パラメ一夕及び検索子音響特徴パ ラメ一夕を用いるように検索子の指定をすることもできる。
検索子音響特徴パラメ一夕と検索子映像特徴パラメータの両者を 用いた検索の方法としては、 それぞれのパラメ一夕のいずれかによ り検索された類似部分の全てを検索結果として出力する方法、 両パ ラメ一夕で検索された類似部分のうち、 互いに一部あるいは全部が 重なり合う部分を検索結果として出力する方法などを指定すること ができる。
このときの検索結果は、 検索された部分を、 アドレス情報などで 表示しても良いし、 また、 映像部分については、 検索された部分の 先頭のシーンを前記の縮小静止画にして表示するようにしてもよい。 また、 前述の音響検索処理の各実施の形態と同様に、 検索結果の信 号部分を順次に再生するようにすることもできる。 さらに、 検索結 果と、 検索子とを関連させてメモリに記憶しておき、 検索子を頼り に、 後の時点で読み出して再生するようにすることもできる。
この第 2の実施の形態によれば、 映像特徴量を使用してシーン区 間の検出することと、 音響特徴量を使用してシーン区間を検出する こととを併用することにより、 検索結果のシーン区間を意味あるも のとすることができる。 例えば、 映像的にはシーンが代わっていて も、 ナレーションなど音響的には続いているシーンを、 映像の変化 点で区切られることなく、 検出することができる。
また、 前述の縮小静止画表示用の、 縮小静止画として、 検索子映 像特徴パラメ一夕と検索子音響特徴パラメ一夕とにより検索された 類似部分の重なり部分を抽出するようにすることにより、 映像的だ けでなく音響的にも意味のある縮小静止画を抽出して表示すること ができる。
以上説明したように、 この発明によれば、 検索対象の音響信号と、 検索子としての音響信号とを、 それぞれ音響特徴パラメ一夕に解析 し、 その音響特徴パラメ一夕について比較して、 類比判定すること により検索を行うようにしたことにより、 検索対象の音響信号の記 録時にマーカーなどを打ち込んでおかなくても、 例えば、 特定の話 者の発言部分や、 特定の楽器の演奏部分を、 簡単に検索することが できる。
また、 予め検索子を登録しておくことにより、 その登録したもの から選択した検索子についての検索子を容易に行うことができる。 また、 マーカーを施す場合のように、 一旦記録しなければ検索が できないのではなく、 予め用意した検索子についての検索を、 検索 対象の音響信号について行うことが可能である。
また、 音響映像信号からの任意のシーンの検索を行う場合に、 音 響特徴パラメ一夕と映像特徴パラメ一夕とを用いてシーンの検索を 行うようにすれば、 検索の精度を上げることができ、 また、 音響的 にも映像的にも区切りのよいシ一ン検索ができるようになる。

Claims

求の範囲
1 . 検索子とする 1〜複数の音響信号についての、 音源の構造的 な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラ メータのそれぞれと、 検索対象の音響信号を解析して得た前記音響
。一
特徴パラメ一夕とを比較し、清両者の類似性を算出することにより、 前記検索対象の音響信号中から前記検索子の音響信号と類似する部 分を検索することを特徴とする音響検索処理方法。
2 . 前記検索子とする 1〜複数の音響信号を用意し、 検索時に、 前記用意されている検索子の音響信号のうちの、 検索子とすべき音 源の音響信号を解析して得た音響特徴パラメ一夕を、 前記類似性の 算出に用いる前記検索子音響特徴パラメ一夕とすることを特徴とす る請求の範囲第 1項に記載の音響検索処理方法。
3 . 前記検索子の音響信号は、 前記検索対象の音響信号中から抽 出して記憶しておくことを特徴とする請求の範囲第 2項記載の音響 検索処理方法。
4 . 検索時に、 前記検索対象の音響信号について使用者が指示操 作をした部分を解析して得たものを前記検索子音響特徴パラメ一夕 とし、 この検索子音響特徴パラメ一夕を用いて、 前記検索対象の音 響信号についての検索を行うことを特徴とする請求の範囲第 1項に 記載の音響検索処理方法。
5 . 予め、 前記 1〜複数の検索子音響特徴パラメ一夕を記憶して おき、 検索時に、 前記記憶されている検索子音響特徴パラメ一夕の 中から読み出したものを、 前記類似性の算出に用いることを特徴と する請求の範囲第 1項に記載の音響検索処理方法。
6 . 前記検索子音響特徴パラメ一夕は、 前記検索対象の音響信号 中から抽出した前記検索子の音響信号を解析して得た音響特徴パラ メータであることを特徴とする請求の範囲第 5項に記載の音響検索 処理方法。
7 . 前記検索子が複数個である場合には、 予め設定された単位時 間ごとに、 検索子を切り換えて、 前記類似性の算出を行うことを特 徴とする請求の範囲第 1項乃至第 5項のいずれか 1項に記載の音響 検索処理方法。
8 . 前記検索子毎の検索結果を、 前記検索対象の音響信号につい て、 時間方向に表示することを特徴とする請求の範囲第 1項乃至第 6項のいずれか 1項に記載の音響検索処理方法。
9 . 前記検索子毎の検索結果を、 前記検索対象の音響信号につい て、 時間方向に表示することを特徴とする請求の範囲第 7項に記載 の音響検索処理方法。
1 0 . 前記検索対象の音響信号のうち、 前記検索の結果、 前記検 索子と類似する部分のみを抽出して再生することを特徴とする請求 の範囲第 1項乃至第 6項のいずれか 1項に記載の音響検索処理方法。
1 1 . 前記検索対象の音響信号のうち、 前記検索の結果、 前記検 索子と類似する部分のみを抽出して再生することを特徴とする請求 の範囲第 7項に記載の音響検索処理方法。
1 2 . 入力音響信号を記録媒体に記録するとともに、 前記入力音 響信号を解析して、 音源の構造的な要素に依存する音響特徴パラメ 一夕を得、 検索子とする 1〜複数の音響信号についての前記音響特 徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 前 記入力音響信号についての前記音響特徴パラメ一夕とを比較し、 両 者の類似性を算出することにより、 前記検索対象の音響信号中から 前記検索子の音響信号と類似する部分を検索し、 その検索結果を、 前記検索子及び前記入力音響信号の前記記録媒体上の記録位置に関 連させて記録するようにすることを特徴とする音響情報蓄積方法。
1 3 . 前記検索結果は、 前記音響信号とともに、 前記記録媒体に 記録することを特徴とする請求の範囲第 1 2項に記載の音響情報蓄 積方法。
1 4 . 検索子とする 1〜複数の音響信号についての前記検索子音 響特徴パラメ一夕のそれぞれは、 前記入力音響信号から、 使用者の 指示に応じて選択抽出した音響信号部分についての解析結果として 求められたものであることを特徴とする請求の範囲第 1 2項又は請 求項第 1 3項のいずれか 1項に記載の音響情報蓄積方法。
1 5 . 前記使用者の指示に応じて選択抽出した音響信号部分につ いての解析結果として求められた前記検索子とする 1〜複数の音響 信号についての前記検索子音響特徴パラメ一夕のそれぞれは、 バッ ファメモリの異なるメモリエリアに記憶され、 前記バッファメモリ から、 前記検索子音響特徴パラメ一夕のそれぞれが読み出されて、 それらの検索子音響特徴パラメ一夕を用いた前記入力音響信号につ いての前記類似性の算出処理による前記類似する部分の検索処理が 行われることを特徴とする請求の範囲第 1 4項に記載の音響情報蓄 積方法。
1 6 . 前記入力音響信号から、 使用者の指示に応じて選択抽出し た 1〜複数個の音響信号部分が、 検索子の音響信号として、 それそ れバヅファメモリの異なるメモリェリァに記憶され、 前記バヅファ メモリから、 前記検索子とする 1〜複数の音響信号がそれぞれ読み 出されるとともに、 それぞれの音響信号が解析されて検索子音響特 徴パラメ一夕とされ、 それらの検索子音響特徴パラメ一夕を用いた 前記入力音響信号についての前記類似性の算出処理による前記類似 する部分の検索処理が行われることを特徴とする請求の範囲第 1 4 項に記載の音響情報蓄積方法。
1 7 . 前記検索結果とともに、 前記検索子となる音響信号の音響 特徴パラメ一夕あるいは前記検索子となる音響信号部分も、 前記記 録媒体に記録することを特徴とする請求の範囲第 1 2項又は請求項 第 1 3項のいずれか 1項に記載の音響情報蓄積方法。
1 8 . 前記検索結果とともに、 前記検索子となる音響信号の音響 特徴パラメ一夕あるいは前記検索子となる音響信号部分も、 前記記 録媒体に記録することを特徴とする請求の範囲第 1 4項に記載の音 響情報蓄積方法。
1 9 . 検索対象の音響信号を、 音源の構造的な要素に依存する音 響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索 子とする音響信号についての前記音響特徴パラメ一夕からなる検索 子音響特徴パラメ一夕と、 前記音響特徴パラメ一夕解析手段からの 前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、 前記 検索対象の音響信号中から前記検索子の音源からの音響信号と類似 する部分を検索する検索手段と、 前記検索手段の結果を表示する結 果表示手段とを備える音響情報検索装置。
2 0 . 前記結果表示手段は、 前記検索手段で算出された前記類似 する部分を、 前記検索対象の音響信号の時間の流れに応じて表示す ることを特徴とする請求の範囲第 1 9項に記載の音響情報検索装置。
2 1 . 1〜複数の前記検索子とする音響信号を保持する保持部と、 検索時に、 前記保持部から選択された検索子の音響信号を読み出す 読み出し手段と、 前記読み出し手段により読み出された検索子の音 響信号を解析して、 前記類似性算出手段に供給する検索子音響特徴 パラメ一夕を得る検索子音響特徴パラメ一夕解析手段とを備えるこ とを特徴とする請求の範囲第 1 9項に記載の音響情報検索装置。
2 2 . 1〜複数の前記検索子音響特徴パラメ一夕を保持する保持 部と、 検索時に、 前記保持部から選択された検索子音響特徴パラメ 一夕を読み出し、 前記類似性算出手段に供給する読み出し手段とを 備えることを特徴とする請求の範囲第 1 9項に記載の音響情報検索
2 3 . 前記検索子の音響特徴パラメ一夕を、 前記検索対象の音響 信号から使用者の指示に従って抽出し、 解析して得て、 前記保持部 に保持する検索子登録手段を設けたことを特徴とする請求の範囲第 2 2項に記載の音響情報検索装置。
2 4 . 前記検索子は複数個である場合に、 予め設定された単位時 間ごとに、 検索子を切り換えて、 前記類似性の算出を行うことを特 徴とする請求の範囲第 1 9項に記載の音響情報検索装置。
2 5 . 検索対象の音響信号を、 音源の構造的な要素に依存する音 響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索 子とする音響信号についての前記音響特徴パラメ一夕からなる検索 子音響特徴パラメ一夕と、 前記音響特徴パラメ一夕解析手段からの 前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、 前記 検索対象の音響信号中から前記検索子の音源からの音響信号と類似 する部分を検索する検索手段と、 前記検索手段での検索結果に基づ いて、 前記類似する部分のみを抽出して再生する再生手段とを備え る音響情報検索装置。
2 6 . 1〜複数の前記検索子とする音響信号を保持する保持部と、 検索時に、 前記保持部から選択された検索子の音響信号を読み出す 読み出し手段と、 前記読み出し手段により読み出された検索子の音 響信号を解析して、 前記類似性算出手段に供給する検索子音響特徴 パラメ一夕を得る検索子音響特徴パラメ一夕解析手段とを備えるこ とを特徴とする請求の範囲第 2 5項に記載の音響情報検索装置。
2 7 . 前記検索子の音響信号を、 前記検索対象の音響信号から、 使用者の指示に従って抽出して前記保持部に保持する検索子登録手 段を設けたことを特徴とする請求の範囲第 2 6項に記載の音響情報
2 8 . 1〜複数の前記検索子音響特徴パラメ一夕を保持する保持 部と、 検索時に、 前記保持部から選択された検索子音響特徴パラメ 一夕を読み出し、 前記類似性算出手段に供給する読み出し手段とを 備えることを特徴とする請求の範囲第 2 5項に記載の音響情報検索
2 9 . 前記検索子の音響特徴パラメ一夕を、 前記検索対象の音響 信号から使用者の指示に従って抽出し、 解析して得て、 前記保持部 に保持する検索子登録手段を設けたことを特徴とする請求の範囲第
2 8項に記載の音響情報検索装置。
3 0 . 前記検索子は複数個である場合に、 予め設定された単位時 間ごとに、 検索子を切り換えて、 前記類似性の算出を行うことを特 徴とする請求の範囲第 2 5項に記載の音響情報検索装置。
3 1 . 入力音響信号を記録媒体に記録する記録手段と、 前記入力 音響信号を、 音源の構造的な要素に依存する音響特徴パラメ一夕に 解析する音響特徴パラメ一夕解析手段と、 検索子とする 1〜複数の 音響信号についての前記音響特徴パラメ一夕からなる検索子音響特 徴パラメ一夕のそれぞれと、 前記入力音響信号についての前記音響 特徴パラメ一夕とを比較し、 両者の類似性を算出することにより、 前記検索対象の音響信号中から前記検索子の音源からの音響信号と 類似する部分を検索する検索手段とを備え、 前記検索手段の検索結 果を、 前記検索子及び前記入力音響信号の前記記録媒体上の記録位 置に関連させて記録するようにすることを特徴とする音響情報蓄積
3 2 . 前記検索結果は、 前記入力音響信号とともに、 前記記録媒 体に記録することを特徴とする請求の範囲第 3 1項に記載の音響情
3 3 . 使用者の指示に応じて前記入力音響信号から選択抽出した 音響信号部分についての解析を行って、 前記検索子とする 1〜複数 の音響信号についての前記検索子音響特徴パラメ一夕のそれぞれを 得る検索子音響特徴パラメータ解析手段と、 前記検索子音響特徴パ ラメ一夕解析手段で求められた検索子音響特徴パラメ一夕を、 前記 検索子として使用するために保持する検索子音響特徴パラメ一夕保 持手段とを備えることを特徴とする請求の範囲第 3 1項又は第 3 2 項のいずれか 1項に記載の音響情報蓄積装置。
3 4 . 前記入力音響信号から、 使用者の指示に応じて選択抽出し た音響信号部分を、 前記検索子として抽出する検索子抽出手段と、 前記検索子抽出手段で抽出された検索子の音響信号を記憶する検索 子音響信号保持手段と、 前記検索子保持手段から読み出された検索 子の音響信号から検索子音響特徴パラメ一夕を得る検索子音響特徴 パラメ一夕解析手段とを備え、 前記検索子音響特徴パラメ一夕解析 手段で求められた検索子音響特徴パラメ一夕を前記検索手段で前記 入力音響信号についての前記音響特徴パラメ一夕と比較することを 特徴とする請求の範囲第 3 1項又は第 3 2項のいずれか 1項に記載
3 5 . 前記検索子の音響信号を、 前記検索対象の音響信号から、 使用者の指示に従って抽出して前記検索子音響信号保持部に保持す る検索子登録手段を設けたことを特徴とする請求の範囲第 3 4項に 記載の音響情報蓄積装置。
3 6 . 前記検索子は複数個である場合に、 予め設定された単位時 間ごとに、 検索子を切り換えて、 前記類似性の算出を行うことを特 徴とする請求の範囲第 3 1項又は第 3 2項のいずれか 1項に記載の
3 7 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号から、 所定の部分を検索する音響映像検索処理方法におい て、 検索子とする 1〜複数の音響信号についての、 音源の構造的な 要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ 一夕のそれぞれと、 検索対象の前記入力信号中の音響信号を解析し て得た前記音響特徴パラメ一夕とを比較し、 両者の類似性を算出す ることにより、 前記入力信号中の音響信号中から前記検索子の音響 信号と類似する部分を検索し、 その検索した部分を、 前記入力信号 についての検索結果とすることを特徴とする音響映像検索処理方法。
3 8 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号から、 所定の部分を検索する音響映像検索処理方法におい て、 検索子とする 1〜複数の音響信号についての、 音源の構造的な 要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ —夕のそれぞれと、 検索対象の前記入力信号中の音響信号を解析し て得た前記音響特徴パラメ一夕とを比較し、 両者の類似性を算出す ることにより、 前記入力信号中の音響信号中から前記検索子の音響 信号と類似する部分を検索するとともに、 検索子とする 1〜複数の 映像信号についての、 画像の特徴を表す映像特徴パラメ一夕からな る検索子映像特徴パラメ一夕のそれぞれと、 検索対象の前記入力信 号中の映像信号を解析して得た前記映像特徴パラメ一夕とを比較し、 両者の類似性を算出することにより、 前記入力信号中の映像信号中 から前記検索子の画像と類似する画像部分を検索し、 前記音響信号 についての検索結果と、 前記映像信号についての検索結果とに基づ いて、 前記入力信号中から所定の部分を検索することを特徴とする 音響映像検索処理方法。
3 9 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号を記録媒体に記録するとともに、 前記入力信号中の音響信 号を解析して、 音源の構造的な要素に依存する音響特徴パラメ一夕 を得、 検索子とする 1〜複数の音響信号についての前記音響特徴パ ラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 前記入 力信号中の音響信号についての前記音響特徴パラメ一夕とを比較し、 両者の類似性を算出することにより、 前記入力信号中の音響信号中 から前記検索子の音響信号と類似する部分を検索し、 その検索結果 を、 前記検索子と前記入力信号の前記記録媒体上の記録位置とに関 連させて記録するようにすることを特徴とする音響映像情報蓄積方 法。
4 0 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号を記録媒体に記録するとともに、 検索子とする 1〜複数の 音響信号についての、 音源の構造的な要素に依存する音響特徴パラ メータからなる検索子音響特徴パラメ一夕のそれぞれと、 検索対象 の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ一 夕とを比較し、 両者の類似性を算出することにより、 前記入力信号 中の音響信号中から前記検索子の音響信号と類似する部分を検索し、 さらに、 検索子とする 1〜複数の映像信号についての、 画像の特徴 を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそ れそれと、 検索対象の前記入力信号中の映像信号を解析して得た前 記映像特徴パラメ一夕とを比較し、 両者の類似性を算出することに より、 前記入力信号中の映像信号中から前記検索子の画像と類似す る画像部分を検索し、 前記音響信号及び映像信号についての検索結 果を、 前記検索子と前記入力信号の前記記録媒体上の記録位置とに 関連させて記録するようにすることを特徴とする音響映像情報蓄積 方法。
4 1 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号中の前記音響信号を、 音源の構造的な要素に依存する音響 特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索子 とする音響信号についての前記音響特徴パラメ一夕からなる検索子 音響特徴パラメ一夕と、 前記音響特徴パラメ一夕解析手段からの前 記検索対象の音響信号の音響特徴パラメ一夕とを比較して、 前記検 索対象の音響信号中から前記検索子の音源からの音響信号と類似す る部分を検索する検索手段と、 前記検索手段の結果を表示する結果 表示手段とを備える音響映像情報検索装置。
4 2 . 前記結果表示手段は、 前記検索手段で検索された部分の映 像信号による画像を表示することを特徴とする請求の範囲第 4 1項 記載の音響映像情報検索装置。
4 3 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号中の前記音響信号を、 音源の構造的な要素に依存する音響 特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索子 とする音響信号についての前記音響特徴パラメ一夕からなる検索子 音響特徴パラメ一夕と、 前記音響特徴パラメ一夕解析手段からの前 記検索対象の音響信号の音響特徴パラメ一夕とを比較して、 前記検 索対象の音響信号中から前記検索子の音源からの音響信号と類似す る部分を検索する検索手段と、 前記検索手段での検索結果に基づい て、 前記類似する部分に対応する前記入力信号部分を抽出して再生 する再生手段とを備える音響映像情報検索装置。
4 4 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号中の前記音響信号を、 音源の構造的な要素に依存する音響 特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索子 とする音源についての前記音響特徴パラメ一夕からなる検索子音響 特徴パラメータと、 前記音響特徴パラメータ解析手段からの前記入 力信号中の音響信号の音響特徴パラメ一夕とを比較して、 前記入力 信号中の音響信号中から前記検索子の音源からの音響信号と類似す る部分を検索する音響部分検索手段と、 前記入力信号中の映像信号 を、 画像の特徴を表す映像特徴パラメ一夕に解析する映像特徴パラ メータ解析手段と、 検索子とする 1〜複数の映像信号についての前 記映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞ れと、 前記映像特徴パラメ一夕解析手段からの前記入力信号中の映 像信号の映像特徴パラメ一夕とを比較して、 前記入力信号中の映像 信号中から前記検索子の映像信号と類似する部分を検索する映像部 分検索手段と、 前記音響部分検索手段及び映像部分検索手段の結果 を表示する結果表示手段とを備える音響映像情報検索装置。
4 5 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号中の前記音響信号を、 音源の構造的な要素に依存する音響 特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索子 とする音源についての前記音響特徴パラメ一夕からなる検索子音響 特徴パラメ一夕と、 前記音響特徴パラメ一夕解析丰段からの前記入 力信号中の音響信号の音響特徴パラメ一夕とを比較して、 前記入力 信号中の音響信号中から前記検索子の音源からの音響信号と類似す る部分を検索する音響部分検索手段と、 前記入力信号中の映像信号 を、 画像の特徴を表す映像特徴パラメ一夕に解析する映像特徴パラ メ一夕解析手段と、 検索子とする 1〜複数の映像信号についての前 記映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞ れと、 前記映像特徴パラメ一夕解析手段からの前記入力信号中の映 像信号の映像特徴パラメ一夕とを比較して、 前記入力信号中の映像 信号中から前記検索子の映像信号と類似する部分を検索する映像部 分検索手段と、 前記音響部分検索手段及び映像部分検索手段での検 索結果に基づいて決定される前記入力信号部分を抽出して再生する 再生手段とを備える音響映像情報検索装置。
4 6 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号を記録媒体に記録する記録手段と、 前記入力信号中の音響 信号を解析して、 音源の構造的な要素に依存する音響特徴パラメ一 夕に解析する音響特徴パラメ一夕解析手段と、 検索子とする 1〜複 数の音響信号についての前記音響特徴パラメ一夕からなる検索子音 響特徴パラメ一夕のそれぞれと、 前記入力信号中の音響信号につい ての前記音響特徴パラメ一夕とを比較し、 両者の類似性を算出する ことにより、 前記入力信号中の音響信号中から前記検索子の音響信 号と類似する部分を検索する音響部分検索手段とを備え、 前記音響 部分検索手段の検索結果を、 前記検索子と前記入力信号の前記記録 媒体上の記録位置とに関連させて記録するようにすることを特徴と する音響映像情報蓄積装置。
4 7 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号を記録媒体に記録する記録手段と、 検索子とする 1〜複数 の音響信号についての、 音源の構造的な要素に依存する音響特徴パ ラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 検索対 象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ 一夕とを比較し、 両者の類似性を算出することにより、 前記入力信 号中の音響信号中から前記検索子の音響信号と類似する部分を検索 する音響部分検索手段と、 検索子とする 1〜複数の映像信号につい ての、 画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特 徴パラメ一夕のそれぞれと、 検索対象の前記入力信号中の映像信号 を解析して得た前記映像特徴パラメ一夕とを比較し、 両者の類似性 を算出することにより、 前記入力信号中の映像信号中から前記検索 子の画像と類似する画像部分を検索する映像部分検索手段とを備え、 前記音響部分検索手段及び映像部分検索手段の検索結果を、 前記検 索子と前記入力信号の前記記録媒体上の記録位置とに関連させて記 録するようにすることを特徴とする音響映像情報蓄積装置。
PCT/JP2000/005771 1999-08-26 2000-08-25 Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage WO2001016935A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP00955045A EP1132890B1 (en) 1999-08-26 2000-08-25 Information retrieving/processing method, retrieving/processing device, storing method and storing device
KR1020017005244A KR100782286B1 (ko) 1999-08-26 2000-08-25 정보의 검색 처리 방법, 검색 처리 장치, 저장 방법 및저장 장치
DE60038535T DE60038535T2 (de) 1999-08-26 2000-08-25 Verfahren und vorrichtung, speicherverfahren und - vorrichtung zur informationsbeschaffung und verarbeitung
US09/830,222 US7260226B1 (en) 1999-08-26 2000-08-25 Information retrieving method, information retrieving device, information storing method and information storage device
US11/656,402 US8165306B2 (en) 1999-08-26 2007-01-23 Information retrieving method, information retrieving device, information storing method and information storage device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP23914599 1999-08-26
JP11/239145 1999-08-26

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US09/830,222 A-371-Of-International US7260226B1 (en) 1999-08-26 2000-08-25 Information retrieving method, information retrieving device, information storing method and information storage device
US11/656,402 Division US8165306B2 (en) 1999-08-26 2007-01-23 Information retrieving method, information retrieving device, information storing method and information storage device

Publications (1)

Publication Number Publication Date
WO2001016935A1 true WO2001016935A1 (fr) 2001-03-08

Family

ID=17040435

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/005771 WO2001016935A1 (fr) 1999-08-26 2000-08-25 Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage

Country Status (6)

Country Link
US (2) US7260226B1 (ja)
EP (2) EP1132890B1 (ja)
KR (1) KR100782286B1 (ja)
CN (1) CN1178201C (ja)
DE (1) DE60038535T2 (ja)
WO (1) WO2001016935A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893431A (zh) * 2015-12-09 2016-08-24 乐视网信息技术(北京)股份有限公司 媒体检索方法及设备

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001016935A1 (fr) * 1999-08-26 2001-03-08 Sony Corporation Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage
US7620545B2 (en) * 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
JP3876855B2 (ja) * 2003-07-10 2007-02-07 ヤマハ株式会社 オートミックスシステム
US7738664B2 (en) * 2003-10-07 2010-06-15 Kddi Corporation Apparatus for fault detection for parallelly transmitted audio signals and apparatus for delay difference detection and adjustment for parallelly transmitted audio signals
GB0502844D0 (en) * 2005-02-11 2005-03-16 Univ Edinburgh Storing digital content for access using a captured image
WO2006100980A1 (ja) * 2005-03-18 2006-09-28 Pioneer Corporation 音声信号処理装置及びそのためのコンピュータプログラム
US7974420B2 (en) * 2005-05-13 2011-07-05 Panasonic Corporation Mixed audio separation apparatus
KR100782825B1 (ko) * 2005-12-01 2007-12-06 삼성전자주식회사 오디오 컨텐츠 선택 정보 제공 방법 및 장치와 그 방법을수행하는 프로그램이 기록된 기록매체
CN101213589B (zh) * 2006-01-12 2011-04-27 松下电器产业株式会社 对象声音分析装置和对象声音分析方法
JP4527679B2 (ja) * 2006-03-24 2010-08-18 学校法人早稲田大学 音声の類似度の評価を行う方法および装置
JP2008154143A (ja) * 2006-12-20 2008-07-03 Sony Corp 受信データ記録システム、受信機、受信機の制御方法、レコーダ、データ記録方法およびプログラム
US20100319015A1 (en) * 2009-06-15 2010-12-16 Richard Anthony Remington Method and system for removing advertising content from television or radio content
WO2011041008A1 (en) * 2009-10-01 2011-04-07 Richard Anthony Remington Method for removing advertising content
JP5568953B2 (ja) * 2009-10-29 2014-08-13 ソニー株式会社 情報処理装置、シーン検索方法及びプログラム
JP2011199847A (ja) * 2010-02-25 2011-10-06 Ricoh Co Ltd 会議システムの端末装置、会議システム
JP5333517B2 (ja) * 2011-05-26 2013-11-06 ヤマハ株式会社 データ処理装置およびプログラム
CN102522084B (zh) * 2011-12-22 2013-09-18 广东威创视讯科技股份有限公司 一种将语音数据转换为文本文件的方法和系统
CN103390409A (zh) * 2012-05-11 2013-11-13 鸿富锦精密工业(深圳)有限公司 电子装置及其侦测色情音频的方法
CN103116494B (zh) * 2013-01-25 2016-05-25 中兴通讯股份有限公司 自动化测试平台测试输出信息提取方法和装置
KR102184987B1 (ko) * 2013-11-15 2020-12-01 엘지전자 주식회사 영상 표시 장치 및 그 동작 방법
KR102255152B1 (ko) * 2014-11-18 2021-05-24 삼성전자주식회사 가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램
CN106682505B (zh) * 2016-05-04 2020-06-12 腾讯科技(深圳)有限公司 一种病毒检测方法、终端、服务器及系统
WO2020218075A1 (ja) * 2019-04-26 2020-10-29 ソニー株式会社 情報処理装置および方法、並びにプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05334861A (ja) * 1992-06-03 1993-12-17 Japan Radio Co Ltd 音声検索装置
JPH07105235A (ja) * 1993-10-08 1995-04-21 Sharp Corp 画像検索方法及び画像検索装置
JPH08265660A (ja) * 1995-03-20 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音楽管理方法および装置
JPH099199A (ja) * 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
JPH10307580A (ja) * 1997-05-06 1998-11-17 Nippon Telegr & Teleph Corp <Ntt> 音楽検索方法および装置
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2791036B2 (ja) * 1988-04-23 1998-08-27 キヤノン株式会社 音声処理装置
JP3171744B2 (ja) 1994-03-15 2001-06-04 シャープ株式会社 音声及び動画の検索装置
JP3664499B2 (ja) 1994-08-16 2005-06-29 富士通株式会社 音声情報の処理方法及びその装置
JPH09106339A (ja) 1995-10-11 1997-04-22 Toshiba Corp 情報処理装置およびデータ格納方法
WO2001016935A1 (fr) * 1999-08-26 2001-03-08 Sony Corporation Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
EP1244093B1 (en) * 2001-03-22 2010-10-06 Panasonic Corporation Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus and methods and programs for implementing the same
US7738664B2 (en) * 2003-10-07 2010-06-15 Kddi Corporation Apparatus for fault detection for parallelly transmitted audio signals and apparatus for delay difference detection and adjustment for parallelly transmitted audio signals
US20060195322A1 (en) * 2005-02-17 2006-08-31 Broussard Scott J System and method for detecting and storing important information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05334861A (ja) * 1992-06-03 1993-12-17 Japan Radio Co Ltd 音声検索装置
JPH07105235A (ja) * 1993-10-08 1995-04-21 Sharp Corp 画像検索方法及び画像検索装置
JPH08265660A (ja) * 1995-03-20 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音楽管理方法および装置
JPH099199A (ja) * 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
JPH10307580A (ja) * 1997-05-06 1998-11-17 Nippon Telegr & Teleph Corp <Ntt> 音楽検索方法および装置
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
H. SOLTAU ET AL.: "Recognition of music types", PROCEEDINGS OF 1998 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, vol. 2, 12 May 1998 (1998-05-12) - 15 May 1998 (1998-05-15), pages 1137 - 1140, ISBN0-7803-4428-6, IEEE CAT. NO. 98CH36181, XP002933355 *
K. MELIH ET AL.: "Audio source type segmentation using a perceptually based representation", PROCEEDINGS OF THE FIFTH INTERNATIONAL SYMPOSIUM ON SIGNAL PROCESSING AND ITS APPLICATIONS, ISSPA'99, vol. 1, 22 August 1999 (1999-08-22) - 25 August 1999 (1999-08-25), pages 51 - 54, ISBN1-86435-451-8, IEEE CAT. NO. 99EX359, XP002933356 *
KUNIO KASHIWANO ET AL.: "note recognition mechanisms in the OPTIMA processing architecture for music scene analysis", TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J79-D-II, no. 11, 25 November 1996 (1996-11-25), pages 1751 - 1761, ISSN0915-1923, XP002933357 *
KUNIO KASHIWANO ET AL.: "Sound source identification using adaptive template mixtures - Formulation and application to music stream segregation", IPSJ SIG NOTES (SIGMUS), vol. 97, no. 18, 20 February 1997 (1997-02-20), pages 55 - 60, 97-MUS-19-11, ISSN0919-6072, XP002933358 *
See also references of EP1132890A4 *
T. LAMBROU ET AL.: "Classification of audio signal using statistical features on time and wavelet transform domains", PROCEEDINGS OF 1998 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, vol. 6, 12 May 1998 (1998-05-12) - 15 May 1998 (1998-05-15), pages 3621 - 3624, ISBN0-7803-4428-6, IEEE CAT. NO. 98CH36181, XP002933354 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893431A (zh) * 2015-12-09 2016-08-24 乐视网信息技术(北京)股份有限公司 媒体检索方法及设备

Also Published As

Publication number Publication date
CN1178201C (zh) 2004-12-01
DE60038535D1 (de) 2008-05-21
US7260226B1 (en) 2007-08-21
KR20010089358A (ko) 2001-10-06
KR100782286B1 (ko) 2007-12-07
US20070127735A1 (en) 2007-06-07
EP1887561A3 (en) 2008-07-02
CN1327573A (zh) 2001-12-19
EP1132890A4 (en) 2005-08-17
EP1132890B1 (en) 2008-04-09
US8165306B2 (en) 2012-04-24
EP1132890A1 (en) 2001-09-12
DE60038535T2 (de) 2009-07-02
EP1887561A2 (en) 2008-02-13

Similar Documents

Publication Publication Date Title
US8165306B2 (en) Information retrieving method, information retrieving device, information storing method and information storage device
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
JP4584250B2 (ja) 映像処理装置、映像処理装置の集積回路、映像処理方法、及び映像処理プログラム
CN101534407B (zh) 信息记录装置
JP3615195B2 (ja) コンテンツ記録再生装置およびコンテンツ編集方法
JP4442585B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
WO2000036833A1 (fr) Procede et appareil permettant de retrouver vocalement des scenes video ou audio
WO2007074755A1 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4513165B2 (ja) 番組記録方法及び番組記録装置及び番組記録再生装置及び番組記録再生方法
JPWO2007046171A1 (ja) 記録再生装置
JP4913288B2 (ja) 情報信号処理装置及び情報信号処理方法
KR101230746B1 (ko) 음악데이터와 동시 출력을 위한 동기화된 영상데이터 생성방법과 그 동기화 출력을 위한 재생 방법
US6285982B1 (en) Sound decompressing apparatus providing improved sound quality during special reproducing such as forward search reproducing and reverse search reproducing
JP2006054517A (ja) 情報提示装置、方法及びプログラム
JP2001298711A (ja) 画像記録再生装置および方法、並びに記録媒体
JP4287243B2 (ja) 放送番組記録装置、放送番組再生装置、放送番組記録再生装置及び放送番組記録再生方法
KR20050054937A (ko) 시청각 데이터 스트림을 메모리에 저장하는 방법
JPH08205044A (ja) 情報提供制御装置及び情報提供制御方法
JP2007081899A (ja) 広告情報処理装置
JP5188619B2 (ja) 情報記録装置
JP2000092435A (ja) 信号特徴抽出方法及びその装置、音声認識方法及びその装置、動画編集方法及びその装置
JP2004072306A (ja) ビデオカメラ及びビデオ再生装置
JP2006254257A (ja) 視聴制限装置
JP2006333340A (ja) 情報再生装置、情報再生方法及びコンピュータプログラム
JP2006286031A (ja) コンテンツ再生装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 00802218.6

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 1020017005244

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2000955045

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09830222

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2000955045

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020017005244

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 2000955045

Country of ref document: EP