WO2001016935A1 - Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage - Google Patents

Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage Download PDF

Info

Publication number
WO2001016935A1
WO2001016935A1 PCT/JP2000/005771 JP0005771W WO0116935A1 WO 2001016935 A1 WO2001016935 A1 WO 2001016935A1 JP 0005771 W JP0005771 W JP 0005771W WO 0116935 A1 WO0116935 A1 WO 0116935A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
signal
acoustic
searcher
video
Prior art date
Application number
PCT/JP2000/005771
Other languages
English (en)
French (fr)
Inventor
Masayoshi Miura
Susumu Yabe
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US09/830,222 priority Critical patent/US7260226B1/en
Priority to EP00955045A priority patent/EP1132890B1/en
Priority to DE60038535T priority patent/DE60038535T2/de
Priority to KR1020017005244A priority patent/KR100782286B1/ko
Publication of WO2001016935A1 publication Critical patent/WO2001016935A1/ja
Priority to US11/656,402 priority patent/US8165306B2/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/066MPEG audio-visual compression file formats, e.g. MPEG-4 for coding of audio-visual objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
    • G10H2240/281Protocol or standard connector for transmission of analog or digital data to or from an electrophonic musical instrument
    • G10H2240/315Firewire, i.e. transmission according to IEEE1394
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/571Waveform compression, adapted for music synthesisers, sound banks or wavetables
    • G10H2250/575Adaptive MDCT-based compression, e.g. using a hybrid subband-MDCT, as in ATRAC
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2525Magneto-optical [MO] discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Description

明細書 情報の検索処理方法、 検索処理装置、 蓄積方法及び蓄積装置
技術分野
この発明は、 検索対象の音響信号や映像信号から、 例えば特定の 楽器、 特定の人声、 動物の鳴き声等の部分や特定の人物画像、 特定 のシーンなどの部分を検索する検索処理方法及び装置、 また、 この 検索処理方法及び装置を用いた情報蓄積方法及び装置に関する。
背景技術 例えば、 会議録音を行った場合、 記録された音響信号について、 記録後に、 特定の発言部分などを検索したりする要求がある。 このように、 記録された音響信号について、 使用者が希望する音 響信号部分を検索する場合、 従来は、 記録時にマーカ一を打ち込ん でおき、 再生時に、 この打ち込みマ一カーを検出することにより、 希望する音響信号部分を検索するようにしている。
また、 記録時に、 後で検索したい音響信号部分が判るように、 力 ゥン夕数値や、 記録開始時点からの時間を、 それぞれの音響信号部 分と対応を付けて記録するようにする方法も知られている。
しかしながら、 上述の方法の場合、 記録時に、 後で検索するであ ろう音響信号部分を判断してマ一カーを打ち込んだり、 カウン夕数 値や時間を記録したりする必要があり、 使い勝手について、 次のよ うな問題があった。
1 . 記録時に、 マ一カーを使用者が打ち込んだり、 カウン夕数値 や時間を別途に記録しなければならず、 マーカー打ち込み操作や力 ゥン夕数値や時間を記録する操作が厄介である。
2 . マーカ一やカウン夕数値、 時間が記録されていない箇所は、 検索することはできない。
3 . 特定の話者のみ、 あるいは特定の楽器のみなどの部分を検索 することができない。 このため、 例えば会議記録において発言区間 を話者毎に分類したり、 演奏区間を楽器毎に分類したりするなどと いうことができない。
4 . 一旦、 記録して、 マ一力一やカウン夕数値等を記録する必要 があるため、 記録を行わずに、 複数の検索子について検索して分類 するなどということはできなかった。
発明の開示 この発明は、 以上の点にかんがみ、 記録時に、 マーカーを打ち込 んだり、 カウン夕数値や時間を記録する操作が必要なく、 しかも、 特定の話者や楽器などの部分を検索することができる方法及び装置 を提供することを目的とする。
また、 音響信号を記録しなくても、 検索対象の音響信号から、 特 定の音源などの音響信号を検索子とする検索が行えるようにする方 法及び装置を提供することを目的とする。
本発明に係る音響検索処理方法は、 検索子とする 1〜複数の音響 信号についての、 音源の構造的な要素に依存する音響特徴パラメ一 夕からなる検索子音響特徴パラメ一夕のそれぞれと、 検索対象の音 響信号を解析して得た前記音響特徴パラメ一夕とを比較し、 両者の 類似性を算出することにより、 前記検索対象の音響信号中から前記 検索子の音響信号と類似する部分を検索することを特徴とする。
また、 本発明に係る音響情報蓄積方法は、 入力音響信号を記録媒 体に記録するとともに、 前記入力音響信号を解析して、 音源の構造 的な要素に依存する音響特徴パラメ一夕を得、 検索子とする 1〜複 数の音響信号についての前記音響特徴パラメ一夕からなる検索子音 響特徴パラメ一夕のそれぞれと、 前記入力音響信号についての前記 音響特徴パラメ一夕とを比較し、 両者の類似性を算出することによ り、 前記検索対象の音響信号中から前記検索子の音響信号と類似す る部分を検索し、 その検索結果を、 前記検索子及び前記入力音響信 号の前記記録媒体上の記録位置に関連させて記録するようにするこ とを特徴とする。
また、 本発明に係る音響情報検索装置は、 検索対象の音響信号を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響 特徴パラメ一夕解析手段と、 検索子とする音響信号についての前記 音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前記音 響特徴パラメータ解析手段からの前記検索対象の音響信号の音響特 徴パラメ一夕とを比較して、 前記検索対象の音響信号中から前記検 索子の音源からの音響信号と類似する部分を検索する検索手段と、 前記検索手段の結果を表示する結果表示手段とを備えることを特徴 とする。
また、 本発明に係る音響情報検索装置は、 検索対象の音響信号を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する音響 特徴パラメ一夕解析手段と、 検索子とする音響信号についての前記 音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前記音 響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音響特 徴パラメ一夕とを比較して、 前記検索対象の音響信号中から前記検 索子の音源からの音響信号と類似する部分を検索する検索手段と、 前記検索手段での検索結果に基づいて、 前記類似する部分のみを抽 出して再生する再生手段とを備えることを特徴とする。
また、 本発明に係る音響情報蓄積装置は、 入力音響信号を記録媒 体に記録する記録手段と、 前記入力音響信号を、 音源の構造的な要 素に依存する音響特徴パラメ一夕に解析する音響特徴パラメ一夕解 析手段と、 検索子とする 1〜複数の音響信号についての前記音響特 徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 前 記入力音響信号についての前記音響特徴パラメ一夕とを比較し、 両 者の類似性を算出することにより、 前記検索対象の音響信号中から 前記検索子の音源からの音響信号と類似する部分を検索する検索手 段とを備え、 前記検索手段の検索結果を、 前記検索子及び前記入力 音響信号の前記記録媒体上の記録位置に関連させて記録するように することを特徴とする。
また、 本発明に係る音響映像検索処理方法は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号から、 所定の部分 を検索する音響映像検索処理方法において、 検索子とする 1〜複数 の音響信号についての、 音源の構造的な要素に依存する音響特徴パ ラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 検索対 象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ —夕とを比較し、 両者の類似性を算出することにより、 前記入力信 号中の音響信号中から前記検索子の音響信号と類似する部分を検索 し、 その検索した部分を、 前記入力信号についての検索結果とする ことを特徴とする。
また、 本発明に係る音響映像検索処理方法は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号から、 所定の部分 を検索する音響映像検索処理方法において、 検索子とする 1〜複数 の音響信号についての、 音源の構造的な要素に依存する音響特徴パ ラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 検索対 象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ 一夕とを比較し、 両者の類似性を算出することにより、 前記入力信 号中の音響信号中から前記検索子の音響信号と類似する部分を検索 するとともに、 検索子とする 1〜複数の映像信号についての、 画像 の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一 夕のそれぞれと、 検索対象の前記入力信号中の映像信号を解析して 得た前記映像特徴パラメ一夕とを比較し、 両者の類似性を算出する ことにより、 前記入力信号中の映像信号中から前記検索子の画像と 類似する画像部分を検索し、 前記音響信号についての検索結果と、 前記映像信号についての検索結果とに基づいて、 前記入力信号中か ら所定の部分を検索することを特徴とする。
また、 本発明に係る音響映像情報蓄積方法は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号を記録媒体に記録 するとともに、 前記入力信号中の音響信号を解析して、 音源の構 造的な要素に依存する音響特徴パラメ一夕を得、 検索子とする 1〜 複数の音響信号についての前記音響特徴パラメ一夕からなる検索子 音響特徴パラメ一夕のそれぞれと、 前記入力信号中の音響信号につ いての前記音響特徴パラメ一夕とを比較し、 両者の類似性を算出す ることにより、 前記入力信号中の音響信号中から前記検索子の音響 信号と類似する部分を検索し、 その検索結果を、 前記検索子と前記 入力信号の前記記録媒体上の記録位置とに関連させて記録するよう にすることを特徴とする。
また、 本発明に係る音響映像情報蓄積方法は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号を記録媒体に記録 するとともに、 検索子とする 1〜複数の音響信号についての、 音源 の構造的な要素に依存する音響特徴パラメ一夕からなる検索子音響 特徴パラメ一夕のそれぞれと、 検索対象の前記入力信号中の音響信 号を解析して得た前記音響特徴パラメータとを比較し、 両者の類似 性を算出することにより、 前記入力信号中の音響信号中から前記検 索子の音響信号と類似する部分を検索し、 さらに、 検索子とする 1
〜複数の映像信号についての、 画像の特徴を表す映像特徴パラメ一 夕からなる検索子映像特徴パラメ一夕のそれぞれと、 検索対象の前 記入力信号中の映像信号を解析して得た前記映像特徴パラメ一夕と を比較し、 両者の類似性を算出することにより、 前記入力信号中の 映像信号中から前記検索子の画像と類似する画像部分を検索し、 前 記音響信号及び映像信号についての検索結果を、 前記検索子と前記 入力信号の前記記録媒体上の記録位置とに関連させて記録するよう にすることを特徴とする。
また、 本発明に係る音響映像情報検索装置は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号中の前記音響信号 を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する 音響特徴パラメ一夕解析手段と、 検索子とする音響信号についての 前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前 記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音 響特徴パラメ一夕とを比較して、 前記検索対象の音響信号中から前 記検索子の音源からの音響信号と類似する部分を検索する検索手段 と、 前記検索手段の結果を表示する結果表示手段とを備えることを 特徴とする。
また、 本発明に係る音響映像情報検索装置は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号中の前記音響信号 を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する 音響特徴パラメ一夕解析手段と、 検索子とする音響信号についての 前記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前 記音響特徴パラメ一夕解析手段からの前記検索対象の音響信号の音 響特徴パラメ一夕とを比較して、 前記検索対象の音響信号中から前 記検索子の音源からの音響信号と類似する部分を検索する検索手段 と、 前記検索手段での検索結果に基づいて、 前記類似する部分に対 応する前記入力信号部分を抽出して再生する再生手段とを備えるこ とを特徴とする。
また、 本発明に係る音響映像情報検索装置は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号中の前記音響信号 を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する 音響特徴パラメ一夕解析手段と、 検索子とする音源についての前記 音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前記音 響特徴パラメ一夕解析手段からの前記入力信号中の音響信号の音響 特徴パラメ一夕とを比較して、 前記入力信号中の音響信号中から前 記検索子の音源からの音響信号と類似する部分を検索する音響部分 検索手段と、 前記入力信号中の映像信号を、 画像の特徴を表す映像 特徴パラメ一夕に解析する映像特徴パラメ一夕解析手段と、 検索子 とする 1〜複数の映像信号についての前記映像特徴パラメ一夕から なる検索子映像特徴パラメ一夕のそれぞれと、 前記映像特徴パラメ 一夕解析手段からの前記入力信号中の映像信号の映像特徴パラメ一 夕とを比較して、 前記入力信号中の映像信号中から前記検索子の映 像信号と類似する部分を検索する映像部分検索手段と、 前記音響部 分検索手段及び映像部分検索手段の結果を表示する結果表示手段と を備えることを特徴とする。
また、 本発明に係る音響映像情報検索装置は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号中の前記音響信号 を、 音源の構造的な要素に依存する音響特徴パラメ一夕に解析する 音響特徴パラメ一夕解析手段と、 検索子とする音源についての前記 音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕と、 前記音 響特徴パラメ一夕解析手段からの前記入力信号中の音響信号の音響 特徴パラメ一夕とを比較して、 前記入力信号中の音響信号中から前 記検索子の音源からの音響信号と類似する部分を検索する音響部分 検索手段と、 前記入力信号中の映像信号を、 画像の特徴を表す映像 特徴パラメ一夕に解析する映像特徴パラメ一夕解析手段と、 検索子 とする 1〜複数の映像信号についての前記映像特徴パラメ一夕から なる検索子映像特徴パラメ一夕のそれぞれと、 前記映像特徴パラメ 一夕解析手段からの前記入力信号中の映像信号の映像特徴パラメ一 夕とを比較して、 前記入力信号中の映像信号中から前記検索子の映 像信号と類似する部分を検索する映像部分検索手段と、 前記音響部 分検索手段及び映像部分検索手段での検索結果に基づいて決定され る前記入力信号部分を抽出して再生する再生手段とを備えることを 特徴とする。
また、 本 明に係る音響映像情報蓄積装置は、 映像信号と、 その 映像信号に関連する音響信号とからなる入力信号を記録媒体に記録 する記録手段と、 前記入力信号中の音響信号を解析して、 音源の構 造的な要素に依存する音響特徴パラメ一夕に解析する音響特徴パラ メータ解析手段と、 検索子とする 1〜複数の音響信号についての前 記音響特徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれそ れと、 前記入力信号中の音響信号についての前記音響特徴パラメ一 夕とを比較し、 両者の類似性を算出することにより、 前記入力信号 中の音響信号中から前記検索子の音響信号と類似する部分を検索す る音響部分検索手段とを備え、 前記音響部分検索手段の検索結果を、 前記検索子と前記入力信号の前記記録媒体上の記録位置とに関連さ せて記録するようにすることを特徴とする。
さらに、 本発明に係る音響映像情報蓄積装置は、 映像信号と、 そ の映像信号に関連する音響信号とからなる入力信号を記録媒体に記 録する記録手段と、 検索子とする 1〜複数の音響信号についての、 音源の構造的な要素に依存する音響特徴パラメ一夕からなる検索子 音響特徴パラメ一夕のそれぞれと、 検索対象の前記入力信号中の音 響信号を解析して得た前記音響特徴パラメ一夕とを比較し、 両者の 類似性を算出することにより、 前記入力信号中の音響信号中から前 記検索子の音響信号と類似する部分を検索する音響部分検索手段と、 検索子とする 1〜複数の映像信号についての、 画像の特徴を表す映 像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞれと、 検索対象の前記入力信号中の映像信号を解析して得た前記映像特徴 パラメ一夕とを比較し、 両者の類似性を算出することにより、 前記 入力信号中の映像信号中から前記検索子の画像と類似する画像部分 を検索する映像部分検索手段とを備え、 前記音響部分検索手段及び 映像部分検索手段の検索結果を、 前記検索子と前記入力信号の前記 記録媒体上の記録位置とに関連させて記録するようにすることを特 徴とする。
図面の簡単な説明 図 1は、 この発明による音響検索処理装置の第 1の実施の形態の ブロック図である。
図 2 A及び図 2 Bは、 男性音声の音響的特徴を示すための周波数 成分分布及び時間波形を示す図である。
図 3 A及び図 3 Bは、 女性音声の音響的特徴を示すための周波数 成分分布及び時間波形を示す図である。
図 4 A及び図 4 Bは、 サキソホンの音響的特徴を示すための周波 数成分分布及び時間波形を示す図である。
図 5 A及び図 5 Bは、 ベースギ夕一の音響的特徴を示すための周 波数成分分布及び時間波形を示す図である。
図 6は、 第 1の実施の形態における検索子の登録処理動作を説明 するためのフローチヤ一トである。 図 7は、 第 1の実施の形態における検索処理動作を説明するため のフ口一チヤ一トである。
図 8 A及び図 8 Bは、 第 1の実施の形態における検索処理結果の 表示例を示す図である。
図 9は、 第 1の実施の形態における検索処理結果の表示例の他の 例を示す図である。
図 1 0は、 第 1の実施の形態における検索処理結果の表示例の他 の例を示す図である。
図 1 1は、 この発明による音響検索処理装置の第 2の実施の形態 のブロック図である。
図 1 2は、 この発明による音響検索処理装置の第 3の実施の形態 のブロック図である。
図 1 3は、 この発明による音響検索処理装置の第 4の実施の形態 のブロック図である。
図 1 4は、 この発明による音響検索処理装置の第 5の実施の形態 の要部の説明に用いる図である。
図 1 5は、 この発明による音響検索処理装置の第 5の実施の形態 の要部の説明に用いるフロ一チヤ一トである。
図 1 6は、 この発明による音響映像検索処理装置の第 1の実施の 形態のプロック図である。
図 1 7は、 この発明による音響映像検索処理装置の第 1の実施の 形態の説明に用いる図である。
発明を実施するための最良の形態 以下、 本発明を実施するための最良の形態について図面を参照し ながら詳細に説明する。
以下、 この発明の実施の形態を、 図を参照しながら説明する。
[第 1の実施の形態]
図 1は、 この発明の第 1の実施の形態のブロック図である。 この 第 1の実施の形態では、 検索対象の入力音響信号、 例えばマイクロ ホンで収音した入力オーディオ信号を記録し、 再生する機能を備え る。 この実施の形態では、 再生音響信号も、 検索対象の音響信号と する機能を備える。 また、 検索対象の入力音響信号又は再生音響信 号から検索子の音響信号を抽出して記憶蓄積する機能と、 この蓄積 された検索子の音響信号を用いて入力音響信号又は再生音響信号に ついて検索する機能と、 さらに、 検索結果を表示部に表示する機能 を備える。
入力音響信号は、 入力端子 1 1を通じて、 スィッチ回路 S W 1に 供給される。 このスィッチ回路 S W 1は、 コントロール部 1 0から の切り換え信号により、 入力音響信号の記録時及び入力音響信号に ついての検索時には、 端子 a側に切り換えられ、 入力音響信号から 検索子の音響信号を抽出するときには、 端子 b側に切り換えられる。 そして、 スィツチ回路 S W 1の端子 a側に得られるオーディオ信 号は、 音響信号記録部 1 2を介して記録媒体 1 3、 例えばメモリ力 —ド、 磁気ディスクや光磁気ディスクなどの光ディスクや、 ハード ディスクに記録される。 音響信号記録部 1 2は、 キー操作部 2 0を 通じて記録指示が使用者から与えられたときに、 コン卜口一ル部 1 0からの制御信号により、 アクティブになり、 記録を実行する。 入力端子 1 1を通じた入力音響信号は、 また、 スィッチ回路 S W 2の入力端 I Nに供給される。 このスィツチ回路 S W 2の後段には、 オーディオアンプ 1 5及びスピーカ 1 6が接続されており、 後述す る再生時以外は、 スィツチ回路 S W 2はコントロール部 1 0からの 切り換え制御信号により、 入力端 I N側に切り換えられる。 したが つて、 再生時以外の時には、 入力音響信号がオーディオアンプ 1 5 を通じてスピーカ 1 6に供給されて、 音響再生される。
キー操作部 2 0を通じて再生指示が使用者から与えられると、 コ ントロール部 1 0からの制御信号により、 音響信号再生部 1 4がァ クティブになり、 記録媒体 1 3から再生音響信号が読み出されて再 生され、 スィッチ回路 S W 2の入力端 P Bに供給される。 この再生 時には、 スイッチ回路 S W 2は、 コントロール部 1 0からの切り換 え制御信号により、 入力端 P B側に切り換えられる。 したがって、 再生音響信号が、 オーディオアンプ 1 5を通じてスピーカ 1 6に供 給されて、 音響再生される。
スィツチ回路 S W 1の端子 a側に得られる入力音響信号は、 また、 スィツチ回路 S W 3の一方の入力端 dに供給される。 このスィッチ 回路 S W 3の他方の入力端 cには、 音響信号再生部 1 4からの再生 音響信号が供給される。
スィツチ回路 S W 3は、 検索対象の音響信号を切り換えるもので、 キー操作部 2 0を通じた使用者による検索対象の音響信号の選択指 示に応じて切り換えられる。
このスィツチ回路 S W 3から得られる検索対象の音響信号は、 音 響特徴パラメ一夕解析部 2 1に供給されて、 例えば、 発音体の構造 や共振系などの違いなどの音源の構造的な要素に依存する音響特徴 パラメ一夕に解析する。 この音響特徴パラメ一夕としては、 ピッチ 周波数、 その高調波成分周波数、 フォルマント周波数や、 ケプスト ラム情報、 線形予測係数とその残差信号、 パーコール係数などが挙 げられる。
例えば、 図 2は一般的な男性音声の周波数成分分布 (図 2
( A ) ) と時間波形 (図 2 ( B ) ) の例である。 また、 図 3は一般 的な女性音声の周波数成分分布 (図 3 ( A ) ) と時間波形 (図 3
( B ) ) の例である。 また、 図 4はサキソホンの周波数成分分布 (図 4 ( A ) ) と時間波形 (図 4 ( B ) ) の例である。 さらに、 図
5はベースギターの周波数成分分布 (図 5 ( A ) ) と時間波形 (図
5 ( B ) ) の例である。
これらの図 2〜図 5は、 単なる周波数成分分布及び時間波形であ るが、 それぞれ、 ピッチ周波数、 その高調波成分、 フォルマント構 造やその有無に、 音響的な特徴が見られることが判る。
このような周波数成分分布の他にも、 線形予測係数とその残差信 号などの音響特徴パラメ一夕でも、 音響信号の特徴を表すことがで きる。
また、 ピッチ周波数の時間的変動から得られる音声の抑揚パラメ 一夕も音響信号の特徴を表すパラメ一夕として有効であることが知 られており、 同一人物が話した言葉でも、 抑揚によって別な状況と 識別することができる。 例えば、 ピッチが通常より低く、 さらに抑 揚も下がる傾向のときには、 元気のない場面ゃ悲しい場面であると 識別される。 したがって、 抑揚情報も音響特徴パラメ一夕に用いる こともできる。
この音響特徴パラメ一夕解析部 2 1からの音響特徴パラメ一夕は、 類似性算出部 22に供給される。 この類似性算出部 22では、 後述 するように、 検索子となる音響信号についての音響特徴パラメ一夕 (以下、 検索子音響特徴パラメ一夕という) と、 音響特徴パラメ一 夕解析部 21からの検索対象の音響信号の音響特徴パラメ一夕との 類似性を算出する。
この類似性!?:出部 22での類似性算出は、 音声認識などのような 音声時系列波形パターンの類似判定ではなく、 発音体の構造や共振 系について類似した構造を持った音源から発したものであるかの判 定である。 時系列波形のパターンの一致や類似度を算出するもので はないので、 例えばオーディオ信号の再生時に、 再生速度を高速に しても類似性の算出が可能である。
すなわち、 例えば、 類似性の算出に当たって、 音響特徴パラメ一 夕として、 前述したもののうちの、 例えば、 ビヅチ周波数、 フオル マント周波数などの 3項目を取り上げて、 パラメ一夕 (x, y, z) で表すことにする。
今、 ある時間幅 TWの区間での検索子音響特徴パラメ一夕が、 (x0, y0, z 0) であり、 検索対象の音響信号の音響特徴パラ メ一夕が、 (X i , y i, z i) であったとしたとき、 類似性算出 部 22では、 次式に示す両者の距離 Sを類似度として算出する。 前 記時間幅 TWは、 類似性算出部 22で、 類似性を判定するのに十分 な程度のパラメ一夕情報と時間を見込んで、 予め設定される。
S=sqrt { (x i-xO) 2 + (y i-yO) 2
+ ( z i - z 0) 2 }
ここで、 sqrt () は、 () 内の平方根演算を示すものである。 この距離 Sが、 小さければ小さいほど、 類似度が大きいことにな る。 この実施の形態において、 類似性算出部 2 2では、 予め定めた 時間幅 T Wの区間ごとに、 前記距離 Sを算出し、 その算出した距離 Sが、 予め定めた所定値 S thよりも小さいときに、 前記時間幅 T W の区間の音響信号は、 検索子の音響信号と同じあるいは類似してい ると判定し、 そうでないときには、 非類似であると判定するように している。
なお、 距離 Sの値は、 類似の程度を表しているので、 その類似の 程度をそのまま出力として用いるようにすることも、 勿論可能であ る。
この類似性算出部 2 2の類似性判定出力は、 表示制御部 2 3を通 じて表示部 2 4に供給される。 表示制御部 2 3は、 この実施の形態 では、 検索対象の音響信号の先頭からの時間に対応させて、 前記類 似性判定出力を、 例えば横バーグラフのように、 表示部 2 4の画面 に表示するようにする (後述する図 8等参照) 。
次に、 検索子について説明する。 この実施の形態では、 検索子と する音響信号は、 入力音響信号あるいは再生音響信号から抽出して、 予め記憶部 3 2に記憶させておく。
すなわち、 スィツチ回路 S W 1の端子 bに得られる入力音響信号 は、 スィッチ回路 S W 4の入力端 f に供給され、 また、 音響信号再 生部 1 4からの再生音響信号が、 スィツチ回路 S W 4の入力端 eに 供給される。 このスィッチ回路 S W 4は、 検索子の音響信号を入力 音響信号から抽出するか、 再生音響信号から抽出するかを、 切り換 えるもので、 コントロール部 1 0からの制御信号により、 キ一操作 部 2 0を通じた使用者の選択指示に応じて切り換えられる。
このスィツチ回路 S W 4からの音響信号は、 検索子音響信号抽出 格納部 3 1に供給される。 この検索子音響信号抽出格納部 3 1には、 コントロール部 1 0から、 キー操作部 2 0を通じた使用者の操作に 応じた制御信号が供給される。
この実施の形態においては、 使用者は、 スピーカからの入力音響 信号又は再生音響信号の音響再生出力音を聴取しながら、 検索子と したい音響信号部分になったときに、 キー操作部 2 0の検索子指示 キ一 (図示せず) を操作する。 すると、 そのキー操作時点を含む予 め定めた時間幅 T Wの区間の音響信号を抽出し、 それを検索子メモ リ 3 2に格納する。 検索子メモリ 3 2は、 検索子単位の格納エリア を有し、 各検索子は、 それぞれ別々の格納エリアに格納される。 この例の場合、 時間幅 T Wの区間は、 キ一操作時点よりもわずか に前の時点から開始するように、 検索子音響信号抽出格納部 3 1は、 バッファメモリを備えている。 そして、 指示された時間幅 T Wの区 間の音響信号を検索子音響信号として、 検索子メモリ 3 2に格納す る
この場合、 検索子は、 複数個が格納可能とされており、 使用者が 検索子の音響信号を指示するごとに、 コントロール部 1 0からの制 御信号により、 検索子メモリ 3 2の検索子格納エリアが更新される。 つまり、 検索子格納エリアアドレスが更新される。 そして、 検索子 音響信号抽出格納部 3 1からの、 使用者の指示により抽出された時 間幅 T Wの区間の検索子の音響信号は、 コントロール部 1 0からの 切り換え制御信号に応じて、 検索子メモリ 3 2の検索子格納エリア の更新に同期してスィツチ回路 S W 5が切り換えられることにより、 順次に、 検索子メモリ 3 2の別々の検索子格納エリアに格納される。 このとき、 図示しないが、 どのような検索子の音響信号を検索子 メモリ 3 2に格納したかを、 キー操作部 2 0を通じてメモ入力する ことができるようにされており、 その検索子のメモ入力が、 検索子 格納エリア番号に対応して、 例えばテーブル形式で表示部 2 4に表 示される。 使用者は、 この表示部 2 4の検索子のテーブルを参照し ながら、 検索したい検索子が格納されている検索子格納ェリァ番号 を指定することにより、 所望の検索子により検索が実行できる。 すなわち、 キー操作部 2 0を通じて、 使用者が検索モードを選択 し、 所定の検索子格納エリア番号を指定すると、 コントロール部 1 0からの制御信号により、 スィツチ回路 S W 6が切り換えられると ともに、 検索子音響信号読出部 3 3により、 検索子メモリ 3 2の指 定された検索子格納ェリアから検索子の音響信号が読み出される。 読み出された検索子の音響信号は、 検索子音響特徴パラメ一夕解 析部 3 4に供給されて解析され、 これより、 当該検索子の音響信号 についての検索子音響特徴パラメ一夕が得られる。 そして、 この検 索子音響特徴パラメ一夕が前述した類似性算出部 2 2に供給され、 前述したようにして、 前記時間幅 T Wの区間ごとに、 検索対象の音 響信号について、 当該検索子の音響信号の検索が行われる。
以上のような構成の音響信号検索処理装置における動作について、 さらに手順を追って説明する。
[検索子登録動作]
この実施の形態の場合、 実際の検索処理に先立ち、 検索子の登録 が行われる。 この例では、 検索子は、 前述したように音響信号の形 で検索子メモリ 3 2に格納されて登録される。 この検索子登録のと きのコントロール部 1 0を主体にした動作のフローチヤ一トは図 6 のようになる。 この図 6の処理ルーチンは、 使用者がキ一操作部 2 0を通じて検索子登録モードを選択したときに開始となる。 以下、 この図 6を参照して、 検索子登録動作について説明する。
まず、 コントロール部 10は、 キー操作部 20を通じての使用者 の選択指示を判定し、 入力音響信号から検索子を抽出するのか、 再 生音響信号から検索子を抽出するのか判定する (ステップ S 10
1)
この判定の結果、 抽出元が、 入力音響信号であると判別したとき には、 コントロール部 10は、 スィッチ回路 SW 1は出力端 b側に、 スィヅチ回路 SW2は入力端 I N側に、 スィヅチ回路 SW4は入力 端 f側に、 それぞれ切り換える (ステップ S 102) 。
また、 抽出元が再生音響信号であると判別したときには、 コント ロール部 10は、 スイッチ回路 SW1は出力端 a側に、 スィッチ回 路 SW2は入力端 PB側に、 スィツチ回路 SW4は入力端 e側に、 それぞれ切り換える (ステップ S 103) 。
ステップ S 102又はステップ S 103の次には、 ステップ S 1 04に進み、 コントロール部 10は、 使用者によるキー操作部 20 を通じた検索子の音響信号部分の指示を待つ。 このとき、 検索子の 抽出元のオーディオ信号は、 オーディオアンプ 15を通じてスビ一 力 16に供給されて、 音響再生される。 使用者は、 そのスピーカ 1 6から放音された音を聴取して、 検索子としたい、 例えば特定話者 など特定の検索子音源として利用したい音響信号部分をキー操作部 20を通じて指示入力する。
そして、 ステップ S 104で、 検索子の音響部分の指示入力を検 出したら、 コントロール部 10は、 検索子メモリ 32の検索子格納 エリアを更新し (ステップ S 105) 、 また、 検索子音響信号抽出 格納部 3 1を制御して、 前述したように、 一定時間幅 T Wの区間の 音響信号を抽出するようにする (ステップ S 1 0 6 ) 。 そして、 抽 出した検索子の音響信号部分を、 検索子メモリ 3 2の、 前記の更新 した検索子格納エリアに書き込むように制御する (ステップ S 1 0 7 ) o
そして、 次に、 キー操作部 2 0を通じて検索子の登録モードの終 了指示があつたかどうか判別し (ステップ S 1 0 8 ) 、 終了指示あ れば、 この検索子の登録モードの処理ルーチンを終了させ、 終了指 示がなければ、 ステップ S 1 0 4に戻り、 使用者による次の検索子 の抽出指示入力を待ち、 上述の動作を繰り返す。
以上のようにして、 検索子メモリ 3 2には、 使用者が入力音響信 号あるいは再生音響信号から抽出した検索子の音響信号を、 登録し て格納しておくことができる。 この場合、 検索子メモリ 3 2のメモ リ容量が十分に余裕がある場合には、 検索子の音響信号は、 消去せ ずに、 蓄積しておくことができる。
この発明では、 音響特徴パラメ一夕を用いて類似性を算出するも のであるので、 蓄積した検索子の音響信号は、 これを抽出したォー ディォ信号から、 当該検索子の音響信号部分と類似する部分を検索 する場合にのみ用いられるのではなく、 これを抽出したものではな い他の検索対象の音響信号について、 その検索子の音響信号部分と 類似する部分を検索する場合にも用いることができる。
したがって、 この第 1図の実施の形態の場合、 予め、 使用者が検 索したい音源についての音響信号を、 前記時間幅 T Wずつ検索子メ モリ 3 2に格納して蓄積しておくことにより、 何時でも必要なとき に、 その検索子を用いた検索を行うことができる。 [検索処理動作]
以上のようにして検索子メモリ 3 2に格納された検索子の音響信 号を用いて、 次のようにして検索処理が実行される。 この検索処理 の処理ルーチンを図 7に示す。 この図 7の処理ルーチンは、 使用者 がキー操作部 2 0を通じて検索処理モードを選択したときに開始と なる。 以下、 この図 7を参照して、 検索処理動作について説明する。 まず、 コントロール部 1 0は、 キー操作部 2 0を通じての使用者 の選択指示を判定し、 検索対象は、 入力音響信号か、 再生音響信号 かを判定する (ステップ S 2 0 1 ) 。
この判定の結果、 検索対象が入力音響信号であると判別したとき には、 コントロール部 1 0は、 スイッチ回路 S W 1は出力端 a側に、 スィツチ回路 S W 2は入力端 I N側に、 スィツチ回路 S W 3は入力 端 d側に、 それぞれ切り換える (ステップ S 2 0 2 ) 。
また、 検索対象が再生音響信号であると判別したときには、 コン トロール部 1 0は、 スィッチ回路 S W 2は入力 P B側に、 スィッチ 回路 S W 3は入力端 c側に、 それぞれ切り換える (ステップ S 2 0 3 ) o
ステップ S 2 0 2又はステップ S 2 0 3の次には、 ステップ S 2 0 4に進み、 コントロール部 1 0は、 使用者により検索子として何 が選択されたかを認識し (ステップ S 2 0 4 ) 、 その選択された検 索子の音響信号を、 検索子メモリ 3 2から読み出すように制御する (ステップ S 2 0 5 ) 。
すると、 メモリ 3 2から読み出された検索子の音響信号は、 検索 子音響信号読出部 3 3を介して検索子音響特徴パラメ一夕解析部 3 4に供給されて、 検索子音響特徴パラメ一夕とされて、 類似性算出 部 2 2に供給される。 類似性算出部 2 2では、 検索対象のオーディ ォ信号の例えば時間幅 T Wの区間ごとの音響特徴パラメ一夕と、 検 索子音響特徴パラメ一夕との前述したような類似性演算がなされて、 両者の類似性の指標である類似度が算出される (ステップ S 2 0 6 ) 。 この例では、 前述したように、 類似度は、 両者の距離 Sとし て求められる。
そして、 この類似度である前記距離 Sが、 予め定めた閾値 S thよ りも小さいか否かを判別し (ステップ S 2 0 7 ) 、 閾値 S thよりも 小さいときには、 検索子に類似する音響信号部分として判定し (ス テツプ S 2 0 8 ) 、 閾値 S thよりも大きいときには、 非類似である と判定する (ステップ S 2 0 9 ) 。 そして、 その判定結果を、 表示 制御部 2 3を介して表示部 2 4の画面に表示する (ステップ S 2 1
0 ) o
そして、 検索対象のオーディオ信号が終了することにより、 ある いは、 使用者の終了指示により、 検索処理が終了したか否かを判定 し (ステップ S 2 1 1 ) 、 終了であれば、 この処理ルーチンを終了 し、 そうでなければ、 ステップ S 2 0 6に戻って、 検索子による検 索を継続する。
以上のようにして、 検索された結果の表示例を図 8に示す。 この 図 8の例は、 検索対象が会議録音の再生音響信号であって、 検索子 が特定の話者 Aである場合である。 この表示例によれば、 会議録音 全体の中のどの時間的位置で話者 Aが発言しているかが示されるこ とになる。
なお、 以上の例では、 検索子は、 一つとして説明したが、 複数個 の検索子を指定し、 その複数個の検索子についての類似性を算出し て、 表示するようにすることもできる。 その場合、 例えば 1 0数ミ リ秒ごとに、 検索子を時分割的に切り換えて、 類似性算出部 2 2で 算出演算を行うようにすればよい。
また、 類似性算出部を複数個設け、 それらの類似性算出部で並列 的に複数個の検索子のそれぞれについての類似性算出を行うように してもよい。
そのように複数個の検索子を設定して検索を行った検索結果の表 示例を図 9に示す。 この表示例は、 会議録音全体の中で、 3名の話 者 A、 B , Cがそれぞれどのような時間区間で発言を行つたかを示 している。
こうして、 この実施の形態によれば、 例えば、 複数の会議参加者 が参加している会議において、 各会議参加者ごとの音響信号を検索 子として予め登録しておけば、 会議の時間経過に伴った各会議参加 者ごとの発言区間を分類して表示することが可能になる。
なお、 以上の説明では、 類似性の判定結果は、 所定の閾値を超え たか否かによる 2値的なものとしたが、 前述の例の場合には、 類似 性の算出結果としての距離 Sの値をそのまま表示に反映するように してもよい。 すなわち、 距離 Sが短ければ短いほど類似度が高いと して、 その類似度の高さに応じて、 図 8 ( B ) に示すように、 時間 区間表示に濃淡を付けて、 表示するようにしてもよい。 例えば、 図 8 ( B ) の例では、 濃淡が濃い区間ほど、 類似性が高いことを示す ようにしている。 また、 濃淡の代わりに、 類似度の高さの違いを表 示色の違いにより、 表示するようにしてもよい。
また、 検索子が複数の場合には、 検索子ごとに類似性判定出力の 表示色を異ならせ、 また、 類似度の高さの違いを表示色の濃度の違 いにより、 表示するようにしてもよい。
なお、 以上の表示例は、 類似性判定出力を検索対象の音響信号の 時間経過に対応して表示したものである。 一方、 検索対象の音響信 号が再生音響信号の場合には、 各時間区間の音響信号の記録媒体 1
3上における記録位置は容易に知ることができる。 したがって、 一 度、 再生音響信号についての検索結果としての類似性判定表示出力 を得たら、 それを表示部 2 3に表示しながら、 図 1 0に示すように、 その類似性判定表示出力に現在再生位置を、 例えば苒生位置力一ソ ルによって対応表示するようにすることもできる。
また、 逆に、 図 1 0の再生位置カーソルを、 使用者が指定できる ようにすることにより、 その指定した再生位置力一ソルの位置から 検索対象の音響信号の再生を行うようにすることもできる。 その場 合には、 検索により、 分類した検索子ごとの音響信号を、 検索対象 の音響信号から抽出して再生することが可能になる。
なお、 検索対象の音響信号と検索子との類似性を算出するのは、 この発明においては、 音響特徴パラメ一夕を用いているので、 波形 パターンが一致するかどうかのパターンマッチング処理を用いる音 声認識などと異なり、 音響信号の時系列波形をそのまま用いる必要 がない。 このため、 再生音響信号を検索対象とする場合、 再生速度 はノーマル速度 ( 1倍速) ではなく、 2倍速や 3倍速というような 高速再生を行っても、 同様の類似性判定出力を得ることができる。 したがって、 検索速度を高速にすることが可能である。
したがって、 検索子を用いた検索を高速再生速度にて行い、 検索 子と類似している音響信号部分を検出したときに、 その部分をノー マル再生するようにすることにより、 検索子に類似する部分のみを 抽出再生することができる。
また、 一旦、 検索を行えば、 記録媒体上のアドレスと、 検索結果 とを対応させることができるので、 その検索結果を用いて、 特定の 検索子と類似する音響信号部分のみを記録媒体から抽出して、 再生 するようにすることも可能である。
以上の効果の説明は、 検索対象が再生音響信号の場合であるが、 この実施の形態では、 入力音響信号を検索対象として、 予め登録し てある検索子を用いて検索して、 入力音響信号について、 検索子ご との分類などを行うことができるという効果もある。 例えば、 複数 個の楽器の音響信号を検索子として登録しておき、 入力音響信号の 各パートが、 どのような楽器を用いて演奏されたものであるかなど を分類表示することができる。
なお、 以上の実施の形態では、 検索子は、 入力音響信号や再生音 響信号から抽出して、 検索子メモリ 3 2に格納するようにしたが、 検索子ライブラリとして複数個の検索子の音響信号を検索子メモリ
3 2に予め記憶しておいても、 もちろんよい。
また、 類似性の算出は、 音響特徴パラメ一夕間の幾何学的距離 S として求めるようにしたが、 幾つかのパラメ一夕から新しいパラメ 一夕を算出し、 それを用いて音響特徴パラメ一夕間の距離を求める ようにすることもできる。
例えば、 上述の例の x, y , zの 3項目の音響特徴パラメ一夕を 用いる場合において、 新しいパラメ一夕を kとしたとき、
k = a y + b z
として、 パラメ一夕 xと、 この新たなパラメ一夕 kとの 2つのパラ メ一夕 (x、 k ) を用いて、 検索対象と検索子の音響特徴パラメ一 夕間の距離を算出するようにしてもよい。 また、 それぞれの音響特 徴パラメ一夕に重み付けを行って、 重要なパラメ一夕に着目した類 似性を算出するようにすることもできる。
また、 検索子メモリ 3 2は、 内蔵のメモリではなく、 メモリカー ドなどの取り出し可能のものであってもよい。 その場合には、 複数 個のメモリカードに、 複数種の検索子を記憶して用意しておき、 メ モリ力一ドを検索対象のオーディオ信号に合わせて交換することに より、 希望する検索対象について、 希望の検索子を用いた検索を容 易に行うことができる。
また、 検索子とする音響信号の音源を用意し、 その音源からの音 響信号を予め入力端子 1 1から入力し、 検索子メモリ 3 2に、 検索 子の音響信号として記憶格納するようにすることもできる。 さらに、 検索子メモリ 3 2に記憶することなく、 検索子の音源からの音響信 号を検索対象の音響信号とは別に入力し、 ノ ソファメモリにその検 索子の音響信号を一時的に蓄えて、 検索に用いるようにしてもよい。 なお、 検索子は、 単一音源からの音響信号に限定されるものでは なく、 入力音響信号や再生音響信号から抽出された所定区間の音響 信号であってもよいことはいうまでもない。
なお、 表示部には、 画像を伴う音響信号の場合には、 画像も一緒 に表示することもできる。 画像を併せて表示することで、 検索を行 つた結果の分類の確認をすることができる。 例えば、 録画内容を音 響信号を使用して検索、 分類することも
可能である。
[第 2の実施の形態]
図 1 1に、 この第 2の実施の形態の音響信号検索処理装置のプロ ック図を示す。 第 1の実施の形態は、 登録検索子として、 音響信号 を格納するようにしたが、 この第 2の実施の形態では、 登録検索子 として、 その音響特徴パラメ一夕を検索子メモリ 3 2に格納するよ うにする。 その他の構成は、 図 1の装置と全く同様であり、 図 1と 同一部分については、 同一符号を付してある。
すなわち、 この第 2の実施の形態においては、 スィッチ回路 S W 4の出力側には、 検索子音響信号抽出部 3 5が設けられる。 これは、 図 1の検索子音響信号抽出格納部 3 1のうちの、 使用者の指示した 検索子の音響信号部分を抽出する手段の部分に相当する。
この検索子音響信号抽出部 3 5で抽出された検索子の音響信号は、 検索子音響特徴パラメ一夕解析部 3 6で解析されて、 音響特徴パラ メ一夕とされ、 検索子音響特徴パラメ一夕格納部 3 7及びスィツチ 回路 S W 5を通じて検索子メモリ 3 2に格納される。 検索子音響特 徴パラメ一夕格納部 3 7は、 格納する対象情報が、 検索子音響特徴 パラメ一夕に変わるだけで、 図 1の検索子音響信号抽出格納部 3 1 のうちの、 検索子として抽出した音響信号部分を検索子メモリ 3 2 に格納する手段に相当し、 前述と同様にして、 各検索子 (この実施 の形態では、 音響特徴パラメ一夕) を検索子メモリ 3 2の別々の検 索子格納エリアに書き込む。
検索子メモリ 3 2に格納された検索子の音響特徴パラメ一夕は、 キー操作部 2 0を通じた使用者の指示に基づいて生成されるコント ロール部 1 0からの制御信号により、 スィツチ回路 S W 6及び検索 子音響特徴パラメ一夕読出部 3 8によって読み出される。 この第 2 の実施の形態の場合には、 読み出されたものは音響特徴パラメ一夕 であるので、 そのまま、 類似性算出部 2 2に供給されて、 検索のた めの類似性算出が実行される。
この第 2の実施の形態は、 検索子メモリ 3 2に検索子音響特徴パ ラメ一夕が格納される点が異なるのみで、 検索子の登録動作や、 検 索子を用いた検索動作は、 前述した第 1の実施の形態と同様に行わ れるものである。 したがって、 この第 2の実施の形態によれば、 上 述した ¾ 1の実施の形態の場合と同様の作用効果が得られる。 また、 上述した第 1の実施の形態と同様の変形例が可能である。
さらに、 この第 2の実施の形態では、 検索子としては、 その音響 信号そのものではなく、 検索子音響特徴パラメ一夕を検索子メモリ 3 2に記憶するので、 一つの検索子当たりの記憶容量が少なくて済 み、 格納して蓄積することができる検索子の数を多くすることが可 能である。
[第 3の実施の形態]
この第 3の実施の形態は、 音響特徴パラメ一夕として、 音響信号 への再合成が可能なものを用いる場合である。 音響特徴パラメ一夕 から音響信号への再合成が可能であることから、 音響信号の記録も、 音響特徴パラメ一夕として記録するようにする。 そして、 この第 3 の実施の形態では、 第 2の実施の形態と同様に、 検索子は、 その音 響特徴パラメ一夕を検索子メモリ 3 2に記憶格納しておくようにす る。
図 1 2は、 この第 3の実施の形態の音響信号検索処理装置のプロ ック図である。 この図 1 2においても、 前述の実施の形態の場合と 同一部分には同一符号を付すことにする。 この第 3の実施の形態で は、 音響特徴パラメ一夕として、 例えばボコーダのパラメ一夕等を 用いる。 図 1 2に示すように、 この第 3の実施の形態の場合には、 入力端 子 1 1を通じて入力音響信号は、 音響特徴パラメ一夕解析部 4 1に 供給されて、 例えばボコーダ方式の音響特徴パラメ一夕に解析され る。 そして、 この音響特徴パラメ一夕解析部 4 1からの音響特徴パ ラメ一夕が、 スィツチ回路 S W 1を通じて音響特徴パラメ一夕記録 部 4 2に供給され、 コントロール部 1 0の制御の下、 この音響特徴 パラメ一夕記録部 4 2により、 入力音響信号の音響特徴パラメ一夕 が記録媒体 1 3に記録される。
そして、 記録媒体 1 3に記録された入力音響信号の音響特徴パラ メータは、 コントロール部 1 0の制御の下、 音響特徴パラメ一夕再 生部 4 3により再生され、 音響信号合成部 4 4に供給される。 この 音響信号合成部 4 4は、 音響特徴パラメ一夕から、 元の音響信号を 合成する。
この音響信号合成部 4 4から得られた再生音響信号は、 スィツチ 回路 S W 2の入力端 P B側を通じ、 オーディオアンプ 1 5を通じて スピーカ 1 6に供給され、 音響再生される。 なお、 入力端子 1 1か らの入力音響信号がスィツチ回路 S W 2の入力端 I N側及びオーデ ィォアンプ 1 5を通じてスピーカ 1 6に供給されて、 音響再生され るのは、 第 1及び第 2の実施の形態の場合と同様である。
そして、 この第 3の実施の形態では、 音響特徴パラメ一夕解析部 2 1は設けられず、 スィツチ回路 S W 3は、 スィツチ回路 S W 1の 出力端 a側を通じて入力音響信号の音響特徴パラメ一夕と、 音響特 徴パラメ一夕再生部 4 3からの再生音響特徴パラメ一夕とのいずれ かを、 キー操作部 2 0を通じた使用者の指示に応じたコントロール 部 1 0からの切り換え制御信号より選択して、 類似性算出部 2 2に 供給する。
一方、 検索子は、 この第 3の実施の形態では、 第 2の実施の形態 と同様に、 検索子音響特徴パラメ一夕を検索子メモリ 3 2に格納す る。 このため、 この第 3の実施の形態の場合には、 音響特徴パラメ —夕解析部 4 1からの音響特徴パラメ一夕が、 スィツチ回路 S W 1 の出力端 b側を通じてスィツチ回路 S W 4の一方の入力端 f に供給 され、 また、 音響特徴パラメ一夕再生部 4 3からの再生音響パラメ 一夕がスィツチ回路 S W 4の他方の入力端 eに供給される。
そして、 スィツチ回路 S W 4がコントロール部 1 0からの切り換 え制御信号により、 検索子の音響特徴パラメ一夕を入力音響信号か ら抽出するか、 再生音響信号から抽出するかに応じて、 入力端 e又 は入力端: のいずれかに切り換えられる。
そして、 このスィツチ回路 S W 4からの音響特徴パラメ一夕が検 索子音響特徴パラメ一夕抽出格納部 4 5に供給される。 前述の第 1 の実施の形態の場合と同様にして、 使用者は、 スピーカからの入力 音響信号又は再生音響信号の音響再生出力を聴取しながら、 検索子 としたい音響信号部分になったときに、 キ一操作部 2 0の検索子指 示キー (図示せず) を操作する。 すると、 検索子音響特徴パラメ一 夕抽出格納部 4 5は、 そのキ一操作時点を含む予め定めた時間幅 T Wの区間の音響信号の音響特徴パラメ一夕を抽出し、 検索子メモリ 3 2の検索子格納部に格納する。
こうして、 検索子メモリ 3 2には、 入力音響信号あるいは再生音 響信号のうちから抽出された検索子の音響信号の音響特徴パラメ一 夕が格納される。 この検索子メモリ 3 2に格納された検索子音響特 徴パラメ一夕は、 前述の第 2の実施の形態と同様にして、 使用者の 指示に応じて、 検索子音響特徴パラメ一夕読出部 38により読み出 されて、 類似性算出部 22に供給される。
検索子の登録動作と、 検索動作は、 前述の 2つの実施の形態とほ ぼ同様であるので、 その詳細は省略する。 このように、 この第 3の 実施の形態も、 検索子メモリ 32に検索子音響特徴パラメ一夕が格 納される点が 4なるのみで、 検索子の登録動作や検索動作は、 前述 した第 1の実施の形態や第 2の実施の形態と同様に行われるもので ある。 したがって、 この第 3の実施の形態の場合も、 上述した第 1 の実施の形態の場合と同様の作用効果が得られ、 また、 上述した第 1の実施の形態と同様の変形例が可能である。
そして、 この第 3の実施の形態の場合には、 特に、 音響特徴パラ メ一夕を音響信号の代わりに記録媒体に記録するので、 記録媒体の 記録容量を有効に活用することができる。 そして、 第 1の実施の形 態や第 2の実施の形態に比べて、 音響特徴パラメ一夕解析部を、 検 索対象と検索子とで共通の一つとすることができて、 構成を簡略化 することができる。
再合成可能な音響特徴パラメ一夕としての具体的な例としては、 MPEG (Moving P i c ture Expe rt s G r oup) 規格の音響圧縮形式 (MPEGオーディオのレイヤ I、 レ ィャ II、 レイヤ III ) デ一夕や ATRAC (Adapt i v e T rans f o rm Acous t i c C o d i n g ) 开式のデ一 夕などを用いる例も挙げられる。
これら MP E Gオーディォ規格や ATRACでは、 人間の聴覚心 理特性を効率良く利用するために、 オーディオ帯域を複数個に細分 化してサブバンド符号化を行っている。 例えば MP EGオーディオ のレイヤ Iでは、 オーディォ信号の全帯域を等間隔の周波数幅で 3 2個のサブバンドに分割し、 それそれの信号を元のサンプリング周 波数の 1/32でサブサンプリングして符号化する。
そこで、 MP EGオーディオ規格の音響圧縮形式のデ一夕や AT R AC形式のデ一夕 (音響圧縮符号化データ) を検索対象とする場 合には、 そのサブバンドデ一夕から、 帯域レベル分布の算出、 主要 帯域周波数の算出、 調波構造の検出、 主要帯域周波数の時間推移の 検出などを行い、 その検出結果を検索子音響特徴パラメ一夕とする。
MP E Gオーディオ規格の音響圧縮形式のデータや ATRAC形 式のデータを用いる方法を、 図 12の例に適用するときは、 入力端 子 1 1からの入力音響信号がアナログ信号やリニア P CM信号の場 合には、 音響特徴パラメ一夕解析部 41では、 前記 MPEG規格の 音響圧縮形式デ一夕や ATRAC形式のデータを生成する。 そして、 記録部 42は、 その音響圧縮デ一夕を記録媒体 13に記録するよう にする。
そして、 検索子音響特徴パラメ一夕抽出格納部 45では、 音響特 徴パラメ一夕解析部 41からの、 あるいは再生部 43からの音響圧 縮デ一夕からサブバンドのデ一夕を生成し、 そのサブバンドのデ一 夕について、 前述のように、 帯域レベル分布の算出、 主要帯域周波 数の算出、 調波構造の検出、 主要帯域周波数の時間推移の検出など を行い、 その検出結果を検索子音響特徴パラメ一夕として、 検索子 メモリ 32に書き込むようにする。
そして、 この場合、 類似性算出部 22の前段には、 図 1や図 1 1 の例と同様に、 音響特徴パラメ一夕解析部を設け、 スィッチ SW1 からの、 あるいは再生部 43からの音響圧縮データからサブバンド のデ一夕を生成し、 そのサブバンドのデータについて、 前述のよう に、 帯域レベル分布の算出、 主要帯域周波数の算出、 調波構造の検 出、 主要帯域周波数の時間推移の検出などを行うようにする。 この 場合の音響特徴パラメ一夕解析部は、 構成が簡単になる。 そして、 類似性算出部 22は、 その解析により得た音響特徴パラメ一夕と、 検索子音響特徴パラメ一夕読出部 38からの検索子音響特徴パラメ 一夕とを比較して、 類比判定を行う。
以上の入力端子 1 1からの入力音響信号がアナログ信号やリニア P CM信号の場合であるが、 I EEE (The I ns t i t ut e o f E l e c t r i c a l and E l e c t r o n i c s E ng i ne e r s, I n c. ) 1394規格のイン夕一フエ —スからのシリアルデジ夕ルデ一夕で入力された場合や、 デジタル 放送受信装置においてデジタル音響圧縮信号として得られる信号が 入力される場合には、 MP EG規格の音響圧縮形式デ一夕や AT R A C形式のデ一夕がそのまま得られるので、 図 12の音響特徴パラ メータ解析部 41は不要となる。
以上説明した音響圧縮信号を検索対象とする検索方法は、 デジ夕 ルオーディオ圧縮形式データを復号化して、 リニア P CMオーディ ォ信号に戻してから音響特徴分析するよりも分析のための時間遅れ が小さくなるとともに、 演算規模が小さくなる、 という利点がある。
[第 4の実施の形態]
第 3の実施の形態では、 音響特徴パラメ一夕を音響信号の代わり に記録媒体に記録するようにしたが、 第 4の実施の形態では、 音響 信号と、 音響特徴パラメ一夕とを、 互いに付随的に記録媒体に記録 するようにする。 この第 4の実施の形態の場合は、 音響信号が音響 特徴パラメ一夕とともに記録されるので、 音響特徴パラメ一夕は、 第 3の実施の形態のように音響信号に再合成できるものに限定され ない。
そして、 この第 4の実施の形態においては、 磁気ディスク、 光磁 気ディスク、 光ディスク、 メモリカードなどの記録媒体へは、 音響 信号に付随して音響特徴パラメ一夕を記録するようにする。 すなわ ち、 音響信号と音響特徴パラメ一夕とは、 音響信号の記録単位区間 (パック、 パケッ ト、 セクタなどの区間) 分ごとに記録媒体に記録 するが、 音響信号の記録単位区間分のデータと、 対応する単位区間 分の音響特徴パラメ一夕は、 隣接した記録エリア等、 互いに対応が とれる形態で、 つまり、 リンクされた構造で記録される。
図 1 3に、 この第 4の実施の形態の音響信号検索処理装置のプロ ック図を示す。 この図 1 3において、 前述の実施の形態の図 1、 図 1 1及び図 1 2に示した各部と同一部分には同一符号を付して、 そ の詳細な説明は省略する。
すなわち、 この第 4の実施の形態では、 オーディオ入力端子 1 1 を通じた入力音響信号は、 スィツチ回路 S W 7を通じて音響信号記 録部 1 2に供給される。 スィツチ回路 S W 7は、 コントロール部 1 0からの切り換え制御信号により、 記録時にオンとされる。 そして、 この第 4の実施の形態では、 音響信号記録部 1 2を通じた入力音響 信号は、 記録データ制御部 5 1に供給される。
また、 入力端子 1 1を通じた入力音響信号は、 音響特徴パラメ一 夕解析部 4 1に供給されて、 音響特徴パラメ一夕に解析される。 こ の音響特徴パラメ一夕解析部 4 1からの音響特徴パラメ一夕は、 検 索対象の入力音響信号の音響特徴パラメ一夕としてスィツチ回路 S W 3の入力端 dに供給されるとともに、 入力音響信号から検索子の 音響特徴パラメ一夕を抽出するために、 スィツチ回路 S W 4の入力 端 f に供給される。 さらに、 音響特徴パラメ一夕解析部 4 1からの 音響特徴パラメ一夕は、 記録デ一夕制御部 5 1に供給される。
記録デ一夕制御部 5 1は、 コントロール部 1 0の制御を受けて、 記録時には、 ^め定められている記録フォーマッ トで、 音響信号と 音響特徴パラメ一夕とを対応付けて記録する。 この例では、 記録デ 一夕制御部 5 1は、 記録時には、 前述したように、 音響信号を記録 単位区間分ごとに、 記録媒体 1 3に記録するとともに、 対応する記 録単位区間分の音響特徴パラメ一夕を、 記録媒体 1 3の、 当該音響 信号記録位置に隣接する位置に記録する。
そして、 上記のような記録フォーマツ トで記録媒体 1 3に記録さ れた入力音響信号及びその音響特徴パラメ一夕は、 読み出しデータ 制御部 5 2により、 コントロール部 1 0の制御を受けて再生される c そして、 読み出しデータ制御部 5 2で記録媒体 1 3から再生された 音響信号は、 音響信号再生部 1 4に供給され、 スィッチ回路 S W 2 の入力端 P B側を通じ、 オーディオアンプ 1 5を通じてスピーカ 1 6に供給されて、 音響再生される。
また、 読み出しデ一夕制御部 5 2で記録媒体 1 3から再生された 対応する音響特徴パラメ一夕は、 検索対象の再生音響信号の音響特 徴パラメ一夕として、 スィツチ回路 S W 3の入力端 cに供給される とともに、 再生音響信号から検索子の音響特徴パラメ一夕を抽出す るために、 スィッチ回路 S W 4の入力端 eに供給される。
さらに、 読み出しデ一夕制御部 5 2で記録媒体 1 3から再生され た音響信号及び音響特徴パラメ一夕は、 他の装置で音響信号につい ての検索を行うために、 外部出力端子 (図示せず) を通じて、 外部 へ転送可能とされている。 したがって、 検索を行う他の装置では、 音響特徴パラメ一夕を作成するために、 音響特徴パラメ一夕解析部 を備える必要はない。
この第 4の実施の形態は、 入力音響信号と、 その音響特徴パラメ 一夕とが、 リンクさせた状態で、 記録データ制御部 5 1により、 記 録媒体に記録され、 また、 互いにリンクされて、 音響信号と、 その 音響特徴パラメ一夕とが、 読み出しデータ制御部 5 2により読み出 されて再生される点が、 前述の実施の形態と異なるが、 音響特徴パ ラメ一夕を用いて検索を行い、 また、 入力音響信号や再生音響信号 について検索子音響特徴パラメ一夕の抽出を行えるようにした点は、 第 3の実施の形態と同様である。
したがって、 この第 4の実施の形態の場合も、 上述した第 1の実 施の形態の場合と同様の作用効果が得られ、 また、 上述した第 1の 実施の形態と同様の変形例が可能である。
そして、 この第 4の実施の形態の場合には、 第 3の実施の形態と 同様に、 第 1の実施の形態や第 2の実施の形態に比べて、 音響特徴 パラメ一夕解析部を、 検索対象と検索子とで共通の一つとすること ができて、 構成を簡略化することができる。 また、 他の検索装置で 検索を行う場合にも、 当該他の検索装置に、 音響特徴パラメ一夕を 供給することができるので、 他の検索装置には、 音響特徴パラメ一 夕解析部は設ける必要がないという利点がある。
なお、 記録する音響信号と、 対応する音響特徴パラメ一夕とは、 リンクして記録媒体に記録されていればよいので、 上述の例のよう に必ずしも隣接して記録される必要はなく、 記録媒体に、 予め音響 信号の記録エリアと音響特徴パラメ一夕の記録エリァを別々に決め ておき、 それぞれの記録エリアの対応関係にある (リンクされてい る) アドレスに、 対応する音響信号と音響特徴パラメ一夕のそれそ れを記録するようにしてもよい。 また、 音響信号と音響特徴パラメ —夕のリンク情報を別に記録して、 そのリンク情報を用いて、 両者 を対応付けて、 再生するようにしても勿論よい。
[第 5の実施の形態]
上述したように、 この発明によれば、 検索対象の音響信号につい て、 音響特徴パラメ一夕によって、 検索子と類似性判定をすること により、 検索が可能であるので、 検索対象の音響信号を記録しなが ら、 指定した検索子についての検索を並行して行うことができる。 したがって、 記録終了時には、 当該検索対象の音響信号についての その検索子についての検索結果が得られる。 そこで、 記録媒体には、 音響信号の記録領域と別個のェリァに、 この検索結果を合わせて記 録することも可能である。
また、 再生音響信号についての検索結果も、 音響信号の記録領域 と別個のエリアを記録媒体に用意することにより、 後から記録媒体 に記録することも可能である。
第 5の実施の形態においては、 以上の点を考慮して、 検索対象の 音響信号とともに、 その検索結果を記録するようにする。
すなわち、 この第 5の実施の形態では、 予め登録した検索子の一 つあるいは複数個を用いて、 記録する入力音響信号についての検索 を、 記録処理に並行して行う。
例えば、 記録媒体 1 3としては、 磁気ディスク、 光磁気ディスク、 光ディスクなどのディスク媒体やメモリ力一ドを用いる。 その場合、 記録時には、 記録媒体上のアドレスを監視しながら、 記録が行われ る。 この第 5の実施の形態では、 検索子による検索の結果、 類似す ると判定された音響信号部分が、 記録媒体上のどのアドレス (記録 位置) に記録されているかを、 その検索子の識別情報に対応して記 憶しておく。 検索子の識別情報としては、 例えば、 この例では、 ス イッチ回路 S W 6の切り換え制御情報 (検索子格納エリア、 つまり 検索子ナンバーに対応) を用いる。
図 1 4は、 この第 5の実施の形態の場合において、 記録終了後の、 検索結果をテーブルとして表したものである。 このテ一ブルは、 記 録媒体に記録された信号についての検索用ィンデックステ一ブルと なる。
この図 1 4において、 検索子名は、 例えば、 検索子の登録時に予 め付与した名称であり、 例えば、 会議録音などの場合には、 会議参 加者名となる。 区間データは、 検索子と類似すると判定された区間 を示すデータで、 その区間の開始アドレス S Tと、 終了アドレス E Dとで表される。 また、 A D R i ( iは整数) は、 記録媒体上のァ ドレス値をそれぞれ示すものである。
この第 5の実施の形態においては、 この検索用ィンデヅクステ一 ブルの情報を、 記録媒体上の予め定めた記録エリアに、 記録音響信 号とは別個に記録するようにする。
この第 5の実施の形態の場合、 この検索用ィンデックステーブル を用いることにより、 例えば特定の検索子と類似する音響信号部分 を抽出して再生 (検索再生と称する) することが容易にできる。 図 1 5は、 その検索再生の際の処理ルーチンを示すものである。 この処理ルーチンは、 キー操作部を通じて、 検索再生指示を行った ときに開始となる。
まず、 記録媒体から検索用ィンデックステーブルを作成するため の検索用ィンデヅクスのデ一夕が読み出される (ステップ S 3 0 1 ) 。 コントロール部 1 0は、 読み出したデ一夕を基に、 図 1 4に 示したような検索用ィンデックステーブルを作成し、 表示画面に表 示する (ステップ S 3 0 2 ) 。
使用者は、 表示された検索用インデックステーブルを見て、 検索 再生したい検索子をキー操作部を通じて入力する。 そこで、 使用者 により指定された検索子を認識する (ステップ S 3 0 3 ) 。 そして、 検索用ィンデヅクステ一ブルを参照し、 その認識した検索子につい て、 類似区間として判定された区間データを認識する (ステップ S 3 0 4 ) 。 そして、 その認識した各区間データで示されるアドレス 区間の音響信号を、 記録媒体から順次読み出して、 再生する (ステ ップ S 3 0 5 ) 。
こうして、 この第 5の実施の形態によれば、 検索子に類似する音 響信号部分のみを簡単に抽出して再生することができる。 もっとも、 この第 5の実施の形態の場合にも、 検索用ィンデックステ一プルに ない検索子を検索子メモリから指定して、 検索を行うことも勿論可 能である。
なお、 上述の第 5の実施の形態の説明では、 検索子の識別情報と 検索子名とを検索用インデックステーブルに含めるようにしたが、 検索子の音響信号を検索子名に替えて、 あるいは併せて記録するよ うにしてもよい。 そのようにすれば、 検索子がどのような音響信号 であつたかを、 それを音響再生することにより、 容易に知ることが できる。 また、 上述の説明では、 検索結果を記録媒体に記録するようにし たが、 コントロール部が管理するメモリに、 記録媒体に対応させて、 検索結果を記録するようにするようにしてもよい。
[その他の実施の形態]
以上の実施の形態では、 検索子は、 予めメモリに登録したり、 別 個に用 ¾するように説明したが、 例えば、 音響信号の記録中に、 使 用者が、 その音響信号について検索子の音響信号部分を指定したと き、 その指定後の音響信号については、 指定した検索子を用いて検 索を行うようにすることもできる。 その場合には、 予め検索子を登 録しておく必要はない。
また、 検索子メモリに登録する検索子は、 入力音響信号や再生音 響信号から抽出する必要もない。 例えば、 検索子としたい音源を用 意し、 その音源からの音響信号を用いて、 検索子を登録することも できる。
また、 検索子として登録する音響信号や音響特徴パラメ一夕を、 例えば、 イン夕一ネッ トなどのネットワークを通じて取得して、 検 索子メモリに登録するようにすることもできる。
また、 例えば記録済み記録媒体を販売するときに、 その記録媒体 に、 検索子の候補を予め一緒に記録するようにしてもよい。 また、 その記録媒体を販売するときに、 検索子の候補を記録したメモリ力 一ドなどを付加して販売するようにしてもよい。
[音響映像検索装置、 音響映像蓄積装置の第 1の実施の形態] 以上説明した実施の形態では、 検索対象の入力信号は、 音響信号 単独の場合であつたが、 音響信号が、 映像信号に関連するものとし てリンクされて、 例えば記録再生される音響映像信号を、 検索対象 の入力信号とすることもできる。
図 16は、 MP EG 2規格で圧縮された音響映像信号を記録再生 する記録再生装置に、 この実施の形態の音響映像検索装置及び音響 映像蓄積装置を適用した場合の構成例を示すプロック図である。 この図 1に示した記録再生装置は、 映像信号及び音響信号を、 M PEG2規格によって圧縮符号化し、 多重化して、 MPEGシステ ムのトランスポ一トストリ一ム (TS : Transpo rt St r eam) として、 ハードディスク装置 (HDD : Ha r d D i s k Dr ive) 内のハードディスクに記録し、 ハードディスク から再生する場合である。
なお、 以下では、 アナログ映像信号及びアナログ音響信号を、 映 像信号及び音響信号と称し、 デジタル映像信号及びデジタル音響信 号は、 デジタル映像デ一夕及びデジタル音響データ、 又は単に映像 デ一夕及び音響デ一夕と称する。
この例では、 記録再生装置 70は、 アナログテレビジョン放送を 受信するアンテナ 61が接続され、 アナログ入力端子 7 IV, 71 A, 71 S、 アナログ出力端子 72 V, 72 A, 72 S、 デジタル 入出力端子 73、 デジタルイン夕フェース 74、 入力処理部 80、 出力処理部 90、 マルチプレクサ/デマルチプレクサ 100、 バッ フアコントロ一ラ 1 10、 ハードディスク装置 120、 同期制御回 路 130、 システムコントローラ 140、 音響検索処理部 150、 操作入力部 160を備える。
ハードディスク装置 120は、 この例では、 3枚のハードデイス ク 121, 122, 123を備え、 そのいずれかにトランスポ一ト ス トリ一ムが記録され、 いずれかからトランスポ一トストリームが 再生されるように構成される。
システムコントローラ 140は、 CPU (Cent r a l P r o c e s s ing Uni t) 141を備え、 そのシステムバス 1 42に ROM (Read Only Memo ry) 143及び1^ AM (Random Ac c e s s Memo ry) 144などが 接続されて構成される。
ROM 143には、 CPU 141が実行すべきプログラムが、 あ らかじめ格納され、 CPU 141は、 そのプログラムを読み出して、 記録再生装置 70の各部を制御する。 RAMI 44には、 CPU 1 41が記録再生装置 70の各部を制御する上で必要な、 その他のプ ログラムゃデ一夕が適宜、 書き込まれる。
操作入力部 160は、 キーボード、 マウス、 ボタン、 スィッチ、 リモートコマンダなどによって構成され、 図示を省略した入出力ィ ン夕フェースを介してシステムコントロ一ラ 140のシステムバス 142に接続される。
音響検索処理部 150は、 前述した第 1の実施の形態から第 5の 実施の形態のうちのいずれかの機能を備えるものとして構成される 部分である。 特に、 この実施の形態は MP EG規格の圧縮符号化デ —夕が検索対象であるので、 前述したように、 第 3の実施の形態の 場合が好適である。
ただし、 この場合、 記録媒体 13は、 ハードディスク装置 120 のハードディスクを用いるようにされており、 このため、 記憶部 1 2又は 42、 再生部 14又は 44などはバッファコントローラ 1 1 0の部分により構成されるので、 前述の各実施の形態の図のうち、 主データとしての音響データの記録再生に関する部分を除く音響検 索処理を行う部分により、 この音響検索処理部 150が構成される。 なお、 検索子メモリ 32は、 音響検索子処理部 150内に設ける こともできるし、 ハードディスク装置 120のハ一ドディスクの一 部の記憶ェリアを用いることもできる。
なお、 デジタル音響圧縮データや、 音響データと映像デ一夕とが リンクされて記録 ¾生される音響映像データでは、 検索や登録の該 当区間を示すリンクされたアドレス情報として、 フレーム番号ゃフ ィ一ルド番号、 PTS (Pre s ent at i on T ime S t amp) 、 バケツ ト番号などが用いられる。
(アナ口グ入力処理及び記録)
アンテナ 61で受信されたアナログテレビジョン放送の信号は、 操作入力部 160での操作に基づくシステムコントロ一ラ 140の 指示によって、 チューナ 81で選局されて、 チューナ 8 1から、 選 択されたチャンネルのコンポジッ ト映像信号及び音響信号が得られ、 そのコンポジッ ト映像信号及び音響信号が、 入力切換回路 82の一 方の入力端に供給される。
入力端子 7 IVには、 外部機器からコンポジッ ト映像信号が、 入 力端子 71 Aには、 外部機器から音響信号が、 入力端子 71 Sには、 外部機器からセパレート映像信号 (輝度信号と色差信号とに分離さ れたもの) が、 それぞれ供給される。
入力端子 7 IVからのコンポジッ ト映像信号、 及び入力端子 71 Aからの音響信号は、 入力切換回路 82の他方の入力端に供給され、 入力切換回路 82がシステムコントローラ 140によって切り換え られて、 入力切換回路 82から、 いずれかのコンポジッ ト映像信号 及び音響信号が選択されて取り出される。 入力切換回路 82からのコンポジッ ト映像信号は、 YC分離回路 83で輝度信号と色差信号に分離されて、 別の入力切換回路 84の 一方の入力端に供給される。 また、 入力端子 71 Sからのセパレー ト映像信号 (輝度信号及び色差信号) が、 入力切換回路 84の他方 の入力端に供給され、 入力切換回路 84がシステムコントローラ 1 40によって切り換えられて、 入力切換回路 84から、 いずれかの 輝度信号及び色差信号が選択されて取り出される。
入力切換回路 84からの輝度信号及び色差信号は、 NTSC (N at i ona l Te l evi s i on Sys t em Co mm i t t e e ) デコーダ 85で、 それぞれ A/D (Ana l o g t o D i g i t a 1) 変換され、 さらにクロマエンコード処理され て、 NT S Cデコーダ 85からコンポーネント映像デ一夕が得られ る。
また、 NT S Cデコーダ 85では、 入力切換回路 84からの輝度 信号から垂直同期信号及び水平同期信号が分離されるとともに、 そ の分離された同期信号に基づいてクロヅク及びフィールド判別信号 が生成され、 これら同期信号、 クロック及びフィールド判別信号が、 同期制御回路 130に供給される。 同期制御回路 130では、 これ らの信号を基準として記録再生装置 70の各部に必要なクロック及 びタイミング信号が生成されて、 記録再生装置 70の各部に供給さ れ 0
NT S Cデコーダ 85からの映像デ一夕は、 プリ映像処理回路 8 6でプリフィル夕リング処理などの処理が施されたのち、 MPEG 映像エンコーダ 87及び出力処理部 90のボスト映像処理回路 92 に供給される。 MP E G映像エンコーダ 87では、 プリ映像処理回路 86からの 映像データに対してブロック D C T (D i s c re t e Co s i n e T r an s f o rm) などの符号化処理が施されて、 映像ェ レメン夕リストリーム (ES : E l ement ary St rea m) が生成され、 その映像エレメン夕リストリームがマルチプレク サ Zデマルチプレクサ 100に供給される。
一方、 入力切換回路 82からの音響信号は、 /0変換器88で デジタル音響デ一夕に変換されたのち、 MP E G音声エンコーダ 8 9及び出力処理部 90の出力切換回路 95に供給される。
MPEG音声エンコーダ 89では、 A/D変換器 88からの音響 デ一夕が MP E G方式によって圧縮符号化されて、 音声エレメン夕 リスト リームが生成され、 その音声エレメン夕リストリームがマル チプレクサノデマルチプレクサ 100に供給される。
マルチプレクサ/デマルチプレクサ 100では、 そのマルチプレ クサにおいて、 MP EG映像エンコーダ 87からの映像エレメン夕 リストリーム及び MP E G音声エンコーダ 89からの音声エレメン 夕リス トリームと各種の制御信号が多重化されて、 MP EGシステ ムのトランスポートストリームが生成され、 そのトランスポ一トス トリームがバッファコントローラ 1 10に送出される。
ノ ヅ フ ァコントローラ 1 10は、 マルチプレクサ/デマルチプレ クサ 100から連続的に入力されるトランスポートストリームを、 ハードディスク装置 120に断続的に送出する。 すなわち、 ハード ディスク装置 120がシーク動作を行っているときには、 書き込み ができないので、 入力されたトランスポ一トストリームをバッファ に一時蓄え、 ハードディスク装置 120が書き込み可能なときに、 そのトランスポ一トストリームを入カレ一トょり高いレートでバヅ ファから読み出してハードディスク装置 120に送出する。 これに よって、 ノ ソファコン トローラ 1 10に連続的に入力される トラン スポ一トストリームは、 途切れることなくハードディスク 12 1〜 123に記録される。
ハ一ドディスク装置 120は、 システムコントローラ 140によ つて制御されて、 ハードディスク 121〜123にトランスポート ス トリームを書き込む。 ノ ソファコントローラ 11ひとハ一ドディ スク装置 120との間のプロ トコル (イン夕フェース) としては、 IDE ^i nt e grat ed Dr ive E l e c t r oni c s ) などが用いられる。
(再生及びアナログ出力処理)
再生時には、 ハードディスク装置 120は、 システムコントロー ラ 140によって制御されて、 ハードディスク 121〜 123から トランスポートス ト リームを読み出し、 ノ ッファコン トローラ 1 1 0に送出する。 ノ ッファコントローラ 1 10は、 記録時とは逆に、 ハードディスク装置 120から断続的に入力されるトランスポート ス トリームを、 連続的なトランスポートス トリームに変換して、 マ ルチプレクサ/デマルチプレクサ 100に供給する。
マルチプレクサ/デマルチプレクサ 100では、 そのデマルチプ レクサにおいて、 その連続的なトランスポ一トストリームのヘッダ が解析処理されることによって、 トランスポートストリームから P ES (Packe t i z ed E l ement ary St r ea m) が分離されて、 MPEG映像音声デコーダ 91に供給される。
MP E G映像音声デコーダ 9 1では、 マルチプレクサ/デマルチ プレクサ 100からの PE Sが映像エレメン夕リストリームと音声 エレメン夕リストリームに分離され、 さらに、 その映像エレメン夕 リストリ一ムが MP E G映像デコーダで復号されてべ一スバンドの 映像データに変換され、 音声エレメン夕リストリームが MP E G音 声デコーダで復号されてべ一スパンドの音響デ一夕に変換される。 変換後の映像データはボス ト映像処理回路 92に供給され、 音響デ 一夕は出力切換回路 95に供給される。
ボスト映像処理回路 92では、 システムコントロ一ラ 140の指 示によって、 MP E G映像音声デコーダ 9 1からの映像デ一夕及び プリ映像処理回路 86からの映像データに対して、 両者の切り換え、 又は合成や、 ボストフィル夕リング処理などの処理が施される。 ポスト映像処理回路 92では、 また、 GUI (Graphi ca 1 Us e r I nt erf ac e) 用に、 代表画面 (静止画) を 生成し、 複数の代表画面を縮小して、 ウィンドウに貼り付ける縮小 静止画表示処理が施され、 処理後の映像データが、 OSD (On S c re en D i s p 1 a y ) 処理回路 93に供給される。
代表画面としては、 例えば番組夕ィ トルの中から特徴的な 1場面 や、 番組の中の見たい場面を素早くアクセスできるようにするため の、 その番組のインデックスポイント (ワンシーン) の画面等があ る。
OSD処理回路 93では、 システムコントロ一ラ 140の指示に よって、 テキスト情報などに対応する画像データを生成して、 ボス 卜映像処理回路 92からの映像デ一夕の、 上記のウインドウ部分の 映像データに重畳する処理が施され、 処理後の映像デ一夕が、 NT S Cエンコーダ 34に供給される。 縮小静止画表示された複数の代 表画面の例を、 図 1 7に示す。 この図 1 7の例では、 1 6枚の縮小 静止画 2 0 0がウィンドウに貼り付けられて表示される。
N T S Cエンコーダ 9 4では、 0 S D処理回路 9 3からの映像デ 一夕 (コンポーネント映像デ一夕) が、 輝度デ一夕と色差デ一夕と に変換された上で、 又は変換されることなくそのまま、 それぞれ D /A ( D i g i t a l t o A n a 1 o g ) 変換されて、 それぞ れアナログ信号のセパレート映像信号及びコンポジッ ト映像信号が 生成される。 そのセパレ一卜映像信号は出力端子 7 2 Sに導出され、 コンポジッ ト映像信号は出力端子 7 2 Vに導出される。
一方、 出力切換回路 9 5では、 システムコントローラ 1 4 0によ つて、 M P E G映像音声デコーダ 9 1からの音響デ一夕と、 AZD 変換器 8 8からの音響デ一夕との、 いずれかが選択されて取り出さ れる。 その選択された音響デ一夕は、 D /A変換器 3 6でアナログ 音響信号に変換されて、 出力端子 7 2 Aに導出される。
出力端子 7 2 Sに導出されたセパレート映像信号、 出力端子 7 2 Vに導出されたコンポジッ 卜映像信号、 及び出力端子 7 2 Aに導出 された音響信号が、 外部のテレビジョン受信機などのモニタ装置 2 に出力されることによって、 モニタ装置 2において、 画像が表示さ れ、 音声が出力される。
(外部装置からの映像音響データの記録再生)
この例では、 記録再生装置 7 0は、 デジタル入出力端子 7 3とマ ルチプレクサ/デマルチプレクサ 1 0 0との間にデジ夕ルイン夕フ エース 7 4が接続されて、 デジタル入出力端子 7 3に外部装置 6 3 を接続することによって、 外部装置 6 3から入力されたトランスポ —トストリームをハ一ドディスク 1 2 1〜 1 2 3に記録し、 ハード ディスク 12 1〜 1 23から再生されたトランスポートストリーム を外部装置 63に出力することができるように構成される。
外部装置 63としては、 I RD (I nt e gr a t e d R e c e i v e r D e c o d e r) やパーソナルコンビュ一夕などの機 器を接続することができる。 デジタルイン夕フ ェース 74としては、 I EE E ( I ns t i t ut e o f E l e c t r i c a l a n d E l e c t r on i c s Eng i ne e r s) 1394デ ジ夕ルイン夕フェースが用いられ、 外部装置 63とデジタル入出 力端子 73とを接続するシリアルバス 64としては、 I EEE 1 3 94シリアルバスが用いられる。
外部装置 63からシリアルパス 64を介してデジタル入出力端子 73に入力されたトランスポートストリームは、 デジタルインタフ エース 74でィン夕フェース処理されてマルチプレクサ/デマルチ プレクサ 100に送出され、 マルチプレクサ/デマルチブレクサ 1 00からバッファコントローラ 1 10に送出されて、 ハ一ドデイス ク装置 1 20によってハ一ドディスク 1 2 1〜 1 23に記録される。 これと同時に、 マルチプレクサ/デマルチプレクサ 100のデマ ルチプレクサで、 記録されるトランスポートストリームから PE S が分離されて、 MP E G映像音声デコーダ 9 1に供給されることに よって、 出力端子 72 V, 72 S及び 72 Aに、 アナログ映像信号 及びアナ口グ音響信号を得ることができる。
再生時には、 ハードディスク装置 1 20によってハードディスク 1 2 1 ~ 123から トランスポートス トリームが読み出されて、 そ の再生されたトランスポ一トストリ一ムが、 バッファコントロ一ラ 1 10に送出され、 ノ ヅファコントローラ 1 1 0からマルチプレク ザ/デマルチプレクサ 1 0 0に送出されて、 デジ夕ルイン夕フエ一 ス 7 4でイン夕フェース処理されてデジタル入出力端子 7 3に出力 され、 デジタル入出力端子 7 3からシリアルバス 6 4を介して外部 装置 6 3に送出されて、 外部装置 6 3に接続されたモニタ装置 7に おいて、 画像が表示され、 音声が出力される。
これと同時に、 マルチプレクサ/デマルチプレクサ 1 0 0のデマ ルチプレクサで、 再生されたトランスポートストリームから P E S が分離されて、 M P E G映像音声デコーダ 9 1に供給されることに よって、 出力端子 7 2 V , 7 2 S及び 7 2 Aに、 再生アナログ映像 信号及び再生アナ口グ音響信号を得ることができる。
(音響検索処理)
前述したように、 音響検索処理部 1 5 0により、 前述した第 1の 実施の形態〜第 5の実施の形態と同様にして、 音響検索することが できる。 この場合に、 特定の検索子音響パラメ一夕を指定して検索 された部分の音響信号だけでなく、 その検索された音響信号部分に 対応する映像信号部分を、 両者のリンク関係から、 検索結果として 抽出することができる。 例えば、 音楽番組の場合には、 音楽が流れ ているシーン部分のみを検索して抽出することができる。
この場合、 検索対象の音響信号は、 ハードディスク装置 1 2 0に 記録された音響データだけではなく、 受信したあるいは入力された 音響デ一夕であっても良いことは、 前述した通りである。 この場合 に、 この実施の形態の場合には、 複数の入力音響データが存在する ので、 ある入力音響映像信号による画像と音声とをモニタ装置 6 2 で視聴しているときに、 他の入力音響映像信号中の音響信号につい て、 検索を行い、 その検索結果の画像部分を、 例えば子画面 (子画 面は検索されたときにのみ表示しても良いし、 常時表示しておいて も良い) として、 視聴している親画面の一部に表示するようにする こともできる。 この機能は、 例えば、 お気に入りの俳優の声紋など を検索子音響パラメ一夕として用い、 その俳優がでてくるシーンを 子画面に衷示するなどの使い方ができる。
また、 図 1 7に示した縮小静止画 2 0 0のそれぞれに対応して、 検索子音響特徴パラメ一夕を登録しておき、 使用者が検索子として 縮小静止画 2 0 0のいずれかを指示したとき、 その指示された縮小 静止画 2 0 0に対応する検索子音響特徴パラメ一夕を用いた音響検 索動作を行うようにすることもできる。
例えば、 縮小静止画には、 特定の人物が表示されており、 その人 物の声紋などを検索子音響特徴パラメ一夕として検索子メモリに記 憶しておき、 その人物の縮小静止画が検索子として指定されたとき に、 音響検索処理を行って、 当該人物が登場して声を出しているシ ーンを抽出することができる。 このように、 縮小静止画に対応して、 検索音響特徴パラメ一夕を登録しておくことにより、 縮小静止画を 検索のためのインデックスとして使用することができる。
また、 逆に、 特定の検索子音響特徴パラメ一夕を指定することに より、 その検索子音響特徴パラメ一夕で検索されたシーンを、 縮小 静止画表示に使用する縮小静止画として登録するようにすることも できる。 例えば、 人物は映し出されていないが、 特定の人物の声紋 などの音響的特徴を含むシーンを、 前記縮小静止画として登録する ことができる。
なお、 検索子音響信号や検索子音響特徴パラメ一夕を放送信号に データとして重畳して提供するようにすることもできる。 使用者は、 提供された検索子の中から所望のものを選択して検索に利用したり、 また、 その提供されたものの中から必要な検索子音響信号や検索子 音響特徴パラメ一夕を検索子メモリ 3 2に登録して保存するように することもできる。
[音響映像検索装置、 音響映像蓄積装置の第 2の実施の形態] 上述の第 1の実施の形態では、 音響信号についてのみ検索子を用 いて検索を行うようにしたが、 この第 2の実施の形態では、 映像信 号についても、 同様にして検索を行うようにする。
すなわち、 この第 2の実施の形態では、 映像信号の検索のために、 画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特徴パラ メ一夕を登録しておくようにする。 この検索子映像特徴パラメ一夕 として抽出する映像の特徴量としては、 例えば、 輝度とその変化、 色合いとその変化、 人物、 物体などの映っているものとその変化な どを用いることができる。
この検索子映像特徴パラメ一夕も、 前述の検索子音響特徴パラメ 一夕と同様に、 入力音響映像信号のうちから、 使用者が指定した区 間の映像信号を解析することにより得ることができるし、 別途、 検 索子とする映像部分からなる映像信号を入力して、 それを解析して 得ることもできる。 また、 パーソナルコンピュータなどで予め解析 して得られた検索子を、 装置に登録するようにすることも、 勿論で きる。
そして、 検索対象の映像信号を解析して得た映像特徴パラメ一夕 と、 検索子映像特徴パラメ一夕とを比較し、 両者の類似性を算出す ることにより、 検索対象の映像信号中から検索子の画像と類似する 画像部分を検索するようにする。 そして、 音響信号についての検索 結果と、 前記映像信号についての検索結果とに基づいて、 入力音響 映像信号中から所定の部分を検索するようにする。
この場合に、 検索子映像特徴パラメ一夕と、 検索子音響特徴パラ メ一夕とは、 それそれ別々の検索子として登録して別々に用いるよ うにしても良いし、 互いに関連付けて登録して用いるようにしても 良い。 例えば、 ある人物の映像の検索子映像特徴パラメ一夕と、 そ の人物の声紋などの検索子音響特徴パラメ一夕とは互いに関連付け て登録しておくと良い。
この第 2の実施の形態においては、 検索に当たっては、 検索子映 像特徴パラメ一夕と、 検索子音響特徴パラメ一夕との両方をそれぞ れ個別に指定して検索を行うことができる。 また、 前記の互いに関 連付けられている検索子映像特徴パラメ一夕及び検索子音響特徴パ ラメ一夕を用いるように検索子の指定をすることもできる。
検索子音響特徴パラメ一夕と検索子映像特徴パラメータの両者を 用いた検索の方法としては、 それぞれのパラメ一夕のいずれかによ り検索された類似部分の全てを検索結果として出力する方法、 両パ ラメ一夕で検索された類似部分のうち、 互いに一部あるいは全部が 重なり合う部分を検索結果として出力する方法などを指定すること ができる。
このときの検索結果は、 検索された部分を、 アドレス情報などで 表示しても良いし、 また、 映像部分については、 検索された部分の 先頭のシーンを前記の縮小静止画にして表示するようにしてもよい。 また、 前述の音響検索処理の各実施の形態と同様に、 検索結果の信 号部分を順次に再生するようにすることもできる。 さらに、 検索結 果と、 検索子とを関連させてメモリに記憶しておき、 検索子を頼り に、 後の時点で読み出して再生するようにすることもできる。
この第 2の実施の形態によれば、 映像特徴量を使用してシーン区 間の検出することと、 音響特徴量を使用してシーン区間を検出する こととを併用することにより、 検索結果のシーン区間を意味あるも のとすることができる。 例えば、 映像的にはシーンが代わっていて も、 ナレーションなど音響的には続いているシーンを、 映像の変化 点で区切られることなく、 検出することができる。
また、 前述の縮小静止画表示用の、 縮小静止画として、 検索子映 像特徴パラメ一夕と検索子音響特徴パラメ一夕とにより検索された 類似部分の重なり部分を抽出するようにすることにより、 映像的だ けでなく音響的にも意味のある縮小静止画を抽出して表示すること ができる。
以上説明したように、 この発明によれば、 検索対象の音響信号と、 検索子としての音響信号とを、 それぞれ音響特徴パラメ一夕に解析 し、 その音響特徴パラメ一夕について比較して、 類比判定すること により検索を行うようにしたことにより、 検索対象の音響信号の記 録時にマーカーなどを打ち込んでおかなくても、 例えば、 特定の話 者の発言部分や、 特定の楽器の演奏部分を、 簡単に検索することが できる。
また、 予め検索子を登録しておくことにより、 その登録したもの から選択した検索子についての検索子を容易に行うことができる。 また、 マーカーを施す場合のように、 一旦記録しなければ検索が できないのではなく、 予め用意した検索子についての検索を、 検索 対象の音響信号について行うことが可能である。
また、 音響映像信号からの任意のシーンの検索を行う場合に、 音 響特徴パラメ一夕と映像特徴パラメ一夕とを用いてシーンの検索を 行うようにすれば、 検索の精度を上げることができ、 また、 音響的 にも映像的にも区切りのよいシ一ン検索ができるようになる。

Claims

求の範囲
1 . 検索子とする 1〜複数の音響信号についての、 音源の構造的 な要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラ メータのそれぞれと、 検索対象の音響信号を解析して得た前記音響
。一
特徴パラメ一夕とを比較し、清両者の類似性を算出することにより、 前記検索対象の音響信号中から前記検索子の音響信号と類似する部 分を検索することを特徴とする音響検索処理方法。
2 . 前記検索子とする 1〜複数の音響信号を用意し、 検索時に、 前記用意されている検索子の音響信号のうちの、 検索子とすべき音 源の音響信号を解析して得た音響特徴パラメ一夕を、 前記類似性の 算出に用いる前記検索子音響特徴パラメ一夕とすることを特徴とす る請求の範囲第 1項に記載の音響検索処理方法。
3 . 前記検索子の音響信号は、 前記検索対象の音響信号中から抽 出して記憶しておくことを特徴とする請求の範囲第 2項記載の音響 検索処理方法。
4 . 検索時に、 前記検索対象の音響信号について使用者が指示操 作をした部分を解析して得たものを前記検索子音響特徴パラメ一夕 とし、 この検索子音響特徴パラメ一夕を用いて、 前記検索対象の音 響信号についての検索を行うことを特徴とする請求の範囲第 1項に 記載の音響検索処理方法。
5 . 予め、 前記 1〜複数の検索子音響特徴パラメ一夕を記憶して おき、 検索時に、 前記記憶されている検索子音響特徴パラメ一夕の 中から読み出したものを、 前記類似性の算出に用いることを特徴と する請求の範囲第 1項に記載の音響検索処理方法。
6 . 前記検索子音響特徴パラメ一夕は、 前記検索対象の音響信号 中から抽出した前記検索子の音響信号を解析して得た音響特徴パラ メータであることを特徴とする請求の範囲第 5項に記載の音響検索 処理方法。
7 . 前記検索子が複数個である場合には、 予め設定された単位時 間ごとに、 検索子を切り換えて、 前記類似性の算出を行うことを特 徴とする請求の範囲第 1項乃至第 5項のいずれか 1項に記載の音響 検索処理方法。
8 . 前記検索子毎の検索結果を、 前記検索対象の音響信号につい て、 時間方向に表示することを特徴とする請求の範囲第 1項乃至第 6項のいずれか 1項に記載の音響検索処理方法。
9 . 前記検索子毎の検索結果を、 前記検索対象の音響信号につい て、 時間方向に表示することを特徴とする請求の範囲第 7項に記載 の音響検索処理方法。
1 0 . 前記検索対象の音響信号のうち、 前記検索の結果、 前記検 索子と類似する部分のみを抽出して再生することを特徴とする請求 の範囲第 1項乃至第 6項のいずれか 1項に記載の音響検索処理方法。
1 1 . 前記検索対象の音響信号のうち、 前記検索の結果、 前記検 索子と類似する部分のみを抽出して再生することを特徴とする請求 の範囲第 7項に記載の音響検索処理方法。
1 2 . 入力音響信号を記録媒体に記録するとともに、 前記入力音 響信号を解析して、 音源の構造的な要素に依存する音響特徴パラメ 一夕を得、 検索子とする 1〜複数の音響信号についての前記音響特 徴パラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 前 記入力音響信号についての前記音響特徴パラメ一夕とを比較し、 両 者の類似性を算出することにより、 前記検索対象の音響信号中から 前記検索子の音響信号と類似する部分を検索し、 その検索結果を、 前記検索子及び前記入力音響信号の前記記録媒体上の記録位置に関 連させて記録するようにすることを特徴とする音響情報蓄積方法。
1 3 . 前記検索結果は、 前記音響信号とともに、 前記記録媒体に 記録することを特徴とする請求の範囲第 1 2項に記載の音響情報蓄 積方法。
1 4 . 検索子とする 1〜複数の音響信号についての前記検索子音 響特徴パラメ一夕のそれぞれは、 前記入力音響信号から、 使用者の 指示に応じて選択抽出した音響信号部分についての解析結果として 求められたものであることを特徴とする請求の範囲第 1 2項又は請 求項第 1 3項のいずれか 1項に記載の音響情報蓄積方法。
1 5 . 前記使用者の指示に応じて選択抽出した音響信号部分につ いての解析結果として求められた前記検索子とする 1〜複数の音響 信号についての前記検索子音響特徴パラメ一夕のそれぞれは、 バッ ファメモリの異なるメモリエリアに記憶され、 前記バッファメモリ から、 前記検索子音響特徴パラメ一夕のそれぞれが読み出されて、 それらの検索子音響特徴パラメ一夕を用いた前記入力音響信号につ いての前記類似性の算出処理による前記類似する部分の検索処理が 行われることを特徴とする請求の範囲第 1 4項に記載の音響情報蓄 積方法。
1 6 . 前記入力音響信号から、 使用者の指示に応じて選択抽出し た 1〜複数個の音響信号部分が、 検索子の音響信号として、 それそ れバヅファメモリの異なるメモリェリァに記憶され、 前記バヅファ メモリから、 前記検索子とする 1〜複数の音響信号がそれぞれ読み 出されるとともに、 それぞれの音響信号が解析されて検索子音響特 徴パラメ一夕とされ、 それらの検索子音響特徴パラメ一夕を用いた 前記入力音響信号についての前記類似性の算出処理による前記類似 する部分の検索処理が行われることを特徴とする請求の範囲第 1 4 項に記載の音響情報蓄積方法。
1 7 . 前記検索結果とともに、 前記検索子となる音響信号の音響 特徴パラメ一夕あるいは前記検索子となる音響信号部分も、 前記記 録媒体に記録することを特徴とする請求の範囲第 1 2項又は請求項 第 1 3項のいずれか 1項に記載の音響情報蓄積方法。
1 8 . 前記検索結果とともに、 前記検索子となる音響信号の音響 特徴パラメ一夕あるいは前記検索子となる音響信号部分も、 前記記 録媒体に記録することを特徴とする請求の範囲第 1 4項に記載の音 響情報蓄積方法。
1 9 . 検索対象の音響信号を、 音源の構造的な要素に依存する音 響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索 子とする音響信号についての前記音響特徴パラメ一夕からなる検索 子音響特徴パラメ一夕と、 前記音響特徴パラメ一夕解析手段からの 前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、 前記 検索対象の音響信号中から前記検索子の音源からの音響信号と類似 する部分を検索する検索手段と、 前記検索手段の結果を表示する結 果表示手段とを備える音響情報検索装置。
2 0 . 前記結果表示手段は、 前記検索手段で算出された前記類似 する部分を、 前記検索対象の音響信号の時間の流れに応じて表示す ることを特徴とする請求の範囲第 1 9項に記載の音響情報検索装置。
2 1 . 1〜複数の前記検索子とする音響信号を保持する保持部と、 検索時に、 前記保持部から選択された検索子の音響信号を読み出す 読み出し手段と、 前記読み出し手段により読み出された検索子の音 響信号を解析して、 前記類似性算出手段に供給する検索子音響特徴 パラメ一夕を得る検索子音響特徴パラメ一夕解析手段とを備えるこ とを特徴とする請求の範囲第 1 9項に記載の音響情報検索装置。
2 2 . 1〜複数の前記検索子音響特徴パラメ一夕を保持する保持 部と、 検索時に、 前記保持部から選択された検索子音響特徴パラメ 一夕を読み出し、 前記類似性算出手段に供給する読み出し手段とを 備えることを特徴とする請求の範囲第 1 9項に記載の音響情報検索
2 3 . 前記検索子の音響特徴パラメ一夕を、 前記検索対象の音響 信号から使用者の指示に従って抽出し、 解析して得て、 前記保持部 に保持する検索子登録手段を設けたことを特徴とする請求の範囲第 2 2項に記載の音響情報検索装置。
2 4 . 前記検索子は複数個である場合に、 予め設定された単位時 間ごとに、 検索子を切り換えて、 前記類似性の算出を行うことを特 徴とする請求の範囲第 1 9項に記載の音響情報検索装置。
2 5 . 検索対象の音響信号を、 音源の構造的な要素に依存する音 響特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索 子とする音響信号についての前記音響特徴パラメ一夕からなる検索 子音響特徴パラメ一夕と、 前記音響特徴パラメ一夕解析手段からの 前記検索対象の音響信号の音響特徴パラメ一夕とを比較して、 前記 検索対象の音響信号中から前記検索子の音源からの音響信号と類似 する部分を検索する検索手段と、 前記検索手段での検索結果に基づ いて、 前記類似する部分のみを抽出して再生する再生手段とを備え る音響情報検索装置。
2 6 . 1〜複数の前記検索子とする音響信号を保持する保持部と、 検索時に、 前記保持部から選択された検索子の音響信号を読み出す 読み出し手段と、 前記読み出し手段により読み出された検索子の音 響信号を解析して、 前記類似性算出手段に供給する検索子音響特徴 パラメ一夕を得る検索子音響特徴パラメ一夕解析手段とを備えるこ とを特徴とする請求の範囲第 2 5項に記載の音響情報検索装置。
2 7 . 前記検索子の音響信号を、 前記検索対象の音響信号から、 使用者の指示に従って抽出して前記保持部に保持する検索子登録手 段を設けたことを特徴とする請求の範囲第 2 6項に記載の音響情報
2 8 . 1〜複数の前記検索子音響特徴パラメ一夕を保持する保持 部と、 検索時に、 前記保持部から選択された検索子音響特徴パラメ 一夕を読み出し、 前記類似性算出手段に供給する読み出し手段とを 備えることを特徴とする請求の範囲第 2 5項に記載の音響情報検索
2 9 . 前記検索子の音響特徴パラメ一夕を、 前記検索対象の音響 信号から使用者の指示に従って抽出し、 解析して得て、 前記保持部 に保持する検索子登録手段を設けたことを特徴とする請求の範囲第
2 8項に記載の音響情報検索装置。
3 0 . 前記検索子は複数個である場合に、 予め設定された単位時 間ごとに、 検索子を切り換えて、 前記類似性の算出を行うことを特 徴とする請求の範囲第 2 5項に記載の音響情報検索装置。
3 1 . 入力音響信号を記録媒体に記録する記録手段と、 前記入力 音響信号を、 音源の構造的な要素に依存する音響特徴パラメ一夕に 解析する音響特徴パラメ一夕解析手段と、 検索子とする 1〜複数の 音響信号についての前記音響特徴パラメ一夕からなる検索子音響特 徴パラメ一夕のそれぞれと、 前記入力音響信号についての前記音響 特徴パラメ一夕とを比較し、 両者の類似性を算出することにより、 前記検索対象の音響信号中から前記検索子の音源からの音響信号と 類似する部分を検索する検索手段とを備え、 前記検索手段の検索結 果を、 前記検索子及び前記入力音響信号の前記記録媒体上の記録位 置に関連させて記録するようにすることを特徴とする音響情報蓄積
3 2 . 前記検索結果は、 前記入力音響信号とともに、 前記記録媒 体に記録することを特徴とする請求の範囲第 3 1項に記載の音響情
3 3 . 使用者の指示に応じて前記入力音響信号から選択抽出した 音響信号部分についての解析を行って、 前記検索子とする 1〜複数 の音響信号についての前記検索子音響特徴パラメ一夕のそれぞれを 得る検索子音響特徴パラメータ解析手段と、 前記検索子音響特徴パ ラメ一夕解析手段で求められた検索子音響特徴パラメ一夕を、 前記 検索子として使用するために保持する検索子音響特徴パラメ一夕保 持手段とを備えることを特徴とする請求の範囲第 3 1項又は第 3 2 項のいずれか 1項に記載の音響情報蓄積装置。
3 4 . 前記入力音響信号から、 使用者の指示に応じて選択抽出し た音響信号部分を、 前記検索子として抽出する検索子抽出手段と、 前記検索子抽出手段で抽出された検索子の音響信号を記憶する検索 子音響信号保持手段と、 前記検索子保持手段から読み出された検索 子の音響信号から検索子音響特徴パラメ一夕を得る検索子音響特徴 パラメ一夕解析手段とを備え、 前記検索子音響特徴パラメ一夕解析 手段で求められた検索子音響特徴パラメ一夕を前記検索手段で前記 入力音響信号についての前記音響特徴パラメ一夕と比較することを 特徴とする請求の範囲第 3 1項又は第 3 2項のいずれか 1項に記載
3 5 . 前記検索子の音響信号を、 前記検索対象の音響信号から、 使用者の指示に従って抽出して前記検索子音響信号保持部に保持す る検索子登録手段を設けたことを特徴とする請求の範囲第 3 4項に 記載の音響情報蓄積装置。
3 6 . 前記検索子は複数個である場合に、 予め設定された単位時 間ごとに、 検索子を切り換えて、 前記類似性の算出を行うことを特 徴とする請求の範囲第 3 1項又は第 3 2項のいずれか 1項に記載の
3 7 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号から、 所定の部分を検索する音響映像検索処理方法におい て、 検索子とする 1〜複数の音響信号についての、 音源の構造的な 要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ 一夕のそれぞれと、 検索対象の前記入力信号中の音響信号を解析し て得た前記音響特徴パラメ一夕とを比較し、 両者の類似性を算出す ることにより、 前記入力信号中の音響信号中から前記検索子の音響 信号と類似する部分を検索し、 その検索した部分を、 前記入力信号 についての検索結果とすることを特徴とする音響映像検索処理方法。
3 8 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号から、 所定の部分を検索する音響映像検索処理方法におい て、 検索子とする 1〜複数の音響信号についての、 音源の構造的な 要素に依存する音響特徴パラメ一夕からなる検索子音響特徴パラメ —夕のそれぞれと、 検索対象の前記入力信号中の音響信号を解析し て得た前記音響特徴パラメ一夕とを比較し、 両者の類似性を算出す ることにより、 前記入力信号中の音響信号中から前記検索子の音響 信号と類似する部分を検索するとともに、 検索子とする 1〜複数の 映像信号についての、 画像の特徴を表す映像特徴パラメ一夕からな る検索子映像特徴パラメ一夕のそれぞれと、 検索対象の前記入力信 号中の映像信号を解析して得た前記映像特徴パラメ一夕とを比較し、 両者の類似性を算出することにより、 前記入力信号中の映像信号中 から前記検索子の画像と類似する画像部分を検索し、 前記音響信号 についての検索結果と、 前記映像信号についての検索結果とに基づ いて、 前記入力信号中から所定の部分を検索することを特徴とする 音響映像検索処理方法。
3 9 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号を記録媒体に記録するとともに、 前記入力信号中の音響信 号を解析して、 音源の構造的な要素に依存する音響特徴パラメ一夕 を得、 検索子とする 1〜複数の音響信号についての前記音響特徴パ ラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 前記入 力信号中の音響信号についての前記音響特徴パラメ一夕とを比較し、 両者の類似性を算出することにより、 前記入力信号中の音響信号中 から前記検索子の音響信号と類似する部分を検索し、 その検索結果 を、 前記検索子と前記入力信号の前記記録媒体上の記録位置とに関 連させて記録するようにすることを特徴とする音響映像情報蓄積方 法。
4 0 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号を記録媒体に記録するとともに、 検索子とする 1〜複数の 音響信号についての、 音源の構造的な要素に依存する音響特徴パラ メータからなる検索子音響特徴パラメ一夕のそれぞれと、 検索対象 の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ一 夕とを比較し、 両者の類似性を算出することにより、 前記入力信号 中の音響信号中から前記検索子の音響信号と類似する部分を検索し、 さらに、 検索子とする 1〜複数の映像信号についての、 画像の特徴 を表す映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそ れそれと、 検索対象の前記入力信号中の映像信号を解析して得た前 記映像特徴パラメ一夕とを比較し、 両者の類似性を算出することに より、 前記入力信号中の映像信号中から前記検索子の画像と類似す る画像部分を検索し、 前記音響信号及び映像信号についての検索結 果を、 前記検索子と前記入力信号の前記記録媒体上の記録位置とに 関連させて記録するようにすることを特徴とする音響映像情報蓄積 方法。
4 1 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号中の前記音響信号を、 音源の構造的な要素に依存する音響 特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索子 とする音響信号についての前記音響特徴パラメ一夕からなる検索子 音響特徴パラメ一夕と、 前記音響特徴パラメ一夕解析手段からの前 記検索対象の音響信号の音響特徴パラメ一夕とを比較して、 前記検 索対象の音響信号中から前記検索子の音源からの音響信号と類似す る部分を検索する検索手段と、 前記検索手段の結果を表示する結果 表示手段とを備える音響映像情報検索装置。
4 2 . 前記結果表示手段は、 前記検索手段で検索された部分の映 像信号による画像を表示することを特徴とする請求の範囲第 4 1項 記載の音響映像情報検索装置。
4 3 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号中の前記音響信号を、 音源の構造的な要素に依存する音響 特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索子 とする音響信号についての前記音響特徴パラメ一夕からなる検索子 音響特徴パラメ一夕と、 前記音響特徴パラメ一夕解析手段からの前 記検索対象の音響信号の音響特徴パラメ一夕とを比較して、 前記検 索対象の音響信号中から前記検索子の音源からの音響信号と類似す る部分を検索する検索手段と、 前記検索手段での検索結果に基づい て、 前記類似する部分に対応する前記入力信号部分を抽出して再生 する再生手段とを備える音響映像情報検索装置。
4 4 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号中の前記音響信号を、 音源の構造的な要素に依存する音響 特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索子 とする音源についての前記音響特徴パラメ一夕からなる検索子音響 特徴パラメータと、 前記音響特徴パラメータ解析手段からの前記入 力信号中の音響信号の音響特徴パラメ一夕とを比較して、 前記入力 信号中の音響信号中から前記検索子の音源からの音響信号と類似す る部分を検索する音響部分検索手段と、 前記入力信号中の映像信号 を、 画像の特徴を表す映像特徴パラメ一夕に解析する映像特徴パラ メータ解析手段と、 検索子とする 1〜複数の映像信号についての前 記映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞ れと、 前記映像特徴パラメ一夕解析手段からの前記入力信号中の映 像信号の映像特徴パラメ一夕とを比較して、 前記入力信号中の映像 信号中から前記検索子の映像信号と類似する部分を検索する映像部 分検索手段と、 前記音響部分検索手段及び映像部分検索手段の結果 を表示する結果表示手段とを備える音響映像情報検索装置。
4 5 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号中の前記音響信号を、 音源の構造的な要素に依存する音響 特徴パラメ一夕に解析する音響特徴パラメ一夕解析手段と、 検索子 とする音源についての前記音響特徴パラメ一夕からなる検索子音響 特徴パラメ一夕と、 前記音響特徴パラメ一夕解析丰段からの前記入 力信号中の音響信号の音響特徴パラメ一夕とを比較して、 前記入力 信号中の音響信号中から前記検索子の音源からの音響信号と類似す る部分を検索する音響部分検索手段と、 前記入力信号中の映像信号 を、 画像の特徴を表す映像特徴パラメ一夕に解析する映像特徴パラ メ一夕解析手段と、 検索子とする 1〜複数の映像信号についての前 記映像特徴パラメ一夕からなる検索子映像特徴パラメ一夕のそれぞ れと、 前記映像特徴パラメ一夕解析手段からの前記入力信号中の映 像信号の映像特徴パラメ一夕とを比較して、 前記入力信号中の映像 信号中から前記検索子の映像信号と類似する部分を検索する映像部 分検索手段と、 前記音響部分検索手段及び映像部分検索手段での検 索結果に基づいて決定される前記入力信号部分を抽出して再生する 再生手段とを備える音響映像情報検索装置。
4 6 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号を記録媒体に記録する記録手段と、 前記入力信号中の音響 信号を解析して、 音源の構造的な要素に依存する音響特徴パラメ一 夕に解析する音響特徴パラメ一夕解析手段と、 検索子とする 1〜複 数の音響信号についての前記音響特徴パラメ一夕からなる検索子音 響特徴パラメ一夕のそれぞれと、 前記入力信号中の音響信号につい ての前記音響特徴パラメ一夕とを比較し、 両者の類似性を算出する ことにより、 前記入力信号中の音響信号中から前記検索子の音響信 号と類似する部分を検索する音響部分検索手段とを備え、 前記音響 部分検索手段の検索結果を、 前記検索子と前記入力信号の前記記録 媒体上の記録位置とに関連させて記録するようにすることを特徴と する音響映像情報蓄積装置。
4 7 . 映像信号と、 その映像信号に関連する音響信号とからなる 入力信号を記録媒体に記録する記録手段と、 検索子とする 1〜複数 の音響信号についての、 音源の構造的な要素に依存する音響特徴パ ラメ一夕からなる検索子音響特徴パラメ一夕のそれぞれと、 検索対 象の前記入力信号中の音響信号を解析して得た前記音響特徴パラメ 一夕とを比較し、 両者の類似性を算出することにより、 前記入力信 号中の音響信号中から前記検索子の音響信号と類似する部分を検索 する音響部分検索手段と、 検索子とする 1〜複数の映像信号につい ての、 画像の特徴を表す映像特徴パラメ一夕からなる検索子映像特 徴パラメ一夕のそれぞれと、 検索対象の前記入力信号中の映像信号 を解析して得た前記映像特徴パラメ一夕とを比較し、 両者の類似性 を算出することにより、 前記入力信号中の映像信号中から前記検索 子の画像と類似する画像部分を検索する映像部分検索手段とを備え、 前記音響部分検索手段及び映像部分検索手段の検索結果を、 前記検 索子と前記入力信号の前記記録媒体上の記録位置とに関連させて記 録するようにすることを特徴とする音響映像情報蓄積装置。
PCT/JP2000/005771 1999-08-26 2000-08-25 Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage WO2001016935A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US09/830,222 US7260226B1 (en) 1999-08-26 2000-08-25 Information retrieving method, information retrieving device, information storing method and information storage device
EP00955045A EP1132890B1 (en) 1999-08-26 2000-08-25 Information retrieving/processing method, retrieving/processing device, storing method and storing device
DE60038535T DE60038535T2 (de) 1999-08-26 2000-08-25 Verfahren und vorrichtung, speicherverfahren und - vorrichtung zur informationsbeschaffung und verarbeitung
KR1020017005244A KR100782286B1 (ko) 1999-08-26 2000-08-25 정보의 검색 처리 방법, 검색 처리 장치, 저장 방법 및저장 장치
US11/656,402 US8165306B2 (en) 1999-08-26 2007-01-23 Information retrieving method, information retrieving device, information storing method and information storage device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP23914599 1999-08-26
JP11/239145 1999-08-26

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US09/830,222 A-371-Of-International US7260226B1 (en) 1999-08-26 2000-08-25 Information retrieving method, information retrieving device, information storing method and information storage device
US11/656,402 Division US8165306B2 (en) 1999-08-26 2007-01-23 Information retrieving method, information retrieving device, information storing method and information storage device

Publications (1)

Publication Number Publication Date
WO2001016935A1 true WO2001016935A1 (fr) 2001-03-08

Family

ID=17040435

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/005771 WO2001016935A1 (fr) 1999-08-26 2000-08-25 Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage

Country Status (6)

Country Link
US (2) US7260226B1 (ja)
EP (2) EP1887561A3 (ja)
KR (1) KR100782286B1 (ja)
CN (1) CN1178201C (ja)
DE (1) DE60038535T2 (ja)
WO (1) WO2001016935A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893431A (zh) * 2015-12-09 2016-08-24 乐视网信息技术(北京)股份有限公司 媒体检索方法及设备

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60038535T2 (de) * 1999-08-26 2009-07-02 Sony Corp. Verfahren und vorrichtung, speicherverfahren und - vorrichtung zur informationsbeschaffung und verarbeitung
US7620545B2 (en) * 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
JP3876855B2 (ja) * 2003-07-10 2007-02-07 ヤマハ株式会社 オートミックスシステム
US7738664B2 (en) * 2003-10-07 2010-06-15 Kddi Corporation Apparatus for fault detection for parallelly transmitted audio signals and apparatus for delay difference detection and adjustment for parallelly transmitted audio signals
GB0502844D0 (en) 2005-02-11 2005-03-16 Univ Edinburgh Storing digital content for access using a captured image
JPWO2006100980A1 (ja) * 2005-03-18 2008-09-04 パイオニア株式会社 音声信号処理装置及びそのためのコンピュータプログラム
US7974420B2 (en) * 2005-05-13 2011-07-05 Panasonic Corporation Mixed audio separation apparatus
KR100782825B1 (ko) * 2005-12-01 2007-12-06 삼성전자주식회사 오디오 컨텐츠 선택 정보 제공 방법 및 장치와 그 방법을수행하는 프로그램이 기록된 기록매체
JP4065314B2 (ja) * 2006-01-12 2008-03-26 松下電器産業株式会社 対象音分析装置、対象音分析方法および対象音分析プログラム
JP4527679B2 (ja) * 2006-03-24 2010-08-18 学校法人早稲田大学 音声の類似度の評価を行う方法および装置
JP2008154143A (ja) * 2006-12-20 2008-07-03 Sony Corp 受信データ記録システム、受信機、受信機の制御方法、レコーダ、データ記録方法およびプログラム
US20100319015A1 (en) * 2009-06-15 2010-12-16 Richard Anthony Remington Method and system for removing advertising content from television or radio content
WO2011041008A1 (en) * 2009-10-01 2011-04-07 Richard Anthony Remington Method for removing advertising content
JP5568953B2 (ja) * 2009-10-29 2014-08-13 ソニー株式会社 情報処理装置、シーン検索方法及びプログラム
JP2011199847A (ja) * 2010-02-25 2011-10-06 Ricoh Co Ltd 会議システムの端末装置、会議システム
JP5333517B2 (ja) * 2011-05-26 2013-11-06 ヤマハ株式会社 データ処理装置およびプログラム
CN102522084B (zh) * 2011-12-22 2013-09-18 广东威创视讯科技股份有限公司 一种将语音数据转换为文本文件的方法和系统
CN103390409A (zh) * 2012-05-11 2013-11-13 鸿富锦精密工业(深圳)有限公司 电子装置及其侦测色情音频的方法
CN103116494B (zh) * 2013-01-25 2016-05-25 中兴通讯股份有限公司 自动化测试平台测试输出信息提取方法和装置
KR102184987B1 (ko) * 2013-11-15 2020-12-01 엘지전자 주식회사 영상 표시 장치 및 그 동작 방법
KR102255152B1 (ko) * 2014-11-18 2021-05-24 삼성전자주식회사 가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램
CN106682505B (zh) * 2016-05-04 2020-06-12 腾讯科技(深圳)有限公司 一种病毒检测方法、终端、服务器及系统
CN113646756A (zh) * 2019-04-26 2021-11-12 索尼集团公司 信息处理装置、方法以及程序

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05334861A (ja) * 1992-06-03 1993-12-17 Japan Radio Co Ltd 音声検索装置
JPH07105235A (ja) * 1993-10-08 1995-04-21 Sharp Corp 画像検索方法及び画像検索装置
JPH08265660A (ja) * 1995-03-20 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音楽管理方法および装置
JPH099199A (ja) * 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
JPH10307580A (ja) * 1997-05-06 1998-11-17 Nippon Telegr & Teleph Corp <Ntt> 音楽検索方法および装置
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2791036B2 (ja) * 1988-04-23 1998-08-27 キヤノン株式会社 音声処理装置
JP3171744B2 (ja) 1994-03-15 2001-06-04 シャープ株式会社 音声及び動画の検索装置
JP3664499B2 (ja) 1994-08-16 2005-06-29 富士通株式会社 音声情報の処理方法及びその装置
JPH09106339A (ja) 1995-10-11 1997-04-22 Toshiba Corp 情報処理装置およびデータ格納方法
DE60038535T2 (de) * 1999-08-26 2009-07-02 Sony Corp. Verfahren und vorrichtung, speicherverfahren und - vorrichtung zur informationsbeschaffung und verarbeitung
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
EP1244093B1 (en) * 2001-03-22 2010-10-06 Panasonic Corporation Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus and methods and programs for implementing the same
US7738664B2 (en) * 2003-10-07 2010-06-15 Kddi Corporation Apparatus for fault detection for parallelly transmitted audio signals and apparatus for delay difference detection and adjustment for parallelly transmitted audio signals
US20060195322A1 (en) * 2005-02-17 2006-08-31 Broussard Scott J System and method for detecting and storing important information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05334861A (ja) * 1992-06-03 1993-12-17 Japan Radio Co Ltd 音声検索装置
JPH07105235A (ja) * 1993-10-08 1995-04-21 Sharp Corp 画像検索方法及び画像検索装置
JPH08265660A (ja) * 1995-03-20 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音楽管理方法および装置
JPH099199A (ja) * 1995-06-19 1997-01-10 Sony Corp 映像信号記録/再生装置
JPH10307580A (ja) * 1997-05-06 1998-11-17 Nippon Telegr & Teleph Corp <Ntt> 音楽検索方法および装置
JPH10319948A (ja) * 1997-05-15 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる楽器音の音源種類判別方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
H. SOLTAU ET AL.: "Recognition of music types", PROCEEDINGS OF 1998 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, vol. 2, 12 May 1998 (1998-05-12) - 15 May 1998 (1998-05-15), pages 1137 - 1140, ISBN0-7803-4428-6, IEEE CAT. NO. 98CH36181, XP002933355 *
K. MELIH ET AL.: "Audio source type segmentation using a perceptually based representation", PROCEEDINGS OF THE FIFTH INTERNATIONAL SYMPOSIUM ON SIGNAL PROCESSING AND ITS APPLICATIONS, ISSPA'99, vol. 1, 22 August 1999 (1999-08-22) - 25 August 1999 (1999-08-25), pages 51 - 54, ISBN1-86435-451-8, IEEE CAT. NO. 99EX359, XP002933356 *
KUNIO KASHIWANO ET AL.: "note recognition mechanisms in the OPTIMA processing architecture for music scene analysis", TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J79-D-II, no. 11, 25 November 1996 (1996-11-25), pages 1751 - 1761, ISSN0915-1923, XP002933357 *
KUNIO KASHIWANO ET AL.: "Sound source identification using adaptive template mixtures - Formulation and application to music stream segregation", IPSJ SIG NOTES (SIGMUS), vol. 97, no. 18, 20 February 1997 (1997-02-20), pages 55 - 60, 97-MUS-19-11, ISSN0919-6072, XP002933358 *
See also references of EP1132890A4 *
T. LAMBROU ET AL.: "Classification of audio signal using statistical features on time and wavelet transform domains", PROCEEDINGS OF 1998 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, vol. 6, 12 May 1998 (1998-05-12) - 15 May 1998 (1998-05-15), pages 3621 - 3624, ISBN0-7803-4428-6, IEEE CAT. NO. 98CH36181, XP002933354 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893431A (zh) * 2015-12-09 2016-08-24 乐视网信息技术(北京)股份有限公司 媒体检索方法及设备

Also Published As

Publication number Publication date
DE60038535T2 (de) 2009-07-02
US20070127735A1 (en) 2007-06-07
EP1132890A1 (en) 2001-09-12
KR20010089358A (ko) 2001-10-06
US8165306B2 (en) 2012-04-24
EP1132890A4 (en) 2005-08-17
US7260226B1 (en) 2007-08-21
EP1887561A3 (en) 2008-07-02
EP1132890B1 (en) 2008-04-09
EP1887561A2 (en) 2008-02-13
KR100782286B1 (ko) 2007-12-07
CN1327573A (zh) 2001-12-19
CN1178201C (zh) 2004-12-01
DE60038535D1 (de) 2008-05-21

Similar Documents

Publication Publication Date Title
US8165306B2 (en) Information retrieving method, information retrieving device, information storing method and information storage device
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
JP4584250B2 (ja) 映像処理装置、映像処理装置の集積回路、映像処理方法、及び映像処理プログラム
CN101534407B (zh) 信息记录装置
JP3615195B2 (ja) コンテンツ記録再生装置およびコンテンツ編集方法
JP4442585B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
WO2000036833A1 (fr) Procede et appareil permettant de retrouver vocalement des scenes video ou audio
WO2007074755A1 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4513165B2 (ja) 番組記録方法及び番組記録装置及び番組記録再生装置及び番組記録再生方法
JP2004153764A (ja) メタデータ制作装置及び検索装置
JPWO2007046171A1 (ja) 記録再生装置
JP4913288B2 (ja) 情報信号処理装置及び情報信号処理方法
KR101230746B1 (ko) 음악데이터와 동시 출력을 위한 동기화된 영상데이터 생성방법과 그 동기화 출력을 위한 재생 방법
US6285982B1 (en) Sound decompressing apparatus providing improved sound quality during special reproducing such as forward search reproducing and reverse search reproducing
JP2006054517A (ja) 情報提示装置、方法及びプログラム
JP2001298711A (ja) 画像記録再生装置および方法、並びに記録媒体
JP2002314932A (ja) 記録再生装置
JP4287243B2 (ja) 放送番組記録装置、放送番組再生装置、放送番組記録再生装置及び放送番組記録再生方法
KR20050054937A (ko) 시청각 데이터 스트림을 메모리에 저장하는 방법
JPH08205044A (ja) 情報提供制御装置及び情報提供制御方法
JP5188619B2 (ja) 情報記録装置
JP2004072306A (ja) ビデオカメラ及びビデオ再生装置
JP2000092435A (ja) 信号特徴抽出方法及びその装置、音声認識方法及びその装置、動画編集方法及びその装置
JP2006254257A (ja) 視聴制限装置
JP2006333340A (ja) 情報再生装置、情報再生方法及びコンピュータプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 00802218.6

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 1020017005244

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2000955045

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09830222

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2000955045

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020017005244

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 2000955045

Country of ref document: EP