WO2004079718A1 - 情報検出装置及び方法、並びにプログラム - Google Patents

情報検出装置及び方法、並びにプログラム Download PDF

Info

Publication number
WO2004079718A1
WO2004079718A1 PCT/JP2004/001397 JP2004001397W WO2004079718A1 WO 2004079718 A1 WO2004079718 A1 WO 2004079718A1 JP 2004001397 W JP2004001397 W JP 2004001397W WO 2004079718 A1 WO2004079718 A1 WO 2004079718A1
Authority
WO
WIPO (PCT)
Prior art keywords
identification
information
type
section
frequency
Prior art date
Application number
PCT/JP2004/001397
Other languages
English (en)
French (fr)
Inventor
Yasuhiro Toguri
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP04709697A priority Critical patent/EP1600943B1/en
Priority to US10/513,549 priority patent/US8195451B2/en
Priority to DE602004023180T priority patent/DE602004023180D1/de
Publication of WO2004079718A1 publication Critical patent/WO2004079718A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection

Definitions

  • TECHNICAL FIELD The present invention relates to the same type of audio and music by extracting features from audio, music, an audio signal including audio, or an information source including the audio signal.
  • TECHNICAL FIELD The present invention relates to an information detection device and method for detecting a continuous section of a program, and a program.
  • multimedia contents and broadcast contents include audio signals as well as video signals, which is very useful information in content classification and scene detection.
  • efficient information retrieval and information management can be performed by identifying and detecting the audio part and the music part of the audio signal included in the information.
  • ⁇ ⁇ 133 1–1 334 has 13 features including 4Hz modulation energy, low energy frame rate, spectral roll-off point, spectral centroid, spectral variation (Flux), zero crossing rate, etc.
  • the volume is used to identify speech and music, and the performance of each is compared and evaluated.
  • the spectrogram is a representation of the spectrum as image information with the vertical axis representing frequency and the horizontal axis representing time, with the spectra arranged in the time direction. Examples of inventions using this feature include, for example, the documents “Minami, Akutsu, Hamada and Tonomura,“ Video Indexing Using Sound Information and Its Applications ”, IEICE Transactions D-II, 1998, J. 81-D-II, No. 3, p.
  • music often consists of many instruments, singing voices, sound effects, and rhythms of percussion instruments. Therefore, if the audio data is identified every short time, even during a continuous music section, it is not only the part that can be identified as music, but the part that should be judged as audio in the short term, Or it often contains parts that need to be classified into other types.
  • an obvious music or voice part may be identified as an incorrect type due to an identification error. The same applies to types other than voice and music.
  • a part that should be regarded as a continuous section in the long term may be cut off in the middle, or Has a problem that a temporary noise portion that cannot be regarded as a continuous section is regarded as a continuous section.
  • the present invention has been proposed in view of such a conventional situation, and when detecting a continuous section of music, voice, etc. during an audio data, it is regarded as the same type in a long term. It is an object of the present invention to provide an information detecting apparatus and method for correctly detecting a continuous section to be performed, and a program for executing such information detecting processing all at once on a computer.
  • an information detection apparatus and method analyze a feature amount of an audio signal included in an information source and classify and identify the type of the audio signal for each predetermined time unit. Then, the classified identification information is recorded in the identification information storage means. Then, the identification information is read from the identification information storage means, and an identification frequency for each predetermined time section longer than the time unit is calculated for each type of the audio signal. Detect a section.
  • this information detection apparatus and its method for example, when the above-mentioned identification frequency of an arbitrary type is equal to or more than a first threshold and the state of being equal to or more than the first threshold continues for a first time or more, the type Is detected, and when the identification frequency is equal to or less than the second threshold and the state in which the identification frequency is equal to or less than the second threshold continues for a second time or more, the end of the type is detected.
  • the identification frequency a value obtained by averaging the likelihood of identification of an arbitrary type for each time unit in the time section, or the number of identifications in the arbitrary time section of the type can be used.
  • a program according to the present invention causes a computer to execute the above-described information detection processing.
  • FIG. 1 is a diagram showing a schematic configuration of an information detection device according to the present embodiment.
  • FIG. 2 is a diagram illustrating an example of a recording format of identification information.
  • FIG. 3 is a diagram showing an example of a time section for calculating the identification frequency.
  • FIG. 4 is a diagram showing an example of a recording format of the index information.
  • FIG. 5 is a diagram for explaining how to detect the start of a music continuous section.
  • FIG. 6 is a diagram for explaining how to detect the end of the music continuous section.
  • FIGS. 7A to 7C are flowcharts showing a continuous section detection process in the information detection device.
  • BEST MODE FOR CARRYING OUT THE INVENTION voice data is classified and classified into several types such as conversational voice and music for each predetermined time unit, and the start position and the end of a continuous section in which data of the same type are continuous. This is applied to an information detection device that records section information such as a position on a storage device or a recording medium.
  • voice data is identified as voice or music and a continuous voice section or a continuous music section is detected.However, not only a voice section and a music section but also a cheerful section and a silent section are detected. It does not matter.
  • the music genre may be identified and classified, and each continuous section may be detected.
  • FIG. 1 shows a schematic configuration of an information detection device according to the present embodiment.
  • an information detection device 1 includes an audio input unit 10 that reads an audio data of a predetermined format as block data D 10 for each predetermined time unit, and a predetermined time.
  • a voice type identification unit 11 that identifies the type of the block data D 10 for each unit to generate identification information D 11, converts the identification information D 11 into a predetermined format, and converts the identification information D after conversion.
  • Identification frequency calculation unit 15 that calculates identification frequency D 15 for each type (speech, music, etc.) using identification information D 14, and evaluation of identification frequency D 15 to start continuous sections of the same type
  • the section start and end judgment unit 16 detects the position and end position, and sets it as section information D 16.
  • a section information output section 17 converts the section information D 16 into a predetermined format, and records it on a storage device and a recording medium 18 as index information D 17.
  • the storage device and the recording medium 13 and 18 include a storage device such as a memory and a magnetic disk, a storage medium such as a semiconductor memory (such as a memory card), or a CD-R.
  • a storage medium such as a semiconductor memory (such as a memory card), or a CD-R.
  • a recording medium such as an OM can be used.
  • the voice input unit 10 reads voice data as block data D 10 for each predetermined time unit, and reads the block data D 10 as voice. This is supplied to the type identification unit 11.
  • the speech type identification unit 11 identifies and classifies the type of the block data D 10 every predetermined time unit by analyzing the feature amount of the speech, and supplies the identification information D 11 to the identification information output unit 12. .
  • the unit of time for identification is preferably about one second to several seconds.
  • the identification information output unit 12 converts the identification information D 11 supplied from the audio type identification unit 11 into a predetermined format, and records the converted identification information D 12 on the storage device and the storage medium 13.
  • FIG. 2 shows an example of a recording format of the identification information D12. In the example of the format shown in Fig. 2, the "time” indicating the position during the entire audio data, the "type code” indicating the type at the time position, and the likelihood of the identification are shown.
  • the “probability” is a value indicating the certainty of the identification result, such as the likelihood obtained by an identification method such as the posterior probability maximization method or the vector quantization distortion obtained by the vector quantization method.
  • the reciprocal of can be used.
  • the identification information input unit 14 reads the identification information D 13 recorded in the storage device / recording medium 13, and supplies the read identification information D 14 to the identification frequency calculation unit 15. Note that the read timing may be read in real time when the identification information output unit 12 records the identification information D 12 on the storage device / recording medium 13.
  • the identification frequency calculation unit 15 calculates an identification frequency for each type in a predetermined time section for each predetermined time unit, and obtains the identification frequency information. D 15 is supplied to the section start / end determination unit 16.
  • Figure 3 shows an example of the time interval for calculating the classification frequency. FIG. 3 shows that every several seconds, the voice data is music (M) or voice (S), and the voice recognition frequency P s (t).
  • the length of the time section Len is preferably, for example, about several seconds to several tens of seconds.
  • the identification frequency can be obtained, for example, by averaging the likelihood at the time identified by the type in a predetermined time section.
  • the speech recognition frequency P s (t) at time t is obtained as in the following equation (1).
  • p (t ⁇ k) indicates the certainty of the discrimination at the time (t ⁇ k).
  • the discrimination frequency P s (t) can be calculated using only the number of discriminations, as in equation (2) below. .
  • the identification frequency can be calculated in exactly the same way.
  • the section start / end determination unit 16 uses the identification frequency information D 15 supplied from the identification frequency calculation unit 15, the section start / end determination unit 16 detects the start position and end position of the continuous section of the same type, and the section information D 16 And supplies it to the section information output unit 17.
  • the section information output section 17 converts the section information D 16 supplied from the section start / end determination section 16 into a predetermined format, and stores it as index information D 17 in a storage device. Record on recording medium 18.
  • an example of the recording format of the index information D 17 is shown in FIG.
  • “section number” indicating the number or identifier of a continuous section
  • “type code” indicating the type of the continuous section
  • start position and “start position” indicating the start time and end time of the continuous section End position
  • FIG. 5 is a diagram illustrating a method of detecting the start of a music continuous section by comparing music identification frequency with a threshold.
  • the identification type at each time is M (music) and S at the top of the figure.
  • the vertical axis is the music identification frequency Pm (t) at time t.
  • the threshold P 0 of the identification frequency P m (t) for the start determination is set to 3Z5
  • the threshold H 0 of the number of identifications is set to 6.
  • the identification frequency Pm (t) When the identification frequency Pm (t) is calculated for each predetermined time unit, the identification frequency in the time section Le 11 at point A in the figure? 111 (1 :) becomes 3/5 and becomes the threshold P 0 or more for the first time. After that, the discrimination frequency Pm) is continuously held at the threshold P 0 or more, and the start of music is detected for the first time at the point B in the figure where the state of the threshold P 0 or more is held for consecutive H0 times (sec) .
  • the actual start position of the music is slightly before the point A at which the identification frequency Pm (t) first exceeds the threshold value P0.
  • FIG. 6 is a diagram illustrating a state in which the end of the music continuation section is detected by comparing the music identification frequency with a threshold.
  • M indicates that music was identified
  • S indicates that speech was identified.
  • the vertical axis is the music identification frequency Pm (t) at time t.
  • the threshold P of the identification frequency Pm (t) for the end determination 1 is set to 2/5, and the threshold H1 of the number of times of identification is set to 6.
  • the end detection threshold P1 may be the same as the start detection threshold P0.
  • the discrimination frequency Pm (t) in the time section L en at the point C in the figure becomes 2Z5, and for the first time becomes the threshold P1 or less.
  • the discrimination frequency Pm (t) is kept below the threshold P1 continuously, and the end of the music is stopped for the first time at point D in the figure where the state below the threshold P1 is kept for HI times (seconds). To detect.
  • the actual end position of the music is slightly before the point C at which the identification frequency Pm (t) has become equal to or less than the threshold value P1 for the first time.
  • K 2
  • a position that is 3 away from point C is detected as the music end position.
  • step S1 an initial process is performed in step S1. Specifically, it is assumed that the current time t is 0, and the in-section flag indicating that it is in a certain type of continuous section is FALSE, that is, it is not in a continuous section. Also, the count value that counts the number of times that the state where the identification frequency P (t) is equal to or larger than the threshold or equal to or smaller than the threshold is set to 0.
  • step S2 the type at time t is identified. If the information has already been identified, the identification information at time t is read.
  • step S3 it is determined whether or not the end of the data has been reached from the result of the identification or reading, and if the end of the data has been reached (Yes), the processing is terminated. On the other hand, if it is not the data end (No), the process proceeds to step S4.
  • step S4 the identification frequency P (t) at time t of the type (for example, music) for which a continuous section is to be detected is calculated.
  • step S5 it is determined whether or not the section flag is TRUE, that is, whether the section is in a continuous section. If the flag is TRUE (Yes), the process proceeds to step S13. If not (No), that is, FAL SE If so, proceed to step S6.
  • step S6 it is determined whether or not the identification frequency P (t) is equal to or greater than a threshold value P0 for start detection.
  • the identification frequency P (t) is less than the threshold value P0 (N0)
  • the value of the count is reset to 0 in step S20, and the time t is increased by 1 in step S21 and the step Return to S2.
  • the identification frequency P (t) is less than the threshold value P0 (Yes) the process proceeds to step S7.
  • step S7 it is determined whether or not the count value is 0. If the count is 0 (Yes), X is stored as a start candidate time in step S8, and the process proceeds to step S9. Increase the counter value by 1.
  • X is, for example, the position as described in FIG.
  • the process proceeds to step S9, and the count value is incremented by one.
  • step S10 it is determined whether or not the count value has reached the threshold value H0. If the count value has not reached the threshold value H0 (No), the process proceeds to step S21, and the time t is set. Increase by 1 and return to step S2. On the other hand, if the threshold value H0 has been reached (Yes), the process proceeds to step S11.
  • step S11 the stored start candidate time X is determined as the start time.
  • step S12 the count value is reset to 0, the flag during the section is changed to TRUE, and in step S21, The time t is incremented by 1, and the process returns to step S2.
  • step S13 it is determined whether or not the identification frequency P (t) is equal to or less than the end detection threshold value P1.
  • the identification frequency P (t) is larger than the threshold value P1 (No)
  • the counter value is reset to 0 in step S20, and the time t is increased by 1 in step S21 and the step S2
  • the process proceeds to step S14.
  • step S14 it is determined whether or not the value of power input is 0.
  • step S15 If it is 0 (Yes), Y is stored as an end candidate time in step S15, and step S15 is performed. Go to 16 and increase the county count by one. Where Y is explained in Figure 6, for example It is a position. On the other hand, if the count value is not 0 (No), the process proceeds to step SI6, and the count value is increased by one.
  • step S17 it is determined whether or not the value of the counter has reached the threshold value H1. If the counter value has not reached the threshold value H1 (No), the process proceeds to step S21, where B temple time t And return to step S2. On the other hand, if the threshold value HI has been reached (Yes), the flow proceeds to step S18.
  • step S18 the stored end candidate time Y is determined as the end time.
  • step S19 the counter value is reset to 0, and the flag during the section is changed to FALSE.
  • step S21 the time t And return to step S2.
  • the audio signal in the information source is identified for each type (category) for each predetermined time unit, and the identification frequency of the type is evaluated.
  • the identification frequency of a certain type becomes equal to or higher than a predetermined threshold value for the first time, and the state of being equal to or higher than the threshold value continues for a predetermined time
  • the start of the continuous section of the type is started. If the detection frequency is below the predetermined threshold for the first time and the state where the frequency is below the threshold continues for a predetermined period of time, the end of the continuous section of that type is detected. It is possible to accurately detect the start position and the end position of the continuous section even if there is a typical sound mixing or some identification errors.
  • the hardware configuration has been described.
  • the CPU Central Processing Unit
  • the computer program can be provided by being recorded on a storage medium or a recording medium, and can also be provided by being transmitted via the Internet or other transmission media.
  • INDUSTRIAL APPLICABILITY According to the above-described present invention, the audio signal included in the information source is classified and classified into types (categories) such as music and voice for each predetermined time unit, and the classification frequency of the type is evaluated. When detecting continuous sections of the same type, even if there is temporary noise such as noise in the continuous sections, or if there is some identification error, the start and end positions of the continuous sections Can be accurately detected.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

 情報検出装置(1)において、音声種別識別部(11)は、情報源における音声信号を所定の時間単位毎に音楽や音声などの種別(カテゴリ)に識別分類し、記憶装置・記憶媒体(13)は、その識別情報を記録する。識別頻度計算部(15)は、所定の時間単位毎に、該時間単位よりも長い所定の時間区間における種別毎の識別頻度を計算し、区間開始終了判定部(16)は、ある種別の識別頻度が初めて所定の閾値以上となり、且つその閾値以上である状態が所定の時間だけ連続した場合にその種別の連続区間の開始を検出し、識別頻度が初めて所定の閾値以下となり、且つその閾値以下である状態が所定の時間だけ連続した場合にその種別の連続区間の終了を検出する。

Description

明細書 情報検出装置及び方法、 並びにプログラム 技術分野 本発明は、 音声、 音楽、 音響を含む音声信号、 又はその音声信号を含む情報源 から特徴量を抽出することにより、 音声や音楽などの同一種別の連続区間を検出 する情報検出装置及びその方法、 並びにプログラムに関する。
本出願は、 日本国において 20 0 3年 3月 6日に出願された日本特許出願番号 20 0 3 - 0 6 0 3 8 2を基礎として優先権を主張するものであり、 この出願は 参照することにより、 本出願に援用される。 背景技術 放送システムやマルチメディアシステム等において、 映像や音声の大量のコン テンッを効率よく管理、 分類し、 容易に検索可能とすることは重要であるが、 こ れにはコンテンツ中のどの部分がどのような情報をもっているかを知ることが不 可欠である。
ここで、 多くのマルチメディアコンテンツ、 放送コンテンツは、 映像信号と共 に音声信号を含んでおり、 これはコンテンツの分類やシーンの検出において、 非 常に有用な情報である。 特に、 情報に含まれる音声信号の音声部分と音楽部分と を識別して検出することで、 効率的な情報検索や情報管理が行える。
ところで、 音声と音楽とを識別するための技術は、 従来から数多く研究されて おり、 零交差数、 パワーの変動、 スペクトルの変動などを特徴量として用いて識 別する手法が提案されている。
例えば、 文献 「 J · サゥンダース (J. Saunders) , 『放送された音声/音楽の リアリレ夕ィム識別 (Real— time discrimination of broadcast speech/mus ic) 』 , (米国) , 電気電子技術者学会報、 音響 ·音声 ·信号処理に関する国際会議 (Pr oc. IEEE Int. Conf. on Acoustics, Speech, Signal Processing) , 1996年, p. 993— 9 96」 では、 零交差数を用いて音声 ·音楽の識別を行っている。 また、 文献 ΓΕ. シエイァ一 (E. Scheire) 及び M. スラニー (M. Slaney) , 『ロバストな多特性音声/音楽識別器の作製及ぴ評価 (Construction and evalu at ion of a robust mul t if eature speech/music discriminator) 』 , (米国) , 電気電子技術者学会報、 音響 '音声 ·信号処理に関する国際会議 (Proc. IEEE In t. Conf. on Acoustics, Speech, Signal Processing) , 1 997年, ρ· 1 33 1— 1 334」 では, 4Hz変調エネルギー、 低エネルギーフレーム率、 スぺク トルロールオフ点、 スペクトルセントロイ ド、 スペクトル変動 (Flux)、 零交差率 などを含めた 1 3個の特徴量を用いて音声 '音楽を識別し、 それぞれの性能を比 較評価している。
さらに、 文献 「M. J . ケア (M. J. Care) 、 E. S . パリス (E. S. Parris) 及 び H. ロイド · トーマス (H. Lloyd- Thomas) , 『音声, 音楽を識別するための特 徵比較 (A comparison of features for speech, music discrimination) 』 ,
(米国) , 電気電子技術者学会報、 音響 ·音声 ·信号処理に関する国際会議 (Pr oc. IEEE Int. Conf. on Acoustics, Speech, Si nal Processing) , 1999年 3月, p. 149— 1 52」 では、 ケプストラム係数、 デルタケプストラム係数、 振幅、 デルタ振幅、 ピッチ、 デルタピッチ、 零交差数、 デルタゼロ交差数を特徴 量とし、 それぞれの特徴量に混合正規分布モデルを用いることで、 音声 '音楽を 識別している。
この他、 音楽のスぺクトルピークが特定周波数に安定したまま時間方向に持続 するという特徴に基づいた検出手法も研究されている。 ここで、 スペクトルピ一 クの安定性は、 スぺクトログラムにおける時間方向の直線成分の有無としても表 現される。 スペクトログラムとは、 縦軸を周波数、 横軸を時間とし、 スペクトル を時間方向に並べて画像情報として表現したものである。 この特徴を用いた発明 としては、 例えば文献 「南、 阿久津、 浜田及び外村, 『音情報を用いた映像イン デクシングとその応用』 , 電子情報通信学会論文誌 D— I I, 1998年, 第 J 81— D— I I巻, 第 3号, p. 529— 537」 及ぴ日本公開特許公報平 10 - 187 182号が挙げられる。 このような所定の時間毎に音声や音楽などの種別を識別分類する技術を応用す ることで、 音声データ中において同一種別の連続区間の開始 ·終了位置を検出す ることが可能である。
しかしながら、 上述した音声や音楽などの種別を識別分類する技術を直接用い て同一種別の連続区間を検出するには、 次のような問題がある。
例えば音楽 (楽曲) は、 多くの楽器、 歌唱音声、 効果音、 打楽器によるリズム などから構成されることが多い。 したがって、 音声データを短時間毎に識別した 場合、 連続した楽曲区間中であっても、 必ずしも音楽と識別し得るような部分ば かりではなく、 短期的にみれば音声と判定されるべき部分、 或いは他の種別に分 類されるべき部分がしばしば含まれる。 会話音声の連続区間を検出する場合も同 様であり、 連続した会話区間中であっても、 短期的にみれば無音部分や、 音楽な どの雑音が一瞬入ることもしばしば起こり得る。 また、 明らかな音楽や音声の部 分であっても、 識別誤りによって誤った種別に識別されてしまうこともある。 音 声、 音楽以外の種別の場合も同様である。
したがって、 短時間毎の音声 ·音楽などの種別識別結果を直接用いて連続区間 を検出する方法では、 長期的に見れば連続区間と見なされるべき部分が途中で分 断されたり、 逆に長期的には連続区間と見なせない一時的な雑音部分を連続区間 と見なしてしまう問題が発生する。
一方、 このような問題を避けるために識別のための分析時間を長くとれば、 識 別の時間分解能が低下し、 頻繁に音楽 ·音声などが切り替わる場合に検出率が低 下するという問題が発生する。 発明の開示 本発明は、 このような従来の実情に鑑みて提案されたものであり、 音声デ一夕 中の音楽や音声などの連続区間を検出する際に、 長期的にみて同一種別と見なさ れるべき連続区間を正しく検出する情報検出装置及びその方法、 並びにそのよう な情報検出処理をコンビュ一夕に実行させるプログラムを提供することを目的と する。 上述した目的を達成するために、 本発明に係る情報検出装置及びその方法では、 情報源に含まれる音声信号の特徴量を分析して、 該音声信号の種別を所定の時間 単位毎に分類識別し、 分類識別された識別情報を識別情報蓄積手段に記録する。 そして、 上記識別情報蓄積手段から上記識別情報を読み込み、 上記音声信号の種 別毎に上記時間単位よりも長い所定の時間区間毎の識別頻度を計算し、 この識別 頻度を用いて同一種別の連続区間を検出する。
この情報検出装置及ぴその方法では、 例えば、 任意の種別の上記識別頻度が第 1の閾値以上となり、 且つ該第 1の閾値以上である状態が第 1の時間以上連続し た場合に該種別の開始を検出し、 上記識別頻度が第 2の閾値以下となり、 且つ該 第 2の閾値以下である状態が第 2の時間以上連続した場合に該種別の終了を検出 する。
ここで、 上記識別頻度としては、 任意の種別の上記時間単位毎の識別の確から しさを上記時間区間で平均したもの、 或いは任意の種別の上記時間区間における 識別回数を用いることができる。
また、 本発明に係るプログラムは、 上述した情報検出処理をコンピュータに実 行させるものである。
本発明の更に他の目的、 本発明によって得られる具体的な利点は、 以下に説明 される実施例の説明から一層明らかにされるであろう。 図面の簡単な説明 図 1は、 本実施の形態における情報検出装置の概略構成を示す図である。
図 2は、 識別情報の記録フォーマツトの一例を示す図である。
図 3は、 識別頻度を計算する時間区間の一例を示す図である。
図 4は、 ィンデックス情報の記録フォーマツトの一例を示す図である。
図 5は、 音楽連続区間の開始を検出する様子を説明するための図である。
図 6は、 音楽連続区間の終了を検出する様子を説明するための図である。
図 7 A乃至図 7 Cは、 同情報検出装置における連続区間検出処理を示すフロー チヤ一トである。 発明を実施するための最良の形態 以下、 本発明を適用した具体的な実施の形態について、 図面を参照しながら詳 細に説明する。 この実施の形態は、 本発明を、 所定の時間単位毎に音声データを 会話音声や音楽等の幾つかの種別に識別分類し、 同一種別のデー夕が連続する連 続区間の開始位置、 終了位置等の区間情報を記憶装置又は記録媒体に記録する情 報検出装置に適用したものである。
なお、 音声データを幾つかの種別に分類識別する手法は、 従来から多数研究さ れているが、 本発明では識別する種別及びその識別手法は特定しない。 以下では、 一例として音声データを音声又は音楽に識別し、 音声連続区間や音楽連続区間を 検出するものとして説明するが、 音声区間や音楽区間のみならず、 歓声区間や無 音区間を検出するようにしても構わない。 また、 音楽のジャンルを識別分類し、 それぞれの連続区間を検出するようにしても構わない。
先ず、 本実施の形態における情報検出装置の概略構成を図 1に示す。 図 1に示 すように、 本実施の形態における情報検出装置 1は、 所定フォーマットの音声デ 一夕を所定の時間単位毎にブロックデータ D 1 0として読み込む音声入力部 1 0 と、 所定の時間単位毎にブロックデータ D 1 0の種別を識別して識別情報 D 1 1 を生成する音声種別識別部 1 1と、 識別情報 D 1 1を所定のフォーマツ卜に変換 し、 変換後の識別情報 D 1 2を記憶装置 ·記録媒体 1 3に記録する識別情報出力 部 1 2と、 記憶装置 ·記録媒体 1 3'に記録された識別情報 D 1 3を読み込む識別 情報入力部 1 4と、 読み込んだ識別情報 D 1 4を用いて各種別 (音声 ·音楽な ど) の識別頻度 D 1 5を計算する識別頻度計算部 1 5と、 識別頻度 D 1 5を評価 して同一種別の連続区間の開始位置及び終了位置などを検出し、 区間情報 D 1 6 とする区間開始終了判定部 1 6と、 区間情報 D 1 6を所定のフォーマットに変換 し、 ィンデックス情報 D 1 7として記憶装置 ·記録媒体 1 8に記録する区間情報 出力部 1 7とから構成されている。
ここで、 記憶装置 ·記録媒体 1 3 , 1 8としては、 メモリや磁気ディスクなど の記憶装置、 半導体メモリ (メモリカード等) などの記憶媒体、 或いは C D— R O Mなどの記録媒体などを用いることができる。
以上のような構成を有する情報検出装置 1において、 音声入力部 1 0は、 音声 データを所定の時間単位毎のブロックデ一夕 D 1 0として読み込み、 そのブロッ クデ一夕 D 1 0を音声種別識別部 1 1に供給する。
音声種別識別部 1 1は、 音声の特徴量を分析することで所定の時間単位毎にプ ロックデータ D 1 0 種別を識別分類し、 識別情報 D 1 1を識別情報出力部 1 2 に供給する。 ここでは一例として、 ブロックデータ D 1 0を音声又は音楽に識別 分類するものとする。 なお、 識別する時間単位は 1秒乃至数秒程度が好ましい。 識別情報出力部 1 2は、 音声種別識別部 1 1から供給された識別情報 D 1 1を 所定のフォーマツトに変換し、 変換後の識別情報 D 1 2を記憶装置 ·記憶媒体 1 3に記録する。 ここで、 識別情報 D 1 2の記録フォーマットの一例を図 2に示す。 図 2のフォーマット例では、 音声デ一夕中における位置を示す 「時刻」 と、 その 時刻位置における種別を示す 「種別コード」 と、 その識別の確からしさを示す
「確からしさ」 とが記録されている。 「確からしさ」 とは、 その識別結果の確実 さを表す値であり、 例えば事後確率最大化法などの識別手法で得られる尤度や、 べクトル量子化の手法によって得られるべクトル量子化歪の逆数などを用いるこ とができる。
識別情報入力部 1 4は、 記憶装置 ·記録媒体 1 3に記録された識別情報 D 1 3 を読み込み、 読み込んだ識別情報 D 1 4を識別頻度計算部 1 5に供給する。 なお、 読み込むタイミングとしては、 識別情報出力部 1 2が記憶装置 ·記録媒体 1 3に 識別情報 D 1 2を記録する際にリアルタイムで読み込んでもよく、 識別情報 D 1
2の記録が終了した後に読み込んでもよい。
識別頻度計算部 1 5は、 識別情報入力部 1 4から供給された識別情報 D 1 4を 用いて、 所定の時間単位毎に所定の時間区間における種別毎の識別頻度を計算し、 識別頻度情報 D 1 5を区間開始終了判定部 1 6に供給する。 識別頻度を計算する 時間区間の一例を図 3に示す。 この図 3は、 音声データが音楽 (M ) であるか音 声 (S ) であるかを数秒毎に識別し、 時刻 t 0における音声の識別頻度 P s ( t
0 )及び音楽の識別頻度 P m ( t 0 )を、 図中 L e nで表される時間区間における音 声 (S ) と音楽 (M ) の識別情報 (識別回数及びその確からしさ) から求める例 を示したものである。 なお、 時間区間 L e nの長さは、 例えば数秒乃至数十秒程 度が好ましい。
ここで、 種別毎の識別頻度を計算する具体例を説明する。 識別頻度は、 例えば その種別に識別された時刻における確からしさを所定の時間区間で平均すること で求めることができる。 例えば、 時刻 tにおける音声の識別頻度 P s (t)は、 以 下の式 ( 1 ) のように求められる。 ここで、 式 ( 1 ) において、 p ( t - k )は時 刻(t - k)における識別の確からしさを示す。
Len-1
∑p(t-k>s(t-k) , tの翻が音声
^(t)=^ ^ たたし、 s(t)Hoそれ以外 · · · (1)
また、 式 ( 1) において確からしさが全て 1であると仮定すれば、 以下の式 (2) のように、 単純に識別回数のみを用いて識別頻度 P s (t)を計算すること ができる。
音声 · ' · (2)
Figure imgf000009_0001
それ以外
音楽やその他の種別についても、 全く同様にして識別頻度を計算することがで きる。
区間開始終了判定部 1 6は、 識別頻度計算部 1 5から供給された識別頻度情報 D 1 5を用いて、 同一種別の連続区間の開始位置 ·終了位置等を検出し 区間情 報 D 1 6として区間情報出力部 1 7に供給する。
区間情報出力部 1 7は、 区間開始終了判定部 1 6から供給された区間情報 D 1 6を所定のフォーマツトに変換し、 ィンデックス情報 D 1 7として記憶装置 ·記 録媒体 1 8に記録する。 ここで、 インデックス情報 D 1 7の記録フォーマットの 一例を図 4に示す。 図 4のフォーマット例では、 連続区間の番号又は識別子を示 す 「区間番号」 と、 その連続区間の種別を示す 「種別コード」 と その連続区間 の開始時刻、 終了時刻を示す 「開始位置」 「終了位置」 が記録されている。 ここで、 連続区間の開始位置 '終了位置の検出方法について、 図 5、 図 6を用 いてさらに詳細に説明する。
図 5は、 音楽の識別頻度を閾値と比較して、 音楽連続区間の開始を検出する様 子を説明した図である。 図の上部に各時刻における識別種別を M (音楽) , S
(音声) で記してある。 縦軸は時刻 tにおける音楽の識別頻度 Pm(t)である。 なお、 識別頻度 Pm )は図 3で説明したような時間区間 L e nにおいて計算し、 図 5では L e n = 5とする。 また、 開始判定のための識別頻度 P m ( t )の閾値 P 0を 3Z5とし、 識別回数の閾値 H 0を 6とする。
所定の時間単位毎に識別頻度 Pm ( t )を計算していくと、 図中の A点において 時間区間 L e 11にぉける識別頻度?111(1:)が3/5となり、 初めて閾値 P 0以上 となる。 その後も連続して識別頻度 Pm )は閾値 P 0以上に保持されており、 連続 H0回 (秒) だけ閾値 P 0以上の状態が保持された図中 B点において初めて、 音楽の開始を検出する。
音楽の実際の開始位置は、 図 5からも分かるように、 識別頻度 Pm(t)が初め て閾値 P 0以上となった A点よりも少し手前である。 識別頻度 Pm ( t )が閾値 P 0以上となるまでに連続増加したことを仮定すると、 図中 X点が開始位置と推測 できる。 すなわち、 識別頻度 Pm(t)の閾値 P 0を P 0 = JZL e nとすると、 初めて閾値 P 0以上となった A点から Jだけ戻った X点を推定開始位置として検 出する。 図 5の例では J = 3であるため、 A点よりも 3だけ戻った位置を音楽開 始位置として検出する。
図 6は、音楽の識別頻度を閾値と比較して音楽連続区間の終了を検出する様子を 説明した図である。 図 5と同様に、 Mは音楽に識別されたことを示し、 Sは音声 に識別されたことを示す。 また、 縦軸は時刻 tにおける音楽の識別頻度 Pm(t) である。 なお、 識別頻度は図 3で説明したような時間区間 L e nにおいて計算し、 図 6では L e n= 5とする。 また、 終了判定のための識別頻度 Pm ( t )の閾値 P 1を 2/ 5とし、 識別回数の閾値 H 1を 6とする。 なお、 終了検出の閾値 P 1は、 開始検出の閾値 P 0と同じであってもよい。
所定の時間単位毎に識別頻度を計算していくと、 図中の C点において時間区間 L e nにおける識別頻度 Pm (t)が 2Z5となり、 初めて閾値 P 1以下となる。 その後も連続して識別頻度 Pm(t)は閾値 P 1以下に保持されており、 連続 H I 回 (秒) だけ閾値 P 1以下の状態が保持された図中 D点において初めて、 音楽の 終了を検出する。
音楽の実際の終了位置は、 図 6からも分かるように、 識別頻度 Pm (t)が始め て閾値 P 1以下となった C点よりも少し手前である。 識別頻度 Pm ( t )が閾値 P 1以下となるまでに連続減少したことを仮定すると、 図中 Y点が終了位置と推測 できる。 すなわち、 識別頻度 Pm(t)の閾値 P 1を P 1 =KZL e nとすると、 初めて閾値 P 1以下となった C点から: L e n— Kだけ戻った Y点を推定終了位置 として検出する。 図 6の例では K= 2であるため、 C点よりも 3だけ戻った位置 を音楽終了位置として検出する。
以上示した連続区間検出処理を図 7 Α乃至図 7 Cのフローチャートに示す。 先 ずステップ S 1において初期処理を行う。 具体的には、 現在時刻 tを 0とし、 あ る種別の連続区間中であることを示す区間中フラグを FAL S E、 すなわち連続 区間中ではないとする。 また、 識別頻度 P (t )が閾値以上又は閾値以下の状態が 保持された回数を数えるカウン夕の値を 0とする。
次にステップ S 2において、 時刻 tにおける種別を識別する。 なお、 既に識別 してある場合には、 時刻 tにおける識別情報を読み込む。
続いてステップ S 3において、 識別し、 又は読み込んだ結果からデータ末尾に 到達したか否かを判別し、 データ末尾に到達した場合 (Yes) には処理を終了する。 一方、 データ末尾でない場合 (No) にはステップ S 4に進む。
ステップ S 4では、 連続区間を検出したい種別 (例えば音楽) の時刻 tにおけ る識別頻度 P (t)を計算する。
ステツプ S 5では、 区間中フラグが TRUE、 すなわち連続区間中であるか否 かを判別し、 TRUEである場合 (Yes) にはステップ S 1 3に進み、 そうでない 場合 (No) 、 すなわち FAL S Eである場合にはステップ S 6に進む。 以下のステップ S 6乃至ステップ S 1 2では、 連続区間の開始検出処理が行わ れる。 先ずステップ S 6において、 識別頻度 P ( t )が開始検出の閾値 P 0以上で あるか否かを判別する。 ここで、 識別頻度 P ( t )が閾値 P 0未満である場合 (N 0) にはステップ S 2 0でカウン夕の値を 0にリセットし、 ステップ S 2 1で時刻 tを 1増やしてステップ S 2に戻る。 一方、 識別頻度 P ( t )が閾値 P 0未満であ る場合 (Ye s) にはステップ S 7に進む。
次にステップ S 7において、 カウン夕の値が 0であるか否かを判別し、 0であ る場合 (Yes) にはステップ S 8で開始候補時刻として Xを記憶し、 ステップ S 9 に進んでカウンタの値を 1増やす。 ここで、 Xは例えば図 5で説明したような位 置である。 一方、 カウンタの値が 0でない場合 (No) にはステップ S 9に進み、 カウン夕の値を 1増やす。
続いてステップ S 1 0において、 カウン夕の値が閾値 H 0に達したか否かを判 別し、 閾値 H 0に達していない場合 (No) にはステップ S 2 1に進み、 時刻 tを 1増やしてステップ S 2に戻る。 一方、 閾値 H 0に達した場合 (Yes) にはステツ プ S 1 1に進む。
ステップ S 1 1では、 記憶している開始候補時刻 Xを開始時刻として確定し、 ステップ S 1 2でカウン夕の値を 0にリセッ卜すると共に区間中フラグを T R U Eに変え、 ステップ S 2 1で時刻 tを 1増やしてステップ S 2に戻る。
以上、 連続区間の開始を検出するまで、 すなわちステップ S 5で区間中フラグ が T R U Eと判別されるまで、 上記の処理を繰り返す。
連続区間の開始が検出されると、 以下のステップ S 1 3乃至ステップ S 1 9で は、 連続区間の終了検出処理が行われる。 先ずステップ S 1 3において、 識別頻 度 P ( t )が終了検出の閾値 P 1以下であるか否かを判別する。 ここで、 識別頻度 P ( t )が閾値 P 1よりも大きい場合 (No) にはステップ S 2 0でカウンタの値を 0にリセットし、 ステップ S 2 1で時刻 tを 1増やしてステップ S 2に戻る。 一 方、 識別頻度 P )が閾値 P 1以下である場合 (Yes) にはステップ S 1 4に進む。 次にステップ S 1 4において、 力ゥン夕の値が 0であるか否かを判別し、 0で ある場合 (Yes) にはステップ S 1 5で終了候補時刻として Yを記憶し、 ステップ S 1 6に進んでカウン夕の値を 1増やす。 ここで、 Yは例えば図 6で説明したよ うな位置である。 一方、 カウン夕の値が 0でない場合 (No) にはステップ S I 6 に進み、 カウン夕の値を 1増やす。
続いてステップ S 1 7において、 カウンタの値が閾値 H 1に達したか否かを判 別し、 閾値 H 1に達していない場合 (No) にはステップ S 2 1に進み、 B寺刻 tを 1増やしてステップ S 2に戻る。 一方、 閾値 H Iに達した場合 (Yes) にはステツ プ S 1 8に進む。
ステップ S 1 8では、 記憶している終了候補時刻 Yを終了時刻として確定し、 ステップ S 1 9でカウンタの値を 0にリセットすると共に区間中フラグを F A L S Eに変え、 ステップ S 2 1で時刻 tを 1増やしてステップ S 2に戻る。
以上、 連続区間の終了を検出するまで、 すなわちステップ S 5で区間中フラグ が F A L S Eと判別されるまで、 上記の処理を繰り返す。
以上のように、 本実施の形態における情報検出装置 1によれば、 情報源におけ る音声信号を所定の時間単位毎に各種別 (カテゴリ) に識別し、 その種別の識別 頻度を評価して同一種別の連続区間を検出する際に、 ある種別の識別頻度が初め て所定の閾値以上となり、 且つその閾値以上である状態が所定の時間だけ連続し た場合にその種別の連続区間の開始を検出し、 識別頻度が初めて所定の閾値以下 となり、 且つその閾値以下である状態が所定の時間だけ連続した場合にその種別 の連続区間の終了を検出することにより、 連続区間中に雑音などの一時的な音の 混入があり、 或いは識別誤りが多少ある場合であっても、 連続区間の開始位置及 び終了位置を正確に検出することができる。
なお、 本発明は、 図面を参照して説明した上述の実施例に限定されるものでは なく、 添付の請求の範囲及びその主旨を逸脱することなく、 様々な変更、 置換又 はその同等のものを行うことができることは当業者にとって明らかである。
例えば、 上述の実施の形態では、 ハードウェアの構成として説明したが、 これ に限定されるものではなく、 任意の処理を、 C P U (Cent ral Process ing Uni t) にコンピュ一夕プログラムを実行させることにより実現することも可能である。 この場合、 コンピュータプログラムは、 記憶媒体 ·記録媒体に記録して提供する ことも可能であり、 また、 インターネッ トその他の伝送媒体を介して伝送するこ とにより提供することも可能である。 産業上の利用可能性 上述した本発明によれば、 情報源に含まれる音声信号を所定の時間単位毎に音 楽や音声などの種別 (カテゴリ) に識別分類し、 その種別の識別頻度を評価して 同一種別の連続区間を検出する際に、 連続区間中に雑音などの一時的な音の混入 があり、 或いは識別誤りが多少ある場合であっても、 連続区間の開始位置及び終 了位置を正確に検出することができる。

Claims

請求の範囲
1 . 情報源に含まれる音声信号の特徴量を分析し、 該音声信号の種別を所定の時 間単位毎に分類識別する音声種別識別手段と、
上記音声種別識別手段によって分類識別された識別情報を記録する識別情報蓄 積手段と、
上記識別情報蓄積手段から上記識別情報を読み込み、 上記音声信号の種別毎に、 上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算手 段と、
上記識別頻度を用いて、 同一種別の連続区間を検出する連続区間検出手段と を備えることを特徴とする情報検出装置。
2 . 請求の範囲第 1項記載の情報検出装置であって、
上記連続区間検出手段によって検出された上記連続区間の区間情報をインデッ クスとして蓄積する区間情報蓄積手段をさらに備えることを特徴とする情報検出 装置。
3 . 請求の範囲第 1項記載の情報検出装置であって、
上記連続区間検出手段は、 任意の種別の上記識別頻度が第 1の閾値以上となり、 且つ該第 1の閾値以上である状態が第 1の時間以上連続した場合に該種別の開始 を検出し、 上記識別頻度が第 2の閾値以下となり、 且つ該第 2の閾値以下である 状態が第 2の時間以上連続した場合に該種別の終了を検出することを特徴とする 情報検出装置。
4 . 請求の範囲第 1項記載の情報検出装置であって、
上記音声種別識別手段は、 上記時間単位毎に上記音声信号の種別を分類識別す ると共に、 その識別の確からしさを求めることを特徴とする情報検出装置。
5 . 請求の範囲第 4項記載の情報検出装置であって、
上記識別頻度は、 任意の種別の上記時間単位毎の識別の確からしさを上記時間 区間で平均したものであることを特徴とする情報検出装置。
6 . 請求の範囲第 1項記載の情報検出装置であって、
上記識別頻度は、 任意の種別の上記時間区間における識別回数であることを特 徴とする情報検出装置。
7 . 請求の範囲第 4項記載の情報検出装置であって、
上記識別情報蓄積手段は、 上記時間単位毎の上記音声信号の種別と上記識別の 確からしさとを、 上記識別情報として記録することを特徴とする情報検出装置。
8 . 情報源に含まれる音声信号の特徴量を分析し、 該音声信号の種別を所定の時 間単位毎に分類識別する音声種別識別工程と、
上記音声種別識別工程にて分類識別された識別情報を識別情報蓄積手段に記録 する記録工程と、
上記識別情報蓄積手段から上記識別情報を読み込み、 上記音声信号の種別毎に、 上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算ェ 程と、
上記識別頻度を用いて、 同一種別の連続区間を検出する連続区間検出工程と を有することを特徴とする情報検出方法。
9 . 請求の範囲第 8項記載の情報検出方法であって、
上記連続区間検出工程にて検出された上記連続区間の区間情報をインデックス として区間情報蓄積手段に蓄積する蓄積工程をさらに有することを特徴とする情 報検出方法。
1 0 . 請求の範囲第 8項記載の情報検出方法であって、
上記連続区間検出工程では、 任意の種別の上記識別頻度が第 1の閾値以上とな り、 且つ該第 1の閾値以上である状態が第 1の時間以上連続した場合に該種別の 開始が検出され、 上記識別頻度が第 2の閾値以下となり、 且つ該第 2の閾値以下 である状態が第 2の時間以上連続した場合に該種別の終了が検出されることを特 徴とする情報検出方法。
1 1 . 請求の範囲第 8項記載の情報検出方法であって、
上記音声種別識別工程では、 上記時間単位毎に上記音声信号の種別が分類識別 されると共に、 その識別の確からしさが求められることを特徴とする情報検出方 法。
1 2 . 請求の範囲第 1 1項記載の情報検出方法であって、
上記識別頻度は、 任意の種別の上記時間単位毎の識別の確からしさを上記時間 区間で平均したものであることを特徴とする情報検出方法。
1 3 . 請求の範囲第 8項記載の情報検出方法であって、
上記識別頻度は、 任意の種別の上記時間区間における識別回数であることを特 徵とする情報検出方法。
1 4 . 請求の範囲第 1 1項記載の情報検出方法であって、
上記記録工程では、 上記時間単位毎の上記音声信号の種別と上記識別の確から しさとが、 上記識別情報として上記識別情報蓄積手段に記録されることを特徴と する情報検出方法。
1 5 . 所定の処理をコンピュータに実行させるプログラムにおいて、
情報源に含まれる音声信号の特徴量を分析し、 該音声信号の種別を所定の時間 単位毎に分類識別する音声種別識別工程と、
上記音声種別識別工程にて分類識別された識別情報を識別情報蓄積手段に記録 する記録工程と、
上記識別情報蓄積手段から上記識別情報を読み込み、 上記音声信号の種別毎に、 上記時間単位よりも長い所定の時間区間毎の識別頻度を計算する識別頻度計算ェ 程と、
上記識別頻度を用いて、 同一種別の連続区間を検出する連続区間検出工程と を有することを特徴とするプログラム。
PCT/JP2004/001397 2003-03-06 2004-02-10 情報検出装置及び方法、並びにプログラム WO2004079718A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP04709697A EP1600943B1 (en) 2003-03-06 2004-02-10 Information detection device, method, and program
US10/513,549 US8195451B2 (en) 2003-03-06 2004-02-10 Apparatus and method for detecting speech and music portions of an audio signal
DE602004023180T DE602004023180D1 (de) 2003-03-06 2004-02-10 Informationsdetektionseinrichtung, -verfahren und -programm

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003-060382 2003-03-06
JP2003060382A JP4348970B2 (ja) 2003-03-06 2003-03-06 情報検出装置及び方法、並びにプログラム

Publications (1)

Publication Number Publication Date
WO2004079718A1 true WO2004079718A1 (ja) 2004-09-16

Family

ID=32958879

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/001397 WO2004079718A1 (ja) 2003-03-06 2004-02-10 情報検出装置及び方法、並びにプログラム

Country Status (7)

Country Link
US (1) US8195451B2 (ja)
EP (1) EP1600943B1 (ja)
JP (1) JP4348970B2 (ja)
KR (1) KR101022342B1 (ja)
CN (1) CN100530354C (ja)
DE (1) DE602004023180D1 (ja)
WO (1) WO2004079718A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007023660A1 (ja) 2005-08-24 2007-03-01 Matsushita Electric Industrial Co., Ltd. 音識別装置
ES2354702T3 (es) * 2005-09-07 2011-03-17 Biloop Tecnologic, S.L. Método para el reconocimiento de una señal de sonido implementado mediante microcontrolador.
US8417518B2 (en) 2007-02-27 2013-04-09 Nec Corporation Voice recognition system, method, and program
JP4572218B2 (ja) * 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2009192725A (ja) * 2008-02-13 2009-08-27 Sanyo Electric Co Ltd 楽曲記録装置
MY153562A (en) * 2008-07-11 2015-02-27 Fraunhofer Ges Forschung Method and discriminator for classifying different segments of a signal
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
US8712771B2 (en) * 2009-07-02 2014-04-29 Alon Konchitsky Automated difference recognition between speaking sounds and music
DE112009005215T8 (de) * 2009-08-04 2013-01-03 Nokia Corp. Verfahren und Vorrichtung zur Audiosignalklassifizierung
US20110040981A1 (en) * 2009-08-14 2011-02-17 Apple Inc. Synchronization of Buffered Audio Data With Live Broadcast
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102044244B (zh) 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
JP4837123B1 (ja) * 2010-07-28 2011-12-14 株式会社東芝 音質制御装置及び音質制御方法
WO2012020717A1 (ja) * 2010-08-10 2012-02-16 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
CN103092854B (zh) * 2011-10-31 2017-02-08 深圳光启高等理工研究院 一种音乐数据分类方法
US20130317821A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Sparse signal detection with mismatched models
JP6171708B2 (ja) * 2013-08-08 2017-08-02 富士通株式会社 仮想マシン管理方法、仮想マシン管理プログラム及び仮想マシン管理装置
US9817379B2 (en) * 2014-07-03 2017-11-14 David Krinkel Musical energy use display
KR102435933B1 (ko) * 2020-10-16 2022-08-24 주식회사 엘지유플러스 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4541110A (en) 1981-01-24 1985-09-10 Blaupunkt-Werke Gmbh Circuit for automatic selection between speech and music sound signals
US5298674A (en) * 1991-04-12 1994-03-29 Samsung Electronics Co., Ltd. Apparatus for discriminating an audio signal as an ordinary vocal sound or musical sound
EP0637011A1 (en) 1993-07-26 1995-02-01 Koninklijke Philips Electronics N.V. Speech signal discrimination arrangement and audio device including such an arrangement
WO1998027543A2 (en) 1996-12-18 1998-06-25 Interval Research Corporation Multi-feature speech/music discrimination system
JPH10187182A (ja) * 1996-12-20 1998-07-14 Nippon Telegr & Teleph Corp <Ntt> 映像分類方法および装置
JP2910417B2 (ja) * 1992-06-17 1999-06-23 松下電器産業株式会社 音声音楽判別装置
US5966690A (en) * 1995-06-09 1999-10-12 Sony Corporation Speech recognition and synthesis systems which distinguish speech phonemes from noise
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2551050B2 (ja) * 1987-11-13 1996-11-06 ソニー株式会社 有音無音判定回路
EP0517233B1 (en) * 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6490556B2 (en) * 1999-05-28 2002-12-03 Intel Corporation Audio classifier for half duplex communication
US6349278B1 (en) * 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4541110A (en) 1981-01-24 1985-09-10 Blaupunkt-Werke Gmbh Circuit for automatic selection between speech and music sound signals
US5298674A (en) * 1991-04-12 1994-03-29 Samsung Electronics Co., Ltd. Apparatus for discriminating an audio signal as an ordinary vocal sound or musical sound
JP2910417B2 (ja) * 1992-06-17 1999-06-23 松下電器産業株式会社 音声音楽判別装置
EP0637011A1 (en) 1993-07-26 1995-02-01 Koninklijke Philips Electronics N.V. Speech signal discrimination arrangement and audio device including such an arrangement
US5966690A (en) * 1995-06-09 1999-10-12 Sony Corporation Speech recognition and synthesis systems which distinguish speech phonemes from noise
WO1998027543A2 (en) 1996-12-18 1998-06-25 Interval Research Corporation Multi-feature speech/music discrimination system
JPH10187182A (ja) * 1996-12-20 1998-07-14 Nippon Telegr & Teleph Corp <Ntt> 映像分類方法および装置
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONGGE LI ET AL: "Classification of general audio data for content-based retrieval", PATTERN RECOGNITION LETTERS, vol. 22, no. 5, April 2001 (2001-04-01), pages 533 - 544, XP004233004 *
See also references of EP1600943A4

Also Published As

Publication number Publication date
US20050177362A1 (en) 2005-08-11
EP1600943B1 (en) 2009-09-16
EP1600943A1 (en) 2005-11-30
KR101022342B1 (ko) 2011-03-22
US8195451B2 (en) 2012-06-05
CN1698095A (zh) 2005-11-16
DE602004023180D1 (de) 2009-10-29
JP4348970B2 (ja) 2009-10-21
KR20050109403A (ko) 2005-11-21
JP2004271736A (ja) 2004-09-30
EP1600943A4 (en) 2006-12-06
CN100530354C (zh) 2009-08-19

Similar Documents

Publication Publication Date Title
WO2004079718A1 (ja) 情報検出装置及び方法、並びにプログラム
JP4442081B2 (ja) 音声抄録選択方法
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
US8838452B2 (en) Effective audio segmentation and classification
JP3913772B2 (ja) 音識別装置
US20050187765A1 (en) Method and apparatus for detecting anchorperson shot
US20050027766A1 (en) Content identification system
US20040143434A1 (en) Audio-Assisted segmentation and browsing of news videos
WO2006132596A1 (en) Method and apparatus for audio clip classification
JP2000066691A (ja) オーディオ情報分類装置
Wu et al. Multiple change-point audio segmentation and classification using an MDL-based Gaussian model
Vavrek et al. Broadcast news audio classification using SVM binary trees
JP4099576B2 (ja) 情報識別装置及び方法、並びにプログラム及び記録媒体
Jarina et al. Rhythm detection for speech-music discrimination in mpeg compressed domain
JP4201204B2 (ja) オーディオ情報分類装置
JP3475317B2 (ja) 映像分類方法および装置
JP3607450B2 (ja) オーディオ情報分類装置
JP4392805B2 (ja) オーディオ情報分類装置
Huijbregts et al. Filtering the unknown: Speech activity detection in heterogeneous video collections
Dogan et al. Content-based classification and segmentation of mixed-type audio by using MPEG-7 features
WO2006009035A1 (ja) 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体
CN113178199A (zh) 基于相位偏移检测的数字音频篡改取证方法
Pikrakis et al. An overview of speech/music discrimination techniques in the context of audio recordings
JP2011085824A (ja) 音響識別装置、その処理方法およびプログラム
AU2005252714B2 (en) Effective audio segmentation and classification

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 10513549

Country of ref document: US

Ref document number: 1020047017765

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2004709697

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2004800194X

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1020047017765

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2004709697

Country of ref document: EP