WO2007066450A1 - 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム - Google Patents

楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム Download PDF

Info

Publication number
WO2007066450A1
WO2007066450A1 PCT/JP2006/320073 JP2006320073W WO2007066450A1 WO 2007066450 A1 WO2007066450 A1 WO 2007066450A1 JP 2006320073 W JP2006320073 W JP 2006320073W WO 2007066450 A1 WO2007066450 A1 WO 2007066450A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
report
information
automatic
mentioned
Prior art date
Application number
PCT/JP2006/320073
Other languages
English (en)
French (fr)
Inventor
Akio Yamada
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US12/096,763 priority Critical patent/US20090132074A1/en
Priority to JP2007549033A priority patent/JP5145939B2/ja
Publication of WO2007066450A1 publication Critical patent/WO2007066450A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set

Definitions

  • 000 relates to an image automatic system and an automatic image division method for automatically producing impressive images in music.
  • An example of a stem that extracts a characteristic image from the data of 002 songs is described in the patent.
  • 003 is a block diagram showing a conventional stem.
  • the conventional stem is
  • a conventional stem with a 004 configuration operates as follows.
  • 005 Mu 5 divides the input audio signal into multiple mu.
  • M is an element generated by dividing acoustic data into spaces.
  • Mu 52 generates 2 vectors characterizing the audio signal for each Mu.
  • Mu 5 3 calculates the types of music by comparing the two vectors of the music that compose the music. By performing processing based on the obtained class, the system 53 generates a plurality of strikes showing one or the same closeness.
  • 000754 can extract the part returned in the song by extracting the image in which the same movie appears in the same order.
  • the post-processing 5 5 selects a portion corresponding to the assumed rust meaning from the repeated pieces, and uses that portion as a characteristic image in the music. Put out.
  • G (ac o d sc) often flows, and an example of a device that can be easily reproduced and that can be searched for an important one that is excited by the television is described.
  • 001 03 allows you to quickly search for voice music that contains normal noise in the search voice music search that is continuous in time.
  • 001 45 describes an example of a method of searching for a common part among the feature sequences stored with the time information by comparing with a partial pair.
  • the existing output method has a problem that it is not always possible to automatically output a striking image for a general Z.
  • the image of the detection location is generated by detecting the G component and the replaced portion of G by using the television set signal described in 002-7.
  • the generated i is just the G part and the replaced part of G. Therefore, it is impossible for the technique related to the search process to generate the image for extracting the image in the music.
  • the objective is to provide the automatic screen system, automatic partition output method, and automatic screen program that can be provided to the application.
  • the 002 Ming automatic system is an automatic system that automatically outputs information that shows the iconic image of the music.
  • a common image that identifies the image containing the part of the above-mentioned number that appears repeatedly in the image, and extracts the image frequently, includes the audio signal, and determines whether the above-mentioned image exists.
  • the audio report that can identify the section of the No. is generated, and the audio report that identifies the image is issued as a report. , Generates a report capable of discriminating sections of a music number delimited by the conditions specified in advance, compares the report with the report, and when the report agrees with the deviation of the report. In addition, you may output the information that shows the matched information.
  • the information including the characteristics, and the characteristics included in the information are compared with each other to identify the image
  • Generating a second further comprising:
  • the features included in the report issued by the above may be generated, and the features included in the above-mentioned report may be compared with the features included in the above-mentioned report. It is possible to maintain the processing rate by simplifying the processing of calculating the number of processing and comparing them. 028, the image may be extracted according to the input weighting information.
  • it may be provided with a switching part for limiting the range of the above-mentioned information signal, and may be provided with two switching parts for limiting the range of the above-mentioned information signal.
  • the 003 Akira automatic image output method is an automatic image output method that uses an automatic image display system that automatically outputs a report showing the iconic image of the music, and is a part of the sound signal that appears repeatedly in the upper part of the sound including the sound signal.
  • an audio report is generated that can identify the sections of the audio signal that are separated by the specified conditions, and the audio report that identifies the image is output as a report, and in the step, it is specified.
  • a report is generated that can identify the sections of the music number that are separated by the specified conditions.
  • the image is identified by comparing the features included in the report, and in the step, the features and the information included in the previous report are identified. included
  • a report indicating the matched report may be output.
  • a report containing different types of features included in the report issued in the step may be generated, and the features included in the report of 2 and the reports included in the report may be compared.
  • the processing for calculating the number of processing cases can be simplified and the processing rate can be maintained by comparing the processing cases.
  • the image may be extracted according to the input weighting information.
  • the method further includes two inking steps for limiting the frequency range of the sound signal, in which the part of the audio signal that repeatedly appears in the limited frequency domain of the audio step in the above step is included.
  • the image containing is specified as the above image, the above image is extracted, and
  • the step it may be judged whether or not there is a music signal in which the range of the audio signal is limited in the above step 2 and the image output in the above step exists.
  • the part of the sound signal that repeatedly appears in the number of information generated in the compound generation step is included.
  • the containing image may be specified as the above image, and the above image may be extracted.
  • a set of televisions, a set of televisions belonging to the same group may be extracted in the step of generating a combination.
  • the image auto-program by 005 Ming is an image auto-program that automatically executes the process to automatically output the information showing the iconic image of the music
  • the above-mentioned computer includes an audio signal.
  • a common output process that identifies the image of the part of the sound signal that appears repeatedly as an image and extracts the image, and a common theory that determines whether or not the image that is output by the output process, including the audio signal, When it is determined that the sound signal is present in the sound, the common logic of outputting information capable of specifying the signal corresponding to the image is executed.
  • an audio report is generated that can identify the sections of the content signal that are separated by the conditions specified in advance, and the audio report that specifies the image is output as a report and the
  • the theory is to generate a report that can identify the sections of the music number that are delimited by the conditions specified in advance, and
  • the output process identifies the images by comparing the features included in the report with each other, and the process includes the features included in the report with the features included in the report. If the characteristics included in the report and the deviation included in the report are matched, the report may output a report showing the combined report.
  • the image may be extracted according to the input weighting information.
  • the above-mentioned method of limiting the range of the signal of the 006 information broadcast and the processing of 2 of limiting the range of the signal of the above-mentioned audio signal are further executed to the above-mentioned computer.
  • the image containing the part of the audio signal that repeatedly appears in the audio region where the audio signal is restricted by the above-mentioned identification is specified as the image, and the image is extracted.
  • a partial compound generation process that outputs the information of the number 006 according to a predetermined standard is further executed on the computer, and in the output process, the sound that repeatedly appears in the number of the information generated by the compound process.
  • the image including the part of the number may be specified as the image and the image may be extracted. With such a configuration, an impressive image can be automatically output for a specific item.
  • a set of televisions, a set of televisions belonging to the same area may be extracted in the above-mentioned combination generation.
  • 2 2 is a block diagram showing the automatic stem operation performed by Ming.
  • 3 3 is a block diagram showing the state 2 of the automatic image stem according to Ming.
  • 4 4 is a block diagram showing the state of 3 of the automatic imaging system according to Ming.
  • 5 5 is a block diagram showing the state of 4 of the automatic image stem according to Ming.
  • Fig. 2 is a block diagram showing the operation of the automatic image stem according to Ming.
  • the automatic image system shown in Fig. 2 produces impressive information about music.
  • 0073 generates a report showing an impressive image in the music, based on the music number and the content that uses the music internally.
  • music all or part of the music is referred to as music.
  • the 007 content group is content that includes a music number.
  • audio content represented by a television set, or an internet on which background music such as u (web) or g (o) is superimposed. Source etc.
  • the 007 group is selected randomly, for example, by a section automatic system, or according to the music number.
  • the selected content group is downloaded to the automated partition system via communication and towing.
  • the sound name of 0097 is generated as the sound name which is the data for identifying the sound track (for all the sound groups.
  • 00800 which consists of a set of time reports and music in between. In other words, it is a piece of information for identifying the division of music, which is the section of the label, which is separated by the predetermined condition.
  • 008 32 is the number of acoustically generated
  • 00842 not only searches for music that repeats in a certain item, but also searches for music that is common to multiple items.
  • the important point 2 is that, although it is only once in one sentence, it is possible to give out the commonly appearing acoustic name as a sound name that appears commonly in various subjects.
  • 008 62 is a technique for performing a partial-pair comparison (between minutes) on a part common to the temporal feature sequences of acoustic names, for example,
  • the 008 72 generates a name that includes the information for identifying the sound component that is emitted in the sound group and the sound component that is emitted. In other words, it is the name of the sound that corresponds to the image produced by the sound (for example, sound) that appears in the sound group.
  • the 008 82 By applying the above-mentioned process to a plurality of input names, the 008 82 generates a number of names for specifying the sound returned in the input group.
  • important 2 is that, instead of simply counting the number of repetitions, weight information about the input is input from the outside, and each time it is repeated, the weight information corresponding to that image is added, and the calculated weight is calculated. You can use the total amount of information as the importance of the image.
  • the 0093 report is a standard value such as the listening rate over time, or an index value preset for each content.
  • the parts where the creator sets excitement, such as low, front and near, indicate the purpose of the high set index value.
  • the name may be written.
  • 0097 is an example of the information for identifying the division of the music number delimited by the condition defined in advance.
  • the sound generated by 2 is input to common 2 together.
  • 0099 2 corresponds to the name included in the sound , Specify the image of the part of the name of the music number, and perform () of the determined image.
  • the number of the matched part may be described as a common image.
  • 01222 is a sound name and the name of the music number generated in the music.
  • the common image is judged to be nothing. If there is a common image, 2 will issue a time report that can identify that image. Minutes, technically, is the partial price comparison total price explained above.
  • 0103 2 does not output the common image information if all the names do not match the names of the song numbers.
  • the automatic partition system can be implemented by computer. Automatic image
  • Important 2, 2 and 2 can be realized by a program for realizing the above-mentioned function in the computer processor () of the computer.
  • the 0106 program is recorded, for example, in a record (meme etc.) that can be taken only by the computer.
  • the computer processor () of the computer reads the program from the body and executes the program just taken.
  • the elements that make up the 0-screen automatic system can be realized by a computer, can be realized by a program, and the program can be recorded on a recording medium. What is said is not limited to the above-mentioned state of operation, and the same applies to the following state of operation. As explained above, according to the above-mentioned method, it is possible to select a particular item that is heard many times as an impressive image in a song regardless of the structure of the song part.
  • Figure 3 is a block diagram showing the state of 2 of the automatic image stem according to Ming.
  • the automatic image system shown in Fig. 3 produces impressive information in music.
  • 0109 2 is the sound element in addition to the
  • 0112 2 generates a report showing an impressive image in the music, based on the music number and the content that uses the music internally. In addition, the sound in the state of
  • the acoustic name generated by important 2 will be referred to as the first name, and plural names will be referred to as the first name.
  • the important point 2 is that the processing is performed at high speed by simply comparing the acousticians.
  • 0114 20 produces a 2 of 2 containing a different kind of than the one that the acoustic produced from a group of [0115]
  • music lamellas There are different types of music lamellas, for example, the music lamellas included in the name are changed, only those parts are extracted, or other sounds are added.
  • the sound 2 receives only the time information from the important 2 and is directly formed from the music and the input sound group.
  • 0118 2 generates a name including the same kind of as that generated by Sound 2 from the input music number.
  • the sound name generated by 0119 2 and the sound name generated by sound 2 are both input to common 2.
  • the time information that can identify the common picture is issued.
  • Fig. 4 is a block diagram showing the state of 3 of the automatic image stem according to Ming. Shown in 4 The automatic stem is equipped with compartments, inputs 3 for the input signal, and 2 for the input 32.
  • the 032 2 int 32 has a function of giving a specific range of music from the music number.
  • the 0 32 2's pattern 3 2 has the same wave number 3's, and it also stops or suppresses the tone signal generated in the note group containing the tone signal. It may have similar territories.
  • the range of the tone signal input to the sound is adjusted to the region of the tone signal included in the tone group. It is possible to Therefore, it is possible to prevent the common 2 work.
  • Fig. 5 is a block diagram showing the state of 4 of the automatic image stem according to Ming.
  • the automatic display system shown in Fig. 5 has a section and a row set 4 for processing the input contents.
  • 5 is a section in the state of However, even if 2 of 2 states is used, 0130 is also added to 4 of the implementation, and 3 of 2 and 3 of 2 shown in 4 are added. Moyo.
  • Set 4 generates a part (set) of the input content group. For example, Satset 4 issues multiple reports according to pre-established criteria.
  • Part 0132 is a collection of only the contents of the television set belonging to the same group, a part of the contents of which the audience is almost the same, and a part of the contents related to a specific event.
  • 0133's vision a series of continuity of visions, such as a projection or a drama on two of the protagonist and subject, or a series of spots for a certain period of time.
  • the listener may be strongly impressed by the listener, in general, the impression that the listener receives is often strongly related to the particular speaker.
  • the mode of 01354 in addition to the effects of the modes of 2 and 3, for example, a song that is used as a theme song in a particular drama set is reused in that drama. The broken part can be taken out properly.
  • the music name is shown as an example of the information indicating the sound number.
  • the music is a song for a song, such as a cup
  • the sound name is used.
  • the video name may be used.
  • the text content itself may be used as the name for confirming the identity.
  • 0138 it can be applied to automatically output a symbolic picture from a music signal.
  • a symbolic picture For example, as a result of the music database, there is a report showing the searched music.
  • 0140 In this case, for example, it can be applied to the occasion where the notification by the display cannot be made, and is effective for the end of music used in a car or in a crowded train. 0141 Even when the user does not remember the information such as Tight accurately by notifying Tight etc., an impressive image that is automatically output when selecting a song such as Tight. You can select a song by checking the remaining information.

Abstract

 一般ユーザに広く認知されている可能性が高いと推定される部位を楽曲中に表れる回数とは無関係に自動的に抽出し、抽出した楽曲における印象的な区画を楽曲のメタデータとして種々のアプリケーションに提供可能な区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラムを提供する。  第1の音響署名生成部101は、コンテンツ群の各コンテンツの音響信号の特徴量を示す音響署名を生成する。重要区画抽出部102は、音響署名生成部101によって生成された全ての音響署名を対象に検索した頻出する特徴量を示す音響区画署名を生成する。第2の音響署名生成部111は、楽曲信号から音響署名を生成する。共通区画抽出部112は、各音響区画署名が、楽曲信号の音響署名の一部に合致するか否かを判断し、合致した楽曲信号の音響署名を特定可能な時間情報を出力する。

Description

細 書
曲における 画を抽出する 画自動 ステム、区画自動 出方 、法および 画自動 プ グラム
術分野
0001 、楽曲に ける印象的な 画を自動 出する 画自動 ステム、区 画自動 出方法 画自動 プ グラムに関する。 0002 曲の デ タ ら特徴的な 画を抽出する ステムの 例が、特許 に記載されて る。
0003 は、従来の ステムの を示す ック図である。 に示す に、従来の ステムは、 ム 5 と、 ム
5 2と、 ム 5 3と、共通 5 4と、後処理 5 5とを備える。
0004 構成を有する 来の ステムは、次の に動作する。
0005 ム 5 は、入力された音響 号を、複数の ムに分割する。
、 ムは、音響デ タを 隔で区切ることに 生成される 素である。
0006 次に、 ム 5 2は、 ム毎に、音響 号を特徴 ける 2 ベクト を生成する。 ム 5 3は、楽曲を構成する ムの 2 ベクト をそれぞれ 較することに 、 ム間に ける類 を算出する。 ム 5 3は、得られた類 に基 て処 理することで、複数の 一または同一に近 ムの を示したストを生成す る。
0007 5 4は、同一 ムが同じ 序で出現する 画を抜き出すこ とに 、その 曲で り返し れる ズを抽出することができる。
0008 後に、後処理 5 5は、繰り返し れる ズの中 ら、仮定されたさび 義に 当する部分を選び出し、その 分を、楽曲に ける特徴的な 画として、 出する。
0009 2には、 G ( ac o d sc)が流れることが多 、テ ビジョン で盛り上がる ン 重要な ンを容易に検索でき、その ン ら の し再生が可能な 置の例が記載されて る。
0010 3には、時間的に連続する検索 音声音楽 号の 索にお て 、 常な雑音を含む 声音楽 号を 、高速に検索できる、前後の
用型 置の例が記載されて る。
0011 4 5には、時間 報とともに記憶された特徴 列の間で共通する部 分を、部分対 分で 較することに 探す 術の例が記載されて る。
1 2 4 233965 ( 38 45)
2 2 4 4 675 ( 2)
3 2 4 3336 5 ( 22 28)
4 345 985 ( 2 23)
5 2 3 96658 ( 28 3 )
明の
明が解決しよ とする課題
0012 存の 出方式は、必ずしも一般的な ザにと て印象的な 画を自動 出することができな 題点を有する。
0013 に記載された方式では、楽曲 でのメ ディの に着目して、繰り 返されるメ ディを自動的に抜き出すことに 、 徴的な びと称する) が 出される。
0014 し しながら、あ まで 繁に繰り返される部分が選ばれるため、その 必ずし も ザが認知して る特徴的な 画とは限らな 。
0015 たとえ、ある ョ ト ズが楽曲 し れな ても、 ザがその
ト ズを積極的にまたは受動的に何度 聞 た経験があるならば、その ョ ト ズこそ 徴的な 画として定義することが望ま 。
0016 ある は、 ザが、ある ョ ト ズを一度し 聞 たことがな ても、 ザ がその ト ズを聴取した時に、例えばそれと関連 けられた映像など他の メディアにお て強 印象を受けたことがあるならば、その ト ズこそ 徴 的な 画として定義することが望ま 。
0017 2に記載された 、テ ビジョン 組の 号を して G の 分および G の り替わ た部分を検出し、検出 所の イ 像を生成する。
0018 し し、生成される イ 、単に G の 分および G の り替 わ た部分に過ぎな 。そのよ 検索 理に関わる 術にもと て、楽曲におけ る 画を抽出するための 成が 起されることは不可能である。
0019 また、特許 3に記載された類 、音声音楽 号 ら 次的に 切り出した 分のよ 時間的に連続する複数の 号の を検索 と する場合に、検索 に類似する部分を高速に検索する。そのため、 ザが認知 して る特徴的な 画が検索されるとは限らな 。
0020 そこで、 、一般 ザに広 認知されて る可能性が高 と推定される部 位を楽曲 に表れる回数とは無関係に自動的に 出し、抽出した部位を楽曲にお ける印象的な 画として のアプ ケ ョンに提供 能な 画自動 ステ ム、区画自動 出方法および 画自動 プ グラムを提供することを目的とする。 題を解決するための
0021 明による 画自動 ステムは、楽曲の 象的な 画を示す 報を自動 出する 画自動 ステムであ て、音響 号を含む一 上の ンテ
に繰り返し出現する前記 号の 部を含む 画を、 画として特定し、 前記 画を抽出する頻出 、音響 号を含む 、前記 出した 画が存在する 否 を判断する共通
、前記 、前記 前記 音信号 に存在する、 判断し た場合に、前記 画に対応する前記 号の 画を特定 能な情報を出 する共通 、を備える。
0022 、あら じめ定められた条件で区切られた ンテ
の 号の 区画を識別 能な音響 報を生成し、前記 画を 特定する音響 報を、 報として 出し、前記 、あら じめ定められた条件で区切られた楽曲 号の 区画を識別 能な 報を生成し、前記 報と前記 報とを 較し、前記 部は、前記 報が前記 報 の ずれ に合致する場合に、合致した前記 報を示す 報を出力 してもよ 。
0023 そのよ 構成によれば、 ンテンツおよび 号を 切るための 定の 件に 応じた印象的な 画を自動 出することができる。
0024 および 、特徴 を含む情報であ て、前記 、 報に含まれる特徴 をそれぞれ 較することによ て、前記 画を特定し、前記 、前記
報に含まれる特徴 、 報に含まれる 、を 較し、前記 部は、前記 報に含まれる特徴 、前 記 報に含まれる の ずれ に合致する場合に、合致し た前記 報を示す 報を出力してもよ 。
0025 そのよ 構成によれば、特徴 較して印象的な 画を自動 出することがで きる。
0026 によ て 出された 報に基 て、前記 報に含まれる特徴 同じ 類の を含む 2の
報を生成する 2の 、さらに含まれ、前記 、前記
によ て 出された 報に含まれる特徴 異なる種類 の を含む 報を生成し、前記 2の 報に 含まれる特徴 、前記 報に含まれる 、を 較してもよ 0027 そのよ 構成によれば、処理件数の 出に る 理を簡便にし 、一方 較する 理を ことで処理 度を維持することができる。 0028 、入力された重み付け 報に応じて前記 画を抽出 してもよ 。
0029 そのよ 構成によれば、重み付け 報に応じて印象的な 画を自動 出すること ができる。
0030 、前記 ンテ 報の 号の 域を制限する の ィ タ ング部を備え、前記 、前記 号の 号の 域 を制限する 2の ィ タ ング部を備えてもよ 。
0031 そのよ 構成によれば、 ンテン または楽曲 号に 音が混在して る場 合であ ても、正し 印象的な 画を自動 出することができる。
0032 、複数の ンテ 報をあら じめ定められた基準で 出する部分 合生成 を備えてもよ 。
0033 そのよ 構成によれば、特定の ンテ を対象として印象的な 画を自動 出 することができる。
0034 ンテ テ ビジョン 組であ て、前記 合生成 、同一 ズに属するテ ビジョン 組を抽出してもよ 。
0035 そのよ 構成によれば、同一 ズに属するテ ビジョン 組を対象として印象 的な 画を自動 出することができる。
0036 明による 画自動 出方法は、楽曲の 象的な 画を示す 報を自動 出 する 画自動 ステムが 画自動 出方法であ て、音響 号を含む一 上の ンテ に繰り返し出現する音響 号の 部を含む 画を、 画として特定し、前記 画を抽出する頻出 ステップ 、音響 号を含 む 、前記 ステップにお て 出した 画が存在す る 否 を判断する共通 ステップ 、前記 ステップにお て 前記 前記 音信号 に存在すると判断した場合に、前記 画に対 応する前記 号の 分を特定 能な情報を出 する共通 カステップ 、 を含む。
0037 ステップでは、あら じめ定められた条件で区切られた ンテン の 号の 区画を識別 能な音響 報を生成し、前記 画を特定する音響 報を、 報として 出し、前記 ステップでは、あら じめ定められた条件で区切られた楽曲 号の 区画 を識別 能な 報を生成し、前記 報と前記 報とを 較し、前記 カステップでは、前記 報が前 記 報の ずれ に合致する場合に、合致した前記
報を示す 報を出力してもよ 。
0038 そのよ 構成によれば、 ンテンツおよび 号を 切るための 定の 件に 応じた印象的な 画を自動 出することができる。
0039 および 、特徴 を含む情報であ て、前記 ステップでは、 報に含まれる特徴 をそ れぞれ 較することによ て 画を特定し、前記 ステップでは、前 記 報に含まれる特徴 、 報に含まれる
、を 較し、前記 カステップでは、前記 報に含まれ る特徴 、前記 報に含まれる の ずれ に合致する 場合に、合致した前記 報を示す 報を出力してもよ 。
0040 そのよ 構成によれば、特徴 較して印象的な 画を自動 出することがで きる。
0041 ステップで 出された 報に基 て、前記 報に含まれる特徴 同じ 類の を含む 2の
報を生成する 2の ステップが、さらに含まれ、前記
ステップでは、前記 ステップで 出された 報に含まれ る特徴 異なる種類の を含む 報を生成し、前記 2の 報に含まれる特徴 、前記 報に含まれる 、を 較してもよ 。
0042 そのよ 構成によれば、処理件数の 出に る 理を簡便にし 、一方 較する 理を ことで処理 度を維持することができる。 0043 ステップでは、入力された重み付け 報に応じて前記 画 を抽出してもよ 。
0044 そのよ 構成によれば、重み付け 報に応じて印象的な 画を自動 出すること ができる。
0045 音信号の 号の 域を制限する 2の ィ タ ングステップ 、がさらに 含まれ、前記 ステップでは、前記 の ィ タ ングステップで音響 号の 域が制限された ンテ に繰り返し出現する音響 号の 部を含 む 画を、前記 画として特定し、前記 画を抽出し、前記
ステップでは、前記 2の ィ タ ングステップで音響 号の 域が制限された楽 音信号 、前記 ステップにお て 出した 画が存在する 否 を判断してもよ 。
0046 そのよ 構成によれば、 ンテン 号に 音が混在して る場合で あ ても、正し 印象的な 画を自動 出することができる。
0047 数の ンテ 報をあら じめ定められた基準で 出する部分 合生成ステッ プがさらに含まれ、前記 ステップでは、前記 合生成ステップで 出された 数の ンテ に繰り返し出現する音響 号の 部を含む 画 を、前記 画として特定し、前記 画を抽出してもよ 。
0048 そのよ 構成によれば、特定の ンテ を対象として印象的な 画を自動 出 することができる。
0049 ンテ 、テ ビジョン 組であ て、前記 合生成ステップで は、同一 ズに属するテ ビジョン 組を抽出してもよ 。
0050 そのよ 構成によれば、同一 ズに属するテ ビジョン 組を対象として印象 的な 画を自動 出することができる。
0051 明による 画自動 プ グラムは、楽曲の 象的な 画を示す 報を自動 出する 理を ンピ に実行さ る 画自動 プ グラムであ て、前記 ンピ に、音響 号を含む一 上の ンテ に繰り返し出現する音 響 号の 部の 画を、 画として特定し、前記 画を抽出する頻出 出処理と、音響 号を含む 、前記 出処理で 出した 画が存在する 否 を判断する共通 理と、前記 理 にお て前記 前記 音信号 に存在すると判断した場合に、前記 画に対応する前記 号の 分を特定 能な情報を出 する共通 理と、を実行さ る。 0052 出処理では、あら じめ定められた条件で区切られた ンテンツ の 号の 区画を識別 能な音響 報を生成し、前記 画を特定する音響 報を、 報として 出し、前記
理では、あら じめ定められた条件で区切られた楽曲 号の 区画を識別 能な 報を生成し、前記 報と前記
報とを 較し、前記 理では、前記 報が前記
報の ずれ に合致する場合に、合致した前記 報を示す 報を出力してもよ 。
0053 そのよ 構成によれば、 ンテンツおよび 号を 切るための 定の 件に 応じた印象的な 画を自動 出することができる。
0054 および 、特徴 を含む情報であ て、前記 出処理では、 報に含まれる特徴 をそれ ぞれ 較することによ て 画を特定し、前記 理では、前記 報に含まれる特徴 、 報に含まれる 、 を 較し、前記 理では、前記 報に含まれる特徴 、前記 報に含まれる の ずれ に合致する場合に、合 致した前記 報を示す 報を出力してもよ 。
0055 そのよ 構成によれば、特徴 較して印象的な 画を自動 出することがで きる。
0056 出処理で 出された 報に基 て、前記
報に含まれる特徴 同じ 類の を含む 2の 報 を生成する 2の 出処理を、さらに前記 ンピ に実行さ 、前記 理では、前記 出処理で 出された 報に 含まれる特徴 異なる種類の を含む 報を生成し、前記 2 の 報に含まれる特徴 、前記 報に含まれる
、を 較してもよ 。
0057 そ よ 構成によれば、処理件数の 出に る 理を簡便にし 、一方 較する 理を ことで処理 度を維持することができる。 0058 出処理では、入力された重み付け 報に応じて前記 画を 抽出してもよ 。
0059 そのよ 構成によれば、重み付け 報に応じて印象的な 画を自動 出すること ができる。
0060 ンテ 報の 号の 域を制限する の ィ タ ング 理と、前 記 音信号の 号の 域を制限する 2の ィ タ ング 理と、をさらに前記 ンピ に実行さ 、前記 出処理では、前記 の ィ タ ング 理で音響 号の 域が制限された ンテ に繰り返し出現する音響 号の 部を含む 画を、前記 画として特定し、前記 画を抽出し、前記
理では、前記 2の ィ タ ング 理で音響 号の 域が制限された 楽音信号 、前記 ステップにお て 出した 画が存在する 否 を判断してもよ 。
0061 そのよ 構成によれば、 ンテン 号に 音が混在して る場合で あ ても、正し 印象的な 画を自動 出することができる。
0062 数の ンテ 報をあら じめ定められた基準で 出する部分 合生成 理 を、さらに前記 ンピ に実行さ 、前記 出処理では、前記 合生成 理で 出された 数の ンテ に繰り返し出現する音響 号の 部を含む 画を、前記 画として特定し、前記 画を抽出してもよ 。 0063 そのよ 構成によれば、特定の ンテ を対象として印象的な 画を自動 出 することができる。
0064 ンテ 、テ ビジョン 組であ て、前記 合生成 理では、 同一 ズに属するテ ビジョン 組を抽出してもよ 。
0065 そのよ 構成によれば、同一 ズに属するテ ビジョン 組を対象として印象 的な 画を自動 出することができる。
0066 明による 画自動 ステムの 、例えば、楽曲を内部で 利用して る ンテ 群 ら、 ザに 繁に露出されて る楽曲 画を調査して その 分を識別するための を生成する手段と、解析 象である楽曲 の 画を識別するための を生成する手段と、二 の 較により 通する部分を特定する共通 段を備える。
0067 このよ な構成を採用することで、ある楽曲にお て、 の を通して 繁 に視聴者に提示されて る部分を自動的に一意に特定することができ、 明の 的を達成することができる。
明の
0068 明によれば、楽曲 に表れる回数とは無関係に、一般 ザに広 認知され て る可能,注が高 と推定される 立を自動的に 出し、それを楽曲における印象 的な 画として のアプ ケ ョンに提供することができると 果がある。す なわち、テ ビジョン ンテンツを用 て、音楽 ンテン をすること ができると 果がある。 0069 来の ステムの を示す ック図である。
2 2は 明による 画自動 ステムの の 施の 態を示す ック 図である。
3 3は 明による 画自動 ステムの 2の 施の 態を示す ック 図である。
4 4は 明による 画自動 ステムの 3の 施の 態を示す ック 図である。
5 5は 明による 画自動 ステムの 4の 施の 態を示す ック 図である。
号の
0070 2 2
2
2
2 明を実 するための 良の
0071 施の ・
下、本 明の の 施の 態を図面を参照して説明する。 2は、 明によ る 画自動 ステムの の 施の 態を示す ック図である。 2に示す 画自動 ステムは、楽曲における印象的な 報を生成する
を備える。
0072 は、 の と、重要 2と、
2の と、共通 2とを含む。なお、 の 重要 2が、 を構成し、 2の 共通 2が、共通 を構成し、共通
2が共通 部を構成する。
0073 は、楽曲 号と、楽曲を内部で利用して る ンテン 、 に基 て、楽曲における印象的な 画を示す 報を生成する。
0074 象的な 、一般に広 認知されて る部分、例えば ンテン 群にお てよ 現れる ズ( えば メ ディの )である。
0075 なお、以下の 明では、楽曲の 部または全体に ての 号を楽曲 号と 表記する。
0076 、一般の 曲に ての 号であ て、例えば、デ タベ ス( ず。 )の 域に記憶される。
0077 ンテン 群は、楽曲 号を含む ンテンツの 合であ て、例えば、テ ビジョン 組に代表される音声 ンテンツ、または、ウ (web) または グ ( o )などの、背景 楽が重畳されたインタ ネット ソ スなどである。
0078 ンテン 群は、例えば、区画自動 ステムの によ てあら じめ 作為に、または、楽曲 号に応じて選択される。 択された ンテン 群は、通信 、 トワ クを介して、区画自動 ステムにダウン ドされる。
0079 の は、 ンテン 群が入力されると、す ての ンテン に て、音響トラック( を識別するための タデ タである音響 名を生成 する。 0080 、時間 報とその 間における音楽 との を 列に並 た 集合 らなる。 言すると、音楽 、あら じめ定められた条件で区切られた ンテ の 号の 区画を識別するための 報である。 0081 名に ては、オ ディオ グナチヤ ( do S a e)として、
特徴 現形態が開発されて る。
0082 えば、アイ・ ス・ ( SO) アイ・ ・ ( C)の 同国際 準で P G
7オ ディオとして知られる規格( SO C 5938 4)の6・ 2章に、音響 名 の 良の が示されて る。すなわち、音響 、 ンテ 毎に、音楽 が時間 報とともに に順次 納された情報である。
0083 2は、音響 によ て生成された 数の
名に基 て、一 または複数の ンテ の中で 出する音響 号の 部分( 称する。)を探し出す。 2は、その
分を、音響 名として する。 、 報の 例 であり、広 認知されて る ズを示す。
0084 2は、ある一 の ンテ の に繰り返し れる音 楽 を検索するだけでな 、複数の ンテ に共通して まれる音楽 を 検索する。
0085 そのため、重要 2は、一 の ンテ 中には一度し れな が、 ろ ろな ンテ に共通して現れる ズを、広 認知されて る ズ ま り音響 名として 出することができる。
0086 2は、音響 名のよ 時間 き特徴 列の間で共通する 部分を、部分対 分比較( 分同士の )を行 て 術として、例えば
4または特許 5などに公開されて る 術、ある は、前述した国際
( SO C 5938 4)等にお て提示されて る 術などを利用する。
0087 2は、 ンテン 群の中で 出する音響 分を識別するた めの 報と、 出する音響 分の 、を含む 名を 生成する。すなわち、音響 、 ンテ 群の中で 出する音響 ( えば ズ)が する 画に対応する音響 名である。 0088 2は、入力される複数の 名を対象に上記の 理を行 とによ て、入力された ンテ 群にお て り返されて る音響 を特 定するための 数の 名を生成する。
0089 2は、生成された音響 名に、重要度を付与する。
0090 要度のも とも 単な例は、繰り返し回数である。
0091 なお、重要度は、繰り返し回数に限らず 能である。
0092 えば、重要 2は、単純に繰り返し回数を ウントする わりに、外 部 ら ンテ に関する重み 報を入力し、繰り返される ごとに、その 画に 対応する重み 報を加算して き、その 算された重み 報の 計を、その 画の 要度としてもよ 。
0093 報とは、時間ごとの 聴率などの 標値、または、 ンテンツの ご とにあら じめ 定された指標値などである。 、例えば、 低 、 ヤ 前および ンディング 近など制作者が盛り上がりを設定する部位 は高 設定された指標値などの 為的な をさす。
0094 なお、以下の 明にお て、重要 2によ て生成された 数の
名を 表記する場合がある。
0095 方、も ひと の 力である楽曲 、 2の に入力され る。
0096 2の は、入力された楽曲 号 ら、音響 で 用 られたものと同じ 類の を含む 名を生成する。すなわち、 2 の は、入力された楽曲 号を識別するための タデ タである 音響 名を生成する。
0097 、あら じめ定められた条件で区切られた楽曲 号の 区画を識別す るための 報の 例である。
0098 2の によ て生成された楽曲 号の 名と、重要
2によ て生成された音響 とは、共に共通 2に 入力される。
0099 2は、音響 に含まれる 名に相当する 、楽曲 号の 名の 部の 画を特定し、その 定された 画の ( )を する。
0100 すなわち、共通 2は、 名に含まれる音楽 、楽 曲 号の 名に含まれる音楽 、を 較する。 2は、 音楽 にお て、音響 名が楽曲 号の 名の 部分と合致する場 合に、合致した部分の 号を特定 能な時間 報を出 する。
0 0 なお、以下の 明では、合致した部分の 号を、共通 画と表記する場合が ある。
0102 2は、音響 名と、楽曲に て生成された楽曲 号の 名と、の である、部分対 ことによ て、共通 画の 無を判 断する。 2は、共通 画があると、その 画を特定 能な時 間 報を出 する。 分対 、技術的には先に説明した部分対 分比較 全 価である。
0103 2は、全ての 名と楽曲 号の 名とが合致し な 場合には、共通 画の 報を出力しな 。
0104 画の 報が出力されな 場合には、入力された楽曲 、入力され た ンテ 、
ン 群にお て 繁に利用されて る部分を有して な と こととなり、 その 号には、印象的な 存在しな ことになる。
0105 なお、区画自動 ステムは、 ンピ で実現可能である。 画自動
ステムを構成する 、すなわち、区画 、 の
、重要 2、 2の および 2は、 ンピ の 理装置( )に上述した機能を実現さ るためのプ グラムによ て実現可能である。
0106 プ グラムは、例えば、 ンピ によ て み取り可能な記録 (メ 等 )に記録される。この 合、 ンピ の 理装置( )が、その 体 ら、 そのプ グラムを読み取り、その み取られたプ グラムを実行する。
0 07 画自動 ステムを構成する 素が、 ンピ で実現可能であるこ と、プ グラムによ て実現可能であること、および、プ グラムが記録 体に記録さ れて ることは、 の 施の 態に限らず、以下の 施の 態でも同様である。 0108 上に説明したよ に、 の 施の 態によれば、楽曲 部の 造に わらず 何度も耳にする特定 ズを楽曲における印象的な 画として選ぶこと ができると 果がある。
施の 2・
次に、 明の 2の 施の 態を図面を参照して説明する。 3は、 明によ る 画自動 ステムの 2の 施の 態を示す ック図である。 3に示す 画自動 ステムは、楽曲における印象的な 報を生成する
2 を備える。
0109 2 は、 の 施の 態の 素に加えて、音響
2 を備えるとともに、 2の に代えて 2の
2 を備える。
0110 2 は、楽曲 号と、楽曲を内部で利用して る ンテン 、 に基 て、楽曲における印象的な 画を示す 報を生成する。なお、 の 施の 態における音響 、重要 2および
2 同様の に ては、 2で示したものと同一の 号を付し、説明を する。
0111 ンテン 群が区画 2 に入力されると、 の 施の 態と同様に、 音響 および重要 2によ て、音響 が生成 される。
0112 下の 明では、重要 2によ て生成された音響 名を第 の 名と表記し、複数の の 名を第 の 表記 する。
0113 2の 施の 態にお て、重要 2は、音響 士を簡便に比較 することにより、高速に処理を行 。
0114 20 は、 の 群 ら、音響 が 生成したものとは異なる種類の を含む 2の を生成する 0115 なる種類の 、例えば、 の 名に含まれる音楽 ラメ タを変更したもの、その の 部のみを抜き出したもの、ある は、その に別の音 を加えたものである。
0116 20 は、 の を変換して、 2の
を生成してもよ 。
0117 また、音響 2 は、 の を直接 換する わり に、時間 報のみを重要 2 ら受け取り、音楽 、入力された ンテン 群 ら直接 成しても わな 。
0118 2 は、入力された楽曲 号 ら、音響 2 が 生成したものと同じ 類の を含む 名を生成する。
0119 2 によ て生成された音響 名と、音響 2 に よ て生成された 2の とは、共に共通 2に入力され る。
0120 2の 、 の 施の 態と同様であ て、音響
2 および音響 2 の 力 ら、楽曲における印象的な 画を 示す 画を特定し、その 画を特定 能な時間 ( )を生成す る。
0121 なお、 2の 施の 態にお て、共通 2は、 2の
楽曲 号の 名とを 比較することによ て、共通 画を特定 能な 時間 報を出 する。
0122 上に説明したよ に、 2の 施の 態によれば、 の 施の 態による効果 に加えて、繰り返し 理が非常に多 ンテン 部での の
理では、簡便な音響 行 て高速性を実現し、同時に、繰り返し数が 段 に減る第2の 音響 名との では、精微な処理を実現すること ができる。
施の 3・
次に、 明の 3の 施の 態を図面を参照して説明する。 4は、 明によ る 画自動 ステムの 3の 施の 態を示す ック図である。 4に示す 自動 ステムは、区画 と、入力 号の 工を〒 の ィ タ ング 3 と、 2の ィ タ ング 3 2とを備える。
0123 なお、 4には、区画 として、 の 施の 態における
を例示したが、 2の 施の 態の 2 が用 られてもよ 0124 の ィ タ ング 3 は、 ンテン の 音信号に重畳される
および 果を少な するために、 ンテン の 音信号 ら特定 域 の 号を する機能を有する。特に、 声の 域の 号のみを阻止する ィ が、 の ィ タ ング 3 の 型的な実施 である。
0125 2の ィ タ ング 3 2は、楽曲 号 ら特定 域の 号を する機能を有 する。
0126 2の ィ タ ング 3 2は、共通 2の 作を防ぐために、 の ィ タ ング 3 同じ 波数 性を持 とともに、楽音信号を含む ンテン 群 の記 に生じる楽音信号の な し の 止または抑制と同様の 域 性を有してもよ 。
0127 この 合、 ンテン 群に含まれる楽音信号の な し の 部が、 ンテン 群の記 に されて ても、音響 に入力される楽音信号の 域を、 ンテン 群に含まれる楽音信号の 域に合わ ることが可能となる。よ て、共通 2の 作を防ぐことが可能になる。
0128 3の 施の 態によれば、 および 2の 施の 態による効果に加えて、 ンテン 、音楽だけが静 に流れる場面ば りでな 場合にお ても、楽曲にお ける印象的な 報の 成を高 率で実現することができる。
施の 4・
次に、 明の 4の 施の 態を図面を参照して説明する。 5は、 明によ る 画自動 ステムの 4の 施の 態を示す ック図である。 5に示す 画自動 ステムは、区画 と、入力された ンテン 群の加工を 行 セット 4 とを備える。
0129 なお、 5には、区画 として、 の 施の 態における 部 を例示したが、 2の 施の 態の 2 が用 られてもよ 0130 また、 4に実施の 態に、 4に示した の ィ タ ング 3 および 2の ィ タ ング 3 2が追加されてもよ 。
0131 セット 4 は、入力された ンテン 群の部 (サ セット)を生成 する。 えば、サ セット 4 は、複数の ンテン 報をあら じめ定められ た基準にしたが て 出する。
0132 部 、例えば、同一 ズに属するテ ビジョン 組に ての ンテン のみを集めたもの、視聴者層がほぼ なる ンテン のみを集めたもの、特定事象 に関連した ンテン のみを集めたものである。
0133 ズのテ ビジョン 、連続性を持 一連のテ ビジョン 組であ て 、例えば、主人公および主題の な2 上の映 またはドラ 、ある は、ある 期間連続的に行われるスポ ツの 合などである。
0134 聴者は、 の ンテン 体 ら強 印象を受ける場合もあるが、一般に視 聴者が受ける印象は、特定の ンテン グ プ 強 結び て る場合が多 。 0135 4の 施の 態によれば、 、 2および 3の 施の 態による効果に加え て、例えば、特定のドラ 組にお て主題歌として使われて る楽曲の、そのドラ 内で り返し使われた部位を適切に 出することができる。
0136 なお、上記の 施の 態では、音響 号の を示す 報として音楽 名を 例示して るが、楽曲がプ ョン用の 、 ク ップなどの き 曲 である場合には、音響 名に代えて映像 名を利用する構成としてもよ 。
0137 さらには、歌詞などの 曲に同期したテキスト 報が付随する場合には、テキスト 容そのものを同一性確認のための 名として てもよ 。
上の , 0138 、音楽の 号 ら 象的な 画を自動 出することに適用できる。 0139 えば、楽曲デ タベ スの 果として、検索された楽曲を示す 報を
ザに通知する場合に、検索された楽曲の 象的な 画を自動 出することにより、画 面にテキストでタイト を表示する わりに、印象的な 画を演奏して通知することが できる。
0140 この 合、例えば、表示による通知ができな 場面での 択と た 途に適 用でき、 自動車内または満員電車内で利用される音楽 末などにお て有効である 0141 また、カラオケでの 時など楽曲を選ぶ際に、タイト などの わりに、 自動 出された印象的な 画を通知することにより、利用者がタイト などの 報を 正確に覚えて な 場合であ ても、利用者は、記憶に残 て る ズ 通知さ れた ズとを ることで、楽曲 択を〒 ことができる。
0142 さらに、映像 集などの折に効果 を探し出すにあた て、広 使われて る人気 の ズを選択肢として自動 出して提示すると た 途にも適用 能である。

Claims

20 求の
曲の 象的な 画を示す 報を自動 出する 画自動 ステムであ て、 音響 号を含む一 上の ンテ に繰り返し出現する前記 号の 部を含む 画を、 画として特定し、前記 画を抽出する頻出 、
音響 号を含む 、前記 出した 画が存在 する 否 を判断する共通 、
前記 、前記 前記 音信号 に存在する、 判断し た場合に、前記 画に対応する前記 号の 画を特定 能な情報を出 する共通 、
を備える 画自動 ステム。
2 、あら じめ定められた条件で区切られた ンテ
の 号の 区画を識別 能な音響 報を生成し、前記 画を 特定する音響 報を、 報として 出し、
前記 、あら じめ定められた条件で区切られた楽曲 号の 区 画を識別 能な 報を生成し、前記 報と前記
報とを 較し、
前記 部は、前記 報が前記 報の ずれ に合致する場合に、合致した前記 報を示す 報を出 する 載の 画自動 ステム。
3 および 、特徴 を含む情報であ て、
前記 、 報に含まれる特徴 をそれぞれ 較 することによ て、前記 画を特定し、
前記 、前記 報に含まれる特徴 、
報に含まれる 、を 較し、
前記 部は、前記 報に含まれる特徴 、前記 報に含まれる の ずれ に合致する場合に、合致した前記 報を示す 報を出 する、
請求 2 載の 画自動 ステム。
4 によ て 出された 報に基 て、前記 報に含まれる特徴 同じ 類の を含む 2の
報を生成する 2の 、さらに含み、
前記 、前記 によ て 出された
報に含まれる特徴 異なる種類の を含む 報を生成 し、前記 2の 報に含まれる特徴 、前記 報に含 まれる 、を 較する、
請求 3 載の 画自動 ステム。
5 、入力された重み付け 報に応じて前記 画を抽出 する、
請求 な し4の ずれ 項に記載の 画自動 ステム。
6 、前記 ンテ 報の 号の 域を制限する の ィ タ ング部を備え、
前記 、前記 号の 号の 域を制限する 2の ィ タ ング部を備える、
請求 な し5の ずれ 項に記載の 画自動 ステム。
7 、複数の ンテ 報をあら じめ定められた基準で 出する部分 合生成 を備える、
請求 な し6の ずれ 項に記載の 画自動 ステム。
8 ンテ 、テ ビジョン 組であ て、
前記 合生成 、同一 ズに属するテ ビジョン 組を抽出する、 請求 7 載の 画自動 ステム。
9 曲の 象的な 画を示す 報を自動 出する 画自動 ステムが
画自動 出方法であ て、
音響 号を含む一 上の ンテ に繰り返し出現する音響 号の を含む 画を、 画として特定し、前記 画を抽出する頻出 ステ 、プ 、
音響 号を含む 、前記 ステップにお て 出した 画が存在する 否 を判断する共通 ステップ 、
前記 ステ プにお て前記 前記 音信号 に存在する と判断した場合に、前記 画に対応する前記 号の 分を特定 能な情 報を出 する共通 カステ、プ 、
を含む 画自動 出方法。
0 ステ プでは、あら じめ定められた条件で区切られた ンテン の 号の 区画を識別 能な音響 報を生成し、前記 画を特定する音響 報を、 報として 出し、 前記 ステ プでは、あら じめ定められた条件で区切られた楽曲 号の 区画を識別 能な 報を生成し、前記 報と前 記 報とを 較し、
前記 カステ プでは、前記 報が前記
報の ずれ に合致する場合に、合致した前記 報を示す 報を出 する、
請求 9 載の 画自動 出方法。
および 、特徴 を含む情報であ て、
前記 ステ プでは、 報に含まれる特徴 をそれぞ れ 較することによ て 画を特定し、
前記 ステ プでは、前記 報に含まれる特徴 、 報に含まれる 、を 較し、
前記 カステ プでは、前記 報に含まれる特徴 、前 記 報に含まれる の ずれ に合致する場合に、合致し た前記 報を示す 報を出 する、
請求 載の 画自動 出方法。 2 ステ プで 出された 報に基 て、前記 報に含まれる特徴 同じ 類の を含む 2の
報を生成する 2の ステップを、さらに含み、
前記 ステ プでは、前記 ステップで 出された
報に含まれる特徴 異なる種類の を含む 報 を生成し、前記 2の 報に含まれる特徴 、前記
報に含まれる 、を 較する、
請求 載の 画自動 出方法。
3 ステ プでは、入力された重み付け 報に応じて前記 画 を抽出する、
請求 9な し 2の ずれ 項に記載の 画自動 出方法。
4 ンテ 報の 号の 域を制限する の ィ タ ングステップ 、 前記 音信号の 号の 域を制限する 2の ィ タ ングステップ 、をさら に含み、
前記 ステ プでは、前記 の ィ タ ングステップで音響 号の 域が制限された ンテ に繰り返し出現する音響 号の 部を含む 画 を、前記 画として特定し、前記 画を抽出し、
前記 ステ プでは、前記 2の ィ タ ングステップで音響 号の 域が制限された楽音信号 、前記 ステップにお て 出した 画が存在する 否 を判断する、
請求 9な し 3の ずれ 項に記載の 画自動 出方法。
5 数の ンテ 報をあら じめ定められた基準で 出する部分 合生成ステッ プをさらに含み、
前記 ステ プでは、前記 合生成ステップで 出された 数の ンテン に繰り返し出現する音響 号の 部を含む 画を、前記 画 として特定し、前記 画を抽出する、
請求 9な し 4 ずれ 項に記載の 画自動 出方法。
6 ンテ 、テ ビジョン 組であ て、 合生成ステ プでは、同一 ズに属するテ ビジョン 組を抽出す る、
請求 5 載の 画自動 出方法。
7 曲の 象的な 画を示す 報を自動 出する 理を ンピ に実行さ る 画自動 プ グラムであ て、
前記 ンピ に、
音響 号を含む一 上の テ に繰り返し出現する音響 号の 部 の 画を、 画として特定し、前記 画を抽出する頻出 出処理と、 音響 号を含む 、前記 出処理で 出した 画が存 在する 否 を判断する共通 理と、
前記 理にお て前記 前記 音信号 に存在すると判 断した場合に、前記 画に対応する前記 号の 分を特定 能な情報を 出 する共通 理と、
を実行さ るための 画自動 プ グラム。
8 出処理では、あら じめ定められた条件で区切られた ンテンツ の 号の 区画を識別 能な音響 報を生成し、前記 画を特定する音響 報を、 報として 出し、
前記 理では、あら じめ定められた条件で区切られた楽曲 号の 区画を識別 能な 報を生成し、前記 報と前記 報とを 較し、
前記 理では、前記 報が前記 報 の ずれ に合致する場合に、合致した前記 報を示す 報を出 する、
請求 7 載の 画自動 プ グラム。
9 および 、特徴 を含む情報であ て、
前記 出処理では、 報に含まれる特徴 をそれぞれ 較することによ て 画を特定し、 理では、前記 報に含まれる特徴 、 報に含まれる 、を 較し、
前記 理では、前記 報に含まれる特徴 、前記 報に含まれる の ずれ に合致する場合に、合致した前 記 報を示す 報を出 する、
請求 8 載の 画自動 プ グラム。
20 出処理で 出された 報に基 て、前記
報に含まれる特徴 同じ 類の を含む 2の 報 を生成する 2の 出処理を、さらに前記 ンピ に実行さ 、 前記 理では、前記 出処理で 出された
報に含まれる特徴 異なる種類の を含む 報を生成し、 前記 2の 報に含まれる特徴 、前記 報に含ま れる 、を 較する、
請求 9 載の 画自動 プ グラム。
2 出処理では、入力された重み付け 報に応じて前記 画を 抽出する、
請求 7な し2 の ずれ 項に記載の 画自動 プ グラム。
22 ンテン 報の 号の 域を制限する の ィ タ ング 理と、 前記 音信号の 号の 域を制限する 2の ィ タ ング 理と、をさらに 前記 ンピ に実行 、
前記 出処理では、前記 の ィ タ ング 理で音響 号の 域が 制限された ンテン に繰り返し出現する音響 号の 部を含む 画を、前 記 画として特定し、前記 画を抽出し、
前記 理では、前記 2の ィ タ ング 理で音響 号の 域が 制限された楽音信号 、前記 ステップにお て 出した 画 が存在する 否 を判断する、
請求 7な し2 ずれ 項に記載の 画自動 プ グラム。
23 数の ンテン 報をあら じめ定められた基準で 出する部分 合生成 を、さらに前記 ンピ に実行さ 、
前記 出処理では、前記 合生成 理で 出された 数の ンテ ン に繰り返し出現する音響 号の 部を含む 画を、前記 画として 特定し、前記 画を抽出する、
請求 7な し22の ずれ 項に記載の 画自動 プ グラム。
24 ンテン 、テ ビジョン 組であ て、
前記 合生成 理では、同一 ズに属するテ ビジョン 組を抽出する、 請求 23 載の 画自動 プ グラム。
PCT/JP2006/320073 2005-12-08 2006-10-06 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム WO2007066450A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/096,763 US20090132074A1 (en) 2005-12-08 2006-10-06 Automatic segment extraction system for extracting segment in music piece, automatic segment extraction method, and automatic segment extraction program
JP2007549033A JP5145939B2 (ja) 2005-12-08 2006-10-06 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005354285 2005-12-08
JP2005-354285 2005-12-08

Publications (1)

Publication Number Publication Date
WO2007066450A1 true WO2007066450A1 (ja) 2007-06-14

Family

ID=38122601

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/320073 WO2007066450A1 (ja) 2005-12-08 2006-10-06 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム

Country Status (3)

Country Link
US (1) US20090132074A1 (ja)
JP (1) JP5145939B2 (ja)
WO (1) WO2007066450A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010053160A1 (ja) * 2008-11-07 2010-05-14 国立大学法人 北海道大学 コンテンツ検索装置およびコンテンツ検索プログラム
JP2011521272A (ja) * 2008-03-05 2011-07-21 ザ ニールセン カンパニー (ユー エス) エルエルシー 署名を生成する方法及び装置
US9136965B2 (en) 2007-05-02 2015-09-15 The Nielsen Company (Us), Llc Methods and apparatus for generating signatures

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2457694B (en) * 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
US7994410B2 (en) * 2008-10-22 2011-08-09 Classical Archives, LLC Music recording comparison engine
CN102365543A (zh) 2009-01-16 2012-02-29 纽约大学 用全息视频显微术的自动实时粒子表征和三维速度计量
JP5337241B2 (ja) * 2009-06-05 2013-11-06 株式会社東芝 映像編集装置
US9715581B1 (en) * 2011-11-04 2017-07-25 Christopher Estes Digital media reproduction and licensing
JP5949203B2 (ja) * 2012-06-21 2016-07-06 富士通株式会社 変更プログラム、変更方法、および変更装置
US10572447B2 (en) * 2015-03-26 2020-02-25 Nokia Technologies Oy Generating using a bidirectional RNN variations to music
WO2017139279A2 (en) 2016-02-08 2017-08-17 New York University Holographic characterization of protein aggregates
JP7439755B2 (ja) * 2018-10-19 2024-02-28 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US11543338B2 (en) 2019-10-25 2023-01-03 New York University Holographic characterization of irregular particles
US11948302B2 (en) 2020-03-09 2024-04-02 New York University Automated holographic video microscopy assay

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09292892A (ja) * 1996-04-26 1997-11-11 Brother Ind Ltd 楽音再生装置
JPH10136297A (ja) * 1996-10-01 1998-05-22 Matsushita Electric Ind Co Ltd デジタルビデオデータから索引付け情報を抽出する方法と装置
JP2000259168A (ja) * 1999-01-19 2000-09-22 Internatl Business Mach Corp <Ibm> 音声信号を分析する方法及びコンピュータ
JP2000312343A (ja) * 1998-06-01 2000-11-07 Nippon Telegr & Teleph Corp <Ntt> 高速信号探索方法、装置およびその記録媒体
JP2001109471A (ja) * 1999-10-12 2001-04-20 Nippon Telegr & Teleph Corp <Ntt> 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
JP2001283569A (ja) * 2000-03-30 2001-10-12 Seiko Epson Corp さびサーチ装置
JP2003005769A (ja) * 2001-06-26 2003-01-08 Sharp Corp 楽音生成装置、楽音生成方法及び楽音生成プログラムを記録した記録媒体
JP2004102023A (ja) * 2002-09-11 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7062442B2 (en) * 2001-02-23 2006-06-13 Popcatcher Ab Method and arrangement for search and recording of media signals
AU2003275618A1 (en) * 2002-10-24 2004-05-13 Japan Science And Technology Agency Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09292892A (ja) * 1996-04-26 1997-11-11 Brother Ind Ltd 楽音再生装置
JPH10136297A (ja) * 1996-10-01 1998-05-22 Matsushita Electric Ind Co Ltd デジタルビデオデータから索引付け情報を抽出する方法と装置
JP2000312343A (ja) * 1998-06-01 2000-11-07 Nippon Telegr & Teleph Corp <Ntt> 高速信号探索方法、装置およびその記録媒体
JP2000259168A (ja) * 1999-01-19 2000-09-22 Internatl Business Mach Corp <Ibm> 音声信号を分析する方法及びコンピュータ
JP2001109471A (ja) * 1999-10-12 2001-04-20 Nippon Telegr & Teleph Corp <Ntt> 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
JP2001283569A (ja) * 2000-03-30 2001-10-12 Seiko Epson Corp さびサーチ装置
JP2003005769A (ja) * 2001-06-26 2003-01-08 Sharp Corp 楽音生成装置、楽音生成方法及び楽音生成プログラムを記録した記録媒体
JP2004102023A (ja) * 2002-09-11 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9136965B2 (en) 2007-05-02 2015-09-15 The Nielsen Company (Us), Llc Methods and apparatus for generating signatures
JP2011521272A (ja) * 2008-03-05 2011-07-21 ザ ニールセン カンパニー (ユー エス) エルエルシー 署名を生成する方法及び装置
US8600531B2 (en) 2008-03-05 2013-12-03 The Nielsen Company (Us), Llc Methods and apparatus for generating signatures
US9326044B2 (en) 2008-03-05 2016-04-26 The Nielsen Company (Us), Llc Methods and apparatus for generating signatures
WO2010053160A1 (ja) * 2008-11-07 2010-05-14 国立大学法人 北海道大学 コンテンツ検索装置およびコンテンツ検索プログラム
US9077949B2 (en) 2008-11-07 2015-07-07 National University Corporation Hokkaido University Content search device and program that computes correlations among different features

Also Published As

Publication number Publication date
JP5145939B2 (ja) 2013-02-20
US20090132074A1 (en) 2009-05-21
JPWO2007066450A1 (ja) 2009-05-14

Similar Documents

Publication Publication Date Title
WO2007066450A1 (ja) 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
JP4469891B2 (ja) 情報処理装置及び情報処理プログラム
EP1968043B1 (en) Musical composition section detecting method and its device, and data recording method and its device
US20160226610A1 (en) Crowd sentiment detection and analysis
KR101796580B1 (ko) 음악 하이라이트 구간 추출 장치 및 방법
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
JP2008283486A (ja) 情報処理装置、情報処理方法、およびプログラム
EP3310066A1 (en) Identifying media content for simultaneous playback
JP2004191780A (ja) 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
JP4660275B2 (ja) 音響信号に対する情報の埋め込み装置および方法
JP2003177784A (ja) 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響再生システム、音響配信システム、情報提供装置、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム
JP2001143451A (ja) 自動インデックス発生装置ならびにインデックス付与装置
Venkatesh et al. Artificially synthesising data for audio classification and segmentation to improve speech and music detection in radio broadcast
JP2007292827A (ja) 音響信号検索装置
US9990911B1 (en) Method for creating preview track and apparatus using the same
Otsuka et al. An enhanced video summarization system using audio features for a personal video recorder
JP5082257B2 (ja) 音響信号検索装置
JP2007256619A (ja) 評価装置、制御方法及びプログラム
JP4531679B2 (ja) マルチスタンダード採点を行うカラオケ採点装置
Lee et al. Detecting music in ambient audio by long-window autocorrelation
JPH08265660A (ja) 音楽管理方法および装置
JP2004145161A (ja) 音声データベース登録処理方法,音声発生源認識方法,音声発生区間検索方法,音声データベース登録処理装置,音声発生源認識装置,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体
KR101975193B1 (ko) 자동 작곡 장치 및 컴퓨터 수행 가능한 자동 작곡 방법
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
Christel et al. Exploring the utility of fast-forward surrogates for BBC rushes

Legal Events

Date Code Title Description
DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007549033

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12096763

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06811400

Country of ref document: EP

Kind code of ref document: A1