JPWO2015125321A1 - 多角的歌声分析システム及び多角的歌声分析方法 - Google Patents
多角的歌声分析システム及び多角的歌声分析方法 Download PDFInfo
- Publication number
- JPWO2015125321A1 JPWO2015125321A1 JP2016503915A JP2016503915A JPWO2015125321A1 JP WO2015125321 A1 JPWO2015125321 A1 JP WO2015125321A1 JP 2016503915 A JP2016503915 A JP 2016503915A JP 2016503915 A JP2016503915 A JP 2016503915A JP WO2015125321 A1 JPWO2015125321 A1 JP WO2015125321A1
- Authority
- JP
- Japan
- Prior art keywords
- singing voice
- music
- singing
- analysis
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 173
- 238000009826 distribution Methods 0.000 claims abstract description 118
- 230000005236 sound signal Effects 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 81
- 238000000034 method Methods 0.000 claims description 44
- 238000003860 storage Methods 0.000 claims description 24
- 239000011295 pitch Substances 0.000 description 12
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- WWYNJERNGUHSAO-XUDSTZEESA-N (+)-Norgestrel Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](CC)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 WWYNJERNGUHSAO-XUDSTZEESA-N 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/14—Transforming into visible information by displaying frequency domain information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/056—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Abstract
Description
以下本発明を適用して多角的歌声分析を行った実施例について説明する。この実施例では、歌声を含む音楽音響信号を全て16kHzのモノラル信号に変換し、表1に示した楽曲を用いて分析した。
上記のようにして学習した潜在的ディリクレ配分法(歌声トピック分析)を用いる本発明の実施例は、歌手名同定に有用である。しかしながら本発明の多角的歌声分析システムは、上記の実施例に限定されるものではない。
検索対象の楽曲を音高シフトとテンポシフトによって「仮想的に増やす」ことで、速度の違いを吸収して、性別を超えた類似歌声の検索が可能にした。検索対象が増える以外は、最初の実施例と同様に、歌声トピックの混合比間の類似度を計算すれば良い。表2に、表1のそれぞれの歌声を検索クエリとして、自身以外で最も類似度が高かった歌手IDと、その音高シフト及びテンポシフトの値を示す。
各歌声における混合比πdkは、D個(歌声数)のK次元ベクトル(トピック数)であり、「各歌声dにおける支配的な歌声トピックkが分かる」ことを意味する。本実施例では、この性質を利用して歌手の同定や類似歌手の検索を行った。しかし、図7に示したように歌声トピックの混合比だけでは、それぞれの歌声トピックの意味が分からない場合がある。そこで逆に「歌声トピックの混合比から各歌声トピックkにおける支配的な歌声d が分かる」ことを考えて、本実施例では、各トピックの意味を可視化する。ここで本実施例では、ウェブサイト上で使用されるタグ等の単語を視覚的に記述する手法一つである「ワードクラウド」を応用し、各トピックに支配的な歌手ほど大きく表示する「歌手クラウド」によってトピックの意味を図8(A)乃至(D)のように提示するこのように表示すると、歌手名の羅列に比べて一覧性が高くて有用である。図8(A)乃至(D)では、同じ曲について歌声トピックの混合比を足し合わせ(音高とテンポの違いを無視)、その値に応じて歌手名のサイズを変えて生成した。図8(A)からは、類似性が高かったトピック28は一青窈(Hitoto Yo)の歌声が支配的であった。次いで図8(B)及び(C)に示すように、類似性が高かったトピック32や82は、宇多田ヒカル(Utada Hikaru)の歌声や東京事変(Tokyo Jihen)、矢井田瞳(Yaida Hitomi)などの歌声のような特性を持っていることが分かる。逆に、図8(D)に示す、一青窈(Hitoto Yo)の歌声にしか現れなかったトピック23は、一青窈(Hitoto Yo)の歌声に加え「ASIAN KUNG-FU GENERATION、JUDY AND MARY、aiko」などといった、前者と異なった歌声の特性を持っていると推測できる。このような歌手クラウドは、データセットを増やすことで、視覚的な印象が変わってくる。
2 フレーム信号取得部
3 歌声特徴ベクトル推定部
4 分析適正区間推定部
5 ベクトル離散化部
6 トピック分析部
7 歌声シンボル分布保存部
8 歌声トピック分布保存部
9 歌声多角的分析部
10 表示部
Claims (22)
- 歌声を含む楽曲の音楽音響信号を対象として、音楽や歌声の特性が変更された1以上の変更された音楽音響信号を生成する音楽音響信号生成部と、
前記歌声を含む楽曲の音楽音響信号及び前記音楽や歌声の特性が変更された1以上の変更された音楽音響信号の一つに所定の窓関数を掛けて、前記音楽音響信号から複数のフレーム信号を時系列で取得するフレーム信号取得部と、
前記音楽音響信号から取得した前記複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する歌声特徴ベクトル推定部と、
前記歌声特徴ベクトル推定部で推定した前記歌声特徴ベクトルから、前記フレーム信号の区間が分析に適した区間であるか否かを推定する分析適正区間推定部と、
前記分析に適した区間における前記複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換するベクトル離散化部と、
複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記音楽や歌声の特性が変更された音楽音響信号について得た複数の前記歌声シンボル系列を、トピックモデルによって分析し、一つの前記音楽音響信号と他の前記音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての前記音楽音響信号について生成し、併せて、前記複数の歌声トピックのすべてについて前記複数の歌声シンボルの出現確率を示す歌声シンボル分布をそれぞれ生成するトピック分析部と、
前記トピック分析部が生成した前記複数の歌声トピック分布を保存する歌声トピック分布保存部と、
前記トピック分析部が生成した複数の前記歌声シンボル分布を保存する歌声シンボル分布保存部と、
前記歌声トピック分布保存部に保存された前記複数の歌声トピック分布と前記歌声シンボル分布保存部に保存された前記複数の歌声シンボル分布に基づいて、複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記変更された音楽音響信号にそれぞれ含まれた歌声を多角的に分析する歌声多角的分析部とを備えている多角的歌声分析システム。 - 前記歌声多角的分析部は、前記複数の楽曲間の歌声間類似度を表示部に表示する請求項1に記載の多角的歌声分析システム。
- 前記歌声多角的分析部は、前記歌声トピック分布と前記複数の歌声シンボル分布に基づいて複数の前記音楽音響信号に含まれる歌声及び前記変更された音楽音響信号に含まれる歌声が近いものであるかを分析するように構成されている請求項1に記載の多角的歌声分析システム。
- 前記複数の音楽音響信号にはメタデータが付随しており、
前記歌声多角的分析部は、分析結果を表示する際に、前記メタデータの少なくとも一部を分析結果に併せて表示部に表示する請求項1に記載の多角的歌声分析システム。 - 前記音楽音響信号生成部は、前記音楽音響信号の音高をシフトして前記変更された音楽音響信号を生成する請求項1に記載の多角的歌声分析システム。
- 前記音楽音響信号生成部は、前記音楽音響信号のテンポをシフトして前記変更された音楽音響信号を生成する請求項1に記載の多角的歌声分析システム。
- 前記分析適正区間推定部は、歌声区間を前記分析に適した区間として推定する請求項1に記載の多角的歌声分析システム。
- 前記歌声特徴ベクトルが、前記歌声の線形予測メルケプストラム係数とΔF0である請求項1に記載の多角的歌声分析システム。
- 前記ベクトル離散化部は、k-means法等のクラスタリング法により離散化を実施する請求項1に記載の多角的歌声分析システム。
- 前記楽曲のメタデータとしての歌手名が前記音楽音響信号に付随しており、
前記歌声多角的分析部は、前記表示部に、前記分析結果と一緒に前記歌手名を用いてワードクラウド表示する請求項2に記載の多角的歌声分析システム。 - 前記ワードクラウド表示において、前記歌手名の位置と大きさにより、歌手の類似性を検索可能にした請求項10に記載の多角的歌声分析システム。
- 歌声を含む楽曲の音楽音響信号を対象として、音楽や歌声の特性が変更された1以上の変更された音楽音響信号を生成する音楽音響信号生成ステップと、
前記歌声を含む楽曲の音楽音響信号及び前記音楽や歌声の特性が変更された1以上の変更された音楽音響信号の一つに所定の窓関数を掛けて、前記音楽音響信号から複数のフレーム信号を時系列で取得するフレーム信号取得ステップと、
前記音楽音響信号から取得した前記複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する歌声特徴ベクトル推定ステップと、
前記歌声特徴ベクトル推定ステップで推定した前記歌声特徴ベクトルから、前記フレーム信号の区間が分析に適した区間であるか否かを推定する分析適正区間推定ステップと、
前記分析に適した区間における前記複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換するベクトル離散化ステップと、
複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記音楽や歌声の特性が変更された音楽音響信号について得た複数の前記歌声シンボル系列を、トピックモデルによって分析し、一つの前記音楽音響信号と他の前記音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての前記音楽音響信号について生成し、併せて、前記複数の歌声トピックのすべてについて前記複数の歌声シンボルの出現確率を示す歌声シンボル分布をそれぞれ生成するトピック分析ステップと、
前記トピック分析ステップで生成した前記複数の歌声トピック分布を歌声トピック分布保存部に保存する歌声トピック分布保存ステップと、
前記トピック分析ステップで生成した複数の前記歌声シンボル分布を歌声シンボル分布保存部に保存する歌声シンボル分布保存ステップと、
前記歌声トピック分布保存部に保存された前記複数の歌声トピック分布と前記歌声シンボル分布保存部に保存された前記複数の歌声シンボル分布に基づいて、複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記変更された音楽音響信号にそれぞれ含まれた歌声を多角的に分析する歌声多角的分析ステップとをコンピュータを用いて実施することを特徴とする多角的歌声分析方法。 - 前記歌声多角的分析ステップでは、前記複数の楽曲間の歌声間類似度を表示部に表示する請求項12に記載の多角的歌声分析方法。
- 前記歌声多角的分析ステップでは、前記歌声トピック分布と前記複数の歌声シンボル分布に基づいて複数の前記音楽音響信号に含まれる歌声及び前記変更された音楽音響信号に含まれる歌声が近いものであるかを分析するように構成されている請求項12に記載の多角的歌声分析方法。
- 前記複数の音楽音響信号にはメタデータが付随しており、
前記歌声多角的分析ステップでは、分析結果を表示する際に、前記メタデータの少なくとも一部を分析結果に併せて表示部に表示する請求項12に記載の多角的歌声分析方法。 - 前記音楽音響信号生成ステップでは、前記音楽音響信号の音高をシフトして前記変更された音楽音響信号を生成する請求項12に記載の多角的歌声分析方法。
- 前記音楽音響信号生成ステップでは、前記音楽音響信号のテンポをシフトして前記変更された音楽音響信号を生成する請求項12に記載の多角的歌声分析方法。
- 前記分析適正区間推定ステップでは、歌声区間を前記分析に適した区間として推定する請求項12に記載の多角的歌声分析方法。
- 前記歌声特徴量ベクトルが、前記歌声の線形予測メルケプストラム係数とΔF0である請求項12に記載の多角的歌声分析方法。
- 前記ベクトル離散化ステップでは、k-means法等のクラスタリング法により離散化を実施する請求項12に記載の多角的歌声分析方法。
- 前記楽曲のメタデータとしての歌手名が前記音楽音響信号に付随しており、
前記歌声多角的分析ステップでは、前記表示部に、前記分析結果と一緒に前記歌手名を用いてワードクラウド表示する請求項15に記載の多角的歌声分析方法。 - 前記ワードクラウド表示において、前記歌手名の位置と大きさにより、歌手の類似性を検索可能にした請求項21に記載の多角的歌声分析方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014032032 | 2014-02-21 | ||
JP2014032032 | 2014-02-21 | ||
PCT/JP2014/071480 WO2015125321A1 (ja) | 2014-02-21 | 2014-08-15 | 多角的歌声分析システム及び多角的歌声分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2015125321A1 true JPWO2015125321A1 (ja) | 2017-03-30 |
JP6150237B2 JP6150237B2 (ja) | 2017-06-21 |
Family
ID=53877851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016503915A Expired - Fee Related JP6150237B2 (ja) | 2014-02-21 | 2014-08-15 | 多角的歌声分析システム及び多角的歌声分析方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9747927B2 (ja) |
JP (1) | JP6150237B2 (ja) |
WO (1) | WO2015125321A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507628B (zh) * | 2017-08-31 | 2021-01-15 | 广州酷狗计算机科技有限公司 | 唱歌评分方法、装置及终端 |
JP2019133605A (ja) | 2018-02-02 | 2019-08-08 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN109635841B (zh) * | 2018-11-13 | 2023-11-03 | 平安科技(深圳)有限公司 | 歌词评价方法、装置及存储介质、计算机设备 |
JP7292646B2 (ja) * | 2019-12-11 | 2023-06-19 | 本田技研工業株式会社 | 音源分離装置、音源分離方法、およびプログラム |
CN113053396A (zh) * | 2021-03-26 | 2021-06-29 | 西安音乐学院 | 一种带有声纹识别的声乐发声训练电子评分系统 |
CN113223499B (zh) * | 2021-04-12 | 2022-11-04 | 青岛信芯微电子科技股份有限公司 | 一种音频负样本的生成方法及装置 |
CN113408702B (zh) * | 2021-06-23 | 2022-12-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 音乐神经网络模型预训练方法及电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014974A (ja) * | 2000-06-30 | 2002-01-18 | Fuji Photo Film Co Ltd | 検索装置及び検索システム |
JP2004152110A (ja) * | 2002-10-31 | 2004-05-27 | Olympus Corp | 検索条件設定方法及び検索条件設定装置 |
WO2006075432A1 (ja) * | 2005-01-17 | 2006-07-20 | Matsushita Electric Industrial Co., Ltd. | 音楽再生装置、方法、記録媒体、および集積回路 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5115966B2 (ja) | 2007-11-16 | 2013-01-09 | 独立行政法人産業技術総合研究所 | 楽曲検索システム及び方法並びにそのプログラム |
-
2014
- 2014-08-15 JP JP2016503915A patent/JP6150237B2/ja not_active Expired - Fee Related
- 2014-08-15 US US15/119,747 patent/US9747927B2/en not_active Expired - Fee Related
- 2014-08-15 WO PCT/JP2014/071480 patent/WO2015125321A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014974A (ja) * | 2000-06-30 | 2002-01-18 | Fuji Photo Film Co Ltd | 検索装置及び検索システム |
JP2004152110A (ja) * | 2002-10-31 | 2004-05-27 | Olympus Corp | 検索条件設定方法及び検索条件設定装置 |
WO2006075432A1 (ja) * | 2005-01-17 | 2006-07-20 | Matsushita Electric Industrial Co., Ltd. | 音楽再生装置、方法、記録媒体、および集積回路 |
Non-Patent Citations (2)
Title |
---|
宮沢 祐光,外2名: "好みの楽曲を選定するための楽曲類似度測定方法", 第68回(平成18年)全国大会講演論文集(2) 人工知能と認知科学, JPN6017012473, 7 March 2006 (2006-03-07), pages 第2-181〜2-182頁 * |
藤原 弘将,外1名: "VocalFinder:声質の類似度に基づく楽曲検索システム", 情報処理学会研究報告, vol. 第2007巻,第81号, JPN6017012474, 1 August 2007 (2007-08-01), JP, pages 第27-32頁 * |
Also Published As
Publication number | Publication date |
---|---|
US9747927B2 (en) | 2017-08-29 |
US20170061988A1 (en) | 2017-03-02 |
WO2015125321A1 (ja) | 2015-08-27 |
JP6150237B2 (ja) | 2017-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6150237B2 (ja) | 多角的歌声分析システム及び多角的歌声分析方法 | |
Casey et al. | Content-based music information retrieval: Current directions and future challenges | |
Chen et al. | The AMG1608 dataset for music emotion recognition | |
Li et al. | Music data mining | |
Schuller et al. | ‘Mister DJ, Cheer Me Up!’: Musical and textual features for automatic mood classification | |
Schuller et al. | Determination of nonprototypical valence and arousal in popular music: features and performances | |
Gulati et al. | Automatic tonic identification in Indian art music: approaches and evaluation | |
Aljanaki et al. | A data-driven approach to mid-level perceptual musical feature modeling | |
Nakano et al. | Vocal timbre analysis using latent Dirichlet allocation and cross-gender vocal timbre similarity | |
Chai | Automated analysis of musical structure | |
Samsekai Manjabhat et al. | Raga and tonic identification in carnatic music | |
Schuller et al. | Music theoretic and perception-based features for audio key determination | |
Jun et al. | Music retrieval and recommendation scheme based on varying mood sequences | |
Foster et al. | Sequential complexity as a descriptor for musical similarity | |
Herremans et al. | A multi-modal platform for semantic music analysis: visualizing audio-and score-based tension | |
Nakano et al. | Musical similarity and commonness estimation based on probabilistic generative models of musical elements | |
Blume et al. | Huge music archives on mobile devices | |
Nakano et al. | Musical Typicality: How Many Similar Songs Exist?. | |
Tulisalmi-Eskola | Automatic Music Genre Classification-Supervised Learning Approach | |
Müller et al. | Multimodal music processing (dagstuhl seminar 11041) | |
Liebman et al. | Related Work and a Taxonomy of Musical Intelligence Tasks | |
LEKAMGE et al. | A visual interface for emotion based music navigation using subjective and objective measures of emotion perception | |
Tzanetakis | Music information retrieval | |
US20230401254A1 (en) | Generation of personality profiles | |
ANDERSEN | How to Think Music with Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170411 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170502 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170515 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6150237 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |