JPWO2015125321A1 - 多角的歌声分析システム及び多角的歌声分析方法 - Google Patents

多角的歌声分析システム及び多角的歌声分析方法 Download PDF

Info

Publication number
JPWO2015125321A1
JPWO2015125321A1 JP2016503915A JP2016503915A JPWO2015125321A1 JP WO2015125321 A1 JPWO2015125321 A1 JP WO2015125321A1 JP 2016503915 A JP2016503915 A JP 2016503915A JP 2016503915 A JP2016503915 A JP 2016503915A JP WO2015125321 A1 JPWO2015125321 A1 JP WO2015125321A1
Authority
JP
Japan
Prior art keywords
singing voice
music
singing
analysis
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016503915A
Other languages
English (en)
Other versions
JP6150237B2 (ja
Inventor
倫靖 中野
倫靖 中野
和佳 吉井
和佳 吉井
後藤 真孝
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Publication of JPWO2015125321A1 publication Critical patent/JPWO2015125321A1/ja
Application granted granted Critical
Publication of JP6150237B2 publication Critical patent/JP6150237B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

一つの楽曲中の歌声と、潜在的意味において、何らかの関連を有する他の歌声を含む楽曲等を知る情報を得るのに利用可能な多角的歌声分析システムを提供する。トピック分析部6は、複数の音楽音響信号について得た複数の歌声シンボル系列を、トピックモデルによって分析する。トピック分析部6は、一つの音楽音響信号と他の音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての音楽音響信号について生成し、複数の歌声トピックのそれぞれにおける複数の歌声シンボル分布を生成する。歌声多角的分析部9は、複数の歌声トピック分布と複数の歌声シンボル分布に基づいて、音楽音響信号に含まれた歌声を多角的に分析する。

Description

本発明は、一つの楽曲中の歌声と、潜在的意味(トピック)において、何らかの関連を有する他の歌声を含む楽曲等を知る情報を得るのに利用可能な多角的歌声分析システム及び多角的歌声分析方法に関するものである。
楽曲にはジャンルやムードといった共通の特質を有する集合の概念(カテゴリー)がある。従来、音楽音響信号からのジャンル識別やムード推定 が研究されてきた。歌声も同様に、その声質や歌い方に応じた何らかのカテゴリーを形成できると予想できる。例えば、同じ楽曲ジャンルの曲や同じ曲を、別の歌手が歌った場合であっても、歌い方(歌声の音色や音高・音量の変化)に違いを感じたり、逆に似ていると感じることがある。このような類似性において「どのように似ているのか」を説明することができれば、歌声に関する客観的理解を深めることを支援でき、音楽検索や音楽鑑賞、コミュニケーションの円滑化などに有用である。さらに、声質や歌い方に応じた何らかのカテゴリーを形成できれば、人間の音楽との関わり方の研究にも有用である。例えば、歌声の聴取印象の分析や、特定の状況や場における人の選曲分析などにおいて、歌声の特性を説明する手段として、声質や歌い方に応じた何らかのカテゴリーの分析を活用できる。
従来、歌声を特徴付けたり説明したりする方法には、声種や性別などに関する「歌手の特性」、歌声区間や歌声の基本周波数F0の軌跡のモデル化などに関する「歌い方の特性」、感情などに関する「聴取印象」、楽曲ジャンルや歌詞などに関する「楽曲の特性」の研究があった。
例えば、特開2009−123124号公報(特許文献1)の発明では、声質が類似する歌声を含む未知の楽曲を検索するために、前述の特性の一部を利用している。
上記の特性に加えて、複数の歌声から分かるような、各歌声の潜在的な特性を分析する技術もいくつか提案されている。歌声の潜在的な特性を分析する従来の技術としては、以下のようなもの(非特許文献1乃至非特許文献7)がある。
特開2009−123124号公報
特性が変更された音楽音響信号を用いた歌詞と旋律による楽曲検索[Brochu, E. and de Freitas, N.: "Name That Song!": A Probabilistic Approach to Querying on Music and Text, Proc. of NIPS2002 (2002)] 低音旋律からのジャンル分類[上田 雄,角尾衣未留,小野順貴,嵯峨山茂樹:低音旋律の潜在意味解析による音楽ジャンル分類,日本音響学会春季研究発表会講演集,pp. 875-876 (2009)] 潜在的ディリクレ配分法(LDA)による調推定[Hu, D. J. and Saul, L. K.: A Probabilistic Topic Model for Unsupervised Learning of Musical Key-Profiles, Proc.of ISMIR2009 (2009)及びHu, D. J. and Saul, L. K.: A Probabilistic Topic Model for Music Analysis, Proc. of NIPS-09 (2009)] 楽曲の音響特徴量とブログや歌詞の文字の対応付け[Takahashi, R., Ohishi, Y., Kitaoka, N., and Takeda, K.:Building and Combining Document and Music Spaces for Music Query-By-Webpage System, Proc. of Interspeech 2008, pp. 2020-2023 (2008)] ソーシャルタグによる楽曲推薦[Symeonidis, P., Ruxanda, M.M., Nanopoulos, A. and Manolopoulos, Y.: Ternary Semantic Analysis of Social Tags for Personalized Music Recommendation, Proc. Of ISMIR2008, pp. 219-224 (2008)] 階層ディリクレ過程(HDP)を用いた楽曲間類似度の推定[Hoffman, M., Blei, D. and Cook, P.: Content-Based Musical Similarity Computation Using the Hierarchical Dirichlet Process, Proc. of ISMIR2008 (2008)] 自己組織化マップ(SOM)に基づく楽曲のクラスタリング[Pampalk, E.: Islands of Music: Analysis, Organization and Visualization of Music Archives, Master’s thesis,Vienna University of Technology (2001)]
しかしながら潜在的な意味解析を用いて、歌声の声質や歌い方についての音響特徴量を対象とした技術は従来なかった。そのため従来は、潜在的意味(トピック)において、何らかの関連を有する他の歌声を含む楽曲等を知る情報を得ることができなかった。
本発明の目的は、歌声を含む楽曲の音楽音響信号から歌声特徴ベクトルを推定し、複数の歌声を含む楽曲について集めて、それらの推定結果をトピックモデルによって分析した結果を用いて、歌声を多角的に分析することにより、一つの楽曲中の歌声と、潜在的意味(トピック)において、何らかの関連を有する他の歌声を含む楽曲等を知る情報を得るのに利用可能な多角的歌声分析システム及び多角的歌声分析方法を提供することにある。
本発明の多角的歌声分析システムは、音楽音響信号生成部と、フレーム信号取得部と、歌声特徴ベクトル推定部と、分析適正区間推定部と、ベクトル離散化部と、トピック分析部と、歌声トピック分布保存部と、歌声シンボル分布保存部と、歌声多角的分析部とを備えている。
音楽音響信号生成部は、歌声を含む楽曲の音楽音響信号を対象として、音楽や歌声の特性が変更された1以上の変更された音楽音響信号を生成する。具体的に、音楽音響信号生成部は、音楽音響信号の音高をシフトして変更された音楽音響信号を生成することができる。また音楽音響信号生成部は、音楽音響信号のテンポをシフトして変更された音楽音響信号を生成することもできる。音楽音響信号生成部を設けると、例えば、男性の歌声の楽曲を女性の歌声の楽曲に似たものに変更することができる。その結果、音楽音響信号生成部を設けることにより、例えば1万曲の分析対象の音楽音響信号を、数万曲の音楽音響信号に増やすことができ、分析対象を簡単に増やすことができる。また潜在的な意味で関連する楽曲との遭遇が可能になる。このような未知の楽曲や実際には存在していない曲との遭遇は、従来の技術では発生し得ないものであった。
フレーム信号取得部は、音楽音響信号及び変更された音楽音響信号の一つに所定の窓関数を掛けて、音楽音響信号から複数のフレーム信号を時系列で取得する。使用する窓関数は任意であるが、分析に適した数のフレーム信号を取得できる窓関数を用いるのが好ましい。
歌声特徴ベクトル推定部は、音楽音響信号から取得した複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する。歌声特徴ベクトルは、歌声に関するもので予め定めたものであり、例えば、前記歌声の線形予測メルケプストラム係数や、基本周波数(F0)の時間変化であるΔF0等を歌声特徴ベクトルとすることができるが、どのような歌声特徴ベクトルを用いるかは任意である。
分析適正区間推定部は、歌声特徴ベクトル推定部で推定した歌声特徴ベクトルから、フレーム信号の区間が分析に適正であるか否かを推定する。分析適正区間の推定技術は、公知のものを用いればよい。例えば、歌声区間を分析適正区間として推定することができる。分析適正区間における歌声特徴ベクトルを分析に用いるようにすれば、歌声の潜在的意味の分析精度を高めることができる。
ベクトル離散化部は、分析適正区間における複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換する。離散化の方法は任意であるが、例えばk-means法により離散化を実施することができる。歌声特徴ベクトルは、アナログデータである。代表的な、潜在的な特性を分析する潜在的ディリクレ配分法(LDA)は、文章のような離散的なデータの解析のために開発されたものである。そのため、アナログデータをそのまま入力データとして潜在的ディリクレ配分法(LDA)を用いて解析することはできない。そこでベクトル離散化部は、アナログデータを文章のような離散的なデータとして扱えるように、複数の歌声特徴ベクトルを複数の歌声シンボルによって構成される歌声シンボル系列に変換する。
本願明細書において、「歌声シンボル」とは、P個のフレームにおけるそれぞれの特徴ベクトルを、Pよりも小さいQ個のグループ(クラス)に分割した場合、それぞれのクラスを一つの歌声シンボルとして定義したものである。P及びQは2以上の整数である。例えば、k-means法では、それぞれの歌声シンボルを代表する平均的な特徴ベクトルを推定し、P個の歌声特徴ベクトルはそれぞれ、Q個の平均ベクトルからの距離を算出して、それが最も近い歌声シンボルを割り当てている。なお必ずしもQ≦Pである必要はないが、k-means法を用いる現在の実装では、Q≦Pである。
トピック分析部は、複数の歌声を含む楽曲の音楽音響信号及び複数の変更された音楽音響信号について得た複数の歌声シンボル系列を、トピックモデルによって分析する。そしてトピック分析部は、一つの音楽音響信号と他の音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての音楽音響信号について生成し、併せてすべての歌声トピックのそれぞれにおける複数の歌声シンボルの出現確率を示す複数の歌声シンボル分布を生成する。そして歌声シンボル分布保存部は、トピック分析部が生成した複数の歌声シンボル分布を保存する。また歌声トピック分布保存部は、トピック分析部が生成した複数の歌声トピック分布を保存する。
歌声トピック分布は、各曲の歌声が潜在意味(歌声トピック)に基づいて生成される過程を確率的に表現するのに利用される。なおトピックモデルを用いることにより、各歌声に内在する隠れた構造を抽出するとともに、歌声間の類似度を算出することもできる。本願明細書において、「歌声トピック」とは、D個(Dは2以上の整数)の歌声に共通する要因(K個)として定義される。これは、それぞれN個(D個の歌声全てのフレーム数の総数)の歌声シンボル(1〜Qのいずれか)の出現の仕方によって決まる。例えば予めK=100などとして歌声トピックを推定することができる。
歌声多角的分析部は、歌声トピック分布保存部に保存された複数の歌声トピック分布と歌声シンボル分布保存部に保存された複数の歌声シンボル分布に基づいて、複数の、歌声を含む楽曲の音楽音響信号及び複数の変更された音楽音響信号にそれぞれ含まれた歌声を多角的に分析する。歌声多角的分析部による分析手法は任意である。例えば、複数の楽曲間の歌声間類似度を表示部に表示するように歌声多角的分析部を構成することができる。また歌声多角的分析部は、歌声トピック分布と複数の歌声シンボル分布に基づいて複数の音楽音響信号に含まれる歌声及び変更された音楽音響信号に含まれる歌声が近いものであるかを分析するように構成することができる。
複数の音楽音響信号にはメタデータが付随していてもよい。この場合には、歌声多角的分析部は、分析結果を表示する際に、メタデータの少なくとも一部を分析結果に併せて表示部に表示することができる。このようにすると表示部にメタデータの一部が表示されることにより、観者がメタデータに含まれる情報を併せて認識することが可能になり、分析結果の活用度が向上する。
楽曲のメタデータとしての歌手名が音楽音響信号に付随している場合、歌声多角的分析部は、表示部に、分析結果と一緒に歌手名を表示することができる。例えば、歌声トピック分布や各トピックの歌声シンボル分布から、支配的な曲の歌手名をワードクラウドとして、分布上に占める割合の大きさが歌手名の大きさに比例するように提示することで、歌声やトピックの意味を可視化することが可能になる。このようにワードクラウド表示をすると、観者は歌手名から歌声の声質をイメージしながら、分析結果を見ることができるため、分析結果からより多くの潜在的意味を想像することができるようになる。
なおワードクラウド表示において、歌手名の位置と大きさにより、歌声の類似性を検索可能にしてもよい。歌手名の位置が、類似性に比例していれば、位置を見ることにより、例えば、一つの楽曲の歌声と似かよった歌声の曲の検索を容易に行えるようになる利点が得られる。この際、男女の名前が近接して表示された場合、性別を超えた類似歌手検索を実現することができる。さらに、トピック分布全体で歌声の類似性を算出した場合は、総合的な類似性を評価できるが、各トピックで類似性を算出すれば、歌声におけるある特性一つに着目した類似性判断になり、「どのように似ているのか」を分析しやすい利点がある。
本発明は、コンピュータを用いて実施する多角的歌声分析方法としても把握することができる。本発明の分析方法では、音楽音響信号生成ステップと、フレーム信号取得ステップと、歌声特徴ベクトル推定ステップと、分析適正区間推定ステップと、ベクトル離散化ステップと、トピック分析ステップと、歌声トピック分布保存ステップと、歌声シンボル分布保存ステップと、歌声多角的分析ステップとを備えている。音楽音響信号生成ステップでは、歌声を含む楽曲の音楽音響信号を対象として、音楽や歌声の特性が変更された1以上の変更された音楽音響信号を生成する。フレーム信号取得ステップでは、歌声を含む楽曲の音楽音響信号及び音楽や歌声の特性が変更された1以上の変更された音楽音響信号の一つに所定の窓関数を掛けて、音楽音響信号から複数のフレーム信号を時系列で取得する。歌声特徴ベクトル推定ステップでは、音楽音響信号から取得した複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する。分析適正区間推定ステップでは、歌声特徴ベクトル推定ステップで推定した歌声特徴ベクトルから、フレーム信号の区間が分析に適した区間であるか否かを推定する。ベクトル離散化ステップでは、分析に適した区間における複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換する。
トピック分析ステップでは、複数の前記歌声を含む楽曲の音楽音響信号及び複数の音楽や歌声の特性が変更された音楽音響信号について得た複数の歌声シンボル系列を、トピックモデルによって分析し、一つの音楽音響信号と他の音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての前記音楽音響信号について生成し、併せて、複数の歌声トピックのすべてについて複数の歌声シンボルの出現確率を示す歌声シンボル分布をそれぞれ生成する。歌声トピック分布保存ステップでは、トピック分析ステップで生成した複数の歌声トピック分布を歌声トピック分布保存部に保存する。歌声シンボル分布保存ステップでは、トピック分析ステップで生成した複数の歌声シンボル分布を歌声シンボル分布保存部に保存する。歌声多角的分析ステップでは、歌声トピック分布保存部に保存された複数の歌声トピック分布と歌声シンボル分布保存部に保存された複数の歌声シンボル分布に基づいて、複数の歌声を含む楽曲の音楽音響信号及び複数の変更された音楽音響信号にそれぞれ含まれた歌声を多角的に分析する。
本発明の、多角的歌声分析用プログラムは、本発明の方法をコンピュータで実施する場合に各ステップを実現するためのプログラムである。なおこのプログラムは、コンピュータ読み取り可能な記憶媒体に記憶される。
本発明の多角的歌声分析システムの一実施の形態の構成を示すブロック図である。 本実施の形態をコンピュータを用いて実現する場合のアルゴリズムを示す図である。 図2のアルゴリズムの理解を補助するための図である。 図2のアルゴリズムの理解を補助するための図である。 (A)乃至(F)は、図1の多角的歌声分析システムのデータ処理の流れを説明するために用いる図である。 潜在的ディリクレ配分法のグラフィカルモデルを示す図である。 1000回反復したトピック混合比の類似度行列(ハイパーパラメータαを更新しなかった場合)を示す図である。 (A)及び(B)は、一青窈と平井堅におけるそれぞれのトピックの混合比を示す図である。 歌手クラウドの例を示す図である。 歌手クラウドの例を示す図である。 歌手クラウドの例を示す図である。 歌手クラウドの例を示す図である。 楽曲全てを用いた分析において、1000回反復したトピック混合比の類似度行列(ハイパーパラメータαを更新しなかった場合)を示す図である。 (A)及び(B)は、図9の類似度行列に基づいて類似度の順位とその平均、逆順位とその平均を示す図である。 楽曲全てを用いた分析において、36曲(12人×3曲)のそれぞれを検索クエリとして、クエリと同一曲及びその特性が変更された49曲を除いた1715曲(1764−49曲)中、それらに最も似ているとされた曲の歌手名の総数を示す図である。
以下図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の多角的歌声分析システムの一実施の形態の構成を示すブロック図である。図2は本実施の形態をコンピュータを用いて実現する場合のアルゴリズムを示す図であり、図3(A)及び図3(B)は図2のアルゴリズムの理解を補助するための図である。図4は、図1の多角的歌声分析システムのデータ処理の流れを説明するために用いる図である。この多角的歌声分析システムは、コンピュータを用いて実現される。したがって図1の各ブロックは、コンピュータプログラムがコンピュータにインストールされることによってコンピュータ内に実現される機能実現手段である。本実施の形態の多角的歌声分析システムは、音楽音響信号生成部1と、フレーム信号取得部2と、歌声特徴ベクトル推定部3と、分析適正区間推定部4と、ベクトル離散化部5と、トピック分析部6、歌声シンボル分布保存部7と、歌声トピック分布保存部8と、歌声多角的分析部9と、表示部10とを機能実現手段として備えている。
音楽音響信号生成部1(音楽音響信号生成ステップST1)は、図3(A)に示すように歌声を含む楽曲の音楽音響信号S1〜Snを対象として、音楽や歌声の特性が変更された1以上の変更された音楽音響信号S1´〜Sn´を生成する。具体的に、本実施の形態では、音楽音響信号生成部1は、音楽音響信号の音高をシフトして変更された音楽音響信号と、音楽音響信号のテンポをシフトして変更された音楽音響信号を、音楽や歌声の特性が変更された音楽音響信号S1´〜Sn´として生成する。なお歌声を含む楽曲の音楽音響信号S1〜Sn及び音楽や歌声の特性が変更された音楽音響信号S1´〜Sn´は、再生目的のために、図示しない信号記憶部に保存しておくのが好ましい。音楽音響信号生成部1を設けると、例えば、男性の歌声の楽曲を女性の歌声の楽曲に似たものに変更することができる。その結果、例えば1万曲の分析対象の音楽音響信号を、数万曲の音楽音響信号に増やすことができ、分析対象を簡単に増やすことができる。また潜在的な意味で関連する楽曲との遭遇が可能になる。このような未知の楽曲や実際には存在していない曲との遭遇は、従来の技術では発生し得ない。なお歌手の性別の違いによる声道長の違いによる影響を除去するために、信号処理的に音高シフトさせることで性別を超えた歌い方の分析を行うことができる。また、楽曲のテンポによる歌唱速度も、信号処理的にテンポシフトさせる処理を導入して違いを吸収することができる。
例えば、音楽音響信号生成部1では、短時間周波数分析の周波数軸方向へのシフトによって音高シフトを実現し、声道長を伸縮させたことに相当する歌声を生成する。また、WSOLA(Waveform Similarity Based Overlap-Add)アルゴリズムによってテンポシフトを実現し、速度を変更させた歌声を生成する。なおそのような歌声の生成には、公知の技術を使えばよく、例えばhttp://sox.sourceforge.net/を用いることができる。
フレーム信号取得部2(フレーム信号取得ステップ2)は、歌声を含む楽曲の音楽音響信号及び複数の音楽や歌声の特性が変更された音楽音響信号[図4(A)参照]の一つに所定の窓関数[図4(B)]を掛けて、音楽音響信号から複数のフレーム信号[図4(C)]を時系列でサンプリング取得する。使用する窓関数は任意であるが、分析に適した数のフレーム信号を取得できる窓関数を用いるのが好ましい。なお具体的なフレーム信号のサンプリング間隔は、10msec程度である。
歌声特徴ベクトル推定部3(歌声特徴ベクトル推定ステップST3)は、音楽音響信号から取得した複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する[図4(D)参照]。歌声特徴ベクトルは、歌声に関するもので予め定めたものであり、本実施の形態では、歌声の線形予測メルケプストラム係数(12次元)や、基本周波数(F0)の時間変化であるΔF0(1次元)を歌声特徴ベクトル(特徴量)とする。なおどのような歌声特徴ベクトルを用いるかは任意である。具体的な歌声特徴ベクトルの推定は、公知の能動的音楽鑑賞サービスのモジュールを用いて行った。このモジュールについては、後藤真孝,吉井和佳,藤原弘将,Mauch, M.,中野倫靖:Songle: ユーザが誤り訂正により貢献可能な能動的音楽鑑賞サービス,インタラクション2012 講演論文集,pp.1-8 (2012)に記載されている。具体的には、混合音中で最も優勢な音高を推定する手法PreFEst [Goto, M.: A Real-time Music Scene Description System:Predominant-F0 Estimation for Detecting Melody and Bass Lines in Real-world Audio Signals, Speech Communication,Vol. 43, No. 4, pp. 311-329 (2004).29]によってボーカルのメロディーを推定する。そして歌声・非歌声GMMを用いた高信頼度フレーム選択によって、歌声らしさが高いフレーム信号を選択し、LPMCCとΔF0を歌声特徴ベクトルとして推定した[Fujihara, H., Goto, M., Kitahara, T. and Okuno, H. G.:A Modeling of Singing Voice Robust to Accompaniment Sounds and Its Application to Singer Identification and Vocal-Timbre-SimilarityBased Music Information Retrieval, IEEE Trans. on ASLP, Vol. 18, No. 3,pp. 638-648 (2010).26]。最後に、全歌声特徴ベクトルについて、次元毎に平均を引いて標準偏差で割る正規化を行った。ここで、ある歌手が別の歌手の歌い方を真似る際にもスペクトル包絡形状が変化すると報告されている[鈴木千文,坂野秀樹,板倉文忠,森勢将雅:歌唱音声の類似度評価を目的とした声質に関する音声特徴量の提案,電子情報通信学会技術研究報告SP,Vol. 111, No. 364, pp.79-84(2011)及び 齋藤 毅,榊原健一:歌唱時の物真似による音響特徴の変化,聴覚研究会資料(2011).]ことから、LPMCCのようなスペクトル包絡に関する歌声特徴ベクトルは、歌手同定に重要であるだけでなく、「歌い方」を議論する上でも同様に重要な特徴量であると考えられる。なおここまでの処理は、図2のステップ(ST1)で実行される。
分析適正区間推定部4(分析適正区間推定ステップST4)は、歌声特徴ベクトル推定部3で推定した歌声特徴ベクトルから、フレーム信号の区間が歌声トピック分析に適した適正な区間であるか否かを推定する。例えば、伴奏だけの区間のように、歌声が含まれていない区間や、伴奏が非常に大きい区間は、分析には適さない区間である。分析適正区間の推定技術は、公知のものを用いればよい。例えば、歌声区間を分析適正区間として推定して、歌声区間における歌声特徴ベクトルを分析に用いるようにすれば、歌声の潜在的意味の分析精度を高めることができる。歌声区間(適正区間)の推定の一例については、特開2009−123124号公報に詳しく説明されている。図4(E)には、歌声らしい区間を適正区間と判断して「○印」を付してあり、歌声らしくない区間を不適正区間と判断して「×印」を付してある。なおこの処理は、図2及び図3(A)のステップST4で実行される。
ベクトル離散化部5(ベクトル離散化ステップST5)は、分析適正区間における複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換する[図2及び図3(A)のステップST5]。離散化の方法は任意であるが、本実施の形態では、k-means法(k-meansアルゴリズム)により離散化を実施する。歌声特徴ベクトルは、アナログデータである。代表的な、潜在的な特性を分析する潜在的ディリクレ配分法(LDA)は、文章のような離散的なデータ解析のために開発されたものである。そのため、アナログデータをそのまま入力データとして潜在的ディリクレ配分法(LDA)を用いて解析することはできない。そこでベクトル離散化部5は、アナログデータを文章のような離散的なデータとして扱えるように、複数の歌声特徴ベクトルを複数の歌声シンボルによって構成される歌声シンボル系列に変換する。図4(F)は、歌声シンボル系列の例を示している。なお図4(F)において、「シンボル1」、「シンボル2」等は、グループまたはクラスを識別できる予め定めた符号、記号等によって表される。ここで歌声シンボルとは、P個のフレーム信号におけるそれぞれの特徴ベクトルを、Pよりも小さいQ個のグループ(クラス)に分割した場合、それぞれのクラスを一つの歌声シンボルとして定義したものである。なおP及びQは2以上の整数である。なおN及びMは、正の整数である。例えば、k-means法では、それぞれの歌声シンボルを代表する平均的な特徴ベクトルを推定し、P個の歌声特徴ベクトルはそれぞれ、Q個の平均ベクトルからの距離を算出して、それが最も近い歌声シンボルを割り当てている。なお必ずしもQ≦Pである必要はないが、k-means法を用いる現在の実装では、Q≦Pである。
トピック分析部6は、複数の歌声を含む楽曲の音楽音響信号及び複数の変更された音楽音響信号について得た複数の歌声シンボル系列を、トピックモデルすなわち潜在的ディリクレ配分法(Latent Dirichlet Allocation: LDA)によってトピック分析する[図2及び図3(A)のステップST6]。本実施の形態で用いた潜在的ディリクレ配分法については、「Blei, D. M., Ng, A. Y. and Jordan, M. I.: Latent Dirichlet Allocation, Journal of Machine Learning Research,Vol. 3, pp. 993-1022 (2003).」に詳しく記載されている。トピック分析部6は、一つの音楽音響信号と他の音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての音楽音響信号について生成する。なお「歌声トピック」とは、D個の歌声に共通する要因(K個)として定義される。これは、それぞれN個(D個の歌声全てのフレーム数の総数)の歌声シンボル(1〜Qのいずれか)の出現の仕方によって決まる。例えば予めK=100などとして歌声トピックを推定する。
図3(B)のステップST7では、歌声トピック分布保存部8に保存する歌声トピック分布の生成結果の一例を図で示す。歌声トピック分布は、音楽音響信号に含まれる歌声の複数の歌声トピック(横軸)とそれらの混合比(縦軸)として、各音楽音響信号ごとに1つ生成される。したがって1万曲の音楽音響信号が分析対象としてあれば、1万の歌声トピック分布が生成される。またトピック分析部6は、歌声トピック分布の生成と併せてすべての歌声トピックのそれぞれにおける複数の歌声シンボルの出現確率を示す複数の歌声シンボル分布を生成し、歌声シンボル分布保存部7に歌声シンボル分布を保存する[図3(B)のステップST8]。図3(B)のステップST8に示すように、歌声シンボル分布は、1つの歌声トピックについて、複数の歌声シンボル(横軸)が出現する出現確率(縦軸)を示すものである。したがって複数の歌声トピックに対応して複数の歌声シンボル分布が生成されることになる。例えば、生成された複数の歌声シンボル分布同士を比較することにより、歌声トピック間の類似度を知ることができる。なお歌声シンボル分布保存部7(歌声シンボル分布保存ステップST7)は、トピック分析部6が生成した複数の歌声シンボル分布を保存する。また歌声トピック分布保存部8(歌声トピック分布保存ステップST8)は、トピック分析部6が生成した複数の歌声トピック分布を保存する。
ここで潜在的ディリクレ配分法(LDA)を利用した分析について、詳細に説明する。潜在的ディリクレ配分法におけるモデル学習用のデータとしてD 個の独立した歌声X = {X1, ...,XD} を考える。ここでX1は1個目の歌声シンボル系列であり、XDはD個目の歌声シンボル系列である。ここで扱う歌声は、離散化された歌声シンボル系列であるため、通常の潜在的ディリクレ配分法により歌声を分析できる。
歌声Xd は、Nd個の歌声シンボルによって構成される歌声シンボル系列であり、Xd = {xd,1, ..., xd,Nd} で構成されている。ここでxd,1は1個目の歌声シンボルの出現確率であり、xd,NdはNd個目の歌声シンボルの出現確率である。歌声シンボルの語彙サイズVは、k-means法におけるクラスタ数に相当し、xd,nは語彙中から選ばれた歌声シンボルに対応する次元のみが1で他は0であるV次元ベクトルとなる。
歌声Xd に対応する潜在変数系列(歌声トピック分布)をZd = {z d,1, ..., zd,Nd} とする。トピック数をKとすると、zd,nは選ばれたトピックに対応する次元(混合比)のみが1で他は0であるK次元のベクトルで表せる。ここで、全歌声の潜在変数系列(歌声トピック分布)をまとめてZ = {Z1, ...,ZD} としておく。このとき、グラフィカルモデル(図5)から変数間の条件つき独立性を考慮すると、完全な同時分布は
として与えられる。ここで、πは歌声トピック分布であり、各歌声の歌声トピックの混合比(D個のK次元ベクトル)であり、φは各トピックにおけるユニグラム確率(K個のV 次元ベクトル)すなわち歌声シンボルの出現確率を示す歌声シンボル分布である。
最初の二項には多項分布に基づく離散分布を仮定する。
残りの二項には、多項分布の共役事前分布であるディリクレ分布を仮定する。
ここで、α(0)及びβ(0)はハイパーパラメータ、C(α(0))及びC(β(0)) はディリクレ分布の正規化定数であり、
である。
歌声多角的分析部9(歌声多角的分析ステップST9)は、歌声トピック分布保存部8に保存された複数の歌声トピック分布と歌声シンボル分布保存部7に保存された複数の歌声シンボル分布に基づいて、複数の、歌声を含む楽曲の音楽音響信号及び複数の変更された音楽音響信号に含まれた歌声を多角的に分析する(図2のステップST7)。歌声多角的分析部9による分析手法は任意である。例えば、複数の楽曲間の歌声間類似度を表示部10に表示するように歌声多角的分析部9を構成することができる。また歌声多角的分析部9は、歌声トピック分布と複数の歌声シンボル分布に基づいて複数の音楽音響信号に含まれる歌声及び変更された音楽音響信号に含まれる歌声が近いものであるかを分析するように構成することができる。
複数の音楽音響信号にはメタデータが付随していてもよい。この場合には、歌声多角的分析部9は、分析結果を表示する際に、メタデータの少なくとも一部を分析結果に併せて表示部10に表示することができる。このようにすると表示部にメタデータの一部が表示されることにより、観者がメタデータに含まれる情報を併せて認識することが可能になり、分析結果の活用度が向上する。図3のステップST9には、表示部10に表示した分析結果の一例を示している。この例は、楽曲のメタデータとしての歌手名が音楽音響信号に付随している場合である。この例では、歌声多角的分析部9は、表示部10に、分析結果と一緒に歌手名を用いてワードクラウド表示している。すなわち、歌声トピック分布や各トピックの歌声シンボル分布から、支配的な曲の歌手名をワードクラウドとして、分布上に占める割合の大きさが歌手名の大きさに比例するように表示することで、歌声やトピックの意味を可視化することが可能になる。このようにワードクラウド表示をすると、観者は歌手名から歌声の声質をイメージしながら、分析結果を見ることができるため、分析結果からより多くの潜在的意味を想像することができるようになる。
例えば、ワードクラウド表示において、歌手名の位置が、類似性に比例していれば、位置を見ることにより、例えば、一つの楽曲の歌声と似かよった歌声の曲の検索を容易に行えるようになる利点が得られる。この際、男女の名前が近接して表示された場合、性別を超えた類似歌手検索を実現することができる。さらに、トピック分布全体で歌声の類似性を算出した場合は、総合的な類似性を評価できるが、各トピックで類似性を算出すれば、歌声におけるある特性一つに着目した類似性判断になり、「どのように似ているのか」を分析しやすい利点がある。
[実施例]
以下本発明を適用して多角的歌声分析を行った実施例について説明する。この実施例では、歌声を含む音楽音響信号を全て16kHzのモノラル信号に変換し、表1に示した楽曲を用いて分析した。
これは、日本の音楽チャートであるオリコン(http:www.oricon.co.jp/)で2000〜2008年までの上位20位以内に登場した楽曲の中から、ボーカルが一人のアーティストを男女6アーティストずつ選び、それぞれのアーティストの曲から3曲ずつを選んだ。そして選んだ各曲について、音高シフトを−3〜+3半音を1半音単位でシフトして7種類の特性が変更された音楽音響信号を生成した。また選んだ各曲について、テンポシフトを0.7〜1.3倍速を0.1倍速単位でシフトして7種類の特性が変更された音楽音響信号をそれぞれ生成した。従って、一つの歌声から音高とテンポをそれぞれシフトさせた49(=7×7)曲の歌声を生成し、合計でD=1764(=49×3×12)曲を解析対象として用いた。歌声特徴ベクトル(歌声特徴量)は、楽曲の冒頭1分間のうち、歌声らしさが高い上位15%のフレーム信号から推定し、クラスタ数V=100としてk-means 法によるクラスタリングを行った。潜在的ディリクレ配分法の学習においては、トピック数をk=100として、周辺化Gibbsサンプラーを用いて学習を行った。ハイパーパラメータα(0)については初期値をすべて1として、ハイパーパラメータβ(0)の値はすべて0.1とした。
上述のような歌声データから学習された潜在的ディリクレ配分法のトピックモデルの正当性を確認するために、推定された歌声トピックの混合比に基づいた歌声間類似度を確認した。ここでは、音高シフトやテンポシフトを行わない36(=12×3)曲について、類似度が高い上位3曲について黒く塗りつぶした図を図6に示した。図6の例は、1000回反復してハイパーパラメータα(0)を更新しなかった場合の結果を示している。
ここで、歌声Aにおける歌声トピックの混合比をπA、歌声Bにおける歌声トピックの混合比をπBとしたとき、下記(7)式に示す対称カルバック・ライブラ距離(symmetric Kullback Leibler distance, KL2)を算出し、その逆数を類似度とした。
ただし、πA、πBはそれぞれ下記(8)式に示す通り正規化して、確率分布として扱う。
他にも、確率分布間の距離尺度としてEMD (Earth Mover's Distance)等も利用可能である。EMDを用いる場合は、各トピックの歌声トピックの混合比πAおよびπBで与えることができ、各トピックの歌声シンボル分布間の距離は、カルバック・ライブラ情報量(Kullback-Leibler divergence)で算出できる。EMDについては、「Y. Rubner, C. Tomasi, and L. J. Guibas. A Metric for Distributions with Applications to Image Databases. Proceedings of the 1998 IEEE International Conference on Computer Vision, Bombay, India, January 1998, pp. 59-66. [ICCV1998Rubner.pdf]」に詳しく記載されている。
図6からは、同一アーティストの曲のみが主に黒く塗りつぶされていて(類似度が上位3位以内)、同一アーティスト間では歌声トピックの混合比が類似していることが分かる。これによって潜在的ディリクレ配分法(LDA)が適切に動作していることが判る。この結果から、歌声特徴ベクトル(歌声特徴量)を潜在的ディリクレ配分法でトピック分析することで得られる各歌声における歌声トピックの混合比は、歌手名同定に適用できる可能性があるといえる。
[歌声トピックモデルを活用する2つの手法について]
上記のようにして学習した潜在的ディリクレ配分法(歌声トピック分析)を用いる本発明の実施例は、歌手名同定に有用である。しかしながら本発明の多角的歌声分析システムは、上記の実施例に限定されるものではない。
別の分析手法としては、音高シフトやテンポシフトした歌声を含めて歌手名同定を行う、速度の違いを抑制した「性別を超えた類似歌声検索」がある。また、更に別の分析手法としては、各歌声トピックの意味を単語クラウドによって可視化する「歌声トピックの可視化」であり、自分好みの歌声トピックを見つけることを支援する。歌声トピックの意味が分かれば、上記式(7)の類似度算出において特定の歌声トピックに重みをかけて類似歌手を検索する等の応用が可能になる。
[性別を超えた類似歌声検索手法の実施例]
検索対象の楽曲を音高シフトとテンポシフトによって「仮想的に増やす」ことで、速度の違いを吸収して、性別を超えた類似歌声の検索が可能にした。検索対象が増える以外は、最初の実施例と同様に、歌声トピックの混合比間の類似度を計算すれば良い。表2に、表1のそれぞれの歌声を検索クエリとして、自身以外で最も類似度が高かった歌手IDと、その音高シフト及びテンポシフトの値を示す。
表2において、下線は異性同士で顕著に似ていた歌手同士、太字は同性同士で顕著に似ていた歌手同士を示す。この表2からは、「平井堅(M6)を2〜3半音上げるか、一青窈(F3)を2〜3半音下げると、お互いに類似している」ことや、「東京事変(F4)を0〜1半音上げて0.7〜0.8倍速にするか、矢井田瞳(F6)を0〜1半音上げて1.1〜1.3倍速にすると、お互いに類似している。」ことが分かる。実際の聴取印象もそのようであった。また、特に平井堅と一青窈とが、3半音程度の音高シフトで類似することは一般的によく知られた事例であるため、それが確認できた点からも手法の有効性を確認できた。ここで、図7に一青窈の歌声「もらい泣き」と、それに最も類似していた平井堅の歌声「思いがかさなるその前に…」を3半音上げて1.1倍速した歌声について、それぞれトピックの混合比を示す。両者共にトピック28,32,82に関する特性の歌声だということが分かる。
[単語クラウドによる曲とトピックの可視化手法の実施例]
各歌声における混合比πdkは、D個(歌声数)のK次元ベクトル(トピック数)であり、「各歌声dにおける支配的な歌声トピックkが分かる」ことを意味する。本実施例では、この性質を利用して歌手の同定や類似歌手の検索を行った。しかし、図7に示したように歌声トピックの混合比だけでは、それぞれの歌声トピックの意味が分からない場合がある。そこで逆に「歌声トピックの混合比から各歌声トピックkにおける支配的な歌声d が分かる」ことを考えて、本実施例では、各トピックの意味を可視化する。ここで本実施例では、ウェブサイト上で使用されるタグ等の単語を視覚的に記述する手法一つである「ワードクラウド」を応用し、各トピックに支配的な歌手ほど大きく表示する「歌手クラウド」によってトピックの意味を図8(A)乃至(D)のように提示するこのように表示すると、歌手名の羅列に比べて一覧性が高くて有用である。図8(A)乃至(D)では、同じ曲について歌声トピックの混合比を足し合わせ(音高とテンポの違いを無視)、その値に応じて歌手名のサイズを変えて生成した。図8(A)からは、類似性が高かったトピック28は一青窈(Hitoto Yo)の歌声が支配的であった。次いで図8(B)及び(C)に示すように、類似性が高かったトピック32や82は、宇多田ヒカル(Utada Hikaru)の歌声や東京事変(Tokyo Jihen)、矢井田瞳(Yaida Hitomi)などの歌声のような特性を持っていることが分かる。逆に、図8(D)に示す、一青窈(Hitoto Yo)の歌声にしか現れなかったトピック23は、一青窈(Hitoto Yo)の歌声に加え「ASIAN KUNG-FU GENERATION、JUDY AND MARY、aiko」などといった、前者と異なった歌声の特性を持っていると推測できる。このような歌手クラウドは、データセットを増やすことで、視覚的な印象が変わってくる。
以上の説明では、「楽曲の冒頭1分間」を用いた分析結果であるが、「楽曲全て」を用いると推定精度はさらに向上する。
図9に、楽曲全てを用いた結果について、図6と同様に、類似度が高い上位3曲について黒く塗りつぶした図を示す。図9の例でも、1000回反復してハイパーパラメータα(0)を更新しなかった場合の結果を示している。図6では、同一アーティストの曲を検索クエリとして、その上位3曲にそのアーティストと別のアーティストの曲が含まれた数は30であったが、図9では17であり、同一アーティスト間の類似度をより高く推定できたことがわかる。すなわち、歌声間類似度がより精度よく推定できた。
図10は、図9をより定量的に評価した結果である。あるアーティストの曲を検索クエリとして、それと同じアーティストの別の曲(2曲)の順位のうち、高い順位とその平均を図10(A)に示し、それらの順位の逆数(逆順位)とその平均(平均逆順位:MRR)を図10(B)に示す。平均逆順位が1に近いほど、検索性能が高いことを意味する。
図11は、楽曲全てを用いた分析において、表2をより定量的に評価した結果である。表2では、あるアーティストの曲を検索クエリとして、それぞれの検索クエリに最も似ているとして検索された曲(最も類似度が高い曲)の歌手名を示していたが、図11ではD =1764の全てを検索クエリとして、それらに最も似ているとされた曲の歌手名の総数を示している。
個々の歌声をモデル化したり、分析する発明が多くある中で、本発明によれば、複数の歌声から分かる潜在的な特性を分析することができる。
1 音楽音響信号生成部
2 フレーム信号取得部
3 歌声特徴ベクトル推定部
4 分析適正区間推定部
5 ベクトル離散化部
6 トピック分析部
7 歌声シンボル分布保存部
8 歌声トピック分布保存部
9 歌声多角的分析部
10 表示部

Claims (22)

  1. 歌声を含む楽曲の音楽音響信号を対象として、音楽や歌声の特性が変更された1以上の変更された音楽音響信号を生成する音楽音響信号生成部と、
    前記歌声を含む楽曲の音楽音響信号及び前記音楽や歌声の特性が変更された1以上の変更された音楽音響信号の一つに所定の窓関数を掛けて、前記音楽音響信号から複数のフレーム信号を時系列で取得するフレーム信号取得部と、
    前記音楽音響信号から取得した前記複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する歌声特徴ベクトル推定部と、
    前記歌声特徴ベクトル推定部で推定した前記歌声特徴ベクトルから、前記フレーム信号の区間が分析に適した区間であるか否かを推定する分析適正区間推定部と、
    前記分析に適した区間における前記複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換するベクトル離散化部と、
    複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記音楽や歌声の特性が変更された音楽音響信号について得た複数の前記歌声シンボル系列を、トピックモデルによって分析し、一つの前記音楽音響信号と他の前記音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての前記音楽音響信号について生成し、併せて、前記複数の歌声トピックのすべてについて前記複数の歌声シンボルの出現確率を示す歌声シンボル分布をそれぞれ生成するトピック分析部と、
    前記トピック分析部が生成した前記複数の歌声トピック分布を保存する歌声トピック分布保存部と、
    前記トピック分析部が生成した複数の前記歌声シンボル分布を保存する歌声シンボル分布保存部と、
    前記歌声トピック分布保存部に保存された前記複数の歌声トピック分布と前記歌声シンボル分布保存部に保存された前記複数の歌声シンボル分布に基づいて、複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記変更された音楽音響信号にそれぞれ含まれた歌声を多角的に分析する歌声多角的分析部とを備えている多角的歌声分析システム。
  2. 前記歌声多角的分析部は、前記複数の楽曲間の歌声間類似度を表示部に表示する請求項1に記載の多角的歌声分析システム。
  3. 前記歌声多角的分析部は、前記歌声トピック分布と前記複数の歌声シンボル分布に基づいて複数の前記音楽音響信号に含まれる歌声及び前記変更された音楽音響信号に含まれる歌声が近いものであるかを分析するように構成されている請求項1に記載の多角的歌声分析システム。
  4. 前記複数の音楽音響信号にはメタデータが付随しており、
    前記歌声多角的分析部は、分析結果を表示する際に、前記メタデータの少なくとも一部を分析結果に併せて表示部に表示する請求項1に記載の多角的歌声分析システム。
  5. 前記音楽音響信号生成部は、前記音楽音響信号の音高をシフトして前記変更された音楽音響信号を生成する請求項1に記載の多角的歌声分析システム。
  6. 前記音楽音響信号生成部は、前記音楽音響信号のテンポをシフトして前記変更された音楽音響信号を生成する請求項1に記載の多角的歌声分析システム。
  7. 前記分析適正区間推定部は、歌声区間を前記分析に適した区間として推定する請求項1に記載の多角的歌声分析システム。
  8. 前記歌声特徴ベクトルが、前記歌声の線形予測メルケプストラム係数とΔF0である請求項1に記載の多角的歌声分析システム。
  9. 前記ベクトル離散化部は、k-means法等のクラスタリング法により離散化を実施する請求項1に記載の多角的歌声分析システム。
  10. 前記楽曲のメタデータとしての歌手名が前記音楽音響信号に付随しており、
    前記歌声多角的分析部は、前記表示部に、前記分析結果と一緒に前記歌手名を用いてワードクラウド表示する請求項2に記載の多角的歌声分析システム。
  11. 前記ワードクラウド表示において、前記歌手名の位置と大きさにより、歌手の類似性を検索可能にした請求項10に記載の多角的歌声分析システム。
  12. 歌声を含む楽曲の音楽音響信号を対象として、音楽や歌声の特性が変更された1以上の変更された音楽音響信号を生成する音楽音響信号生成ステップと、
    前記歌声を含む楽曲の音楽音響信号及び前記音楽や歌声の特性が変更された1以上の変更された音楽音響信号の一つに所定の窓関数を掛けて、前記音楽音響信号から複数のフレーム信号を時系列で取得するフレーム信号取得ステップと、
    前記音楽音響信号から取得した前記複数のフレーム信号ごとに、複数の歌声特徴ベクトルを推定する歌声特徴ベクトル推定ステップと、
    前記歌声特徴ベクトル推定ステップで推定した前記歌声特徴ベクトルから、前記フレーム信号の区間が分析に適した区間であるか否かを推定する分析適正区間推定ステップと、
    前記分析に適した区間における前記複数の歌声特徴ベクトルを、離散化して、複数の歌声シンボルによって構成される歌声シンボル系列に変換するベクトル離散化ステップと、
    複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記音楽や歌声の特性が変更された音楽音響信号について得た複数の前記歌声シンボル系列を、トピックモデルによって分析し、一つの前記音楽音響信号と他の前記音楽音響信号との関係性を示す複数の歌声トピックから構成される歌声トピック分布をすべての前記音楽音響信号について生成し、併せて、前記複数の歌声トピックのすべてについて前記複数の歌声シンボルの出現確率を示す歌声シンボル分布をそれぞれ生成するトピック分析ステップと、
    前記トピック分析ステップで生成した前記複数の歌声トピック分布を歌声トピック分布保存部に保存する歌声トピック分布保存ステップと、
    前記トピック分析ステップで生成した複数の前記歌声シンボル分布を歌声シンボル分布保存部に保存する歌声シンボル分布保存ステップと、
    前記歌声トピック分布保存部に保存された前記複数の歌声トピック分布と前記歌声シンボル分布保存部に保存された前記複数の歌声シンボル分布に基づいて、複数の前記歌声を含む楽曲の音楽音響信号及び複数の前記変更された音楽音響信号にそれぞれ含まれた歌声を多角的に分析する歌声多角的分析ステップとをコンピュータを用いて実施することを特徴とする多角的歌声分析方法。
  13. 前記歌声多角的分析ステップでは、前記複数の楽曲間の歌声間類似度を表示部に表示する請求項12に記載の多角的歌声分析方法。
  14. 前記歌声多角的分析ステップでは、前記歌声トピック分布と前記複数の歌声シンボル分布に基づいて複数の前記音楽音響信号に含まれる歌声及び前記変更された音楽音響信号に含まれる歌声が近いものであるかを分析するように構成されている請求項12に記載の多角的歌声分析方法。
  15. 前記複数の音楽音響信号にはメタデータが付随しており、
    前記歌声多角的分析ステップでは、分析結果を表示する際に、前記メタデータの少なくとも一部を分析結果に併せて表示部に表示する請求項12に記載の多角的歌声分析方法。
  16. 前記音楽音響信号生成ステップでは、前記音楽音響信号の音高をシフトして前記変更された音楽音響信号を生成する請求項12に記載の多角的歌声分析方法。
  17. 前記音楽音響信号生成ステップでは、前記音楽音響信号のテンポをシフトして前記変更された音楽音響信号を生成する請求項12に記載の多角的歌声分析方法。
  18. 前記分析適正区間推定ステップでは、歌声区間を前記分析に適した区間として推定する請求項12に記載の多角的歌声分析方法。
  19. 前記歌声特徴量ベクトルが、前記歌声の線形予測メルケプストラム係数とΔF0である請求項12に記載の多角的歌声分析方法。
  20. 前記ベクトル離散化ステップでは、k-means法等のクラスタリング法により離散化を実施する請求項12に記載の多角的歌声分析方法。
  21. 前記楽曲のメタデータとしての歌手名が前記音楽音響信号に付随しており、
    前記歌声多角的分析ステップでは、前記表示部に、前記分析結果と一緒に前記歌手名を用いてワードクラウド表示する請求項15に記載の多角的歌声分析方法。
  22. 前記ワードクラウド表示において、前記歌手名の位置と大きさにより、歌手の類似性を検索可能にした請求項21に記載の多角的歌声分析方法。
JP2016503915A 2014-02-21 2014-08-15 多角的歌声分析システム及び多角的歌声分析方法 Expired - Fee Related JP6150237B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014032032 2014-02-21
JP2014032032 2014-02-21
PCT/JP2014/071480 WO2015125321A1 (ja) 2014-02-21 2014-08-15 多角的歌声分析システム及び多角的歌声分析方法

Publications (2)

Publication Number Publication Date
JPWO2015125321A1 true JPWO2015125321A1 (ja) 2017-03-30
JP6150237B2 JP6150237B2 (ja) 2017-06-21

Family

ID=53877851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016503915A Expired - Fee Related JP6150237B2 (ja) 2014-02-21 2014-08-15 多角的歌声分析システム及び多角的歌声分析方法

Country Status (3)

Country Link
US (1) US9747927B2 (ja)
JP (1) JP6150237B2 (ja)
WO (1) WO2015125321A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507628B (zh) * 2017-08-31 2021-01-15 广州酷狗计算机科技有限公司 唱歌评分方法、装置及终端
JP2019133605A (ja) 2018-02-02 2019-08-08 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN109635841B (zh) * 2018-11-13 2023-11-03 平安科技(深圳)有限公司 歌词评价方法、装置及存储介质、计算机设备
JP7292646B2 (ja) * 2019-12-11 2023-06-19 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
CN113053396A (zh) * 2021-03-26 2021-06-29 西安音乐学院 一种带有声纹识别的声乐发声训练电子评分系统
CN113223499B (zh) * 2021-04-12 2022-11-04 青岛信芯微电子科技股份有限公司 一种音频负样本的生成方法及装置
CN113408702B (zh) * 2021-06-23 2022-12-27 腾讯音乐娱乐科技(深圳)有限公司 音乐神经网络模型预训练方法及电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014974A (ja) * 2000-06-30 2002-01-18 Fuji Photo Film Co Ltd 検索装置及び検索システム
JP2004152110A (ja) * 2002-10-31 2004-05-27 Olympus Corp 検索条件設定方法及び検索条件設定装置
WO2006075432A1 (ja) * 2005-01-17 2006-07-20 Matsushita Electric Industrial Co., Ltd. 音楽再生装置、方法、記録媒体、および集積回路

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5115966B2 (ja) 2007-11-16 2013-01-09 独立行政法人産業技術総合研究所 楽曲検索システム及び方法並びにそのプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014974A (ja) * 2000-06-30 2002-01-18 Fuji Photo Film Co Ltd 検索装置及び検索システム
JP2004152110A (ja) * 2002-10-31 2004-05-27 Olympus Corp 検索条件設定方法及び検索条件設定装置
WO2006075432A1 (ja) * 2005-01-17 2006-07-20 Matsushita Electric Industrial Co., Ltd. 音楽再生装置、方法、記録媒体、および集積回路

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宮沢 祐光,外2名: "好みの楽曲を選定するための楽曲類似度測定方法", 第68回(平成18年)全国大会講演論文集(2) 人工知能と認知科学, JPN6017012473, 7 March 2006 (2006-03-07), pages 第2-181〜2-182頁 *
藤原 弘将,外1名: "VocalFinder:声質の類似度に基づく楽曲検索システム", 情報処理学会研究報告, vol. 第2007巻,第81号, JPN6017012474, 1 August 2007 (2007-08-01), JP, pages 第27-32頁 *

Also Published As

Publication number Publication date
US9747927B2 (en) 2017-08-29
US20170061988A1 (en) 2017-03-02
WO2015125321A1 (ja) 2015-08-27
JP6150237B2 (ja) 2017-06-21

Similar Documents

Publication Publication Date Title
JP6150237B2 (ja) 多角的歌声分析システム及び多角的歌声分析方法
Casey et al. Content-based music information retrieval: Current directions and future challenges
Chen et al. The AMG1608 dataset for music emotion recognition
Li et al. Music data mining
Schuller et al. ‘Mister DJ, Cheer Me Up!’: Musical and textual features for automatic mood classification
Schuller et al. Determination of nonprototypical valence and arousal in popular music: features and performances
Gulati et al. Automatic tonic identification in Indian art music: approaches and evaluation
Aljanaki et al. A data-driven approach to mid-level perceptual musical feature modeling
Nakano et al. Vocal timbre analysis using latent Dirichlet allocation and cross-gender vocal timbre similarity
Chai Automated analysis of musical structure
Samsekai Manjabhat et al. Raga and tonic identification in carnatic music
Schuller et al. Music theoretic and perception-based features for audio key determination
Jun et al. Music retrieval and recommendation scheme based on varying mood sequences
Foster et al. Sequential complexity as a descriptor for musical similarity
Herremans et al. A multi-modal platform for semantic music analysis: visualizing audio-and score-based tension
Nakano et al. Musical similarity and commonness estimation based on probabilistic generative models of musical elements
Blume et al. Huge music archives on mobile devices
Nakano et al. Musical Typicality: How Many Similar Songs Exist?.
Tulisalmi-Eskola Automatic Music Genre Classification-Supervised Learning Approach
Müller et al. Multimodal music processing (dagstuhl seminar 11041)
Liebman et al. Related Work and a Taxonomy of Musical Intelligence Tasks
LEKAMGE et al. A visual interface for emotion based music navigation using subjective and objective measures of emotion perception
Tzanetakis Music information retrieval
US20230401254A1 (en) Generation of personality profiles
ANDERSEN How to Think Music with Data

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170502

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170515

R150 Certificate of patent or registration of utility model

Ref document number: 6150237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees