WO2022149400A1

WO2022149400A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2022149400A1
Application number: PCT/JP2021/045232
Authority: WO
Inventors: 淳也小野
Original assignee: ソニーグループ株式会社
Priority date: 2021-01-08
Filing date: 2021-12-09
Publication date: 2022-07-14

Abstract

情報処理装置（１０）は、楽曲の特徴を解析する解析部（１２ｃ）と、上記楽曲の任意の指定位置において自然言語により入力されたテキストを取得する取得部（１２ｄ）と、取得部（１２ｄ）によって取得された上記テキストと意味的に類似し、上記指定位置における上記楽曲の特徴に応じた候補メッセージを表示させる表示制御部（１２ａ）と、を備える。

Description

情報処理装置および情報処理方法

　本開示は、情報処理装置および情報処理方法に関する。

　従来、ミュージック・ビデオや視覚エフェクト、スライドショーといった、音楽と映像を連動させるコンテンツが知られている。音楽と映像を連動させるにあたっては、たとえば楽曲のメロディの特徴から想起される感情を統計的手法に基づいてカテゴライズする技術や、楽曲の歌詞を解析して歌詞の特徴を簡潔に表すトピックを抽出する技術等を用いることができる（たとえば、非特許文献１および非特許文献２参照）。

"Ooh　la　!　Music　evokes　at　least　13　emotions.　Scientists　have　mapped　them",　https://news.berkeley.edu/2020/01/06/music-evokes-13-emotions/ "Lyric　Jumper",　https://lyric-jumper.petitlyrics.com/

　しかしながら、上述した従来技術には、楽曲のメロディや歌詞の特徴に応じたメッセージを連動させるコンテンツを制作する場面において、制作者を支援するうえで、さらなる改善の余地がある。

　そこで、本開示では、楽曲の特徴に応じたメッセージを連動させるコンテンツを制作する場面において、制作者を支援することができる情報処理装置および情報処理方法を提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、楽曲の特徴を解析する解析部と、前記楽曲の任意の指定位置において自然言語により入力されたテキストを取得する取得部と、前記取得部によって取得された前記テキストと意味的に類似し、前記指定位置における前記楽曲の特徴に応じた候補メッセージを表示させる表示制御部と、を備える。

本開示の実施形態に係る情報処理方法の概要説明図である。感情タグの説明図である。メッセージ群の一例を示す図である。本開示の実施形態に係る情報処理装置の構成例を示すブロック図である。解析情報の構成例を示すブロック図である。本開示の実施形態に係るＵＩ画面の一例を示す図である。生成時における操作手順の説明図である。登録時における操作手順の説明図（その１）である。登録時における操作手順の説明図（その２）である。登録時における操作手順の説明図（その３）である。検索時における操作手順の説明図（その１）である。検索処理の補足説明図（その１）である。検索処理の補足説明図（その２）である。検索時における操作手順の説明図（その２）である。情報処理装置が実行する解析処理から生成処理にかけての処理手順を示すフローチャート（その１）である。情報処理装置が実行する解析処理から生成処理にかけての処理手順を示すフローチャート（その２）である。情報処理装置が実行する検索処理の処理手順を示すフローチャートである。情報処理装置が実行する変形例に係る検索処理の処理手順を示すフローチャート（その１）である。情報処理装置が実行する変形例に係る検索処理の処理手順を示すフローチャート（その２）である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　また、以下に示す項目順序に従って本開示を説明する。
　　１．本開示の実施形態の概要
　　２．情報処理装置の構成
　　３．変形例
　　４．ハードウェア構成
　　５．むすび

＜＜１．本開示の実施形態の概要＞＞
　まず、本開示の実施形態に係る情報処理方法の概要について説明する。図１は、本開示の実施形態に係る情報処理方法の概要説明図である。また、図２は、感情タグの説明図である。また、図３は、メッセージ群の一例を示す図である。

　図１に示すように、実施形態に係る情報処理方法ではまず、楽曲のメロディや歌詞の特徴に応じたメッセージを連動させるコンテンツを制作する場面において、楽曲から想起される感情を解析することとした（ステップＳ１）。かかるステップＳ１について、具体的に説明する。

　図１に示すように、実施形態に係る情報処理方法では、楽曲内のシーンごとに、楽曲のメロディおよび歌詞のそれぞれから想起される感情を解析する。各シーンはたとえば、イントロや、Ａメロ、Ｂメロ、サビといった楽曲の各パートである。また、各シーンは、制作者が任意に設定することもできる。各シーンへの分割は、後述するシーン分割情報１１ｂ（図４参照）に基づいて行われる。

　また、感情の解析については、公知のアルゴリズムを利用することができる。たとえば、メロディから想起される感情については、複数の被験者に予め選定された複数の楽曲を聴いてもらい、それぞれの楽曲のメロディによって想起された感情を統計的手法によりカテゴライズするアルゴリズムを利用することができる（たとえば、非特許文献１参照）。

　図２には、各楽曲が、たとえば文化によって変化することのない１３の感情にカテゴライズされた例を示している。図２に示すように、実施形態に係る情報処理方法では、かかる１３の感情に対し、一意に「Ａ」～「Ｍ」のタグを対応付ける。以下、かかるタグを「感情タグ」と呼ぶ。

　なお、感情タグは、感情やジャンル等を定義するものであって、任意に設定することが可能である。したがって、上述の１３の感情はあくまで一例であって、感情タグの内訳を限定するものではない。

　また、歌詞から想起される感情については、歌詞を解析して歌詞の特徴を簡潔に表すトピックを抽出するアルゴリズムを利用することができる（たとえば、非特許文献２参照）。具体的には、かかるアルゴリズムでは、自動解析して作られた複数個のトピックに対して、各トピックでの出現率が高い単語などを参考に、特徴を簡潔に表すトピックの名称を手動で決定する。そのうえで、歌詞中の単語の出現傾向がどのトピックと最も似ているかなどの情報を基に、歌詞へのトピックの振り分けを自動解析により行う。なお、実施形態に係る情報処理方法では、かかる歌詞へ振り分けられるトピックを上述の１３の感情に対応させている。

　図１の説明に戻る。したがって、ステップＳ１が実行された結果、楽曲内のシーンごとに、メロディおよび歌詞のそれぞれには感情タグが付与される。なお、図１の例では、各シーンに１つずつ感情タグが付与された例を示しているが、感情タグは、シーンごとに１つずつ付与されるとは限らない。そこで、実施形態に係る情報処理方法では、出現頻度や確度等の解析スコアが最も高い感情タグを、シーンを代表する感情タグとして取り扱う。以下では、かかるシーンを代表する感情タグを、適宜「Ｆｉｒｓｔ　Ｅｍｏｔｉｏｎ」あるいは「代表感情値」と呼ぶ。

　そして、実施形態に係る情報処理方法では、ステップＳ１で付与された感情タグに連動したメッセージ候補を生成または検索することとした（ステップＳ２）。まず生成する場合から説明する。

　具体的には、感情タグに連動したメッセージ候補を生成する場合、実施形態に係る情報処理方法では、コンテンツの制作者等であるユーザから、任意のシーンにおいて任意のフレーズの入力を受け付ける。

　そして、実施形態に係る情報処理方法では、入力された入力フレーズから、シーンのメロディまたは歌詞それぞれの「Ｆｉｒｓｔ　Ｅｍｏｔｉｏｎ」に応じたメッセージを自動生成する。かかる自動生成には、感情別に設けられ、入力フレーズが入力されることによって感情に応じたメッセージを生成する生成モデルを用いることができる。生成モデルは、自然言語処理に基づいて事前に学習された学習モデルである。生成モデルの詳細については、図４等を用いた説明で後述する。

　生成された各メッセージは、ユーザに対し提示され、ユーザの登録操作により、メッセージ登録ＤＢ（Data　Base）１１ｅへ登録することができる。なお、図１では、たとえばシーンＣのメロディについては、ユーザの任意の入力フレーズに対し、感情タグ「Ｆ」に応じたメッセージ「感謝の心が人を育て、…」が生成され、登録された例を示している。また、シーンＣの歌詞については、同じ入力フレーズに対し、感情タグ「Ｅ」に応じたメッセージ「悲しいときこそ、…」が生成され、登録された例を示している。

　なお、図３に一例として示すように、各メッセージは、感情別（ここでは「Ｂ」）にメッセージ登録ＤＢ１１ｅへ登録される。また、各メッセージは、メロディ、歌詞および後述する「Ｃｉｒｃｌｅ」別、言い換えれば項目別に登録することもできる。また、入力フレーズに感情タグを紐付けたうえで登録することもできる。メッセージの生成時および登録時における具体的な操作手順については、図７～図１０を用いた説明で後述する。

　次に、検索する場合について説明する。具体的には、感情タグに連動したメッセージ候補を検索する場合、実施形態に係る情報処理方法では、生成時と同様に、ユーザから任意のシーンにおいて任意のフレーズの入力を受け付ける。

　そして、実施形態に係る情報処理方法では、メッセージ登録ＤＢ１１ｅ内のメッセージ群から、入力された入力フレーズと意味的類似度の高いメッセージを抽出する。意味的類似度は、たとえば高次元ベクトル化されたメッセージ群と入力フレーズとのベクトル間の距離に基づいて算出される。

　図１では、たとえばシーンＣのメロディについては、ユーザの任意の入力フレーズに対し、かかる入力フレーズと意味的類似度が高く、感情タグ「Ｆ」に応じたメッセージ「感謝の心が人を育て、…」が抽出された例を示している。また、シーンＣの歌詞については、同じ入力フレーズと意味的類似度が高く、感情タグ「Ｅ」に応じたメッセージ「悲しいときこそ、…」が抽出された例を示している。

　なお、検索時においては、感情タグに応じたメッセージ候補から、さらに歌詞と意味的に近いメッセージを絞り込むこともできる。メッセージの検索時における具体的な操作手順については、図１１～図１４を用いた説明で後述する。

　以下、上述した実施形態に係る情報処理方法を適用した情報処理装置１０の構成例について、より具体的に説明する。

＜＜２．情報処理装置の構成＞＞
　図４は、本開示の実施形態に係る情報処理装置１０の構成例を示すブロック図である。また、図５は、解析情報１１ｃの構成例を示すブロック図である。なお、図４および図５では、本実施形態の特徴を説明するために必要な構成要素のみを表しており、一般的な構成要素についての記載を省略している。

　換言すれば、図４および図５に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。たとえば、各ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。

　また、図４および図５を用いた説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。

　図４に示すように、情報処理装置１０は、表示部３と、操作部５とを有する。表示部３は、ディスプレイ等の表示デバイスである。操作部５は、キーボードやマウス等の操作デバイスである。なお、表示部３および操作部５は、タッチパネルディスプレイ等によって一体に構成されてもよい。

　また、情報処理装置１０は、記憶部１１と、制御部１２とを備える。記憶部１１は、たとえば、ＲＡＭ（Random　Access　Memory）、ＲＯＭ（Read　Only　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

　図４に示す例では、記憶部１１は、ＵＩ（User　Interface）情報１１ａと、シーン分割情報１１ｂと、解析情報１１ｃと、生成モデルＤＢ１１ｄと、メッセージ登録ＤＢ１１ｅと、高次元ベクトル情報１１ｆとを記憶する。

　ＵＩ情報１１ａは、表示部３に対して表示され、ユーザに対して提示されるＵＩに関する情報であり、たとえばＵＩ画面のデザイン情報等を含む。ＵＩ画面の具体例については、図６を用いた説明で後述する。

　シーン分割情報１１ｂは、既に述べた通り、シーンの分割に関する設定情報であり、ユーザにより任意に設定可能である。なお、シーン分割情報１１ｂは、メロディや歌詞を解析することによって検出される変化点等に基づいて、自動的に設定されてもよい。

　解析情報１１ｃは、後述する解析部１２ｃによって解析されるメロディおよび歌詞の解析結果が格納される。ここで、図５に示すように、解析情報１１ｃは、シーンリスト１１ｃａと、感情タグリスト１１ｃｂと、「Ｆｉｒｓｔ　Ｅｍｏｔｉｏｎ」１１ｃｃとを有する。

　シーンリスト１１ｃａは、シーン分割部１２ｂによって分割されたシーンのリストである。感情タグリスト１１ｃｂは、シーンリスト１１ｃａの各シーンに付与された感情タグのリストである。「Ｆｉｒｓｔ　Ｅｍｏｔｉｏｎ」１１ｃｃは、シーンリスト１１ｃａの各シーンにおける代表感情値のリストである。

　図４の説明に戻る。生成モデルＤＢ１１ｄは、上述した感情別の生成モデルが格納されたデータベースである。なお、既に述べた通り、生成モデルは、自然言語処理に基づいて事前に学習された学習モデルであって、たとえば調整前のテキストの入力に対して調整後のテキストを出力するＳｅｑ２Ｓｅｑ（Sequence　to　Sequence）モデル等のエンコーダ－デコーダモデルである（「Exploring　the　Limits　of　Transfer　Learning　with　a　Unified　Text-to-Text　Transformer　(Raffel　et　al.,　2020),　https://arxiv.org/pdf/1910.10683.pdf」参照）。

　生成モデルは、学習時、調整前のテキスト（入力）、および、感情別に調整後のテキストを用意して、転移学習される（「転移学習を用いた対話応答のスタイル制御　(赤間　et　al.,　2017),　https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B3-3.pdf」参照）。

　メッセージ登録ＤＢ１１ｅは、上述したメッセージ群が感情別および項目別に格納されるデータベースである。高次元ベクトル情報１１ｆは、前述の高次元ベクトル化されたメッセージ群と入力フレーズのベクトルに関する情報が格納される。詳細については、図１２を用いた説明で後述する。

　制御部１２は、コントローラ（controller）であり、たとえば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、記憶部１１に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１２は、たとえば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現することができる。

　制御部１２は、表示制御部１２ａと、シーン分割部１２ｂと、解析部１２ｃと、取得部１２ｄと、生成部１２ｅと、登録部１２ｆと、検索部１２ｇとを有し、以下に説明する情報処理の機能や作用を実現または実行する。

　表示制御部１２ａは、ＵＩ情報１１ａに基づいてＵＩ画面を生成し、表示部３に表示させる。また、表示制御部１２ａは、解析情報１１ｃの内容をＵＩ画面に反映し、表示部３に表示させる。

　また、表示制御部１２ａは、生成部１２ｅによって生成されたメッセージをＵＩ画面に反映し、表示部３に表示させる。また、表示制御部１２ａは、検索部１２ｇによって検索され、抽出されたメッセージをＵＩ画面に反映し、表示部３に表示させる。

　シーン分割部１２ｂは、楽曲を取得し、楽曲をシーン分割情報１１ｂに基づいて各シーンに分割する。分割された各シーンはシーンリスト１１ｃａにリスト化される。

　解析部１２ｃは、シーン分割部１２ｂによって分割された各シーンのメロディおよび歌詞をそれぞれ解析する（前述のステップＳ１に相当）。具体的には、解析部１２ｃは、シーンごとに、メロディおよび歌詞のそれぞれについて、メロディおよび歌詞に応じた感情タグを付与する。付与した感情タグは感情タグリスト１１ｃｂにリスト化される。

　また、解析部１２ｃは、シーンごとで付与した感情タグのうち、各シーンの代表感情値となる感情タグを「Ｆｉｒｓｔ　Ｅｍｏｔｉｏｎ」１１ｃｃへ格納する。

　ここで、本開示の実施形態に係るＵＩ画面の一例について、図６を用いて説明する。図６は、本開示の実施形態に係るＵＩ画面の一例を示す図である。なお、図６には、解析部１２ｃによって楽曲が解析され、その解析結果が反映された状態の一例を示している。

　図６に示すように、ＵＩ画面は、領域Ｒ１と、領域Ｒ２と、領域Ｒ３とを含む。領域Ｒ１は、解析中の楽曲に関する情報が表示される。たとえば、領域Ｒ１の左隅には、解析中の楽曲のジャケット等のサムネイル画像と、コントロールバーとが配置される。コントロールバーは、楽曲の再生／一時停止ボタン等を含む。

　また、領域Ｒ１には、分割されたシーンごとに、メロディ、歌詞および「Ｆｉｒｓｔ　Ｅｍｏｔｉｏｎ」の解析結果が表示される。感情タグは色分けされており、「Ｆｉｒｓｔ　Ｅｍｏｔｉｏｎ」だけでなく、メロディや歌詞についても該当する感情タグの色を付加することで、瞬時の解析結果の視認を可能にすることができる。

　なお、シーンＣのようにメロディと歌詞とで感情タグが異なる場合もある。また、図６の例では、上述の１３の感情をそれぞれ一意に色分けしているが、色分けの内訳は任意に設定が可能である。

　また、領域Ｒ１には、楽曲のタイムライン上における現在の再生位置／停止位置を示す現在位置Ｔ１が表示される。また、ユーザは、前述のコントロールバーあるいは現在位置Ｔ１を操作することにより、楽曲の任意のシーンの任意の位置を指定することが可能である。楽曲の再生、または、ユーザの指定によりシーンが切り替われば、これらに応じて解析結果の表示も更新される。

　領域Ｒ２には、入力フレーズの入力欄、登録ボタン、生成ボタン、検索ボタン、歌詞フィルタリングのチェックボックス、感情タグの選択欄等が配置される。

　領域Ｒ３には、「Ｅｍｏｔｉｏｎ　Ｃｉｒｃｌｅ」、メロディの感情タグに対応するメッセージ（以下、「メロディメッセージ」という）の表示欄、歌詞の感情タグに対応するメッセージ（以下、「歌詞メッセージ」という）の表示欄が配置される。また、さらに「Ｅｍｏｔｉｏｎ　Ｃｉｒｃｌｅ」において選択された感情タグに対応するメッセージ（以下、「Ｃｉｒｃｌｅメッセージ」という）の表示欄が配置される。

　「Ｅｍｏｔｉｏｎ　Ｃｉｒｃｌｅ」は、各シーンにおいて付与されたすべての感情タグを円状にマッピングした情報である。したがって、「Ｅｍｏｔｉｏｎ　Ｃｉｒｃｌｅ」には、代表感情値以外の感情タグも含めて表示される。

　図６に示すように、現在位置Ｔ１がシーンＣにある場合、「Ｅｍｏｔｉｏｎ　Ｃｉｒｃｌｅ」には、シーンＣのメロディの代表感情値「Ｆ」および歌詞の代表感情値「Ｅ」だけでなく、たとえばそれ以外の感情タグ「Ｃ」も表示される。

　かかる「Ｅｍｏｔｉｏｎ　Ｃｉｒｃｌｅ」において代表感情値以外の感情タグが選択された場合、選択された感情タグに対応するメッセージがＣｉｒｃｌｅメッセージの表示欄に表示される。

　図４の説明に戻る。取得部１２ｄは、楽曲の現在の再生位置／停止位置、あるいは、ユーザから操作部５を介して指定される指定位置である現在位置Ｔ１を取得する。現在位置Ｔ１は、たとえばタイムライン時刻である。また、取得部１２ｄは、現在位置Ｔ１における楽曲の解析結果を、解析情報１１ｃから取得する。また、取得部１２ｄは、ユーザから操作部５を介して入力される入力フレーズを取得する。

　また、取得部１２ｄは、操作部５を介したユーザからのメッセージの生成操作を取得する。また、取得部１２ｄは、操作部５を介したユーザからのメッセージの登録操作を取得する。また、取得部１２ｄは、操作部５を介したユーザからのメッセージの検索操作を取得する。

　生成部１２ｅは、取得部１２ｄによって生成操作が取得された場合に、楽曲の解析結果、入力フレーズ、生成操作および生成モデルＤＢ１１ｄの感情別の生成モデルに基づき、メロディまたは歌詞それぞれの代表感情値に応じたメッセージを自動生成する。

　具体的には、生成部１２ｅは、メロディまたは歌詞それぞれの代表感情値に応じた各生成モデルを生成モデルＤＢ１１ｄから取得し、各生成モデルへ入力フレーズを入力することによって出力される各メッセージを取得し、表示制御部１２ａに表示させる。

　また、生成部１２ｅは、「Ｅｍｏｔｉｏｎ　Ｃｉｒｃｌｅ」において代表感情値以外の感情タグが選択された場合は、選択された感情タグに応じた生成モデルを生成モデルＤＢ１１ｄから取得し、生成モデルへ入力フレーズを入力することによって出力されるメッセージを取得し、表示制御部１２ａに表示させる。

　登録部１２ｆは、取得部１２ｄによって登録操作が取得された場合に、かかる登録操作に応じてメロディメッセージ、歌詞メッセージ、Ｃｉｒｃｌｅメッセージおよび入力フレーズを、感情別および項目別にメッセージ登録ＤＢ１１ｅへ登録する。

　ここで、生成時および登録時における具体的な操作手順について、図７～図１０を説明する。図７は、生成時における操作手順の説明図である。また、図８は、登録時における操作手順の説明図（その１）である。また、図９は、登録時における操作手順の説明図（その２）である。また、図１０は、登録時における操作手順の説明図（その３）である。なお、図７～図１０は、図６のＵＩ画面を前提としている。

　図７に示すように、図６に示した状態から入力フレーズ欄にフレーズが入力され、生成ボタンが押下されたものとする。すると、図７に示すように、メロディメッセージの表示欄には、生成部１２ｅが、メロディの代表感情値に対応する生成モデルを用いて生成したメロディメッセージが表示される。

　同様に、歌詞メッセージの表示欄には、生成部１２ｅが、歌詞の代表感情値に対応する生成モデルを用いて生成した歌詞メッセージが表示される。

　また、図７に示すように、「Ｅｍｏｔｉｏｎ　Ｃｉｒｃｌｅ」の代表感情値以外の感情タグ「Ｃ」が選択された場合、Ｃｉｒｃｌｅメッセージの表示欄には、生成部１２ｅが、感情タグ「Ｃ」に対応する生成モデルを用いて生成したＣｉｒｃｌｅメッセージが表示される。

　また、図８に示すように、たとえばメロディメッセージの表示欄にメロディメッセージが表示された状態で、メロディメッセージに対応する登録ボタンが押下されたものとする。すると、登録部１２ｆが、かかるメロディメッセージをメッセージ登録ＤＢ１１ｅへ感情別および項目別に登録する。なお、図８はメロディメッセージの例だが、無論、歌詞メッセージおよびＣｉｒｃｌｅメッセージについても同様である。

　また、図９に示すように、メロディメッセージの表示欄に、既にメッセージ登録ＤＢ１１ｅに登録済みのメロディメッセージがたとえば後述する検索により表示された状態である場合、これを修正して登録することが可能である。

　すなわち、図９に示すように、ユーザが、表示されたメロディメッセージの一部を修正し、修正ボタンを押下すると、登録部１２ｆは、かかるメロディメッセージの修正をメッセージ登録ＤＢ１１ｅへ反映する。なお、図９はメロディメッセージの例だが、無論、歌詞メッセージおよびＣｉｒｃｌｅメッセージについても同様である。

　また、図１０に示すように、入力フレーズ欄に入力されたフレーズについても、感情タグの選択欄から感情タグ（ここでは、「Ｆ」）を選択し、登録ボタンを押下することによって入力フレーズを登録することができる。これにより、ユーザはお気に入りの入力フレーズを任意に登録しておくことができる。

　図４の説明に戻る。検索部１２ｇは、メッセージ登録ＤＢ１１ｅ内のメッセージ群から、入力された入力フレーズと意味的類似度の高いメッセージを抽出する。既に述べた通り、意味的類似度は、高次元ベクトル化されたメッセージ群と入力フレーズとのベクトル間の距離に基づいて算出される、たとえばコサイン類似度である。なお、検索部１２ｇは、高次元ベクトル化のアルゴリズムとして、たとえばＬａＢＳＥ（Language-agnostic　BERT　Sentence　Embedding）を用いる。

　そもそも、ＢＥＲＴ（Bidirectional　Encoder　Representations　from　Transformers）のような汎用言語表現モデルの登場により、単語から、文などのセンテンスに対しての高精度のベクトル化が可能となっている。また、さらに文脈を学習できているため、たとえば「感謝」と「ありがとう」のように文字上では違うが、意味的に同じ内容を、高次元ベクトル空間上でも同じ位置を指すようにすることができる。

　よって、意味的に近い文と文を見つけることが可能となり、近年では、本実施形態のようにＬａＢＳＥを用いることによって、多言語間で共通な高精度の高次元ベクトル化が可能である。また、検索部１２ｇは、抽出したメッセージを表示制御部１２ａに表示させる。

　図１１は、検索時における操作手順の説明図（その１）である。図１１に示すように、たとえば図６に示した状態から入力フレーズ欄にフレーズが入力され、検索ボタンが押下されたものとする。すると、図１１に示すように、メロディメッセージの表示欄については、検索部１２ｇが、メッセージ登録ＤＢ１１ｅにおけるメロディごとの感情タグに対応したメロディメッセージ群から、入力フレーズと意味的類似度の高いメロディメッセージを抽出し、これを表示制御部１２ａに表示させる。

　また、歌詞メッセージの表示欄については、検索部１２ｇが、メッセージ登録ＤＢ１１ｅにおける歌詞ごとの感情タグに対応した歌詞メッセージ群から、入力フレーズと意味的類似度の高い歌詞メッセージを抽出し、これを表示制御部１２ａに表示させる。

　また、Ｃｉｒｃｌｅメッセージの表示欄については、検索部１２ｇが、メッセージ登録ＤＢ１１ｅにおけるＣｉｒｃｌｅごとの感情タグに対応したＣｉｒｃｌｅメッセージ群から、入力フレーズと意味的類似度の高いＣｉｒｃｌｅメッセージを抽出し、これを表示制御部１２ａに表示させる。

　ここで、検索部１２ｇが実行する検索処理について補足しておく。図１２は、検索処理の補足説明図（その１）である。また、図１３は、検索処理の補足説明図（その２）である。なお、図１２および図１３を用いた説明で「タグ」といった場合、感情タグを指すものとする。

　検索部１２ｇは、メッセージと入力フレーズとの意味的類似度を直接比較するのではなく、「重要語」を介在させて比較することができる。

　具体的には、図１２に示すように、検索部１２ｇは、メッセージ登録ＤＢ１１ｅに相当する「メッセージ－タグ」テキスト群から、たとえば自動的に「重要語－タグ」テキスト群を抽出する。ここで「重要語」は、メッセージから単語分割で抽出した名詞および形容詞のうちのたとえば高頻度で用いられるワードである。

　そして、検索部１２ｇは、「メッセージ－タグ」テキスト群、「重要語－タグ」テキスト群および入力フレーズを高次元ベクトル化し、前述した高次元ベクトル情報１１ｆとして、「メッセージ－タグ」ベクトル群、「重要語－タグ」ベクトル群および入力フレーズベクトルを得る。

　そして、検索部１２ｇは、「重要語－タグ」ベクトル群と入力フレーズベクトルの類似度に基づいて、図１３に示すように、入力フレーズに意味的に近い重要語を検索する。その結果得られる重要語のリストを対象重要語リストとする。また、その重要語に対応付けられたタグを対象タグリストとする。

　そして、図１２に示すように、検索部１２ｇは、たとえばそもそも「メッセージ－タグ」テキスト群のデータが少ない場合は、対象タグリストのタグのベクトルと「メッセージ－タグ」ベクトル群とを比較し、一致した場合に、対象タグのメッセージベクトル群と入力フレーズベクトルの類似度に基づいて候補メッセージテキスト群を抽出する。

　一方で、図１２に示すように、検索部１２ｇは、たとえばそもそも「メッセージ－タグ」テキスト群のデータが多い場合は、対象重要語リストのタグのベクトルと入力フレーズベクトルの類似度に基づいて候補メッセージテキスト群を抽出する。

　これにより、メッセージとの直接比較によって生じやすいノイズ成分を軽減し、検索処理の高精度化を図ることができる。また、そもそも「メッセージ－タグ」テキスト群のデータが少ないことによって、最終的に抽出されるメッセージが限定的になってしまうことを防ぐことが可能となる。

　次に、図１４は、検索時における操作手順の説明図（その２）である。図１４に示すように、たとえば図１１に示した状態で検索ボタンが押下される前に、歌詞フィルタリングのチェックボックスがチェックされていたものとする。

　すると、かかる場合、図１４に示すように、検索部１２ｇは、感情タグに応じたメッセージ候補から、さらに楽曲の歌詞と意味的に近いメッセージでフィルタリングすることができる。かかる処理手順の詳細については、図１９を用いた説明で後述する。

　次に、情報処理装置１０が実行する各処理の処理手順について図１５～図１９を用いて説明する。まず、図１５は、情報処理装置１０が実行する解析処理から生成処理にかけての処理手順を示すフローチャート（その１）である。また、図１６は、情報処理装置１０が実行する解析処理から生成処理にかけての処理手順を示すフローチャート（その２）である。

　図１５に示すように、シーン分割部１２ｂは、楽曲（メロディおよび歌詞）を取得し、シーン分割情報１１ｂに基づいてシーン分割を実行する（ステップＳ１０１）。その結果、シーンリスト１１ｃａが出力される。

　そして、シーンリスト１１ｃａに基づいてシーンリストループ処理が実行される（ステップＳ１０２）。シーンリストループ処理では、解析部１２ｃが、シーンごとのメロディおよび歌詞それぞれの感情解析を実行し（ステップＳ１０３）、メロディと歌詞に応じた感情タグを付与する（ステップＳ１０４）。その結果、感情タグリスト１１ｃｂが出力される。

　感情タグリスト１１ｃｂに基づいては、感情タグリストループ処理が実行される（ステップＳ１０５）。感情タグリストループ処理では、感情タグごとに、解析スコアが最大スコアであるか否かが判定される（ステップＳ１０６）。解析スコアが最大スコアである感情タグの場合（ステップＳ１０６，Ｙｅｓ）、代表感情値として「Ｆｉｒｓｔ　Ｅｍｏｔｉｏｎ」１１ｃｃへ出力される。解析スコアが最大スコアでない感情タグの場合（ステップＳ１０６，Ｎｏ）、代表感情値としては取り扱われない。

　そして、感情タグリストループ処理が終了するごとに、シーンリストループ処理が繰り返される。そして、シーンリストループ処理が終了したならば、図１６のステップＳ２０１へ遷移する。

　図１６に示すように、ステップＳ２０１では、取得部１２ｄが、楽曲の現在の再生位置／停止位置、あるいは、ユーザから操作部５を介して指定される指定位置である現在位置Ｔ１に基づいて、現在位置Ｔ１が含まれるシーンおよびその解析結果を取得する（ステップＳ２０１）。

　そして、生成部１２ｅが、取得されたシーンの代表感情値である「Ｆｉｒｓｔ　Ｅｍｏｔｉｏｎ」１１ｃｃに基づいて代表感情値に対応する生成モデルを取得し（ステップＳ２０２）、入力フレーズをかかる生成モデルを入力することによってメッセージ生成を実行する（ステップＳ２０３）。

　ステップＳ２０３によって、メロディメッセージおよび歌詞メッセージが生成される。また、Ｃｉｒｃｌｅ上のタグが選択されているか否かが判定され（ステップＳ２０４）、選択されている場合は（ステップＳ２０４，Ｙｅｓ）、Ｃｉｒｃｌｅメッセージも生成される。選択されていなければ（ステップＳ２０４，Ｎｏ）、Ｃｉｒｃｌｅメッセージは生成されない。

　そして、表示制御部１２ａが、生成された各メッセージを表示させる（ステップＳ２０５）。そして、表示されたメッセージに対し、登録操作が行われたか否かが判定され（ステップＳ２０６）、行われた場合（ステップＳ２０６，Ｙｅｓ）、該当のメッセージがメッセージ登録ＤＢ１１ｅへ登録され、処理を終了する。登録操作が行われない場合（ステップＳ２０６，Ｎｏ）、処理を終了する。

　次に、図１７は、情報処理装置１０が実行する検索処理の処理手順を示すフローチャートである。なお、検索処理の前段の解析処理については図１５と同様であるため、ここでの説明は省略する。

　図１７に示すように、ステップＳ３０１では、取得部１２ｄが、前述の現在位置Ｔ１に基づいて、現在位置Ｔ１が含まれるシーンおよびその解析結果を取得する（ステップＳ３０１）。

　そして、検索部１２ｇが、メッセージ登録ＤＢ１１ｅに登録されたメッセージ群および入力フレーズの高次元ベクトル化を実行する（ステップＳ３０２）。その結果、高次元ベクトル情報１１ｆが出力される。

　そして、検索部１２ｇは、高次元ベクトル情報１１ｆに基づいて、メッセージ検索を実行する（ステップＳ３０３）。そして、検索されたメッセージが最大類似度のメッセージであるか否かが判定され（ステップＳ３０４）、最大類似度である場合（ステップＳ３０４，Ｙｅｓ）、該当するメロディメッセージ、歌詞メッセージまたはＣｉｒｃｌｅメッセージが抽出される。最大類似度でない場合（ステップＳ３０４，Ｎｏ）、検索されるメッセージに対しステップＳ３０４を繰り返す。

　そして、表示制御部１２ａが、抽出された各メッセージを表示させ（ステップＳ３０５）、処理を終了する。

　次に、図１８は、情報処理装置１０が実行する変形例に係る検索処理の処理手順を示すフローチャート（その１）である。また、図１９は、情報処理装置１０が実行する変形例に係る検索処理の処理手順を示すフローチャート（その２）である。

　なお、変形例に係る検索処理は、歌詞フィルタリングが指定された場合の検索処理に相当する。また、変形例に係る検索処理の前段の解析処理については図１５と同様であるため、ここでの説明は省略する。

　図１８に示すように、ステップＳ４０１では、取得部１２ｄが、前述の現在位置Ｔ１に基づいて、現在位置Ｔ１が含まれるシーンおよびその解析結果を取得する（ステップＳ４０１）。

　そして、検索部１２ｇが、メッセージ登録ＤＢ１１ｅに登録されたメッセージ群および入力フレーズについて第１の高次元ベクトル化を実行する（ステップＳ４０２）。その結果は、高次元ベクトル情報１１ｆとして出力される。

　そして、検索部１２ｇは、高次元ベクトル情報１１ｆに基づいて、第１のメッセージ検索を実行する（ステップＳ４０３）。第１のメッセージ検索では、検索されたメッセージベクトルの類似度が所定の閾値以上であるか否かが判定され（ステップＳ４０４）、閾値以上である場合（ステップＳ４０４，Ｙｅｓ）、メロディメッセージリスト、歌詞メッセージリストまたはＣｉｒｃｌｅメッセージリストへ保持される。

　閾値以上でない場合（ステップＳ４０４，Ｎｏ）、検索されたメッセージベクトルは、メロディメッセージリスト、歌詞メッセージリストまたはＣｉｒｃｌｅメッセージリストへは保持されない。

　そして、検索部１２ｇは、歌詞フィルタリングを実行する（ステップＳ４０５）。歌詞フィルタリングでは、検索部１２ｇは、メロディメッセージリスト、歌詞メッセージリスト、Ｃｉｒｃｌｅメッセージリスト、および、シーンに対応する楽曲の歌詞を取得する。そして、図１９に示すように、楽曲の歌詞について第２の高次元ベクトル化を実行する（ステップＳ４０６）。その結果は、高次元ベクトル情報１１ｆへ出力される。

　そして、検索部１２ｇは、高次元ベクトル情報１１ｆに基づいて、第２のメッセージ検索を実行する（ステップＳ４０７）。第２のメッセージ検索では、第１のメッセージ検索で保持した各メッセージリストと、シーンに対応する歌詞のベクトルとの類似度に基づいて類似度が近いメッセージを検索する。

　そして、検索されたメッセージが最大類似度のメッセージであるか否かが判定され（ステップＳ４０８）、最大類似度である場合（ステップＳ４０８，Ｙｅｓ）、該当するメロディメッセージ、歌詞メッセージまたはＣｉｒｃｌｅメッセージが抽出される。最大類似度でない場合（ステップＳ４０８，Ｎｏ）、検索されるメッセージに対しステップＳ４０８を繰り返す。

　そして、表示制御部１２ａが、抽出された各メッセージを表示させ（ステップＳ４０９）、処理を終了する。

＜＜３．変形例＞＞
　なお、上述してきた実施形態には、いくつかの変形例を挙げることができる。

　たとえば、情報処理装置１０は、歌詞の作成支援ツールとして用いることができる。かかる場合、生成部１２ｅは、解析部１２ｃによって楽曲のメロディのみが解析され、メロディメッセージが表示されてはいるが歌詞メッセージは表示されていない状態で、ユーザによる歌詞メッセージの生成操作を受け付けた場合に、事前に学習された感情別の生成モデルを用いて、テキストと意味的に類似し、現在位置Ｔ１における感情に応じた楽曲の歌詞メッセージを生成することとなる。

　ただし、かかる場合は、次のような点を考慮する必要がある。シーンの範囲によっては、メッセージは比較的短文で済むが、歌詞の場合、長くする必要がある場合がある。シーンの範囲が、Ａメロ／Ｂメロ、サビといった範囲に対応する場合、歌詞は長くなりやすい。

　そこで、歌詞生成の場合、ユーザがシーンの範囲を任意に指定できるようにするとともに、シーンの時間や特徴（ピッチ、テンポ等）に応じて、生成文の長さが自動調整されることが好ましい。たとえば、ロックとバラードでは同じ再生時間でもピッチが違うので、適した生成文の長さはそれぞれ異なる。したがって、シーンの時間や特徴だけでなく、楽曲のジャンル等に応じて前述の長さが自動調整されてもよい。また、ユーザによって任意に長さの最小値および最大値が指定可能であってもよい。

　また、上記実施形態では、楽曲の解析処理や、メッセージの生成処理、検索処理等において使用する、自然言語処理における各種のアルゴリズムを例に挙げたが、あくまで一例であって、使用されるアルゴリズムを限定するものではない。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。たとえば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

　また、上記してきた実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、本実施形態のシーケンス図或いはフローチャートに示された各ステップは、適宜順序を変更することが可能である。

＜＜４．ハードウェア構成＞＞
　上述してきた実施形態に係る情報処理装置１０は、たとえば図２０に示すような構成のコンピュータ１０００によって実現される。図２０は、情報処理装置１０の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ストレージ１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はストレージ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。たとえば、ＣＰＵ１１００は、ＲＯＭ１３００又はストレージ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ストレージ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ストレージ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０と接続するためのインターフェイスである。たとえば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。たとえば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信することが可能である。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信することが可能である。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　たとえば、コンピュータ１０００が本開示の実施形態に係る情報処理装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１２の機能を実現する。また、ストレージ１４００には、本開示に係る情報処理プログラムや、記憶部１１内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をストレージ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

＜＜５．むすび＞＞
　以上説明したように、本開示の一実施形態によれば、情報処理装置１０は、楽曲の特徴を解析する解析部１２ｃと、上記楽曲の現在位置Ｔ１（「任意の指定位置」の一例に相当）において自然言語により入力された入力フレーズ（「テキスト」の一例に相当）を取得する取得部１２ｄと、取得部１２ｄによって取得された入力フレーズと意味的に類似し、現在位置Ｔ１における上記楽曲の特徴に応じた候補メッセージを表示させる表示制御部１２ａと、を備える、これにより、楽曲の特徴に応じたメッセージを連動させるコンテンツを制作する場面において、制作者を支援することができる。

　以上、本開示の各実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　楽曲の特徴を解析する解析部と、
　前記楽曲の任意の指定位置において自然言語により入力されたテキストを取得する取得部と、
　前記取得部によって取得された前記テキストと意味的に類似し、前記指定位置における前記楽曲の特徴に応じた候補メッセージを表示させる表示制御部と、
　を備える、情報処理装置。
（２）
　前記解析部は、
　前記楽曲の特徴として当該楽曲から想起される感情を解析し、
　前記表示制御部は、
　前記指定位置における前記感情に応じた前記候補メッセージを表示させる、
　前記（１）に記載の情報処理装置。
（３）
　前記解析部は、
　少なくとも前記楽曲のメロディについての前記感情を解析し、
　前記表示制御部は、
　前記指定位置における前記メロディについての前記感情に応じた前記候補メッセージを表示させる、
　前記（２）に記載の情報処理装置。
（４）
　前記解析部はさらに、
　前記楽曲の歌詞についての前記感情を解析し、
　前記表示制御部はさらに、
　前記指定位置における前記歌詞についての前記感情に応じた前記候補メッセージを表示させる、
　前記（３）に記載の情報処理装置。
（５）
　前記解析部は、
　前記楽曲における任意のシーンごとに前記感情を解析し、前記シーンごとの代表的な前記感情を示す代表感情値を前記シーンのそれぞれに付与し、
　前記表示制御部は、
　前記指定位置を含む前記シーンにおける前記代表感情値に応じた前記候補メッセージを表示させる、
　前記（２）、（３）または（４）に記載の情報処理装置。
（６）
　ユーザによる前記候補メッセージの生成操作を受け付けた場合に、事前に学習された前記感情別の生成モデルを用いて、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記候補メッセージを生成する生成部、
　をさらに備える、前記（２）～（５）のいずれか一つに記載の情報処理装置。
（７）
　ユーザによる前記候補メッセージの検索操作を受け付けた場合に、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記候補メッセージをメッセージ群から検索する検索部、
　をさらに備える、前記（２）～（５）のいずれか一つに記載の情報処理装置。
（８）
　前記検索部は、
　前記テキストおよび前記メッセージ群を高次元ベクトル化し、高次元ベクトル空間における類似度に基づいて、前記候補メッセージを前記メッセージ群から検索する、
　前記（７）に記載の情報処理装置。
（９）
　前記メロディについての前記感情に応じた前記候補メッセージが表示された状態で、ユーザによる前記候補メッセージの生成操作を受け付けた場合に、事前に学習された前記感情別の生成モデルを用いて、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記楽曲の歌詞についての前記候補メッセージを生成する生成部、
　をさらに備える、前記（３）に記載の情報処理装置。
（１０）
　楽曲の特徴を解析することと、
　前記楽曲の任意の指定位置において自然言語により入力されたテキストを取得することと、
　前記取得することにおいて取得された前記テキストと意味的に類似し、前記指定位置における前記楽曲の特徴に応じた候補メッセージを表示させることと、
　を含む、情報処理方法。

　３　表示部
　５　操作部
　１０　情報処理装置
　１２　制御部
　１２ａ　表示制御部
　１２ｂ　シーン分割部
　１２ｃ　解析部
　１２ｄ　取得部
　１２ｅ　生成部
　１２ｆ　登録部
　１２ｇ　検索部

Claims

　楽曲の特徴を解析する解析部と、
　前記楽曲の任意の指定位置において自然言語により入力されたテキストを取得する取得部と、
　前記取得部によって取得された前記テキストと意味的に類似し、前記指定位置における前記楽曲の特徴に応じた候補メッセージを表示させる表示制御部と、
　を備える、情報処理装置。
　前記解析部は、
　前記楽曲の特徴として当該楽曲から想起される感情を解析し、
　前記表示制御部は、
　前記指定位置における前記感情に応じた前記候補メッセージを表示させる、
　請求項１に記載の情報処理装置。
　前記解析部は、
　少なくとも前記楽曲のメロディについての前記感情を解析し、
　前記表示制御部は、
　前記指定位置における前記メロディについての前記感情に応じた前記候補メッセージを表示させる、
　請求項２に記載の情報処理装置。
　前記解析部はさらに、
　前記楽曲の歌詞についての前記感情を解析し、
　前記表示制御部はさらに、
　前記指定位置における前記歌詞についての前記感情に応じた前記候補メッセージを表示させる、
　請求項３に記載の情報処理装置。
　前記解析部は、
　前記楽曲における任意のシーンごとに前記感情を解析し、前記シーンごとの代表的な前記感情を示す代表感情値を前記シーンのそれぞれに付与し、
　前記表示制御部は、
　前記指定位置を含む前記シーンにおける前記代表感情値に応じた前記候補メッセージを表示させる、
　請求項２に記載の情報処理装置。
　ユーザによる前記候補メッセージの生成操作を受け付けた場合に、事前に学習された前記感情別の生成モデルを用いて、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記候補メッセージを生成する生成部、
　をさらに備える、請求項２に記載の情報処理装置。
　ユーザによる前記候補メッセージの検索操作を受け付けた場合に、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記候補メッセージをメッセージ群から検索する検索部、
　をさらに備える、請求項２に記載の情報処理装置。
　前記検索部は、
　前記テキストおよび前記メッセージ群を高次元ベクトル化し、高次元ベクトル空間における類似度に基づいて、前記候補メッセージを前記メッセージ群から検索する、
　請求項７に記載の情報処理装置。
　前記メロディについての前記感情に応じた前記候補メッセージが表示された状態で、ユーザによる前記候補メッセージの生成操作を受け付けた場合に、事前に学習された前記感情別の生成モデルを用いて、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記楽曲の歌詞についての前記候補メッセージを生成する生成部、
　をさらに備える、請求項３に記載の情報処理装置。
　楽曲の特徴を解析することと、
　前記楽曲の任意の指定位置において自然言語により入力されたテキストを取得することと、
　前記取得することにおいて取得された前記テキストと意味的に類似し、前記指定位置における前記楽曲の特徴に応じた候補メッセージを表示させることと、
　を含む、情報処理方法。