WO2022149400A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2022149400A1
WO2022149400A1 PCT/JP2021/045232 JP2021045232W WO2022149400A1 WO 2022149400 A1 WO2022149400 A1 WO 2022149400A1 JP 2021045232 W JP2021045232 W JP 2021045232W WO 2022149400 A1 WO2022149400 A1 WO 2022149400A1
Authority
WO
WIPO (PCT)
Prior art keywords
message
emotion
information processing
music
unit
Prior art date
Application number
PCT/JP2021/045232
Other languages
English (en)
French (fr)
Inventor
淳也 小野
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2022149400A1 publication Critical patent/WO2022149400A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • This disclosure relates to an information processing device and an information processing method.
  • the above-mentioned conventional technique has room for further improvement in supporting the creator in the scene of producing the content in which the message according to the melody and the characteristics of the lyrics of the music is linked.
  • one form of the information processing apparatus includes an analysis unit that analyzes the characteristics of a musical piece of music and an acquisition of a text input in natural language at an arbitrary designated position of the musical piece of music.
  • a unit and a display control unit that is semantically similar to the text acquired by the acquisition unit and displays a candidate message corresponding to the characteristics of the music at the designated position.
  • FIG. 1 is a schematic explanatory diagram of an information processing method according to an embodiment of the present disclosure.
  • FIG. 2 is an explanatory diagram of the emotion tag.
  • FIG. 3 is a diagram showing an example of a message group.
  • Step S1 it is decided to analyze the emotions recalled from the music in the scene of producing the content in which the messages corresponding to the characteristics of the melody and the lyrics of the music are linked.
  • each scene is, for example, an intro or a part of a song such as an A melody, a B melody, or a chorus.
  • each scene can be arbitrarily set by the creator.
  • the division into each scene is performed based on the scene division information 11b (see FIG. 4) described later.
  • a known algorithm can be used for emotion analysis. For example, for emotions recalled from a melody, it is possible to use an algorithm that asks multiple subjects to listen to multiple songs selected in advance and categorizes the emotions recalled by the melody of each song by a statistical method. Yes (see, for example, Non-Patent Document 1).
  • FIG. 2 shows an example in which each song is categorized into 13 emotions that do not change depending on the culture, for example.
  • the tags "A" to "M” are uniquely associated with the 13 emotions.
  • such a tag is referred to as an "emotion tag”.
  • the emotion tag defines emotions, genres, etc., and can be set arbitrarily. Therefore, the above-mentioned 13 emotions are merely examples, and do not limit the breakdown of emotion tags.
  • Non-Patent Document 2 For emotions recalled from lyrics, an algorithm that analyzes the lyrics and extracts topics that concisely express the characteristics of the lyrics can be used (see, for example, Non-Patent Document 2). Specifically, in this algorithm, for multiple topics created by automatic analysis, the name of the topic that briefly expresses the feature is manually determined by referring to the words that have a high appearance rate in each topic. do. Then, based on the information such as which topic the word appearance tendency in the lyrics is most similar to, the topic is assigned to the lyrics by automatic analysis. In the information processing method according to the embodiment, the topics assigned to the lyrics correspond to the above-mentioned 13 emotions.
  • step S1 an emotion tag is attached to each of the melody and the lyrics for each scene in the music.
  • the example of FIG. 1 shows an example in which one emotion tag is attached to each scene, one emotion tag is not always attached to each scene. Therefore, in the information processing method according to the embodiment, the emotion tag having the highest analysis score such as appearance frequency and accuracy is treated as an emotion tag representing the scene.
  • the emotion tag representing such a scene is appropriately referred to as "First Emotion" or "representative emotion value".
  • step S2 it was decided to generate or search the message candidate linked to the emotion tag given in step S1 (step S2). First, the case of generation will be described.
  • the information processing method when generating a message candidate linked to an emotion tag, accepts input of an arbitrary phrase in an arbitrary scene from a user who is a creator of the content or the like.
  • a message corresponding to the "First Emotion" of each scene melody or lyrics is automatically generated from the input input phrase.
  • a generation model provided for each emotion and generating a message according to the emotion by inputting an input phrase can be used.
  • the generative model is a pre-learned learning model based on natural language processing. The details of the generative model will be described later in the description using FIG. 4 and the like.
  • Each generated message is presented to the user and can be registered in the message registration DB (Data Base) 11e by the user's registration operation.
  • a message "gratitude nurtures people, ! corresponding to the emotion tag "F” is generated and registered for any input phrase of the user.
  • An example is shown.
  • lyrics of the scene C an example is shown in which a message "When sad, when " is generated and registered according to the emotion tag "E" for the same input phrase.
  • each message is registered in the message registration DB 11e according to emotion (here, "B"). Further, each message can be registered by melody, lyrics and "Circle” described later, in other words, by item. It is also possible to register an emotion tag after associating it with an input phrase. Specific operation procedures at the time of message generation and registration will be described later with reference to FIGS. 7 to 10.
  • the information processing method when searching for a message candidate linked to an emotion tag, accepts input of an arbitrary phrase from the user in an arbitrary scene as in the case of generation.
  • a message having a high degree of semantic similarity to the input input phrase is extracted from the message group in the message registration DB 11e.
  • Semantic similarity is calculated, for example, based on the distance between a vector of high-dimensional vectorized messages and an input phrase.
  • the melody of Scene C has a high semantic similarity to any input phrase of the user, and the message “gratitude nurtures a person,” according to the emotion tag “F”. ... ”is shown as an extracted example. Further, the lyrics of the scene C have a high degree of semantic similarity to the same input phrase, and an example is shown in which the message "when sad " is extracted according to the emotion tag "E".
  • FIG. 4 is a block diagram showing a configuration example of the information processing apparatus 10 according to the embodiment of the present disclosure. Further, FIG. 5 is a block diagram showing a configuration example of the analysis information 11c. Note that FIGS. 4 and 5 show only the components necessary for explaining the features of the present embodiment, and the description of general components is omitted.
  • each component shown in FIGS. 4 and 5 is a functional concept and does not necessarily have to be physically configured as shown in the figure.
  • the specific form of distribution / integration of each block is not limited to the one shown in the figure, and all or part of it may be functionally or physically distributed in any unit according to various loads and usage conditions. It can be integrated and configured.
  • the information processing apparatus 10 has a display unit 3 and an operation unit 5.
  • the display unit 3 is a display device such as a display.
  • the operation unit 5 is an operation device such as a keyboard and a mouse.
  • the display unit 3 and the operation unit 5 may be integrally configured by a touch panel display or the like.
  • the information processing device 10 includes a storage unit 11 and a control unit 12.
  • the storage unit 11 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory), a ROM (Read Only Memory), or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • a semiconductor memory element such as a RAM (Random Access Memory), a ROM (Read Only Memory), or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 11 stores UI (User Interface) information 11a, scene division information 11b, analysis information 11c, generation model DB 11d, message registration DB 11e, and high-dimensional vector information 11f. do.
  • UI User Interface
  • the UI information 11a is information about the UI displayed on the display unit 3 and presented to the user, and includes, for example, UI screen design information. A specific example of the UI screen will be described later with reference to FIG.
  • the scene division information 11b is setting information related to the division of the scene, and can be arbitrarily set by the user.
  • the scene division information 11b may be automatically set based on a change point or the like detected by analyzing a melody or lyrics.
  • the analysis information 11c stores the analysis results of the melody and lyrics analyzed by the analysis unit 12c described later.
  • the analysis information 11c has a scene list 11ca, an emotion tag list 11cc, and an “First Emotion” 11cc.
  • the scene list 11ca is a list of scenes divided by the scene division unit 12b.
  • the emotion tag list 11cab is a list of emotion tags attached to each scene of the scene list 11ca.
  • "First Emotion" 11cc is a list of representative emotion values in each scene of the scene list 11ca.
  • the generative model DB 11d is a database in which the above-mentioned emotion-specific generative model is stored.
  • the generation model is a learning model learned in advance based on natural language processing, for example, Seq2Seq (Sequence to Sequence) that outputs the adjusted text in response to the input of the unadjusted text.
  • Model, etc. encoder-decoder model (“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (Raffel et al., 2020), https://arxiv.org/pdf/1910.10683.pdf" reference).
  • the generative model is transfer-learned by preparing the text (input) before adjustment and the text after adjustment for each emotion during learning ("Style control of dialogue response using transfer learning (Akama et al.,," 2017), https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B3-3.pdf ").
  • the message registration DB 11e is a database in which the above-mentioned message group is stored by emotion and by item.
  • the high-dimensional vector information 11f stores information about the above-mentioned high-dimensional vectorized message group and the vector of the input phrase. Details will be described later with reference to FIG.
  • the control unit 12 is a controller, and for example, various programs stored in the storage unit 11 are executed by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like with the RAM as a work area. Is realized by. Further, the control unit 12 can be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the control unit 12 includes a display control unit 12a, a scene division unit 12b, an analysis unit 12c, an acquisition unit 12d, a generation unit 12e, a registration unit 12f, and a search unit 12g. Realize or execute the function or action of processing.
  • the display control unit 12a generates a UI screen based on the UI information 11a and displays it on the display unit 3. Further, the display control unit 12a reflects the content of the analysis information 11c on the UI screen and causes the display unit 3 to display the content.
  • the display control unit 12a reflects the message generated by the generation unit 12e on the UI screen and displays it on the display unit 3. Further, the display control unit 12a reflects the extracted message searched by the search unit 12g on the UI screen and displays it on the display unit 3.
  • the scene division unit 12b acquires the music and divides the music into each scene based on the scene division information 11b. Each divided scene is listed in the scene list 11ca.
  • the analysis unit 12c analyzes the melody and lyrics of each scene divided by the scene division unit 12b (corresponding to step S1 described above). Specifically, the analysis unit 12c assigns emotion tags corresponding to the melody and the lyrics to each of the melody and the lyrics for each scene. The given emotion tags are listed in the emotion tag list 11cc.
  • the analysis unit 12c stores the emotion tag, which is the representative emotion value of each scene, in the "First Emotion" 11cc among the emotion tags given for each scene.
  • FIG. 6 is a diagram showing an example of a UI screen according to the embodiment of the present disclosure. Note that FIG. 6 shows an example of a state in which the music is analyzed by the analysis unit 12c and the analysis result is reflected.
  • the UI screen includes an area R1, an area R2, and an area R3.
  • information about the music being analyzed is displayed.
  • a thumbnail image such as a jacket of the music being analyzed and a control bar are arranged.
  • the control bar includes a music play / pause button and the like.
  • the melody, the lyrics, and the analysis result of "First Emotion” are displayed for each divided scene.
  • the emotion tags are color-coded, and by adding the color of the corresponding emotion tag not only to "First Emotion” but also to the melody and lyrics, it is possible to instantly visually recognize the analysis result.
  • emotion tags may differ between the melody and the lyrics, as in Sean C. Further, in the example of FIG. 6, each of the above 13 emotions is uniquely color-coded, but the breakdown of the color coding can be arbitrarily set.
  • the current position T1 indicating the current playback position / stop position on the timeline of the music is displayed. Further, the user can specify an arbitrary position of an arbitrary scene of the music by operating the control bar or the current position T1 described above. If the scene is switched according to the playback of the music or the user's specification, the display of the analysis result is updated accordingly.
  • an input phrase input field In the area R2, an input phrase input field, a registration button, a generation button, a search button, a lyrics filtering check box, an emotion tag selection field, etc. are arranged.
  • Emotion Circle a display field of a message corresponding to the emotion tag of the melody (hereinafter referred to as “melody message”), and a message corresponding to the emotion tag of the lyrics (hereinafter referred to as “lyric message”) are displayed. Columns are arranged. Further, a display field of a message corresponding to the emotion tag selected in the "Emotion Circle” (hereinafter referred to as "Circle message”) is arranged.
  • Emotion Circle is information that maps all emotion tags given in each scene in a circular shape. Therefore, the “Emotion Circle” is displayed including emotion tags other than the representative emotion value.
  • the “Emotion Circle” includes not only the representative emotion value “F” of the melody of the scene C and the representative emotion value “E” of the lyrics, but also, for example, it. Emotion tags other than "C" are also displayed.
  • the acquisition unit 12d acquires the current playback position / stop position of the music or the current position T1 which is a designated position designated by the user via the operation unit 5.
  • the current position T1 is, for example, a timeline time.
  • the acquisition unit 12d acquires the analysis result of the music piece at the current position T1 from the analysis information 11c. Further, the acquisition unit 12d acquires an input phrase input from the user via the operation unit 5.
  • the acquisition unit 12d acquires a message generation operation from the user via the operation unit 5. Further, the acquisition unit 12d acquires a message registration operation from the user via the operation unit 5. Further, the acquisition unit 12d acquires a message search operation from the user via the operation unit 5.
  • the generation unit 12e sets the representative emotion value of each melody or lyrics based on the analysis result of the music, the input phrase, the generation operation, and the emotion-specific generation model of the generation model DB 11d. Automatically generate the corresponding message.
  • the generation unit 12e acquires each generation model corresponding to the representative emotion value of each melody or lyrics from the generation model DB 11d, and acquires each message output by inputting an input phrase to each generation model. Then, it is displayed on the display control unit 12a.
  • the generation unit 12e acquires a generation model corresponding to the selected emotion tag from the generation model DB 11d, and inputs an input phrase to the generation model.
  • the message output by inputting is acquired and displayed on the display control unit 12a.
  • the registration unit 12f registers the melody message, the lyrics message, the Circle message and the input phrase in the message registration DB 11e according to emotions and items according to the registration operation.
  • FIGS. 7 to 10 will be described with respect to specific operation procedures at the time of generation and registration.
  • FIG. 7 is an explanatory diagram of the operation procedure at the time of generation.
  • FIG. 8 is an explanatory diagram (No. 1) of the operation procedure at the time of registration.
  • FIG. 9 is an explanatory diagram (No. 2) of the operation procedure at the time of registration.
  • FIG. 10 is an explanatory diagram (No. 3) of the operation procedure at the time of registration. It should be noted that FIGS. 7 to 10 are premised on the UI screen of FIG.
  • the lyrics message generated by the generation unit 12e using the generation model corresponding to the representative emotion value of the lyrics is displayed.
  • the generation unit 12e corresponds to the emotion tag "C” in the display column of the Circle message.
  • the Circle message generated using the generated model is displayed.
  • FIG. 8 is an example of a melody message, but of course, the same applies to a lyrics message and a Circle message.
  • the registration unit 12f reflects the correction of the melody message in the message registration DB 11e.
  • FIG. 9 is an example of a melody message, but of course, the same applies to the lyrics message and the Circle message.
  • the input phrase is input by selecting the emotion tag (here, "F") from the emotion tag selection field and pressing the registration button. You can register. As a result, the user can arbitrarily register a favorite input phrase.
  • the search unit 12g extracts a message having a high degree of semantic similarity to the input input phrase from the message group in the message registration DB 11e.
  • the semantic similarity is, for example, a cosine similarity calculated based on the distance between the vector of the high-dimensional vectorized message group and the input phrase.
  • the search unit 12g uses, for example, LaBSE (Language-agnostic BERT Sentence Embedding) as an algorithm for high-dimensional vectorization.
  • the search unit 12g causes the display control unit 12a to display the extracted message.
  • FIG. 11 is an explanatory diagram (No. 1) of the operation procedure at the time of search.
  • No. 1 it is assumed that a phrase is input in the input phrase field from the state shown in FIG. 6 and the search button is pressed.
  • the search unit 12g selects the melody message having a high semantic similarity from the input phrase from the melody message group corresponding to the emotion tag for each melody in the message registration DB 11e. Is extracted, and this is displayed on the display control unit 12a.
  • the search unit 12g extracts the lyrics message having a high semantic similarity from the input phrase from the lyrics message group corresponding to the emotion tag for each lyrics in the message registration DB 11e, and displays this. Displayed on the control unit 12a.
  • the search unit 12g extracts a Circle message having a high semantic similarity to the input phrase from the Circle message group corresponding to the emotion tag for each Circle in the message registration DB 11e, and displays this. Displayed on the control unit 12a.
  • FIG. 12 is a supplementary explanatory diagram (No. 1) of the search process.
  • FIG. 13 is a supplementary explanatory diagram (No. 2) of the search process.
  • tag refers to an emotion tag.
  • the search unit 12g can compare the semantic similarity between the message and the input phrase by interposing "important words” instead of directly comparing them.
  • the search unit 12g automatically extracts, for example, the "important word-tag” text group from the "message-tag” text group corresponding to the message registration DB 11e.
  • the "important word” is, for example, a word frequently used among nouns and adjectives extracted from a message by word division.
  • the search unit 12g converts the "message-tag” text group, the "important word-tag” text group, and the input phrase into a high-dimensional vector, and uses the above-mentioned high-dimensional vector information 11f as the "message-tag” vector group, "message-tag” vector group. Obtain the "important word-tag” vector group and the input phrase vector.
  • the search unit 12g searches for important words that are semantically close to the input phrase, as shown in FIG. 13, based on the similarity between the "important word-tag" vector group and the input phrase vector.
  • the list of important words obtained as a result is defined as the target important word list.
  • the tag associated with the important word is used as the target tag list.
  • the search unit 12g compares the tag vector of the target tag list with the "message-tag" vector group, for example, when the data of the "message-tag" text group is small in the first place. If they match, the candidate message text group is extracted based on the similarity between the message vector group of the target tag and the input phrase vector.
  • the search unit 12g is a candidate based on the similarity between the tag vector of the target important word list and the input phrase vector, for example, when there is a lot of data in the "message-tag" text group. Extract message texts.
  • FIG. 14 is an explanatory diagram (No. 2) of the operation procedure at the time of search. As shown in FIG. 14, for example, it is assumed that the lyrics filtering check box is checked before the search button is pressed in the state shown in FIG.
  • the search unit 12g can filter from the message candidates corresponding to the emotion tags to the messages that are semantically closer to the lyrics of the music. Details of such a processing procedure will be described later with reference to FIG.
  • FIG. 15 is a flowchart (No. 1) showing a processing procedure from the analysis process to the generation process executed by the information processing apparatus 10.
  • FIG. 16 is a flowchart (No. 2) showing a processing procedure from the analysis process to the generation process executed by the information processing apparatus 10.
  • the scene division unit 12b acquires music (melody and lyrics) and executes scene division based on the scene division information 11b (step S101). As a result, the scene list 11ca is output.
  • the scene list loop process is executed based on the scene list 11ca (step S102).
  • the analysis unit 12c executes emotion analysis for each of the melody and lyrics for each scene (step S103), and adds emotion tags according to the melody and lyrics (step S104). As a result, the emotion tag list 11cc is output.
  • the emotion tag list loop processing is executed (step S105).
  • it is determined whether or not the analysis score is the maximum score for each emotion tag (step S106).
  • step S201 the acquisition unit 12d is based on the current playback position / stop position of the music or the current position T1 which is a designated position designated by the user via the operation unit 5.
  • the scene including the current position T1 and the analysis result thereof are acquired (step S201).
  • the generation unit 12e acquires a generation model corresponding to the representative emotion value based on the “First Emotion” 11cc which is the representative emotion value of the acquired scene (step S202), and inputs the generation model to which the input phrase is applied. By doing so, message generation is executed (step S203).
  • a melody message and a lyrics message are generated by step S203. Further, it is determined whether or not the tag on the Circle is selected (step S204), and if it is selected (step S204, Yes), a Circle message is also generated. If it is not selected (step S204, No), no Circle message is generated.
  • step S205 the display control unit 12a displays each generated message (step S205). Then, it is determined whether or not the registration operation has been performed for the displayed message (step S206), and if it has been performed (step S206, Yes), the corresponding message is registered in the message registration DB 11e, and the process ends. do. If the registration operation is not performed (step S206, No), the process ends.
  • FIG. 17 is a flowchart showing a processing procedure of the search process executed by the information processing apparatus 10. Since the analysis process in the previous stage of the search process is the same as in FIG. 15, the description here will be omitted.
  • step S301 the acquisition unit 12d acquires the scene including the current position T1 and the analysis result thereof based on the above-mentioned current position T1 (step S301).
  • the search unit 12g executes high-dimensional vectorization of the message group and the input phrase registered in the message registration DB 11e (step S302). As a result, the high-dimensional vector information 11f is output.
  • the search unit 12g executes a message search based on the high-dimensional vector information 11f (step S303). Then, it is determined whether or not the searched message is a message with the maximum similarity (step S304), and if it is the maximum similarity (step S304, Yes), the corresponding melody message, lyrics message or Circle message is extracted. Will be done. If it is not the maximum similarity (step S304, No), step S304 is repeated for the message to be searched.
  • the display control unit 12a displays each extracted message (step S305), and ends the process.
  • FIG. 18 is a flowchart (No. 1) showing a processing procedure of the search process according to the modified example executed by the information processing apparatus 10.
  • FIG. 19 is a flowchart (No. 2) showing a processing procedure of the search process according to the modification executed by the information processing apparatus 10.
  • search process related to the modified example corresponds to the search process when lyrics filtering is specified. Further, since the analysis process in the previous stage of the search process according to the modified example is the same as in FIG. 15, the description here will be omitted.
  • step S401 the acquisition unit 12d acquires the scene including the current position T1 and the analysis result thereof based on the above-mentioned current position T1 (step S401).
  • the search unit 12g executes the first high-dimensional vectorization for the message group and the input phrase registered in the message registration DB 11e (step S402). The result is output as high-dimensional vector information 11f.
  • the search unit 12g executes the first message search based on the high-dimensional vector information 11f (step S403).
  • the first message search it is determined whether or not the similarity of the searched message vectors is equal to or higher than a predetermined threshold value (step S404), and if it is equal to or higher than the threshold value (step S404, Yes), the melody message list and lyrics. It is retained in the message list or the lyric message list.
  • step S404, No If it is not equal to or greater than the threshold value (step S404, No), the searched message vector is not retained in the melody message list, the lyrics message list, or the Circle message list.
  • the search unit 12g executes lyrics filtering (step S405).
  • the search unit 12g acquires the melody message list, the lyrics message list, the Circle message list, and the lyrics of the music corresponding to the scene.
  • the second high-dimensional vectorization is executed for the lyrics of the music (step S406).
  • the result is output to the high-dimensional vector information 11f.
  • the search unit 12g executes a second message search based on the high-dimensional vector information 11f (step S407).
  • the second message search messages having similar similarities are searched based on the similarity between each message list held in the first message search and the vector of lyrics corresponding to the scene.
  • step S408 it is determined whether or not the searched message is a message with the maximum similarity (step S408), and if it is the maximum similarity (step S408, Yes), the corresponding melody message, lyrics message or Circle message is extracted. Will be done. If it is not the maximum similarity (step S408, No), step S408 is repeated for the message to be searched.
  • the display control unit 12a displays each extracted message (step S409), and ends the process.
  • the information processing device 10 can be used as a lyrics creation support tool.
  • the generation unit 12e accepts the user's operation to generate the lyrics message in a state where only the melody of the music is analyzed by the analysis unit 12c and the melody message is displayed but the lyrics message is not displayed.
  • the lyrics message of the music corresponding to the emotion at the current position T1 is generated, which is semantically similar to the text.
  • the message may be relatively short, but in the case of lyrics, it may need to be long.
  • the range of the scene corresponds to the range such as A melody / B melody and chorus, the lyrics tend to be long.
  • lyrics generation it is preferable to allow the user to arbitrarily specify the range of the scene and automatically adjust the length of the generated sentence according to the time and characteristics (pitch, tempo, etc.) of the scene. ..
  • the time and characteristics pitch, tempo, etc.
  • rock and ballad have different pitches even if they have the same playback time, so the appropriate lengths of generated sentences are different. Therefore, the above-mentioned length may be automatically adjusted according to not only the time and characteristics of the scene but also the genre of the music. Further, the minimum value and the maximum value of the length may be arbitrarily specified by the user.
  • each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • FIG. 20 is a hardware configuration diagram showing an example of a computer 1000 that realizes the functions of the information processing apparatus 10.
  • the computer 1000 has a CPU 1100, a RAM 1200, a ROM 1300, a storage 1400, a communication interface 1500, and an input / output interface 1600. Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on a program stored in the ROM 1300 or the storage 1400, and controls each part. For example, the CPU 1100 expands a program stored in the ROM 1300 or the storage 1400 into the RAM 1200, and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program depending on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the storage 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by such a program.
  • the storage 1400 is a recording medium for recording an information processing program according to the present disclosure, which is an example of program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to the external network 1550.
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 can receive data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 can transmit data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as MO (Magneto-Optical disk)
  • tape medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • MO Magneto-optical disk
  • the CPU 1100 of the computer 1000 realizes the function of the control unit 12 by executing the information processing program loaded on the RAM 1200. .. Further, the information processing program according to the present disclosure and the data in the storage unit 11 are stored in the storage 1400. The CPU 1100 reads the program data 1450 from the storage 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • the information processing apparatus 10 corresponds to an analysis unit 12c for analyzing the characteristics of a musical piece and an example of the current position T1 (“arbitrary designated position”” of the musical piece. ),
  • the acquisition unit 12d that acquires an input phrase (corresponding to an example of "text") input in natural language is semantically similar to the input phrase acquired by the acquisition unit 12d, and the above music at the current position T1.
  • the present technology can also have the following configurations.
  • An analysis unit that analyzes the characteristics of music
  • An acquisition unit that acquires text input in natural language at an arbitrary designated position of the music
  • a display control unit that is semantically similar to the text acquired by the acquisition unit and displays a candidate message corresponding to the characteristics of the music at the designated position.
  • the analysis unit As a feature of the music, the emotions recalled from the music are analyzed.
  • the display control unit Display the candidate message according to the emotion at the designated position.
  • the information processing apparatus according to (1) above.
  • the analysis unit At least analyze the emotions about the melody of the song and The display control unit Displaying the candidate message according to the emotion about the melody at the designated position.
  • the information processing device (2) above.
  • the analysis unit further Analyzing the emotions about the lyrics of the song, The display control unit further Displaying the candidate message according to the emotion about the lyrics at the designated position.
  • the information processing apparatus according to (3) above.
  • the analysis unit The emotion is analyzed for each arbitrary scene in the music, and a representative emotion value indicating the representative emotion for each scene is given to each of the scenes.
  • the display control unit The candidate message corresponding to the representative emotion value in the scene including the designated position is displayed.
  • the information processing apparatus according to (2), (3) or (4).
  • the candidate message is semantically similar to the text and corresponds to the emotion at the designated position by using the emotion-specific generation model learned in advance.
  • Generating part The information processing apparatus according to any one of (2) to (5) above.
  • a search unit that searches a group of messages for the candidate message that is semantically similar to the text and that corresponds to the emotion at the designated position when the user accepts the search operation for the candidate message.
  • the search unit The text and the message group are converted into a high-dimensional vector, and the candidate message is searched from the message group based on the similarity in the high-dimensional vector space.
  • the information processing apparatus according to (7) above. When the user accepts the generation operation of the candidate message while the candidate message corresponding to the emotion of the melody is displayed, the text is generated by using the generation model for each emotion learned in advance.
  • a generation unit that is semantically similar to the above and generates the candidate message about the lyrics of the music corresponding to the emotion at the designated position.
  • the information processing apparatus according to (3) above. (10) Analyzing the characteristics of the music and To acquire the text input in natural language at an arbitrary designated position of the music, Displaying a candidate message that is semantically similar to the text acquired in the acquisition and that corresponds to the characteristics of the music at the designated position.
  • Information processing methods including.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Hospice & Palliative Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)

Abstract

情報処理装置(10)は、楽曲の特徴を解析する解析部(12c)と、上記楽曲の任意の指定位置において自然言語により入力されたテキストを取得する取得部(12d)と、取得部(12d)によって取得された上記テキストと意味的に類似し、上記指定位置における上記楽曲の特徴に応じた候補メッセージを表示させる表示制御部(12a)と、を備える。

Description

情報処理装置および情報処理方法
 本開示は、情報処理装置および情報処理方法に関する。
 従来、ミュージック・ビデオや視覚エフェクト、スライドショーといった、音楽と映像を連動させるコンテンツが知られている。音楽と映像を連動させるにあたっては、たとえば楽曲のメロディの特徴から想起される感情を統計的手法に基づいてカテゴライズする技術や、楽曲の歌詞を解析して歌詞の特徴を簡潔に表すトピックを抽出する技術等を用いることができる(たとえば、非特許文献1および非特許文献2参照)。
"Ooh la ! Music evokes at least 13 emotions. Scientists have mapped them", https://news.berkeley.edu/2020/01/06/music-evokes-13-emotions/ "Lyric Jumper", https://lyric-jumper.petitlyrics.com/
 しかしながら、上述した従来技術には、楽曲のメロディや歌詞の特徴に応じたメッセージを連動させるコンテンツを制作する場面において、制作者を支援するうえで、さらなる改善の余地がある。
 そこで、本開示では、楽曲の特徴に応じたメッセージを連動させるコンテンツを制作する場面において、制作者を支援することができる情報処理装置および情報処理方法を提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、楽曲の特徴を解析する解析部と、前記楽曲の任意の指定位置において自然言語により入力されたテキストを取得する取得部と、前記取得部によって取得された前記テキストと意味的に類似し、前記指定位置における前記楽曲の特徴に応じた候補メッセージを表示させる表示制御部と、を備える。
本開示の実施形態に係る情報処理方法の概要説明図である。 感情タグの説明図である。 メッセージ群の一例を示す図である。 本開示の実施形態に係る情報処理装置の構成例を示すブロック図である。 解析情報の構成例を示すブロック図である。 本開示の実施形態に係るUI画面の一例を示す図である。 生成時における操作手順の説明図である。 登録時における操作手順の説明図(その1)である。 登録時における操作手順の説明図(その2)である。 登録時における操作手順の説明図(その3)である。 検索時における操作手順の説明図(その1)である。 検索処理の補足説明図(その1)である。 検索処理の補足説明図(その2)である。 検索時における操作手順の説明図(その2)である。 情報処理装置が実行する解析処理から生成処理にかけての処理手順を示すフローチャート(その1)である。 情報処理装置が実行する解析処理から生成処理にかけての処理手順を示すフローチャート(その2)である。 情報処理装置が実行する検索処理の処理手順を示すフローチャートである。 情報処理装置が実行する変形例に係る検索処理の処理手順を示すフローチャート(その1)である。 情報処理装置が実行する変形例に係る検索処理の処理手順を示すフローチャート(その2)である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 また、以下に示す項目順序に従って本開示を説明する。
  1.本開示の実施形態の概要
  2.情報処理装置の構成
  3.変形例
  4.ハードウェア構成
  5.むすび
<<1.本開示の実施形態の概要>>
 まず、本開示の実施形態に係る情報処理方法の概要について説明する。図1は、本開示の実施形態に係る情報処理方法の概要説明図である。また、図2は、感情タグの説明図である。また、図3は、メッセージ群の一例を示す図である。
 図1に示すように、実施形態に係る情報処理方法ではまず、楽曲のメロディや歌詞の特徴に応じたメッセージを連動させるコンテンツを制作する場面において、楽曲から想起される感情を解析することとした(ステップS1)。かかるステップS1について、具体的に説明する。
 図1に示すように、実施形態に係る情報処理方法では、楽曲内のシーンごとに、楽曲のメロディおよび歌詞のそれぞれから想起される感情を解析する。各シーンはたとえば、イントロや、Aメロ、Bメロ、サビといった楽曲の各パートである。また、各シーンは、制作者が任意に設定することもできる。各シーンへの分割は、後述するシーン分割情報11b(図4参照)に基づいて行われる。
 また、感情の解析については、公知のアルゴリズムを利用することができる。たとえば、メロディから想起される感情については、複数の被験者に予め選定された複数の楽曲を聴いてもらい、それぞれの楽曲のメロディによって想起された感情を統計的手法によりカテゴライズするアルゴリズムを利用することができる(たとえば、非特許文献1参照)。
 図2には、各楽曲が、たとえば文化によって変化することのない13の感情にカテゴライズされた例を示している。図2に示すように、実施形態に係る情報処理方法では、かかる13の感情に対し、一意に「A」~「M」のタグを対応付ける。以下、かかるタグを「感情タグ」と呼ぶ。
 なお、感情タグは、感情やジャンル等を定義するものであって、任意に設定することが可能である。したがって、上述の13の感情はあくまで一例であって、感情タグの内訳を限定するものではない。
 また、歌詞から想起される感情については、歌詞を解析して歌詞の特徴を簡潔に表すトピックを抽出するアルゴリズムを利用することができる(たとえば、非特許文献2参照)。具体的には、かかるアルゴリズムでは、自動解析して作られた複数個のトピックに対して、各トピックでの出現率が高い単語などを参考に、特徴を簡潔に表すトピックの名称を手動で決定する。そのうえで、歌詞中の単語の出現傾向がどのトピックと最も似ているかなどの情報を基に、歌詞へのトピックの振り分けを自動解析により行う。なお、実施形態に係る情報処理方法では、かかる歌詞へ振り分けられるトピックを上述の13の感情に対応させている。
 図1の説明に戻る。したがって、ステップS1が実行された結果、楽曲内のシーンごとに、メロディおよび歌詞のそれぞれには感情タグが付与される。なお、図1の例では、各シーンに1つずつ感情タグが付与された例を示しているが、感情タグは、シーンごとに1つずつ付与されるとは限らない。そこで、実施形態に係る情報処理方法では、出現頻度や確度等の解析スコアが最も高い感情タグを、シーンを代表する感情タグとして取り扱う。以下では、かかるシーンを代表する感情タグを、適宜「First Emotion」あるいは「代表感情値」と呼ぶ。
 そして、実施形態に係る情報処理方法では、ステップS1で付与された感情タグに連動したメッセージ候補を生成または検索することとした(ステップS2)。まず生成する場合から説明する。
 具体的には、感情タグに連動したメッセージ候補を生成する場合、実施形態に係る情報処理方法では、コンテンツの制作者等であるユーザから、任意のシーンにおいて任意のフレーズの入力を受け付ける。
 そして、実施形態に係る情報処理方法では、入力された入力フレーズから、シーンのメロディまたは歌詞それぞれの「First Emotion」に応じたメッセージを自動生成する。かかる自動生成には、感情別に設けられ、入力フレーズが入力されることによって感情に応じたメッセージを生成する生成モデルを用いることができる。生成モデルは、自然言語処理に基づいて事前に学習された学習モデルである。生成モデルの詳細については、図4等を用いた説明で後述する。
 生成された各メッセージは、ユーザに対し提示され、ユーザの登録操作により、メッセージ登録DB(Data Base)11eへ登録することができる。なお、図1では、たとえばシーンCのメロディについては、ユーザの任意の入力フレーズに対し、感情タグ「F」に応じたメッセージ「感謝の心が人を育て、…」が生成され、登録された例を示している。また、シーンCの歌詞については、同じ入力フレーズに対し、感情タグ「E」に応じたメッセージ「悲しいときこそ、…」が生成され、登録された例を示している。
 なお、図3に一例として示すように、各メッセージは、感情別(ここでは「B」)にメッセージ登録DB11eへ登録される。また、各メッセージは、メロディ、歌詞および後述する「Circle」別、言い換えれば項目別に登録することもできる。また、入力フレーズに感情タグを紐付けたうえで登録することもできる。メッセージの生成時および登録時における具体的な操作手順については、図7~図10を用いた説明で後述する。
 次に、検索する場合について説明する。具体的には、感情タグに連動したメッセージ候補を検索する場合、実施形態に係る情報処理方法では、生成時と同様に、ユーザから任意のシーンにおいて任意のフレーズの入力を受け付ける。
 そして、実施形態に係る情報処理方法では、メッセージ登録DB11e内のメッセージ群から、入力された入力フレーズと意味的類似度の高いメッセージを抽出する。意味的類似度は、たとえば高次元ベクトル化されたメッセージ群と入力フレーズとのベクトル間の距離に基づいて算出される。
 図1では、たとえばシーンCのメロディについては、ユーザの任意の入力フレーズに対し、かかる入力フレーズと意味的類似度が高く、感情タグ「F」に応じたメッセージ「感謝の心が人を育て、…」が抽出された例を示している。また、シーンCの歌詞については、同じ入力フレーズと意味的類似度が高く、感情タグ「E」に応じたメッセージ「悲しいときこそ、…」が抽出された例を示している。
 なお、検索時においては、感情タグに応じたメッセージ候補から、さらに歌詞と意味的に近いメッセージを絞り込むこともできる。メッセージの検索時における具体的な操作手順については、図11~図14を用いた説明で後述する。
 以下、上述した実施形態に係る情報処理方法を適用した情報処理装置10の構成例について、より具体的に説明する。
<<2.情報処理装置の構成>>
 図4は、本開示の実施形態に係る情報処理装置10の構成例を示すブロック図である。また、図5は、解析情報11cの構成例を示すブロック図である。なお、図4および図5では、本実施形態の特徴を説明するために必要な構成要素のみを表しており、一般的な構成要素についての記載を省略している。
 換言すれば、図4および図5に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。たとえば、各ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。
 また、図4および図5を用いた説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。
 図4に示すように、情報処理装置10は、表示部3と、操作部5とを有する。表示部3は、ディスプレイ等の表示デバイスである。操作部5は、キーボードやマウス等の操作デバイスである。なお、表示部3および操作部5は、タッチパネルディスプレイ等によって一体に構成されてもよい。
 また、情報処理装置10は、記憶部11と、制御部12とを備える。記憶部11は、たとえば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
 図4に示す例では、記憶部11は、UI(User Interface)情報11aと、シーン分割情報11bと、解析情報11cと、生成モデルDB11dと、メッセージ登録DB11eと、高次元ベクトル情報11fとを記憶する。
 UI情報11aは、表示部3に対して表示され、ユーザに対して提示されるUIに関する情報であり、たとえばUI画面のデザイン情報等を含む。UI画面の具体例については、図6を用いた説明で後述する。
 シーン分割情報11bは、既に述べた通り、シーンの分割に関する設定情報であり、ユーザにより任意に設定可能である。なお、シーン分割情報11bは、メロディや歌詞を解析することによって検出される変化点等に基づいて、自動的に設定されてもよい。
 解析情報11cは、後述する解析部12cによって解析されるメロディおよび歌詞の解析結果が格納される。ここで、図5に示すように、解析情報11cは、シーンリスト11caと、感情タグリスト11cbと、「First Emotion」11ccとを有する。
 シーンリスト11caは、シーン分割部12bによって分割されたシーンのリストである。感情タグリスト11cbは、シーンリスト11caの各シーンに付与された感情タグのリストである。「First Emotion」11ccは、シーンリスト11caの各シーンにおける代表感情値のリストである。
 図4の説明に戻る。生成モデルDB11dは、上述した感情別の生成モデルが格納されたデータベースである。なお、既に述べた通り、生成モデルは、自然言語処理に基づいて事前に学習された学習モデルであって、たとえば調整前のテキストの入力に対して調整後のテキストを出力するSeq2Seq(Sequence to Sequence)モデル等のエンコーダ-デコーダモデルである(「Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (Raffel et al., 2020), https://arxiv.org/pdf/1910.10683.pdf」参照)。
 生成モデルは、学習時、調整前のテキスト(入力)、および、感情別に調整後のテキストを用意して、転移学習される(「転移学習を用いた対話応答のスタイル制御 (赤間 et al., 2017), https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B3-3.pdf」参照)。
 メッセージ登録DB11eは、上述したメッセージ群が感情別および項目別に格納されるデータベースである。高次元ベクトル情報11fは、前述の高次元ベクトル化されたメッセージ群と入力フレーズのベクトルに関する情報が格納される。詳細については、図12を用いた説明で後述する。
 制御部12は、コントローラ(controller)であり、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、記憶部11に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部12は、たとえば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現することができる。
 制御部12は、表示制御部12aと、シーン分割部12bと、解析部12cと、取得部12dと、生成部12eと、登録部12fと、検索部12gとを有し、以下に説明する情報処理の機能や作用を実現または実行する。
 表示制御部12aは、UI情報11aに基づいてUI画面を生成し、表示部3に表示させる。また、表示制御部12aは、解析情報11cの内容をUI画面に反映し、表示部3に表示させる。
 また、表示制御部12aは、生成部12eによって生成されたメッセージをUI画面に反映し、表示部3に表示させる。また、表示制御部12aは、検索部12gによって検索され、抽出されたメッセージをUI画面に反映し、表示部3に表示させる。
 シーン分割部12bは、楽曲を取得し、楽曲をシーン分割情報11bに基づいて各シーンに分割する。分割された各シーンはシーンリスト11caにリスト化される。
 解析部12cは、シーン分割部12bによって分割された各シーンのメロディおよび歌詞をそれぞれ解析する(前述のステップS1に相当)。具体的には、解析部12cは、シーンごとに、メロディおよび歌詞のそれぞれについて、メロディおよび歌詞に応じた感情タグを付与する。付与した感情タグは感情タグリスト11cbにリスト化される。
 また、解析部12cは、シーンごとで付与した感情タグのうち、各シーンの代表感情値となる感情タグを「First Emotion」11ccへ格納する。
 ここで、本開示の実施形態に係るUI画面の一例について、図6を用いて説明する。図6は、本開示の実施形態に係るUI画面の一例を示す図である。なお、図6には、解析部12cによって楽曲が解析され、その解析結果が反映された状態の一例を示している。
 図6に示すように、UI画面は、領域R1と、領域R2と、領域R3とを含む。領域R1は、解析中の楽曲に関する情報が表示される。たとえば、領域R1の左隅には、解析中の楽曲のジャケット等のサムネイル画像と、コントロールバーとが配置される。コントロールバーは、楽曲の再生/一時停止ボタン等を含む。
 また、領域R1には、分割されたシーンごとに、メロディ、歌詞および「First Emotion」の解析結果が表示される。感情タグは色分けされており、「First Emotion」だけでなく、メロディや歌詞についても該当する感情タグの色を付加することで、瞬時の解析結果の視認を可能にすることができる。
 なお、シーンCのようにメロディと歌詞とで感情タグが異なる場合もある。また、図6の例では、上述の13の感情をそれぞれ一意に色分けしているが、色分けの内訳は任意に設定が可能である。
 また、領域R1には、楽曲のタイムライン上における現在の再生位置/停止位置を示す現在位置T1が表示される。また、ユーザは、前述のコントロールバーあるいは現在位置T1を操作することにより、楽曲の任意のシーンの任意の位置を指定することが可能である。楽曲の再生、または、ユーザの指定によりシーンが切り替われば、これらに応じて解析結果の表示も更新される。
 領域R2には、入力フレーズの入力欄、登録ボタン、生成ボタン、検索ボタン、歌詞フィルタリングのチェックボックス、感情タグの選択欄等が配置される。
 領域R3には、「Emotion Circle」、メロディの感情タグに対応するメッセージ(以下、「メロディメッセージ」という)の表示欄、歌詞の感情タグに対応するメッセージ(以下、「歌詞メッセージ」という)の表示欄が配置される。また、さらに「Emotion Circle」において選択された感情タグに対応するメッセージ(以下、「Circleメッセージ」という)の表示欄が配置される。
 「Emotion Circle」は、各シーンにおいて付与されたすべての感情タグを円状にマッピングした情報である。したがって、「Emotion Circle」には、代表感情値以外の感情タグも含めて表示される。
 図6に示すように、現在位置T1がシーンCにある場合、「Emotion Circle」には、シーンCのメロディの代表感情値「F」および歌詞の代表感情値「E」だけでなく、たとえばそれ以外の感情タグ「C」も表示される。
 かかる「Emotion Circle」において代表感情値以外の感情タグが選択された場合、選択された感情タグに対応するメッセージがCircleメッセージの表示欄に表示される。
 図4の説明に戻る。取得部12dは、楽曲の現在の再生位置/停止位置、あるいは、ユーザから操作部5を介して指定される指定位置である現在位置T1を取得する。現在位置T1は、たとえばタイムライン時刻である。また、取得部12dは、現在位置T1における楽曲の解析結果を、解析情報11cから取得する。また、取得部12dは、ユーザから操作部5を介して入力される入力フレーズを取得する。
 また、取得部12dは、操作部5を介したユーザからのメッセージの生成操作を取得する。また、取得部12dは、操作部5を介したユーザからのメッセージの登録操作を取得する。また、取得部12dは、操作部5を介したユーザからのメッセージの検索操作を取得する。
 生成部12eは、取得部12dによって生成操作が取得された場合に、楽曲の解析結果、入力フレーズ、生成操作および生成モデルDB11dの感情別の生成モデルに基づき、メロディまたは歌詞それぞれの代表感情値に応じたメッセージを自動生成する。
 具体的には、生成部12eは、メロディまたは歌詞それぞれの代表感情値に応じた各生成モデルを生成モデルDB11dから取得し、各生成モデルへ入力フレーズを入力することによって出力される各メッセージを取得し、表示制御部12aに表示させる。
 また、生成部12eは、「Emotion Circle」において代表感情値以外の感情タグが選択された場合は、選択された感情タグに応じた生成モデルを生成モデルDB11dから取得し、生成モデルへ入力フレーズを入力することによって出力されるメッセージを取得し、表示制御部12aに表示させる。
 登録部12fは、取得部12dによって登録操作が取得された場合に、かかる登録操作に応じてメロディメッセージ、歌詞メッセージ、Circleメッセージおよび入力フレーズを、感情別および項目別にメッセージ登録DB11eへ登録する。
 ここで、生成時および登録時における具体的な操作手順について、図7~図10を説明する。図7は、生成時における操作手順の説明図である。また、図8は、登録時における操作手順の説明図(その1)である。また、図9は、登録時における操作手順の説明図(その2)である。また、図10は、登録時における操作手順の説明図(その3)である。なお、図7~図10は、図6のUI画面を前提としている。
 図7に示すように、図6に示した状態から入力フレーズ欄にフレーズが入力され、生成ボタンが押下されたものとする。すると、図7に示すように、メロディメッセージの表示欄には、生成部12eが、メロディの代表感情値に対応する生成モデルを用いて生成したメロディメッセージが表示される。
 同様に、歌詞メッセージの表示欄には、生成部12eが、歌詞の代表感情値に対応する生成モデルを用いて生成した歌詞メッセージが表示される。
 また、図7に示すように、「Emotion Circle」の代表感情値以外の感情タグ「C」が選択された場合、Circleメッセージの表示欄には、生成部12eが、感情タグ「C」に対応する生成モデルを用いて生成したCircleメッセージが表示される。
 また、図8に示すように、たとえばメロディメッセージの表示欄にメロディメッセージが表示された状態で、メロディメッセージに対応する登録ボタンが押下されたものとする。すると、登録部12fが、かかるメロディメッセージをメッセージ登録DB11eへ感情別および項目別に登録する。なお、図8はメロディメッセージの例だが、無論、歌詞メッセージおよびCircleメッセージについても同様である。
 また、図9に示すように、メロディメッセージの表示欄に、既にメッセージ登録DB11eに登録済みのメロディメッセージがたとえば後述する検索により表示された状態である場合、これを修正して登録することが可能である。
 すなわち、図9に示すように、ユーザが、表示されたメロディメッセージの一部を修正し、修正ボタンを押下すると、登録部12fは、かかるメロディメッセージの修正をメッセージ登録DB11eへ反映する。なお、図9はメロディメッセージの例だが、無論、歌詞メッセージおよびCircleメッセージについても同様である。
 また、図10に示すように、入力フレーズ欄に入力されたフレーズについても、感情タグの選択欄から感情タグ(ここでは、「F」)を選択し、登録ボタンを押下することによって入力フレーズを登録することができる。これにより、ユーザはお気に入りの入力フレーズを任意に登録しておくことができる。
 図4の説明に戻る。検索部12gは、メッセージ登録DB11e内のメッセージ群から、入力された入力フレーズと意味的類似度の高いメッセージを抽出する。既に述べた通り、意味的類似度は、高次元ベクトル化されたメッセージ群と入力フレーズとのベクトル間の距離に基づいて算出される、たとえばコサイン類似度である。なお、検索部12gは、高次元ベクトル化のアルゴリズムとして、たとえばLaBSE(Language-agnostic BERT Sentence Embedding)を用いる。
 そもそも、BERT(Bidirectional Encoder Representations from Transformers)のような汎用言語表現モデルの登場により、単語から、文などのセンテンスに対しての高精度のベクトル化が可能となっている。また、さらに文脈を学習できているため、たとえば「感謝」と「ありがとう」のように文字上では違うが、意味的に同じ内容を、高次元ベクトル空間上でも同じ位置を指すようにすることができる。
 よって、意味的に近い文と文を見つけることが可能となり、近年では、本実施形態のようにLaBSEを用いることによって、多言語間で共通な高精度の高次元ベクトル化が可能である。また、検索部12gは、抽出したメッセージを表示制御部12aに表示させる。
 図11は、検索時における操作手順の説明図(その1)である。図11に示すように、たとえば図6に示した状態から入力フレーズ欄にフレーズが入力され、検索ボタンが押下されたものとする。すると、図11に示すように、メロディメッセージの表示欄については、検索部12gが、メッセージ登録DB11eにおけるメロディごとの感情タグに対応したメロディメッセージ群から、入力フレーズと意味的類似度の高いメロディメッセージを抽出し、これを表示制御部12aに表示させる。
 また、歌詞メッセージの表示欄については、検索部12gが、メッセージ登録DB11eにおける歌詞ごとの感情タグに対応した歌詞メッセージ群から、入力フレーズと意味的類似度の高い歌詞メッセージを抽出し、これを表示制御部12aに表示させる。
 また、Circleメッセージの表示欄については、検索部12gが、メッセージ登録DB11eにおけるCircleごとの感情タグに対応したCircleメッセージ群から、入力フレーズと意味的類似度の高いCircleメッセージを抽出し、これを表示制御部12aに表示させる。
 ここで、検索部12gが実行する検索処理について補足しておく。図12は、検索処理の補足説明図(その1)である。また、図13は、検索処理の補足説明図(その2)である。なお、図12および図13を用いた説明で「タグ」といった場合、感情タグを指すものとする。
 検索部12gは、メッセージと入力フレーズとの意味的類似度を直接比較するのではなく、「重要語」を介在させて比較することができる。
 具体的には、図12に示すように、検索部12gは、メッセージ登録DB11eに相当する「メッセージ-タグ」テキスト群から、たとえば自動的に「重要語-タグ」テキスト群を抽出する。ここで「重要語」は、メッセージから単語分割で抽出した名詞および形容詞のうちのたとえば高頻度で用いられるワードである。
 そして、検索部12gは、「メッセージ-タグ」テキスト群、「重要語-タグ」テキスト群および入力フレーズを高次元ベクトル化し、前述した高次元ベクトル情報11fとして、「メッセージ-タグ」ベクトル群、「重要語-タグ」ベクトル群および入力フレーズベクトルを得る。
 そして、検索部12gは、「重要語-タグ」ベクトル群と入力フレーズベクトルの類似度に基づいて、図13に示すように、入力フレーズに意味的に近い重要語を検索する。その結果得られる重要語のリストを対象重要語リストとする。また、その重要語に対応付けられたタグを対象タグリストとする。
 そして、図12に示すように、検索部12gは、たとえばそもそも「メッセージ-タグ」テキスト群のデータが少ない場合は、対象タグリストのタグのベクトルと「メッセージ-タグ」ベクトル群とを比較し、一致した場合に、対象タグのメッセージベクトル群と入力フレーズベクトルの類似度に基づいて候補メッセージテキスト群を抽出する。
 一方で、図12に示すように、検索部12gは、たとえばそもそも「メッセージ-タグ」テキスト群のデータが多い場合は、対象重要語リストのタグのベクトルと入力フレーズベクトルの類似度に基づいて候補メッセージテキスト群を抽出する。
 これにより、メッセージとの直接比較によって生じやすいノイズ成分を軽減し、検索処理の高精度化を図ることができる。また、そもそも「メッセージ-タグ」テキスト群のデータが少ないことによって、最終的に抽出されるメッセージが限定的になってしまうことを防ぐことが可能となる。
 次に、図14は、検索時における操作手順の説明図(その2)である。図14に示すように、たとえば図11に示した状態で検索ボタンが押下される前に、歌詞フィルタリングのチェックボックスがチェックされていたものとする。
 すると、かかる場合、図14に示すように、検索部12gは、感情タグに応じたメッセージ候補から、さらに楽曲の歌詞と意味的に近いメッセージでフィルタリングすることができる。かかる処理手順の詳細については、図19を用いた説明で後述する。
 次に、情報処理装置10が実行する各処理の処理手順について図15~図19を用いて説明する。まず、図15は、情報処理装置10が実行する解析処理から生成処理にかけての処理手順を示すフローチャート(その1)である。また、図16は、情報処理装置10が実行する解析処理から生成処理にかけての処理手順を示すフローチャート(その2)である。
 図15に示すように、シーン分割部12bは、楽曲(メロディおよび歌詞)を取得し、シーン分割情報11bに基づいてシーン分割を実行する(ステップS101)。その結果、シーンリスト11caが出力される。
 そして、シーンリスト11caに基づいてシーンリストループ処理が実行される(ステップS102)。シーンリストループ処理では、解析部12cが、シーンごとのメロディおよび歌詞それぞれの感情解析を実行し(ステップS103)、メロディと歌詞に応じた感情タグを付与する(ステップS104)。その結果、感情タグリスト11cbが出力される。
 感情タグリスト11cbに基づいては、感情タグリストループ処理が実行される(ステップS105)。感情タグリストループ処理では、感情タグごとに、解析スコアが最大スコアであるか否かが判定される(ステップS106)。解析スコアが最大スコアである感情タグの場合(ステップS106,Yes)、代表感情値として「First Emotion」11ccへ出力される。解析スコアが最大スコアでない感情タグの場合(ステップS106,No)、代表感情値としては取り扱われない。
 そして、感情タグリストループ処理が終了するごとに、シーンリストループ処理が繰り返される。そして、シーンリストループ処理が終了したならば、図16のステップS201へ遷移する。
 図16に示すように、ステップS201では、取得部12dが、楽曲の現在の再生位置/停止位置、あるいは、ユーザから操作部5を介して指定される指定位置である現在位置T1に基づいて、現在位置T1が含まれるシーンおよびその解析結果を取得する(ステップS201)。
 そして、生成部12eが、取得されたシーンの代表感情値である「First Emotion」11ccに基づいて代表感情値に対応する生成モデルを取得し(ステップS202)、入力フレーズをかかる生成モデルを入力することによってメッセージ生成を実行する(ステップS203)。
 ステップS203によって、メロディメッセージおよび歌詞メッセージが生成される。また、Circle上のタグが選択されているか否かが判定され(ステップS204)、選択されている場合は(ステップS204,Yes)、Circleメッセージも生成される。選択されていなければ(ステップS204,No)、Circleメッセージは生成されない。
 そして、表示制御部12aが、生成された各メッセージを表示させる(ステップS205)。そして、表示されたメッセージに対し、登録操作が行われたか否かが判定され(ステップS206)、行われた場合(ステップS206,Yes)、該当のメッセージがメッセージ登録DB11eへ登録され、処理を終了する。登録操作が行われない場合(ステップS206,No)、処理を終了する。
 次に、図17は、情報処理装置10が実行する検索処理の処理手順を示すフローチャートである。なお、検索処理の前段の解析処理については図15と同様であるため、ここでの説明は省略する。
 図17に示すように、ステップS301では、取得部12dが、前述の現在位置T1に基づいて、現在位置T1が含まれるシーンおよびその解析結果を取得する(ステップS301)。
 そして、検索部12gが、メッセージ登録DB11eに登録されたメッセージ群および入力フレーズの高次元ベクトル化を実行する(ステップS302)。その結果、高次元ベクトル情報11fが出力される。
 そして、検索部12gは、高次元ベクトル情報11fに基づいて、メッセージ検索を実行する(ステップS303)。そして、検索されたメッセージが最大類似度のメッセージであるか否かが判定され(ステップS304)、最大類似度である場合(ステップS304,Yes)、該当するメロディメッセージ、歌詞メッセージまたはCircleメッセージが抽出される。最大類似度でない場合(ステップS304,No)、検索されるメッセージに対しステップS304を繰り返す。
 そして、表示制御部12aが、抽出された各メッセージを表示させ(ステップS305)、処理を終了する。
 次に、図18は、情報処理装置10が実行する変形例に係る検索処理の処理手順を示すフローチャート(その1)である。また、図19は、情報処理装置10が実行する変形例に係る検索処理の処理手順を示すフローチャート(その2)である。
 なお、変形例に係る検索処理は、歌詞フィルタリングが指定された場合の検索処理に相当する。また、変形例に係る検索処理の前段の解析処理については図15と同様であるため、ここでの説明は省略する。
 図18に示すように、ステップS401では、取得部12dが、前述の現在位置T1に基づいて、現在位置T1が含まれるシーンおよびその解析結果を取得する(ステップS401)。
 そして、検索部12gが、メッセージ登録DB11eに登録されたメッセージ群および入力フレーズについて第1の高次元ベクトル化を実行する(ステップS402)。その結果は、高次元ベクトル情報11fとして出力される。
 そして、検索部12gは、高次元ベクトル情報11fに基づいて、第1のメッセージ検索を実行する(ステップS403)。第1のメッセージ検索では、検索されたメッセージベクトルの類似度が所定の閾値以上であるか否かが判定され(ステップS404)、閾値以上である場合(ステップS404,Yes)、メロディメッセージリスト、歌詞メッセージリストまたはCircleメッセージリストへ保持される。
 閾値以上でない場合(ステップS404,No)、検索されたメッセージベクトルは、メロディメッセージリスト、歌詞メッセージリストまたはCircleメッセージリストへは保持されない。
 そして、検索部12gは、歌詞フィルタリングを実行する(ステップS405)。歌詞フィルタリングでは、検索部12gは、メロディメッセージリスト、歌詞メッセージリスト、Circleメッセージリスト、および、シーンに対応する楽曲の歌詞を取得する。そして、図19に示すように、楽曲の歌詞について第2の高次元ベクトル化を実行する(ステップS406)。その結果は、高次元ベクトル情報11fへ出力される。
 そして、検索部12gは、高次元ベクトル情報11fに基づいて、第2のメッセージ検索を実行する(ステップS407)。第2のメッセージ検索では、第1のメッセージ検索で保持した各メッセージリストと、シーンに対応する歌詞のベクトルとの類似度に基づいて類似度が近いメッセージを検索する。
 そして、検索されたメッセージが最大類似度のメッセージであるか否かが判定され(ステップS408)、最大類似度である場合(ステップS408,Yes)、該当するメロディメッセージ、歌詞メッセージまたはCircleメッセージが抽出される。最大類似度でない場合(ステップS408,No)、検索されるメッセージに対しステップS408を繰り返す。
 そして、表示制御部12aが、抽出された各メッセージを表示させ(ステップS409)、処理を終了する。
<<3.変形例>>
 なお、上述してきた実施形態には、いくつかの変形例を挙げることができる。
 たとえば、情報処理装置10は、歌詞の作成支援ツールとして用いることができる。かかる場合、生成部12eは、解析部12cによって楽曲のメロディのみが解析され、メロディメッセージが表示されてはいるが歌詞メッセージは表示されていない状態で、ユーザによる歌詞メッセージの生成操作を受け付けた場合に、事前に学習された感情別の生成モデルを用いて、テキストと意味的に類似し、現在位置T1における感情に応じた楽曲の歌詞メッセージを生成することとなる。
 ただし、かかる場合は、次のような点を考慮する必要がある。シーンの範囲によっては、メッセージは比較的短文で済むが、歌詞の場合、長くする必要がある場合がある。シーンの範囲が、Aメロ/Bメロ、サビといった範囲に対応する場合、歌詞は長くなりやすい。
 そこで、歌詞生成の場合、ユーザがシーンの範囲を任意に指定できるようにするとともに、シーンの時間や特徴(ピッチ、テンポ等)に応じて、生成文の長さが自動調整されることが好ましい。たとえば、ロックとバラードでは同じ再生時間でもピッチが違うので、適した生成文の長さはそれぞれ異なる。したがって、シーンの時間や特徴だけでなく、楽曲のジャンル等に応じて前述の長さが自動調整されてもよい。また、ユーザによって任意に長さの最小値および最大値が指定可能であってもよい。
 また、上記実施形態では、楽曲の解析処理や、メッセージの生成処理、検索処理等において使用する、自然言語処理における各種のアルゴリズムを例に挙げたが、あくまで一例であって、使用されるアルゴリズムを限定するものではない。
 また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。たとえば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
 また、上記してきた実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、本実施形態のシーケンス図或いはフローチャートに示された各ステップは、適宜順序を変更することが可能である。
<<4.ハードウェア構成>>
 上述してきた実施形態に係る情報処理装置10は、たとえば図20に示すような構成のコンピュータ1000によって実現される。図20は、情報処理装置10の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、ストレージ1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はストレージ1400に格納されたプログラムに基づいて動作し、各部の制御を行う。たとえば、CPU1100は、ROM1300又はストレージ1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 ストレージ1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ストレージ1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550と接続するためのインターフェイスである。たとえば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。たとえば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信することが可能である。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信することが可能である。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 たとえば、コンピュータ1000が本開示の実施形態に係る情報処理装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部12の機能を実現する。また、ストレージ1400には、本開示に係る情報処理プログラムや、記憶部11内のデータが格納される。なお、CPU1100は、プログラムデータ1450をストレージ1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
<<5.むすび>>
 以上説明したように、本開示の一実施形態によれば、情報処理装置10は、楽曲の特徴を解析する解析部12cと、上記楽曲の現在位置T1(「任意の指定位置」の一例に相当)において自然言語により入力された入力フレーズ(「テキスト」の一例に相当)を取得する取得部12dと、取得部12dによって取得された入力フレーズと意味的に類似し、現在位置T1における上記楽曲の特徴に応じた候補メッセージを表示させる表示制御部12aと、を備える、これにより、楽曲の特徴に応じたメッセージを連動させるコンテンツを制作する場面において、制作者を支援することができる。
 以上、本開示の各実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 楽曲の特徴を解析する解析部と、
 前記楽曲の任意の指定位置において自然言語により入力されたテキストを取得する取得部と、
 前記取得部によって取得された前記テキストと意味的に類似し、前記指定位置における前記楽曲の特徴に応じた候補メッセージを表示させる表示制御部と、
 を備える、情報処理装置。
(2)
 前記解析部は、
 前記楽曲の特徴として当該楽曲から想起される感情を解析し、
 前記表示制御部は、
 前記指定位置における前記感情に応じた前記候補メッセージを表示させる、
 前記(1)に記載の情報処理装置。
(3)
 前記解析部は、
 少なくとも前記楽曲のメロディについての前記感情を解析し、
 前記表示制御部は、
 前記指定位置における前記メロディについての前記感情に応じた前記候補メッセージを表示させる、
 前記(2)に記載の情報処理装置。
(4)
 前記解析部はさらに、
 前記楽曲の歌詞についての前記感情を解析し、
 前記表示制御部はさらに、
 前記指定位置における前記歌詞についての前記感情に応じた前記候補メッセージを表示させる、
 前記(3)に記載の情報処理装置。
(5)
 前記解析部は、
 前記楽曲における任意のシーンごとに前記感情を解析し、前記シーンごとの代表的な前記感情を示す代表感情値を前記シーンのそれぞれに付与し、
 前記表示制御部は、
 前記指定位置を含む前記シーンにおける前記代表感情値に応じた前記候補メッセージを表示させる、
 前記(2)、(3)または(4)に記載の情報処理装置。
(6)
 ユーザによる前記候補メッセージの生成操作を受け付けた場合に、事前に学習された前記感情別の生成モデルを用いて、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記候補メッセージを生成する生成部、
 をさらに備える、前記(2)~(5)のいずれか一つに記載の情報処理装置。
(7)
 ユーザによる前記候補メッセージの検索操作を受け付けた場合に、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記候補メッセージをメッセージ群から検索する検索部、
 をさらに備える、前記(2)~(5)のいずれか一つに記載の情報処理装置。
(8)
 前記検索部は、
 前記テキストおよび前記メッセージ群を高次元ベクトル化し、高次元ベクトル空間における類似度に基づいて、前記候補メッセージを前記メッセージ群から検索する、
 前記(7)に記載の情報処理装置。
(9)
 前記メロディについての前記感情に応じた前記候補メッセージが表示された状態で、ユーザによる前記候補メッセージの生成操作を受け付けた場合に、事前に学習された前記感情別の生成モデルを用いて、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記楽曲の歌詞についての前記候補メッセージを生成する生成部、
 をさらに備える、前記(3)に記載の情報処理装置。
(10)
 楽曲の特徴を解析することと、
 前記楽曲の任意の指定位置において自然言語により入力されたテキストを取得することと、
 前記取得することにおいて取得された前記テキストと意味的に類似し、前記指定位置における前記楽曲の特徴に応じた候補メッセージを表示させることと、
 を含む、情報処理方法。
 3 表示部
 5 操作部
 10 情報処理装置
 12 制御部
 12a 表示制御部
 12b シーン分割部
 12c 解析部
 12d 取得部
 12e 生成部
 12f 登録部
 12g 検索部

Claims (10)

  1.  楽曲の特徴を解析する解析部と、
     前記楽曲の任意の指定位置において自然言語により入力されたテキストを取得する取得部と、
     前記取得部によって取得された前記テキストと意味的に類似し、前記指定位置における前記楽曲の特徴に応じた候補メッセージを表示させる表示制御部と、
     を備える、情報処理装置。
  2.  前記解析部は、
     前記楽曲の特徴として当該楽曲から想起される感情を解析し、
     前記表示制御部は、
     前記指定位置における前記感情に応じた前記候補メッセージを表示させる、
     請求項1に記載の情報処理装置。
  3.  前記解析部は、
     少なくとも前記楽曲のメロディについての前記感情を解析し、
     前記表示制御部は、
     前記指定位置における前記メロディについての前記感情に応じた前記候補メッセージを表示させる、
     請求項2に記載の情報処理装置。
  4.  前記解析部はさらに、
     前記楽曲の歌詞についての前記感情を解析し、
     前記表示制御部はさらに、
     前記指定位置における前記歌詞についての前記感情に応じた前記候補メッセージを表示させる、
     請求項3に記載の情報処理装置。
  5.  前記解析部は、
     前記楽曲における任意のシーンごとに前記感情を解析し、前記シーンごとの代表的な前記感情を示す代表感情値を前記シーンのそれぞれに付与し、
     前記表示制御部は、
     前記指定位置を含む前記シーンにおける前記代表感情値に応じた前記候補メッセージを表示させる、
     請求項2に記載の情報処理装置。
  6.  ユーザによる前記候補メッセージの生成操作を受け付けた場合に、事前に学習された前記感情別の生成モデルを用いて、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記候補メッセージを生成する生成部、
     をさらに備える、請求項2に記載の情報処理装置。
  7.  ユーザによる前記候補メッセージの検索操作を受け付けた場合に、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記候補メッセージをメッセージ群から検索する検索部、
     をさらに備える、請求項2に記載の情報処理装置。
  8.  前記検索部は、
     前記テキストおよび前記メッセージ群を高次元ベクトル化し、高次元ベクトル空間における類似度に基づいて、前記候補メッセージを前記メッセージ群から検索する、
     請求項7に記載の情報処理装置。
  9.  前記メロディについての前記感情に応じた前記候補メッセージが表示された状態で、ユーザによる前記候補メッセージの生成操作を受け付けた場合に、事前に学習された前記感情別の生成モデルを用いて、前記テキストと意味的に類似し、前記指定位置における前記感情に応じた前記楽曲の歌詞についての前記候補メッセージを生成する生成部、
     をさらに備える、請求項3に記載の情報処理装置。
  10.  楽曲の特徴を解析することと、
     前記楽曲の任意の指定位置において自然言語により入力されたテキストを取得することと、
     前記取得することにおいて取得された前記テキストと意味的に類似し、前記指定位置における前記楽曲の特徴に応じた候補メッセージを表示させることと、
     を含む、情報処理方法。
PCT/JP2021/045232 2021-01-08 2021-12-09 情報処理装置および情報処理方法 WO2022149400A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-001875 2021-01-08
JP2021001875 2021-01-08

Publications (1)

Publication Number Publication Date
WO2022149400A1 true WO2022149400A1 (ja) 2022-07-14

Family

ID=82357680

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/045232 WO2022149400A1 (ja) 2021-01-08 2021-12-09 情報処理装置および情報処理方法

Country Status (1)

Country Link
WO (1) WO2022149400A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018159741A (ja) * 2017-03-22 2018-10-11 カシオ計算機株式会社 歌詞候補出力装置、電子楽器、歌詞候補出力方法、及びプログラム
JP2020123318A (ja) * 2019-01-30 2020-08-13 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキスト相関度を確定するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018159741A (ja) * 2017-03-22 2018-10-11 カシオ計算機株式会社 歌詞候補出力装置、電子楽器、歌詞候補出力方法、及びプログラム
JP2020123318A (ja) * 2019-01-30 2020-08-13 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキスト相関度を確定するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "IPSJ SIG Technical Report", INFORMATION PROCESSING SOCIETY OF JAPAN, RESEARCH REPORT, 8 May 2017 (2017-05-08), XP055949193, Retrieved from the Internet <URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=178832&file_id=1&file_no=1> *

Similar Documents

Publication Publication Date Title
US10217454B2 (en) Voice synthesizer, voice synthesis method, and computer program product
EP3276623A1 (en) System and methods for automatic-creation of soundtracks for text
US7805389B2 (en) Information processing apparatus and method, program and recording medium
US8935305B2 (en) Sequential semantic representations for media curation
JP5477635B2 (ja) 情報処理装置および方法、並びにプログラム
KR101410601B1 (ko) 유머 발화를 이용하는 음성 대화 시스템 및 그 방법
WO2004001570A1 (ja) 自然言語による既存データの記述方法及びそのためのプログラム
US20230022966A1 (en) Method and system for analyizing, classifying, and node-ranking content in audio tracks
Kalender et al. Videolization: knowledge graph based automated video generation from web content
JP2006072744A (ja) 文書処理装置、その制御方法、プログラム、及び記憶媒体
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP7283718B2 (ja) 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム
WO2022149400A1 (ja) 情報処理装置および情報処理方法
JP2007279978A (ja) 文書検索装置及び文書検索方法
KR20230015489A (ko) 회의록 관리 방법 및 장치
JP2023071785A (ja) 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム
JP6756211B2 (ja) 通信端末、音声変換方法、及びプログラム
JP7212642B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN114911973A (zh) 动作生成方法、装置、电子设备及存储介质
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
JPWO2018150453A1 (ja) データ分析装置およびデータ分析方法
JP2022042030A (ja) 情報処理システム、及び情報処理プログラム
KR20170058504A (ko) 악보 구현 및 음원 재생 시스템 및 그 방법
Weck et al. Wikimute: A web-sourced dataset of semantic descriptions for music audio

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21917621

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21917621

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP