WO2024075422A1 - Musical composition creation method and program - Google Patents

Musical composition creation method and program Download PDF

Info

Publication number
WO2024075422A1
WO2024075422A1 PCT/JP2023/030524 JP2023030524W WO2024075422A1 WO 2024075422 A1 WO2024075422 A1 WO 2024075422A1 JP 2023030524 W JP2023030524 W JP 2023030524W WO 2024075422 A1 WO2024075422 A1 WO 2024075422A1
Authority
WO
WIPO (PCT)
Prior art keywords
music
attributes
chord progression
content
attribute
Prior art date
Application number
PCT/JP2023/030524
Other languages
French (fr)
Japanese (ja)
Inventor
大樹 下薗
亮佑 石浦
拓 上田
俊亮 沼野
美咲 上原
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2024075422A1 publication Critical patent/WO2024075422A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments

Definitions

  • the present invention relates to a music generation method and program.
  • Patent Document 1 discloses a method for generating music data for multiple different songs in response to instructions from a user.
  • music data is generated based solely on the user's subjective opinion of the content, so music that matches the content may not be generated.
  • One of the objectives of the present invention is to provide a music generation method that can automatically generate music that matches content.
  • a method for generating music includes extracting feature information contained in input content from the content, determining at least one attribute from among a plurality of attributes that corresponds to the extracted feature information, determining an accompaniment pattern and a chord progression pattern that correspond to the determined attribute, and generating a music piece based on the determined accompaniment pattern and chord progression pattern.
  • the present invention provides a music generation method that can automatically generate music that matches content.
  • FIG. 1 illustrates a music production system according to one embodiment.
  • FIG. 2 is a block diagram showing a configuration of a communication terminal according to an embodiment.
  • FIG. 2 is a block diagram showing a configuration of a storage unit of a server according to an embodiment.
  • 4 is a block diagram showing a functional configuration of a control unit of a server according to an embodiment;
  • FIG. 1 is an example of a table showing a list of first attributes that constitute a first attribute group, output from a trained model. This is an example of a table showing a list of second attributes that constitute a second attribute group, output from the trained model.
  • 11 is a table showing an example of genre information, style information, and score information corresponding to a predetermined piece of music.
  • FIG. 11 is a table showing score information total values for each genre of music corresponding to a predetermined piece of music. 11 is a table showing an example of image labels corresponding to predetermined songs. 1 is a table illustrating an example of a situation table according to an embodiment.
  • FIG. 4 is a schematic diagram illustrating an example of a user interface according to an embodiment.
  • FIG. 4 is a schematic diagram illustrating an example of a user interface according to an embodiment.
  • 1 is a flowchart illustrating a music generation process according to an embodiment.
  • the music production system 1000 includes one or more communication terminals 1 and a server 2 connected to a network NW such as the Internet.
  • the communication terminals 1 are, for example, smartphones, tablet computers, laptop computers, and desktop computers, and are connected to the network NW to perform data communication with other devices.
  • the server 2 receives content from the communication terminal 1 via the network NW, generates music according to the content, and provides it to the communication terminal 1.
  • the communication terminal 1 specifies information for generating music to be played along with the content.
  • the communication terminal 1 can also play the music generated by the server 2 along with the content.
  • the server 2 analyzes the content using a trained model obtained by machine learning, and generates music based on the analysis results.
  • the communication terminal 1 and the server 2 are described below.
  • [Communication terminal] 2 is a block diagram showing the configuration of the communication terminal 1.
  • the communication terminal 1 includes a control unit 11, a storage unit 12, a communication unit 13, a display unit 14, an operation unit 15, and a speaker 16. These components are connected via a bus 17.
  • the control unit 11 includes an arithmetic processing circuit such as a CPU (processor).
  • the control unit 11 executes a program stored in the storage unit 12 using the CPU to realize functions such as music selection processing and music playback processing.
  • functions such as music selection processing and music playback processing.
  • Some or all of the configuration that realizes these functions is not limited to being realized by software through the execution of a program, but may also be realized by hardware.
  • the functions realized by the control unit 11 include a function to control each part of the communication terminal 1 in addition to the function to perform the above-mentioned processing.
  • the storage unit 12 is a storage device such as a non-volatile memory or a hard disk.
  • the storage unit 12 includes a storage area for storing application programs for implementing various functions, such as the programs described above, and a storage area for storing information used for each process executed by the communication terminal 1, such as a music selection process and a music playback process.
  • the program may be provided in a state stored in a computer-readable recording medium, such as a magnetic recording medium, an optical recording medium, a magneto-optical recording medium, or a semiconductor memory, as long as it is executable by a computer.
  • the communication terminal 1 may be provided with a device for reading the recording medium.
  • the program may also be downloaded via a network.
  • the memory unit 12 also includes a memory area for storing content.
  • the content includes at least one of an image and a text (character string).
  • the image may be a video or a still image.
  • the image may be an image acquired using a camera (not shown) of the communication terminal 1, or an image downloaded from outside via the communication unit 13.
  • the text (character string) may be a text (character string) input via the operation unit 15 of the communication terminal 1, or a text (character string) downloaded from outside via the communication unit 13.
  • the communication unit 13 connects to the network NW shown in FIG. 1 and transmits and receives information to and from the external server 2 under the control of the control unit 11.
  • the display unit 14 is a display device such as a liquid crystal display or an organic EL display, and displays images (moving or still images) based on the control of the control unit 11.
  • the operation unit 15 outputs to the control unit 11 a signal corresponding to an operation input by the user via a touch panel, operation buttons, etc. displayed on the display unit 14.
  • the operation buttons may be any operator that accepts user instructions, including, for example, a power switch or cursor keys.
  • the speaker 16 plays music data obtained from the server 2 via the network NW shown in FIG. 1.
  • the communication terminal 1 transmits content to the server 2 from the communication unit 13 via the network NW.
  • the content transmitted to the server 2 is content to which the user wishes to add BGM (Background Music).
  • BGM Background Music
  • the BGM corresponds to a piece of music that the user wishes to play together with the content.
  • the configuration of the server 2 will be described with reference to Fig. 1.
  • the server 2 includes a control unit 21, a storage unit 23, and a communication unit 25.
  • the control unit 21 includes an arithmetic processing circuit such as a CPU (processor).
  • the control unit 21 executes a program stored in the storage unit 23 using the CPU to realize a function for performing music generation processing.
  • a part or all of the configuration that realizes this function is not limited to being realized by software through the execution of a program, but may also be realized by hardware.
  • the storage unit 23 includes a storage device such as a non-volatile memory.
  • FIG. 3 is a block diagram showing the configuration of the storage unit 23.
  • the storage unit 23 stores a program 231, a trained model 233, a music database 235, and a situation table 237.
  • the program 231 includes a program used for each process executed by the server 2, such as a music generation process.
  • the program 231 may be provided to the server 2 in a state stored in a computer-readable recording medium, such as a magnetic recording medium, an optical recording medium, a magneto-optical recording medium, or a semiconductor memory, as long as it is executable by a computer.
  • the server 2 may be provided with a device for reading the recording medium.
  • the program 231 may be downloaded via the communication unit 25.
  • the trained model 233 is generated by machine learning and provided to the server 2.
  • the trained model 233 determines the attributes of the content provided from the communication terminal 1 by calculation processing using a neural network.
  • the trained model 233 is a model (trained model) having a neural network generated by training in advance using training data in a computer such as an external server and machine learning the correlation between the feature information of the content and the attributes.
  • the trained model 233 is a model that uses N-dimensional transformation Word2vec.
  • the trained model 233 may be stored in another external device connected via the network NW shown in FIG. 1.
  • the server 2 may be connected to the trained model 233 via the network NW.
  • the feature information and attributes of the content will be described later.
  • the song database 235 stores song information about multiple songs.
  • the song information includes genre information, style information, score information, image labels, and chord progression data that correspond to multiple songs and are associated with each other.
  • the song database 235 will be described in detail later.
  • the situation table 237 is a table that associates content attributes with music genres. Details of the situation table 237 will be described later.
  • the communication unit 25 of the server 2 includes a communication module, is connected to the network NW, and transmits and receives various data to and from external devices such as the communication terminal 1.
  • FIG. 4 is a block diagram showing the functional configuration of the control unit 21 of the server 2.
  • the control unit 21 includes a feature information extraction unit 211, an attribute determination unit 213, a music determination unit 215, a music provision unit 217, and a music generation unit 219.
  • the feature information extraction unit 211 acquires content from the communication terminal 1 via the communication unit 25.
  • the feature information extraction unit 211 extracts feature information of the acquired content from the acquired content. If the content is a video, the feature information extraction unit 211 converts the video into a predetermined number of still images and extracts feature information from the acquired still images.
  • the feature information means the feature of the content included in the content.
  • the feature of the content is one or more words included in the sentence.
  • the words include nouns, adjectives, verbs, etc.
  • the feature information extraction unit 211 analyzes the sentence by morphological analysis to extract the feature information. For example, when the content is a sentence "Bright balcony by the sea”, the morphemes “seaside", “balcony”, and "bright” may be extracted as feature information from the content.
  • the feature information extraction unit 211 extracts the feature information by performing image processing and image analysis using a known image analysis technique (for example, a technique using OpenCV, etc.).
  • the feature information extraction unit 211 provides the feature information of the content to the attribute determination unit 213.
  • the attribute determination unit 213 acquires feature information of the content from the feature information extraction unit 211, and determines the attributes of the acquired feature information using the trained model 233.
  • the attributes include a first attribute group and a second attribute group.
  • the first attribute group is composed of attributes (first attributes) classified by impression
  • the second attribute group is composed of attributes (second attributes) classified by situation.
  • FIG. 5 is an example of a table (hereinafter referred to as an impression list) showing a list of first attributes constituting a first attribute group, output from the trained model 233.
  • FIG. 6 is an example of a table (hereinafter referred to as a situation list) showing a list of second attributes constituting a second attribute group, output from the trained model 233.
  • the impression list shown in FIG. 5 includes 29 attributes (first attributes).
  • the first attributes include attributes classified by impression, such as "soft,” “elegant,” “solemn,” and "calm.”
  • the number of attributes included in the impression list is not limited to 29.
  • the attributes included in the impression list are not limited to the attributes shown in FIG. 5.
  • the situation list shown in FIG. 6 includes 24 attributes (second attributes).
  • the second attributes include attributes classified by situation, such as "watching sports,” “clean weather,” “station,” “southern country,” and “movie theater.”
  • the number of attributes included in the situation list is not limited to 24.
  • the attributes included in the situation list are not limited to the attributes shown in FIG. 6.
  • the attribute determination unit 213 inputs the feature information to the input layer of the trained model 233.
  • the trained model 233 to which the feature information has been input outputs, as a result of calculations in the intermediate layer, one attribute (first attribute) selected from the impression list shown in FIG. 5 and one attribute (second attribute) selected from the situation list shown in FIG. 6 to the output layer.
  • the attribute determination unit 213 obtains the first attribute and second attribute output from the trained model 233, and determines these as attributes of the content.
  • the attribute determination unit 213 provides the attributes of the content to the music determination unit 215.
  • the music determination unit 215 determines music candidates that correspond to the acquired attributes.
  • the music determination unit 215 determines music candidates based on the acquired attributes by referring to the music database 235 and the situation table 237.
  • the song database 235 will be described below.
  • Song information relating to multiple songs prepared in advance is registered in the song database 235.
  • the song information includes genre information, style information, score information, image label, and chord progression data that are associated with each other.
  • the song information is registered in association with each of the multiple songs. For example, if there are 500 songs registered in the song database 235, song information corresponding to each of the 500 songs is registered in association with the corresponding song. Note that the number of songs registered in the song database 235 is not limited to 500.
  • the song information will be described below.
  • Chord progression data is data that indicates a chord progression pattern in which multiple chords that make up a song are arranged in chronological order.
  • the chord progression data is written as "CM7-Dm7-Em7-".
  • each chord When arranged in chronological order, each chord may be arranged in a unit of a predetermined unit period (for example, one measure, one beat, etc.), or may be arranged in order without considering the unit period. For example, assuming that each chord is arranged in a unit of one measure in the above example, when the first chord in the above example continues for two measures, the song chord data is written as "CM7-CM7-Dm7".
  • the song chord data is written as "CM7-Dm7-" as in the above example.
  • the chord progression data may be data that corresponds to a portion of a period including the chorus of each song.
  • the present invention is not limited to this, and the chord progression data may be data that corresponds to the entire song of each song.
  • Genre information is information indicating the genre of a song, for example, "pop", “rock”, “Latin”, etc.
  • Style information is information indicating a more detailed classification within the genre, that is, the style (accompaniment pattern). For example, if the genre information of a song is "pop” indicating pop music, the style information of the song includes, for example, “80s pop", “easy pop", “ballad”, etc. Also, if the genre information of a song is “Latin” indicating Latin music, the style information of the song includes, for example, “reggae”, “bossa nova", “tango”, “samba”, etc. Score information is information indicating the probability that the song is of a certain genre and style. The types of genre information and style information are predetermined. The genre information, style information, and score information for each song can be obtained by analyzing the song using known music analysis technology.
  • FIG. 7 is a table showing an example of genre information, style information, and score information obtained by analyzing a specific song (hereinafter referred to as song A).
  • song A the genre information and style information of song A are shown from 1st to 10th in order of score.
  • the score information corresponding to the genre information "Pop” and the style information "Easy Pop” is "0.218". This means that as a result of analyzing song A, the probability that the genre of song A is "pop” and the style is "easy pop” is 0.218.
  • the score information corresponding to the genre information "Pop” and the style information "80' Pop” is "0.195".
  • the score ranking is 1st. This indicates that the probability that the genre of song A is "pop" and the style is "easy pop” is the highest.
  • the genre and style corresponding to score information of 0.195, which is the 2nd highest score ranking, is "pop" and "80s pop". This indicates that the probability that the genre of song A is "pop” and the style is "80s pop” is the second highest.
  • FIG. 7 shows an example in which the genre information and style information for song A are registered from 1st to 10th in score order. However, the number of genre information, style information, and score information registered for each song is not limited to 10. For example, score information may be calculated and registered for each song for all predetermined types of genre information and style information.
  • FIG. 8 is a table showing the sum of score information for each genre information of song A shown in FIG. 7.
  • the sum of score information is a value obtained by summing up the score information from 1st place to a specified score ranking for each predetermined genre.
  • FIG. 8 shows the sum of score information when the score information for 1st place to 10th place is summed up for each genre.
  • Image labels are a numerical representation of the impression of a song.
  • the image label for each song is determined in advance by two or more experts and registered in association with the corresponding song.
  • FIG. 9 is a table showing an example of image labels corresponding to song A.
  • the number of labels is a numerical value that the experts assigned to song A when they listened to song A and evaluated the song A for each of the 29 attributes included in the impression list shown in FIG. 5.
  • the experts may evaluate the song on a multi-level scale for each attribute. For example, when the experts evaluate song A for a certain attribute, the numerical value "2" may be assigned if the impression of the attribute is particularly strong, the numerical value "0" may be assigned if the impression of the attribute is particularly weak, and the numerical value "1" may be assigned if the impression of the attribute is intermediate (if the impression of the attribute is not particularly strong, but not particularly weak either).
  • These numerical values may be the average of the number of labels assigned by two or more experts for each attribute, and this average value may be rounded off.
  • the number of labels given corresponding to the attribute "soft” is "1". This indicates that when the experts listened to song A, they did not get a strong "soft” impression of song A, but they did not get a particularly weak impression either. Also, referring to Figure 9, the number of labels given corresponding to the attribute "elegant” is “2". This indicates that when the experts listened to song A, they got a strong "elegant” impression of song A. Also, referring to Figure 9, the number of labels given corresponding to the attribute "solemn” is "0". This indicates that when the experts listened to song A, they got a particularly weak "solemn” impression of song A. In other words, this indicates that the experts did not get a "solemn” impression from song A. This concludes the explanation of image labels.
  • the music determination unit 215 refers to the music database 235 and the situation table 237 to determine candidate music corresponding to the attributes of the acquired content.
  • the music determination unit 215 acquires the attributes of the feature information extracted from the content from the attribute determination unit 213.
  • the attributes include a first attribute and a second attribute.
  • the song determination unit 215 determines a score corresponding to the acquired attributes for each of the multiple songs registered in the song database 235.
  • the score is calculated using the following procedure.
  • the music determination unit 215 refers to the situation table 237 to determine the genre of music that corresponds to the second attribute included in the acquired attributes.
  • FIG. 10 is a table showing an example of the situation table 237.
  • the situations registered in the situation table 237 correspond to the 24 attributes shown in the situation list shown in FIG. 6.
  • each situation is associated with a predetermined music genre.
  • the genre of the associated music is "Pop". Also, when the situation is "Tropical”, the genre of the associated music is "Latin”. Below, an example will be described in which the second attribute included in the acquired attributes is "living room” and the first attribute is "elegant”.
  • the music determination unit 215 refers to the situation table 237 and determines that the genre of the music corresponding to the situation "living room” is "Pop".
  • the song determination unit 215 refers to the song database 235 and obtains the score information total value corresponding to the genre of the determined song. If the genre of the determined song is "Pop", the song determination unit 215 obtains the score information total value corresponding to the "Pop" genre for each song registered in the song database 235. For example, for song A registered in the song database 235, the score information total value corresponding to the "Pop” genre is "0.413" (see Figure 8). The song determination unit 215 obtains the score information total value for each song registered in the song database 235.
  • the song determination unit 215 refers to the song database 235 to obtain the number of labels assigned corresponding to the obtained first attribute. If the obtained first attribute is "elegant", the song determination unit 215 refers to the image label associated with each song to obtain the number of labels assigned corresponding to the first attribute of each song. For example, in the case of song A, the number of labels assigned corresponding to "elegant” is "2" (see Figure 9). The song determination unit 215 obtains the number of labels assigned for each song registered in the song database 235.
  • the song determination unit 215 calculates a score corresponding to the acquired attribute for all songs registered in the song database 235. If there are 500 songs registered in the song database 235, scores corresponding to the acquired attributes are calculated for all 500 songs.
  • the song determination unit 215 selects song candidates corresponding to the content attribute from among multiple songs registered in the song database 235 based on the calculated score value. Specifically, the song determination unit 215 may determine the first to nth songs in descending order of the calculated score value as song candidates corresponding to the content attribute.
  • n is an arbitrary integer between 1 and 500, and may be, for example, 20.
  • the song determination unit 215 provides song information corresponding to each of the songs determined as song candidates corresponding to the content attribute to the song provision unit 217.
  • the song information provided to the song provision unit 217 includes at least one of chord progression data and style information.
  • the music determination unit 215 refers to the music database 235 and the situation table 237 to obtain style information corresponding to each music piece. As described above, the music determination unit 215 refers to the situation table 237 to obtain a genre corresponding to the second attribute included in the attributes of the content. The music determination unit 215 refers to the music database 235 and determines, among the style information corresponding to the obtained genres, the style information having the largest score information value as the style information to be provided to the music provision unit 217. The music determination unit 215 determines the style information to be provided to the music provision unit 217 for each music piece determined as a candidate for a music piece corresponding to the attributes of the content.
  • the music determination unit 215 refers to the style information corresponding to the "Pop" genre of song A in the music database 235 and determines the style information having the largest score information value as the style information of song A.
  • the styles corresponding to the "Pop" genre of song A include “Easy Pop” and “80' Pop.” Of these, "Easy Pop,” which has the largest score information value, is determined as the style information corresponding to song A.
  • the style with the largest score information value is determined as the style information of song A. For example, if the score information value corresponding to the "80' Pop Rock” style corresponding to the "Rock” genre of song A is the largest, "80' Pop Rock” is determined as the style information corresponding to song A.
  • the music providing unit 217 provides the communication terminal 1 with music information corresponding to each of the n pieces of music determined as candidates for music corresponding to the attributes of the content, obtained from the music determining unit 215.
  • the music providing unit 217 provides the communication terminal 1 via the network NW shown in FIG. 1.
  • the communication terminal 1 may be the communication terminal 1 that provided the content to the server 2.
  • the music information provided to the communication terminal 1 includes at least one of chord progression data and style information.
  • the control unit 11 of the communication terminal 1 provides the display unit 14 with a user interface for the user to determine the background music for the content based on the acquired music information for the n songs, and executes the music selection process.
  • the music selection process is a process in which the user selects at least one of the style and chord progression pattern of the music desired as background music for the content from the music information corresponding to each of the n songs.
  • the control unit 11 may provide the display unit 14 with a user interface for the user to select the style of the background music for the content.
  • FIG. 11 is an example of a user interface provided to the display unit 14 by the control unit 11 for the user to select the style of the background music for the content.
  • a plurality of icons 1101 indicating style information corresponding to each of n pieces of music may be displayed on the display unit 14 of the communication terminal 1.
  • the user can select the style of the BGM of the content by tapping the icon 1101 indicating the desired style information.
  • audio data for playing the style corresponding to the style information may be provided from the server 2 together with the music information of the n pieces of music.
  • a play button 1103 for playing the style corresponding to each piece of style information may be displayed together with the icon 1101 indicating the style information.
  • the user can listen to and check the style corresponding to the desired style information by tapping the play button 1103 corresponding to the desired style information.
  • the user may listen to the styles and select the style desired for the BGM of the content.
  • the control unit 11 may also provide the display unit 14 with a user interface that allows the user to select a chord progression pattern for the content's background music.
  • FIG. 12 shows an example of a user interface that is provided to the display unit 14 by the control unit 11 and allows the user to select a chord progression pattern for the content's background music.
  • FIG. 12 shows an example in which icons 1201 showing four chord progression patterns (pattern A, pattern B, pattern C, pattern D) are displayed on the user interface.
  • the icon 1201 showing the chord progression pattern may be displayed together with information showing the impression of the chord progression pattern. Based on the information showing the impression of the chord progression pattern, the user can imagine the impression of the music corresponding to the chord progression pattern. The information showing the impression of the chord progression pattern may be different for each chord progression pattern.
  • the user can select the chord progression pattern desired for the BGM of the content by tapping the icon 1201 showing the chord progression pattern.
  • audio data for playing the chord progression pattern may be provided from the server 2 together with the music information of the n songs.
  • a play button 1203 for playing each chord progression pattern may be displayed together with the icon 1201 showing the chord progression pattern.
  • the user can listen to and check the desired chord progression pattern by tapping the play button 1203 corresponding to the desired chord progression pattern.
  • the user may listen to the chord progression pattern and select the chord progression pattern desired for the BGM of the content.
  • the control unit 11 provides at least one of a user interface for the user to select the style of the content's background music and a user interface for the user to select the chord progression pattern of the content's background music as a user interface for the user to determine the content's background music.
  • the control unit 11 may provide both a user interface for the user to select the style of the content's background music, and a user interface for the user to select the chord progression pattern of the content's background music. There may be cases where the style information or chord progression pattern overlaps between multiple songs among the n songs. When the style or chord progression pattern selected by the user overlaps between multiple songs, the control unit 11 allows the user to select both the style and chord progression pattern of the content's background music, thereby enabling the ultimately generated song to be closer to the song desired by the user.
  • the control unit 11 provides at least one of the style information and chord progression pattern selected by the user to the server 2 from the communication unit 13 via the network NW shown in FIG. 1.
  • At least one of the style information and chord progression pattern selected by the user is provided to the music generation unit 219 of the control unit 21 of the server 2. Based on the acquired style information and at least one of the chord progression pattern, the music generation unit 219 generates music data corresponding to the music to be added to the content using known music generation technology. Furthermore, the music generation unit 219 uses the generated music data to generate content playback data for playing the music and the content corresponding to the music in sync.
  • the server 2 provides the content playback data generated by the music generation unit 219 to the communication terminal 1 from the communication unit 25 via the network NW.
  • the content playback data may be provided in response to a request from the communication terminal 1.
  • [Music creation process flow] 13 is a flowchart showing the music generation process according to an embodiment of the present invention. As described above, the music generation process is executed by the control unit 21 of the server 2.
  • the control unit 21 waits until content is received from the communication terminal 1 (S1301; NO). When the user operates the communication terminal 1 to instruct transmission of content, the communication terminal 1 transmits the content to the server 2. When the server 2 receives the content (S1301; YES), the control unit 21 extracts feature information of the received content (S1303). The control unit 21 extracts feature information from the content using known image analysis techniques and morphological analysis.
  • the control unit 21 provides the extracted feature information to the trained model 233 (S1305).
  • the control unit 21 executes calculation processing by the trained model 233 to obtain the attributes of the content from the trained model 233 (S1307).
  • the attributes of the content include one attribute (first attribute) selected from the impression list shown in FIG. 5 and one attribute (second attribute) selected from the situation list shown in FIG. 6.
  • the control unit 21 determines song candidates corresponding to the content based on the attributes of the acquired content (S1309).
  • the control unit 21 determines the song candidates by referring to the song database 235 and the situation table 237.
  • the control unit 21 provides the communication terminal 1 with song information corresponding to the determined song candidates (S1311).
  • the song information includes at least one of style information and chord progression patterns associated with each song determined as a song candidate.
  • the communication terminal 1 which has acquired the song information corresponding to the candidate songs, provides a user interface.
  • the user selects the song information of the song to be added as background music to the content via the user interface and transmits it to the server 2.
  • the control unit 21 acquires the music information selected by the user (S1313).
  • the acquired music information includes at least one of the style information and the chord progression pattern selected by the user.
  • the control unit 21 generates music data based on the acquired music information (S1315).
  • the control unit 21 generates the music data using known music generation technology.
  • the control unit 21 uses the generated music data to generate content playback data for playing the music and the content corresponding to the music in synchronization (S1317).
  • the control unit 21 may provide the generated content playback data to the communication terminal 1 in response to a request from the communication terminal 1.
  • the above is a series of flows for the music generation process executed by the control unit 21.
  • the communication terminal 1 can acquire content playback data from the server 2 in response to an instruction from a user, and execute a music playback process.
  • the communication terminal 1 acquires content playback data from the server 2 via the network NW.
  • music is played along with the content in the communication terminal 1.
  • the content may be images including videos and still images provided to the server 2.
  • the content played in the communication terminal 1 may be an image including the text (character string).
  • the music played along with the content is output via the speaker 16 of the communication terminal 1. The above is the music playback process executed by the communication terminal 1.
  • the server 2 can automatically obtain the attributes of the content. By generating music based on the obtained attributes, the server 2 can generate and provide music that matches the content.
  • the user inputs the content to which they wish to add background music, they can enjoy the customer experience of being able to obtain automatically generated music that is suitable for the content and content playback data for playing the content in sync.
  • the music determination unit 215 of the server 2 determined the songs ranked 1st to nth (n is any integer between 1 and 500, inclusive; for example, 20) in descending order of calculated score values as candidates for music corresponding to the attributes of the content.
  • the music determination unit 215 may extract the songs ranked 1st to mth (m is any integer between 1 and 500, inclusive, and m>n; for example, it may be 40) in ascending order of calculated score values based on a predetermined algorithm, randomly select n songs (for example, 20 songs) from among them, and determine the selected songs as candidates for music corresponding to the attributes of the content.
  • the user selected at least one of the style information and the chord progression pattern of the music to be added as BGM to the content via a user interface provided to the communication terminal 1.
  • the control unit 11 of the communication terminal 1 may provide a user interface to the display unit 14 of the communication terminal 1 for allowing the user to set further additional information in addition to the style information and the chord progression pattern.
  • Further additional information may include, for example, the tempo of the music to be added as background music for the content, the playback time of the music, the intonation of the music, the melody, and lyrics.
  • the communication terminal 1 may provide the server 2 with additional information set by the user.
  • the control unit 21 of the server 2 can reflect the additional information provided by the communication terminal 1 in the music data.
  • the user can select the chord progression pattern of the music to be added to the content as BGM via a user interface provided on the communication terminal 1.
  • the user may also edit the chord progression pattern of the music to be added to the content as BGM via a user interface provided on the communication terminal 1.
  • the user may be able to preview the edited chord progression pattern. The user can preview the edited chord progression pattern and further edit the chord progression pattern.
  • the communication terminal 1 may provide the server 2 with a chord progression pattern set by the user.
  • the control unit 21 of the server 2 may generate music data based on the chord progression pattern set by the user, which is obtained from the communication terminal 1.
  • the content playback data generated by the server 2 can be obtained not only by the communication terminal 1 that provided the content to the server 2, but also by other communication terminals 1 that can connect to the server 2 via the network NW.
  • a music generation method includes extracting feature information contained in input content from the content, determining at least one attribute from among a plurality of attributes that corresponds to the extracted feature information, determining an accompaniment pattern and a chord progression pattern that correspond to the determined attribute, and generating a music piece based on the determined accompaniment pattern and chord progression pattern.
  • the content may include an image
  • the feature information may include objects extracted from the image.
  • the content may include sentences, and the feature information may include morphemes extracted from the sentences.
  • the multiple attributes may be divided into multiple groups including a first attribute group and a second attribute group, and the determined attributes may include an attribute included in the first attribute group and an attribute included in the second attribute group.
  • the determined attributes may be determined based on information obtained from a trained model that has learned the relationship between feature information and attributes by inputting the extracted feature information into the trained model.
  • Determining the accompaniment pattern and the chord progression pattern may include identifying a plurality of accompaniment patterns corresponding to the determined attributes, providing a user interface for allowing a user to select at least one of the identified plurality of accompaniment patterns, and determining the selected accompaniment pattern as the accompaniment pattern corresponding to the determined attributes.
  • Identifying the multiple accompaniment patterns corresponding to the determined attribute includes identifying the multiple accompaniment patterns according to the predetermined algorithm, and may include cases where the multiple accompaniment patterns identified for a first attribute by the predetermined algorithm are a first combination and a second combination.
  • Determining the accompaniment pattern and the chord progression pattern may include identifying a plurality of the chord progression patterns corresponding to the determined attribute, providing a user interface for allowing a user to select at least one of the identified plurality of chord progression patterns, and determining the selected chord progression pattern as the chord progression pattern corresponding to the determined attribute.
  • Identifying the multiple chord progression patterns corresponding to the determined attribute includes identifying the multiple chord progression patterns according to the predetermined algorithm, and may include cases where the multiple chord progression patterns identified for a first attribute by the predetermined algorithm are a first combination and a second combination.
  • the method may further include providing a user interface for allowing a user to set additional information for the song, and the song may be generated based on the set additional information.
  • a program may be provided to cause a computer to execute the following operations: extracting characteristic information contained in input content from the content; determining at least one attribute from among a plurality of attributes that corresponds to the extracted characteristic information; determining an accompaniment pattern and a chord progression pattern that correspond to the determined attribute; and generating a piece of music based on the determined accompaniment pattern and chord progression pattern.
  • program may be provided on a computer-readable recording medium, or may be provided in a form distributed via a network, such as from an external server.
  • a music generating device may be provided that includes a communication unit that receives content from a communication terminal, and a control unit that generates music based on the received content.
  • the control unit executes a music generating process.
  • the control unit extracts feature information contained in the received content from the content, and determines at least one attribute from among a plurality of attributes that corresponds to the extracted feature information.
  • the control unit further determines an accompaniment pattern and a chord progression pattern that correspond to the determined attribute, and generates music based on the determined accompaniment pattern and chord progression pattern.
  • a music composition system may be provided that includes one or more communication terminals and a server.
  • the one or more communication terminals and the server are connected via a network such as the Internet.
  • Each communication terminal transmits content to the server via the network.
  • the content is content to which a user wishes to add background music.
  • the server includes a communication unit that receives the content from the communication terminal, and a control unit that generates music based on the received content.
  • the control unit extracts feature information contained in the received content from the content, and determines at least one attribute, out of multiple attributes, that corresponds to the extracted feature information.
  • the control unit further determines an accompaniment pattern and a chord progression pattern that correspond to the determined attribute, and generates music based on the determined accompaniment pattern and chord progression pattern.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

According to one embodiment, provided is a musical composition creation method that comprises: extracting, from an input content, feature information included in the content; determining at least one attribute corresponding to the extracted feature information from among a plurality of attributes; determining an accompaniment pattern and a chord progression pattern corresponding to the determined attribute; and creating a musical composition based on the determined accompaniment pattern and chord progression pattern.

Description

楽曲生成方法、およびプログラムMusic composition generating method and program
 本発明は、楽曲生成方法およびプログラムに関する。 The present invention relates to a music generation method and program.
 近年、楽曲を自動的に生成する様々な方法が提案されている。例えば、SNSなどで画像などのコンテンツを再生する際に、画像とともに流すBGMの自動生成方法に対する需要が高まっている。 In recent years, various methods have been proposed for automatically generating music. For example, there is a growing demand for a method for automatically generating background music to be played along with images when playing content such as images on social media.
特開2016-161774号公報JP 2016-161774 A
 特許文献1では、利用者からの指示に応じて相異なる複数の楽曲の楽曲データを生成する方法が開示されている。しかしながら、特許文献1に開示された技術では、利用者のコンテンツに対する主観のみに基づいて楽曲データが生成されるため、コンテンツにマッチした楽曲が生成されないことがある。 Patent Document 1 discloses a method for generating music data for multiple different songs in response to instructions from a user. However, with the technology disclosed in Patent Document 1, music data is generated based solely on the user's subjective opinion of the content, so music that matches the content may not be generated.
 本発明の目的の一つは、コンテンツにマッチした楽曲を自動的に生成することができる楽曲生成方法を提供することにある。 One of the objectives of the present invention is to provide a music generation method that can automatically generate music that matches content.
 本発明の一実施形態によれば、入力されたコンテンツから、当該コンテンツに含まれる特徴情報を抽出し、複数の属性のうち、前記抽出された特徴情報に対応する少なくとも1つの属性を決定し、前記決定された属性に対応する伴奏パターンおよびコード進行パターンを決定し、前記決定された伴奏パターンおよびコード進行パターンに基づく楽曲を生成することを含む、楽曲生成方法が提供される。 According to one embodiment of the present invention, a method for generating music is provided, which includes extracting feature information contained in input content from the content, determining at least one attribute from among a plurality of attributes that corresponds to the extracted feature information, determining an accompaniment pattern and a chord progression pattern that correspond to the determined attribute, and generating a music piece based on the determined accompaniment pattern and chord progression pattern.
 本発明によれば、コンテンツにマッチした楽曲を自動的に生成することができる楽曲生成方法を提供することができる。 The present invention provides a music generation method that can automatically generate music that matches content.
一実施形態における楽曲生成システムを示す図である。FIG. 1 illustrates a music production system according to one embodiment. 一実施形態に係る通信端末の構成を示すブロック図である。FIG. 2 is a block diagram showing a configuration of a communication terminal according to an embodiment. 一実施形態に係るサーバの記憶部の構成を示すブロック図である。FIG. 2 is a block diagram showing a configuration of a storage unit of a server according to an embodiment. 一実施形態に係るサーバの制御部の機能構成を示すブロック図である。4 is a block diagram showing a functional configuration of a control unit of a server according to an embodiment; FIG. 学習済モデルから出力される、第1属性グループを構成する第1属性の一覧を示す表の一例である。1 is an example of a table showing a list of first attributes that constitute a first attribute group, output from a trained model. 学習済モデルから出力される、第2属性グループを構成する第2属性の一覧を示す表の一例である。This is an example of a table showing a list of second attributes that constitute a second attribute group, output from the trained model. 所定の楽曲に対応するジャンル情報、スタイル情報、及びスコア情報の一例を示す表である。11 is a table showing an example of genre information, style information, and score information corresponding to a predetermined piece of music. 所定の楽曲に対応するジャンル情報ごとのスコア情報合算値を示す表である。11 is a table showing score information total values for each genre of music corresponding to a predetermined piece of music. 所定の楽曲に対応するイメージラベルの一例を示した表である。11 is a table showing an example of image labels corresponding to predetermined songs. 一実施形態におけるシチュエーションテーブルの一例を示す表である。1 is a table illustrating an example of a situation table according to an embodiment. 一実施形態におけるユーザインターフェースの一例を示す概略図である。FIG. 4 is a schematic diagram illustrating an example of a user interface according to an embodiment. 一実施形態におけるユーザインターフェースの一例を示す概略図である。FIG. 4 is a schematic diagram illustrating an example of a user interface according to an embodiment. 一実施形態における楽曲生成処理を示すフローチャートである。1 is a flowchart illustrating a music generation process according to an embodiment.
 以下、本発明の一実施形態について、図面を参照しながら詳細に説明する。以下に示す実施形態は一例であって、本発明はこれらの実施形態に限定して解釈されるものではない。本実施形態で参照する図面において、同一部分または同様な機能を有する部分には同一の符号または類似の符号(数字の後にA、Bなど付しただけの符号)を付し、その繰り返しの説明は省略する場合がある。 Below, one embodiment of the present invention will be described in detail with reference to the drawings. The embodiments described below are merely examples, and the present invention should not be interpreted as being limited to these embodiments. In the drawings referred to in this embodiment, identical parts or parts having similar functions are given the same or similar symbols (symbols consisting of only a number followed by A, B, etc.), and repeated explanations may be omitted.
[楽曲生成システム]
 図1は、一実施形態における楽曲生成システムを示す図である。楽曲生成システム1000は、インターネットなどのネットワークNWに接続された一つ以上の通信端末1およびサーバ2を含む。通信端末1は、スマートフォン、タブレットパソコン、ラップトップパソコンおよびデスクトップパソコンなどであり、ネットワークNWに接続して、他の装置とデータ通信を行う。
[Music Generation System]
1 is a diagram showing a music production system according to one embodiment. The music production system 1000 includes one or more communication terminals 1 and a server 2 connected to a network NW such as the Internet. The communication terminals 1 are, for example, smartphones, tablet computers, laptop computers, and desktop computers, and are connected to the network NW to perform data communication with other devices.
 サーバ2は、ネットワークNWを介して通信端末1からコンテンツを受信し、そのコンテンツの内容に応じた楽曲を生成して通信端末1に提供する。通信端末1は、コンテンツとともに再生する楽曲を生成するための情報を指定する。また、通信端末1は、コンテンツとともに、サーバ2で生成された楽曲を再生することができる。サーバ2は、機械学習によって得られた学習済モデルを用いて、コンテンツを解析し、解析結果に基づいて、楽曲を生成する。以下、通信端末1およびサーバ2について説明する。 The server 2 receives content from the communication terminal 1 via the network NW, generates music according to the content, and provides it to the communication terminal 1. The communication terminal 1 specifies information for generating music to be played along with the content. The communication terminal 1 can also play the music generated by the server 2 along with the content. The server 2 analyzes the content using a trained model obtained by machine learning, and generates music based on the analysis results. The communication terminal 1 and the server 2 are described below.
[通信端末]
 図2は、通信端末1の構成を示すブロック図である。通信端末1は、制御部11、記憶部12、通信部13、表示部14、操作部15、及びスピーカ16を含む。これらの各構成はバス17を介して接続されている。
[Communication terminal]
2 is a block diagram showing the configuration of the communication terminal 1. The communication terminal 1 includes a control unit 11, a storage unit 12, a communication unit 13, a display unit 14, an operation unit 15, and a speaker 16. These components are connected via a bus 17.
 制御部11は、CPU(プロセッサ)などの演算処理回路を含む。制御部11は、記憶部12に記憶されたプログラムをCPUにより実行して、楽曲指定処理、楽曲再生処理などを行うための機能を実現する。これらの機能を実現する構成の一部または全部は、プログラムの実行によってソフトウエアによって実現される場合に限られず、ハードウエアによって実現されてもよい。尚、制御部11によって実現される機能は、上述した処理を行う機能以外にも、通信端末1の各部を制御する機能を含む。 The control unit 11 includes an arithmetic processing circuit such as a CPU (processor). The control unit 11 executes a program stored in the storage unit 12 using the CPU to realize functions such as music selection processing and music playback processing. Some or all of the configuration that realizes these functions is not limited to being realized by software through the execution of a program, but may also be realized by hardware. Note that the functions realized by the control unit 11 include a function to control each part of the communication terminal 1 in addition to the function to perform the above-mentioned processing.
 記憶部12は、不揮発性メモリ、ハードディスク等の記憶装置である。記憶部12は、上述したプログラムなど、様々な機能を実現するためのアプリケーションプログラムを記憶する記憶領域、楽曲指定処理、楽曲再生処理などの通信端末1で実行される各処理に用いられる情報を記憶する記憶領域を含む。プログラムは、コンピュータにより実行可能であればよく、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよい。この場合には、通信端末1は、記録媒体を読み取る装置を備えていてもよい。また、プログラムは、ネットワーク経由でダウンロードされてもよい。 The storage unit 12 is a storage device such as a non-volatile memory or a hard disk. The storage unit 12 includes a storage area for storing application programs for implementing various functions, such as the programs described above, and a storage area for storing information used for each process executed by the communication terminal 1, such as a music selection process and a music playback process. The program may be provided in a state stored in a computer-readable recording medium, such as a magnetic recording medium, an optical recording medium, a magneto-optical recording medium, or a semiconductor memory, as long as it is executable by a computer. In this case, the communication terminal 1 may be provided with a device for reading the recording medium. The program may also be downloaded via a network.
 また、記憶部12は、コンテンツを記憶する記憶領域を含む。コンテンツは、画像および文章(文字列)のうちの少なくとも1つを含む。画像は、動画であってもよく、静止画であってもよい。画像は、通信端末1のカメラ(図示せず)を使用して取得した画像であってもよく、通信部13を介して外部からダウンロードした画像であってもよい。文章(文字列)は、通信端末1の操作部15を介して入力された文章(文字列)であってもよく、通信部13を介して外部からダウンロードした文章(文字列)であってもよい。 The memory unit 12 also includes a memory area for storing content. The content includes at least one of an image and a text (character string). The image may be a video or a still image. The image may be an image acquired using a camera (not shown) of the communication terminal 1, or an image downloaded from outside via the communication unit 13. The text (character string) may be a text (character string) input via the operation unit 15 of the communication terminal 1, or a text (character string) downloaded from outside via the communication unit 13.
 通信部13は、制御部11の制御に基づいて、図1に示したネットワークNWに接続して外部のサーバ2と情報の送受信を行う。 The communication unit 13 connects to the network NW shown in FIG. 1 and transmits and receives information to and from the external server 2 under the control of the control unit 11.
 表示部14は、液晶ディスプレイ、有機ELディスプレイ等の表示装置であり、制御部11の制御に基づいた画像(動画又は静止画)を表示する。操作部15は、表示部14に表示されたタッチパネル、操作ボタンなどによりユーザが入力した操作に応じた信号を制御部11に出力する。操作ボタンは、例えば、電源スイッチ、カーソルキーなどを含み、ユーザの指示を受け付ける操作子であればよい。スピーカ16は、図1に示したネットワークNWを介してサーバ2から取得した楽曲データを再生する。 The display unit 14 is a display device such as a liquid crystal display or an organic EL display, and displays images (moving or still images) based on the control of the control unit 11. The operation unit 15 outputs to the control unit 11 a signal corresponding to an operation input by the user via a touch panel, operation buttons, etc. displayed on the display unit 14. The operation buttons may be any operator that accepts user instructions, including, for example, a power switch or cursor keys. The speaker 16 plays music data obtained from the server 2 via the network NW shown in FIG. 1.
 通信端末1は、通信部13からネットワークNWを介してコンテンツをサーバ2に送信する。サーバ2に送信されるコンテンツは、ユーザがBGM(Back-ground Music)の付与を所望するコンテンツである。BGMは、ユーザがコンテンツとともに再生することを所望する楽曲に対応する。 The communication terminal 1 transmits content to the server 2 from the communication unit 13 via the network NW. The content transmitted to the server 2 is content to which the user wishes to add BGM (Background Music). The BGM corresponds to a piece of music that the user wishes to play together with the content.
[サーバ]
 図1を参照して、サーバ2の構成について説明する。サーバ2は、制御部21、記憶部23、および通信部25を含む。
[server]
The configuration of the server 2 will be described with reference to Fig. 1. The server 2 includes a control unit 21, a storage unit 23, and a communication unit 25.
 制御部21は、CPU(プロセッサ)などの演算処理回路を含む。制御部21は、記憶部23に記憶されたプログラムをCPUにより実行して、楽曲生成処理を行うための機能を実現する。この機能を実現する構成の一部または全部は、プログラムの実行によってソフトウエアによって実現される場合に限られず、ハードウエアによって実現されてもよい。 The control unit 21 includes an arithmetic processing circuit such as a CPU (processor). The control unit 21 executes a program stored in the storage unit 23 using the CPU to realize a function for performing music generation processing. A part or all of the configuration that realizes this function is not limited to being realized by software through the execution of a program, but may also be realized by hardware.
 記憶部23は、不揮発性メモリなどの記憶装置を含む。図3は、記憶部23の構成を示すブロック図である。記憶部23は、プログラム231、学習済モデル233、楽曲データベース235およびシチュエーションテーブル237を記憶する。 The storage unit 23 includes a storage device such as a non-volatile memory. FIG. 3 is a block diagram showing the configuration of the storage unit 23. The storage unit 23 stores a program 231, a trained model 233, a music database 235, and a situation table 237.
 プログラム231は、楽曲生成処理などのサーバ2で実行される各処理に用いられるプログラムを含む。プログラム231は、コンピュータにより実行可能であればよく、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶された状態でサーバ2に提供されてもよい。この場合、サーバ2は、記録媒体を読み取る装置を備えていればよい。プログラム231は、通信部25を介してダウンロードされてもよい。 The program 231 includes a program used for each process executed by the server 2, such as a music generation process. The program 231 may be provided to the server 2 in a state stored in a computer-readable recording medium, such as a magnetic recording medium, an optical recording medium, a magneto-optical recording medium, or a semiconductor memory, as long as it is executable by a computer. In this case, the server 2 may be provided with a device for reading the recording medium. The program 231 may be downloaded via the communication unit 25.
 学習済モデル233は、機械学習によって生成され、サーバ2に提供される。学習済モデル233は、ニューラルネットワークを用いた演算処理によって、通信端末1から提供されたコンテンツの属性を決定する。具体的には、学習済モデル233は、外部のサーバ等のコンピュータにおいて、事前に訓練データを用いて訓練し、コンテンツの特徴情報と属性との相関関係を機械学習させることによって生成されるニューラルネットワークを有するモデル(訓練済モデル)である。本実施形態において、学習済モデル233は、N次元変換Word2vecを利用したモデルである。学習済モデル233は、図1に示すネットワークNWを介して接続された別の外部装置に記憶されてもよい。この場合、サーバ2は、ネットワークNWを介して学習済モデル233に接続してもよい。コンテンツの特徴情報および属性については、後述する。 The trained model 233 is generated by machine learning and provided to the server 2. The trained model 233 determines the attributes of the content provided from the communication terminal 1 by calculation processing using a neural network. Specifically, the trained model 233 is a model (trained model) having a neural network generated by training in advance using training data in a computer such as an external server and machine learning the correlation between the feature information of the content and the attributes. In this embodiment, the trained model 233 is a model that uses N-dimensional transformation Word2vec. The trained model 233 may be stored in another external device connected via the network NW shown in FIG. 1. In this case, the server 2 may be connected to the trained model 233 via the network NW. The feature information and attributes of the content will be described later.
 楽曲データベース235には、複数の楽曲に関する楽曲情報が登録されている。楽曲情報は、複数の楽曲に対応する、互いに関連付けられたジャンル情報、スタイル情報、スコア情報、イメージラベルおよびコード進行データを含む。楽曲データベース235の詳細は後述する。 The song database 235 stores song information about multiple songs. The song information includes genre information, style information, score information, image labels, and chord progression data that correspond to multiple songs and are associated with each other. The song database 235 will be described in detail later.
 シチュエーションテーブル237は、コンテンツの属性と楽曲のジャンルとが関連付けられたテーブルである。シチュエーションテーブル237の詳細は後述する。 The situation table 237 is a table that associates content attributes with music genres. Details of the situation table 237 will be described later.
 図1に戻ると、サーバ2の通信部25は、通信モジュールを含み、ネットワークNWに接続して、通信端末1などの外部装置と各種データの送受信を行う。 Returning to FIG. 1, the communication unit 25 of the server 2 includes a communication module, is connected to the network NW, and transmits and receives various data to and from external devices such as the communication terminal 1.
[楽曲生成処理]
 次に、サーバ2の制御部21で実行される楽曲生成処理について説明する。楽曲生成処理は、例えば、通信端末1からのリクエストに応じて開始される。
[Music creation processing]
Next, a description will be given of a music generating process executed by the control unit 21 of the server 2. The music generating process is started in response to a request from the communication terminal 1, for example.
 図4は、サーバ2の制御部21の機能構成を示すブロック図である。制御部21は、特徴情報抽出部211、属性決定部213、楽曲決定部215、楽曲提供部217、楽曲生成部219を含む。 FIG. 4 is a block diagram showing the functional configuration of the control unit 21 of the server 2. The control unit 21 includes a feature information extraction unit 211, an attribute determination unit 213, a music determination unit 215, a music provision unit 217, and a music generation unit 219.
 特徴情報抽出部211は、通信部25を介して、通信端末1からコンテンツを取得する。特徴情報抽出部211は、取得したコンテンツから、該コンテンツの特徴情報を抽出する。コンテンツが動画である場合、特徴情報抽出部211は、動画を所定の数の静止画に変換し、得られた静止画から特徴情報を抽出する。 The feature information extraction unit 211 acquires content from the communication terminal 1 via the communication unit 25. The feature information extraction unit 211 extracts feature information of the acquired content from the acquired content. If the content is a video, the feature information extraction unit 211 converts the video into a predetermined number of still images and extracts feature information from the acquired still images.
 特徴情報とは、コンテンツに含まれるコンテンツの特徴を意味する。コンテンツが文章の場合、コンテンツの特徴は、文章中に含まれる1つ以上の単語である。単語は、名詞、形容詞、動詞などを含む。特徴情報抽出部211は、コンテンツが文章の場合、形態素解析によって文章を解析して特徴情報を抽出する。例えば、コンテンツが「海辺の明るいバルコニー」という文章である場合、該コンテンツからは、「海辺」、「バルコニー」、及び「明るい」という形態素が特徴情報として抽出されてもよい。コンテンツが画像の場合、コンテンツの特徴は、画像に含まれるオブジェクトである。コンテンツが画像の場合、特徴情報抽出部211は、公知の画像解析技術(例えば、OpenCVなどを用いた技術)を用いて画像処理および画像解析を行って特徴情報を抽出する。例えば、画像が、晴れの日のビーチを映した画像である場合、例えば、「海」、「空」、「砂浜」などが該画像に含まれるオブジェクトとして抽出されてもよい。特徴情報抽出部211は、コンテンツの特徴情報を属性決定部213に提供する。 The feature information means the feature of the content included in the content. When the content is a sentence, the feature of the content is one or more words included in the sentence. The words include nouns, adjectives, verbs, etc. When the content is a sentence, the feature information extraction unit 211 analyzes the sentence by morphological analysis to extract the feature information. For example, when the content is a sentence "Bright balcony by the sea", the morphemes "seaside", "balcony", and "bright" may be extracted as feature information from the content. When the content is an image, the feature information extraction unit 211 extracts the feature information by performing image processing and image analysis using a known image analysis technique (for example, a technique using OpenCV, etc.). For example, when the image is an image of a beach on a sunny day, for example, "sea", "sky", "sand" may be extracted as objects included in the image. The feature information extraction unit 211 provides the feature information of the content to the attribute determination unit 213.
 属性決定部213は、特徴情報抽出部211からコンテンツの特徴情報を取得し、学習済モデル233を用いて取得した特徴情報の属性を決定する。属性は、第1属性グループおよび第2属性グループを含む。第1属性グループは、印象で分類された属性(第1属性)から構成され、第2属性グループは、シチュエーションで分類された属性(第2属性)から構成される。 The attribute determination unit 213 acquires feature information of the content from the feature information extraction unit 211, and determines the attributes of the acquired feature information using the trained model 233. The attributes include a first attribute group and a second attribute group. The first attribute group is composed of attributes (first attributes) classified by impression, and the second attribute group is composed of attributes (second attributes) classified by situation.
 図5は、学習済モデル233から出力される、第1属性グループを構成する第1属性の一覧を示す表(以下、印象リストと呼ぶ)の一例である。図6は、学習済モデル233から出力される、第2属性グループを構成する第2属性の一覧を示す表(以下、シチュエーションリストと呼ぶ)の一例である。図5に示す印象リストは、29個の属性(第1属性)を含む。第1属性は、例えば、「しっとりとした」、「上品な」、「荘厳な」、「穏やかな」などの印象で分類された属性を含む。尚、印象リストに含まれる属性の数は、29個に限定されるわけではない。また、印象リストに含まれる属性は、図5に示した属性に限定されるわけではない。図6に示すシチュエーションリストは、24個の属性(第2属性)を含む。第2属性は、例えば、「スポーツ観戦」、「晴天」、「駅」、「南国」、「映画館」などのシチュエーションで分類された属性を含む。尚、シチュエーションリストに含まれる属性の数は、24個に限定されるわけではない。また、シチュエーションリストに含まれる属性は、図6に示した属性に限定されるわけではない。 5 is an example of a table (hereinafter referred to as an impression list) showing a list of first attributes constituting a first attribute group, output from the trained model 233. FIG. 6 is an example of a table (hereinafter referred to as a situation list) showing a list of second attributes constituting a second attribute group, output from the trained model 233. The impression list shown in FIG. 5 includes 29 attributes (first attributes). The first attributes include attributes classified by impression, such as "soft," "elegant," "solemn," and "calm." The number of attributes included in the impression list is not limited to 29. The attributes included in the impression list are not limited to the attributes shown in FIG. 5. The situation list shown in FIG. 6 includes 24 attributes (second attributes). The second attributes include attributes classified by situation, such as "watching sports," "clean weather," "station," "southern country," and "movie theater." The number of attributes included in the situation list is not limited to 24. The attributes included in the situation list are not limited to the attributes shown in FIG. 6.
 属性決定部213は、特徴情報を学習済モデル233の入力層に入力する。特徴情報が入力された学習済モデル233は、中間層において演算した結果として、図5に示した印象リストから選択された1つの属性(第1属性)と、図6に示したシチュエーションリストから選択された1つの属性(第2属性)とを出力層に出力する。属性決定部213は、学習済モデル233から出力された第1属性および第2属性を取得し、これらをコンテンツの属性として決定する。属性決定部213は、コンテンツの属性を楽曲決定部215に提供する。 The attribute determination unit 213 inputs the feature information to the input layer of the trained model 233. The trained model 233 to which the feature information has been input outputs, as a result of calculations in the intermediate layer, one attribute (first attribute) selected from the impression list shown in FIG. 5 and one attribute (second attribute) selected from the situation list shown in FIG. 6 to the output layer. The attribute determination unit 213 obtains the first attribute and second attribute output from the trained model 233, and determines these as attributes of the content. The attribute determination unit 213 provides the attributes of the content to the music determination unit 215.
 楽曲決定部215は、取得した属性に対応する楽曲の候補を決定する。楽曲決定部215は、取得した属性に基づいて、楽曲データベース235およびシチュエーションテーブル237を参照して楽曲の候補を決定する。 The music determination unit 215 determines music candidates that correspond to the acquired attributes. The music determination unit 215 determines music candidates based on the acquired attributes by referring to the music database 235 and the situation table 237.
 以下、楽曲データベース235について説明する。楽曲データベース235には、予め準備された複数の楽曲に関する楽曲情報が登録されている。楽曲情報は、互いに関連付けられたジャンル情報、スタイル情報、スコア情報、イメージラベルおよびコード進行データを含む。楽曲情報は、複数の楽曲それぞれに関連付けられて登録されている。例えば、楽曲データベース235に登録された楽曲が500個である場合、500曲それぞれに対応する楽曲情報が、対応する楽曲に関連付けられて登録されている。尚、楽曲データベース235に登録された楽曲の数は、500個に限定されるわけではない。以下、楽曲情報について説明する。 The song database 235 will be described below. Song information relating to multiple songs prepared in advance is registered in the song database 235. The song information includes genre information, style information, score information, image label, and chord progression data that are associated with each other. The song information is registered in association with each of the multiple songs. For example, if there are 500 songs registered in the song database 235, song information corresponding to each of the 500 songs is registered in association with the corresponding song. Note that the number of songs registered in the song database 235 is not limited to 500. The song information will be described below.
 コード進行データは、楽曲を構成する複数のコードを時系列に並べて記述されたコード進行パターンを示すデータである。コード進行データは、例えば、「CM7-Dm7-Em7-・・・」として記述されている。時系列に並べるときには、各コードは、所定の単位期間(例えば、1小節、1拍など)を単位として並べられてもよいし、単位期間を考慮せずに順番に並べられてもよい。例えば、上述の例で各コードが1小節を単位として並べられる場合を想定すると、上記の例における最初のコードが2小節続くときには、楽曲コードデータは「CM7-CM7-Dm7・・・」として記述される。一方、小節数を考慮しない場合を想定すると、楽曲コードデータは上記の例のように「CM7-Dm7-・・・」として記述される。コード進行データは、各楽曲のサビ部分を含む一部の期間に対応するデータであってもよい。しかしながら、これに限定されず、コード進行データは、各楽曲の曲全体に対応するデータであってもよい。 Chord progression data is data that indicates a chord progression pattern in which multiple chords that make up a song are arranged in chronological order. For example, the chord progression data is written as "CM7-Dm7-Em7-...". When arranged in chronological order, each chord may be arranged in a unit of a predetermined unit period (for example, one measure, one beat, etc.), or may be arranged in order without considering the unit period. For example, assuming that each chord is arranged in a unit of one measure in the above example, when the first chord in the above example continues for two measures, the song chord data is written as "CM7-CM7-Dm7...". On the other hand, assuming that the number of measures is not taken into consideration, the song chord data is written as "CM7-Dm7-..." as in the above example. The chord progression data may be data that corresponds to a portion of a period including the chorus of each song. However, the present invention is not limited to this, and the chord progression data may be data that corresponds to the entire song of each song.
 ジャンル情報は楽曲のジャンルを示す情報であり、例えば、「ポップ」、「ロック」、「ラテン」・・・という楽曲のジャンルを示す情報である。スタイル情報は、当該ジャンルにおけるより細かな分類、即ちスタイル(伴奏パターン)を示す情報である。例えば、ある楽曲のジャンル情報がポップミュージックを示す「ポップ」である場合、当該楽曲のスタイル情報は、例えば、「80年代ポップ」、「イージーポップ」、「バラード」などを含む。また、ある楽曲のジャンル情報がラテンミュージックを示す「ラテン」である場合、当該楽曲のスタイル情報は、例えば、「レゲエ」、「ボサノヴァ」、「タンゴ」、「サンバ」などを含む。スコア情報は、当該楽曲が所定のジャンル及びスタイルであることを示す確率を示す情報である。ジャンル情報およびスタイル情報の種類は、予め決められている。尚、楽曲ごとのジャンル情報、スタイル情報、およびスコア情報は、公知の楽曲解析技術を用いて楽曲を解析することにより得ることができる。 Genre information is information indicating the genre of a song, for example, "pop", "rock", "Latin", etc. Style information is information indicating a more detailed classification within the genre, that is, the style (accompaniment pattern). For example, if the genre information of a song is "pop" indicating pop music, the style information of the song includes, for example, "80s pop", "easy pop", "ballad", etc. Also, if the genre information of a song is "Latin" indicating Latin music, the style information of the song includes, for example, "reggae", "bossa nova", "tango", "samba", etc. Score information is information indicating the probability that the song is of a certain genre and style. The types of genre information and style information are predetermined. The genre information, style information, and score information for each song can be obtained by analyzing the song using known music analysis technology.
 図7は、所定の楽曲(以下、A曲と称する)を解析することにより得られたジャンル情報、スタイル情報、及びスコア情報の一例を示す表である。図7を参照すると、A曲のジャンル情報およびスタイル情報は、スコア順に1位~10位まで示されている。例えば、ジャンル情報が「Pop」、スタイル情報が「Easy Pop」に対応するスコア情報は「0.218」である。これは、A曲を解析した結果、A曲のジャンルが「ポップ」であり、スタイルが「イージーポップ」である確率が0.218であることを意味している。また、ジャンル情報が「Pop」、スタイル情報が「80’ Pop」に対応するスコア情報は、「0.195」である。これは、A曲を解析した結果、A曲のジャンルが「ポップ」であり、スタイルが「80年代ポップ」である確率が0.195であることを意味している。また、ジャンル情報が「Rock」、スタイル情報が「80’ Pop Rock」に対応するスコア情報は「0.102」である。これは、A曲を解析した結果、A曲のジャンルが「ロック」であり、スタイルが「80年代ポップロック」である確率が0.102であることを意味している。 FIG. 7 is a table showing an example of genre information, style information, and score information obtained by analyzing a specific song (hereinafter referred to as song A). Referring to FIG. 7, the genre information and style information of song A are shown from 1st to 10th in order of score. For example, the score information corresponding to the genre information "Pop" and the style information "Easy Pop" is "0.218". This means that as a result of analyzing song A, the probability that the genre of song A is "pop" and the style is "easy pop" is 0.218. Furthermore, the score information corresponding to the genre information "Pop" and the style information "80' Pop" is "0.195". This means that as a result of analyzing song A, the probability that the genre of song A is "pop" and the style is "80's pop" is 0.195. Furthermore, the score information corresponding to the genre information "Rock" and the style information "80' Pop Rock" is "0.102". This means that, after analyzing song A, there is a 0.102 probability that the genre of song A is "rock" and the style is "80s pop rock."
 図7に示すとおり、A曲のスコア情報の最大値が0.218である場合、スコア順位は1位である。これは、A曲のジャンルが「ポップ」であり、且つスタイルが「イージーポップ」である確率が1番高いことを示している。スコア順位が2位であるスコア情報0.195に対応するジャンルは「ポップ」であり、且つスタイルは「80年代ポップ」である。これは、A曲のジャンルが「ポップ」であり、且つスタイルが「80年代ポップ」である確率が2番目に高いことを示している。図7では、A曲のジャンル情報およびスタイル情報が、スコア順に1位~10位まで登録されている例を示している。しかしながら、楽曲ごとに登録されるジャンル情報、スタイル情報およびスコア情報の数は10個に限定されるわけではない。例えば、楽曲ごとに、予め決められた全ての種類のジャンル情報およびスタイル情報についてスコア情報が算出されて登録されてもよい。 As shown in FIG. 7, when the maximum value of the score information for song A is 0.218, the score ranking is 1st. This indicates that the probability that the genre of song A is "pop" and the style is "easy pop" is the highest. The genre and style corresponding to score information of 0.195, which is the 2nd highest score ranking, is "pop" and "80s pop". This indicates that the probability that the genre of song A is "pop" and the style is "80s pop" is the second highest. FIG. 7 shows an example in which the genre information and style information for song A are registered from 1st to 10th in score order. However, the number of genre information, style information, and score information registered for each song is not limited to 10. For example, score information may be calculated and registered for each song for all predetermined types of genre information and style information.
 また、楽曲データベース235には、楽曲ごとに、ジャンル情報ごとのスコア情報の合算値が登録されている。図8は、図7に示したA曲のジャンル情報ごとのスコア情報合算値を示す表である。図8において、スコア情報合算値は、スコア順位が1位から所定の順位までのスコア情報を、予め決められたジャンルごとに合算した値である。図8では、一例として、スコア順位が1位~10位までのスコア情報をジャンルごとに合算した場合のスコア情報合算値を示している。 In addition, the song database 235 registers the sum of score information for each genre information for each song. FIG. 8 is a table showing the sum of score information for each genre information of song A shown in FIG. 7. In FIG. 8, the sum of score information is a value obtained by summing up the score information from 1st place to a specified score ranking for each predetermined genre. As an example, FIG. 8 shows the sum of score information when the score information for 1st place to 10th place is summed up for each genre.
 図8を参照すると、ジャンルが「ポップ(Pop)」である場合、スコア情報合算値は、0.413である。これは、図7における、「Pop(ポップ)」ジャンルに対応する「Easy Pop(イージーポップ)」スタイル及び「80’ Pop(80年代ポップ)」スタイルの各スコア情報の合算値である(即ち、0.218+0.195=0.413)。上述したように、このようなスコア情報合算値は、予め決められているジャンルごとに算出される。例えば、A曲の場合、図8に示すように、「Rock(ロック)」ジャンルに対応するスコア情報合算値は、0.102であってもよく、「Latin(ラテン)」ジャンルに対応するスコア情報合算値は0であってもよい。スコア情報合算値が0である場合、A曲について、図7に示したスコア順位1位~10位に「Latin(ラテンミュージック)」ジャンルが入っていないことを示している。換言すると、A曲が「Latin(ラテンミュージック)」ジャンルに該当する可能性が低いことを意味している。一方、スコア情報合算値が最大であるジャンルは、A曲が当該ジャンルに該当する可能性が最も高いことを示している。以上が、ジャンル情報、スタイル情報、およびスコア情報に関する説明である。 Referring to FIG. 8, when the genre is "Pop", the score information total value is 0.413. This is the total value of the score information of the "Easy Pop" style and the "80' Pop" style corresponding to the "Pop" genre in FIG. 7 (i.e., 0.218+0.195=0.413). As described above, such a score information total value is calculated for each predetermined genre. For example, in the case of song A, as shown in FIG. 8, the score information total value corresponding to the "Rock" genre may be 0.102, and the score information total value corresponding to the "Latin" genre may be 0. When the score information total value is 0, it indicates that the "Latin" genre is not included in the score rankings 1 to 10 shown in FIG. 7 for song A. In other words, it means that there is a low possibility that song A falls into the "Latin" genre. On the other hand, the genre with the largest total score information value indicates that song A is most likely to belong to that genre. This concludes the explanation of genre information, style information, and score information.
 以下、楽曲情報に含まれるイメージラベルについて説明する。イメージラベルは、楽曲の印象を数値化したものを意味する。各曲のイメージラベルは、予め2名以上の有識者達によって決定されて、対応する楽曲に関連付けられて登録される。 The image labels included in the song information are explained below. Image labels are a numerical representation of the impression of a song. The image label for each song is determined in advance by two or more experts and registered in association with the corresponding song.
 図9は、A曲に対応するイメージラベルの一例を示した表である。図9において、ラベル付与数は、有識者達がA曲を聴いた際に、図5に示した印象リストに含まれる29個の属性ごとにA曲を評価して付与した数値である。有識者達は、属性ごとに楽曲を多段階評価してもよい。例えば、有識者達が所定の属性についてA曲を評価した場合、当該属性の印象が特に強い場合に付与する数値を「2」とし、当該属性の印象が特に弱い場合に付与する数値を「0」とし、中間の場合(当該属性の印象が特に強くはないが、特に弱くもない場合)に付与する数値を「1」としてもよい。これらの数値は、2名以上の有識者達がそれぞれの属性ごとに決定したラベル付与数の平均値であってもよく、この平均値は、四捨五入されてもよい。 FIG. 9 is a table showing an example of image labels corresponding to song A. In FIG. 9, the number of labels is a numerical value that the experts assigned to song A when they listened to song A and evaluated the song A for each of the 29 attributes included in the impression list shown in FIG. 5. The experts may evaluate the song on a multi-level scale for each attribute. For example, when the experts evaluate song A for a certain attribute, the numerical value "2" may be assigned if the impression of the attribute is particularly strong, the numerical value "0" may be assigned if the impression of the attribute is particularly weak, and the numerical value "1" may be assigned if the impression of the attribute is intermediate (if the impression of the attribute is not particularly strong, but not particularly weak either). These numerical values may be the average of the number of labels assigned by two or more experts for each attribute, and this average value may be rounded off.
 図9を参照すると、「しっとりとした」という属性に対応するラベル付与数は「1」である。これは、有識者達がA曲を聴いた際に、A曲に「しっとりとした」印象を強くは感じなかったが、特に弱い印象も感じなかったことを示している。また、図9を参照すると、「上品な」という属性に対応するラベル付与数は「2」である。これは、有識者達がA曲を聴いた際に、A曲に「上品な」印象を強く感じたことを示している。また、図9を参照すると、「荘厳な」という属性に対応するラベル付与数は、「0」である。これは、有識者達がA曲を聴いた際に、A曲に「荘厳な」印象を特に弱く感じたことを示している。換言すると、有識者達がA曲から「荘厳な」印象を得られなかったことを示している。以上がイメージラベルの説明である。 Referring to Figure 9, the number of labels given corresponding to the attribute "soft" is "1". This indicates that when the experts listened to song A, they did not get a strong "soft" impression of song A, but they did not get a particularly weak impression either. Also, referring to Figure 9, the number of labels given corresponding to the attribute "elegant" is "2". This indicates that when the experts listened to song A, they got a strong "elegant" impression of song A. Also, referring to Figure 9, the number of labels given corresponding to the attribute "solemn" is "0". This indicates that when the experts listened to song A, they got a particularly weak "solemn" impression of song A. In other words, this indicates that the experts did not get a "solemn" impression from song A. This concludes the explanation of image labels.
 図4に戻り、説明を続ける。上述したように、楽曲決定部215は、楽曲データベース235及びシチュエーションテーブル237を参照して、取得したコンテンツの属性に対応する楽曲の候補を決定する。楽曲決定部215は、コンテンツから抽出された特徴情報の属性を属性決定部213から取得する。上述したように、属性には、第1属性および第2属性が含まれる。 Returning to FIG. 4, the explanation will be continued. As described above, the music determination unit 215 refers to the music database 235 and the situation table 237 to determine candidate music corresponding to the attributes of the acquired content. The music determination unit 215 acquires the attributes of the feature information extracted from the content from the attribute determination unit 213. As described above, the attributes include a first attribute and a second attribute.
 楽曲決定部215は、楽曲データベース235に登録された複数の楽曲それぞれについて、取得した属性に対応するスコアを決定する。スコアは、以下の手順で算出される。 The song determination unit 215 determines a score corresponding to the acquired attributes for each of the multiple songs registered in the song database 235. The score is calculated using the following procedure.
 まず、楽曲決定部215は、シチュエーションテーブル237を参照して、取得した属性に含まれる第2属性に対応する楽曲のジャンルを決定する。図10は、シチュエーションテーブル237の一例を示す表である。シチュエーションテーブル237に登録されたシチュエーションは、図6に示したシチュエーションリストに示した24個の属性に対応している。シチュエーションテーブル237では、各シチュエーションと予め決められた楽曲のジャンルとが対応付けられている。 First, the music determination unit 215 refers to the situation table 237 to determine the genre of music that corresponds to the second attribute included in the acquired attributes. FIG. 10 is a table showing an example of the situation table 237. The situations registered in the situation table 237 correspond to the 24 attributes shown in the situation list shown in FIG. 6. In the situation table 237, each situation is associated with a predetermined music genre.
 図10を参照すると、例えば、シチュエーションが「リビング」である場合、対応付けられた楽曲のジャンルは、「Pop(ポップ)」である。また、シチュエーションが「南国」である場合、対応付けられた楽曲のジャンルは「Latin(ラテン)」である。以下では、取得した属性に含まれる第2属性が「リビング」であり、第1属性が「上品な」である場合を一例として説明する。楽曲決定部215は、シチュエーションテーブル237を参照して、「リビング」というシチュエーションに対応する楽曲のジャンルが「Pop(ポップ)」であると決定する。 Referring to FIG. 10, for example, when the situation is "living room", the genre of the associated music is "Pop". Also, when the situation is "Tropical", the genre of the associated music is "Latin". Below, an example will be described in which the second attribute included in the acquired attributes is "living room" and the first attribute is "elegant". The music determination unit 215 refers to the situation table 237 and determines that the genre of the music corresponding to the situation "living room" is "Pop".
 次に、楽曲決定部215は、楽曲データベース235を参照して、決定した楽曲のジャンルに対応するスコア情報合算値を取得する。楽曲決定部215は、決定された楽曲のジャンルが「Pop(ポップ)」である場合、楽曲データベース235に登録された各楽曲について、「Pop(ポップ)」ジャンルに対応するスコア情報合算値を取得する。例えば、楽曲データベース235に登録されたA曲の場合、「Pop(ポップ)」ジャンルに対応するスコア情報合算値は、「0.413」である(図8参照)。楽曲決定部215は、楽曲データベース235に登録された各楽曲についてスコア情報合算値を取得する。 Next, the song determination unit 215 refers to the song database 235 and obtains the score information total value corresponding to the genre of the determined song. If the genre of the determined song is "Pop", the song determination unit 215 obtains the score information total value corresponding to the "Pop" genre for each song registered in the song database 235. For example, for song A registered in the song database 235, the score information total value corresponding to the "Pop" genre is "0.413" (see Figure 8). The song determination unit 215 obtains the score information total value for each song registered in the song database 235.
 次に、楽曲決定部215は、楽曲データベース235を参照して、取得した第1属性に対応するラベル付与数を取得する。取得した第1属性が「上品な」である場合、楽曲決定部215は、各楽曲に関連付けられているイメージラベルを参照して、各楽曲の当該第1属性に対応するラベル付与数を取得する。例えば、A曲の場合、「上品な」に対応するラベル付与数は「2」である(図9参照)。楽曲決定部215は、楽曲データベース235に登録された各楽曲についてラベル付与数を取得する。 Next, the song determination unit 215 refers to the song database 235 to obtain the number of labels assigned corresponding to the obtained first attribute. If the obtained first attribute is "elegant", the song determination unit 215 refers to the image label associated with each song to obtain the number of labels assigned corresponding to the first attribute of each song. For example, in the case of song A, the number of labels assigned corresponding to "elegant" is "2" (see Figure 9). The song determination unit 215 obtains the number of labels assigned for each song registered in the song database 235.
 次に、楽曲決定部215は、取得したスコア情報合算値と取得したラベル付与数とを乗算することによって、楽曲データベース235に登録された複数の楽曲それぞれについて、取得した属性に対応するスコアを算出する。例えば、取得した属性に含まれる第2属性が「リビング」であり、第1属性が「上品な」である場合、A曲のスコアは、0.413×2(「スコア情報合算値」×「ラベル付与数」)=0.826である。楽曲決定部215は、楽曲データベース235に登録された全ての楽曲について、取得した属性に対応するスコアを算出する。楽曲データベース235に登録された楽曲が500個の場合、500曲全てについて、取得した属性に対応するスコアが算出される。 Next, the song determination unit 215 calculates a score corresponding to the acquired attribute for each of the multiple songs registered in the song database 235 by multiplying the acquired score information total value by the acquired number of assigned labels. For example, if the second attribute included in the acquired attributes is "living room" and the first attribute is "elegant", the score of song A is 0.413 x 2 ("total score information value" x "number of assigned labels") = 0.826. The song determination unit 215 calculates a score corresponding to the acquired attribute for all songs registered in the song database 235. If there are 500 songs registered in the song database 235, scores corresponding to the acquired attributes are calculated for all 500 songs.
 楽曲決定部215は、算出されたスコアの数値に基づいて、楽曲データベース235に登録された複数の楽曲から、コンテンツの属性に対応する楽曲の候補を選択する。具体的には、楽曲決定部215は、算出されたスコアの数値が大きな順に1番目~n番目までの楽曲をコンテンツの属性に対応する楽曲の候補として決定してもよい。ここで、nは1以上500以下の任意の整数であり、例えば20であってもよい。楽曲決定部215は、コンテンツの属性に対応する楽曲の候補として決定した楽曲それぞれに対応する楽曲情報を楽曲提供部217に提供する。楽曲提供部217に提供される楽曲情報は、コード進行データおよびスタイル情報の少なくとも1つを含む。 The song determination unit 215 selects song candidates corresponding to the content attribute from among multiple songs registered in the song database 235 based on the calculated score value. Specifically, the song determination unit 215 may determine the first to nth songs in descending order of the calculated score value as song candidates corresponding to the content attribute. Here, n is an arbitrary integer between 1 and 500, and may be, for example, 20. The song determination unit 215 provides song information corresponding to each of the songs determined as song candidates corresponding to the content attribute to the song provision unit 217. The song information provided to the song provision unit 217 includes at least one of chord progression data and style information.
 具体的には、楽曲決定部215は、楽曲データベース235及びシチュエーションテーブル237を参照して、各楽曲に対応するスタイル情報を取得する。上述したように、楽曲決定部215は、シチュエーションテーブル237を参照して、コンテンツの属性に含まれる第2属性に対応するジャンルを得る。楽曲決定部215は、楽曲データベース235を参照して、得られたジャンルに対応するスタイル情報のうち、スコア情報の値が最も大きなスタイル情報を楽曲提供部217に提供するスタイル情報として決定する。楽曲決定部215は、コンテンツの属性に対応する楽曲の候補として決定された各楽曲について、楽曲提供部217に提供するスタイル情報を決定する。例えば、コンテンツの属性に対応する楽曲の候補にA曲が含まれている場合を説明する。図10を参照して説明したように、コンテンツの属性に含まれる第2属性に対応するジャンルが「Pop(ポップ)」である場合、楽曲決定部215は、楽曲データベース235におけるA曲の「Pop(ポップ)」ジャンルに対応するスタイル情報を参照し、スコア情報の値が最も大きなスタイル情報をA曲のスタイル情報として決定する。 Specifically, the music determination unit 215 refers to the music database 235 and the situation table 237 to obtain style information corresponding to each music piece. As described above, the music determination unit 215 refers to the situation table 237 to obtain a genre corresponding to the second attribute included in the attributes of the content. The music determination unit 215 refers to the music database 235 and determines, among the style information corresponding to the obtained genres, the style information having the largest score information value as the style information to be provided to the music provision unit 217. The music determination unit 215 determines the style information to be provided to the music provision unit 217 for each music piece determined as a candidate for a music piece corresponding to the attributes of the content. For example, a case will be described in which a song A is included in the candidates for a music piece corresponding to the attributes of the content. As described with reference to FIG. 10, when the genre corresponding to the second attribute included in the attributes of the content is "Pop", the music determination unit 215 refers to the style information corresponding to the "Pop" genre of song A in the music database 235 and determines the style information having the largest score information value as the style information of song A.
 例えば、図7を参照すると、A曲の「Pop(ポップ)」ジャンルに対応するスタイルは、「Easy Pop(イージーポップ)」及び「80’ Pop(80年代ポップ)」を含む。この中から、最も大きなスコア情報の値を有する「Easy Pop(イージーポップ)」がA曲に対応するスタイル情報として決定される。 For example, referring to FIG. 7, the styles corresponding to the "Pop" genre of song A include "Easy Pop" and "80' Pop." Of these, "Easy Pop," which has the largest score information value, is determined as the style information corresponding to song A.
 また、例えば、コンテンツの属性に含まれる第2属性に対応する楽曲のジャンルが「Rock(ロック)」の場合、A曲の「Rock(ロック)」ジャンルに対応するスタイルのうち、スコア情報の値が最も大きなスタイルがA曲のスタイル情報として決定される。例えば、A曲の「Rock(ロック)」ジャンルに対応する「80’ Pop Rock(80年代ポップロック)」スタイルに対応するスコア情報の値が最も大きい場合、「80’ Pop Rock(80年代ポップロック)」がA曲に対応するスタイル情報として決定される。 Furthermore, for example, if the genre of the song corresponding to the second attribute included in the attributes of the content is "Rock", then among the styles corresponding to the "Rock" genre of song A, the style with the largest score information value is determined as the style information of song A. For example, if the score information value corresponding to the "80' Pop Rock" style corresponding to the "Rock" genre of song A is the largest, "80' Pop Rock" is determined as the style information corresponding to song A.
 楽曲提供部217は、楽曲決定部215から取得した、コンテンツの属性に対応する楽曲の候補として決定されたn個の楽曲それぞれに対応する楽曲情報を通信端末1に提供する。楽曲提供部217は、図1に示すネットワークNWを介して通信端末1に提供する。通信端末1は、コンテンツをサーバ2に提供した通信端末1であってもよい。上述したように、通信端末1に提供される楽曲情報は、コード進行データおよびスタイル情報の少なくとも1つを含む。 The music providing unit 217 provides the communication terminal 1 with music information corresponding to each of the n pieces of music determined as candidates for music corresponding to the attributes of the content, obtained from the music determining unit 215. The music providing unit 217 provides the communication terminal 1 via the network NW shown in FIG. 1. The communication terminal 1 may be the communication terminal 1 that provided the content to the server 2. As described above, the music information provided to the communication terminal 1 includes at least one of chord progression data and style information.
 通信端末1の制御部11は、取得したn個の楽曲の楽曲情報に基づいて、ユーザがコンテンツのBGMを決定するためのユーザインターフェースを表示部14に提供して、楽曲指定処理を実行する。楽曲指定処理は、n個の楽曲それぞれに対応する楽曲情報の中から、ユーザがコンテンツのBGMとして所望する楽曲のスタイルおよびコード進行パターンの少なくとも1つを選択する処理である。 The control unit 11 of the communication terminal 1 provides the display unit 14 with a user interface for the user to determine the background music for the content based on the acquired music information for the n songs, and executes the music selection process. The music selection process is a process in which the user selects at least one of the style and chord progression pattern of the music desired as background music for the content from the music information corresponding to each of the n songs.
 制御部11は、コンテンツのBGMのスタイルをユーザが選択するためのユーザインターフェースを表示部14に提供してもよい。図11は、制御部11によって表示部14に提供される、コンテンツのBGMのスタイルをユーザが選択するためのユーザインターフェースの一例である。 The control unit 11 may provide the display unit 14 with a user interface for the user to select the style of the background music for the content. FIG. 11 is an example of a user interface provided to the display unit 14 by the control unit 11 for the user to select the style of the background music for the content.
 図11に示すように、通信端末1の表示部14には、n個の楽曲それぞれに対応するスタイル情報を示す複数のアイコン1101が表示されてもよい。ユーザは、所望のスタイル情報を示すアイコン1101をタップしてコンテンツのBGMのスタイルを選択することができる。また、n個の楽曲の楽曲情報とともに、スタイル情報に対応するスタイルを再生するためのオーディオデータがサーバ2から提供されてもよい。この場合、各スタイル情報に対応するスタイルを再生するための再生ボタン1103が、スタイル情報を示すアイコン1101とともに表示されてもよい。ユーザは、所望のスタイル情報に対応する再生ボタン1103をタップすることによって、所望のスタイル情報に対応するスタイルを聴いて確認することができる。ユーザは、スタイルを試聴して、コンテンツのBGMに所望するスタイルを選択してもよい。 As shown in FIG. 11, a plurality of icons 1101 indicating style information corresponding to each of n pieces of music may be displayed on the display unit 14 of the communication terminal 1. The user can select the style of the BGM of the content by tapping the icon 1101 indicating the desired style information. In addition, audio data for playing the style corresponding to the style information may be provided from the server 2 together with the music information of the n pieces of music. In this case, a play button 1103 for playing the style corresponding to each piece of style information may be displayed together with the icon 1101 indicating the style information. The user can listen to and check the style corresponding to the desired style information by tapping the play button 1103 corresponding to the desired style information. The user may listen to the styles and select the style desired for the BGM of the content.
 また、制御部11は、コンテンツのBGMのコード進行パターンをユーザが選択するためのユーザインターフェースを表示部14に提供してもよい。図12は、制御部11によって表示部14に提供される、コンテンツのBGMのコード進行パターンをユーザが選択するためのユーザインターフェースの一例である。 The control unit 11 may also provide the display unit 14 with a user interface that allows the user to select a chord progression pattern for the content's background music. FIG. 12 shows an example of a user interface that is provided to the display unit 14 by the control unit 11 and allows the user to select a chord progression pattern for the content's background music.
 図12では、ユーザインターフェースに4つのコード進行パターン(パターンA、パターンB、パターンC、パターンD)を示すアイコン1201が表示されている例を示している。コード進行パターンを示すアイコン1201は、コード進行パターンの印象を示す情報とともに表示されてもよい。ユーザは、コード進行パターンの印象を示す情報に基づいて、コード進行パターンに対応する楽曲の印象を想定することができる。コード進行パターンの印象を示す情報は、コード進行パターンごとに異なってもよい。ユーザは、コード進行パターンを示すアイコン1201をタップしてコンテンツのBGMに所望するコード進行パターンを選択することができる。また、n個の楽曲の楽曲情報とともに、コード進行パターンを再生するためのオーディオデータがサーバ2から提供されてもよい。この場合、各コード進行パターンを再生するための再生ボタン1203が、コード進行パターンを示すアイコン1201とともに表示されてもよい。ユーザは、所望のコード進行パターンに対応する再生ボタン1203をタップすることによって、所望のコード進行パターンを聴いて確認することができる。ユーザは、コード進行パターンを試聴して、コンテンツのBGMに所望するコード進行パターンを選択してもよい。 12 shows an example in which icons 1201 showing four chord progression patterns (pattern A, pattern B, pattern C, pattern D) are displayed on the user interface. The icon 1201 showing the chord progression pattern may be displayed together with information showing the impression of the chord progression pattern. Based on the information showing the impression of the chord progression pattern, the user can imagine the impression of the music corresponding to the chord progression pattern. The information showing the impression of the chord progression pattern may be different for each chord progression pattern. The user can select the chord progression pattern desired for the BGM of the content by tapping the icon 1201 showing the chord progression pattern. In addition, audio data for playing the chord progression pattern may be provided from the server 2 together with the music information of the n songs. In this case, a play button 1203 for playing each chord progression pattern may be displayed together with the icon 1201 showing the chord progression pattern. The user can listen to and check the desired chord progression pattern by tapping the play button 1203 corresponding to the desired chord progression pattern. The user may listen to the chord progression pattern and select the chord progression pattern desired for the BGM of the content.
 制御部11は、コンテンツのBGMのスタイルをユーザが選択するためのユーザインターフェース、およびコンテンツのBGMのコード進行パターンをユーザが選択するためのユーザインターフェースの少なくとも1つを、ユーザがコンテンツのBGMを決定するためのユーザインターフェースとして提供する。 The control unit 11 provides at least one of a user interface for the user to select the style of the content's background music and a user interface for the user to select the chord progression pattern of the content's background music as a user interface for the user to determine the content's background music.
 制御部11は、コンテンツのBGMのスタイルをユーザが選択するためのユーザインターフェース、およびコンテンツのBGMのコード進行パターンをユーザが選択するためのユーザインターフェースの両方を提供してもよい。n個の楽曲のうち、複数の楽曲でスタイル情報又はコード進行パターンが重複している場合がある。ユーザが選択したスタイル又はコード進行パターンが複数の楽曲で重複している場合、制御部11によって、ユーザがコンテンツのBGMのスタイルおよびコード進行パターンの両方を選択することによって、最終的に生成される楽曲をユーザの所望の楽曲により近づけることができる。 The control unit 11 may provide both a user interface for the user to select the style of the content's background music, and a user interface for the user to select the chord progression pattern of the content's background music. There may be cases where the style information or chord progression pattern overlaps between multiple songs among the n songs. When the style or chord progression pattern selected by the user overlaps between multiple songs, the control unit 11 allows the user to select both the style and chord progression pattern of the content's background music, thereby enabling the ultimately generated song to be closer to the song desired by the user.
 制御部11は、ユーザによって選択されたスタイル情報およびコード進行パターンの少なくとも1つを、通信部13から図1に示すネットワークNWを介してサーバ2に提供する。 The control unit 11 provides at least one of the style information and chord progression pattern selected by the user to the server 2 from the communication unit 13 via the network NW shown in FIG. 1.
 図4に戻り、サーバ2による楽曲生成処理について説明を続ける。ユーザによって選択されたスタイル情報およびコード進行パターンの少なくとも1つは、サーバ2の制御部21の楽曲生成部219に提供される。楽曲生成部219は、取得したスタイル情報およびコード進行パターンの少なくとも1つに基づいて、公知の楽曲生成技術を用いてコンテンツに付与される楽曲に対応する楽曲データを生成する。さらに、楽曲生成部219は、生成した楽曲データを用いて、楽曲と該楽曲に対応するコンテンツとを同期して再生するためコンテンツ再生データを生成する。 Returning to FIG. 4, the explanation of the music generation process by the server 2 will continue. At least one of the style information and chord progression pattern selected by the user is provided to the music generation unit 219 of the control unit 21 of the server 2. Based on the acquired style information and at least one of the chord progression pattern, the music generation unit 219 generates music data corresponding to the music to be added to the content using known music generation technology. Furthermore, the music generation unit 219 uses the generated music data to generate content playback data for playing the music and the content corresponding to the music in sync.
 サーバ2は、楽曲生成部219によって生成されたコンテンツ再生データを、通信部25からネットワークNWを介して通信端末1に提供する。コンテンツ再生データは、通信端末1からのリクエストに応じて提供されてもよい。 The server 2 provides the content playback data generated by the music generation unit 219 to the communication terminal 1 from the communication unit 25 via the network NW. The content playback data may be provided in response to a request from the communication terminal 1.
[楽曲生成処理フロー]
 図13は、一実施形態における楽曲生成処理を示すフローチャートである。楽曲生成処理は、以上に説明したように、サーバ2の制御部21によって実行される。
[Music creation process flow]
13 is a flowchart showing the music generation process according to an embodiment of the present invention. As described above, the music generation process is executed by the control unit 21 of the server 2.
 制御部21は、通信端末1からコンテンツを受信するまで待機する(S1301;NO)。ユーザが通信端末1を操作して、コンテンツの送信を指示すると、通信端末1は、コンテンツをサーバ2に送信する。サーバ2がコンテンツを受信すると(S1301;YES)、制御部21は、受信したコンテンツの特徴情報を抽出する(S1303)。制御部21は、公知の画像解析技術、形態素解析を利用してコンテンツから特徴情報を抽出する。 The control unit 21 waits until content is received from the communication terminal 1 (S1301; NO). When the user operates the communication terminal 1 to instruct transmission of content, the communication terminal 1 transmits the content to the server 2. When the server 2 receives the content (S1301; YES), the control unit 21 extracts feature information of the received content (S1303). The control unit 21 extracts feature information from the content using known image analysis techniques and morphological analysis.
 制御部21は、抽出した特徴情報を学習済モデル233に提供する(S1305)。制御部21は、学習済モデル233による演算処理を実行して、学習済モデル233からコンテンツの属性を取得する(S1307)。コンテンツの属性は、図5に示した印象リストから選択された1つの属性(第1属性)と、図6に示したシチュエーションリストから選択された1つの属性(第2属性)とを含む。 The control unit 21 provides the extracted feature information to the trained model 233 (S1305). The control unit 21 executes calculation processing by the trained model 233 to obtain the attributes of the content from the trained model 233 (S1307). The attributes of the content include one attribute (first attribute) selected from the impression list shown in FIG. 5 and one attribute (second attribute) selected from the situation list shown in FIG. 6.
 制御部21は、取得したコンテンツの属性に基づいて、コンテンツに対応する楽曲の候補を決定する(S1309)。制御部21は、楽曲データベース235およびシチュエーションテーブル237を参照し、楽曲の候補を決定する。制御部21は、決定した楽曲の候補に対応する楽曲情報を通信端末1に提供する(S1311)。ここで、楽曲情報は、楽曲の候補として決定され各楽曲に関連付けられた、スタイル情報およびコード進行パターンのうち少なくとも1つを含む。 The control unit 21 determines song candidates corresponding to the content based on the attributes of the acquired content (S1309). The control unit 21 determines the song candidates by referring to the song database 235 and the situation table 237. The control unit 21 provides the communication terminal 1 with song information corresponding to the determined song candidates (S1311). Here, the song information includes at least one of style information and chord progression patterns associated with each song determined as a song candidate.
 楽曲の候補に対応する楽曲情報を取得した通信端末1は、ユーザインターフェース提供する。ユーザは、ユーザインターフェースを介してコンテンツにBGMとして付与する楽曲の楽曲情報を選択して、サーバ2に送信する。 The communication terminal 1, which has acquired the song information corresponding to the candidate songs, provides a user interface. The user selects the song information of the song to be added as background music to the content via the user interface and transmits it to the server 2.
 制御部21は、ユーザによって選択された楽曲情報を取得する(S1313)。取得された楽曲情報は、ユーザによって選択されたスタイル情報およびコード進行パターンの少なくとも1つを含む。 The control unit 21 acquires the music information selected by the user (S1313). The acquired music information includes at least one of the style information and the chord progression pattern selected by the user.
 制御部21は、取得した楽曲情報に基づいて楽曲データを生成する(S1315)。制御部21は、公知の楽曲生成技術を用いて楽曲データを生成する。制御部21は、生成された楽曲データを用いて、楽曲と該楽曲に対応するコンテンツとを同期して再生するためコンテンツ再生データを生成する(S1317)。 The control unit 21 generates music data based on the acquired music information (S1315). The control unit 21 generates the music data using known music generation technology. The control unit 21 uses the generated music data to generate content playback data for playing the music and the content corresponding to the music in synchronization (S1317).
 制御部21は、生成されたコンテンツ再生データを、通信端末1からのリクエストに応じて通信端末1に提供してもよい。以上が、制御部21によって実行される楽曲生成処理の一連のフローである。 The control unit 21 may provide the generated content playback data to the communication terminal 1 in response to a request from the communication terminal 1. The above is a series of flows for the music generation process executed by the control unit 21.
[楽曲再生処理]
 通信端末1は、ユーザの指示に応じて、サーバ2からコンテンツ再生データを取得して、楽曲再生処理を実行することができる。通信端末1は、ネットワークNWを介してサーバ2からコンテンツ再生データを取得する。ユーザが、通信端末1の操作部15を介して、コンテンツの再生指示を入力すると、通信端末1において、コンテンツとともに楽曲が再生される。コンテンツは、サーバ2に提供された動画および静止画を含む画像であってもよい。サーバ2に提供されたコンテンツが文章(文字列)である場合、通信端末1において再生されるコンテンツは、該文章(文字列)を含む画像であってもよい。コンテンツとともに再生される楽曲は、通信端末1のスピーカ16を介して放音される。以上が、通信端末1によって実行される楽曲再生処理である。
[Music playback processing]
The communication terminal 1 can acquire content playback data from the server 2 in response to an instruction from a user, and execute a music playback process. The communication terminal 1 acquires content playback data from the server 2 via the network NW. When a user inputs an instruction to play content via the operation unit 15 of the communication terminal 1, music is played along with the content in the communication terminal 1. The content may be images including videos and still images provided to the server 2. When the content provided to the server 2 is text (character string), the content played in the communication terminal 1 may be an image including the text (character string). The music played along with the content is output via the speaker 16 of the communication terminal 1. The above is the music playback process executed by the communication terminal 1.
 このようにして、通信端末1から提供されたコンテンツから特徴情報を抽出し、抽出した特徴情報を学習済モデル233に提供することによって、サーバ2は、コンテンツの属性を自動的に取得することができる。得られた属性に基づいて、楽曲を生成することにより、サーバ2は、コンテンツにマッチした楽曲を生成して提供することができる。また、ユーザは、BGMの付与を所望するコンテンツを入力すると、自動的に生成された該コンテンツに適した楽曲と、該コンテンツとを同期して再生させるためのコンテンツ再生データを取得することができるという顧客体験を享受することができる。 In this way, by extracting feature information from the content provided by the communication terminal 1 and providing the extracted feature information to the trained model 233, the server 2 can automatically obtain the attributes of the content. By generating music based on the obtained attributes, the server 2 can generate and provide music that matches the content. In addition, when the user inputs the content to which they wish to add background music, they can enjoy the customer experience of being able to obtain automatically generated music that is suitable for the content and content playback data for playing the content in sync.
[変形例]
 本開示は、上述した実施形態に限定されるものではなく、他の様々な変形例が含まれる。例えば、上述した実施形態は本開示を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。実施形態の構成の一部について、他の構成を追加、削除、置換してもよい。以下、一部の変形例について説明する。
[Modification]
The present disclosure is not limited to the above-described embodiment, and includes various other modified examples. For example, the above-described embodiment has been described in detail to clearly explain the present disclosure, and is not necessarily limited to those having all of the configurations described. Other configurations may be added, deleted, or replaced with respect to a part of the configuration of the embodiment. Some modified examples will be described below.
(1)上述した実施形態においては、サーバ2の楽曲決定部215は、算出されたスコアの数値が大きなランキング順に1番目~n番目(nは、1以上500以下の任意の整数。例えば20)までの楽曲をコンテンツの属性に対応する楽曲の候補として決定した。しかしながら、楽曲決定部215は、所定のアルゴリズムに基づいて、算出されたスコアの数値が大きなランキング順に1番目~m番目(mは、1以上500以下の任意の整数であり、且つm>nである。例えば40であってもよい。)までの楽曲を抽出し、その中からランダムにn個(例えば20個)の楽曲を選択し、選択された楽曲をコンテンツの属性に対応する楽曲の候補として決定してもよい。 (1) In the above-described embodiment, the music determination unit 215 of the server 2 determined the songs ranked 1st to nth (n is any integer between 1 and 500, inclusive; for example, 20) in descending order of calculated score values as candidates for music corresponding to the attributes of the content. However, the music determination unit 215 may extract the songs ranked 1st to mth (m is any integer between 1 and 500, inclusive, and m>n; for example, it may be 40) in ascending order of calculated score values based on a predetermined algorithm, randomly select n songs (for example, 20 songs) from among them, and determine the selected songs as candidates for music corresponding to the attributes of the content.
(2)上述した実施形態においては、ユーザは、通信端末1に提供されたユーザインターフェースを介して、コンテンツにBGMとして付与する楽曲のスタイル情報およびコード進行パターンのうちの少なくとも1つを選択した。通信端末1の制御部11は、スタイル情報およびコード進行パターンに加え、さらなる付加情報をユーザに設定させるためのユーザインターフェースを通信端末1の表示部14に提供してもよい。 (2) In the above-described embodiment, the user selected at least one of the style information and the chord progression pattern of the music to be added as BGM to the content via a user interface provided to the communication terminal 1. The control unit 11 of the communication terminal 1 may provide a user interface to the display unit 14 of the communication terminal 1 for allowing the user to set further additional information in addition to the style information and the chord progression pattern.
 さらなる付加情報としては、例えば、コンテンツのBGMとして付与する楽曲のテンポ、楽曲の再生時間、楽曲の抑揚、メロディー、歌詞などが挙げられる。通信端末1は、ユーザが設定した付加情報をサーバ2に提供してもよい。サーバ2の制御部21は、通信端末1から提供された付加情報を楽曲データに反映することができる。 Further additional information may include, for example, the tempo of the music to be added as background music for the content, the playback time of the music, the intonation of the music, the melody, and lyrics. The communication terminal 1 may provide the server 2 with additional information set by the user. The control unit 21 of the server 2 can reflect the additional information provided by the communication terminal 1 in the music data.
 (3)上述した実施形態では、ユーザは、通信端末1に提供されたユーザインターフェースを介して、コンテンツにBGMとして付与する楽曲のコード進行パターンを選択することができる。しかしながら、ユーザは、通信端末1に提供されたユーザインターフェースを介して、コンテンツにBGMとして付与する楽曲のコード進行パターンを編集してもよい。さらに、ユーザは、編集したコード進行パターンを試聴することができてもよい。ユーザは、編集したコード進行パターンを試聴して、さらにコード進行パターンを編集することができる。 (3) In the above-described embodiment, the user can select the chord progression pattern of the music to be added to the content as BGM via a user interface provided on the communication terminal 1. However, the user may also edit the chord progression pattern of the music to be added to the content as BGM via a user interface provided on the communication terminal 1. Furthermore, the user may be able to preview the edited chord progression pattern. The user can preview the edited chord progression pattern and further edit the chord progression pattern.
 通信端末1は、ユーザが設定したコード進行パターンをサーバ2に提供してもよい。サーバ2の制御部21は、通信端末1から取得した、ユーザによって設定されたコード進行パターンに基づいて楽曲データを生成してもよい。 The communication terminal 1 may provide the server 2 with a chord progression pattern set by the user. The control unit 21 of the server 2 may generate music data based on the chord progression pattern set by the user, which is obtained from the communication terminal 1.
 (4)サーバ2によって生成されたコンテンツ再生データは、コンテンツをサーバ2に提供した通信端末1だけではなく、ネットワークNWを介してサーバ2に接続することができる他の通信端末1も取得することができる。 (4) The content playback data generated by the server 2 can be obtained not only by the communication terminal 1 that provided the content to the server 2, but also by other communication terminals 1 that can connect to the server 2 via the network NW.
 以上が変形例に関する説明である。 The above is an explanation of the modified version.
 以上のとおり、本発明の一実施形態によれば、入力されたコンテンツから、当該コンテンツに含まれる特徴情報を抽出し、複数の属性のうち、前記抽出された特徴情報に対応する少なくとも1つの属性を決定し、前記決定された属性に対応する伴奏パターンおよびコード進行パターンを決定し、前記決定された伴奏パターンおよびコード進行パターンに基づく楽曲を生成することを含む、楽曲生成方法が提供される。 As described above, according to one embodiment of the present invention, a music generation method is provided that includes extracting feature information contained in input content from the content, determining at least one attribute from among a plurality of attributes that corresponds to the extracted feature information, determining an accompaniment pattern and a chord progression pattern that correspond to the determined attribute, and generating a music piece based on the determined accompaniment pattern and chord progression pattern.
 前記コンテンツは画像を含み、前記特徴情報は、前記画像から抽出されるオブジェクトを含んでもよい。 The content may include an image, and the feature information may include objects extracted from the image.
 前記コンテンツは文章を含み、前記特徴情報は、前記文章から抽出される形態素を含んでもよい。 The content may include sentences, and the feature information may include morphemes extracted from the sentences.
 前記複数の属性は、第1属性グループと第2属性グループとを含む複数のグループのいずれかに区分され、前記決定される属性は、前記第1属性グループに含まれる属性と前記第2属性グループに含まれる属性とを含んでもよい。 The multiple attributes may be divided into multiple groups including a first attribute group and a second attribute group, and the determined attributes may include an attribute included in the first attribute group and an attribute included in the second attribute group.
 前記決定される属性は、特徴情報と属性との関係を学習させた学習済モデルに対して、前記抽出された特徴情報を入力することによって当該学習済モデルから得られた情報に基づいて決定されてもよい。 The determined attributes may be determined based on information obtained from a trained model that has learned the relationship between feature information and attributes by inputting the extracted feature information into the trained model.
 前記伴奏パターンおよび前記コード進行パターンを決定することは、前記決定された属性に対応する複数の前記伴奏パターンを特定し、前記特定された複数の伴奏パターンから少なくとも1つをユーザに選択させるためのユーザインターフェースを提供し、前記選択された伴奏パターンを前記決定された属性に対応する伴奏パターンとして決定すること、を含んでもよい。 Determining the accompaniment pattern and the chord progression pattern may include identifying a plurality of accompaniment patterns corresponding to the determined attributes, providing a user interface for allowing a user to select at least one of the identified plurality of accompaniment patterns, and determining the selected accompaniment pattern as the accompaniment pattern corresponding to the determined attributes.
 前記決定された属性に対応する複数の前記伴奏パターンを特定することは、前記所定のアルゴリズムにしたがって前記複数の伴奏パターンを特定することを含み、前記所定のアルゴリズムによって第1属性に対して特定される前記複数の伴奏パターンが、第1組み合わせとなる場合と第2組み合わせとなる場合とを含んでもよい。  Identifying the multiple accompaniment patterns corresponding to the determined attribute includes identifying the multiple accompaniment patterns according to the predetermined algorithm, and may include cases where the multiple accompaniment patterns identified for a first attribute by the predetermined algorithm are a first combination and a second combination.
 前記伴奏パターンおよび前記コード進行パターンを決定することは、前記決定された属性に対応する複数の前記コード進行パターンを特定し、前記特定された複数のコード進行パターンから少なくとも1つをユーザに選択させるためのユーザインターフェースを提供し、前記選択されたコード進行パターンを前記決定された属性に対応するコード進行パターンして決定すること、を含んでもよい。  Determining the accompaniment pattern and the chord progression pattern may include identifying a plurality of the chord progression patterns corresponding to the determined attribute, providing a user interface for allowing a user to select at least one of the identified plurality of chord progression patterns, and determining the selected chord progression pattern as the chord progression pattern corresponding to the determined attribute.
 前記決定された属性に対応する複数の前記コード進行パターンを特定することは、前記所定のアルゴリズムにしたがって前記複数のコード進行パターンを特定することを含み、前記所定のアルゴリズムによって第1属性に対して特定される前記複数のコード進行パターンが、第1組み合わせとなる場合と第2組み合わせとなる場合とを含んでもよい。  Identifying the multiple chord progression patterns corresponding to the determined attribute includes identifying the multiple chord progression patterns according to the predetermined algorithm, and may include cases where the multiple chord progression patterns identified for a first attribute by the predetermined algorithm are a first combination and a second combination.
 前記楽曲の付加情報をユーザに設定させるためのユーザインターフェースを提供することをさらに含み、前記楽曲は、さらに前記設定された付加情報に基づいて生成されてもよい。  The method may further include providing a user interface for allowing a user to set additional information for the song, and the song may be generated based on the set additional information.
 前記生成した楽曲と前記入力されたコンテンツとを同期して再生するためデータを出力することをさらに含んでもよい。 This may further include outputting data for playing the generated music in sync with the input content.
 また、本発明の一実施形態によれば、入力されたコンテンツから、当該コンテンツに含まれる特徴情報を抽出し、複数の属性のうち、前記抽出された特徴情報に対応する少なくとも1つの属性を決定し、前記決定された属性に対応する伴奏パターンおよびコード進行パターンを決定し、前記決定された伴奏パターンおよびコード進行パターンに基づく楽曲を生成すること、をコンピュータに実行させるためのプログラムが提供されてもよい。 According to one embodiment of the present invention, a program may be provided to cause a computer to execute the following operations: extracting characteristic information contained in input content from the content; determining at least one attribute from among a plurality of attributes that corresponds to the extracted characteristic information; determining an accompaniment pattern and a chord progression pattern that correspond to the determined attribute; and generating a piece of music based on the determined accompaniment pattern and chord progression pattern.
 尚、一実施形態に係るプログラム(プログラム製品)は、コンピュータで読み取り可能な記録媒体で提供されてもよく、外部のサーバなどネットワーク経由で配信される形態で提供されてもよい。 In addition, the program (program product) according to one embodiment may be provided on a computer-readable recording medium, or may be provided in a form distributed via a network, such as from an external server.
 また、本発明の一実施形態によれば、通信端末からコンテンツを受信する通信部と、受信したコンテンツに基づいて楽曲を生成する制御部と、を含む楽曲生成装置(サーバ)が提供されてもよい。制御部は、楽曲生成処理を実行する。制御部は、受信したコンテンツから、当該コンテンツに含まれる特徴情報を抽出し、複数の属性のうち、抽出された特徴情報に対応する少なくとも1つの属性を決定する。さらに制御部は、決定された属性に対応する伴奏パターンおよびコード進行パターンを決定し、決定された伴奏パターンおよびコード進行パターンに基づいて楽曲を生成する。 According to one embodiment of the present invention, a music generating device (server) may be provided that includes a communication unit that receives content from a communication terminal, and a control unit that generates music based on the received content. The control unit executes a music generating process. The control unit extracts feature information contained in the received content from the content, and determines at least one attribute from among a plurality of attributes that corresponds to the extracted feature information. The control unit further determines an accompaniment pattern and a chord progression pattern that correspond to the determined attribute, and generates music based on the determined accompaniment pattern and chord progression pattern.
 また、本発明の一実施形態によれば、一つ以上の通信端末と、サーバと、を含む楽曲生成システムが提供されてもよい。一つ以上の通信端末とサーバとは、インターネットなどのネットワークを介して接続されている。各通信端末は、ネットワークを介してコンテンツをサーバに送信する。コンテンツは、ユーザがBGMの付与を所望するコンテンツである。サーバは、通信端末からコンテンツを受信する通信部と、受信したコンテンツに基づいて楽曲を生成する制御部と、を含む。制御部は、受信したコンテンツから、当該コンテンツに含まれる特徴情報を抽出し、複数の属性のうち、抽出された特徴情報に対応する少なくとも1つの属性を決定する。さらに制御部は、決定された属性に対応する伴奏パターンおよびコード進行パターンを決定し、決定された伴奏パターンおよびコード進行パターンに基づいて楽曲を生成する。 According to one embodiment of the present invention, a music composition system may be provided that includes one or more communication terminals and a server. The one or more communication terminals and the server are connected via a network such as the Internet. Each communication terminal transmits content to the server via the network. The content is content to which a user wishes to add background music. The server includes a communication unit that receives the content from the communication terminal, and a control unit that generates music based on the received content. The control unit extracts feature information contained in the received content from the content, and determines at least one attribute, out of multiple attributes, that corresponds to the extracted feature information. The control unit further determines an accompaniment pattern and a chord progression pattern that correspond to the determined attribute, and generates music based on the determined accompaniment pattern and chord progression pattern.
1:通信端末、2:サーバ、11:制御部、12:記憶部、13:通信部、14:表示部、15:操作部、16:スピーカ、17:バス、21:制御部、23:記憶部、25:通信部、211:特徴抽出部、213:属性決定部、215:楽曲決定部、217:楽曲提供部、219:楽曲生成部、231:プログラム、233:学習済モデル、235:楽曲データベース、237:シチュエーションテーブル、1000:楽曲生成システム 1: Communication terminal, 2: Server, 11: Control unit, 12: Memory unit, 13: Communication unit, 14: Display unit, 15: Operation unit, 16: Speaker, 17: Bus, 21: Control unit, 23: Memory unit, 25: Communication unit, 211: Feature extraction unit, 213: Attribute determination unit, 215: Music determination unit, 217: Music provision unit, 219: Music generation unit, 231: Program, 233: Trained model, 235: Music database, 237: Situation table, 1000: Music generation system

Claims (12)

  1.  入力されたコンテンツから、当該コンテンツに含まれる特徴情報を抽出し、
     複数の属性のうち、前記抽出された特徴情報に対応する少なくとも1つの属性を決定し、
     前記決定された属性に対応する伴奏パターンおよびコード進行パターンを決定し、
     前記決定された伴奏パターンおよびコード進行パターンに基づく楽曲を生成する、
     ことを含む、楽曲生成方法。
    Extracting feature information contained in the input content from the input content;
    determining at least one attribute among a plurality of attributes corresponding to the extracted feature information;
    determining an accompaniment pattern and a chord progression pattern corresponding to the determined attributes;
    generating a piece of music based on the determined accompaniment pattern and chord progression pattern;
    A method for generating music, comprising:
  2.  前記コンテンツは画像を含み、
     前記特徴情報は、前記画像から抽出されるオブジェクトを含む、
     請求項1に記載の楽曲生成方法。
    the content includes an image;
    The feature information includes objects extracted from the image.
    The music generating method according to claim 1 .
  3.  前記コンテンツは文章を含み、
     前記特徴情報は、前記文章から抽出される形態素を含む、
     請求項1に記載の楽曲生成方法。
    The content includes text;
    The feature information includes morphemes extracted from the sentence.
    The music generating method according to claim 1 .
  4.  前記複数の属性は、第1属性グループと第2属性グループとを含む複数のグループのいずれかに区分され、
     前記決定される属性は、前記第1属性グループに含まれる属性と前記第2属性グループに含まれる属性とを含む、
     請求項1に記載の楽曲生成方法。
    The plurality of attributes are divided into a plurality of groups including a first attribute group and a second attribute group,
    The determined attributes include attributes included in the first attribute group and attributes included in the second attribute group.
    The music generating method according to claim 1 .
  5.  前記決定される属性は、特徴情報と属性との関係を学習させた学習済モデルに対して、前記抽出された特徴情報を入力することによって当該学習済モデルから得られた情報に基づいて決定される、請求項1に記載の楽曲生成方法。 The music generation method according to claim 1, wherein the determined attributes are determined based on information obtained from a trained model that has learned the relationship between feature information and attributes by inputting the extracted feature information into the trained model.
  6.  前記伴奏パターンおよび前記コード進行パターンを決定することは、
     前記決定された属性に対応する複数の前記伴奏パターンを特定し、
     前記特定された複数の伴奏パターンから少なくとも1つをユーザに選択させるためのユーザインターフェースを提供し、
     前記選択された伴奏パターンを前記決定された属性に対応する伴奏パターンとして決定すること、
     を含む、
     請求項1に記載の楽曲生成方法。
    Determining the accompaniment pattern and the chord progression pattern includes:
    identifying a plurality of said accompaniment patterns corresponding to said determined attributes;
    providing a user interface for allowing a user to select at least one of the identified accompaniment patterns;
    determining the selected accompaniment pattern as the accompaniment pattern corresponding to the determined attribute;
    including,
    The music generating method according to claim 1 .
  7.  前記決定された属性に対応する複数の前記伴奏パターンを特定することは、
     前記所定のアルゴリズムにしたがって前記複数の伴奏パターンを特定することを含み、
     前記所定のアルゴリズムによって第1属性に対して特定される前記複数の伴奏パターンが、第1組み合わせとなる場合と第2組み合わせとなる場合とを含む、
     請求項6に記載の楽曲生成方法。
    Identifying a plurality of the accompaniment patterns corresponding to the determined attributes includes:
    determining the plurality of accompaniment patterns in accordance with the predetermined algorithm;
    the plurality of accompaniment patterns identified for a first attribute by the predetermined algorithm include a first combination and a second combination;
    The music generating method according to claim 6.
  8.  前記伴奏パターンおよび前記コード進行パターンを決定することは、
     前記決定された属性に対応する複数の前記コード進行パターンを特定し、
     前記特定された複数のコード進行パターンから少なくとも1つをユーザに選択させるためのユーザインターフェースを提供し、
     前記選択されたコード進行パターンを前記決定された属性に対応するコード進行パターンして決定すること、
     を含む、
     請求項1に記載の楽曲生成方法。
    Determining the accompaniment pattern and the chord progression pattern includes:
    identifying a plurality of said chord progression patterns corresponding to said determined attributes;
    providing a user interface for allowing a user to select at least one of the identified chord progression patterns;
    determining the selected chord progression pattern as a chord progression pattern corresponding to the determined attribute;
    including,
    The music generating method according to claim 1 .
  9.  前記決定された属性に対応する複数の前記コード進行パターンを特定することは、
     前記所定のアルゴリズムにしたがって前記複数のコード進行パターンを特定することを含み、
     前記所定のアルゴリズムによって第1属性に対して特定される前記複数のコード進行パターンが、第1組み合わせとなる場合と第2組み合わせとなる場合とを含む、
     請求項8に記載の楽曲生成方法。
    Identifying a plurality of chord progression patterns corresponding to the determined attributes includes:
    identifying the plurality of chord progression patterns in accordance with the predetermined algorithm;
    the plurality of chord progression patterns identified for a first attribute by the predetermined algorithm include a first combination and a second combination,
    The method of producing music according to claim 8.
  10.  前記楽曲の付加情報をユーザに設定させるためのユーザインターフェースを提供することをさらに含み、
     前記楽曲は、さらに前記設定された付加情報に基づいて生成される、
     請求項1に記載の楽曲生成方法。
    providing a user interface for allowing a user to set additional information of the music piece;
    The music is further generated based on the set additional information.
    The music generating method according to claim 1 .
  11.  前記生成した楽曲と前記入力されたコンテンツとを同期して再生するためデータを出力することをさらに含む、請求項1に記載の楽曲生成方法。 The music generation method of claim 1, further comprising outputting data for playing the generated music in synchronization with the input content.
  12.  入力されたコンテンツから、当該コンテンツに含まれる特徴情報を抽出し、
     複数の属性のうち、前記抽出された特徴情報に対応する少なくとも1つの属性を決定し、
     前記決定された属性に対応する伴奏パターンおよびコード進行パターンを決定し、
     前記決定された伴奏パターンおよびコード進行パターンに基づく楽曲を生成すること、
     をコンピュータに実行させるためのプログラム。
    Extracting feature information contained in the input content from the input content;
    determining at least one attribute among a plurality of attributes corresponding to the extracted feature information;
    determining an accompaniment pattern and a chord progression pattern corresponding to the determined attributes;
    generating a piece of music based on the determined accompaniment pattern and chord progression pattern;
    A program for causing a computer to execute the following.
PCT/JP2023/030524 2022-10-06 2023-08-24 Musical composition creation method and program WO2024075422A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-161836 2022-10-06
JP2022161836A JP2024055146A (en) 2022-10-06 2022-10-06 Music composition method and program

Publications (1)

Publication Number Publication Date
WO2024075422A1 true WO2024075422A1 (en) 2024-04-11

Family

ID=90607919

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/030524 WO2024075422A1 (en) 2022-10-06 2023-08-24 Musical composition creation method and program

Country Status (2)

Country Link
JP (1) JP2024055146A (en)
WO (1) WO2024075422A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004163511A (en) * 2002-11-11 2004-06-10 Sony Ericsson Mobilecommunications Japan Inc Mobile terminal device
JP2011175006A (en) * 2010-02-23 2011-09-08 Sony Corp Information processing apparatus, automatic composition method, learning device, learning method and program
WO2021106512A1 (en) * 2019-11-29 2021-06-03 ヤマハ株式会社 Musical piece creation method and musical piece creation system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004163511A (en) * 2002-11-11 2004-06-10 Sony Ericsson Mobilecommunications Japan Inc Mobile terminal device
JP2011175006A (en) * 2010-02-23 2011-09-08 Sony Corp Information processing apparatus, automatic composition method, learning device, learning method and program
WO2021106512A1 (en) * 2019-11-29 2021-06-03 ヤマハ株式会社 Musical piece creation method and musical piece creation system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIGEKI SAGAYAMA: "Automatic Song Composition from Japanese Lyrics Based on a Probabilistic Approach", SYSTEMS, CONTROL AND INFORMATION, vol. 56, no. 5, 1 January 2012 (2012-01-01), pages 219 - 225, XP093156797, DOI: 10.11509/isciesci.56.5_219 *
SHIMIZU, YURINA; KANNO, SAYA; ITOH, TAKAYUKI; SAGAYAMA, SHIGEKI; TAKATSUKA, MASAHIRO: "Automatic material selection for video BGM based on impression estimation from video features", IPSJ TECHNICAL REPORT, INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 2016-MUS-110, no. 16, 1 March 2016 (2016-03-01), pages 1 - 6, XP009554355 *

Also Published As

Publication number Publication date
JP2024055146A (en) 2024-04-18

Similar Documents

Publication Publication Date Title
US6504089B1 (en) System for and method of searching music data, and recording medium for use therewith
EP3047478B1 (en) Combining audio samples by automatically adjusting sample characteristics
EP3047479B1 (en) Automatically expanding sets of audio samples
US11475867B2 (en) Method, system, and computer-readable medium for creating song mashups
US20150120286A1 (en) Apparatus, process, and program for combining speech and audio data
CN112185321B (en) Song generation
EP2073193A1 (en) Method and device for generating a soundtrack
EP2442299B1 (en) Information processing apparatus, information processing method, and program
Vogl et al. An intelligent drum machine for electronic dance music production and performance.
Canazza et al. Caro 2.0: an interactive system for expressive music rendering
Bretan et al. Chronicles of a Robotic Musical Companion.
WO2024075422A1 (en) Musical composition creation method and program
Zhang et al. Influence of musical elements on the perception of ‘Chinese style’in music
Goto et al. PodCastle and Songle: Crowdsourcing-Based Web Services for Retrieval and Browsing of Speech and Music Content.
JPH11184883A (en) Music retrieval system and method and record medium
JP5085577B2 (en) Playlist creation device, music playback device, playlist creation method, and playlist creation program
CN114974184A (en) Audio production method and device, terminal equipment and readable storage medium
US20220391438A1 (en) Information processing apparatus, information processing method, and program
Hirai et al. Latent topic similarity for music retrieval and its application to a system that supports DJ performance
Ghosh et al. A comprehensive survey of personalized music identifier system
KR102490769B1 (en) Method and device for evaluating ballet movements based on ai using musical elements
WO2021106693A1 (en) Information processing device, information processing method, and information processing program
CN112528631B (en) Intelligent accompaniment system based on deep learning algorithm
Kanno et al. Music synthesis based on impression and emotion of input narratives
WO2023112534A1 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23874554

Country of ref document: EP

Kind code of ref document: A1