WO2020080268A1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
WO2020080268A1
WO2020080268A1 PCT/JP2019/040130 JP2019040130W WO2020080268A1 WO 2020080268 A1 WO2020080268 A1 WO 2020080268A1 JP 2019040130 W JP2019040130 W JP 2019040130W WO 2020080268 A1 WO2020080268 A1 WO 2020080268A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature amount
content
information processing
partial data
data
Prior art date
Application number
PCT/JP2019/040130
Other languages
English (en)
French (fr)
Inventor
健人 赤間
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to DE112019005201.2T priority Critical patent/DE112019005201T5/de
Priority to EP19874236.3A priority patent/EP3716262A4/en
Priority to CN201980006383.4A priority patent/CN111492424A/zh
Priority to JP2020527832A priority patent/JP7439755B2/ja
Priority to US16/772,168 priority patent/US11880748B2/en
Publication of WO2020080268A1 publication Critical patent/WO2020080268A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/131Morphing, i.e. transformation of a musical piece into a new different one, e.g. remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and an information processing program. Specifically, it relates to a generation process of a trained model generated through machine learning.
  • Information processing using machine learning is used in various technical fields. For example, a new content is automatically generated by learning the characteristics of the content (image, music, etc.) by using a neural network simulating the mechanism of the cranial nervous system.
  • a technique has been proposed that enables the user to automatically compose an appropriate song that matches the lyrics by learning the characteristics of existing songs, without the user inputting parameters other than the lyrics.
  • an information processing apparatus an information processing method, and an information processing program that can learn the characteristics of the content as an overall configuration are proposed.
  • an information processing device uses an learned encoder to acquire a feature amount for each partial data piece forming first content, and an acquired part.
  • a calculation for calculating a relative feature amount which is a relative feature amount between the partial data items, from the feature amount for each partial data item, thereby calculating a relative feature amount series indicating the feature of the configuration of the first content.
  • a generating unit that generates the second content based on the relative characteristic amount series of the first content and the characteristic amount of arbitrary data.
  • Embodiment 1-1 Overview of information processing according to embodiments of the present disclosure 1-2. Configuration of information processing apparatus according to embodiment 1-3. Information processing procedure according to the embodiment 2. Other Embodiments 3. Hardware configuration
  • FIG. 1 is a diagram illustrating an example of information processing according to an embodiment of the present disclosure.
  • the information processing according to the embodiment of the present disclosure is realized by the information processing device 100 illustrated in FIG.
  • the information processing device 100 is a device that executes information processing according to the present disclosure, and is, for example, an information processing terminal or a server device.
  • the information processing device 100 has a learned model for extracting the feature of content.
  • the content is composed of digital data in a predetermined format, such as music (song), images, and moving images.
  • the information processing apparatus 100 uses music as an example of content for processing.
  • the learned model has an encoder that extracts a feature amount from the data that configures the content and a decoder that decodes the content from the extracted feature amount.
  • the information processing apparatus 100 learns the encoder by unsupervised learning such as VAE (Variational Auto Encoder) and GAN (Generative Adversarial Networks). Specifically, the information processing apparatus 100 inputs the content to the encoder, reconstructs the content from the extracted feature amount, compares the original content and the reconstructed content, and sets parameters of the encoder and the decoder. Adjust. The information processing apparatus 100 repeats this process and optimizes the parameters of the encoder and the decoder to generate the learned model. As a result, the information processing apparatus 100 can generate a learned model that can obtain an appropriate feature amount from the data that constitutes the content.
  • the feature amount is represented by, for example, a vector having a lower dimension number than the data of the input content.
  • the learned model is not limited to the above example, and may be any model as long as the feature amount can be extracted and the content can be reconstructed from the extracted feature amount.
  • the information processing apparatus 100 inputs a piece of music (in other words, digital data indicating a sound forming a piece of music) to an encoder, and as a feature amount of the piece of music, a melody line, a constituent sound, a rhythm ( The temporal structure of music, for example, how many notes and rests are included, in what order the sounds are played, etc.), tempo, time signature, and other elements that indicate characteristics of the music are extracted.
  • the music data is a pitch (data indicating the pitch of a sounded note) or a note length (data indicating how long the sounded note is maintained) rests It is assumed that the data is represented by data (for example, vector format) indicating the timing and the like.
  • a song having a natural structure such as an existing song artificially created is generated. That can be an issue.
  • the feature amount of an arbitrary song is extracted as it is, the feature of the song can be reproduced, but it is difficult to generate a song having a natural structure as a whole.
  • the characteristic melody line of some of the songs and the sound composition also referred to as motifs
  • the information processing apparatus 100 makes it possible to calculate the characteristic amount indicating the configuration of the entire song by the information processing described below, and automatically calculates a natural song by using the characteristic amount. Allows to generate. Specifically, the information processing apparatus 100 uses the above-described learned encoder to acquire the feature amount for each partial data piece (for example, for each bar) that constitutes the song. Further, the information processing apparatus 100 calculates a relative feature amount, which is a relative feature amount between the partial data items, from the feature amount of each partial data item, and thereby the relative feature amount series indicating the feature of the composition of the song. To calculate.
  • the information processing apparatus 100 regards a piece of music of a certain length as a sequence in which partial data are arranged, and calculates a relative characteristic amount of the partial data to obtain a characteristic amount of transition in the entire piece of music. , Express the structure of the whole song. In other words, the information processing device 100 models the structure of the entire song by the relative feature amount series. Then, the information processing apparatus 100 generates a new song by using the relative feature amount series indicating the feature of the composition of the entire song. As a result, the information processing apparatus 100 can automatically generate a new song having a natural configuration that retains the characteristics of the configuration of the existing song. It should be noted that the series of feature quantities is a series of feature quantities for each piece of partial data forming a song.
  • first content the content for which the characteristic amount is calculated
  • second content the new content generated based on the relative characteristic amount series of the first content
  • encoder the learned encoder presented in FIG. 1 and the like
  • decoder the learned decoder
  • the information processing apparatus 100 acquires the song 30 as the first content and divides the song 30 into partial data (step S1). For example, the information processing apparatus 100 divides the song 30 into bars. In the example of FIG. 1, the song 30 has six bars, but the song 30 may have more bars.
  • the song 30 is composed of, for example, a pitch (note length), a symbol string (digital data) indicating a rest.
  • the pitch represents a frequency indicating the pitch of the pitch in a predetermined step (for example, 128 steps).
  • the sound length expresses how long the reproduced sound is maintained.
  • the rest represents the timing at which the sound reproduction is stopped.
  • the data indicating the song 30 may include information such as the time signature and tempo of the song 30, symbols indicating bar breaks, chords at certain timings, and constituent sounds that form the chords.
  • the information processing apparatus 100 converts the above symbol string so that it can be handled as a model.
  • the information processing apparatus 100 uses a vector representation of the above symbol string (for example, an embedding vector indicating sound information in which pitches and durations are assigned to each dimension).
  • the embedded vector is, for example, d-dimensional (d is an arbitrary integer), and “1” is input to the dimension corresponding to the corresponding sound (for example, information such as “C4” indicating the pitch of the sound), and other This is a vector in which "0" is input in the dimension.
  • the data indicating such a sound may be expressed in, for example, MIDI (Musical Instrument Digital Interface) (registered trademark) format, or may be digital data in a known format that can be reproduced by a general-purpose sequencer. However, it may be expressed as waveform data in the WAV format or the like.
  • the information processing apparatus 100 may divide the song 30 into partial data by using various known methods. For example, the information processing apparatus 100 detects a preset bar break and divides the song 30 into partial data (bars). Alternatively, the information processing apparatus 100 may divide the song 30 into partial data based on the relationship between the time signature and the note. For example, if the music 30 has a quarter time signature, the information processing apparatus 100 detects a time point when four sounds having a length corresponding to a quarter note are reproduced as one break, and the music 30 is set as a measure. To divide.
  • the information processing apparatus 100 may use delimiters other than measures as the partial data.
  • the information processing apparatus 100 may detect a melody line delimiter of the song 30 (for example, a place where a rest having a length exceeding a predetermined threshold appears) and divide the melody line into partial data. In this case, the partial data does not necessarily match the measure.
  • the information processing apparatus 100 divides the song 30 into bars in step S1 and extracts each partial data (step S2).
  • each partial data is shown as “x n (n is an arbitrary natural number)”.
  • x 1 indicates data included in the first measure of the song 30.
  • the information processing apparatus 100 sequentially inputs each extracted partial data to the encoder 50 (step S3). As a result, the information processing apparatus 100 obtains the characteristic amount of each partial data (step S4).
  • the feature amount of each partial data is shown as “z n ”.
  • “z 1 ” indicates the feature quantity of the first bar of the song 30.
  • the information processing apparatus 100 calculates a relative feature amount, which is a relative feature amount of the partial data, from the obtained feature amount of each partial data (step S5).
  • the information processing apparatus 100 calculates a relative feature amount by subtracting the feature amount of certain common partial data from the feature amount of each partial data, as the relative feature amount of partial data.
  • the information processing apparatus 100 calculates the relative feature amount by subtracting “z 1 ”, which is the feature amount of the first measure, from the feature amount of each partial data. Note that this calculation is an example, and the information processing apparatus 100 may add, multiply, or divide the feature amounts as the calculation of the relative feature amount. Further, the information processing apparatus 100 may subtract the partial data of another measure instead of subtracting “z 1 ” from each partial data.
  • the information processing apparatus 100 calculates a relative feature amount series which is a feature amount series indicating the structure of the song 30 based on the calculated relative feature amount (step S6).
  • the relative feature amount series is a sequence in which the relative feature amounts are arranged in order so as to correspond to the structure of the song 30, for example. Note that in the example of FIG. 1, the relative feature amount corresponding to “z n + 1 ⁇ z 1 ” is shown as “r n ”. That is, in the example of FIG. 1, the relative feature amount series corresponding to the piece of music 30 is expressed as “(r1, r2, r3, r4, r5)”.
  • the information processing apparatus 100 calculates the relative feature amount series indicating the structure of the song 30 by the processing up to step S6. After that, the information processing apparatus 100 acquires arbitrary information that is a motif of the newly generated song (second content).
  • the information processing apparatus 100 acquires the data included in the first bar of the predetermined music 35 as the information that becomes the motif of the newly generated music (step S7). Note that the information processing apparatus 100 does not necessarily have to acquire the data included in one bar as the information that becomes the motif of the newly generated music. For example, even if the data of the entire arbitrary music is acquired. Good.
  • the acquired arbitrary data (specifically, the data included in the first bar of the music 35) is indicated as “x a ”.
  • the information processing apparatus 100 inputs “x a ” in the encoder 50 (step S8). As a result, the information processing apparatus 100 obtains the feature amount corresponding to “x a ”. In the example of FIG. 1, showing a feature amount corresponding to "x a" and "z a".
  • the information processing apparatus 100 the acquired feature quantity "z a", based on the relative characteristic quantity showing the structure of a song 30, and generates a feature amount sequence corresponding to the second content to be newly generated ( Step S9).
  • the information processing apparatus 100 as well as the head to "z a", and generates a feature amount sequence imparted with "z a" to each of the relative feature of the song 30.
  • the information processing apparatus 100 generates a "(z a, z a + r1 , z a + r2, z a + r3, z a + r4, z a + r5) " such feature amount sequence having information. That is, the information processing apparatus 100, the characteristics of structures song 30 has further "z a" to generate a feature quantity series attached.
  • the information processing apparatus 100 inputs the feature quantity sequence generated in step S9 to the decoder 60 (step S10).
  • the decoder 60 is a decoder learned to reconstruct the content based on the feature amount extracted by the encoder 50. In the example of FIG. 1, the decoder 60 reconstructs a piece of music (more precisely, digital data for reproducing sound) based on the characteristic amount extracted by the encoder 50.
  • the information processing apparatus 100 acquires the sound data of each bar corresponding to the feature amount series from the output of the decoder 60.
  • the information processing apparatus 100 generates the song 40 by arranging the acquired data in the order of the series (step S11).
  • the song 40 is a song that retains the structural characteristics of the song 30 while using the first measure of the song 35 as a motif.
  • the information processing apparatus 100 uses the encoder 50 to acquire the feature amount of each partial data included in the first content (the song 30 in the example of FIG. 1). Then, the information processing apparatus 100 calculates a relative feature amount, which is a relative feature amount between the partial data items, from the obtained feature amount for each partial data item, thereby indicating a relative feature of the configuration of the first content. A dynamic feature amount series is calculated. That is, the information processing apparatus 100 does not calculate the characteristic amount of the first content itself, but acquires a sequence in which the characteristic amounts of the partial data forming the first content are arranged in order. As a result, the information processing apparatus 100 can extract the structure of the first content (if the first content is a song, the flow or excitement of the entire song corresponding to the time direction) as a feature.
  • the information processing apparatus 100 according to the present disclosure, the relative feature amount series of the first content, and the feature amount of arbitrary data (in the example of FIG. 1, “z which is the feature amount of the first bar of the song 35”). a ”), the second content (song 40 in the example of FIG. 1) is generated. That is, the information processing apparatus 100 generates a new feature amount sequence based on the feature amount sequence indicating the structure of the first content and the feature amount of the new data, and regenerates the content based on the new feature amount sequence. Constitute. Thereby, the information processing apparatus 100 can generate a new song incorporating a new motif or a constituent sound as the second content while maintaining the structure of the first content. Note that FIG.
  • the information processing apparatus 100 calculates the relative feature amount by subtracting the feature amount “z 1 ” from the feature amount of each partial data.
  • the information processing apparatus 100 is not limited to this example, and the relative feature amount may be calculated by a feature amount extractor that extracts a feature amount similar to addition, subtraction, multiplication and division, or correlation. Further, the information processing apparatus 100 may extract the graph structure based on the similarity or causal relationship between the feature amounts of the respective partial data, and calculate the relative feature amount series by a machine learning method or the like for the graph data.
  • FIG. 2 is a diagram illustrating a configuration example of the information processing device 100 according to the embodiment of the present disclosure.
  • the information processing device 100 includes a communication unit 110, a storage unit 120, and a control unit 130.
  • the information processing apparatus 100 includes an input unit (for example, a keyboard or a mouse) that receives various operations from an administrator who manages the information processing apparatus 100, and a display unit (for example, a liquid crystal display or the like) for displaying various information. ) May be included.
  • the communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like.
  • the communication unit 110 is connected to a network N (Internet or the like) by wire or wirelessly, and transmits / receives information to / from other devices or the like via the network N.
  • a network N Internet or the like
  • the storage unit 120 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 120 has a model storage unit 121 and a song data storage unit 122.
  • the model storage unit 121 stores a learned model that has been learned in advance. Specifically, the model storage unit 121 includes an encoder 50 that extracts the feature amount of the content and a decoder 60 that reconstructs the content. The model storage unit 121 may store learning data such as contents used for learning.
  • the song data storage unit 122 stores data regarding contents (tunes) input to the model.
  • FIG. 3 shows an example of the song data storage unit 122 according to the embodiment.
  • FIG. 3 is a diagram illustrating an example of the song data storage unit 122 according to the embodiment of the present disclosure.
  • the song data storage unit 122 stores “song ID”, “partial data ID”, “pitch information”, “pitch rest information”, “chord information”, “rhythm information”, etc. Have items.
  • “Song ID” is identification information for identifying a song.
  • the “partial data ID” is identification information that identifies the partial data.
  • the partial data corresponds to, for example, one or a plurality of measures forming a song.
  • pitch information indicates the pitch (scale) of the sound included in the partial data.
  • note length rest information indicates the length of the sound included in the partial data (reproduction time, the number of beats to be reproduced), the length of rest, and the timing.
  • chord information indicates the type of chord included in the partial data, chord constituent sounds, chord change within a bar, and the like.
  • Rhythm information indicates the beat, tempo, strong beat, weak beat position, etc. of a bar.
  • each item includes specific data indicating the tone as described above. Is memorized.
  • FIG. 3 for the sake of explanation, an example in which “pitch information”, “note rest information” and the like are stored as different items, but these information indicate notes included in a bar.
  • the information may be collectively stored in one item or the like. That is, the format of the data indicating the music is not limited to that shown in FIG. 3, and may be any format as long as it can be handled by the model.
  • the song identified by the song ID “A01” has partial data identified by the partial data ID “B01” or “B02”.
  • the pitch information is “C01”
  • the note rest information is “D01”
  • the chord information is “E01”
  • the rhythm information is “F01”. It indicates that the data is included.
  • control unit 130 for example, a program (for example, an information processing program according to the present disclosure) stored in the information processing apparatus 100 by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like is a RAM (Random Access Memory). ) Etc. are executed as a work area.
  • the control unit 130 is a controller, and may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • control unit 130 includes a learning unit 131, an acquisition unit 132, a calculation unit 133, and a generation unit 134, and realizes or executes the functions and actions of information processing described below.
  • the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 2, and may be another configuration as long as it is a configuration for performing information processing described later.
  • the learning unit 131 performs a predetermined learning process with the content as learning data and generates a learned model.
  • the learning unit 131 when learning the sound data such as a piece of music, the learning unit 131 inputs the sound data to the encoder 50 and extracts the feature amount of the sound data. Subsequently, the learning unit 131 inputs the feature amount of the sound data to the decoder 60 and reconstructs the sound data input to the encoder 50. Then, the learning unit 131 adjusts the parameters of the encoder 50 and the decoder 60 so that the difference between the front and rear sound data becomes small. The learning unit 131 repeats such processing to generate a learned model in which the encoder 50 and the decoder 60 are optimized. As described above, the learning unit 131 may generate the model using various known methods such as VAE and GAN.
  • the acquisition unit 132 acquires various types of information. For example, the acquisition unit 132 acquires the first content input to the model learned by the learning unit 131.
  • the acquisition unit 132 divides the acquired first content and acquires the partial data forming the first content. For example, when the first content is a piece of music, the acquisition unit 132 detects the division of the bar of the piece of music by the method described above, and sets the detected bar as partial data.
  • the acquisition unit 132 may detect a rest exceeding the length of a predetermined threshold in the first content and divide the music into partial data based on the detected rest.
  • the length of the predetermined threshold may be a length in time, a ratio of rests in a bar, or the like.
  • the acquisition unit 132 acquires the feature amount for each partial data forming the first content, using the encoder 50 learned by the learning unit 131.
  • the acquisition unit 132 inputs a symbol string indicating a pitch, a note length, and a rest to the encoder 50 as data indicating a sound included in the partial data, and thus the feature amount corresponding to the partial data.
  • the feature amount is expressed as a vector having a lower dimension than the vector expressing the original partial data, for example.
  • the calculation unit 133 indicates the characteristic of the configuration of the first content by calculating the relative characteristic amount, which is the relative characteristic amount between the partial data items, from the characteristic amount of each partial data item acquired by the acquisition unit 132. Then, the relative feature amount series is calculated.
  • the calculation unit 133 adds, subtracts, multiplies, or divides the feature amount of the partial data of a part of the first content from the feature amount of each partial data excluding the partial data to obtain the relative feature amount.
  • the relative feature amount series is calculated.
  • Partial partial data of the first content indicates specific partial data of the partial data forming the first content.
  • the feature amount “z 1 ” of the first measure of the song 30 is Applicable
  • the calculation unit 133 calculates a relative feature amount having a relative relationship by performing arithmetic operations such as addition, subtraction, multiplication and division with a certain specific partial data on a plurality of partial data.
  • the feature amount “z 1 ” of the first bar of the song 30 is subtracted from each feature amount of the partial data of the song 30, but the calculation is limited to this example. Absent.
  • the calculation unit 133 may calculate the feature amount of the partial data of the first content and the partial data excluding the partial data of the first content and having a causal relationship with the partial data of the partial content.
  • the relative feature amount series may be calculated by calculating the relative feature amount with respect to the feature amount.
  • the partial data having a causal relationship with some partial data indicates partial data having some correspondence with some partial data.
  • the content is a song
  • the calculation unit 133 emphasizes the structure of the music, such as preferentially performing the operation of adding (or subtracting) the feature amounts of the bars having some causal relationship, or vice versa. You may perform processing to weaken.
  • the causal relationship between the partial data of the contents for example, by analyzing the music using a known machine learning method such as causal reasoning, the relationship between a certain bar and the bar as a factor is quantified. It can be determined by the method.
  • calculation unit 133 graphs partial data in the content based on a predetermined relationship, and adds or subtracts partial data having a close relationship in the graph to each other by using various known methods.
  • the feature amount may be calculated.
  • the calculation unit 133 calculates the relative characteristic amount, which is the relative characteristic amount of the partial data, by various methods, and arranges the calculated relative characteristic amounts in order to configure the first content. A relative feature amount series showing the features of is calculated. The calculation unit 133 sends the calculated relative feature amount to the generation unit 134.
  • the generating unit 134 generates the second content based on the relative feature amount series of the first content and the feature amount of arbitrary data.
  • the generation unit 134 calculates a new feature amount sequence from the relative feature amount sequence of the first content calculated by the calculation unit 133 and the feature amount of arbitrary data. Then, the generation unit 134 inputs each feature amount included in the new feature amount sequence to the decoder 60, and reconstructs partial data corresponding to each feature amount. Further, the generation unit 134 generates the second content, which is new content, by combining the reconstructed partial data in the order of the series.
  • the generation unit 134 can newly generate an arbitrary song as the second content when the relative feature amount series of the first content, which is a song, is obtained.
  • the acquisition unit 132 inputs the partial data and the arbitrary data by inputting the symbol string indicating the pitch, the duration and the rest to the encoder 50 as the data indicating the sound included in the partial data and the arbitrary data.
  • the feature quantity corresponding to is acquired.
  • the calculation unit 133 calculates the relative characteristic amount series corresponding to each partial data.
  • the generation unit 134 creates a new feature amount sequence based on the relative feature amount sequence calculated by the calculation unit 133 and the feature amount corresponding to arbitrary data (for example, sound data as a motif of new content). Is generated, and the second content, which is a song, is generated from the generated new feature amount series.
  • FIG. 4 is a flowchart (1) showing a procedure of information processing according to the embodiment of the present disclosure.
  • the information processing apparatus 100 determines whether learning data (content) has been acquired (step S101). When the learning data has not been acquired (step S101; No), the information processing apparatus 100 waits until the learning data is acquired.
  • step S101 when learning data is acquired (step S101; Yes), the information processing device 100 generates a model using the learning data (step S102). Then, the information processing apparatus 100 stores the learned model (encoder and decoder) in the storage unit 120 (step S103).
  • FIG. 5 is a flowchart (2) showing a procedure of information processing according to the embodiment of the present disclosure.
  • the information processing apparatus 100 determines whether or not the first content has been acquired (step S201). When the first content has not been acquired (step S201; No), the information processing apparatus 100 waits until the first content is acquired.
  • the information processing apparatus 100 divides the first content into partial data (step S202). For example, when the first content is a song, the information processing apparatus 100 divides the song into partial data for each bar.
  • the information processing apparatus 100 inputs each piece of partial data to the encoder 50 and calculates a feature amount for each piece of partial data (step S203). Further, the information processing apparatus 100 performs a predetermined calculation on the feature amount of the partial data to calculate the relative feature amount (step S204).
  • the information processing device 100 calculates a relative feature amount series indicating the feature of the structure of the first content (step S205).
  • the information processing apparatus 100 determines whether or not it has acquired arbitrary data (such as one bar of a certain piece of music) as a motif of the generated second content (step S206). When the arbitrary data has not been acquired (step S206; No), the information processing apparatus 100 waits until the arbitrary data is acquired.
  • arbitrary data such as one bar of a certain piece of music
  • step S206 when the arbitrary data is acquired (step S206; Yes), the information processing apparatus 100 inputs the arbitrary data to the encoder 50 and calculates the characteristic amount of the arbitrary data (step S207).
  • the information processing apparatus 100 calculates a new feature amount sequence which is a source of the second content, based on the relative feature amount sequence of the first content and the feature amount of arbitrary data (step S208). .
  • the information processing apparatus 100 inputs the new feature amount sequence to the decoder 60 and generates the second content from the new feature amount sequence (step S209).
  • the information processing device 100 may perform the information processing according to the present disclosure using text data, moving images, and the like as content.
  • the information processing apparatus 100 acquires the feature amount for each partial data that constitutes the first content that is text data. Then, the information processing apparatus 100 determines the text data based on the relative feature amount series of the first content obtained based on the obtained feature amount of each partial data and the feature amount of arbitrary data that is text data. To generate the second content. In this case, the information processing apparatus 100 is assumed to have generated a learned model for outputting the feature amount of text data.
  • examples of text data include poetry and tanka.
  • the information processing apparatus 100 acquires a poem composed of a plurality of sentences (for example, text delimited by a line feed symbol). Then, the information processing apparatus 100 detects the line feed symbol included in the poem and divides the poem into partial data (sentences on each line). Subsequently, the information processing apparatus 100 calculates the relative characteristic amount of the partial data to obtain the relative characteristic amount series corresponding to the poem.
  • the information processing apparatus 100 When the information processing apparatus 100 newly acquires arbitrary data (for example, a word or a sentence that the user desires to incorporate into a poem), the information processing apparatus 100 calculates the characteristic amount of the arbitrary data, and the calculated characteristic amount, A new feature amount sequence is calculated based on the relative feature amount sequence corresponding to the poem. Then, the information processing apparatus 100 generates a new poem as the second content from the new feature amount series.
  • arbitrary data for example, a word or a sentence that the user desires to incorporate into a poem
  • the information processing apparatus 100 can generate a new poem having a similar composition of an existing poem (for example, the number of characters (rhythm) of a line break, phoneme, expression of a phrase appearing on the next line, etc.). .
  • the information processing apparatus 100 may generate new moving image content based on the moving image content instead of the text data. In this case, it is assumed that the information processing apparatus 100 is generating a learned model that outputs the feature amount of the image forming the moving image content.
  • the information processing apparatus 100 acquires the feature amount for each partial data forming the first content which is the moving image content.
  • the partial data is, for example, an image corresponding to each frame forming the moving image content.
  • the partial data is not limited to one still image, and may be image data obtained by averaging several frames together. Then, the information processing apparatus 100, based on the relative feature amount series of the first content obtained based on the obtained feature amount of each partial data, and the feature amount of arbitrary data that is a moving image or image content, The second content which is the moving image content is generated.
  • the information processing apparatus 100 can generate new moving image content having a similar structure to the existing moving image content.
  • the information processing apparatus 100 is a novel moving image in which other objects perform similar movements based on moving image content that captures a series of motions of flowers, moving image content that captures a moving image of a person, and the like. Generate content.
  • the information processing apparatus 100 can automatically generate various new contents having a similar structure to the entire contents, not limited to songs, by the information processing according to the present disclosure.
  • the information processing apparatus 100 may apply the information processing according to the present disclosure to perform a process of detecting a substance or the like that emits a similar taste based on human taste information. For example, it is assumed that when a human senses the elements in the order of the first element, the second element, and the third element, the human taste tends to have a specific taste (for example, sweetness). In this case, the information processing apparatus 100 calculates a relative feature amount of a substance having a structure in which a human detects the elements in the order of the first element, the second element, and the third element, and thereby the new information having a similar structure is obtained. It may produce various substances.
  • the information processing apparatus 100 sets, for example, a plurality of songs as the first content and sets each song as one.
  • a feature amount series indicating a plurality of songs may be calculated.
  • the information processing apparatus 100 can express features such as what structure a plurality of songs have. Specifically, the information processing apparatus 100 expresses a structural feature in which a lighter song (for example, an uptempo song) is first in the order of arrangement of a plurality of songs, and a relatively dark song appears after that. .
  • the information processing apparatus 100 can transit the structural characteristics to other contents. Therefore, the information processing apparatus 100, for example, when rearranging a plurality of other songs, generates a list having the same structure as the first content (so-called playlist in which the song order is automatically rearranged). It can be performed.
  • each component of each illustrated device is functionally conceptual, and does not necessarily have to be physically configured as illustrated. That is, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or part of the device may be functionally or physically distributed / arranged in arbitrary units according to various loads and usage conditions. It can be integrated and configured.
  • FIG. 6 is a hardware configuration diagram illustrating an example of a computer 1000 that realizes the functions of the information processing device 100.
  • the computer 1000 has a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
  • the respective units of the computer 1000 are connected by a bus 1050.
  • the CPU 1100 operates based on a program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands a program stored in the ROM 1300 or the HDD 1400 into the RAM 1200 and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 starts up, a program dependent on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100, data used by the program, and the like. Specifically, the HDD 1400 is a recording medium that records an information processing program according to the present disclosure, which is an example of the program data 1450.
  • the communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits the data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or a mouse via the input / output interface 1600.
  • the CPU 1100 also transmits data to an output device such as a display, a speaker, a printer, etc. via the input / output interface 1600.
  • the input / output interface 1600 may function as a media interface for reading a program or the like recorded in a predetermined recording medium (medium).
  • Examples of media include optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable Disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, and semiconductor memory. Is.
  • optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable Disk)
  • magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, and semiconductor memory.
  • the CPU 1100 of the computer 1000 realizes the functions of the control unit 130 and the like by executing the information processing program loaded on the RAM 1200.
  • the HDD 1400 stores the information processing program according to the present disclosure and the data in the storage unit 120.
  • the CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program data.
  • these programs may be acquired from another device via the external network 1550.
  • An acquisition unit that acquires a feature amount for each partial data forming the first content using the learned encoder; By calculating a relative feature amount, which is a relative feature amount between the partial data items, from the obtained feature amount for each partial data item, a relative feature amount series indicating a feature of the configuration of the first content is obtained.
  • a calculation unit for calculating, An information processing apparatus comprising: a generation unit that generates second content based on a relative feature amount series of the first content and a feature amount of arbitrary data.
  • the calculation unit By calculating the relative feature amount by adding, subtracting, multiplying or dividing the feature amount of the partial data of a part of the first content from the feature amount of each partial data excluding the partial data of the first content, The information processing device according to (1), wherein the relative feature amount series is calculated. (3) The calculation unit The relative amount of the feature amount of the partial data of the first content and the feature amount of each partial data excluding the partial data of the first content and having a causal relationship with the partial data of the partial content. The information processing device according to (1) or (2), wherein the relative feature amount series is calculated by calculating a feature amount.
  • the generator is The second content is generated by inputting a feature quantity sequence calculated from the relative feature quantity sequence of the first content and the feature quantity of arbitrary data to the learned decoder.
  • An information processing apparatus according to claim 2.
  • the generator is The information processing device according to any one of (1) to (4), wherein an arbitrary song is generated as the second content based on a relative feature amount series of the first content that is a song.
  • the acquisition unit is By inputting a symbol string indicating a pitch, a note length and a rest to the learned encoder as data indicating a sound included in the partial data and the arbitrary data, the partial data and the arbitrary data are handled.
  • the generator is The information processing according to (5), wherein the second content is generated by inputting the relative feature amount series obtained based on the feature amount of the acquired arbitrary data and partial data into a learned decoder. apparatus. (7)
  • the acquisition unit is Acquiring a feature amount for each partial data forming the first content which is text data
  • the generator is The second content, which is text data, is generated based on the relative feature amount series of the first content, which is obtained based on the obtained feature amount of each partial data, and the feature amount of arbitrary data, which is text data.
  • the information processing apparatus according to any one of (1) to (4) above.
  • the acquisition unit is Acquiring a feature amount for each partial data forming the first content which is a moving image content
  • the generator is The second content, which is a moving image content, based on the relative feature amount series of the first content, which is obtained based on the obtained characteristic amount of each partial data, and the characteristic amount of arbitrary data that is a moving image or image content.
  • the information processing apparatus according to any one of (1) to (4) above.
  • the acquisition unit is The information processing apparatus according to any one of (1) to (6), wherein a bar break of the first content that is a song is detected, and a feature amount for each detected bar is acquired.
  • the acquisition unit is A rest that exceeds a predetermined threshold length in the first content that is a song is detected, the song is divided into partial data based on the detected rest, and a feature amount for each divided partial data is acquired.
  • the information processing apparatus according to any one of 1) to (6).
  • (11) Computer Using the learned encoder, obtain the feature quantity for each partial data that makes up the first content, By calculating a relative feature amount, which is a relative feature amount between the partial data items, from the obtained feature amount for each partial data item, a relative feature amount series indicating a feature of the configuration of the first content is obtained. Calculate, An information processing method for generating second content based on a relative feature amount series of the first content and a feature amount of arbitrary data.
  • information processing device 110 communication unit 120 storage unit 121 model storage unit 122 song data storage unit 130 control unit 131 learning unit 132 acquisition unit 133 calculation unit 134 generation unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本開示に係る情報処理装置(100)は、学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部(132)と、取得された部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部(133)と、第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部(134)とを備える。

Description

情報処理装置、情報処理方法及び情報処理プログラム
 本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。詳しくは、機械学習を経て生成される学習済みモデルの生成処理に関する。
 様々な技術分野において、機械学習を利用した情報処理が活用されている。例えば、脳神経系の仕組みを模したニューラルネットワークを利用してコンテンツ(画像や音楽等)の特徴を学習することで、新たなコンテンツを自動的に生成すること等が行われている。
 例えば、既存の曲の特徴を学習することにより、ユーザが歌詞以外のパラメータを入力せずとも、歌詞に合った適切な曲を自動的に作曲することを可能とする技術が提案されている。
特開2011-175006号公報
 従来技術によれば、各曲の歌詞を表す歌詞データから算出される言語特徴量と当該曲の属性を表す属性データとを学習することにより、新たな歌詞データが与えられれば、新たな歌詞データに合わせた曲を自動的に生成することができる。
 しかしながら、従来技術は、歌詞に沿ったメロディやコードが生成されるに過ぎず、曲全体の構成(ストラクチャー)に関して、人間が作曲したような自然な曲が生成されるとは限らない。すなわち、従来技術では、コンテンツの全体的な構成の特徴を学習したり、全体的な構成を保ったまま新たなコンテンツを生成したりすることは困難である。
 そこで、本開示では、コンテンツの全体的な構成としての特徴を学習することのできる情報処理装置、情報処理方法及び情報処理プログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部と、取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部とを備える。
本開示の実施形態に係る情報処理の一例を示す図である。 本開示の実施形態に係る情報処理装置の構成例を示す図である。 本開示の実施形態に係る曲データ記憶部の一例を示す図である。 本開示の実施形態に係る情報処理の手順を示すフローチャート(1)である。 本開示の実施形態に係る情報処理の手順を示すフローチャート(2)である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 以下に示す項目順序に従って本開示を説明する。
  1.実施形態
   1-1.本開示の実施形態に係る情報処理の概要
   1-2.実施形態に係る情報処理装置の構成
   1-3.実施形態に係る情報処理の手順
  2.その他の実施形態
  3.ハードウェア構成
(1.実施形態)
[1-1.本開示の実施形態に係る情報処理の概要]
 図1は、本開示の実施形態に係る情報処理の一例を示す図である。本開示の実施形態に係る情報処理は、図1に示す情報処理装置100によって実現される。
 情報処理装置100は、本開示に係る情報処理を実行する装置であり、例えば、情報処理端末やサーバ装置である。
 実施形態において、情報処理装置100は、コンテンツの特徴を抽出するための学習済みモデルを有する。実施形態では、コンテンツは、例えば音楽(曲)や、画像や、動画等、所定の形式のデジタルデータで構成される。図1の例では、情報処理装置100は、コンテンツの一例として曲を処理に用いる。
 実施形態に係る学習済みモデルは、コンテンツを構成するデータから特徴量を抽出するエンコーダ(encoder)と、抽出された特徴量からコンテンツを再構成するデコーダ(decoder)とを有する。例えば、情報処理装置100は、VAE(Variational Auto Encoder)やGAN(Generative Adversarial Networks)等、教師なし学習によってエンコーダを学習する。具体的には、情報処理装置100は、コンテンツをエンコーダに入力し、抽出された特徴量からコンテンツを再構成し、元のコンテンツと再構成後のコンテンツとを比較して、エンコーダ及びデコーダのパラメータを調整する。情報処理装置100は、かかる処理を繰り返し、エンコーダ及びデコーダのパラメータを最適化することで、学習済みモデルを生成する。これにより、情報処理装置100は、コンテンツを構成するデータから適切な特徴量を得ることのできる学習済みモデルを生成することができる。なお、特徴量とは、例えば、入力されるコンテンツのデータよりも次元数の低いベクトル等で表現される。
 なお、学習済みモデルは、上記の例に限らず、特徴量を抽出し、抽出した特徴量からコンテンツを再構成することができれば、どのような形式のモデルであってもよい。
 図1の例では、情報処理装置100は、曲(言い換えれば、曲を構成する音を示すデジタルデータ)をエンコーダに入力することで、その曲の特徴量として、メロディラインや構成音、リズム(音楽における時間的な構造、例えば、音符や休符がどれくらい含まれるか、どのような順序で音が再生されるか等)、テンポ、拍子など、その曲の特徴を示す要素を抽出する。なお、実施形態では、曲のデータは、音高(発音される音の高さを示したデータ)や音長(発音された音符がどのくらいの長さ維持されるかを示したデータ)休符のタイミング等を示したデータ(例えば、ベクトル形式)で表されるものとする。
 ここで、上記のような既存曲の特徴量を利用して新たな曲を自動生成する場合には、人為的に作成された既存の曲のような、自然な構成を有した曲を生成することが一つの課題となりうる。しかしながら、任意の曲の特徴量をそのまま抽出すると、その曲の特徴を再現することは可能であるものの、全体として自然な構成を有した曲を生成することは難しい。具体的には、自動生成された曲において、曲の一部の特徴的なメロディラインや音の構成(モチーフ等とも称される)は類似したものが再現されたとしても、曲全体の中でモチーフの特徴がどのように変化しているかといった曲の構成自体を再現することが難しい。すなわち、従来では、人為的に作成された既存の曲のような自然な構成を有し、かつ、既存曲のようなある程度の長さを有する曲を自動生成することが困難であった。
 そこで、本開示に係る情報処理装置100は、以下に説明する情報処理により、曲全体の構成を示す特徴量を算出することを可能にするとともに、当該特徴量を用いて、自然な曲を自動生成することを可能にする。具体的には、情報処理装置100は、上記した学習済みエンコーダを用いて、曲を構成する部分データごと(例えば、1小節ごと)の特徴量を取得する。さらに、情報処理装置100は、部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、曲の構成の特徴を示した相対的特徴量系列を算出する。このように、情報処理装置100は、ある長さの曲を部分データが並べられた系列とみなし、それらの相対的な特徴量を算出することで、曲全体において遷移する特徴量を求めることで、曲全体の構造を表現する。言い換えれば、情報処理装置100は、相対的特徴量系列によって、曲全体の構造をモデル化する。そして、情報処理装置100は、曲全体の構成の特徴を示した相対的特徴量系列を用いて、新たな曲を生成する。これにより、情報処理装置100は、既存曲の構成の特徴を保持した、自然な構成を有する新たな曲を自動生成することができる。なお、特徴量の系列とは、曲を構成する部分データごとの特徴量を順に並べて系列化したものである。
 以下、図1を用いて、本開示の情報処理の概要を流れに沿って説明する。なお、以下の説明では、特徴量が算出される対象となるコンテンツを「第1コンテンツ」と称し、第1コンテンツの相対的特徴量系列に基づいて生成される新たなコンテンツを「第2コンテンツ」と称する場合がある。また、図1等で提示する学習済みエンコーダは、単に「エンコーダ」と称する。また、学習済みデコーダは、単に「デコーダ」と称する。
 図1に示すように、まず、情報処理装置100は、第1コンテンツとして曲30を取得し、曲30を部分データに分割する(ステップS1)。例えば、情報処理装置100は、曲30を小節ごとに分割する。なお、図1の例では、曲30が6つの小節を有する例を示しているが、曲30は、より多くの小節を有していてもよい。
 曲30は、例えば、音高や音長、休符を示す記号列(デジタルデータ)により構成される。一例として、音高は、音の高さを示す周波数を所定の段階(例えば128段階等)で表現したものである。また、音長は、再生された音がどのくらいの長さを維持するかを表現したものである。また、休符は、音の再生が休止するタイミングを表現したものである。また、曲30を示すデータには、曲30の拍子やテンポ、小節の区切りを示す記号、あるタイミングにおけるコードや、コードを構成する構成音等の情報が含まれてもよい。
 例えば、情報処理装置100は、上記の記号列をモデルで取り扱うことができるよう変換する。一例として、情報処理装置100は、上記の記号列をベクトルで表現したもの(例えば、各次元に音高や音長等が割り当てられた、音情報を示す埋め込み(embedding)ベクトル)を処理に用いる。埋め込みベクトルは、例えばd次元(dは任意の整数)であり、対応する音(例えば、音の高さを示す「C4」等の情報)に対応する次元に「1」が入力され、その他の次元に「0」が入力されたベクトルである。なお、このような音を示すデータは、例えばMIDI(Musical Instrument Digital Interface)(登録商標)形式で表現されてもよいし、汎用のシーケンサーで再生可能な既知の形式のデジタルデータであってもよいし、WAV形式等の波形データとして表現されてもよい。
 情報処理装置100は、種々の既知の手法を用いて曲30を部分データに分割してもよい。例えば、情報処理装置100は、予め設定された小節の区切りを検出し、曲30を部分データ(小節)に分割する。あるいは、情報処理装置100は、拍子と音符の関係に基づいて曲30を部分データに分割してもよい。例えば、情報処理装置100は、曲30が4分の4拍子であれば、四分音符に該当する長さの音が4つ再生された時点を一つの区切りと検出し、曲30を小節に分割する。
 また、情報処理装置100は、部分データとして、小節以外の区切りを用いてもよい。例えば、情報処理装置100は、曲30のメロディラインの区切り(例えば、所定の閾値を超える長さの休符が登場した箇所等)を検出して、部分データに分割してもよい。この場合、部分データは、必ずしも小節とは一致しなくてもよい。
 情報処理装置100は、曲30をステップS1において小節に区切り、各部分データを抽出する(ステップS2)。図1の例では、各部分データを「x(nは任意の自然数)」と示す。例えば、「x」は、曲30の1番目の小節に含まれるデータを示す。
 続けて、情報処理装置100は、抽出した各部分データを順にエンコーダ50に入力する(ステップS3)。これにより、情報処理装置100は、各部分データの特徴量を得る(ステップS4)。
 図1の例では、各部分データの特徴量を「z」と示す。例えば、「z」は、曲30の1番目の小節の特徴量を示す。
 ここで、情報処理装置100は、取得された部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出する(ステップS5)。一例として、情報処理装置100は、部分データ同士の相対的な特徴量として、各部分データの特徴量から、ある共通する部分データの特徴量を減算し、相対的特徴量を算出する。
 図1の例では、情報処理装置100は、各部分データの特徴量から、1番目の小節の特徴量である「z」を減算することで相対的特徴量を算出するものとする。なお、この算出は一例であり、情報処理装置100は、相対的特徴量の算出として、特徴量を加算したり、乗算したり、除算したりしてもよい。また、情報処理装置100は、各部分データから「z」を減算するのではなく、他の小節の部分データを減算してもよい。
 情報処理装置100は、算出した相対的特徴量に基づいて、曲30の構造を示す特徴量の系列である相対的特徴量系列を算出する(ステップS6)。相対的特徴量系列は、例えば、曲30の構造に対応するよう、相対的特徴量を順に並べて系列化したものである。なお、図1の例では、「zn+1-z」に対応する相対的特徴量を「r」として示す。すなわち、図1の例では、曲30に対応する相対的特徴量系列は、「(r1,r2,r3,r4,r5)」と表現される。
 以上、ステップS6までの処理により、情報処理装置100は、曲30の構造を示す相対的特徴量系列を算出する。その後、情報処理装置100は、新たに生成する曲(第2コンテンツ)のモチーフとなる任意の情報を取得する。
 例えば、情報処理装置100は、新たに生成する曲のモチーフとなる情報として、所定の曲35の1番目の小節に含まれるデータを取得する(ステップS7)。なお、情報処理装置100は、新たに生成する曲のモチーフとなる情報として、必ずしも1つの小節に含まれるデータを取得することを要せず、例えば、任意の曲全体のデータを取得してもよい。
 図1の例では、取得した任意のデータ(具体的には、曲35の1番目の小節に含まれるデータ)を「x」と示す。
 続けて、情報処理装置100は、「x」をエンコーダ50に入力する(ステップS8)。これにより、情報処理装置100は、「x」に対応する特徴量を得る。図1の例では、「x」に対応する特徴量を「z」と示す。
 そして、情報処理装置100は、取得した特徴量「z」と、曲30の構造を示す相対的特徴量とに基づいて、新規に生成する第2コンテンツに対応する特徴量系列を生成する(ステップS9)。一例として、情報処理装置100は、「z」を先頭とするとともに、曲30の相対的特徴量の各々に「z」を付与した特徴量系列を生成する。具体的には、情報処理装置100は、「(z,z+r1,z+r2,z+r3,z+r4,z+r5)」といった情報を有する特徴量系列を生成する。すなわち、情報処理装置100は、曲30が有する構造の特徴に、さらに「z」が付された特徴量系列を生成する。
 情報処理装置100は、ステップS9において生成した特徴量系列をデコーダ60に入力する(ステップS10)。デコーダ60は、エンコーダ50が抽出した特徴量に基づいてコンテンツを再構成するよう学習されたデコーダである。図1の例では、デコーダ60は、エンコーダ50が抽出した特徴量に基づいて、曲(正確には、音を再生するためのデジタルデータ)を再構成する。
 情報処理装置100は、デコーダ60の出力から、特徴量系列に対応した各小節の音データを取得する。情報処理装置100は、取得したデータを系列の順に並べることにより、曲40を生成する(ステップS11)。曲40は、曲35の1番目の小節をモチーフとしつつ、曲30の構造の特徴を保持する曲である。
 このように、本開示に係る情報処理装置100は、エンコーダ50を用いて、第1コンテンツ(図1の例では曲30)を構成する部分データごとの特徴量を取得する。そして、情報処理装置100は、取得した部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する。すなわち、情報処理装置100は、第1コンテンツそのものの特徴量を算出するのではなく、第1コンテンツを構成する部分データの特徴量を順に並べた系列を取得する。これにより、情報処理装置100は、第1コンテンツの構造(第1コンテンツが曲であれば、時間方向に対応した曲全体の流れや盛り上がり等)を特徴として抽出することができる。
 さらに、本開示に係る情報処理装置100は、第1コンテンツの相対的特徴量系列と、任意のデータの特徴量(図1の例では、曲35の1番目の小節の特徴量である「z」)とに基づいて、第2コンテンツ(図1の例では曲40)を生成する。すなわち、情報処理装置100は、第1コンテンツの構造を示す特徴量系列と、新たなデータの特徴量とに基づいて新規な特徴量系列を生成し、新規な特徴量系列に基づいてコンテンツを再構成する。これにより、情報処理装置100は、第1コンテンツの構造を保持しつつ、新たなモチーフや構成音を取り入れた新規な曲を第2コンテンツとして生成することができる。なお、図1では、情報処理装置100は、各部分データの特徴量から特徴量「z」を減算することで相対的特徴量を算出する例を示した。しかし、この例に限らず、情報処理装置100は、加減乗除や相関に類する特徴量を抜き出す特徴量抽出器により、相対的特徴量を算出してもよい。また、情報処理装置100は、各部分データの特徴量の類似性や因果関係によりグラフ構造を抽出し、グラフデータに対する機械学習手法等によって相対特徴量系列を計算してもよい。
[1-2.実施形態に係る情報処理装置の構成]
 次に、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置100の構成について説明する。図2は、本開示の実施形態に係る情報処理装置100の構成例を示す図である。
 図2に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100を管理する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
 通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、他の装置等との間で情報の送受信を行う。
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、モデル記憶部121と、曲データ記憶部122とを有する。
 モデル記憶部121は、予め学習された学習済みモデルを記憶する。具体的には、モデル記憶部121は、コンテンツの特徴量を抽出するエンコーダ50と、コンテンツを再構成するデコーダ60とを有する。なお、モデル記憶部121は、学習に用いたコンテンツ等の学習データを記憶してもよい。
 曲データ記憶部122は、モデルに入力されるコンテンツ(曲)に関するデータを記憶する。図3に、実施形態に係る曲データ記憶部122の一例を示す。図3は、本開示の実施形態に係る曲データ記憶部122の一例を示す図である。図3に示した例では、曲データ記憶部122は、「曲ID」、「部分データID」、「音高情報」、「音長休符情報」、「コード情報」、「リズム情報」といった項目を有する。
 「曲ID」は、曲を識別する識別情報である。「部分データID」は、部分データを識別する識別情報である。部分データは、例えば、曲を構成する1つ又は複数の小節等に対応する。
 「音高情報」は、部分データに含まれる音の音高(音階)の情報を示す。「音長休符情報」は、部分データに含まれる音の長さ(再生時間や、再生される拍数)や、休符の長さやタイミングを示す。「コード情報」は、部分データに含まれるコードの種類や、コードの構成音、小節内のコードの切り替わり等を示す。「リズム情報」は、小節の拍子やテンポ、強拍、弱拍の位置等を示す。
 なお、図3では、音高情報等の項目を「C01」のように概念的に記載しているが、実際には、各項目には、上記で説明したような音を示す具体的なデータが記憶される。また、図3では、説明のため、「音高情報」や「音長休符情報」等が異なる項目として記憶される例を示しているが、これらの情報は、小節に含まれる音符を示す情報として、一つの項目等にまとめて記憶されてもよい。すなわち、曲を示すデータの形式は、図3に図示したものに限られず、モデルで取り扱うことのできる形式であれば、いずれであってもよい。
 例えば、図3に示した例では、曲IDが「A01」で識別される曲は、部分データIDが「B01」や「B02」で識別される部分データを有することを示している。また、部分データIDが「B01」である部分データは、音高情報が「C01」、音長休符情報が「D01」、コード情報が「E01」、リズム情報が「F01」で示される音データを含むことを示している。
 図2に戻り、説明を続ける。制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
 図2に示すように、制御部130は、学習部131と、取得部132と、算出部133と、生成部134とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
 学習部131は、コンテンツを学習データとして所定の学習処理を行い、学習済みモデルを生成する。
 例えば、学習部131は、曲等の音データを学習する場合、音データをエンコーダ50に入力し、音データの特徴量を抽出する。続けて、学習部131は、音データの特徴量をデコーダ60に入力し、エンコーダ50に入力された音データを再構成する。そして、学習部131は、前後の音データの相違が小さくなるよう、エンコーダ50及びデコーダ60のパラメータを調整する。学習部131は、かかる処理を繰り返し、エンコーダ50及びデコーダ60が最適化された学習済みモデルを生成する。上述のように、学習部131は、VAEやGAN等、種々の既知の手法を用いてモデルを生成してもよい。
 取得部132は、各種情報を取得する。例えば、取得部132は、学習部131によって学習されたモデルに入力する第1コンテンツを取得する。
 また、取得部132は、取得した第1コンテンツを分割し、第1コンテンツを構成する部分データを取得する。例えば、取得部132は、第1コンテンツが曲である場合、上述した手法により曲の小節の区切りを検出し、検出した小節を部分データとする。
 あるいは、取得部132は、第1コンテンツにおける所定閾値の長さを超える休符を検出し、検出した休符に基づいて曲を部分データに分割してもよい。この場合、所定閾値の長さとは、時間的な長さであってもよいし、小節内に占める休符の割合等であってもよい。
 また、取得部132は、学習部131によって学習されたエンコーダ50を用いて、第1コンテンツを構成する部分データごとの特徴量を取得する。
 具体的には、取得部132は、部分データに含まれる音を示すデータとして、音高、音長及び休符を示す記号列をエンコーダ50に入力することにより、当該部分データに対応する特徴量を取得する。かかる特徴量は、例えば、元の部分データを表現するベクトルよりも低次元のベクトルとして表現される。
 算出部133は、取得部132によって取得された部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する。
 例えば、算出部133は、第1コンテンツの一部の部分データの特徴量を、当該一部の部分データを除く各部分データの特徴量から加算、減算、乗算もしくは除算して相対的特徴量を算出することにより、相対的特徴量系列を算出する。第1コンテンツの一部の部分データとは、第1コンテンツを構成する部分データのうち特定の部分データを示し、図1の例では、曲30の1番目の小節の特徴量「z」が該当する。このように、算出部133は、複数の部分データに対して、ある特定の部分データとの加減乗除等の演算を行うことで、相対的な関係を有する相対的特徴量を算出する。
 なお、図1の例では、曲30の部分データの各特徴量から、曲30の1番目の小節の特徴量「z」を減算する例を示したが、演算は、この例に限られない。例えば、算出部133は、第1コンテンツの一部の部分データの特徴量と、当該一部の部分データを除く各部分データであって、当該一部の部分データと因果関係を有する部分データの特徴量との相対的特徴量を算出することにより、相対的特徴量系列を算出してもよい。
 ここで、一部の部分データと因果関係を有する部分データとは、一部の部分データと何らかの対応関係を有する部分データを示す。例えば、コンテンツが曲である場合、曲中には、ある小節に対応する小節(例えば、コールアンドレスポンスの関係にある等と称される)が存在する場合がある。この場合、算出部133は、上記のように、何らかの因果関係を有する小節同士の特徴量を加算する(もしくは減算する)演算を優先的に行うなど、曲としての構造を強調したり、逆に弱めたりするような処理を行ってもよい。なお、コンテンツの部分データ同士の因果関係については、例えば因果推論等の既知の機械学習手法を用いて曲を分析することにより、ある小節と因子となる小節との関係性を数値化するなどの手法で求めることができる。
 また、算出部133は、コンテンツ内の部分データを所定の関係性に基づいてグラフ化し、グラフにおいて近しい関係にある部分データ同士を加算もしくは減算するなど、種々の既知の手法を用いて、相対的特徴量を算出してもよい。
 算出部133は、上記のように、種々の手法で部分データ同士の相対的な特徴量である相対的特徴量を算出し、算出した相対的特徴量を順に並べることで、第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する。算出部133は、算出した相対的特徴量を生成部134に送る。
 生成部134は、第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する。
 例えば、生成部134は、算出部133によって算出された第1コンテンツの相対的特徴量系列と任意のデータの特徴量とから、新規な特徴量系列を算出する。そして、生成部134は、新規な特徴量系列に含まれる、各々の特徴量をデコーダ60に入力し、各々の特徴量に対応する部分データを再構成する。さらに、生成部134は、再構成された部分データを系列順に組み合わせることで、新規なコンテンツである第2コンテンツを生成する。
 生成部134は、曲である第1コンテンツの相対的特徴量系列が得られた場合には、第2コンテンツとして任意の曲を新たに生成することができる。この場合、取得部132は、部分データ及び任意のデータに含まれる音を示すデータとして、音高、音長及び休符を示す記号列をエンコーダ50に入力することにより、部分データ及び任意のデータに対応する特徴量を取得する。そして、取得部132によって取得された特徴量に基づいて、算出部133は、各部分データに対応する相対的特徴量系列を算出する。生成部134は、算出部133によって算出された相対的特徴量系列と、任意のデータ(例えば、新たなコンテンツのモチーフとする音データ)に対応する特徴量とに基づいて、新規な特徴量系列を生成し、生成した新規な特徴量系列から、曲である第2コンテンツを生成する。
[1-3.実施形態に係る情報処理の手順]
 次に、図4及び図5を用いて、実施形態に係る情報処理の手順について説明する。まず、図4を用いて、本開示の実施形態に係る学習処理の流れについて説明する。図4は、本開示の実施形態に係る情報処理の手順を示すフローチャート(1)である。
 図4に示すように、情報処理装置100は、学習データ(コンテンツ)を取得したか否かを判定する(ステップS101)。学習データを取得していない場合(ステップS101;No)、情報処理装置100は、学習データを取得するまで待機する。
 一方、学習データを取得した場合(ステップS101;Yes)、情報処理装置100は、学習データを用いてモデルを生成する(ステップS102)。そして、情報処理装置100は、学習済みモデル(エンコーダ及びデコーダ)を記憶部120内に格納する(ステップS103)。
 次に、図5を用いて、本開示の実施形態に係る生成処理の流れについて説明する。図5は、本開示の実施形態に係る情報処理の手順を示すフローチャート(2)である。
 図5に示すように、情報処理装置100は、第1コンテンツを取得したか否かを判定する(ステップS201)。第1コンテンツを取得していない場合(ステップS201;No)、情報処理装置100は、第1コンテンツを取得するまで待機する。
 一方、第1コンテンツを取得した場合(ステップS201;Yes)、情報処理装置100は、第1コンテンツを部分データに分割する(ステップS202)。例えば、情報処理装置100は、第1コンテンツが曲である場合、曲を小節ごとの部分データに分割する。
 続けて、情報処理装置100は、各部分データをエンコーダ50に入力して、部分データごとの特徴量を算出する(ステップS203)。さらに、情報処理装置100は、部分データ同士の特徴量に所定の演算を行い、相対的特徴量を算出する(ステップS204)。
 相対的特徴量に基づいて、情報処理装置100は、第1コンテンツの構造の特徴を示す相対的特徴量系列を算出する(ステップS205)。
 その後、情報処理装置100は、生成する第2コンテンツのモチーフ等となる任意のデータ(ある曲の1小節など)を取得したか否かを判定する(ステップS206)。任意のデータを取得していない場合(ステップS206;No)、情報処理装置100は、任意のデータを取得するまで待機する。
 一方、任意のデータを取得した場合(ステップS206;Yes)、情報処理装置100は、任意のデータをエンコーダ50に入力し、任意のデータの特徴量を算出する(ステップS207)。
 続けて、情報処理装置100は、第1コンテンツの相対的特徴量系列と任意のデータの特徴量とに基づいて、第2コンテンツの元となる、新規な特徴量系列を算出する(ステップS208)。
 そして、情報処理装置100は、新規な特徴量系列をデコーダ60に入力して、新規な特徴量系列から第2コンテンツを生成する(ステップS209)。
(2.その他の実施形態)
 上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。
 上記実施形態では、コンテンツの例として曲(音楽)を挙げた。しかし、情報処理装置100は、コンテンツとしてテキストデータや動画等を用いて本開示に係る情報処理を行ってもよい。
 例えば、情報処理装置100は、テキストデータである第1コンテンツを構成する部分データごとの特徴量を取得する。そして、情報処理装置100は、取得された部分データごとの特徴量に基づいて得られる第1コンテンツの相対的特徴量系列と、テキストデータである任意のデータの特徴量とに基づいて、テキストデータである第2コンテンツを生成する。この場合、情報処理装置100は、テキストデータの特徴量を出力するための学習済みモデルを生成しているものとする。
 この場合、テキストデータは、例えば詩や短歌等が例に挙げられる。例えば、情報処理装置100は、複数の文(例えば、改行記号によって区切られるテキスト)から構成される詩を取得する。そして、情報処理装置100は、詩に含まれる改行記号を検出して、詩を部分データ(各行の文)に分割する。続けて、情報処理装置100は、部分データの相対的特徴量を算出して、当該詩に対応する相対的特徴量系列を得る。
 情報処理装置100は、新たに任意のデータ(例えば、ユーザが詩に組み込みたいと所望する語句や文など)を取得した場合、当該任意のデータの特徴量を算出し、算出した特徴量と、詩に対応する相対的特徴量系列とに基づいて、新規な特徴量系列を算出する。そして、情報処理装置100は、新規な特徴量系列から、第2コンテンツとして、新たな詩を生成する。
 これにより、情報処理装置100は、既存の詩の構成(例えば、改行の文字数(リズム)や音韻、次の行に登場する語句の表現など)が類似する、新たな詩を生成することができる。
 また、情報処理装置100は、テキストデータではなく、動画コンテンツを元にして、新たな動画コンテンツを生成してもよい。この場合、情報処理装置100は、動画コンテンツを構成する画像の特徴量を出力する学習済みモデルを生成しているものとする。
 例えば、情報処理装置100は、動画コンテンツである第1コンテンツを構成する部分データごとの特徴量を取得する。この場合、部分データとは、例えば、動画コンテンツを構成する各フレームに対応する画像である。なお、部分データは、1枚の静止画に限らず、数フレームをまとめて平均化した画像データ等であってもよい。そして、情報処理装置100は、取得された部分データごとの特徴量に基づいて得られる第1コンテンツの相対的特徴量系列と、動画もしくは画像コンテンツである任意のデータの特徴量とに基づいて、動画コンテンツである第2コンテンツを生成する。
 これにより、情報処理装置100は、既存の動画コンテンツの構成が類似する、新たな動画コンテンツを生成することができる。一例として、情報処理装置100は、花が開く一連の動きを捉えた動画コンテンツや、人間の歩く動画を捉えた動画コンテンツ等に基づいて、他の物体が類似した動作を行うような新規な動画コンテンツを生成する。このように、情報処理装置100は、本開示に係る情報処理によって、曲に限らず、コンテンツ全体の構造が類似する様々な新規なコンテンツを自動生成することができる。
 また、情報処理装置100は、本開示に係る情報処理を応用して、人間の味覚情報に基づき、類似する味覚を発する物質等を検出する処理を行ってもよい。例えば、人間の味覚において、第1要素、第2要素、第3要素の順に人間が要素を検知した場合に、特定の味覚(例えば甘味など)を感じる傾向があると仮定する。この場合、情報処理装置100は、第1要素、第2要素、第3要素の順に人間が要素を検知するといった構造を有する物質の相対的特徴量を算出することにより、同様の構造を有する新たな物質を生成する可能性がある。
 また、上記実施形態では、曲30を小節に分割して特徴量系列を算出する例を示したが、情報処理装置100は、例えば、複数の曲を第1コンテンツとし、各々の曲を一つの部分データとして、複数の曲を示す特徴量系列を算出してもよい。この場合、情報処理装置100は、複数の曲の並びがどのような構造を有しているか、といった特徴を表現することができる。具体的には、情報処理装置100は、複数の曲の並び順として、明るめ(例えばアップテンポの曲)が1番目にあり、その後に比較的暗めの曲が登場するといった構造の特徴を表現する。上記実施形態で説明したように、情報処理装置100は、構造としての特徴を他のコンテンツに遷移することできる。このため、情報処理装置100は、例えば、他の複数の曲を並び替える場合に、第1コンテンツと同じような構造を有するリストの生成(いわゆる、曲順を自動的に並べ替えたプレイリスト)を行うことができる。
 また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
(3.ハードウェア構成)
 上述してきた各実施形態に係る情報処理装置100等の情報機器は、例えば図6に示すような構成のコンピュータ1000によって実現される。以下、実施形態に係る情報処理装置100を例に挙げて説明する。図6は、情報処理装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部と、
 取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
 前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部と
 を備える情報処理装置。
(2)
 前記算出部は、
 前記第1コンテンツの一部の部分データの特徴量を、当該一部の部分データを除く各部分データの特徴量から加算、減算、乗算もしくは除算して前記相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
 前記(1)に記載の情報処理装置。
(3)
 前記算出部は、
 前記第1コンテンツの一部の部分データの特徴量と、当該一部の部分データを除く各部分データであって、当該一部の部分データと因果関係を有する部分データの特徴量との相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記生成部は、
 第1コンテンツの相対的特徴量系列と任意のデータの特徴量とから算出した特徴量系列を学習済みデコーダに入力することにより、前記第2コンテンツを生成する
 前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
 前記生成部は、
 曲である前記第1コンテンツの相対的特徴量系列に基づいて、前記第2コンテンツとして任意の曲を生成する
 前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
 前記取得部は、
 前記部分データ及び前記任意のデータに含まれる音を示すデータとして、音高、音長及び休符を示す記号列を前記学習済みエンコーダに入力することにより、当該部分データ及び前記任意のデータに対応する特徴量を取得し、
 前記生成部は、
 取得された任意のデータ及び部分データの特徴量に基づいて得られた前記相対的特徴量系列を学習済みデコーダに入力することにより、前記第2コンテンツを生成する
 前記(5)に記載の情報処理装置。
(7)
 前記取得部は、
 テキストデータである前記第1コンテンツを構成する部分データごとの特徴量を取得し、
 前記生成部は、
 取得された部分データごとの特徴量に基づいて得られる前記第1コンテンツの相対的特徴量系列と、テキストデータである任意のデータの特徴量とに基づいて、テキストデータである第2コンテンツを生成する
 前記(1)~(4)のいずれかに記載の情報処理装置。
(8)
 前記取得部は、
 動画コンテンツである前記第1コンテンツを構成する部分データごとの特徴量を取得し、
 前記生成部は、
 取得された部分データごとの特徴量に基づいて得られる前記第1コンテンツの相対的特徴量系列と、動画もしくは画像コンテンツである任意のデータの特徴量とに基づいて、動画コンテンツである第2コンテンツを生成する
 前記(1)~(4)のいずれかに記載の情報処理装置。
(9)
 前記取得部は、
 曲である前記第1コンテンツの小節の区切りを検出し、検出した小節ごとの特徴量を取得する
 前記(1)~(6)のいずれかに記載の情報処理装置。
(10)
 前記取得部は、
 曲である前記第1コンテンツにおける所定閾値の長さを超える休符を検出し、検出した休符に基づいて当該曲を部分データに分割し、分割した部分データごとの特徴量を取得する
 前記(1)~(6)のいずれかに記載の情報処理装置。
(11)
 コンピュータが、
 学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得し、
 取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出し、
 前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する
 情報処理方法。
(12)
 コンピュータを、
 学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部と、
 取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
 前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部と
 として機能させるための情報処理プログラム。
 100 情報処理装置
 110 通信部
 120 記憶部
 121 モデル記憶部
 122 曲データ記憶部
 130 制御部
 131 学習部
 132 取得部
 133 算出部
 134 生成部

Claims (12)

  1.  学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部と、
     取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
     前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部と
     を備える情報処理装置。
  2.  前記算出部は、
     前記第1コンテンツの一部の部分データの特徴量を、当該一部の部分データを除く各部分データの特徴量から加算、減算、乗算もしくは除算して前記相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
     請求項1に記載の情報処理装置。
  3.  前記算出部は、
     前記第1コンテンツの一部の部分データの特徴量と、当該一部の部分データを除く各部分データであって、当該一部の部分データと因果関係を有する部分データの特徴量との相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
     請求項1に記載の情報処理装置。
  4.  前記生成部は、
     第1コンテンツの相対的特徴量系列と任意のデータの特徴量とから算出した特徴量系列を学習済みデコーダに入力することにより、前記第2コンテンツを生成する
     請求項1に記載の情報処理装置。
  5.  前記生成部は、
     曲である前記第1コンテンツの相対的特徴量系列に基づいて、前記第2コンテンツとして任意の曲を生成する
     請求項1に記載の情報処理装置。
  6.  前記取得部は、
     前記部分データ及び前記任意のデータに含まれる音を示すデータとして、音高、音長及び休符を示す記号列を前記学習済みエンコーダに入力することにより、当該部分データ及び前記任意のデータに対応する特徴量を取得し、
     前記生成部は、
     取得された任意のデータ及び部分データの特徴量に基づいて得られた前記相対的特徴量系列を学習済みデコーダに入力することにより、前記第2コンテンツを生成する
     請求項5に記載の情報処理装置。
  7.  前記取得部は、
     テキストデータである前記第1コンテンツを構成する部分データごとの特徴量を取得し、
     前記生成部は、
     取得された部分データごとの特徴量に基づいて得られる前記第1コンテンツの相対的特徴量系列と、テキストデータである任意のデータの特徴量とに基づいて、テキストデータである第2コンテンツを生成する
     請求項1に記載の情報処理装置。
  8.  前記取得部は、
     動画コンテンツである前記第1コンテンツを構成する部分データごとの特徴量を取得し、
     前記生成部は、
     取得された部分データごとの特徴量に基づいて得られる前記第1コンテンツの相対的特徴量系列と、動画もしくは画像コンテンツである任意のデータの特徴量とに基づいて、動画コンテンツである第2コンテンツを生成する
     請求項1に記載の情報処理装置。
  9.  前記取得部は、
     曲である前記第1コンテンツの小節の区切りを検出し、検出した小節ごとの特徴量を取得する
     請求項1に記載の情報処理装置。
  10.  前記取得部は、
     曲である前記第1コンテンツにおける所定閾値の長さを超える休符を検出し、検出した休符に基づいて当該曲を部分データに分割し、分割した部分データごとの特徴量を取得する
     請求項1に記載の情報処理装置。
  11.  コンピュータが、
     学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得し、
     取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出し、
     前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する
     情報処理方法。
  12.  コンピュータを、
     学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部と、
     取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
     前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部と
     として機能させるための情報処理プログラム。
PCT/JP2019/040130 2018-10-19 2019-10-10 情報処理装置、情報処理方法及び情報処理プログラム WO2020080268A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE112019005201.2T DE112019005201T5 (de) 2018-10-19 2019-10-10 Datenverarbeitungsvorrichtung, datenverarabeitungsverfahren unddatenverarbeitungsprogramm
EP19874236.3A EP3716262A4 (en) 2018-10-19 2019-10-10 DEVICE, PROCESS AND PROGRAM FOR PROCESSING INFORMATION
CN201980006383.4A CN111492424A (zh) 2018-10-19 2019-10-10 信息处理设备、信息处理方法以及信息处理程序
JP2020527832A JP7439755B2 (ja) 2018-10-19 2019-10-10 情報処理装置、情報処理方法及び情報処理プログラム
US16/772,168 US11880748B2 (en) 2018-10-19 2019-10-10 Information processing apparatus, information processing method, and information processing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-197971 2018-10-19
JP2018197971 2018-10-19

Publications (1)

Publication Number Publication Date
WO2020080268A1 true WO2020080268A1 (ja) 2020-04-23

Family

ID=70284581

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/040130 WO2020080268A1 (ja) 2018-10-19 2019-10-10 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (6)

Country Link
US (1) US11880748B2 (ja)
EP (1) EP3716262A4 (ja)
JP (1) JP7439755B2 (ja)
CN (1) CN111492424A (ja)
DE (1) DE112019005201T5 (ja)
WO (1) WO2020080268A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021225008A1 (ja) 2020-05-04 2021-11-11 ソニーグループ株式会社 情報処理方法、情報処理装置及び情報処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489606B (zh) * 2020-11-26 2022-09-27 北京有竹居网络技术有限公司 旋律生成方法、装置、可读介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070806A (ja) * 2004-11-05 2005-03-17 Yamaha Corp リズムパターン生成装置及びその記録媒体
JP2011175006A (ja) 2010-02-23 2011-09-08 Sony Corp 情報処理装置、自動作曲方法、学習装置、学習方法、及びプログラム
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4982643A (en) * 1987-12-24 1991-01-08 Casio Computer Co., Ltd. Automatic composer
JP3178463B2 (ja) * 1999-08-31 2001-06-18 ヤマハ株式会社 電子情報処理方法及びシステム並びに記録媒体
US7212972B2 (en) * 1999-12-08 2007-05-01 Ddi Corporation Audio features description method and audio video features description collection construction method
JP4014390B2 (ja) * 2001-10-29 2007-11-28 オリンパス株式会社 マルチメディアオブジェクト検索システム
JP3760897B2 (ja) * 2002-07-16 2006-03-29 ヤマハ株式会社 操作情報記録再生装置およびタイムコード発生装置
US7363230B2 (en) * 2002-08-01 2008-04-22 Yamaha Corporation Audio data processing apparatus and audio data distributing apparatus
EP1577877B1 (en) * 2002-10-24 2012-05-02 National Institute of Advanced Industrial Science and Technology Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
US6784354B1 (en) * 2003-03-13 2004-08-31 Microsoft Corporation Generating a music snippet
JP4221308B2 (ja) * 2004-01-15 2009-02-12 パナソニック株式会社 静止画再生装置、静止画再生方法及びプログラム
US8549400B2 (en) * 2004-09-28 2013-10-01 Ricoh Company, Ltd. Techniques for encoding media objects to a static visual representation
US7774705B2 (en) * 2004-09-28 2010-08-10 Ricoh Company, Ltd. Interactive design process for creating stand-alone visual representations for media objects
JP2008145448A (ja) * 2005-03-31 2008-06-26 Pioneer Electronic Corp 情報類似性判別装置及び情報類似性判別方法等
US7450752B2 (en) * 2005-04-07 2008-11-11 Hewlett-Packard Development Company, L.P. System and method for automatic detection of the end of a video stream
WO2007036817A1 (en) * 2005-09-29 2007-04-05 Koninklijke Philips Electronics N.V. Method and apparatus for automatically generating a playlist by segmental feature comparison
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
KR100725018B1 (ko) * 2005-11-24 2007-06-07 삼성전자주식회사 음악 내용 자동 요약 방법 및 그 장치
US20090132074A1 (en) * 2005-12-08 2009-05-21 Nec Corporation Automatic segment extraction system for extracting segment in music piece, automatic segment extraction method, and automatic segment extraction program
KR100832360B1 (ko) * 2006-09-25 2008-05-26 삼성전자주식회사 음원 재생기에서의 이퀄라이저 조정 방법 및 그 시스템
JP5259075B2 (ja) * 2006-11-28 2013-08-07 ソニー株式会社 マッシュアップ装置およびコンテンツの作成方法
JP2009092977A (ja) * 2007-10-10 2009-04-30 Xanavi Informatics Corp 車載装置および楽曲検索システム
JP5046211B2 (ja) * 2008-02-05 2012-10-10 独立行政法人産業技術総合研究所 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
JP5326555B2 (ja) * 2008-12-25 2013-10-30 ソニー株式会社 情報処理装置、動画像切り出し方法および動画像切り出しプログラム
JP5283289B2 (ja) * 2009-02-17 2013-09-04 国立大学法人京都大学 音楽音響信号生成システム
JP2011221133A (ja) * 2010-04-06 2011-11-04 Sony Corp 情報処理装置、クライアント装置、サーバ装置、リスト生成方法、リスト取得方法、リスト提供方法、及びプログラム
JP2011223357A (ja) * 2010-04-09 2011-11-04 Sony Corp 画像処理装置および方法
US9286877B1 (en) * 2010-07-27 2016-03-15 Diana Dabby Method and apparatus for computer-aided variation of music and other sequences, including variation by chaotic mapping
JP5594052B2 (ja) * 2010-10-22 2014-09-24 ソニー株式会社 情報処理装置、楽曲再構成方法及びプログラム
JP5799977B2 (ja) * 2012-07-18 2015-10-28 ヤマハ株式会社 音符列解析装置
US8927846B2 (en) * 2013-03-15 2015-01-06 Exomens System and method for analysis and creation of music
US9788777B1 (en) * 2013-08-12 2017-10-17 The Neilsen Company (US), LLC Methods and apparatus to identify a mood of media
US9542118B1 (en) * 2014-09-09 2017-01-10 Radian Memory Systems, Inc. Expositive flash memory control
KR102565275B1 (ko) * 2016-08-10 2023-08-09 삼성전자주식회사 병렬 처리에 기초한 번역 방법 및 장치
US10380983B2 (en) * 2016-12-30 2019-08-13 Google Llc Machine learning to generate music from text
JP6791780B2 (ja) * 2017-02-16 2020-11-25 株式会社日立製作所 文章作成装置
WO2018154900A1 (ja) * 2017-02-22 2018-08-30 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10249289B2 (en) * 2017-03-14 2019-04-02 Google Llc Text-to-speech synthesis using an autoencoder
US10068557B1 (en) 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks
US11361763B1 (en) * 2017-09-01 2022-06-14 Amazon Technologies, Inc. Detecting system-directed speech
JP7222274B2 (ja) * 2019-03-06 2023-02-15 日本電信電話株式会社 モデル学習装置、ラベル推定装置、それらの方法、およびプログラム
US11961167B2 (en) * 2020-12-11 2024-04-16 Jay Alan Zimmerman Methods and systems for visualizing sound and hearing ability

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070806A (ja) * 2004-11-05 2005-03-17 Yamaha Corp リズムパターン生成装置及びその記録媒体
JP2011175006A (ja) 2010-02-23 2011-09-08 Sony Corp 情報処理装置、自動作曲方法、学習装置、学習方法、及びプログラム
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BRIOT, JEAN-PIERRE ET AL.: "Deep Learning Techniques for Music Generation- A Survey", 5 September 2017 (2017-09-05), pages 1 - 108, XP081423814, Retrieved from the Internet <URL:URL:https://arxiv.org/abs/1709.01620v1> *
KOKUBO, YOSHIHITO ET AL.: "Fine-grained Pedestrian Classification by Fusing Multiple CNN Models", IEICE TECHNICAL REPORT, vol. 116, no. 461, 11 February 2017 (2017-02-11), pages 81 - 85, XP009520930 *
NAGASHIMA, HIDEAKI ET AL.: "Feature Extraction of Painting Style Using Deep Neural Network", PROCEEDINGS OF INFORMATION SCIENCE AND TECHNOLOGY FORUM; FIT 2014, vol. 13, no. 3, 19 August 2014 (2014-08-19), pages 133 - 138, XP009520937 *
See also references of EP3716262A4
SHIMIZU, RYO: "Passage, First deep learning programming", FIRST DEEP LEARNING PROGRAMMING, 10 January 2017 (2017-01-10), pages 154 - 157, XP009520939, ISBN: 978-4-7741-8534-7 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021225008A1 (ja) 2020-05-04 2021-11-11 ソニーグループ株式会社 情報処理方法、情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
EP3716262A4 (en) 2021-11-10
US11880748B2 (en) 2024-01-23
DE112019005201T5 (de) 2021-07-22
JPWO2020080268A1 (ja) 2021-09-09
JP7439755B2 (ja) 2024-02-28
CN111492424A (zh) 2020-08-04
US20210232965A1 (en) 2021-07-29
EP3716262A1 (en) 2020-09-30

Similar Documents

Publication Publication Date Title
CN107123415B (zh) 一种自动编曲方法及系统
JP7415922B2 (ja) 情報処理方法、情報処理装置及び情報処理プログラム
US8916762B2 (en) Tone synthesizing data generation apparatus and method
US20190043239A1 (en) Methods, systems, articles of manufacture and apparatus for generating a response for an avatar
JP2023513586A (ja) 音楽コンテンツの生成
JPWO2018084305A1 (ja) 音声合成方法、音声合成装置およびプログラム
WO2020080268A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US11842710B2 (en) Generative composition using form atom heuristics
Brown et al. Techniques for generative melodies inspired by music cognition
Adiloglu et al. A machine learning approach to two-voice counterpoint composition
CN112669811A (zh) 一种歌曲处理方法、装置、电子设备及可读存储介质
US20190197415A1 (en) User state modeling
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
WO2021166745A1 (ja) アレンジ生成方法、アレンジ生成装置、及び生成プログラム
JP4968421B2 (ja) 時系列信号解析装置
KR102227415B1 (ko) 복선율 음악 생성 방법, 장치, 및 시스템
JP2013015601A (ja) 音源の識別装置および音源に連動する情報処理装置
WO2021220797A1 (ja) 情報処理方法、情報処理装置及びプログラム
US11978426B2 (en) System and methods for automatically generating a musical composition having audibly correct form
CN113851098B (zh) 一种旋律的风格转换方法、装置、终端设备及存储介质
EP4068273A2 (en) System and methods for automatically generating a musical composition having audibly correct form
Olson Deep Generative Multimedia Children's Literature
McAllister Generating Remixed Music via Style Transfer
Lawson An Automated Lighting Control System Based on Advanced Music Information Retrieval Techniques
JP2016057571A (ja) 音響解析装置

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020527832

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19874236

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019874236

Country of ref document: EP

Effective date: 20200625