WO2022145145A1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
WO2022145145A1
WO2022145145A1 PCT/JP2021/042384 JP2021042384W WO2022145145A1 WO 2022145145 A1 WO2022145145 A1 WO 2022145145A1 JP 2021042384 W JP2021042384 W JP 2021042384W WO 2022145145 A1 WO2022145145 A1 WO 2022145145A1
Authority
WO
WIPO (PCT)
Prior art keywords
series
information
data
information processing
input
Prior art date
Application number
PCT/JP2021/042384
Other languages
English (en)
French (fr)
Inventor
健人 赤間
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to EP21915006.7A priority Critical patent/EP4270267A4/en
Priority to CN202180087191.8A priority patent/CN116685987A/zh
Priority to US18/256,639 priority patent/US20240095500A1/en
Priority to JP2022572935A priority patent/JPWO2022145145A1/ja
Publication of WO2022145145A1 publication Critical patent/WO2022145145A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Definitions

  • This disclosure relates to an information processing device, an information processing method, and an information processing program.
  • Patent Document 1 discloses a method of selectively learning a feature amount designated by a user so that a sequence is generated in a manner desired by the user.
  • Patent Document 1 In some cases, you may want to generate a series in which only a part is newly generated and the rest is maintained. No specific study has been made on this point in Patent Document 1.
  • One aspect of the present disclosure provides an information processing apparatus, an information processing method, and an information processing program capable of generating a series in which only a part is newly generated and the rest is maintained.
  • the information processing apparatus includes a control means, a data input means for inputting series data, and a machine learning model for generating new series data based on the series data input by the data input means.
  • a target series data that changes the series data when generating new series data by the machine learning model, and / or a series data selection means that selects the context series data that does not change.
  • the control means either (i) generate new target sequence data that interpolates at least two sequence data already generated by the machine learning model, or (ii) for the sequence data already generated by the machine learning model. To generate different new series data.
  • the information processing apparatus is determined by using input information, which is information about a sequence in which a part is composed of a target sequence and the rest is composed of a context sequence and gives a series of information, and a trained model.
  • the trained model has a generator that generates a sequence including a created context sequence and a new target sequence, and when data corresponding to the input information is input, the trained model outputs the data corresponding to the new target sequence.
  • the information processing apparatus uses input information, which is information about a sequence in which a part is composed of a target sequence and the rest is composed of a context sequence and gives a series of information, and a trained model. It has a generator that generates a series including a fixed context sequence and a new target sequence, and a user interface that accepts input information and presents the generation result of the generator. When the corresponding data is input, the data corresponding to the new target series is output.
  • the information processing method is determined by using input information, which is information about a series in which a part is composed of a target series and the rest is composed of a context series and gives a series of information, and a trained model.
  • the trained model outputs the data corresponding to the new target series when the data corresponding to the input information is input, including generating the generated context series and the series including the new target series.
  • the information processing program is determined by using input information, which is information about a sequence in which a part is composed of a target sequence and the rest is composed of a context sequence and gives a series of information, and a trained model.
  • input information which is information about a sequence in which a part is composed of a target sequence and the rest is composed of a context sequence and gives a series of information
  • a trained model is used.
  • the computer is made to generate a sequence including the created context sequence and the new target sequence, and the trained model outputs the data corresponding to the new target sequence when the data corresponding to the input information is input. do.
  • the information that becomes the processing symmetry of the information processing apparatus according to the embodiment is a series (series data) that gives a series of information.
  • sequences are music (music sequences, audio, etc.) and languages (documents, poetry, etc.).
  • the sequence is a music sequence will be mainly described as an example.
  • FIG. 1 is a diagram showing an example of the appearance of the information processing apparatus according to the embodiment.
  • the information processing apparatus 1 is realized, for example, by executing a predetermined program (software) on a general-purpose computer.
  • the information processing apparatus 1 is a laptop used by the user U.
  • the information processing apparatus 1 includes a user interface (user interface 10 in FIG. 5 described later) for exchanging information with the user U.
  • the user interface may include a display, keyboard, touchpad, speaker and the like.
  • the display may be a touch panel display.
  • the information processing device 1 may be realized not only by a laptop but also by various devices such as a tablet terminal and a smartphone.
  • FIGS. 2 to 4 are diagrams showing an example of an operation screen presented by the user interface.
  • a folder or the like is referred to and a file is selected.
  • the series shown in the selected file is entered and visualized.
  • a music sequence showing the time and the pitch value in association with each other is displayed as a series.
  • the entire series is referred to as a series x and is illustrated.
  • operation the operation by the user U (user operation) is simply referred to as "operation”.
  • the series x is divided into a plurality of series by the operation related to the item "range specification". For example, a part of the visualized and displayed series x is range-selected and divided into a selected part and other parts. A part of the divided series x is referred to as a target series (shown by hatching), and the rest is referred to as a context series x C.
  • the target series is the part that needs to be changed (changed).
  • the context series x C is a part that is required not to be changed (maintained, not changed). Since the context sequence x C is unchanged, it can be said that it is the determined context sequence x C.
  • the position information of the context series x C in the series x (corresponding to the position information R in FIG. 8 described later) is input.
  • a series is generated by the operation related to the item "search". Details will be described later, but when "normal generation” is specified, the context series x C input by the operation related to the above-mentioned “series selection” and the position information input by the operation related to the “range specification” are added. Based on this, a series is generated.
  • the generated series A is visualized and displayed in a mode in which operations such as reproduction can be performed.
  • the sequence A is common in that it contains the same context sequence x C as compared to the original sequence x (FIG. 2), but differs in that it contains a new target sequence x T.
  • the target sequence x T of the sequence A is referred to as a target sequence x TA and is illustrated.
  • the operation related to the item "search” generates a further series based on the series A (as a starting point). Details will be described later, but when "variation generation” is specified, a series including a target series different from the target series x T of the generated series is generated.
  • feature specification the feature of the series is specified. In this example, an arbitrary position (feature) in the latent space FS that defines the feature amount of the series is specified, and a series having the feature (feature amount corresponding to the specified position) is generated.
  • This series is also a series including a target series different from the target series x TA of the series A. For example, through these operations, multiple generated sequences are obtained, each containing a different new target sequence.
  • the further generated series B and series C are visualized and displayed together with the series A in a mode in which operations such as designation and reproduction can be performed.
  • the target sequence x T of the sequence B is referred to as a target sequence x TB and is illustrated.
  • the target sequence x T of the sequence C is referred to as a target sequence x TC and is illustrated.
  • the series A, the series B, and the series C may be simply referred to as "series A and the like".
  • various modes of operation may be presented by the user interface.
  • FIG. 5 is a diagram showing an example of a schematic configuration of an information processing device.
  • the information processing apparatus 1 includes a storage unit 20 and a generation unit 30 in addition to the user interface 10 described above with reference to FIG.
  • the user interface 10 has a function as an input unit (reception unit) that receives information by user operation. It can be said that the user interface 10 has a function as a data input means for inputting series data.
  • the user interface 10 also has a function as a series data selection means for selecting a target series (target series data) and / or a context series (context series data), for example, as described above with reference to FIG. I can say.
  • the information received by the user interface 10 is referred to as "input information". Some examples of input information will be described.
  • the input information includes information about the series.
  • the information about the series is the information about the series including the determined context series x C. Examples of such input information are information about the series x described above with reference to FIG. 2 and information about the generated series (series A, etc.) described above with reference to FIGS. 3 and 4. be.
  • the generated series is a series generated by the generation unit 30 described later.
  • the input information may include information that specifies at least one series among a plurality of generated series.
  • An example of such input information is information that specifies the sequence A or the like described above with reference to FIG.
  • the input information may be information that specifies, for example, two series, series A and series B.
  • the input information may include information that specifies the characteristics of the series.
  • An example of such input information is information that specifies a position (characteristic of a series) in the latent space FS described above with reference to FIGS. 3 and 4.
  • the user interface 10 has a function as an output unit (presentation unit) for presenting information to the user.
  • the user interface 10 outputs the generation result of the generation unit 30 described later.
  • the sequence A or the like is presented (screen display, sound output, etc.) in the manner described above with reference to FIGS. 3 and 4.
  • features such as sequence A are presented as positions in the latent space FS. It can be said that the user interface 10 has a function as a display means for displaying a position in the latent space FS in a specifiable manner.
  • the storage unit 20 stores various information used in the information processing device 1. As an example of the information stored in the storage unit 20, the trained model 21 and the information processing program 22 are illustrated.
  • the trained model 21 is a trained model generated (learned) using the training data so as to output the data corresponding to the new target series x T when the data corresponding to the above input information is input. Is.
  • the trained model 21 can be said to be a machine learning model that generates new series data based on the input series data.
  • the generation unit 30 generates the corresponding data from the input information and inputs it to the trained model 21. Further, the generation unit 30 generates a corresponding series from the data output by the trained model 21.
  • the input / output data of the trained model 21 includes, for example, a token sequence (token sequence).
  • the data input to the trained model 21 includes a token of the context series x C.
  • the data output by the trained model 21 includes a token of a new target sequence x T. The token will be described with reference to FIG.
  • FIG. 6 is a diagram showing an example of a token.
  • a music sequence is shown as an example of a sequence.
  • the horizontal axis shows the time, and the vertical axis shows the pitch value (MIDI pitch).
  • One unit time corresponds to one bar period. That is, in this example, the series of information given by the series is music information indicating the pitch value of the sound for each time.
  • the token sequence corresponding to the music sequence is shown.
  • the token indicates either the pitch value of the sound or the duration of the sound.
  • the first token and the second token are arranged in chronological order.
  • the first token is a token indicating the generation and stop of each sound included in the sequence.
  • the second token is a token indicating the period during which the state shown in the corresponding first token is maintained.
  • the part represented by angle brackets ⁇ > corresponds to one token.
  • the tokens ⁇ ON, W, 60> are tokens (first tokens) indicating that the sound generation at the pitch value 60 of the sound source W (for example, indicating the type of musical instrument) starts at time 0. ..
  • the following token ⁇ SHIFT, 1> is a token (corresponding second token) indicating that the state (sound source W, pitch value 60) shown in the corresponding first token is maintained for one unit time. be. That is, SHIFT means that only the time moves (only the time elapses) in the state shown in the immediately preceding token. Other tokens for ON and SHIFT will be described as well.
  • the token ⁇ OFF, W, 60> is a token (first token) indicating that the sound generation at the pitch value 60 of the sound source W ends.
  • the above is an example of a token of a series when the series is music. If the sequence is a language, the token is a word or the like.
  • FIG. 7 is a diagram showing an example of a schematic configuration of a trained model.
  • the trained model 21 is a variational autoencoder (VAE) model, including an encoder ENC and a decoder DEC.
  • VAE variational autoencoder
  • Examples of architectures are Transformers and RNNs (Recurrent Neural Networks).
  • An example of RNN is RSTM (Long short-term memory).
  • the encoder ENC outputs (extracts) the feature amount of the input token sequence.
  • the decoder DEC generates (reconstructs) a sequence of tokens to be output from the feature amount output by the encoder ENC, for example, using the sequence of tokens having the highest probability.
  • FIG. 8 is a diagram showing an example of learning.
  • three models an encoder model 211, a plier model 212, and a decoder model 213, are used.
  • the architectures of the encoder model 211 and the plier model 212 are Transformers and RNNs in this example.
  • the architecture of the decoder model 213 is Transformer.
  • the trained model 21 may include the plier model 212 and the decoder model 213 as the encoder ENC and decoder DEC of FIG. 7 described above.
  • the encoder model 211 gives a feature amount z.
  • the feature amount z may be a vector indicating a position (point) in the latent space FS. It can be said that the position in the latent space FS indicates the characteristics of the series.
  • the latent space FS is a multidimensional space and is also called a latent feature space or the like. In the embodiment, the latent space FS can be said to be a context latent space learned under the condition (with context conditions) that the determined context sequence x C is maintained.
  • the latent space FS of FIGS. 3 and 4 described above is a display (for example, a two-dimensional display) of a part of the multidimensional dimensions.
  • the sequence x and the position information R are input to the encoder model 211.
  • the position information R may be a variable j and a variable k as described below.
  • the sequence x input to the encoder model 211 is illustrated as tokens s 1 , ... sk-1 , sk, ..., s j , s j + 1 , ..., s L.
  • the subscript indicates the order in the series of each token in the series.
  • the variable j and the variable k give the position information R.
  • the tokens s 1 to sk-1 from the first to the k-1st and the tokens s j to s L from the jth to the Lth are specified as the positions of the context series x C.
  • the tokens sk to s j-1 from the kth to the j-1th are specified as the positions of the new target series xT to be generated later.
  • the encoder model 211 among the tokens whose positions are specified as described above, only the tokens of the context series x C are input to the RNN.
  • the RNN outputs the feature amount z of the input context series x C (token).
  • the encoder model 211 outputs the feature amount z when the sequence x and the position information R are input, and is therefore represented by the expression “q (z
  • the plier model 212 also gives the feature amount z like the encoder model 211.
  • the context sequence x C and the position information R are input to the plier model 212.
  • the context sequence x C is shown as tokens 1 , ... Sk-1 , and tokens s j + 1 , ..., s L.
  • the remaining tokens are given as predetermined tokens M. If there are a plurality of remaining tokens, they may all be given as the same token M. It can be said that the part of the series x other than the context series x c (the part of the new target series x T generated later) is masked by the token M.
  • the token M may be defined to give a feature amount different from any of the feature amounts z corresponding to the tokens that may be input as tokens of the context series x C.
  • the position information R is as described above.
  • the tokens s 1 to sk-1 from the first to the k-1 and the tokens s j to s L from the jth to the Lth are specified as the positions of the context series x C.
  • the plier model 212 among the tokens whose positions are specified as described above, only the token M is input to the RNN.
  • the RNN outputs the feature amount z of the input token M.
  • the plier model 212 outputs the feature amount z when the context sequence x C and the position information R are input, and is therefore represented by the expression “p (z
  • the decoder model 213 generates a token of a new target sequence x T based on the token of the feature quantity z and the context sequence x C. Specifically, the decoder model 213 reconstructs only the token of the target sequence x T of the context sequence x C and the target sequence x T. The token of the reconstructed target sequence x T and the token of the originally determined context sequence x C are combined, for example, by the generation unit 30, and a sequence including the context sequence x C and the new target sequence x T is generated. Will be done.
  • the decoder model 213 outputs a sequence in which only the target sequence x T is reconstructed when the feature quantity z, the context sequence x C , and the position information R are input, so that “p (x T
  • the decoder model 213 generates tokens sk , ..., s j with reference to tokens s j + 1 , ..., s L , B, s 1 , ..., Sk-1 . do.
  • the tokens s j + 1 , ..., s L , B, s 1 , ..., sk-1 are the original positions.
  • the token Y the token indicating the start of the sequence
  • the encoder model 211, plier model 212 and decoder model 213 described above are trained to minimize the loss function.
  • the loss function L rec and the loss function L pri are used as the loss functions.
  • the parameters of the encoder model 211, the plier model 212, and the decoder model 213 are learned so as to minimize the sum (addition value, etc.) of the loss function L rec and the loss function L pri .
  • the loss function L rec is an error (reconstruction error) when the decoder model 213 reconstructs the target sequence using the feature amount z output by the plier model 212.
  • the loss function L pri is the difference in distribution (pliers error) between the encoder model 211 and the plier model 212.
  • An example of a prior error is the Kullback-Leibler (KL) distance.
  • FIG. 9 is a flowchart showing an example of learning. As a premise, it is assumed that training data including a large number of various series x are prepared.
  • step S1 a series mini-batch is acquired from the training data. For example, an arbitrary predetermined number (64 or the like) of series x is acquired (sampled) from the training data.
  • step S2 set the location information.
  • the position information R described above with reference to FIG. 8 more specifically, the values of j and k are set (sampled) to arbitrary values.
  • step S3 the parameter is updated using the loss function. For example, using the mini-batch acquired and set in steps S1 and S2 above, to minimize the sum of the loss function L rec and the loss function L pri , as previously described with reference to FIG.
  • the parameters of the encoder model 211, the plier model 212, and the decoder model 213 are updated (learned).
  • step S4 when the number of learnings is less than a predetermined number (step S4: YES), the process is returned to step S1.
  • step S4: NO When the predetermined number of times is reached (step S4: NO), the processing of the flowchart ends.
  • the trained model 21 is generated as described above.
  • the parameters may be updated by setting different position information for the same mini-batch.
  • the processes of steps S2 and S3 may be repeatedly executed for the number of patterns of the set position information R.
  • the information processing program 22 is a program (software) for realizing the processing executed by the information processing device 1.
  • the generation unit 30 uses the input information input to the user interface 10 and the trained model 21 to generate a sequence including a determined context sequence x C and a new target sequence x T.
  • the generated series is a generated series (series A or the like) described above with reference to FIGS. 3 and 4.
  • the generation unit 30 can be said to be a control means for generating a series.
  • the function of the control means may be realized by a processor or the like (for example, the CPU 1100 in FIG. 14 described later).
  • 10 to 12 are flowcharts showing an example of processing (information processing method) executed in the information processing apparatus.
  • FIG. 10 shows an example of the first generation method.
  • the generation unit 30 generates a sequence (for example, randomly) using the context sequence x C , the position information R, and the trained model 21.
  • the first generation method is referred to as "normal generation" and is illustrated.
  • step S11 the feature amount is acquired (sampled) using the input context series and position information and the plier model.
  • the user interface 10 accepts the context sequence x C and the position information R as input information by the operations related to the items “series selection” and “range designation” as described above with reference to FIG.
  • the generation unit 30 inputs the sequence including the context sequence x C and the predetermined token M, and the position information R into the plier model 212.
  • the plier model 212 outputs (extracts) the feature amount z corresponding to the token M.
  • a target sequence is generated using the context sequence, the feature quantity, and the decoder.
  • the generation unit 30 uses the trained model 21 to convert the context sequence x C used in the previous step S11 and the acquired feature quantity z into a decoder as described above with reference to FIG. Input to model 213.
  • the decoder model 213 generates (reconstructs) the target sequence x T.
  • step S13 a series including the context series and the target series is generated.
  • the generation unit 30 combines the context sequence x C used in the previous step S12 and the generated new target sequence x T to generate a sequence including them.
  • FIG. 11 shows an example of the second generation method.
  • the generation unit 30 generates a series including a target series different from the target series of the generated series as a new target series.
  • the generation unit 30 generates a series including a target series having a feature between the two designated series (complementing the two series data) as a new target series.
  • the second generation method is referred to as "interpolation generation" and is illustrated.
  • step S21 a feature amount different from the feature amount of the specified plurality of series is specified.
  • the user interface 10 accepts information that specifies the series A and the series B and information that specifies "interpolation generation" as input information, as described above with reference to FIG.
  • the generation unit 30 uses the trained model 21 to obtain the feature amount z AB of the position between the position of the feature amount z A of the series A and the position of the feature amount z B of the series B in the latent space FS. Specify as. Since the trained model 21 is learning the latent space FS, it is possible to specify such a feature amount z AB .
  • the user interface 10 may provide a display or the like that allows the user to specify ⁇ .
  • a target sequence is generated using the specified feature quantity, the context sequence, and the decoder.
  • the generation unit 30 uses the trained model 21 to input the feature amount z AB specified in the previous step S21 into the decoder model 213.
  • the decoder model 213 generates a target sequence x TAB corresponding to the feature amount z AB .
  • the target sequence x TAB thus obtained and the context sequence x C are combined to generate a new sequence AB.
  • FIG. 12 shows an example of the third generation method. Also in the third generation method, the generation unit 30 generates a series including a target series different from (or different from) the target series of the generated series as a new target series. In the third generation method, even one specified series is sufficient.
  • the third generation method is referred to as "variation generation" and is illustrated.
  • step S31 the feature amount in the vicinity of the feature amount of the designated series is specified.
  • the user interface 10 accepts the information that specifies the series A and the information that specifies "variation generation" in the example of FIG. 3 or FIG. 4 described above as input information.
  • the generation unit 30 uses the trained model 21 to specify the feature amount z A ′ at the position where the position of the feature amount z A of the series A in the latent space FS is slightly moved. The movement is performed, for example, by adding noise to the feature amount zA . Noise may be sampled from a normal distribution in each dimension of latent space FS.
  • the mean and variance of the normal distribution may be arbitrary (eg, mean 0, variance 0.01).
  • a target sequence is generated using the specified feature quantity, the context sequence, and the decoder.
  • the generation unit 30 inputs the feature amount z A ′ specified in the previous step S31 into the decoder model 213 using the trained model 21.
  • the decoder model 213 generates the target sequence xTA'corresponding to the feature amount z A '.
  • the target sequence xTA ′ thus obtained and the context sequence xC are combined to generate a new sequence A ′.
  • a plurality of different feature quantities may be specified in the previous step S32, and in that case, a new target sequence is generated by the same number as the number of feature quantities (number of variations), and eventually a new series is generated.
  • the user interface 10 may provide a display or the like that allows the user to specify the number of variations.
  • the above-mentioned series that is the source of variation generation and the series that is generated may overlap with the above-mentioned series that is the source of interpolation generation and the series that is generated.
  • the series B is generated by the interpolation generation from the series A and the series C.
  • the variation generation from the sequence B can generate the sequence A and the sequence C.
  • the generation unit 30 may generate a series having the specified characteristics.
  • the user interface 10 accepts information that specifies a position (characteristic of the series) in the latent space FS as input information, as described above with reference to FIGS. 3 and 4.
  • the generation unit 30 inputs the feature amount at the specified position to the decoder model 213.
  • the decoder model 213 generates a target sequence corresponding to the feature amount.
  • the context series x C and the target series are combined to generate new series D, series E, series F, and the like.
  • FIG. 13 is a diagram schematically showing an example of a series search.
  • the search proceeds from the left side to the right side of the figure.
  • the sequence A or the like is obtained by, for example, various generation methods described so far.
  • the positions of the series A and the like in the latent space FS are schematically shown.
  • a further series search is performed. For example, interpolation generation may be performed as shown in the upper part of the figure. In this example, sequence AB (shown with white circles) having features between series A and series B and sequence BC (shown with white circles) having features between series B and series C are generated. Further series may be generated from the generated series AB, series BC, etc. by interpolation generation, variation generation, feature specification, and the like.
  • variation generation may be performed as shown in the middle part of the figure.
  • a series A ′, a series A ′′ and a series A ′′ ′′ (all shown by white circles) having a feature obtained by adding noise to the feature of the sequence A are generated.
  • Further series may be generated from the generated series A ′, series A ′′, series A ′′, etc. by interpolation generation, variation generation, feature specification, and the like.
  • sequence D sequence D
  • sequence E all shown by white circles
  • Further series may be generated from the generated series D, series E, series F, etc. by interpolation generation, variation generation, feature specification, and the like.
  • the user U can repeat the generation of the sequence until the desired sequence is obtained.
  • the user U can narrow down so as to obtain a desired target sequence. For example, the user U can generate a series A to a series G including different target series, and further generate a series obtained by blending the favorite series B and the series F by interpolation generation. ..
  • the user U can improve the favorite target series while making minor corrections.
  • the user U can generate a series similar to the series A but slightly different (for example, series B to series E, etc.) by variation generation. Among those generated series, the series close to the image (for example, series C and series E) can be blended by interpolation generation to generate a further series.
  • FIG. 14 is a diagram showing an example of a hardware configuration of an information processing apparatus.
  • the information processing apparatus 1 is realized by the computer 1000.
  • the computer 1000 has a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
  • Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200, and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program depending on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by such a program.
  • the HDD 1400 is a recording medium for recording an information processing program according to the present disclosure, which is an example of program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as MO (Magneto-Optical disk)
  • tape medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • MO Magneto-optical disk
  • the CPU 1100 of the computer 1000 realizes the functions of the generation unit 30 and the like by executing the information processing program loaded on the RAM 1200.
  • the HDD 1400 stores the program related to the present disclosure (information processing program 22 of the storage unit 20) and the data in the storage unit 20.
  • the CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • FIG. 15 is a diagram showing an example of a schematic configuration of an RNN.
  • the exemplified RNN includes an input layer, an intermediate layer, and an output layer. Some neurons contained in the layer are schematically illustrated by white circles.
  • the token or the like described above with reference to FIG. 5 or the like is input to the input layer.
  • the middle layer is configured to include the LSTM block in this example, and long-term dependencies have been learned, and is suitable for handling a series of music, documents, etc. (for example, time series data).
  • the output layer is a fully connected layer, and for example, the token described above with reference to FIG. 5 and the like is output together with the probability.
  • the information processing apparatus 1 may be realized outside the information processing apparatus 1 (for example, an external server). In that case, the information processing apparatus 1 may include a part or all of the functions of the storage unit 20 and the generation unit 30 in the external server. When the information processing apparatus 1 communicates with the external server, the processing of the information processing apparatus 1 described so far is similarly realized.
  • the trained model 21 may also include the encoder model 211 as an encoder ENC. In this case, for example, it can be used for extracting a feature amount from a series x including a target series as described with reference to FIG. 1.
  • the information processing apparatus 1 includes a control means (generation unit 30), a data input means (user interface 10) for inputting series data (series x, etc.), and the like.
  • Target series data eg, target series x TA
  • the sequence data selection means for selecting the context sequence data (context sequence x C ) to which the above is not added, and the control means (generation unit 30) are (i) machine learning model (trained model 21). Generate new target sequence data that interpolates at least two sequence data already generated by (eg, sequence A and sequence B), or (ii) already generated by a machine learning model (trained model 21). It is characterized in that new series data different from the series data (for example, series A) is generated.
  • the information processing apparatus 1 displays a position in a space (latent space FS) that defines a feature amount of series data (for example, series A) learned by a machine learning model (learned model 21) in a specifiable manner.
  • a means (user interface 10) is further provided, and the control means (generation unit 30) generates series data having a feature amount corresponding to a designated position in the space (latent space FS) as new series data. It may be characterized by that.
  • the information processing device 1 is also specified as follows. As described with reference to FIGS. 1 to 5, the information processing apparatus 1 includes input information which is information about a sequence in which a part is composed of a target sequence and the rest is composed of a context sequence and gives a series of information. A generation unit 30 for generating a sequence (for example, sequence A, etc.) including a determined context sequence x C and a new target sequence x T by using the trained model 21 is provided, and the trained model 21 is used as input information. When the corresponding data is input, the data corresponding to the new target series x T is output.
  • the information processing apparatus 1 may include a user interface 10 that accepts input information and presents the generation result of the generation unit 30.
  • a sequence including a determined context sequence x C and a new target sequence x T is generated.
  • the context sequence x C constitutes a part of the sequence
  • the target sequence x T constitutes the rest of the sequence. Therefore, it is possible to generate a series in which only a part is newly generated and the rest is maintained.
  • the input information (for example, received by the user interface 10) includes the predetermined context sequence x C and the position information R of the determined context sequence x C in the sequence. , May be included.
  • the input information and the trained model 21 it is possible to generate a sequence including a determined context sequence x C and a new target sequence x T.
  • the input information (accepted by, for example, the user interface 10) includes information about the sequence generated by the generation unit 30 (for example, sequence A, etc.), and the generation unit 30 includes.
  • a series including a series different from the target series (for example, target series x TA , etc.) of the series generated by the generation unit 30 as a new target series may be generated. This makes it possible to further generate a series based on the generated series.
  • the input information (for example, received by the user interface 10) includes at least one series among a plurality of series (for example, series A) generated by the generation unit 30.
  • the generation unit 30 may generate a sequence including the specified information and including a target sequence different from the target sequence of the designated sequence (for example, target sequence x TA or the like) as a new target sequence. This allows further series to be generated based on the specified series.
  • the input information (for example, received by the user interface 10) is the two series (for example, the series A and the series A) of the plurality of series (for example, the series A) generated by the generation unit 30.
  • the generation unit 30 includes information for designating the sequence B), and the generation unit 30 makes a new target sequence having a feature between the target sequences of the two specified sequences (for example, the target sequence x TA and the target sequence x TB ). You may generate a series containing as. This makes it possible to generate a series with features between the two specified series.
  • the input information (for example, received by the user interface 10) includes information that specifies the characteristics of the sequence (for example, the position in the latent space FS), and the generation unit 30 , May generate a sequence with the specified characteristics. This makes it possible to generate a series with the specified characteristics.
  • the data input to the trained model 21 is a token of a predetermined context series x C (for example, tokens 1 , ... Sk-1 and tokens j + 1). , ..., s L ), and the data output by the trained model 21 may include tokens of the new target sequence x T (for example, tokens k , ..., s j ).
  • the data to be input may further include a predetermined token M.
  • the series of information given by the sequence is music information indicating the pitch value of the sound for each time, and the token may indicate at least one of the pitch value of the sound and the generation period of the sound.
  • the trained model 21 can be used with such tokens as input / output data.
  • the information processing method described with reference to FIGS. 10 to 12 and the like is also a positional aspect of the present disclosure.
  • the information processing method is a context sequence x C determined by using input information, which is information about a sequence in which a part is composed of a target sequence and the rest is composed of a context sequence and gives a series of information, and a trained model 21. And to generate a sequence containing the new target sequence x T (step S13, step S22 and / or step S32), the trained model 21 receives new targets when data corresponding to the input information is input. The data corresponding to the series x T is output. Even with such an information processing method, as described above, it is possible to generate a series in which only a part is newly generated and the rest is maintained.
  • the information processing program 22 described with reference to FIG. 5 and the like is also a positional aspect of the present disclosure.
  • the information processing program 22 is a context sequence x determined by using input information which is information about a sequence in which a part is composed of a target sequence and the rest is composed of a context sequence and gives a series of information, and a trained model 21.
  • a computer is made to generate a sequence including C and a new target sequence x T (step S13, step S22 and / or step S32), and the trained model 21 is input with data corresponding to the input information. And the data corresponding to the new target series x T is output.
  • the present technology can also have the following configurations.
  • Control means and Data input means for inputting series data and A machine learning model that generates new series data based on the series data input by the data input means, and When the machine learning model generates the new series data, the target series data that changes the series data and / or the context data selection means that selects the context series data that does not change, and the series data selection means.
  • the control means is (I) Generate new target sequence data that interpolates at least two sequence data already generated by the machine learning model, or generate (Ii) Generate new series data that is different from the series data already generated by the machine learning model. An information processing device characterized by this.
  • the control means generates series data having a feature amount corresponding to a designated position in the space as the new series data.
  • the information processing apparatus characterized in that.
  • (3) A series containing a determined context series and a new target series using input information, which is information about a series in which a part is composed of a target series and the rest is a context series and gives a series of information, and a trained model. Equipped with a generator to generate When the data corresponding to the input information is input, the trained model outputs the data corresponding to the new target series.
  • the input information is With the above-mentioned determined context series, With the position information of the above-mentioned determined context series in the series, including, The information processing apparatus according to (3).
  • the input information includes information about the series generated by the generator.
  • the generation unit generates a series including a target series different from the target series of the series generated by the generation unit as the new target series.
  • the input information includes information that specifies at least one series among the plurality of series generated by the generation unit.
  • the generation unit generates a series including a target series different from the target series of the designated series as the new target series.
  • the information processing apparatus according to any one of (3) to (5).
  • the input information includes information that specifies two of the plurality of series generated by the generation unit.
  • the generation unit generates a sequence including a target sequence having a feature between the target sequences of the two designated sequences as the new target sequence.
  • the information processing apparatus according to any one of (3) to (6).
  • the input information includes information that specifies the characteristics of the series.
  • the generator generates a sequence with the specified characteristics.
  • the information processing apparatus according to any one of (7).
  • the data input to the trained model includes the tokens of the determined context series.
  • the data output by the trained model includes the token of the new target series.
  • the information processing apparatus according to any one of (3) to (8).
  • the data input to the trained model includes the tokens of the determined context series and the predetermined tokens.
  • the data output by the trained model includes the token of the new target series.
  • the information processing apparatus according to any one of (3) to (9).
  • the series of information given by the series is music information indicating the pitch value of the sound for each time.
  • the token indicates at least one of the pitch value of the sound and the generation period of the sound.
  • the information processing apparatus according to (9) or (10).
  • (12) A series containing a determined context series and a new target series using input information, which is information about a series in which a part is composed of a target series and the rest is a context series and gives a series of information, and a trained model. And the generator that generates A user interface that accepts the input information and presents the generation result of the generation unit.
  • the trained model outputs the data corresponding to the new target series.
  • Information processing equipment (13)
  • the user interface is With the above-mentioned determined context series, With the position information of the above-mentioned determined context series in the series, Is accepted as the input information, The information processing apparatus according to (12).
  • the user interface receives information about the series generated by the generation unit as the input information, and receives the information.
  • the generation unit generates a series including a target series different from the target series of the series generated by the generation unit as the new target series.
  • the user interface accepts information that specifies at least one series among the plurality of series generated by the generation unit as the input information.
  • the generation unit generates a series including a target series different from the target series of the designated series as the new target series.
  • the information processing apparatus according to any one of (12) to (14).
  • the user interface receives information that specifies two of the plurality of series generated by the generation unit as the input information.
  • the generation unit generates a sequence including a target sequence having a feature between the target sequences of the two designated sequences as the new target sequence.
  • the information processing apparatus according to any one of (12) to (15).
  • the user interface receives information that specifies the characteristics of the series as the input information, and receives the information.
  • the generator generates a sequence with the specified characteristics.
  • the information processing apparatus according to any one of (12) to (16).
  • the data input to the trained model includes the tokens of the determined context series.
  • the data output by the trained model includes the token of the new target series.
  • the information processing apparatus according to any one of (12) to (17).
  • the data input to the trained model includes the tokens of the determined context series and the predetermined tokens.
  • the data output by the trained model includes the token of the new target series.
  • the series of information given by the series is music information indicating the pitch value of the sound for each time.
  • the token indicates at least one of the pitch value of the sound and the generation period of the sound.
  • the information processing apparatus according to (18) or (19).
  • a series containing a determined context series and a new target series using input information which is information about a series in which a part is composed of a target series and the rest is a context series and gives a series of information, and a trained model. Including producing When the data corresponding to the input information is input, the trained model outputs the data corresponding to the new target series.
  • Information processing method (22) A series containing a determined context series and a new target series using input information, which is information about a series in which a part is composed of a target series and the rest is a context series and gives a series of information, and a trained model. To generate, Let the computer run When the data corresponding to the input information is input, the trained model outputs the data corresponding to the new target series.
  • Information processing program
  • Information processing device 10 User interface (input means, selection means, display means) 20 Memory unit 21 Learned model (machine learning model) 22 Information processing program 30 Generation unit (control unit) 211 Encoder Model 212 Pliers Model 213 Decoder Model ENC Encoder DEC Decoder U User

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

情報処理装置(1)は、制御手段(30)と、系列データを入力するデータ入力手段(10)と、データ入力手段(10)により入力された系列データに基づいて、新たな系列データを生成する機械学習モデル(21)と、機械学習モデル(21)により新たな系列データを生成する際に、系列データに対して変更を加えるターゲット系列データ、及び/又は、変更を加えないコンテキスト系列データを選択する系列データ選択手段(10)と、を備え、制御手段(30)は、(i)機械学習モデルにより既に生成された少なくとも2つの系列データを補間する新たなターゲット系列データを生成するか、又は、(ii)機械学習モデルにより既に生成された系列データに対して異なる新たな系列データを生成する。

Description

情報処理装置、情報処理方法及び情報処理プログラム
 本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
 楽曲等の一連の情報を与えるコンテンツ(以下、「系列」ともいう。)を自動生成するための学習済みモデルに関して、さまざまな提案が行われている。例えば特許文献1は、ユーザが所望する態様で系列が生成されるように、ユーザが指定した特徴量を選択的に学習する手法を開示する。
国際公開第2020/080239号
 一部だけが新たに生成され残部が維持された系列を生成したい場合もある。この点について、特許文献1では具体的な検討は行われていない。
 本開示の一側面は、一部だけが新たに生成され残部が維持された系列を生成することが可能な情報処理装置、情報処理方法及び情報処理プログラムを提供する。
 本開示の一側面に係る情報処理装置は、制御手段と、系列データを入力するデータ入力手段と、データ入力手段により入力された系列データに基づいて、新たな系列データを生成する機械学習モデルと、機械学習モデルにより新たな系列データを生成する際に、系列データに対して変更を加えるターゲット系列データ、及び/又は、変更を加えないコンテキスト系列データを選択する系列データ選択手段と、を備え、制御手段は、(i)機械学習モデルにより既に生成された少なくとも2つの系列データを補間する新たなターゲット系列データを生成するか、又は、(ii)機械学習モデルにより既に生成された系列データに対して異なる新たな系列データを生成する。
 本開示の一側面に係る情報処理装置は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部を備え、学習済みモデルは、入力情報に対応するデータが入力されると、新たなターゲット系列に対応するデータを出力する。
 本開示の別の側面に係る情報処理装置は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部と、入力情報を受け付け、また、生成部の生成結果を提示するユーザインタフェースと、を備え、学習済みモデルは、入力情報に対応するデータが入力されると、新たなターゲット系列に対応するデータを出力する。
 本開示の一側面に係る情報処理方法は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成することを含み、学習済みモデルは、入力情報に対応するデータが入力されると、新たなターゲット系列に対応するデータを出力する。
 本開示の一側面に係る情報処理プログラムは、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成すること、をコンピュータに実行させ、学習済みモデルは、入力情報に対応するデータが入力されると、新たなターゲット系列に対応するデータを出力する。
実施形態に係る情報処理装置の外観の例を示す図である。 ユーザインタフェースが提示する操作画面の例を示す図である。 ユーザインタフェースが提示する操作画面の例を示す図である。 ユーザインタフェースが提示する操作画面の例を示す図である。 情報処理装置の概略構成の例を示す図である。 トークンの例を示す図である。 学習済みモデルの概略構成の例を示す図である。 学習済みモデルの概略構成の例を示す図である。 学習の例を示すフローチャートである。 情報処理装置において実行される処理(情報処理方法)の例を示すフローチャートである。 情報処理装置において実行される処理(情報処理方法)の例を示すフローチャートである。 情報処理装置において実行される処理(情報処理方法)の例を示すフローチャートである。 系列の探索の例を模式的に示す図である。 情報処理装置のハードウェア構成の例を示す図である。 RNNの概略構成の例を示す図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の要素には同一の符号を付することにより重複する説明を省略する。
 以下に示す項目順序に従って本開示を説明する。
  1.実施形態
  2.ハードウェア構成の例
  3.RNNの構成の例
  4.変形例
  5.効果
1.実施形態
 実施形態に係る情報処理装置の処理対称となる情報は、一連の情報を与える系列(系列データ)である。系列の例は、音楽(音楽シーケンス、オーディオ等)及び言語(文書、詩)等である。以下では、主に、系列が音楽シーケンスである場合を例に挙げて説明する。
 図1は、実施形態に係る情報処理装置の外観の例を示す図である。情報処理装置1は、例えば汎用のコンピュータにおいて所定のプログラム(ソフトウェア)を実行させることによって実現される。図1に示される例では、情報処理装置1は、ユーザUが使用するラップトップである。情報処理装置1は、ユーザUとの間で情報のやり取りを行うためのユーザインタフェース(後述の図5のユーザインタフェース10)を備える。例えば情報処理装置が図示されるようなラップトップの場合、ユーザインタフェースは、ディスプレイ、キーボード、タッチパッド及びスピーカ等を含みうる。ディスプレイは、タッチパネルディスプレイでもよい。ラップトップに限らず、タブレット端末、スマートフォン等のさまざまな装置によって情報処理装置1が実現されてよい。
 図2~図4は、ユーザインタフェースが提示する操作画面の例を示す図である。図2を参照すると、項目「系列選択」において、フォルダ等を参照し、ファイルが選択される。選択されたファイルに示される系列が入力され、可視化表示される。この例では、時刻と音高値とを対応付けて示す音楽シーケンスが、系列として表示される。系列全体を、系列xと称し図示する。以下、ユーザUによる操作(ユーザ操作)を、単に「操作」と称する。
 項目「範囲指定」に係る操作によって、系列xが複数の系列に分けられる。例えば、可視化表示された系列xの一部が範囲選択され、選択された部分とそれ以外の部分とに分けられる。分けられた系列xの一部をターゲット系列(ハッチングで図示)と称し、残部をコンテキスト系列xと称する。ターゲット系列は、変更する(変更を加える)ことが求められる部分である。コンテキスト系列xは、変更しないこと(維持すること、変更を加えないこと)が求められる部分である。コンテキスト系列xは変更されないので、決定されたコンテキスト系列xであるといえる。この項目「範囲指定」に係る操作によって、系列xにおけるコンテキスト系列xの位置情報(後述の図8の位置情報Rに相当)が入力される。
 項目「探索」に係る操作によって、系列が生成される。詳細は後述するが、「通常生成」が指定されると、上述の「系列選択」に係る操作によって入力されたコンテキスト系列xと、「範囲指定」に係る操作によって入力された位置情報とに基づいて、系列が生成される。
 図3を参照すると、項目「生成済み系列」において、生成された系列Aが、再生等の操作が可能な態様で可視化表示される。系列Aは、もとの系列x(図2)と比較して、同じコンテキスト系列xを含む点で共通する一方で、新たなターゲット系列xを含む点で相違する。説明の便宜上、系列Aのターゲット系列xを、ターゲット系列xTAと称し図示する。
 項目「探索」に係る操作によって、系列Aをもとにして(出発点として)、さらなる系列が生成される。詳細は後述するが、「バリエーション生成」が指定されると、生成済み系列のターゲット系列xとは別のターゲット系列を含む系列が生成される。「特徴指定」に係る操作においては、系列の特徴が指定される。この例では、系列の特徴量を規定する潜在空間FS中の任意の位置(特徴)が指定され、その特徴(指定された位置に対応する特徴量)を有する系列が生成される。この系列も、系列Aのターゲット系列xTAとは別のターゲット系列を含む系列である。例えばこれらの操作を介して、各々が異なる新たなターゲット系列を含む複数の生成済み系列が得られる。
 図4を参照すると、項目「生成済み系列」において、さらに生成された系列B及び系列Cが、系列Aとともに指定及び再生等の操作が可能な態様で可視化表示される。系列Bのターゲット系列xを、ターゲット系列xTBと称し図示する。系列Cのターゲット系列xを、ターゲット系列xTCと称し図示する。以下、系列A、系列B及び系列Cを、単に「系列A等」という場合もある。
 項目「探索」において、系列A等をもとにして、さらなる系列が生成される。詳細は後述するが、「インターポレーション生成」が指定されると、指定された系列(この例では系列A及び系列B)の間の特徴を有する系列が生成される。「バリエーション生成」及び「特徴指定」については、先に図3を参照して述べたとおりである。項目「探索」に係る操作が繰り返されることにより、次々と系列が生成される。
 なお、上述の図2~図4に例示される操作画面以外にも、さまざまな態様の操作がユーザインタフェースによって提示されてよい。
 図5は、情報処理装置の概略構成の例を示す図である。情報処理装置1は、先に図1を参照して説明したユーザインタフェース10の他に、記憶部20と、生成部30とを含む。
 ユーザインタフェース10は、ユーザ操作によって情報を受け付ける入力部(受付部)としての機能を有する。ユーザインタフェース10は、系列データを入力するデータ入力手段としての機能を有するともいえる。ユーザインタフェース10は、例えば先に図2を参照して説明したように、ターゲット系列(ターゲット系列データ)及び/又はコンテキスト系列(コンテキスト系列データ)を選択する系列データ選択手段としての機能も有するともいえる。ユーザインタフェース10が受け付ける情報を、「入力情報」と称する。入力情報のいくつかの例について説明する。
 入力情報は、系列に関する情報を含む。系列に関する情報は、決められたコンテキスト系列xを含む系列に関する情報である。そのような入力情報の例は、先に図2を参照して説明した系列xに関する情報、及び、先に図3及び図4を参照して説明した生成済み系列(系列A等)に関する情報である。なお、生成済み系列は、後述の生成部30によって生成された系列である。
 入力情報は、複数の生成済み系列のうちの少なくとも1つの系列を指定する情報を含んでよい。そのような入力情報の例は、先に図4を参照して説明した系列A等を指定する情報である。入力情報は、例えば系列A及び系列Bの2つの系列を指定する情報であってもよい。
 入力情報は、系列の特徴を指定する情報を含んでよい。そのような入力情報の例は、先に図3及び図4を参照して説明した潜在空間FS中の位置(系列の特徴)を指定する情報である。
 ユーザインタフェース10は、ユーザに情報を提示する出力部(提示部)としての機能を有する。ユーザインタフェース10は、後述の生成部30の生成結果を出力する。例えば先に図3及び図4を参照して説明したような態様で、系列A等が提示(画面表示、音出力等)される。また、系列A等の特徴が、潜在空間FSの位置として提示される。ユーザインタフェース10は、潜在空間FS中の位置を指定可能な態様で表示する表示手段としての機能を有するともいえる。
 記憶部20は、情報処理装置1で用いられるさまざまな情報を記憶する。記憶部20に記憶される情報の例として、学習済みモデル21及び情報処理プログラム22が図示される。
 学習済みモデル21は、上述の入力情報に対応するデータが入力されると、新たなターゲット系列xに対応するデータを出力するように、学習データを用いて生成(学習)された学習済みモデルである。学習済みモデル21は、入力された系列データに基づいて、新たな系列データを生成する機械学習モデルともいえる。生成部30は、入力情報から、対応するデータを生成し、学習済みモデル21に入力する。また、生成部30は、学習済みモデル21が出力するデータから、対応する系列を生成する。学習済みモデル21の入出力データは、例えばトークンの列(トークン列)を含む。この場合、学習済みモデル21に入力されるデータは、コンテキスト系列xのトークンを含む。学習済みモデル21が出力するデータは、新たなターゲット系列xのトークンを含む。トークンについて、図6を参照して説明する。
 図6は、トークンの例を示す図である。図の上側に、系列の例として音楽シーケンスが示される。横軸は時刻(time)を示し、縦軸は音高値(MIDI pitch)を示す。1単位時間が、1小節期間に対応する。すなわち、この例では、系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報である。
 図の下側に、音楽シーケンスに対応するトークン列が示される。この例では、トークンは、音の音高値及び音の発生期間のいずれかを示す。トークン列では、第1のトークンと、第2のトークンとが時刻順に並べられる。第1のトークンは、系列に含まれるそれぞれの音の発生及び停止を示すトークンである。第2のトークンは、対応する第1のトークンに示される状態が維持される期間を示すトークンである。山括弧<>で表される部分が、1つのトークンに対応する。
 例えば、トークン<ON, W, 60>は、時刻0において、音源W(例えば楽器の種類を示す)の音高値60での音の発生が開始することを示すトークン(第1のトークン)である。続くトークン<SHIFT, 1>は、1単位時間の間、対応する第1のトークンに示される状態(音源W、音高値60)が維持されることを示すトークン(対応する第2のトークン)である。すなわち、SHIFTは、直前のトークンに示される状態のまま時刻だけが移動(時間だけが経過)することを意味する。ON及びSHIFTに関する他のトークンも同様に説明される。トークン<OFF, W, 60>は、音源Wの音高値60での音の発生が終了することを示すトークン(第1のトークン)である。OFFに関する他のトークンも同様に説明される。なお、この例では、同じ時刻に複数の音が存在する場合、低い音に対応するトークンから順に並べる例を説明した。このように順序を決めておくことで、学習済みモデル21の学習が行いやすくなる。
 なお、上記は系列が音楽である場合の系列のトークンの例である。系列が言語の場合、トークンは単語等である。
 図7、学習済みモデルの概略構成の例を示す図である。この例では、学習済みモデル21は、変分オートエンコーダ(VAE)モデルであり、エンコーダENCと、デコーダDECとを含む。アーキテクチャの例は、Transformer及びRNN(Recurrent Neural Network)等である。RNNの例は、LSTM(Long short-term memory)である。エンコーダENCは、入力されるトークンの列の特徴量を出力(抽出)する。デコーダDECは、エンコーダENCが出力した特徴量から、例えば最も確率の高いトークンの列を用いて、出力するトークンの列を生成(再構成)する。
 図8は、学習の例を示す図である。学習段階では、エンコーダモデル211、プライヤーモデル212及びデコーダモデル213の3つのモデルが用いられる。エンコーダモデル211及びプライヤーモデル212のアーキテクチャは、この例では、Transformer及びRNNである。デコーダモデル213のアーキテクチャは、Transformerである。学習後において、学習済みモデル21は、プライヤーモデル212及びデコーダモデル213を、上述の図7のエンコーダENC及びデコーダDECとして備えてよい。
 エンコーダモデル211は、特徴量zを与える。特徴量zは、潜在空間FS中の位置(点)を示すベクトルであってよい。潜在空間FS中の位置が、系列の特徴を示すともいえる。潜在空間FSは、多次元空間であり、潜在特徴空間等とも呼ばれる。実施形態において、潜在空間FSは、決められたコンテキスト系列xを維持するという条件のもと(コンテキスト条件付き)で学習されたコンテキスト潜在空間ともいえる。先に説明した図3及び図4の潜在空間FSは、多次元のうちの一部の次元を表示(例えば2次元表示)したものである。エンコーダモデル211には、系列x及び位置情報Rが入力される。位置情報Rは、次に説明するような変数j及び変数kであってよい。
 エンコーダモデル211に入力される系列xは、トークンs,…sk-1,s,…,s,sj+1,…,sとして図示される。下付き文字は、系列における各トークンの系列における順番を示す。下付き文字のうち、変数j及び変数kが、位置情報Rを与える。1番目からk-1番目までのトークンs~sk-1、及び、j番目からL番目までのトークンs~sが、コンテキスト系列xの位置として特定される。換言すると、k番目からj-1番目までのトークンs~sj-1が、後に生成される新たなターゲット系列xの位置として特定される。
 エンコーダモデル211では、上述のように位置が特定されたトークンのうち、コンテキスト系列xのトークンだけが、RNNに入力される。RNNは、入力されたコンテキスト系列x(のトークン)の特徴量zを出力する。このように、エンコーダモデル211は、系列x及び位置情報Rが入力されると特徴量zを出力するので、「q(z|x,R)」と表現して図示される。
 プライヤーモデル212も、エンコーダモデル211と同様に、特徴量zを与える。プライヤーモデル212には、コンテキスト系列x及び位置情報Rが入力される。
 コンテキスト系列xは、トークンs,…sk-1及びトークンsj+1,…,sとして示される。残りのトークンは、所定のトークンMとして与えられる。残りのトークンが複数の場合、いずれも同じトークンMとして与えられてよい。系列xのうちのコンテキスト系列x以外の部分(後に生成される新たなターゲット系列xの部分)が、トークンMでマスクされるともいえる。トークンMは、コンテキスト系列xのトークンとして入力される可能性のあるトークンに対応する特徴量zのいずれとも異なる特徴量を与えるように定められてよい。
 位置情報Rについては先に説明したとおりである。この例では、1番目からk-1番目までのトークンs~sk-1、及び、j番目からL番目までのトークンs~sが、コンテキスト系列xの位置として特定される。
 プライヤーモデル212では、上述のように位置が特定されたトークンのうち、トークンMだけが、RNNに入力される。RNNは、入力されたトークンMの特徴量zを出力する。このように、プライヤーモデル212は、コンテキスト系列x及び位置情報Rが入力されると特徴量zを出力するので、「p(z|x,R)」と表現して図示される。
 デコーダモデル213は、特徴量z及びコンテキスト系列xのトークンに基づいて、新たなターゲット系列xのトークンを生成する。具体的に、デコーダモデル213は、コンテキスト系列x及びターゲット系列xのうちのターゲット系列xのトークンだけを再構成する。再構成されたターゲット系列xのトークンと、もともとの決められたコンテキスト系列xのトークンとが、例えば生成部30によって結合され、コンテキスト系列x及び新たなターゲット系列xを含む系列が生成される。このように、デコーダモデル213は、特徴量z、コンテキスト系列x及び位置情報Rが入力されるとターゲット系列xだけが再構成された系列を出力するので、「p(x|z,x,R)」と表現して図示される。
 なお、図8に示される例では、デコーダモデル213は、トークンsj+1,…,s,B,s,…,sk-1を参照しつつ、トークンs,…,sを生成する。参照されるトークンsj+1,…,s,B,s,…,sk-1では、トークンsj+1,…,s及びトークンs,…,sk-1が、もともとの位置とはトークンY(系列の開始を示すトークン)を挟んで反対に配置される。このような順に従ってトークンを生成することで、トークンsk-1の後ろにトークンsが来るので、モデル化がし易くなる。トークンsj+1が後方に配置されると、トークンsを生成する際に参照できなくなるといった問題も生じうるが、トークンsj+1が前方に配置されることで、そのような問題も解消される。トークンYが存在しないと、例えばk=1の場合にトークンYの後ろのトークンが存在せず、トークンsに基づいてトークンsを生成しなければならないといった不具合が生じるが、トークンYがあることで、そのような問題も解消される。
 上述のエンコーダモデル211、プライヤーモデル212及びデコーダモデル213は、損失関数を最小化するように学習される。この例では、損失関数として、損失関数Lrec及び損失関数Lpriが用いられる。損失関数Lrec及び損失関数Lpriの合計(加算値等)を最小化するように、エンコーダモデル211、プライヤーモデル212及びデコーダモデル213のパラメータが学習される。損失関数Lrecは、プライヤーモデル212が出力する特徴量zを使ってデコーダモデル213がターゲット系列を再構成するときの誤差(再構成誤差)である。損失関数Lpriは、エンコーダモデル211とプライヤーモデル212の分布の差(プライア誤差)である。プライア誤差の例は、カルバックライブラー(KL)距離である。
 図9は、学習の例を示すフローチャートである。前提として、多数のさまざまな系列xを含む学習データが準備されているものとする。
 ステップS1において、系列のミニバッチを、学習データから取得する。例えば、学習データから、任意の所定数(64個等)の系列xを取得(サンプリング)する。
 ステップS2において、位置情報を設定する。例えば、先に図8を参照して説明した位置情報R、より具体的にはj及びkの値を、任意の値に設定(サンプリング)する。
 ステップS3において、損失関数を用いてパラメータを更新する。例えば、先のステップS1及びステップS2で取得及び設定されたミニバッチを用いて、先に図8を参照して説明したように、損失関数Lrec及び損失関数Lpriの合計を最小化するよう、エンコーダモデル211、プライヤーモデル212及びデコーダモデル213のパラメータを更新する(学習する)。
 上述のステップS1~ステップS3による学習を所定回数だけ繰り返し実行する。すなわち、ステップS4に示されるように、学習回数が所定回数未満の場合(ステップS4:YES)、ステップS1に処理が戻される。所定回数になった場合(ステップS4:NO)、フローチャートの処理は終了する。
 例えば以上のようにして、学習済みモデル21が生成される。なお、同じミニバッチについて、異なる位置情報を設定してパラメータ更新がされてもよい。その場合、設定される位置情報Rのパターンの数だけ、ステップS2及びステップS3の処理が繰り返し実行されてよい。
 図5に戻り、情報処理プログラム22は、情報処理装置1において実行される処理を実現するためのプログラム(ソフトウェア)である。
 生成部30は、ユーザインタフェース10に入力された入力情報と、学習済みモデル21とを用いて、決められたコンテキスト系列x及び新たなターゲット系列xを含む系列を生成する。生成される系列は、先に図3及び図4を参照して説明した生成済み系列(系列A等)である。生成部30は、系列を生成する制御手段ともいえる。制御手段の機能は、プロセッサ等(例えば後述の図14のCPU1100等)によって実現されてよい。生成部30による系列の生成手法のいくつかの例について説明する。
 図10~図12は、情報処理装置において実行される処理(情報処理方法)の例を示すフローチャートである。
 図10には、第1の生成手法の例が示される。第1の生成手法では、生成部30は、コンテキスト系列x及び位置情報Rと、学習済みモデル21とを用いて、(例えばランダムに)系列を生成する。第1の生成手法を、「通常生成」と称し図示する。
 ステップS11において、入力されたコンテキスト系列及び位置情報と、プライヤーモデルとを用いて、特徴量が取得(サンプリング)される。例えば、ユーザインタフェース10は、先に図2を参照して説明したような項目「系列選択」及び「範囲指定」に係る操作により、コンテキスト系列x及び位置情報Rを、入力情報として受け付ける。生成部30は、先に図8を参照して説明したように、コンテキスト系列x及び所定のトークンMを含む系列と、位置情報Rとを、プライヤーモデル212に入力する。プライヤーモデル212は、トークンMに対応する特徴量zを出力(抽出)する。
 ステップS12において、コンテキスト系列及び特徴量と、デコーダとを用いて、ターゲット系列が生成される。例えば、生成部30は、学習済みモデル21を用いて、先のステップS11で用いられたコンテキスト系列x及び取得された特徴量zを、先に図8を参照して説明したように、デコーダモデル213に入力する。デコーダモデル213は、ターゲット系列xを生成(再構成)する。
 ステップS13において、コンテキスト系列及びターゲット系列を含む系列が生成される。例えば、生成部30は、先のステップS12で用いられたコンテキスト系列x及び生成された新たなターゲット系列xを結合し、それらを含む系列を生成する。
 図11には、第2の生成手法の例が示される。第2の生成手法では、生成部30は、生成済み系列のターゲット系列とは異なるターゲット系列を新たなターゲット系列として含む系列を生成する。例えば、生成部30は、指定された2つの系列どうしの間の特徴を有する(2つの系列データを補完する)ターゲット系列を新たなターゲット系列として含む系列を生成する。第2の生成手法を、「インターポレーション生成」と称し図示する。
 ステップS21において、指定された複数の系列の特徴量とは異なる特徴量が特定される。例えば、ユーザインタフェース10は、先に図4を参照して説明したように系列A及び系列Bを指定する情報と、「インターポレーション生成」を指定する情報とを、入力情報として受け付ける。生成部30は、学習済みモデル21を用いて、潜在空間FS中の系列Aの特徴量zの位置及び系列Bの特徴量zの位置の間の位置の特徴量を、特徴量zABとして特定する。学習済みモデル21が潜在空間FSを学習しているので、このような特徴量zABの特定が可能である。
 特徴量zABは、特徴量z及び特徴量zに重み付けを行ったうえで特定されてよい。例えば、ZAB=(1-α)Z+αZとして算出されてよい。αは、特徴量zABにおける特徴量z及び特徴量zの比率(ブレンド率)を示す。この例では、(1-α)が、特徴量zの比率を示し、αが特徴量zの比率を示す。例えばα=0.25の場合、特徴量z及び特徴量zを0.75:0.25で組み合わせた(ブレンドした)特徴量が、特徴量zABとして特定される。例えばユーザがαを指定できるような表示等を、ユーザインタフェース10が提供してよい。
 ステップS22において、特定した特徴量と、コンテキスト系列と、デコーダとを用いて、ターゲット系列が生成される。例えば、生成部30は、学習済みモデル21を用いて、先のステップS21で特定した特徴量zABを、デコーダモデル213に入力する。デコーダモデル213は、特徴量zABに対応するターゲット系列xTABを生成する。こうして得られたターゲット系列xTABとコンテキスト系列xとが結合され、新たな系列ABが生成される。
 図12には、第3の生成手法の例が示される。第3の生成手法でも、生成部30は、生成済み系列のターゲット系列とは異なる(に対して異なる)ターゲット系列を新たなターゲット系列として含む系列を生成する。第3の生成手法では、指定される系列は1つでも足りる。第3の生成手法を、「バリエーション生成」と称し図示する。
 ステップS31において、指定された系列の特徴量の近傍の特徴量を特定する。例えば、ユーザインタフェース10は、先に説明した図3又は図4の例において系列Aを指定する情報と、「バリエーション生成」を指定する情報とを、入力情報として受け付ける。生成部30は、学習済みモデル21を用いて、潜在空間FS中の系列Aの特徴量zの位置を少しだけ移動させた位置の特徴量z´を特定する。移動は、例えば、特徴量zにノイズを加算等することによって行われる。ノイズは、潜在空間FSの各次元において、正規分布からサンプルされてよい。正規分布の平均及び分散は任意(例えば平均0、分散0.01)に定められてよい。
 ステップS32において、特定した特徴量と、コンテキスト系列と、デコーダとを用いて、ターゲット系列が生成される。例えば、生成部30は、学習済みモデル21を用いて、先のステップS31で特定した特徴量z´を、デコーダモデル213に入力する。デコーダモデル213は、特徴量z´に対応するターゲット系列xT´を生成する。こうして得られたターゲット系列xT´とコンテキスト系列xとが結合され、新たな系列A´が生成される。なお、先のステップS32において複数の異なる特徴量が特定されてよく、その場合は、特徴量の数(バリエーション数)と同じ数だけ新たなターゲット系列が生成、ひいては新たな系列が生成される。例えばユーザがバリエーション数を指定できるような表示等を、ユーザインタフェース10が提供してよい。
 なお、上述のバリエーション生成のもととなる系列及び生成される系列と、上述のインターポレーション生成のもととなる系列及び生成される系列とが重複することもある。例えば、上述のように、系列A及び系列Cからのインターポレーション生成によって、系列Bが生成される。系列Bからのバリエーション生成によって、系列A及び系列Cが生成されうる。
 上記の通常生成、インターポレーション生成及びバリエーション生成以外にも、さまざまな生成方法が用いられてよい。第4の生成方法として、生成部30は、指定された特徴を有する系列を生成してよい。例えば、ユーザインタフェース10は、先に図3及び図4を参照して説明したように、潜在空間FS中の位置(系列の特徴)を指定する情報を、入力情報として受け付ける。生成部30は、指定された位置の特徴量を、デコーダモデル213に入力する。デコーダモデル213は、その特徴量に対応するターゲット系列を生成する。コンテキスト系列xとターゲット系列が結合され、新たな系列D、系列E及び系列F等が生成される。
 以上説明したようなさまざまな生成方法を組み合わせることで、所望の系列を探索することができる。これについて、図13を参照して説明する。
 図13は、系列の探索の例を模式的に示す図である。図の左側から右側に向かって探索が進められる。前提として、例えばこれまで説明したさまざまな生成方法によって、系列A等が得られているものとする。潜在空間FS中の系列A等の位置が、模式的に図示される。
 系列A等をもとにして(出発点として)、さらなる系列の探索が行われる。例えば、図の上段部に示されるように、インターポレーション生成が行われてよい。この例では、系列Aの及び系列Bの間の特徴を有する系列AB(白丸で図示)と、系列B及び系列Cの間の特徴を有する系列BC(白丸で図示)が生成される。生成された系列AB及び系列BC等から、インターポレーション生成、バリエーション生成及び特徴指定等によって、さらなる系列が生成されてよい。
 或いは、図の中段部に示されるように、バリエーション生成が行われてよい。この例では、系列Aの特徴にノイズを加算した特徴を有する系列A´、系列A´´及び系列A´´´(いずれも白丸で図示)が生成される。生成された系列A´、系列A´´及び系列A´´´等から、インターポレーション生成、バリエーション生成及び特徴指定等によって、さらなる系列が生成されてよい。
 或いは、図の下段部に示されるように、特徴指定が行われてよい。この例では、指定された特徴を有する系列D、系列E及び系列F(いずれも白丸で図示)が生成される。生成された系列D、系列E及び系列F等から、インターポレーション生成、バリエーション生成及び特徴指定等によって、さらなる系列が生成されてよい。
 例えば以上のようにして、ユーザUは、所望の系列を得るまで、系列の生成を繰り返すことができる。
 以上説明したように、情報処理装置1によれば、さまざまな生成手法を組み合わせて系列を生成することができるので、操作性に優れた系列生成が提供される。ユーザUは、所望のターゲット系列が得られるように、絞り込みを行うことができる。例えば、ユーザUは、異なるターゲット系列を含む系列A~系列Gを生成し、さらに、そのうちの気に入った系列B及び系列Fをブレンドして得られる系列を、インターポレーション生成により生成することができる。また、ユーザUは、気に入ったターゲット系列を、微修正しながら改善していくことができる。例えば、ユーザUは、系列Aに似ているものの少し違った系列(例えば系列B~系列E等)を、バリエーション生成により生成することができる。生成されたそれらの系列のうち、イメージに近い系列(例えば系列C及び系列E)を、インターポレーション生成によりブレンドし、さらなる系列を生成することができる。
2.ハードウェア構成の例
 図14は、情報処理装置のハードウェア構成の例を示す図である。この例では、情報処理装置1は、コンピュータ1000によって実現される。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が情報処理装置1として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、生成部30等の機能を実現する。また、HDD1400には、本開示に係るプログラム(記憶部20の情報処理プログラム22)、記憶部20内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
3.RNNの構成の例
 図15は、RNNの概略構成の例を示す図である。例示されるRNNは、入力層と、中間層と、出力層とを含む。層に含まれるいくつかのニューロンが、白丸で模式的に図示される。入力層には、例えば先に図5等を参照して説明したトークン等が入力される。中間層は、この例ではLSTMブロックを含んで構成され、長期依存(long-term dependencies)が学習されており、音楽、文書等の系列(例えば時系列データ)の扱いに適する。出力層は、全結合層であり、例えば先に図5等を参照して説明したトークンを確率とともに出力する。
4.変形例
 開示される技術は、上記実施形態に限定されない。いくつかの変形例について述べる。
 上記実施形態では、範囲指定(図1)において、系列xが1つのターゲット系列と2つのコンテキスト系列(コンテキスト系列xC1及びコンテキスト系列xC2)に分けられる例について説明した(図1)。ただし、系列xが1つのターゲット系列及び1つのコンテキスト系列に分けられるように範囲指定されてもよい。
 情報処理装置1の一部の機能は、情報処理装置1の外部(例えば外部サーバ)で実現されてもよい。その場合、情報処理装置1は、記憶部20及び生成部30の一部又は全部の機能を、外部サーバに備えていてよい。情報処理装置1が外部サーバと通信することにより、これまで説明した情報処理装置1の処理が同様に実現される。
 学習済みモデル21は、エンコーダモデル211も、エンコーダENCとして備えてよい。この場合、例えば図1を参照して説明したようなターゲット系列も含む系列xから特徴量を抽出するといった用途に用いることができる。
5.効果
 以上説明した情報処理装置1は、例えば次のように特定される。図1~図5等を参照して説明したように、情報処理装置1は、制御手段(生成部30)と、系列データ(系列x等)を入力するデータ入力手段(ユーザインタフェース10)と、データ入力手段(ユーザインタフェース10)により入力された系列データ(例えば系列x)に基づいて、新たな系列データ(例えば系列A)を生成する機械学習モデル(学習済みモデル21)と、機械学習モデル(学習済みモデル21)により新たな系列データ(例えば系列A)を生成する際に、系列データ(例えば系列A)に対して変更を加えるターゲット系列データ(例えばターゲット系列xTA)、及び/又は、変更を加えないコンテキスト系列データ(コンテキスト系列x)を選択する系列データ選択手段(ユーザインタフェース10)と、を備え、制御手段(生成部30)は、(i)機械学習モデル(学習済みモデル21)により既に生成された少なくとも2つの系列データ(例えば系列A及び系列B)を補間する新たなターゲット系列データを生成するか、又は、(ii)機械学習モデル(学習済みモデル21)により既に生成された系列データ(例えば系列A)に対して異なる新たな系列データを生成する、ことを特徴とする。
 情報処理装置1は、機械学習モデル(学習済みモデル21)で学習された系列データ(例えば系列A)の特徴量を規定する空間(潜在空間FS)中の位置を指定可能な態様で表示する表示手段(ユーザインタフェース10)をさらに備え、制御手段(生成部30)は、空間(潜在空間FS)中の指定された位置に対応する特徴量を有する系列データを、新たな系列データとして生成する、ことを特徴としてよい。
 また、情報処理装置1は、次のようにも特定される。図1~図5等を参照して説明したように、情報処理装置1は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデル21とを用いて、決められたコンテキスト系列x及び新たなターゲット系列xを含む系列(例えば系列A等)を生成する生成部30を備え、学習済みモデル21は、入力情報に対応するデータが入力されると、新たなターゲット系列xに対応するデータを出力する。情報処理装置1は、入力情報を受け付け、また、生成部30の生成結果を提示するユーザインタフェース10を備えてもよい。
 上記の情報処理装置1によれば、決められたコンテキスト系列x及び新たなターゲット系列xを含む系列が生成される。コンテキスト系列xは系列の一部を構成し、ターゲット系列xは系列の残部を構成する。したがって、一部だけが新たに生成され残部が維持された系列を生成することが可能になる。
 図2及び図8等を参照して説明したように、(例えばユーザインタフェース10が受け付ける)入力情報は、決められたコンテキスト系列xと、系列における決められたコンテキスト系列xの位置情報Rと、を含んでよい。例えばこのような入力情報と、学習済みモデル21とを用いて、決められたコンテキスト系列x及び新たなターゲット系列xを含む系列を生成することができる。
 図3及び図4等を参照して説明したように、(例えばユーザインタフェース10が受け付ける)入力情報は、生成部30が生成した系列(例えば系列A等)に関する情報を含み、生成部30は、生成部30が生成した系列のターゲット系列(例えばターゲット系列xTA等)とは異なる系列を新たなターゲット系列として含む系列を生成してよい。これにより、生成した系列に基づいて、さらに系列を生成することができる。
 図3及び図4等を参照して説明したように、(例えばユーザインタフェース10が受け付ける)入力情報は、生成部30が生成した複数の系列(例えば系列A等)のうちの少なくとも1つの系列を指定する情報を含み、生成部30は、指定された系列のターゲット系列(例えばターゲット系列xTA等)とは異なるターゲット系列を新たなターゲット系列として含む系列を生成してよい。これにより、指定された系列に基づいて、さらに系列を生成することができる。
 図4等を参照して説明したように、(例えばユーザインタフェース10が受け付ける)入力情報は、生成部30が生成した複数の系列(例えば系列A等)のうちの2つの系列(例えば系列A及び系列B)を指定する情報を含み、生成部30は、指定された2つの系列のターゲット系列(例えばターゲット系列xTA及びターゲット系列xTB)どうしの間の特徴を有するターゲット系列を新たなターゲット系列として含む系列を生成してよい。これにより、指定された2つの系列の間の特徴を有する系列を生成することができる。
 図3及び図4等を参照して説明したように、(例えばユーザインタフェース10が受け付ける)入力情報は、系列の特徴(例えば潜在空間FS中の位置)を指定する情報を含み、生成部30は、指定された特徴を有する系列を生成してよい。これにより、指定された特徴を有する系列を生成することができる。
 図6~図8等を参照して説明したように、学習済みモデル21に入力されるデータは、決められたコンテキスト系列xのトークン(例えばトークンs,…sk-1及びトークンsj+1,…,s)を含み、学習済みモデル21が出力するデータは、新たなターゲット系列xのトークン(例えばトークンs,…,s)を含んでよい。入力されるデータは、さらに所定のトークンMを含んでよい。系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報であり、トークンは、音の音高値及び音の発生期間の少なくとも一方を示してよい。例えばこのようなトークンを入出力データとして、学習済みモデル21を用いることができる。
 図10~図12等を参照して説明した情報処理方法も、本開示の位置態様である。情報処理方法は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデル21とを用いて、決められたコンテキスト系列x及び新たなターゲット系列xを含む系列を生成すること(ステップS13、ステップS22及び/又はステップS32)を含み、学習済みモデル21は、入力情報に対応するデータが入力されると、新たなターゲット系列xに対応するデータを出力する。このような情報処理方法によっても、これまで説明したように、一部だけが新たに生成され残部が維持された系列を生成することが可能になる。
 図5等を参照して説明した情報処理プログラム22も、本開示の位置態様である。情報処理プログラム22は、一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデル21とを用いて、決められたコンテキスト系列x及び新たなターゲット系列xを含む系列を生成すること(ステップS13、ステップS22及び/又はステップS32)、をコンピュータに実行させ、学習済みモデル21は、入力情報に対応するデータが入力されると、新たなターゲット系列xに対応するデータを出力する。このような情報処理プログラム22によっても、これまで説明したように、一部だけが新たに生成され残部が維持された系列を生成することが可能になる。
 なお、本開示に記載された効果は、あくまで例示であって、開示された内容に限定されない。他の効果があってもよい。
 以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 制御手段と、
 系列データを入力するデータ入力手段と、
 前記データ入力手段により入力された前記系列データに基づいて、新たな系列データを生成する機械学習モデルと、
 前記機械学習モデルにより前記新たな系列データを生成する際に、前記系列データに対して変更を加えるターゲット系列データ、及び/又は、変更を加えないコンテキスト系列データを選択する系列データ選択手段と、
 を備え、
 前記制御手段は、
  (i)前記機械学習モデルにより既に生成された少なくとも2つの系列データを補間する新たなターゲット系列データを生成するか、又は、
  (ii)前記機械学習モデルにより既に生成された系列データに対して異なる新たな系列データを生成する、
 ことを特徴とする情報処理装置。
(2)
 前記機械学習モデルで学習された前記系列データの特徴量を規定する空間中の位置を指定可能な態様で表示する表示手段をさらに備え、
 前記制御手段は、前記空間中の指定された位置に対応する特徴量を有する系列データを、前記新たな系列データとして生成する、
 ことを特徴とする、(1)に記載の情報処理装置。
(3)
 一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部を備え、
 前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
 情報処理装置。
(4)
 前記入力情報は、
  前記決められたコンテキスト系列と、
  系列における前記決められたコンテキスト系列の位置情報と、
 を含む、
 (3)に記載の情報処理装置。
(5)
 前記入力情報は、前記生成部が生成した系列に関する情報を含み、
 前記生成部は、前記生成部が生成した系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
 (3)又は(4)に記載の情報処理装置。
(6)
 前記入力情報は、前記生成部が生成した複数の系列のうちの少なくとも1つの系列を指定する情報を含み、
 前記生成部は、指定された系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
 (3)~(5)のいずれかに記載の情報処理装置。
(7)
 前記入力情報は、前記生成部が生成した複数の系列のうちの2つの系列を指定する情報を含み、
 前記生成部は、指定された2つの系列のターゲット系列どうしの間の特徴を有するターゲット系列を前記新たなターゲット系列として含む系列を生成する、
 (3)~(6)のいずれかに記載の情報処理装置。
(8)
 前記入力情報は、系列の特徴を指定する情報を含み、
 前記生成部は、指定された特徴を有する系列を生成する、
 (3)~(7)のいずれかに記載の情報処理装置。
(9)
 前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークンを含み、
 前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
 (3)~(8)のいずれかに記載の情報処理装置。
(10)
 前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークン及び所定のトークンを含み、
 前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
 (3)~(9)のいずれかに記載の情報処理装置。
(11)
 前記系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報であり、
 前記トークンは、前記音の音高値及び音の発生期間の少なくとも一方を示す、
 (9)又は(10)に記載の情報処理装置。
(12)
 一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部と、
 前記入力情報を受け付け、また、前記生成部の生成結果を提示するユーザインタフェースと、
 を備え、
 前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
 情報処理装置。
(13)
 前記ユーザインタフェースは、
  前記決められたコンテキスト系列と、
  系列における前記決められたコンテキスト系列の位置情報と、
 を、前記入力情報として受け付ける、
 (12)に記載の情報処理装置。
(14)
 前記ユーザインタフェースは、前記生成部が生成した系列に関する情報を、前記入力情報として受け付け、
 前記生成部は、前記生成部が生成した系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
 (12)又は(13)に記載の情報処理装置。
(15)
 前記ユーザインタフェースは、前記生成部が生成した複数の系列のうちの少なくとも1つの系列を指定する情報を、前記入力情報として受け付け、
 前記生成部は、指定された系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
 (12)~(14)のいずれかに記載の情報処理装置。
(16)
 前記ユーザインタフェースは、前記生成部が生成した複数の系列のうちの2つの系列を指定する情報を、前記入力情報として受け付け、
 前記生成部は、指定された2つの系列のターゲット系列どうしの間の特徴を有するターゲット系列を前記新たなターゲット系列として含む系列を生成する、
 (12)~(15)のいずれかに記載の情報処理装置。
(17)
 前記ユーザインタフェースは、系列の特徴を指定する情報を、前記入力情報として受け付け、
 前記生成部は、指定された特徴を有する系列を生成する、
 (12)~(16)のいずれかに記載の情報処理装置。
(18)
 前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークンを含み、
 前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
 (12)~(17)のいずれかに記載の情報処理装置。
(19)
 前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークン及び所定のトークンを含み、
 前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
 (12)~(18)のいずれかに記載の情報処理装置。
(20)
 前記系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報であり、
 前記トークンは、前記音の音高値及び音の発生期間の少なくとも一方を示す、
 (18)又は(19)に記載の情報処理装置。
(21)
 一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成することを含み、
 前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
 情報処理方法。
(22)
 一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成すること、
 をコンピュータに実行させ、
 前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
 情報処理プログラム。
  1 情報処理装置
 10 ユーザインタフェース(入力手段、選択手段、表示手段)
 20 記憶部
 21 学習済みモデル(機械学習モデル)
 22 情報処理プログラム
 30 生成部(制御部)
211 エンコーダモデル
212 プライヤーモデル
213 デコーダモデル
ENC エンコーダ
DEC デコーダ
  U ユーザ

Claims (22)

  1.  制御手段と、
     系列データを入力するデータ入力手段と、
     前記データ入力手段により入力された前記系列データに基づいて、新たな系列データを生成する機械学習モデルと、
     前記機械学習モデルにより前記新たな系列データを生成する際に、前記系列データに対して変更を加えるターゲット系列データ、及び/又は、変更を加えないコンテキスト系列データを選択する系列データ選択手段と、
     を備え、
     前記制御手段は、
      (i)前記機械学習モデルにより既に生成された少なくとも2つの系列データを補間する新たなターゲット系列データを生成するか、又は、
      (ii)前記機械学習モデルにより既に生成された系列データに対して異なる新たな系列データを生成する、
     ことを特徴とする情報処理装置。
  2.  前記機械学習モデルで学習された前記系列データの特徴量を規定する空間中の位置を指定可能な態様で表示する表示手段をさらに備え、
     前記制御手段は、前記空間中の指定された位置に対応する特徴量を有する系列データを、前記新たな系列データとして生成する、
     ことを特徴とする、請求項1に記載の情報処理装置。
  3.  一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部を備え、
     前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
     情報処理装置。
  4.  前記入力情報は、
      前記決められたコンテキスト系列と、
      系列における前記決められたコンテキスト系列の位置情報と、
     を含む、
     請求項3に記載の情報処理装置。
  5.  前記入力情報は、前記生成部が生成した系列に関する情報を含み、
     前記生成部は、前記生成部が生成した系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
     請求項3に記載の情報処理装置。
  6.  前記入力情報は、前記生成部が生成した複数の系列のうちの少なくとも1つの系列を指定する情報を含み、
     前記生成部は、指定された系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
     請求項3に記載の情報処理装置。
  7.  前記入力情報は、前記生成部が生成した複数の系列のうちの2つの系列を指定する情報を含み、
     前記生成部は、指定された2つの系列のターゲット系列どうしの間の特徴を有するターゲット系列を前記新たなターゲット系列として含む系列を生成する、
     請求項3に記載の情報処理装置。
  8.  前記入力情報は、系列の特徴を指定する情報を含み、
     前記生成部は、指定された特徴を有する系列を生成する、
     請求項3に記載の情報処理装置。
  9.  前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークンを含み、
     前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
     請求項3に記載の情報処理装置。
  10.  前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークン及び所定のトークンを含み、
     前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
     請求項3に記載の情報処理装置。
  11.  前記系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報であり、
     前記トークンは、前記音の音高値及び音の発生期間の少なくとも一方を示す、
     請求項9に記載の情報処理装置。
  12.  一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成する生成部と、
     前記入力情報を受け付け、また、前記生成部の生成結果を提示するユーザインタフェースと、
     を備え、
     前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
     情報処理装置。
  13.  前記ユーザインタフェースは、
      前記決められたコンテキスト系列と、
      系列における前記決められたコンテキスト系列の位置情報と、
     を、前記入力情報として受け付ける、
     請求項12に記載の情報処理装置。
  14.  前記ユーザインタフェースは、前記生成部が生成した系列に関する情報を、前記入力情報として受け付け、
     前記生成部は、前記生成部が生成した系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
     請求項12に記載の情報処理装置。
  15.  前記ユーザインタフェースは、前記生成部が生成した複数の系列のうちの少なくとも1つの系列を指定する情報を、前記入力情報として受け付け、
     前記生成部は、指定された系列のターゲット系列とは異なるターゲット系列を前記新たなターゲット系列として含む系列を生成する、
     請求項12に記載の情報処理装置。
  16.  前記ユーザインタフェースは、前記生成部が生成した複数の系列のうちの2つの系列を指定する情報を、前記入力情報として受け付け、
     前記生成部は、指定された2つの系列のターゲット系列どうしの間の特徴を有するターゲット系列を前記新たなターゲット系列として含む系列を生成する、
     請求項12に記載の情報処理装置。
  17.  前記ユーザインタフェースは、系列の特徴を指定する情報を、前記入力情報として受け付け、
     前記生成部は、指定された特徴を有する系列を生成する、
     請求項12に記載の情報処理装置。
  18.  前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークンを含み、
     前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
     請求項12に記載の情報処理装置。
  19.  前記学習済みモデルに入力されるデータは、前記決められたコンテキスト系列のトークン及び所定のトークンを含み、
     前記学習済みモデルが出力するデータは、前記新たなターゲット系列のトークンを含む、
     請求項12に記載の情報処理装置。
  20.  前記系列が与える一連の情報は、時刻ごとの音の音高値を示す音楽情報であり、
     前記トークンは、前記音の音高値及び音の発生期間の少なくとも一方を示す、
     請求項18に記載の情報処理装置。
  21.  一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成することを含み、
     前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
     情報処理方法。
  22.  一部がターゲット系列で構成され残部がコンテキスト系列で構成され一連の情報を与える系列に関する情報である入力情報と、学習済みモデルとを用いて、決められたコンテキスト系列及び新たなターゲット系列を含む系列を生成すること、
     をコンピュータに実行させ、
     前記学習済みモデルは、前記入力情報に対応するデータが入力されると、前記新たなターゲット系列に対応するデータを出力する、
     情報処理プログラム。
PCT/JP2021/042384 2020-12-28 2021-11-18 情報処理装置、情報処理方法及び情報処理プログラム WO2022145145A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP21915006.7A EP4270267A4 (en) 2020-12-28 2021-11-18 DEVICE, METHOD AND PROGRAM FOR INFORMATION PROCESSING
CN202180087191.8A CN116685987A (zh) 2020-12-28 2021-11-18 信息处理装置、信息处理方法和信息处理程序
US18/256,639 US20240095500A1 (en) 2020-12-28 2021-11-18 Information processing apparatus, information processing method, and information processing program
JP2022572935A JPWO2022145145A1 (ja) 2020-12-28 2021-11-18

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-219553 2020-12-28
JP2020219553 2020-12-28

Publications (1)

Publication Number Publication Date
WO2022145145A1 true WO2022145145A1 (ja) 2022-07-07

Family

ID=82260389

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/042384 WO2022145145A1 (ja) 2020-12-28 2021-11-18 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (5)

Country Link
US (1) US20240095500A1 (ja)
EP (1) EP4270267A4 (ja)
JP (1) JPWO2022145145A1 (ja)
CN (1) CN116685987A (ja)
WO (1) WO2022145145A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020080239A1 (ja) 2018-10-19 2020-04-23 ソニー株式会社 情報処理方法、情報処理装置及び情報処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068556B2 (en) * 2015-11-18 2018-09-04 Pandora Media, Inc. Procedurally generating background music for sponsored audio
JP6747489B2 (ja) * 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020080239A1 (ja) 2018-10-19 2020-04-23 ソニー株式会社 情報処理方法、情報処理装置及び情報処理プログラム

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ADAM ROBERTS; JESSE ENGEL; COLIN RAFFEL; CURTIS HAWTHORNE; DOUGLAS ECK: "A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music", ARXIV.ORG, 13 March 2018 (2018-03-13), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081561200 *
KE CHEN; CHENG-I WANG; TAYLOR BERG-KIRKPATRICK; SHLOMO DUBNOV: "Music SketchNet: Controllable Music Generation via Factorized Representations of Pitch and Rhythm", ARXIV.ORG, 4 August 2020 (2020-08-04), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081731260 *
MANA SASAKI : "Investigation of melody editing method by automatic interpolation of melody", IPSJ SIG TECHNICAL REPORT, vol. 2018-MUS-119, no. 24, 9 June 2018 (2018-06-09), JP , pages 1 - 4, XP009538047, ISSN: 2188-8752 *
NAKAMURA KOSUKE, NOSE TAKASHI, CHIBA YUYA, ITO AKINORI: "A Symbol-level Melody Completion Based on a Convolutional Neural Network with Generative Adversarial Learning", JOURNAL OF INFORMATION PROCESSING, vol. 28, 15 April 2020 (2020-04-15), pages 248 - 257, XP055948852, DOI: 10.2197/ipsjjip.28.248 *
NAKAMURA KOSUKE: "A Study on Melody Completion Based on Convolutional Neural Networks and Adversarial Learning", IPSJ SIG TECHNICAL REPORT, vol. 2018-MUS-120, no. 12, 14 August 2018 (2018-08-14), pages 1 - 6, XP055948867 *
See also references of EP4270267A4
UEMURA AIKO, KITAHARA TETSURO: "Preliminary Study on Morphing of Chord Progression", IPSJ SIG TECHNICAL REPORT, vol. 2018-SLP-122, no. 20, 9 June 2018 (2018-06-09), pages 1 - 5, XP055948837 *
UEMURA AIKO, KITAHARA TETSURO: "Preliminary Study on Morphing of Chord Progression", PROCEEDINGS OF THE 3RD CONFERENCE ON COMPUTER SIMULATION OF MUSICAL CREATIVITY (CSMC 2018), 22 August 2018 (2018-08-22), pages 1 - 8, XP055948832 *

Also Published As

Publication number Publication date
JPWO2022145145A1 (ja) 2022-07-07
EP4270267A1 (en) 2023-11-01
US20240095500A1 (en) 2024-03-21
EP4270267A4 (en) 2024-06-19
CN116685987A (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
US11030984B2 (en) Method of scoring digital media objects using musical experience descriptors to indicate what, where and when musical events should appear in pieces of digital music automatically composed and generated by an automated music composition and generation system
US10854180B2 (en) Method of and system for controlling the qualities of musical energy embodied in and expressed by digital music to be automatically composed and generated by an automated music composition and generation engine
US10068557B1 (en) Generating music with deep neural networks
US9208821B2 (en) Method and system to process digital audio data
US9190042B2 (en) Systems and methods for musical sonification and visualization of data
JP5363355B2 (ja) スタイル要素を用いた画面表示の選択した表示領域をコピーアンドペーストする方法、システム及びプログラム
US9082381B2 (en) Method, system, and computer program for enabling flexible sound composition utilities
EP1962241A1 (en) Content search device, content search system, server device for content search system, content searching method, and computer program and content output apparatus with search function
US20150082228A1 (en) System and method for direct manipulation of a triangular distribution of information using a graphical user interface
US20230237980A1 (en) Hands-on artificial intelligence education service
EP2524363A1 (en) Interactive music notation layout and editing system
WO2022145145A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2022264461A1 (ja) 情報処理システム及び情報処理方法
WO2021225008A1 (ja) 情報処理方法、情報処理装置及び情報処理プログラム
US9293124B2 (en) Tempo-adaptive pattern velocity synthesis
Kim-Boyle Real-time score generation for extensible open forms
Schankler et al. Improvising with digital auto-scaffolding: how mimi changes and enhances the creative process
CN105164747A (zh) 经由链接对乐音设置信息进行设置和编辑
Stoller et al. Intuitive and efficient computer-aided music rearrangement with optimised processing of audio transitions
WO2024042962A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Cheung et al. An interactive automatic violin fingering recommendation interface
US20240144901A1 (en) Systems and Methods for Sending, Receiving and Manipulating Digital Elements
US20230135118A1 (en) Information processing device, information processing method, and program
EP4421658A1 (en) Information processing device, information processing method, and program
US20240296022A1 (en) Metadata-driven visualization library integration

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21915006

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022572935

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18256639

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 202180087191.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2021915006

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021915006

Country of ref document: EP

Effective date: 20230728