WO2024075634A1 - 音波形の特性分布に係る表示方法 - Google Patents

音波形の特性分布に係る表示方法 Download PDF

Info

Publication number
WO2024075634A1
WO2024075634A1 PCT/JP2023/035437 JP2023035437W WO2024075634A1 WO 2024075634 A1 WO2024075634 A1 WO 2024075634A1 JP 2023035437 W JP2023035437 W JP 2023035437W WO 2024075634 A1 WO2024075634 A1 WO 2024075634A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic model
training
characteristic
acoustic
sound
Prior art date
Application number
PCT/JP2023/035437
Other languages
English (en)
French (fr)
Inventor
竜之介 大道
慶二郎 才野
方成 西村
正宏 清水
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2023043561A external-priority patent/JP2024054058A/ja
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2024075634A1 publication Critical patent/WO2024075634A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • One embodiment of the present invention relates to a method for displaying the distribution of characteristics of a sound waveform.
  • Sound synthesis technology is known that synthesizes the vocal tones of a specific singer and the sounds of a specific musical instrument.
  • voice synthesis technology that uses machine learning (e.g., Patent Documents 1 and 2)
  • a fully trained acoustic model is required to output a synthetic voice with natural pronunciation from the specific voice and performance sounds based on the sheet music data and acoustic data input by the user.
  • One of the goals of one embodiment of the present invention is to make it easier to identify the sound waveforms used to train an acoustic model.
  • a method for displaying information related to an acoustic model established by training using a plurality of sound waveforms to generate acoustic features obtains a distribution of a characteristic of a plurality of sound waveforms used in training the acoustic model, the characteristic being one of a plurality of characteristics possessed by the sound waveforms, and displays information related to the distribution of the characteristic.
  • FIG. 1 is a diagram showing the overall configuration of an acoustic model training system.
  • FIG. 2 is a diagram showing the configuration of the server.
  • FIG. 3 is an explanatory diagram of an acoustic model.
  • FIG. 4 is a sequence diagram illustrating a method for training an acoustic model.
  • FIG. 5 is a flowchart illustrating an example of a process for training an acoustic model and a process for displaying a distribution of characteristics of a sound waveform.
  • FIG. 6 shows an example of a characteristic distribution of a sound waveform.
  • FIG. 7 is a modified flowchart illustrating a method for displaying the characteristic distribution of a sound waveform.
  • FIG. 1 is a diagram showing the overall configuration of an acoustic model training system.
  • FIG. 2 is a diagram showing the configuration of the server.
  • FIG. 3 is an explanatory diagram of an acoustic model.
  • FIG. 4 is a sequence diagram illustrating a
  • FIG. 8 is a flowchart illustrating an example of a process for training an acoustic model.
  • FIG. 9 is an example of a graph showing the shortage range.
  • FIG. 10 shows an example of the characteristic distribution of music pieces recommended to a user.
  • FIG. 11 is a flowchart illustrating a process of selecting, editing, and playing a piece of music.
  • FIG. 12 shows an example of recommended music display based on the degree of proficiency.
  • FIG. 13 is an example of a piano roll display.
  • FIG. 14 shows an example of a characteristic distribution of a sound waveform.
  • FIG. 15 is a flowchart illustrating the music playback process.
  • FIG. 16 is a diagram illustrating a project overview of a service according to an embodiment of the present invention.
  • FIG. 16 is a diagram illustrating a project overview of a service according to an embodiment of the present invention.
  • FIG. 17 is a diagram illustrating the background of a service according to an embodiment of the present invention.
  • FIG. 18 is a diagram illustrating an outline of the functions of a service according to an embodiment of the present invention.
  • FIG. 19 is a diagram illustrating an outline of the functions of a service according to an embodiment of the present invention.
  • FIG. 20 is a diagram illustrating an outline of the functions of a service according to an embodiment of the present invention.
  • FIG. 21 is a diagram illustrating implementation in a service according to an embodiment of the present invention.
  • FIG. 22 is a diagram illustrating a system configuration of a service according to an embodiment of the present invention.
  • FIG. 23 is a diagram for explaining a future concept of a service according to an embodiment of the present invention as a commercial service.
  • FIG. 24 is a diagram illustrating a structural image of a service according to an embodiment of the present invention.
  • musical score data is data that includes information about the pitch and intensity of notes, information about the phonemes of notes, information about the duration of note pronunciation, and information about performance symbols.
  • musical score data is data that indicates at least one of the musical score and lyrics of a piece of music.
  • Music score data may be data that indicates the time sequence of notes that make up the piece of music, or data that indicates the time sequence of language that makes up the piece of music.
  • a "sound waveform” is waveform data of a voice.
  • the sound source that produces the voice is identified by a sound source ID.
  • a sound waveform is at least one of waveform data of singing and waveform data of musical instrument sounds.
  • a sound waveform includes waveform data of a singer's singing voice and musical instrument sounds captured via an input device such as a microphone.
  • the sound source ID identifies the timbre of the singer's singing or the timbre of the musical instrument sounds.
  • a sound waveform that is input to generate a synthetic sound waveform using an acoustic model is called a "sound waveform for synthesis,” and a sound waveform used to train the acoustic model is called a “training sound waveform.”
  • a sound waveform for synthesis a sound waveform that is input to generate a synthetic sound waveform using an acoustic model
  • a training sound waveform a sound waveform used to train the acoustic model.
  • the "acoustic model” has an input of the score feature of the score data and an input of the acoustic feature of the sound waveform.
  • an acoustic model having a score encoder, an acoustic encoder, a switching unit, and an acoustic decoder described in International Publication No. 2022/080395 is used as the acoustic model.
  • This acoustic model is a voice synthesis model obtained by processing the score feature of the input score data, or by processing the acoustic feature of the sound waveform and the sound source ID.
  • the acoustic model is a voice synthesis model used by a voice synthesis program.
  • the voice synthesis program has a timbre indicated by the sound source ID, has a function of generating the acoustic feature of the target sound waveform, and is a program for generating a new synthetic sound waveform.
  • the voice synthesis program supplies the score feature generated from the score data of a certain song and the sound source ID to the acoustic model, thereby obtaining the acoustic feature of the song with the timbre indicated by the sound source ID, and converting the acoustic feature into a sound waveform.
  • the voice synthesis program supplies acoustic features generated from the sound waveform of a certain piece of music and a sound source ID to an acoustic model, thereby obtaining new acoustic features for that piece of music in the timbre indicated by the sound source ID, and converting the new acoustic features into a sound waveform.
  • a predetermined number of sound source IDs are prepared for each acoustic model.
  • each acoustic model selectively generates acoustic features for the timbre indicated by the sound source ID from among a predetermined number of timbres.
  • An acoustic model is a generative model of a given architecture that uses machine learning, for example, a convolutional neural network (CNN) or a recurrent neural network (RNN).
  • CNN convolutional neural network
  • RNN recurrent neural network
  • Acoustic features represent the pronunciation characteristics in the frequency spectrum of the waveform of a natural sound or a synthetic sound. Similar acoustic features mean that the timbre or its change over time of the singing voice or performance sound is similar.
  • the variables of the acoustic model are changed so that the acoustic model generates acoustic features similar to those of the referenced sound waveform.
  • the training program P2 described in WO 2022/080395, the score data D1 (training score data), and the learning sound data D2 (training sound waveform) are used for training.
  • the variables of the acoustic model are changed so that acoustic features of a synthetic sound of a plurality of timbres corresponding to a plurality of sound source IDs can be generated by basic training using waveforms of a plurality of voices corresponding to a plurality of sound source IDs.
  • the acoustic model can generate acoustic features of the timbre indicated by the new sound source ID.
  • the variables of the acoustic model (at least the acoustic decoder) are changed so that the acoustic model becomes one that can generate acoustic features of YYY's voice.
  • the above-mentioned unit of training for the acoustic model that corresponds to a new sound source ID is called a "training job.”
  • a training job refers to a series of training processes executed by a training program.
  • a “program” refers to an instruction or group of instructions executed by a processor in a computer equipped with a processor and memory.
  • a “computer” is a general term referring to the entity that executes a program. For example, when a program is executed by a server (or a client), the “computer” refers to the server (or the client). When a “program” is executed by distributed processing between a server and a client, the “computer” includes both the server and the client.
  • the "program” includes a “program executed by the server” and a “program executed by the client.”
  • a "program” is processed in a distributed manner by multiple computers connected to a network
  • the "computer” refers to multiple computers
  • the "program” includes multiple programs executed by multiple computers.
  • Fig. 1 is an overall configuration diagram of an acoustic model training system.
  • the acoustic model training system 10 includes a cloud server 100 (Server), a communication terminal 200 (TM1), and a communication terminal 300 (TM2).
  • the server 100 and the communication terminals 200 and 300 are each connected to a network 400.
  • the communication terminals 200 and 300 can each communicate with the server 100 via the network 400.
  • the server 100 is a computer that functions as a speech synthesizer and trains an acoustic model.
  • the server 100 includes a storage 110.
  • FIG. 1 illustrates a configuration in which the storage 110 is directly connected to the server 100, but the configuration is not limited to this.
  • the storage 110 may be connected to the network 400 directly or via another computer, and data may be transmitted and received between the server 100 and the storage 110 via the network 400.
  • the communication terminal 200 is a terminal of a user (a creator, described later) who selects a training sound waveform for training an acoustic model and sends an instruction to the server 100 to execute the training.
  • the communication terminal 300 is a terminal of a user who provides musical score data and requests the server 100 to generate a synthetic sound waveform.
  • the communication terminals 200 and 300 include mobile communication terminals such as smartphones, or stationary communication terminals such as desktop personal computers.
  • the training method of the present invention may be implemented in a configuration other than the client-server configuration described in this embodiment.
  • the training method may be implemented in a single electronic device, such as a smartphone, personal computer, electronic musical instrument, or audio device, equipped with a processor capable of executing a program, instead of a system including a communication terminal and a server.
  • the training method may be implemented as distributed processing by multiple electronic devices connected by a network.
  • Network 400 may be the general Internet, a WAN (Wide Area Network), or a LAN (Local Area Network) such as an in-house LAN.
  • WAN Wide Area Network
  • LAN Local Area Network
  • FIG. 2 is a block diagram showing the configuration of a cloud server.
  • the server 100 includes a control unit 101, a RAM (Random Access Memory) 102, a ROM (Read Only Memory) 103, a user interface (UI) 104, a communication interface 105, and a storage 110.
  • the speech synthesis technology of the present embodiment is realized by the cooperation of the functional units of the server 100.
  • the control unit 101 includes a processor such as a central processing unit (CPU) and an image processing unit (GPU), and storage devices such as registers and memory connected to the CPU and GPU.
  • the control unit 101 executes programs temporarily stored in the memory using the CPU and GPU, and realizes each function provided in the server 100. Specifically, the control unit 101 performs arithmetic processing in response to various request signals from the communication terminal 200, and provides the processing results to the communication terminals 200 and 300.
  • RAM 102 temporarily stores control programs, acoustic models (consisting of architecture and variables), and content data required for computational processing.
  • RAM 102 is used, for example, as a data buffer, and temporarily holds various data received from external devices such as communication terminal 200 until the data is stored in storage 110.
  • general-purpose memory such as SRAM (Static Random Access Memory) or DRAM (Dynamic Random Access Memory) may be used as RAM 102.
  • ROM 103 stores various programs, various acoustic models, parameters, etc. for implementing the functions of server 100.
  • the programs, acoustic models, parameters, etc. stored in ROM 103 are read by control unit 101 as necessary and executed or used.
  • the user interface 104 includes a display for graphical display, an operator or sensor for accepting user operations, and a sound device for inputting and outputting sound. Under the control of the control unit 101, the user interface 104 displays various display images on the display and accepts input from the user.
  • the communication interface 105 is an interface that connects to the network 400 under the control of the control unit 101, and transmits and receives information between the communication interface 105 and other communication devices, such as the communication terminals 200 and 300, that are connected to the network 400.
  • the storage 110 is a recording device (recording medium) capable of permanently retaining and rewriting information, such as a non-volatile memory or a hard disk drive.
  • the storage 110 stores information such as a program, an acoustic model, and parameters required for executing the program. As shown in FIG. 2, the storage 110 stores, for example, a voice synthesis program 111, a training job 112, music score data 113, and sound waveforms 114.
  • the voice synthesis program P1, training program P2, music score data D1, and sound data D2 described in International Publication No. 2022/080395 may be used as these programs and data.
  • the sound waveforms 114 stored in the storage 110 include training sound waveforms used in the past to train the acoustic model 120. In this way, data related to training sound waveforms used in the past for training may be referred to as "history data".
  • the voice synthesis program 111 is a program for generating a synthetic voice waveform from musical score data or a sound waveform.
  • the control unit 101 executes the voice synthesis program 111, the control unit 101 generates a synthetic voice waveform using the acoustic model 120.
  • the synthetic voice waveform corresponds to the acoustic data D3 described in WO 2022/080395.
  • the training job 112 is a training process executed by a training program for the acoustic model 120 executed by the control unit 101, and is, for example, a program for training the encoder and acoustic decoder described in WO 2022/080395.
  • the musical score data is data that specifies a piece of music.
  • the sound waveform is waveform data that indicates the singing voice of a singer or the sound of an instrument.
  • the configurations of the communication terminals 200 and 300 are basically the same as those of the server 100, although there are some differences in their scales, etc.
  • FIG. 3 is an explanatory diagram of an acoustic model.
  • the acoustic model 120 is a machine learning model used in the voice synthesis process executed by the control unit 101 in FIG. 2 when the control unit 101 reads and executes the voice synthesis program 111.
  • the acoustic model 120 is trained to generate an acoustic feature.
  • the control unit 101 inputs the score feature 123 of the score data 113 of a desired piece of music or the acoustic feature 124 of the sound waveform 114 as an input signal to the acoustic model 120.
  • the control unit 101 processes the sound source ID and the score feature 123 using the acoustic model 120 to generate an acoustic feature 129 of the synthetic sound of the piece of music.
  • the control unit 101 synthesizes the synthetic sound waveform 130 sung by a singer specified by the sound source ID or played on an instrument with the piece of music based on the acoustic feature 129 and outputs the result.
  • the control unit 101 processes the sound source ID and the acoustic feature 124 using the acoustic model 120 to generate an acoustic feature 129 of a synthetic sound of the music piece.
  • the control unit 101 Based on the acoustic feature 129, the control unit 101 synthesizes and outputs a synthetic sound waveform 130 in which a sound waveform of the music piece is converted into the timbre of a singer's singing voice or a musical instrument performance sound identified by the sound source ID.
  • the acoustic model 120 is a generative model established by machine learning.
  • the acoustic model 120 is trained by the control unit 101 executing a training program (i.e., executing the training job 112).
  • the control unit 101 trains the acoustic model 120 using a (new) sound source ID and a training sound waveform, and determines the variables of the acoustic model 120 (at least the acoustic decoder).
  • control unit 101 generates training acoustic features from the training sound waveform, and when a new sound source ID and training acoustic features are input to the acoustic model 120, it gradually and repeatedly changes the variables so that the acoustic features generating the synthetic sound waveform 130 approach the training acoustic features.
  • the training sound waveform may be uploaded (transmitted) from the communication terminal 200 or the communication terminal 300 to the cloud server 100 and stored in the storage 110 as user data, or may be stored in the storage 110 in advance by the administrator of the server 100 as reference data.
  • storing in storage 110 may be referred to as storing in server 100.
  • [1-4. Voice synthesis method] 4 is a sequence diagram showing a method for training an acoustic model.
  • the communication terminal 200 uploads a training sound waveform to the server 100.
  • the training sound waveform may be stored in advance in the server 100 by other methods.
  • each step of the process TM1 on the communication terminal 200 side is executed by the control unit of the communication terminal, and each step of the process Server on the server 100 side is executed by the control unit 101 of the server 100.
  • the communication terminal 200 and the server 100 are expressed as the execution subjects of each step.
  • the communication terminal 200 uploads (transmits) one or more training sound waveforms to the server 100 based on instructions from a creator who has logged in to the user's account on the server 100 (S401).
  • the server 100 stores the training sound waveforms transmitted in S401 in the user's memory area (S411). Either one or more sound waveforms may be uploaded to the server 100.
  • the multiple sound waveforms may be stored in multiple folders in the user's memory area.
  • the above steps S401 and S411 are steps related to preparation for executing the following training job.
  • the sound waveforms stored in S411 may be referred to as "sound waveforms related to the training of the acoustic model" or “sound waveforms used for training”. Data related to these sound waveforms may be referred to as "history data related to the input sound waveform".
  • the sound waveforms used in the training job may be referred to as "sound waveforms used for training”.
  • the communication terminal 200 requests the server 100 to execute a training job (S402).
  • the server 100 provides the communication terminal 200 with a graphical user interface (GUI) for selecting a sound waveform to be used for the training job from among sound waveforms that have been previously stored or are to be stored (S412).
  • GUI graphical user interface
  • the communication terminal 200 In response to input by the creator (user) to the GUI provided in S412, the communication terminal 200 displays the GUI provided in S412 on the display of that UI.
  • the creator uses that GUI to select one or more sound waveforms as a training waveform set from the multiple sound waveforms uploaded to the storage area (or a desired folder) (S403).
  • the communication terminal 200 instructs the start of execution of the training job (S404).
  • the server 100 starts execution of the training job using the selected waveform set (S413).
  • a preprocessed waveform set that includes only useful sections excluding silent or noise sections, etc. may be used.
  • An acoustic model with an untrained acoustic decoder may be used as the acoustic model 120 to be trained (model specified as the base).
  • an acoustic model that includes an acoustic decoder that has learned to generate acoustic features that are close to the acoustic features of the waveforms in the waveform set the time and cost required for the training job can be reduced.
  • a basic trained score encoder and acoustic encoder are used.
  • the base model may be automatically determined by the server 100 from among the trained acoustic models and the initial model based on the waveform set selected by the creator, or may be determined based on an instruction from the user. For example, when the communication terminal 200 instructs the server 100 to start executing a training job, the communication terminal 200 may select one of the trained acoustic models 120 and the initial model selected by the creator (user) as the base model and transmit designation data indicating the selected base model to the server 100. The server 100 designates the acoustic model 120 to be trained based on the designation data. A new unused sound source ID is used as the sound source ID (e.g., singer ID, instrument ID, etc.) to be supplied to the acoustic decoder.
  • the sound source ID e.g., singer ID, instrument ID, etc.
  • the new sound source ID is key data for synthesizing the acoustic features of the timbre learned in the training to the acoustic model trained by the user.
  • a part of short waveforms is extracted little by little from the preprocessed waveform set, and the acoustic model (at least the acoustic decoder) is trained using the extracted short waveforms.
  • the new sound source ID and the acoustic features of the short waveforms are input to the acoustic model 120, and the variables of the acoustic model are adjusted accordingly so that the difference between the acoustic features output by the acoustic model 120 and the input acoustic features becomes small.
  • the backpropagation method is used to adjust the variables.
  • the quality of the acoustic features generated by the acoustic model 120 is evaluated, and if the quality does not reach a predetermined standard, the acoustic model is trained again using the preprocessed waveform set. If the quality of the acoustic features generated by the acoustic model 120 reaches a predetermined standard, the training job is completed, and the acoustic model 120 at that point becomes the trained acoustic model 120.
  • the trained acoustic model 120 is established (S414).
  • the server 100 notifies the communication terminal 200 that the trained acoustic model 120 has been established (S415).
  • the above steps S403 to S415 are the training job for the acoustic model 120.
  • the communication terminal 200 transmits a voice synthesis instruction including the score data of the desired piece of music to the server 100 (S405).
  • the user in S405 is not the creator, but is positioned as a user of the acoustic model 120.
  • the server 100 executes a voice synthesis program to perform voice synthesis using the trained acoustic model 120 established in S414 based on the score data (S416).
  • the synthetic sound waveform 130 generated in S416 is transmitted to the communication terminal 200 (S417). In this voice synthesis, the new sound source ID is used.
  • S416 and S417 together can be said to provide the trained acoustic model 120 (speech synthesis function) trained by the training job to the communication terminal 200 (or the user).
  • the execution of the speech synthesis program in S416 may be performed by the communication terminal 200 instead of the server 100.
  • the server 100 transmits the trained acoustic model 120 to the communication terminal 200.
  • the communication terminal 200 uses the received trained acoustic model 120 to execute speech synthesis processing based on the sheet music data of the desired song with the new sound source ID, and obtains the synthetic speech waveform 130.
  • the training sound waveform is uploaded in S401 before the execution of the training job is requested in S402, but this configuration is not limited to this.
  • the training sound waveform may be uploaded after the execution of the training job is instructed in S404.
  • one or more sound waveforms are selected as a waveform set from a plurality of sound waveforms (including sound waveforms that have not been uploaded) stored in the communication terminal 200, and in response to the instruction to execute the training job, sound waveforms that have not been uploaded from among the selected sound waveforms may be uploaded.
  • FIG. 5 is a flowchart illustrating a training process for the acoustic model 120, and a flowchart illustrating a display process for a characteristic distribution of a sound waveform used in training the acoustic model 120.
  • the process in FIG. 5 is executed by the system.
  • the sound waveform used in training is not made public, but the characteristic distribution of the sound waveform is made public and can be viewed by a third party.
  • a sound waveform is selected by the user from among the sound waveforms uploaded to the server 100.
  • the system executes a training job using the selected sound waveform.
  • the system (server 100) identifies multiple sound waveforms to be used in training the acoustic model 120 in response to the user's selection operation (S501).
  • the system (server 100) establishes a trained acoustic model 120 by executing a training job of the base acoustic model 120 using the identified multiple sound waveforms (S502). Then, the system (server 100) links (associates) history data including an identifier of the sound waveform used in training the established acoustic model 120 to the acoustic model 120 (S503).
  • various data linked to the acoustic model is provided in association with the acoustic model to a third party who obtains the acoustic model from a cloud storage.
  • the storage may or may not be integrated with the server 100.
  • the third party can obtain and confirm an overview of the characteristic distribution of the sound waveform used in training the acoustic model based on the history data (identifier).
  • the sound waveforms used to train the acoustic model 120 are protected so that they cannot be accessed from the communication terminals 300 of users other than the creator who uploaded the sound waveforms.
  • the server 100 can use the identifier to identify and acquire the sound waveforms used to train the trained acoustic model 120, regardless of whether the user uploaded them, for the purpose of analyzing the sound waveforms described below.
  • the system analyzes multiple sound waveforms indicated by identifiers included in the history data, and obtains a characteristic distribution for multiple characteristics possessed by the sound waveforms.
  • the characteristic distribution is, for example, a histogram-style distribution in which the characteristic values of the object showing the distribution are on the x-axis and y-axis, and the data amount of the sound waveform at each characteristic value on the x-axis and y-axis is on the z-axis.
  • an acoustic model 120 and a characteristic type are selected by the user.
  • the system displays the characteristic distribution of the sound waveform identified by the historical data of the selected acoustic model 120 on the display of the UI of the user's communication terminal 200 (also called the system display).
  • the system selects one acoustic model 120 from among multiple acoustic models (S511).
  • the system selects a characteristic type to display from among multiple characteristic types (S512). Either one or multiple types may be selected here.
  • the characteristic type refers to the type of multiple characteristics possessed by the sound waveform used to train the acoustic model 120.
  • the multiple characteristics possessed by the sound waveform are pitch, intensity, melody, duration, and style. The user selects one or more characteristics from these characteristics by the above selection operation.
  • the above styles include singing styles and performance styles.
  • Singing styles are ways of singing.
  • Performance styles are ways of performing.
  • singing styles include neutral, vibrato, husky, fly, growl, etc.
  • Performance styles include neutral, vibrato, pizzicato, spiccato, flageolet, tremolo, etc. for bowed string instruments, and neutral, position, legato, slide, slap/mute, etc. for plucked string instruments.
  • Performance styles include neutral, staccato, vibrato, trill, etc. for the clarinet.
  • the above vibrato refers to a singing style or performance style that makes heavy use of vibrato. The pitch, volume, timbre, and dynamic behavior of these in singing or performing vary overall depending on the style.
  • the system (server 100) obtains the characteristic distribution of the waveform type selected in S512 by analyzing each of the multiple sound waveforms indicated by the identifiers included in the history data, and synthesizes the characteristic distributions of the multiple sound waveforms to obtain one synthesized characteristic distribution (S513). For example, the system (server 100) obtains pitch-related characteristic distributions A and B for sound waveforms A and B indicated by identifiers included in the history data, and synthesizes (accumulates) the data amounts of sound waveforms A and B at each pitch. The system displays the synthesized characteristic distribution for the selected type (S514). The display of the characteristic distribution is one example of displaying information related to the characteristic distribution.
  • the system obtains the characteristic distribution of the two or more types by analyzing each sound waveform in S513, synthesizes the characteristic distributions for the multiple sound waveforms by type, and displays the synthesized characteristic distribution for the two or more types in S514.
  • the server 100 displays information related to the characteristic distribution of all sound waveforms used to train the acoustic model 120 selected by the user.
  • the synthesized characteristic distribution corresponds to the capabilities that the acoustic model 120 has acquired through its training.
  • the history data in S503 includes identifiers of all sound waveforms used in that training.
  • the training in S502 is performed based on an existing trained acoustic model 120
  • the history data in S503 includes identifiers of all sound waveforms used in that training and identifiers of all sound waveforms used in training the acoustic model 120 on which it is based.
  • the attribute data linked to the trained acoustic model 120 includes identifiers of all sound waveforms used in all training from the initial model to the establishment of that acoustic model 120 (all sound waveforms used in training the acoustic model).
  • FIG. 6 shows an example of the characteristic distribution displayed in S514 of FIG. 5.
  • two characteristic types "pitch” and "intensity” are selected in S512.
  • Screen 140 in FIG. 6 displays a graph showing the characteristic distribution of "pitch” and "intensity” synthesized for multiple sound waveforms included in the history data.
  • the screen 140 shown in FIG. 6 is provided by the system (server 100) and is displayed on the display of the system (communication terminal 200).
  • the screen 140 includes a two-dimensional display section 141, a first axis display section 142, a second axis display section 143, and a data amount bar 144.
  • the first axis display unit 142 displays a curve showing the amount of data of the sound waveform for each value of the first characteristic on the first axis. Since the first characteristic in this embodiment is pitch, the unit of the first axis is [Hz].
  • the second axis display unit 143 displays a curve showing the amount of data of the sound waveform for each value of the second characteristic on the second axis. Since the second characteristic in this embodiment is intensity (volume), the unit of the second axis is [Dyn.].
  • the two-dimensional display section 141 is a two-dimensional distribution of the amount of data in an orthogonal coordinate system using a first axis and a second axis.
  • the amount of data of the sound waveform at each value on the first axis and the second axis is displayed in a manner corresponding to the classification of the amount of data.
  • the data amount bar 144 indicates the scale of the manner corresponding to the classification of the amount of data.
  • the data amount of the sound waveform is divided into a first section of 0 [sec], a second section of more than 0 [sec] and less than or equal to 20 [sec], a third section of more than 20 [sec] and less than or equal to 100 [sec], and a fourth section of more than 100 [sec] and less than or equal to 140 [sec].
  • the first to fourth sections are displayed in different ways. For example, they may be displayed in different colors. For example, the first section may be displayed in "black”, the second section may be displayed in "blue”, the third section may be displayed in "green”, and the fourth section may be displayed in "yellow”.
  • the first section may be displayed in "black”
  • the second section may be displayed brighter than the black
  • the third section may be displayed brighter than the second section
  • the fourth section may be displayed brighter than the third section.
  • More or fewer sections may be displayed using more or fewer sections. Different divisions may be expressed not only by differences in color or brightness, but also by differences in hatching, shape, blur, etc.
  • the acoustic model training system 10 makes it easier for the user to identify the training sound waveforms to be used in training by displaying a graph showing the characteristic distribution corresponding to the sound waveforms used in training the current acoustic model 120 or sound waveforms that are candidates for use in training the acoustic model 120.
  • Fig. 7 is a flow chart illustrating a method for displaying the distribution of characteristics of a sound waveform, similar to the display method of Fig. 5. In the following description, similarities between the two methods will be omitted, and differences between the two methods will be mainly described.
  • a sound waveform is selected by the user, as in FIG. 5.
  • the system executes a training job using the selected sound waveform.
  • S701 and S702 in FIG. 7 are the same as S501 and S502 in FIG. 5.
  • the system (server 100) analyzes each of the multiple sound waveforms used in the training to obtain multiple types of characteristic distributions, synthesizes them by type, and obtains a synthesized characteristic distribution of multiple types (S703).
  • the system (server 100) determines whether the acoustic model that is the basis of the training in S702 is an untrained initial model (S704).
  • the system (server 100) synthesizes, for each type, the multi-type characteristic distribution acquired in S703 and the multi-type characteristic distribution indicated by the history data of the trained acoustic model that is the basis of the training (S705). After the synthesis, the system (server 100) links the multi-type characteristic distribution synthesized in S705 to the acoustic model 120 established in S702 as history data (S706).
  • the system skips the processing of S705 and links the multi-type characteristic distribution acquired in S703 to the acoustic model 120 established in S702 as history data (S706).
  • the history data is used to obtain the characteristic distribution of all sound waveforms used in training the trained acoustic model 120.
  • the history data linked to the acoustic model 120 in S503 of FIG. 5 is an identifier indicating all sound waveforms used in the training.
  • the system analyzed each sound waveform indicated by the identifier, obtained the characteristic distribution of those sound waveforms, and synthesized them (S513).
  • the system links the synthesized characteristic distribution of all sound waveforms used in the training for multiple types to the trained acoustic model 120 as history data (S706). Therefore, in the display process of FIG. 7, the system does not analyze any sound waveforms, but obtains the characteristic distribution of the selected type for the acoustic model 120 (S713) and displays it on the screen (FIG. 6) (S714).
  • a third party can obtain and view the characteristic distribution for each acoustic model 120.
  • steps S711 to S714 are basically the same process as steps S511 to S514.
  • FIG. 10A An acoustic model training system 10A according to the second embodiment will be described with reference to Figures 8 to 13.
  • the overall configuration of the acoustic model training system 10A and the block diagram relating to the server are the same as those of the acoustic model training system 10 according to the first embodiment, and therefore their description will be omitted.
  • description of the same configuration as in the first embodiment will be omitted, and differences from the first embodiment will be mainly described.
  • Figures 1 to 4 when describing the same configuration as in the first embodiment, reference will be made to Figures 1 to 4, and the alphabet "A" will be added after the reference numerals shown in these figures.
  • FIG. 8 is a flowchart illustrating an example of an acoustic model training process executed by the system 10 A.
  • a configuration is described in which a range in which training data is insufficient for a specific characteristic distribution is detected, and training is performed using data suitable for filling that area.
  • the system (server 100A) selects an acoustic model 120A and one or more characteristic types in response to an instruction from the communication terminal 200A (or a user) (S801).
  • the system (server 100A) acquires a characteristic distribution of the selected type of the selected acoustic model 120A, and detects a deficiency range in training for the acoustic model 120A (S802).
  • the system acquires history data linked to the selected acoustic model 120A, and acquires a characteristic distribution of the selected type of the sound waveform used in training the acoustic model based on the history data.
  • the system detects, for the acquired characteristic distribution of each type, the range of characteristic values that require training for that type (required range) in which the amount of data is smaller than a threshold as a deficient range for that type.
  • the system may compare the acquired characteristic distribution of each type with a distribution of reference characteristic values for that type (reference distribution), and detect the range in which the characteristic distribution of that type is smaller than the reference distribution as a deficient range.
  • the required range and threshold value for each type, or the reference distribution may be determined, for example, based on the characteristic distribution of that type of an arbitrary piece of music selected by the user, or may be determined based on the characteristic distribution of that type of an existing trained acoustic model.
  • the system queries the user as to whether or not the shortage range should be displayed on screen 140 (FIG. 6) (S803).
  • This query includes an inquiry as to whether the shortage range should be displayed in text (text display button) or in graph form (graph display button). If the user selects text display (by operating the text display button), the system displays the shortage range in text on the screen (S804).
  • the system displays the corresponding shortfall range in a graph on the screen (S805). If the user determines that it is not necessary to display the corresponding shortfall range (if neither the text display button nor the graph display button is operated), the system proceeds to the next step (S806) without displaying S804 and S805.
  • FIG. 9 An example of the graph display of S805 is shown in FIG. 9.
  • the detected deficient range of the acoustic model 120A is displayed surrounded by a frame.
  • the deficient range happens to be triangular in shape, so the deficient range is surrounded by a triangular frame.
  • This frame allows the user to confirm the upper and lower limits of the deficient range in the first characteristic (pitch) and the second characteristic (intensity).
  • both the upper and lower limits of the deficient range are displayed, but only one of the upper and lower limits may be displayed.
  • Screen 140A shown in FIG. 9 is provided by the system (server 100A) and is displayed on the display of the system (communication terminal 200A). Since the characteristic distribution shown in FIG. 9 lacks data in the high pitch range and low intensity range, a message (“Data replenishment required") is displayed on screen 140A to inform the user of the missing range.
  • the screen 140A and message shown in FIG. 9 are merely an example and may be displayed in other ways.
  • the system may display information related to the missing range (e.g., the pitch or intensity included in the missing range) in text on the display.
  • the system may display a representation of the missing sound signal (such as staccato or vibrato).
  • the system queries the user as to whether or not training of acoustic model 120A is required (S806).
  • This query includes a query as to whether training should be performed using existing sound waveforms (Train button) or whether new sound waveforms to be used for training need to be recorded (Record & Train button).
  • the system (server 100A) selects a sound waveform from among the sound waveforms already uploaded and stored in server 100A in response to the user's waveform selection operation, and identifies it as the sound waveform to be used for training (S807). Then, the system (server 100A) analyzes the sound waveform to be used for training, obtains a characteristic distribution for one or more characteristics of the sound waveform, and displays it as is if the base is an initial model, or combines it with the characteristic distribution of the base acoustic model if the base is not an initial model, and displays it on the display of the communication terminal 200 in a manner similar to that of FIG. 6, for example (S808).
  • the system identifies a song from the multiple songs that contains a sufficient number of notes with characteristic values in the deficient range and recommends it to the user (S809).
  • the system detects one or more candidate songs from the multiple songs that contain notes with characteristic values in the deficient range, and presents the detected candidate songs to the user.
  • the system analyzes multiple notes contained in the sheet music data of a song that has been released in advance (before the training process shown in FIG. 8 is started), and obtains the characteristic distribution of the sound signal to be played in that song (referred to as the characteristic distribution of that song).
  • the system When the system recommends songs to the user, it displays the characteristic distribution of each recommended song for reference, for example in a manner similar to that shown in FIG. 6 (S810). If multiple songs are recommended, the system may display multiple characteristic distributions for the multiple songs all at once, or may display each song individually.
  • the characteristic distribution displayed in S810 is the characteristic distribution of the song based on the score data of the song that corresponds to the characteristic distribution.
  • the audio waveforms of the music recommended in S809 are audio waveforms recorded before training acoustic model 120A, and are audio waveforms that are intended to be used (or may potentially be used) for that training.
  • Figure 10 shows an example of a screen showing the characteristic distribution of songs displayed in S810.
  • the screen in Figure 10 shows the same missing range as in Figure 9 with a dotted line.
  • the system server 100A
  • the characteristic distribution in Figure 10 is the characteristic distribution of only the sound signal for one song. Therefore, the amount of data for the characteristic distribution in Figure 10 is significantly less than the amount of data for the characteristic distribution of all sound waveforms used to train the acoustic model 120 as shown in Figure 6.
  • the user selects, for example, one of the songs recommended in S809 and S810 and plays it.
  • the system records the played song (S811) and transmits the recording data (new sound waveform) to the server 100A.
  • the system (server 100A) stores the new sound waveform in the user's memory area, similar to existing sound waveforms. Next, sound waveform selection processing is performed in S807.
  • the characteristic distribution of the new sound waveform recorded by the user in S811 does not necessarily match the characteristic distribution of the score data of the song.
  • the characteristic distribution of the entire new sound waveform does not necessarily match the characteristic distribution of FIG. 10.
  • the system (server 100A) selects the sound waveform to be used for training from the existing sound waveforms and the new sound waveform (S807), analyzes the sound waveform to be used for training, and obtains its characteristic distribution (S808).
  • the characteristic distribution obtained here is the characteristic distribution of the sound waveform used in future training for the acoustic model 120A expected to be established in future training using that sound waveform.
  • the system displays the characteristic distribution of all sound waveforms used in training of the expected trained acoustic model 120A.
  • the base model of the training is a trained acoustic model
  • a characteristic distribution obtained by combining the characteristic distribution of the base model and the characteristic distribution of the expected acoustic model 120 is displayed. The user can judge whether the sound waveform identified in S807 is appropriate by looking at this characteristic distribution.
  • the server 100A queries the user as to whether or not training of the acoustic model 120A is required (S812).
  • the system (server 100A) trains the acoustic model 120A selected in S801 using the sound waveform selected in S807, as in S502, and establishes a trained acoustic model 120A (S813).
  • the system (server 100A) acquires the characteristic distribution of all sound signals used in training the established acoustic model 120A, and links it to the acoustic model 120A as historical data (S814).
  • the system provides the user with a GUI for selecting the sound waveform again, and identifies the sound waveform in response to the user's selection operation as shown in S807.
  • the system may inquire of the user as to whether or not a new recording is required. If the user responds to the inquiry by operating the Record & Practice button to indicate that a new sound waveform should be recorded, the above-mentioned processes from S809 to S811 onwards are carried out.
  • the system may recommend a new song based on songs previously used to train acoustic model 120A. For example, the system may recommend another song by the same singer or performer as a song already used for training. The system may recommend a song in the same or similar genre as the song used for training. Furthermore, the system may recommend an entire song or only a portion of a song.
  • the acoustic model training system 10A allows the user to efficiently prepare or select training sound waveforms suitable for areas in the current acoustic model 120A that are lacking in training, and can recommend to the user songs suitable for replenishing data in those areas.
  • FIG. 11 An acoustic model training system 10B according to the third embodiment will be described with reference to FIG. 11.
  • the overall configuration of the acoustic model training system 10B and the block diagram relating to the server are the same as those of the acoustic model training system 10 according to the first embodiment, and therefore their description will be omitted.
  • description of the same configuration as in the first embodiment will be omitted, and differences from the first embodiment will be mainly described.
  • FIGS. 1 to 4 when describing the same configuration as in the first embodiment, reference will be made to FIGS. 1 to 4, and the alphabet "B" will be added after the reference numerals shown in these figures.
  • Fig. 11 is a flowchart executed by the system 10B, illustrating a process of selecting, editing, and playing music so that a user can select, edit, and play desired music.
  • Fig. 11 illustrates a configuration for evaluating the skill level of the acoustic model 120B based on the characteristic distribution of the acoustic model 120B and displaying the skill level to the user.
  • the system (server 100B) selects acoustic model 120B from among multiple trained acoustic models in response to a selection instruction from the user, and obtains the characteristic distribution of acoustic model 120B based on the linked historical data (S1101). Next, the system (server 100B) identifies one or more candidate songs from multiple songs that are likely to match the characteristic distribution obtained in S1101 (S1102), and evaluates the degree of expertise of acoustic model 120B for each candidate song (S1103).
  • Each acoustic model 120B is a model trained from an initial model using sound waveforms of multiple first musical pieces, and at least a portion of the training is trained using sound waveforms of the performance sounds of the first musical piece and the musical score corresponding to the sound waveforms.
  • the acoustic model 120B is a model trained using training data including score features of at least a portion of the musical score of the sound waveforms of the first musical piece used in training in the past, and first acoustic features of the sound waveforms.
  • the acoustic model 120B When the musical score of an unknown second musical piece (not used in training) is input to this acoustic model 120B, the acoustic model 120B generates acoustic features of the second sound (second acoustic features) corresponding to the score features of the second musical piece.
  • the system (server 100B) acquires history data indicating the history of the full tone waveform of the first piece of music used to train the selected acoustic model 120B.
  • the history data linked to the acoustic model 120B may include an identifier of the full tone waveform or a characteristic distribution of the full tone waveform.
  • the system (server 100B) acquires the characteristic distribution of the full tone signal as the characteristic distribution of the acoustic model 120B based on the history data.
  • the characteristic distribution acquired here is the distribution of one or more characteristics designated by the user or predetermined among multiple characteristics of the sound signal.
  • the system may display the characteristic distribution of the acoustic model on the display of the communication terminal 200B.
  • musical score data may be referred to as a "musical score”.
  • the system is provided with sheet music data for a plurality of songs.
  • the system analyzes each of the plurality of songs, acquires the characteristic distribution of the song, and selects from the plurality of songs a song whose characteristic distribution deviates little from the characteristic distribution of the acoustic model 120B, thereby identifying the song as a candidate song (also called a recommended song) likely to match the acoustic model 120.
  • the system may detect the highest note and the lowest note of each of the plurality of songs, select one or more songs whose acquired characteristic distribution of the acoustic model 120B includes the highest note and the lowest note, and identify the song as a candidate song likely to match the acoustic model 120B.
  • the degree of expertise for the piece of music being performed is evaluated based on the acquired characteristic distribution and the score data of that piece of music.
  • the degree of expertise is the degree to which the characteristic distribution of the acoustic model 120B covers the characteristics of the score data. That the characteristic distribution of the acoustic model 120B covers the characteristics of the score data means that the characteristics of the acoustic model 120B are distributed within the range in which the characteristics of the sound signal based on the score data are distributed, in other words, that the acoustic model 120B has already learned sound signals in that range. For example, if both characteristic distributions are superimposed and the characteristic distribution of the score data is inside the characteristic distribution of the acoustic model, the degree of expertise is 100%.
  • the degree of expertise may be evaluated based on the amount of data in the characteristic distribution of the acoustic model 120B at each characteristic value in the range in which the characteristics of the score data are distributed.
  • the degree of expertise may mean the proportion of characteristic values in that range for which the amount of data in the characteristic distribution is greater than a predetermined amount (e.g., 40 seconds). For example, if the proportion of characteristic values in which the amount of data in the characteristic distribution of the acoustic model 120B is greater than a predetermined amount is 80% among all characteristic values in the range of the characteristic distribution of the score data, then the degree of expertise (coverage rate) of the acoustic model is 80%.
  • the degree of expertise may be represented by a numerical value, a meter, or a bar graph.
  • the system may display the characteristic distribution of the acoustic model 120B and the characteristic distribution of the musical score data of the piece of music in an overlapping manner, so that the user can see the display and recognize the degree of expertise of the acoustic model for the piece of music.
  • the system evaluates the proficiency of the acoustic model for the second piece of music identified as a candidate piece of music (second piece of music) based on the score of the piece of music and the characteristic distribution of the acoustic model 120B.
  • the order of execution of S1102 and S1103 may be reversed.
  • the system may first evaluate the proficiency of all of the multiple pieces of music prepared in S1103, and then in S1102, select one or more pieces of music with a high proficiency from among the multiple pieces of music and identify them as candidate pieces.
  • the system may select pieces of music with a proficiency level higher than a threshold from among the multiple pieces of music, and identify one or more pieces of music with a high proficiency from among the selected pieces of music as candidate pieces.
  • the system displays the degree of expertise of the acoustic model 120B for each candidate song (recommended song) in association with the candidate song (S1104).
  • An example of the display of recommended songs and their degrees of expertise is shown in FIG. 12.
  • a number of second songs selected based on the characteristic distribution of the acoustic model 120B are displayed in association with the degree of expertise of the acoustic model 120B for each song, thereby recommending those songs to the user.
  • the GUI 160B shown in FIG. 12 is displayed on the display of the system (communications terminal 200B) and includes a title 161B, a display column for recommended songs, and a selection button 166B.
  • the display column for recommended songs displays each recommended song, radio buttons 162B-165B for selecting the recommended song, and additional information about the recommended song such as the user's preference and genre.
  • the system selects the song in response to the user operation (S1105).
  • the system evaluates the proficiency level of the acoustic model 120B for each note of the series of notes in the score data of the selected song based on the characteristic distribution of the acoustic model 120B (S1106), and displays each note of the song together with the proficiency level for that note on a display of the system (communication terminal 200) (S1107).
  • the system may display a piano roll of the song with an indication of the proficiency level. Since the proficiency level is evaluated for each note, the proficiency level is displayed for each note in the piano roll.
  • FIG. 13 An example of the piano roll displayed in S1107 is shown in FIG. 13.
  • the horizontal axis is "time (sec)" and the vertical axis is "pitch.”
  • note bars 171B are displayed, indicating the pitch and timing of each of a series of notes in the selected piece of music.
  • the note bar 171B for each note is displayed in one of three different modes, for example, depending on the level of proficiency for that note.
  • a densely hatched note bar 172B “Excellent” indicates a high level of proficiency for that note.
  • a sparsely hatched note bar 173B “Fair” indicates a medium level of proficiency for that note.
  • a white note bar 174B "Poor” indicates a low level of proficiency for that note.
  • the note bars are displayed in three levels, "Excellent,” “Fair,” and “Poor,” in descending order of proficiency.
  • the degree of expertise of the acoustic model 120B is evaluated and displayed for each note.
  • the degree of expertise is evaluated for the musical score of each note section of the above piece of music (second piece of music), and is displayed for each note section, as shown in FIG. 13.
  • the proficiency level may differ if the strength is different.
  • the number of proficiency levels for a piece of music is not limited to three, but may be two, four or more.
  • the different categories are not limited to differences in hatching, and may be expressed by differences in color, brightness, shape, blurriness, etc.
  • the arrow pointing from above the bar in FIG. 13 is a cursor 175B that indicates the playback position during playback operation, which will be described later. Furthermore, a skill level meter 176B shown below the graph displays the skill level of the song at the position of the cursor 175B. A play button 178B and a cancel button 179B are displayed below the skill level meter 176B. The system determines whether the user has edited the note bar (S1108) and whether the user has operated the play button 178B (S1110).
  • the server 100B edits the note corresponding to that note bar in the musical score data of the music piece in accordance with the edit operation (S1109).
  • the edit includes changing any of the note's pitch, intensity, melody, duration, and style. For example, if the user moves a note bar vertically, the pitch of the corresponding note changes, and if the user moves it horizontally, the timing of the note changes. If the user changes the length of a note bar, the duration of the corresponding note changes. Furthermore, the user can open a property edit screen for a note bar to change the intensity or style of the corresponding note.
  • the skill level for the edited note is reevaluated again by the processes of S1106 and S1107, and the display for the note (including the skill level) is updated.
  • the system determines in S1110 whether or not the play button has been operated. If the user operates the play button 178B (YES in S1110), the server 100B uses the acoustic model 120B to synthesize a sound waveform according to the score data of the song, and uses the playback device to play back the synthesized sound waveform (S1111). Once playback is complete, the piano roll display is erased and the process of FIG. 11 ends. Upon completion of playback, instead of ending the process of FIG. 11, the system may proceed to S1108 while leaving the piano roll display.
  • the synthesis of the above sound waveforms is synthesis of sound waveforms (vocals or instrument sounds) based on the musical score data of a song obtained by the system (server 100B or communication terminal 200B).
  • a sound waveform is synthesized based on the musical score data in S1111.
  • the synthesis of the sound waveforms may be performed before a playback instruction is given.
  • the synthesis of the sound waveforms may be performed when a song is selected in S1105 or when the musical score data is edited. In this case, a previously synthesized sound waveform is played back in response to the playback instruction in S1110.
  • step S1108 determines whether editing is required. In other words, if the user does not perform any editing operations on the note bars or operate the play button, the server 100B is in a standby state in which it repeats steps S1108 and S1110. If the user operates the cancel button 179B, the system erases the piano roll display and ends the processing in FIG. 11.
  • the user can easily select a piece of music suitable for playback with the selected trained acoustic model 120B based on the characteristic distribution of the selected trained acoustic model 120B.
  • the user can associate each note in the music with the acoustic model 120B and check the degree of expertise of the acoustic model 120B for that note.
  • the user can edit the notes in the music individually while checking the degree of expertise for each of a series of notes in the music.
  • FIG. 14 An acoustic model training system 10C according to the fourth embodiment will be described with reference to FIG. 14.
  • the overall configuration of the acoustic model training system 10C and the block diagram relating to the server are the same as those of the acoustic model training system 10 according to the first embodiment, and therefore their description will be omitted.
  • description of the same configuration as in the first embodiment will be omitted, and differences from the first embodiment will be mainly described.
  • FIGS. 1 to 4 when describing the same configuration as in the first embodiment, reference will be made to FIGS. 1 to 4, and the alphabet "C" will be added after the reference numerals shown in these figures.
  • Fig. 14 is an example of a characteristic distribution of a sound waveform displayed by the system 10C.
  • the characteristic distribution shown in Fig. 14 is similar to the characteristic distribution shown in Fig. 6, but differs from the system 10C in that the system 10C displays a distribution relating to one characteristic when the other characteristic is within a predetermined range.
  • FIG. 14 shows an example of the volume characteristic distribution displayed on the second axis display unit 143C when the user specifies a condition that the data volume of the sound waveform corresponding to the third section is greater than 100 [sec] and limits the display of the data volume to a range (M1 [Hz] to M2 [Hz]) for pitch that satisfies that condition.
  • the volume distribution of the sound waveform in the range (M1 [Hz] to M2 [Hz]) indicated by diagonal lines on the first axis display unit 142C is displayed on the second axis display unit 143C.
  • the system displays the characteristic distribution of the volume (second characteristic) of the sound signal when the pitch (first characteristic) is within a specified range.
  • the range of the first characteristic is determined based on the amount of data of the sound waveform, but this is not limiting.
  • the range of the first characteristic i.e., the lower limit M1 and the upper limit M2, may each be set to any value by the user. Only one of the lower limit M1 and the upper limit M2 may be specified. Alternatively, the range of the second characteristic may be specified, and the distribution of the first characteristic of the sound waveform within that range may be displayed.
  • the acoustic model training system 10C allows the user to check the characteristic distribution of the second characteristic of the sound signal (training data) that is of interest in relation to the first characteristic. For example, it is possible to check which sound waveform of which strength is insufficient for training in the range of pitches lower than the upper limit M2. Or, it is possible to check which sound waveform of which pitch is sufficient for training in the range of intensity higher than the lower limit M1.
  • FIG. 15 An acoustic model training system 10D according to the fifth embodiment will be described with reference to FIG. 15.
  • the overall configuration of the acoustic model training system 10D and the block diagram relating to the server are the same as those of the acoustic model training system 10 according to the first embodiment, and therefore their description will be omitted.
  • description of the same configuration as in the first embodiment will be omitted, and differences from the first embodiment will be mainly described.
  • FIGS. 1 to 4 when describing the same configuration as in the first embodiment, reference will be made to FIGS. 1 to 4, and the alphabet "D" will be added after the reference numerals shown in these figures.
  • Fig. 15 is a flowchart illustrating a music playback process.
  • the acoustic model training system 10D performs voice synthesis while sequentially receiving a portion of the score data of a music piece not stored in the server 100D or the communication terminal 200D as a music stream from an external distribution site.
  • the system cannot calculate the degree of expertise for each series of notes in the music piece in advance. Therefore, in this embodiment, the system (server 100D) calculates and displays the degree of expertise for each note included in the stream in real time based on the stream received at each point in time.
  • the system 10D selects a desired song from among multiple songs in response to a selection operation from the communication terminal 200D (or the user) (S1501).
  • the system (server 100D) analyzes the score of the selected song, obtains the characteristic distribution of the song, compares the characteristic distribution with the characteristic distributions of multiple acoustic models 120D, and identifies one or more acoustic models 120D having a characteristic distribution that can cover the characteristic distribution of the song as candidate models suitable for the song (S1502). In other words, the system recommends an acoustic model 120D suitable for the song depending on the song.
  • the system (server 100D) then obtains the degree of expertise of each candidate model for the song (S1503). The method of evaluating the degree of expertise is performed in the same manner as in the second embodiment (explanation related to FIG. 11), so a detailed explanation will be omitted.
  • the system displays the characteristic distribution of the song, the characteristic distribution of each candidate model, and the degree of suitability of each candidate model for the song on a display of the system (communications terminal 200D) (S1504).
  • the display may show the characteristic distribution of the song and the characteristic distribution of any candidate model designated by the user in a graph as shown in FIG. 6, and the degree of suitability of the candidate model for the song in text format, superimposed on or alongside the graph display.
  • the graph display and the text display may also be displayed in parallel.
  • the user refers to the characteristic distribution and the degree of expertise displayed in S1504 and selects one of the acoustic models 120D.
  • the system (server 100D) selects that acoustic model 120D in response to the selection operation (S1505).
  • the system queries the user as to whether or not the song selected in S1501 or the acoustic model 120D selected in S1505 needs to be changed (S1506), and whether or not the song needs to be played (S1507).
  • the system again displays the above characteristic distribution and skill level on the display of the system (communication terminal 200D) (S1504), and selects one of the acoustic models 120D in response to the new selection operation by the user (S1505).
  • the system server 100D selects one of the songs in response to the new selection operation by the user (S1501).
  • step S1507 the system judges whether or not the song needs to be played. If the user instructs playback of the song (by operating the play button) ("YES" in S1507), the process flow proceeds to the song playback step. On the other hand, if the user does not instruct playback in S1507 (by not operating the play button) ("NO" in S1507), the system returns to step S1606 and judges again whether or not the above-mentioned change is needed. In other words, if the user does not instruct either a change or playback, the system is in a standby state where steps S1506 and S1507 are repeated. In this way, the process flow loops, allowing the user to reselect the song and the acoustic model to be used before playing the song. If the user instructs cancellation in S1507, the system ends the series of process flows shown in FIG. 15.
  • the system (server 100D) acquires a stream of the music (S1508). Specifically, when the user issues a playback instruction, the system requests the music from the distribution site in response to the playback instruction. In response to the request, the distribution site begins streaming the music to the system (server 100D). The streaming of each portion of the score data is performed continuously from the beginning to the end of the music. That is, in S1508, the system (server 100D) sequentially receives portions of the score of the music (second music). Note that the distribution site may stream the music to the communication terminal 200D, and the communication terminal 200D may sequentially transfer the received portions of the score to the server 100D.
  • the system (server 100D) performs real-time generation of the second sound using the selected acoustic model 120D and displays the degree of expertise of the acoustic model 120 in parallel each time it acquires a stream (portion) of the music piece (S1509, S1510). In parallel with the real-time generation, the system (server 100D) acquires (evaluates) in real time the degree of expertise of the acoustic model 120D for the portion of the score based on the portion of the score received and the characteristic distribution of the acoustic model 120D (S1509).
  • the server 100D processes the portion of the score using the acoustic model 120D to generate second acoustic features corresponding to the portion in real time, synthesizes and plays a sound waveform (second sound) in real time based on the second acoustic features, and displays the acquired degree of expertise in real time (S1510).
  • Fig. 16 is a diagram for explaining a project overview of a service according to an embodiment of the present invention. An explanation of the project overview is described in Fig. 16. The following items are described as "project overview”. ⁇ Purpose ⁇ Basic Functions ⁇ Additional Information
  • the "Objective” section includes the following: - VOCALOID singing voice synthesis technology: Prototyping and evaluation of a service that allows users to create AI voicebanks. - Identifying technical issues (tolerance to diverse inputs, calculation time, etc.). - Identifying possible social applications and issues (possibility of users attempting unexpected applications or misuse).
  • the "Basic Functions” section includes the following: ⁇ VOCALOID: A web service that uses machine learning to create an AI voice bank when you upload your singing voice data.
  • Fig. 17 is a diagram for explaining the background of a service according to an embodiment of the present invention. An explanation of the background is described in Fig. 17. The following items are described as "background".
  • A Previously, only companies were able to produce VOCALOID voicebanks.
  • B VOCALOID: It is desirable to enable individuals to create voicebanks using AI.
  • FIG. 18 is a diagram explaining an overview of the functions of a service according to one embodiment of the present invention.
  • a "Voctrain Function Overview" is described.
  • Voctrain is the name of a service according to one embodiment of the present invention.
  • FIG. 18 an example of a user interface provided in the service is shown.
  • the "Voctrain function overview" in FIG. 18 includes the following contents. 1. Users can upload and store multiple WAV files.
  • FIG. 19 is a diagram explaining an overview of the functions of a service according to one embodiment of the present invention.
  • the "Voctrain Function Overview" is described.
  • FIG. 19 an example of a user interface provided in the service is shown.
  • the "Voctrain function overview" in FIG. 19 includes the following contents. 2. Users can train VOCALOID: an AI voicebank. - Select multiple WAV files that you have uploaded and stored and run a training job. - It is possible to run the program multiple times by changing the file combination and various conditions.
  • FIG. 20 is a diagram explaining the functional overview of a service according to one embodiment of the present invention.
  • the "Voctrain Functional Overview" is described.
  • FIG. 20 an example of a user interface provided in the service and a sound waveform downloaded to a dedicated application (dedicated app) is shown.
  • the "Voctrain function overview" in FIG. 20 includes the following contents. 3. After completing the training, you can download the voicebank and sample synthesized voices. ⁇ You can synthesize any singing voice by using a dedicated app on a local PC.
  • Figure 20 shows a screen displaying the downloaded data (DL data) in a dedicated app.
  • Fig. 21 is a diagram for explaining implementation in a service according to an embodiment of the present invention. An explanation of implementation is described in Fig. 21. The following items are described as "implementation”. ⁇ Implementation on AWS (Amazon Web Service).
  • the "Implementation on AWS” section includes the following items: ⁇ Major services used ⁇ Storage of personal information
  • the "Major services used” section includes the following: ⁇ EC2 (Web server, machine learning) ⁇ S3 (audio data, learned data storage) ⁇ AWS Batch (job execution) ⁇ RDS (database of file lists, user information, etc.) ⁇ Route53 (DNS) ⁇ Cognito (user authentication) ⁇ SES (notification email delivery)
  • FIG. 22 is a diagram illustrating the system configuration of a service according to one embodiment of the present invention.
  • audio files uploaded by general users are stored in the training data storage.
  • the audio files stored in the training data storage are copied (data copy) to the ECS (Elastic Container Service), and acoustic model training is performed in the ECS.
  • the results are output.
  • the output results include trained voice bank files and sample synthetic sounds.
  • the output results are transferred to a web server (EC2 web server) directly or via a load balancer (ALB load balancer).
  • Fig. 23 is a diagram for explaining a future concept of a service as a commercial service according to an embodiment of the present invention.
  • Fig. 23 describes the future concept of a commercial service. The following items are described as "future concept of a commercial service”.
  • C Users buy and sell VOCALOID: AI voicebanks on the web.
  • FIG. 24 is a diagram for explaining the structural image of a service according to one embodiment of the present invention.
  • the voicebank production and sales service is a business in which a commission is received from the proceeds of voice sales.
  • Users are voice providers and music producers.
  • a voicebank learning server and a voicebank sales site are implemented as a business.
  • the voice bank sales site includes a production page and a sales page.
  • Voice providers provide (upload) singing audio to the production page.
  • the production page asks the voice provider for permission to use the singing audio for research purposes.
  • the voice bank is provided to the music producer from the sales page.
  • the operator receives sales commission from the voicebank sales site as revenue.
  • the voice provider receives revenue equal to the purchase price minus the commission (sales commission).
  • the singing audio provided by the voice provider is provided to the voicebank learning server from the production page.
  • the voicebank learning server provides the singing audio and voicebank that have been approved for research use to the business operator.
  • the business operator bears the server operating costs of the voicebank learning server and reflects the business operator's research results in the voicebank learning server.
  • the voicebank learning server provides the production page with a voicebank obtained based on the provided singing audio.
  • the present invention is not limited to the above embodiment, and can be modified as appropriate without departing from the spirit of the invention.
  • the embodiment of the present invention may have the following configuration.
  • a method for controlling training of an acoustic model comprising: A plurality of waveforms are uploaded from a terminal to a cloud in advance, a desired waveform is selected by the terminal from the uploaded waveforms, and in response to an instruction to start a training job for an acoustic model, the selected waveform is used in the cloud to train the acoustic model, and the trained acoustic model is provided to the terminal. Training of acoustic models in the cloud (server) is efficiently controlled from a terminal (device). Networked machine learning systems.
  • Prior Art Training the acoustic model in the cloud The terminal uploads the training waveforms to the cloud. - The cloud trains an acoustic model using the uploaded waveform and provides the trained acoustic model to the terminal. -Waveforms must be uploaded to the terminal each time training is conducted.
  • One or more servers Includes a single server and a cloud consisting of multiple servers.
  • First device, second device These are not specific devices, but rather the device used by the first user and the device used by the second user is the second device. When the first user is using his/her smartphone, it is the first device, and when the first user is using a shared computer, it is the first device.
  • a system for training an acoustic model to generate acoustic features connected to a network.
  • at least a first device of a first user At least a first device of a first user; One or more servers; Including, The first device, under control of the first user, A plurality of waveforms are uploaded to the one or more servers in advance; selecting a set of waveforms from the uploaded waveforms; Instructing the one or more servers to launch a training job for the acoustic model;
  • the one or more servers in response to a start instruction from the first device, running a training job of the acoustic model using the set of waveforms;
  • the acoustic model trained by the training job is provided to the first device.
  • (5) In the machine learning system of (4), further comprising a second device of a second user connected to the network;
  • the first device under control of the first user, Selectively instructing the one or more servers to publish a desired training job among the plurality of executed training jobs;
  • the one or more servers in response to the instruction to publish, Information regarding the training job that is instructed to be selectively made public among the plurality of training jobs being executed is provided to the second device.
  • the one or more servers in response to a start instruction from the first device, Charging the first user for the execution of the training job; Execution of the acoustic model training job and provision of the trained acoustic model to the first device is performed if the charging is successful.
  • the first device is installed in a room rented by the first user, and the compensation for the execution of the training job is included in the rental fee for the room.
  • the room is a soundproof room equipped with headphones for playing back the accompaniment and a microphone for collecting sound.
  • the one or more servers Analyzing the uploaded plurality of waveforms; Based on the analysis result, a song suitable for the first user is selected; Information indicative of the selected song is provided to the first device.
  • the analysis result indicates one or more of the first user's preferred range of playing, the first user's favorite music genre, and the first user's favorite playing style.
  • Such an interface is provided to a user as a precursor to running a training job using a sound waveform selected by the user from a plurality of sound waveforms.
  • This disclosure assumes that waveforms are uploaded, but the essence of it is to train using a waveform selected by the user from the uploaded waveforms, so the expression "pre-registered" is used since it only needs to exist somewhere in advance. In an actual service, it is highly likely that IDs will not be assigned on a device-by-device basis, but rather on a user-by-user basis.
  • the entity that issues the instructions and the recipient of the trained acoustic model is defined as the "first user.”
  • the progress and completion of training will be made public.
  • users can check the parameters that are being refined through training and listen to the voice that uses the parameters at that point in time.
  • the voicebank creator can complete the training based on the published information. If the cost of the training job is a pay-per-use system, the creator can execute the training while considering the balance between the degree of completion of the training and the cost, so that the creator can have a high degree of freedom in the level of training. General users can enjoy watching the progress of their training and see their voice bank being completed.
  • the present disclosure may be implemented in a karaoke room, in which case the cost of training the job may be added to the rental cost of the karaoke room.
  • Karaoke rooms may be defined as "rented spaces.” This is to avoid limiting interpretation to "rooms," even though it does not assume any specific configuration other than the room.
  • a user account may be associated with a room ID.
  • accompaniment pitch data
  • lyrics text data
  • the recording period may be divided. You may check the recorded audio before uploading.
  • the amount may be determined according to the amount of CP used (fully pay-per-use system), or may be determined based on a basic fee plus a pay-per-use system (online charging).
  • the sound waveform can be recorded and updated in the karaoke room (hereinafter referred to as karaoke room charge).
  • a user account for a service that performs sound waveform updates and training jobs may be associated with a room ID of a karaoke room, thereby identifying a user account for an upload ID that identifies an uploaded sound waveform.
  • the user account may be associated with the room ID when reserving the karaoke room.
  • the period for recording can be specified.
  • Recording can be specified on a song-by-song basis, or a predetermined period within a song can be recorded. Before uploading, the recorded data may be previewed and then judged as to whether or not it is necessary to upload it.
  • a music genre is determined by a song.
  • a music genre may refer to a genre such as rock, reggae, or R&B.
  • a performance style is determined by the way of singing. Performance styles can change even for the same song.
  • a performance style can refer to singing with a smile or singing in a gloomy mood.
  • vibrato means a performance style that uses vibrato a lot, and the pitch, volume, tone, and dynamic behavior of these all change consistently and overall depending on the style.
  • Performance skills refer to singing techniques such as fist pumping. Using AI, it is possible to recognize musical genre, performance style, and playing skill from singing voices. The uploaded sound waveforms can be used to ascertain the range and intensity of sounds that are lacking, and songs that contain the lacking range and intensity of sounds can then be recommended to the user.
  • a display method for an acoustic model trained to generate acoustic features corresponding to unknown input data using training data including first input data and first acoustic features comprising: The acoustic model is provided with historical data relating to the first input data used in training the acoustic model, and a display according to the historical data is performed prior to or during sound generation using the acoustic model. Users can understand the capabilities of the trained acoustic model. Use the training history of the acoustic model.
  • Prior Art Acoustic model training/JP6747489 After basic training of the acoustic model, additional training can be performed if necessary. - It is difficult for users to judge whether the waveforms used for basic training are sufficient. - It is difficult for users to determine what waveforms are best to use for additional training.
  • the user can know the strengths and weaknesses of the acoustic model based on the historical data.
  • a method for displaying information related to an acoustic model the method being implemented by a computer, the acoustic model being trained to generate acoustic features corresponding to unknown second input data using training data including first input data and first acoustic features, and history data related to the first input data used in the training being added;
  • a display is performed according to the history data.
  • the display step displays a learning status of the acoustic model for any feature indicated by the second input data based on the history data. *This shows what input data the acoustic model is familiar with.
  • the proficiency status for which the distribution is displayed relates to any one of the characteristics of pitch, intensity, phoneme, duration, and style indicated by the second input data. * For example, the range of pitch and intensity that you have mastered is displayed. *For example, the styles you are proficient in will be displayed.
  • the display step estimates and displays a degree of expertise of the acoustic model for a piece of music based on second input data generated from the piece of music, based on the second input data and the history data. *Displays whether the acoustic model is good at the music you are trying to generate.
  • the step of estimating and displaying includes: Estimating the strength of the acoustic model for each part (on the time axis) of the song; The estimated skill level is displayed in association with each part of the piece of music. *For example, each note in a piece of music is displayed in a different color depending on the player's level of skill (e.g., blue for strong notes and red for weak notes).
  • the degree of expertise for which the distribution is displayed relates to one or more characteristics of pitch, intensity, melody, duration, and style indicated by the second input data of the music piece.
  • the display step includes: Estimating a degree of proficiency for each piece of music based on the second input data for the plurality of pieces of music and the history data; Among the plurality of songs, songs with high estimated favorite levels are displayed as recommended songs.
  • the display step includes: receiving, in real time, the second input data relating to the sound generation during the execution of the sound generation using the acoustic model; Based on the received second input data and the history data, the skill level of the acoustic model is acquired in real time and displayed.
  • the intensity and pitch of a sound may be represented on the x and y axes, and the level of proficiency at each point may be displayed as a color or a z-axis.
  • the learning status for example, when the second input data is data sung by a male voice, displays the suitability of the learning model for that case in the form of, for example, "xx%.”
  • the mastery level indicates the range of sounds that the user has learned well when the song that the user wants to sing has not yet been specified.
  • the proficiency level is calculated after the song has been decided, according to the range of sounds that the song contains and the user's mastery level in that range of sounds.
  • the degree to which the current voicebank is suitable for that piece of music is judged. For example, it is judged whether the strength and range of the sounds used in that piece of music are sufficiently mastered.
  • the skill level can be determined not only for each song, but also for a certain section within a song. If the playing style is learned, the MIDI data to be recommended can be selected according to the playing style. The music used for learning and music similar to it are selected as recommended music. In this case, if a style has been learned, music that matches that style can be recommended.
  • FIG. 1 A method for training an acoustic model using a plurality of waveforms, comprising: obtaining a characteristic distribution of a waveform that is or has been used in said training, and displaying said obtained characteristic distribution; Users can understand the training status of the acoustic model. Displays the trend of the waveform set used for training.
  • Prior Art Acoustic model training/JP6747489 After basic training of the acoustic model, additional training can be performed if necessary. - It is difficult for users to judge whether the waveforms used for basic training are sufficient. - It is difficult for users to determine what waveforms are best to use for additional training.
  • a computer-implemented method for training an acoustic model with a plurality of waveforms comprising: Obtaining a characteristic distribution of any of the waveforms used or used in said training; The obtained characteristic distribution or information about the characteristic distribution is displayed.
  • the characteristic distribution obtained is a distribution of one or more characteristics of pitch, intensity, melody, duration, and style.
  • the acquired and displayed characteristic distribution is a two-dimensional distribution of first and second characteristics of the plurality of waveforms.
  • obtaining step Detecting first and second characteristics of the plurality of waveforms; obtaining a distribution of the second characteristic of a waveform having a predetermined value of the first characteristic among the plurality of waveforms;
  • display step A distribution of the acquired second characteristic is displayed.
  • the information about the gap indicates a characteristic value of the gap. *The user can recognize the characteristic values of the gap and prepare a waveform to fill it.
  • the training proficiency may be displayed in color on a two-dimensional graph with sound intensity on the horizontal axis and sound range on the vertical axis.
  • a waveform to be used for training is selected (e.g., checked in a checkbox)
  • the characteristic distribution of that waveform can be reviewed. In this way, characteristics that are missing for training can be visually identified.
  • “Gap characteristic value” indicates which sound is missing in the characteristic distribution.
  • "Specify music piece” means recommending a suitable music piece to fill in the missing sounds.
  • [Invention 1-4] Summary of the Invention A method for training an acoustic model that generates acoustic features based on symbols (text or musical score), Analyzing the received waveforms, detecting intervals containing sounds of the target tone, and training the acoustic model using the waveforms of the detected intervals. Establish higher quality acoustic models. Automatic selection of waveforms for training.
  • Prior Art Acoustic model training/JP6747489 After basic training of the acoustic model, additional training can be performed if necessary. - The quality of the acoustic model is significantly affected by the quality of the waveforms used for training. - It is tedious for the user to select the waveforms to be used for training.
  • Training data/JP4829871 Automatically select training data suitable for training a speech recognition model. - This automatically selects voice data to improve the recognition score of a voice recognition model, and cannot be easily applied to selecting voice data suitable for training voice synthesis or singing synthesis.
  • a method for training an acoustic model that generates acoustic features based on a string of symbols comprising: It receives the input waveform, Analyzing the input waveform; Based on the analysis results, multiple sections containing sounds of a specific tone are detected. The acoustic model is trained using the waveforms of the multiple intervals.
  • the training method according to (1) further comprising: Displaying the detected multiple segments along a time axis of the input waveform; At least one of the plurality of sections is adjusted in response to a user operation.
  • the step of training the acoustic model is performed using waveforms of the plurality of segments including the conditioned segment.
  • a training method comprising: The adjustment is any of changing, deleting, and adding a boundary of the one section.
  • a training method comprising: The waveform of the section where the adjustment is to be performed is played back.
  • a training method comprising: In the analyzing step, determining whether or not a sound is present along the time axis of the input waveform; The tone of the waveform in the section that is determined to be voiced is then determined, In the detection step, The plurality of sections in which the determined timbre is the specific timbre are detected.
  • a training method comprising: In the analyzing step, A waveform of the specific tone color is separated from a waveform of at least the section determined to be voiced; The separated waveforms of the multiple sections are used to train the acoustic model.
  • a training method comprising: In the separation step, At least one of accompaniment sounds, reverberation sounds, and noise is removed.
  • a training method comprising: In the analyzing step, determining whether or not the input waveform is at least partially mixed with existing content; In the detection step, A plurality of sections including the specific tone are detected from sections not including the existing content in the input waveform.
  • the present disclosure is a method for training an acoustic model that generates acoustic features for synthesizing a sound waveform when input data is provided.
  • the present disclosure differs from the speech recognition of JP4829871 in that it generates acoustic features based on a symbol string.
  • the acoustic model can be trained efficiently using only the sections containing the desired timbre (making it possible to train while excluding unnecessary regions, noise, etc.). By adjusting the section of the selected waveform, the acoustic model can be trained using a section according to the user's wishes. When determining whether or not there is sound, the determination may be made based on a certain threshold value for the volume. For example, a "sound section" may be a section where the volume level is equal to or higher than a certain level.
  • FIG. 1-5 Summary of the Invention
  • a plurality of acoustic models each of which has additional information attached thereto, are provided to a user; one of the plurality of acoustic models is selected by the user; a reference acoustic signal is prepared by the user; the acoustic model is trained using the reference acoustic signal prepared by the user under the condition that the additional information of the acoustic model selected by the user indicates permission for retraining; and the trained acoustic model obtained as a result of the training is provided to the user;
  • the creator selectively supplies a part of a plurality of acoustic models as a base model, and the user can easily create an acoustic model using the base model.
  • the creator selectively supplies a portion of the created acoustic model as a base model, The user can easily create a new acoustic model using the provided base model.
  • Prior Art Acoustic model training/JP6747489 After basic training of the acoustic model, additional training can be performed if necessary. - The quality of the acoustic model is significantly affected by the quality of the waveforms used for training. - It is tedious for the user to select the waveforms to be used for training.
  • the second party re-trains the first model published by the first party to generate a second model and publish it.
  • the revenue is split between the first and second parties.
  • the present invention can be made public so that it is not used for re-learning.
  • the creator selectively supplies a portion of the created acoustic model as a base model, The user can easily create a new acoustic model using the provided base model.
  • the creator selectively supplies a part of a plurality of acoustic models as a base model, and the user can easily create an acoustic model using the base model.
  • the additional information includes a permission flag indicating whether the model can be used as a base model for retraining or not.
  • a different training process is defined for each of the plurality of acoustic models;
  • the additional information is procedure data indicating a training process of the one acoustic model,
  • the first acoustic model is retrained by performing a training process as indicated by the procedural data.
  • Each piece of additional information indicates the features of the corresponding acoustic model
  • the selection step Analyzing a characteristic of the reference acoustic signal;
  • the one acoustic model is selected from the plurality of acoustic models based on the analyzed characteristics and features indicated by the additional information of each acoustic model.
  • the one acoustic model is selected based on the generated acoustic signals.
  • Any one of the acoustic models can be selected depending on the acoustic signal generated by each acoustic model.
  • the selection step Analyzing a characteristic of the reference acoustic signal and a characteristic of each of the plurality of acoustic signals;
  • the one acoustic model is selected from the plurality of acoustic models based on the characteristics of the reference acoustic signal and the characteristics of each of the acoustic signals.
  • the plurality of acoustic models are created by one or more creators, Each creator sells (to the user) the acoustic model that he or she trained and created, along with additional information indicating whether or not it can be used as the base model.
  • the plurality of acoustic models are obtained by the user purchasing the plurality of sold acoustic models.
  • a user can sell (to another user) an acoustic model that he or she has retrained, specifying (with him or her as the creator) that it may or may not be used as a base model.
  • (9) In the method of providing (7), further comprising: The user sells the provided retrained acoustic model to another user, with the user acting as the creator. Calculating a degree of change of the retrained acoustic model from the one acoustic model in the retraining; When the retrained acoustic model is sold, the fee is shared (between the user and the creator of the base model) based on the calculated degree of change.
  • the additional information indicating availability that is assigned to the acoustic model by the creator indicates a share of the creator, moreover,
  • the user sells the provided retrained acoustic model to another user, with the user acting as the creator.
  • the price is shared (between the user and the creator of the base model) based on the share indicated by the additional information added to the one acoustic model.
  • the creator of the base model can receive a portion of the revenue when a user's retrained acoustic model is sold.
  • the plurality of acoustic models includes an untrained acoustic model that is annotated with additional information indicating that it can be used as a base model.
  • the plurality of acoustic models include a universal acoustic model for each timbre type, which is provided with additional information indicating that the model can be used as a base model and which is provided with basic training for the timbre type.
  • the user can start re-learning using a universal acoustic model that corresponds to the desired timbre type.
  • the different acoustic models may have different neural networks (NNs), different NN connection relationships, different NN sizes, different depths, etc. Not knowing the training process between different acoustic models means that the retraining is not possible.
  • the "procedure data" may be data indicating the process itself, or may be an identifier capable of identifying the process.
  • acoustic features generated by inputting music data (MIDI) that is the source of the "reference acoustic signal” that is a training sound waveform into the acoustic model may be used.
  • the creator of the original acoustic model may add additional information to the acoustic model that he or she created to determine whether or not the model can be used as a base model.
  • the acoustic model may be made available for sale or purchase.
  • an interface for allowing the creator to add the first additional information may be provided.
  • a user who trains an acoustic model may provide additional information to the trained acoustic model that determines whether the model can be used as a base model for training.
  • the compensation may be calculated based on the degree of change in the acoustic model due to training.
  • the share may be predetermined by the original acoustic model creator. As long as an identifier indicating that the "initialized acoustic model" is assigned to the "initialized acoustic model,” the identifier may be specified.
  • [Constituent Feature 1] A training method that provides a first user with an interface that allows the user to select one or more sound waveforms for executing a first training job from a plurality of pre-registered sound waveforms for an acoustic model that generates acoustic features.
  • [Constituent Feature 2] A first training job is executed for an acoustic model for generating acoustic features, using one or more sound waveforms selected from a plurality of pre-registered sound waveforms based on an instruction from a first user;
  • a training method comprising providing the first user with the acoustic model trained by the first training job.
  • [Constituent Feature 3] The training method according to claim 2 , further comprising the step of: disclosing information indicating a state of the first training job to a second user different from the first user based on a disclosure instruction from the first user.
  • [Constituent Feature 4] The training method described in claim 2, wherein information indicating the status of the first training job is made available to the first user by displaying it on a first terminal, and information indicating the status of the first training job is made available to the second user by displaying it on a second terminal different from the first terminal.
  • Constituent Feature 5 The state of the first training job changes over time; The training method according to claim 3 or 4, further comprising repeatedly providing information indicating a status of the first training job to the second user.
  • the training method according to claim 2 further comprising the step of: executing the first training job if the charging is successful.
  • the training method according to claim 2 further comprising associating the space ID with an account of the first user for a service that provides the training method.
  • [Constituent Feature 12] receiving pitch data indicating the notes constituting the song and text data indicating the lyrics of the song, which are provided in the space, and audio data recording singing of the song during at least a portion of the period during which the song is provided; The training method according to claim 11 , further comprising storing the voice data as the uploaded sound waveform in association with the pitch data and the text data. [Constituent Feature 13] The training method according to claim 12 , further comprising recording only the voice data for a specified period of the provision period based on a recording instruction from the first user.
  • [Constituent Feature 14] reproducing the received audio data in the space based on a reproduction instruction from the first user; The training method according to claim 12 , further comprising the step of inquiring the first user as to whether or not to register the audio data reproduced in response to the reproduction instruction as one of the plurality of sound waveforms selectable based on an instruction from the first user.
  • [Constituent Feature 15] Analyzing the uploaded sound waveform; Identifying a song corresponding to the first user based on a result obtained by the analysis; The method of claim 2 , further comprising providing information to the first user indicative of the identified piece of music. [Constituent Feature 16] 16.
  • the sound waveforms associated with the training of the acoustic model include sound waveforms used in the training or sound waveforms used in the training.
  • [Constituent Feature 23] Detecting a region that satisfies a predetermined condition in the acquired characteristic distribution; The display method according to claim 18, further comprising displaying the region.
  • the acoustic model is a model trained using training data including first input data and first acoustic features, and generates second acoustic features when second input data is provided; Acquire a sound waveform of history data related to the first input data as a sound waveform related to training of the acoustic model, and acquire the characteristic distribution corresponding to the history data; The method of claim 18 further comprising displaying information about the property distribution corresponding to the historical data.
  • the display method according to claim 26 further comprising displaying a learning status of the acoustic model for any characteristic indicated by the second input data based on the history data.
  • Constituent Feature 28 28.
  • the optional characteristics include at least one of pitch, intensity, timbre, duration, and style characteristics.
  • the display method according to claim 26 further comprising: evaluating the music piece based on the second input data required for generating the music piece and the history data; and displaying a result of the evaluation.
  • [Constituent Feature 30] Dividing the music piece into a plurality of sections on a time axis; The display method according to claim 29 , further comprising: evaluating the music piece for each of the segments; and displaying a result of the evaluation. [Constituent Feature 31] 30.
  • a method for training an acoustic model for generating acoustic features based on a symbol sequence comprising: Detecting a specific section that satisfies a predetermined condition from the sound waveform used for training; A training method for training the acoustic model based on the sound waveform included in the specific section.
  • [Constituent Feature 35] A method for training an acoustic model that generates acoustic features for synthesizing a sound waveform when input data is provided, comprising: Detecting a specific section that satisfies a predetermined condition from the sound waveform used for training; A training method for training the acoustic model based on the sound waveform included in the specific section.
  • [Constituent Feature 36] Detecting a plurality of the specific sections along a time axis of the sound waveform; Displaying the plurality of specific sections; The training method according to claim 34 or 35, further comprising adjusting at least one of the displayed specific sections in the direction of the time axis based on an instruction from a user.
  • [Constituent Feature 37] Detecting a plurality of the specific sections along a time axis of the sound waveform; The training method according to claim 34 or 35, further comprising providing a user with an interface for displaying the plurality of specific sections and adjusting at least one of the plurality of displayed specific sections in the direction of the time axis.
  • the training method of claim 36, wherein the adjustment is a change, deletion, or addition of a boundary of the at least one interval.
  • [Constituent Feature 39] The training method according to claim 36, further comprising playing a sound based on the sound waveform included in the at least one section, the section being a target section for which the adjustment is performed.
  • Detecting the specific section includes: Detecting a sound segment in the sound waveform along a time axis of the sound waveform; determining a first tone color of the sound waveform in the detected sound segment; The training method according to claim 34 or 35, further comprising detecting the specific interval in which the first tone is included in the specific tone. [Constituent Feature 41] 36.
  • the training method further comprising: separating a waveform of the specific tone from a waveform of the specific section in which a sounded section in the sound waveform is detected along a time axis of the sound waveform after the specific section is detected; and training the acoustic model based on the separated waveform of the specific tone instead of the sound waveform included in the specific section.
  • Detecting the specific section includes: determining whether at least a portion of the received audio waveform includes predetermined content; The training method according to claim 34 or 35, further comprising excluding a section that does not include the predetermined content from the specific section.
  • a method for providing an acoustic model for generating acoustic features comprising the steps of: Acquire an acoustic model associated with the first additional information as a target for retraining using a sound waveform; determining whether or not the acoustic model needs to be retrained based on the first additional information;
  • the method for providing an acoustic model includes, when it is determined that retraining is possible, providing a retrained acoustic model obtained by performing retraining on the acoustic model.
  • [Constituent Feature 45] The method for providing an acoustic model according to claim 44, wherein the first additional information is a flag indicating whether or not the acoustic model can be retrained.
  • the first additional information includes procedure data indicative of a process for retraining the acoustic model; 45.
  • the method of claim 44, wherein the retraining of the acoustic model is based on the procedural data.
  • the first additional information includes information indicating a first feature of the acoustic model; 45.
  • the method for providing an acoustic model according to claim 44 wherein when the sound waveform to be used for retraining is identified, the acoustic model to be acquired as a target for retraining is selected from a plurality of acoustic models each associated with the first additional information based on the first feature and a second feature of the sound waveform.
  • the acoustic model to be acquired as a retraining target is selected from a plurality of acoustic models each associated with the first additional information; generating a plurality of acoustic signals based on a plurality of the acoustic features using the plurality of acoustic models by using music data related to the sound waveform; The method of claim 44, further comprising selecting the acoustic model to be obtained for retraining based on the sound waveform and the plurality of acoustic signals.
  • [Constituent Feature 49] The method for providing an acoustic model according to claim 44, further comprising the step of selecting the acoustic model based on the plurality of acoustic features and the sound waveform.
  • the acoustic models are acoustic models created by one or more authors;
  • the retrained acoustic model is associated with second additional information; 51.
  • the method for providing an acoustic model according to claim 44 or 50 wherein the second additional information is information set by a user who has performed retraining, and indicates whether or not the retrained acoustic model for which the user has performed retraining can be retrained.
  • [Constituent Feature 52] Based on the payment procedure by the purchaser who purchased the retrained acoustic model, Calculating a degree of change from the acoustic model to be retrained to the retrained acoustic model; The method for providing an acoustic model according to claim 44 or 50, further comprising calculating a compensation for the acoustic model and a compensation for the retrained acoustic model based on the degree of change.
  • the first additional information includes share information, 51.
  • the plurality of acoustic models includes an initialized acoustic model;
  • the initialized acoustic model is provided with the first additional information enabling the retraining, 45.
  • the method of claim 44, wherein the initialized acoustic model is a model in which variables are replaced by random numbers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

音響モデルの訓練に用いる音波形を特定しやすくすることが可能な音響特徴量を生成するよう、複数の音波形を用いて訓練されることで確立される音響モデルに関連する情報を表示する方法は、音波形が有する複数の特性のうちいずれかの特性であって、前記音響モデルの訓練に使用された複数の音波形の前記特性の分布を取得し、前記特性の分布に関連する情報を表示する。前記特性の分布は、前記使用された複数の音波形を分析して得られる特性の分布であってもよい。

Description

音波形の特性分布に係る表示方法
 本発明の一実施形態は、音波形の特性分布に係る表示方法に関する。
 特定の歌手の声音及び特定の楽器の演奏音を合成する音声合成(Sound Synthesis)技術が知られている。特に、機械学習を利用した音声合成技術(例えば、特許文献1、2)では、ユーザによって入力された楽譜データ及び音響データに基づいて当該特定の音声及び演奏音で自然な発音の合成音声を出力するために、十分に訓練された音響モデルが要求される。
特開2020-076843号公報 国際公開第2022/080395号
 十分に訓練された音響モデルを得るためには、現在の音響モデルにおいて不足した音域を正確に把握し、当該音域を補うために適した訓練用の音波形を選定する必要がある。しかし、上記のように音響モデルにおいて不足した音域を正確に把握することは非常に困難であり、訓練に用いる音波形を効率よく正確に特定することは難しかった。
 本発明の一実施形態の目的の一つは、音響モデルの訓練に用いる音波形を特定しやすくすることである。
 本発明の一実施形態による、音響特徴量を生成するよう、複数の音波形を用いて訓練されることで確立される音響モデルに関連する情報を表示する方法は、音波形が有する複数の特性のうちいずれかの特性であって、前記音響モデルの訓練に使用された複数の音波形の前記特性の分布を取得し、前記特性の分布に関連する情報を表示する。
 本発明の一実施形態によれば、音響モデルの訓練に用いる音波形を特定しやすくすることができる。
図1は、音響モデルの訓練システムの全体構成図である。 図2は、サーバの構成図である。 図3は、音響モデルの説明図である。 図4は、音響モデルの訓練方法を例示するシーケンス図である。 図5は、音響モデルの訓練処理及び音波形の特性分布の表示処理を例示するフローチャートである。 図6は、音波形の特性分布の一例である。 図7は、音波形の特性分布の表示方法を例示するフローチャートの変形例である。 図8は、音響モデルの訓練処理を例示するフローチャートである。 図9は、不足範囲のグラフ表示の一例である。 図10は、ユーザに対して推薦する楽曲の特性分布の一例である。 図11は、楽曲の選択・編集・再生処理を例示するフローチャートである。 図12は、得意度に基づく推薦曲表示の一例である。 図13は、ピアノロール表示の一例である。 図14は、音波形の特性分布の一例である。 図15は、楽曲再生処理を例示するフローチャートである。 図16は、本発明の一実施形態に係るサービスのプロジェクト概要を説明する図である。 図17は、本発明の一実施形態に係るサービスの背景を説明する図である。 図18は、本発明の一実施形態に係るサービスの機能概要を説明する図である。 図19は、本発明の一実施形態に係るサービスの機能概要を説明する図である。 図20は、本発明の一実施形態に係るサービスの機能概要を説明する図である。 図21は、本発明の一実施形態に係るサービスにおける実装を説明する図である。 図22は、本発明の一実施形態に係るサービスのシステム構成を説明する図である。 図23は、本発明の一実施形態に係るサービスについて、商用サービスとしての将来構想を説明する図である。 図24は、本発明の一実施形態に係るサービスの構造イメージを説明する図である。
 以下、本発明の一実施形態における音波形の特性分布に係る表示方法について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明を実施する形態の一例であって、本発明はこれらの実施形態に限定して解釈されない。本実施形態で参照する図面において、同一部分又は同様の機能を有する部分には同一の符号又は類似の符号(数字の後にA、B等を付しただけの符号)が付されており、それらの繰り返しの説明は省略される場合がある。
 以下の実施形態において、「楽譜データ」は、音符の音高及び強度に関する情報、音符における音韻に関する情報、音符の発音期間に関する情報、及び演奏記号に関する情報を含むデータである。例えば、楽譜データは、楽曲の楽譜及び歌詞の少なくとも一方を示すデータである。楽譜データは、当該楽曲を構成する音符の時系列を示すデータであってもよく、当該楽曲を構成する言語の時系列を示すデータであってもよい。
 「音波形」は、音声の波形データである。その音声を発する音源は、音源IDで特定される。例えば、音波形は、歌唱の波形データ及び楽器音の波形データの少なくとも一方である。例えば、音波形は、マイク等の入力装置を介して取り込まれた歌手の歌声及び楽器の演奏音の波形データを含む。音源IDは、その歌手の歌唱の音色、又はその楽器の演奏音の音色を特定する。音波形のうち、音響モデルを用いて合成音波形を生成するために入力される音波形を「合成用音波形」といい、音響モデルを訓練するために用いられる音波形を「訓練用音波形」という。合成用音波形と訓練用音波形とを区別する必要がない場合、これらを併せて、単に「音波形」という。
 「音響モデル」は、楽譜データの楽譜特徴量の入力と、音波形の音響特徴量の入力とを有する。音響モデルとして、例えば、国際公開第2022/080395号に記載された、楽譜エンコーダ、音響エンコーダ、切換部、及び音響デコーダを有する音響モデルが用いられる。この音響モデルは、入力された楽譜データの楽譜特徴量を処理する、又は音波形の音響特徴量と音源IDとを処理することで得られる音声合成モデルである。当該音響モデルは、音声合成プログラムによって使用される音声合成モデルである。当該音声合成プログラムは、その音源IDが示す音色を有し、目的とする音波形の音響特徴量を生成する機能を有し、新たな合成音波形を生成するためのプログラムである。当該音声合成プログラムは、ある楽曲の楽譜データから生成された楽譜特徴量と音源IDとを音響モデルに供給することで、その音源IDが示す音色で、かつその楽曲の音響特徴量を得て、その音響特徴量を音波形に変換する。或いは、音声合成プログラムは、ある楽曲の音波形から生成された音響特徴量と音源IDとを音響モデルに供給することで、その音源IDが示す音色で、かつその楽曲の新たな音響特徴量を得て、その新たな音響特徴量を音波形に変換する。音響モデル毎に、所定数の音源IDが用意される。つまり、各音響モデルは、所定数の音色のうち、音源IDが示す音色の音響特徴量を選択的に生成する。
 音響モデルは、機械学習を利用した、例えば、畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)などを利用した、所定のアーキテクチャの生成モデルである。音響特徴量は、自然音又は合成音の波形の周波数スペクトルにおける発音の特徴を表すものである。音響特徴量が近いことは、歌声又は演奏音における音色又はその時間変化が似ていることを意味する。
 音響モデルの訓練において、参照した音波形の音響特徴量と類似する音響特徴量が音響モデルによって生成されるように、音響モデルの変数が変更される。訓練には、例えば、国際公開第2022/080395号に記載された訓練プログラムP2、楽譜データD1(訓練用楽譜データ)、及び学習用音響データD2(訓練用音波形)が用いられる。複数の音源IDに対応する複数の音声の波形が用いられた基本訓練によって、複数の音源IDに対応する複数の音色の合成音の音響特徴量を生成できるように、音響モデル(楽譜エンコーダ、音響エンコーダ、及び音響デコーダ)の変数が変更される。さらに、(未使用の)新たな音源IDに対応する別の音色の音波形を用いてその訓練済の音響モデルを補助訓練することで、その音響モデルは、新たな音源IDが示す音色の音響特徴量を生成できるようになる。具体的には、XXXさん(複数人)の声の音波形を用いて訓練された訓練済の音響モデルに対して、さらに、新たな音源IDを用いて、YYYさん(一人)の声音の音波形を用いて補助訓練を行うことによって、YYYさんの声音の音響特徴量を生成できる音響モデルになるように、音響モデル(少なくとも、音響デコーダ)の変数が変更される。音響モデルに対する、新たな音源IDに対応する上記のような訓練の単位を「訓練ジョブ」という。つまり、訓練ジョブとは、訓練のプログラムによって実行される一連の訓練プロセスを意味する。
 「プログラム」とは、プロセッサ及びメモリを備えたコンピュータにおいてプロセッサよって実行される命令又は命令群を指す。「コンピュータ」は、プログラムの実行主体を指す総称である。例えば、サーバ(又はクライアント)によってプログラムが実行される場合、「コンピュータ」は、サーバ(又はクライアント)を指す。サーバとクライアントとの間の分散処理によって「プログラム」が実行される場合、「コンピュータ」は、サーバ及びクライアントの両方を含む。この場合、「プログラム」は、「サーバで実行されるプログラム」及び「クライアントで実行されるプログラム」を含む。「プログラム」が、ネットワークに接続された複数のコンピュータで分散処理される場合、「コンピュータ」は、複数のコンピュータであり、「プログラム」は、複数のコンピュータで実行される複数のプログラムを含む。
[1.第1実施形態]
[1-1.システムの全体構成]
 図1は、音響モデル訓練システムの全体構成図である。図1に示すように、音響モデル訓練システム10は、クラウドのサーバ100(Server)、通信端末200(TM1)、及び通信端末300(TM2)を含む。サーバ100及び通信端末200、300は、それぞれネットワーク400に接続されている。通信端末200及び通信端末300は、それぞれネットワーク400を介してサーバ100と通信できる。
 本実施形態において、サーバ100は、音声合成器として機能し、音響モデルの訓練を実施するコンピュータである。サーバ100は、ストレージ110を備えている。図1では、ストレージ110がサーバ100に直接接続された構成が例示されているが、この構成に限定されない。例えば、ストレージ110が直接又は他のコンピュータを介してネットワーク400に接続され、サーバ100とストレージ110との間のデータの送受信がネットワーク400を介して行われていてもよい。
 通信端末200は、音響モデルを訓練するための訓練用音波形を選択し、サーバ100に訓練を実行する指示を送信するユーザ(後述する作成者)の端末である。例えば、通信端末300は、楽譜データを提供してサーバ100に対して合成音波形の生成を要求するユーザの端末である。通信端末200、300は、例えばスマートフォンなどのモバイル用の通信端末、又は、デスクトップ型パソコンなどの据え置き用の通信端末を含む。本発明の訓練方法は、本実施形態で説明するクライアントサーバの構成以外で実施されてもよい。例えば、当該訓練方法は、通信端末及びサーバを含むシステムの代わりに、プログラムを実行できるプロセッサを搭載した、スマートフォン、パソコン、電子楽器、音響機器などの1台の電子機器で実施されてもよい。又は、当該訓練方法は、ネットワークで接続された複数台の電子機器による分散処理として実施されてもよい。
 ネットワーク400は一般的なインターネット、WAN(Wide Area Network)、又は社内LANなどのLAN(Local Area Network)である。
[1-2.音声合成に用いられるサーバの構成]
 図2は、クラウドのサーバの構成を示すブロック図である。図2に示すように、サーバ100は、制御部101、RAM(Random Access Memory)102、ROM(Read Only Memory)103、ユーザインタフェース(UI)104、通信インタフェース105、及びストレージ110を備える。サーバ100の各機能部が協働することによって、本実施形態の音声合成技術が実現される。
 制御部101は、中央処理装置(CPU:Central Processing Unit)、画像処理装置(GPU:Graphics Processing Unit)などのプロセッサ、当該CPU及びGPUに接続されたレジスタやメモリなどの記憶装置などを含む。制御部101は、メモリに一時的に記憶されたプログラムをCPU及びGPUによって実行し、サーバ100に備えられた各機能を実現させる。具体的には、制御部101は、通信端末200からの各種要求信号に応じて演算処理を行い、通信端末200、300にその処理結果を提供する。
 RAM102は、演算処理に必要な制御プログラム、音響モデル(アーキテクチャと変数で構成される)及びコンテンツデータなどを一時的に記憶する。RAM102は、例えばデータバッファとして使用され、通信端末200など、外部機器から受信した各種データを、ストレージ110に記憶させるまでの間、一時的に保持する。RAM102として、例えば、SRAM(Static Random Access Memory)又はDRAM(Dynamic Random Access Memory)などの汎用メモリを用いてもよい。
 ROM103は、サーバ100の機能を実現させるための各種プログラム、各種音響モデル、及びパラメータ等を記憶する。ROM103に記憶されているプログラム、音響モデル、及びパラメータ等は、必要に応じて制御部101によって読み出され、実行ないし利用される。
 ユーザインタフェース104は、グラフィカルな表示を行う表示器、ユーザ操作を受け付ける操作子又はセンサ、及びサウンドを入出力するサウンドデバイスなどを備えている。ユーザインタフェース104は、制御部101の制御によって、その表示器に各種の表示画像を表示し、ユーザからの入力を受け付ける。
 通信インタフェース105は、制御部101の制御によって、ネットワーク400に接続して、ネットワーク400に接続された通信端末200、300などの他の通信装置との間で、情報の送信及び受信を行うインタフェースである。
 ストレージ110は、不揮発性メモリ、ハードディスクドライブなどの恒久的な情報の保持及び書き換えが可能な記録装置(記録媒体)である。ストレージ110は、プログラム、音響モデル、及び当該プログラムの実行に必要なパラメータ等の情報を記憶する。図2に示すように、ストレージ110には、例えば音声合成プログラム111、訓練ジョブ112、楽譜データ113、及び音波形114が記憶されている。これらのプログラム及びデータとして、例えば、国際公開第2022/080395号に記載された音声合成プログラムP1、訓練プログラムP2、楽譜データD1、及び音響データD2がそれぞれ用いられてもよい。ストレージ110に記憶される音波形114は、過去に音響モデル120の訓練に使用された訓練用音波形を含む。このように、過去に訓練に使用された訓練用音波形に係るデータを「履歴データ」という場合がある。
 上記のように、音声合成プログラム111は、楽譜データ又は音波形から合成音波形を生成するためのプログラムである。制御部101が音声合成プログラム111を実行するとき、制御部101は音響モデル120を使用して合成音波形を生成する。なお、当該合成音波形は、国際公開第2022/080395号に記載された音響データD3に対応する。訓練ジョブ112において制御部101によって実行される音響モデル120の訓練プログラムによって実行される訓練プロセスであり、例えば国際公開第2022/080395号に記載されたエンコーダ及び音響デコーダを訓練するプログラムである。楽譜データは、楽曲を規定するデータである。音波形は、歌手の歌声又は楽器の演奏音を示す波形データである。通信端末200、300の構成は、それらの規模などに多少の差はあるが、基本的にはサーバ100と同じである。
[1-3.音声合成に用いられる音響モデル]
 図3は、音響モデルの説明図である。上記のように、音響モデル120は、図2の制御部101が音声合成プログラム111を読み出して実行するとき、その制御部101が実行する音声合成処理において使用される機械学習モデルである。音響モデル120は、音響特徴量を生成するよう訓練されている。音響モデル120には、制御部101によって、入力信号として所望の楽曲の楽譜データ113の楽譜特徴量123又は音波形114の音響特徴量124が入力される。制御部101が、音響モデル120を用いて、音源IDと当該楽譜特徴量123とを処理することによって、当該楽曲の合成音の音響特徴量129が生成される。制御部101は、その音響特徴量129に基づいて、音源IDで特定される歌手が歌唱した又は楽器で演奏した合成音波形130と当該楽曲とを合成して出力する。又は、制御部101が、音響モデル120を用いて、音源IDと当該音響特徴量124とを処理することによって、当該楽曲の合成音の音響特徴量129を生成する。制御部101は、その音響特徴量129に基づいて、当該楽曲の音波形が音源IDで特定される歌手の歌声又は楽器の演奏音の音色に変換された合成音波形130を合成して出力する。
 音響モデル120は、機械学習により確立された生成モデルである。音響モデル120は、訓練プログラムを実行している(つまり、訓練ジョブ112を実行中の)制御部101によって訓練される。制御部101は、(未使用の)新たな音源IDと訓練用音波形とを用いて音響モデル120を訓練し、音響モデル120(少なくとも音響デコーダ)の変数を決定する。具体的には、制御部101は、訓練用音波形から訓練用の音響特徴量を生成し、音響モデル120に新たな音源IDと訓練用の音響特徴量が入力された場合に、合成音波形130を生成する音響特徴量が訓練用の音響特徴量に近づくように、その変数を徐々に繰り返し変更する。訓練用音波形は、例えば、通信端末200又は通信端末300から、クラウドのサーバ100にアップロード(送信)され、ストレージ110にユーザデータとして保存されてもよく、参考データとしてサーバ100の管理者が予めストレージ110に保存したものでもよい。以下の説明において、ストレージ110に保存することをサーバ100に保存する、という場合がある。
[1-4.音声合成方法]
 図4は、音響モデルの訓練方法を示すシーケンス図である。図4に示す音響モデルの訓練方法では、例えば、通信端末200がサーバ100に訓練用音波形をアップロードする。ただし、上記のように、訓練用音波形はその他の方法でサーバ100に予め保存されていてもよい。実際には、通信端末200側の処理TM1の各ステップは通信端末の制御部によって実行され、サーバ100側の処理Serverの各ステップはサーバ100の制御部101によって実行されるが、ここでは説明を単純にするため、通信端末200及びサーバ100を各ステップの実行主体として表現する。以降のフローチャートの説明も同様であるが、実行主体が通信端末かサーバかの区別は本発明にとって全く重要ではないので、フローチャートに関しては、基本的には、通信端末200、300とサーバ100とを含むシステムを実行主体として説明する。
 図4に示すように、まず、通信端末200は、サーバ100のユーザのアカウントにログインした作成者の指示に基づいて、サーバ100に、1又は複数の訓練用音波形をアップロード(送信)する(S401)。サーバ100は、S401で送信された訓練用音波形を、ユーザの記憶領域に記憶する(S411)。サーバ100にアップロードされる音波形は1つでも、複数でもよい。複数の音波形はユーザの記憶領域の複数のフォルダに分けて記憶されてもよい。上記のS401、411は、以下の訓練ジョブを実行するための準備に係るステップである。S411で記憶された音波形を、「音響モデルの訓練に関連する音波形」又は「訓練に使用される音波形」という場合がある。これらの音波形に関するデータを「入力音波形に関する履歴データ」という場合がある。上記の音波形のうち、訓練ジョブに使用された音波形を「訓練に使用された音波形」という場合がある。
 続いて、以下に訓練ジョブを実行するためのステップを説明する。通信端末200は、サーバ100に訓練ジョブの実行を要求する(S402)。S402の要求に応じて、サーバ100は、通信端末200に対して、予め保存された音波形又は保存される予定の音波形のうち訓練ジョブに使用する音波形を選択するためのグラフィカルユーザインタフェース(GUI)を提供する(S412)。
 S412で提供されたGUIに対する作成者(ユーザ)の入力によって、通信端末200は、そのUIの表示器にS412で提供されたGUIを表示する。作成者は、そのGUIを用いて、記憶領域(又は、所望のフォルダ)にアップロードされた複数の音波形から一以上の音波形を訓練用の波形セットとして選択する(S403)。
 S403で波形セット(訓練用音波形)が選択された後に、作成者からの指示に応じて、通信端末200は、訓練ジョブの実行開始を指示する(S404)。その指示に応じて、サーバ100は、選択された波形セットを用いて訓練ジョブの実行を開始する(S413)。
 訓練には、選択された波形セット中の各波形が全部使用されるのではなく、無音区間又はノイズ区間などを除いた有用区間のみを含む前処理済み波形セットが使用される。訓練される音響モデル120(ベースとして指定されたモデル)として、音響デコーダが未訓練である音響モデルを用いてもよい。ただし、訓練される音響モデル120として、複数の基本訓練済みの音響モデル120のうち、波形セットの波形の音響特徴量に近い音響特徴量の生成を学習した音響デコーダを含む音響モデルを選択して用いることで、訓練ジョブにかかる時間やコストを低減できる。何れの音響モデル120を選ぶ場合であっても、基本訓練済みの楽譜エンコーダ及び音響エンコーダが用いられる。
 ベースモデルは、作成者が選択した波形セットに基づいて、複数の訓練済み音響モデル及び初期モデルから、サーバ100によって自動的に決定されてもよく、ユーザからの指示に基づいて決定されてもよい。例えば、通信端末200は、訓練ジョブの実行開始をサーバ100に対して指示する際に、複数の訓練済み音響モデル120及び初期モデルのうち作成者(ユーザ)によって選択されたいずれかのモデルをベースモデルとし、その選択されたベースモデルを示す指定データをサーバ100に送信してもよい。サーバ100は、当該指定データに基づいて、訓練される音響モデル120を指定する。音響デコーダに供給する音源ID(例えば、歌手ID、楽器IDなど)として、未使用の新たな音源IDが用いられる。ここで、作成者を含むユーザは、必ずしも新たな音源IDとしてどの音源IDが使用されたかを知らなくてよい。ただし、訓練済みモデルを使用して音声合成する際には、自動的に、その新たな音源IDが用いられる。新たな音源IDは、ユーザが訓練した音響モデルに、その訓練で学習した音色の音響特徴量を合成させるためのキーデータである。
 訓練ジョブでは、前処理済み波形セットから一部の短波形が少しずつ取り出され、取り出された短波形を用いて音響モデル(少なくとも音響デコーダ)が訓練される、という単位訓練が繰り返される。単位訓練では、前記新たな音源IDと短波形の音響特徴量とが音響モデル120に入力され、それに応じて音響モデル120が出力する音響特徴量と入力した音響特徴量との間の差分が小さくなるよう、音響モデルの変数が調整される。変数の調整には、例えば、誤差逆伝搬法が用いられる。単位訓練を繰り返すことで前処理済み波形セットによる訓練が一通り終わったら、音響モデル120が生成する音響特徴量の品質が評価され、当該品質が所定の基準に達していなければ、その前処理済み波形セットを用いて、再び音響モデルの訓練が行われる。音響モデル120が生成する音響特徴量の品質が所定の基準に達していれば、訓練ジョブは完了し、その時点の音響モデル120が訓練済み音響モデル120となる。
 S413で実行された訓練ジョブが完了することで、訓練済み音響モデル120が確立される(S414)。サーバ100は、通信端末200に、訓練済み音響モデル120が確立されたことを通知する(S415)。上記のS403~S415のステップが、音響モデル120の訓練ジョブである。
 S415の通知の後に、ユーザからの指示に応じて、通信端末200は、所望の楽曲の楽譜データを含む音声合成の指示をサーバ100に送信する(S405)。S405でのユーザは、作成者ではなく、音響モデル120の利用者の位置づけである。それに応じて、サーバ100は、音声合成プログラムを実行して、その楽譜データに基づいて、S414で確立された訓練済み音響モデル120を用いた音声合成を実行する(S416)。S416で生成された合成音波形130は、通信端末200に送信される(S417)。この音声合成では、前記新たな音源IDが用いられる。
 S416及びS417を併せて、訓練ジョブによって訓練された訓練済み音響モデル120(音声合成機能)を、通信端末200(又はユーザ)に提供する、ということができる。S416の音声合成プログラムの実行は、サーバ100の代わりに、通信端末200で行われてもよい。その場合、サーバ100は、当該訓練済み音響モデル120を通信端末200に送信する。通信端末200は、受け取った訓練済み音響モデル120を用いて、前記新たな音源IDで、所望の楽曲の楽譜データに基づく音声合成処理を実行し、合成音波形130を取得する。
 本実施形態では、S402で訓練ジョブの実行を要求する前に、S401で訓練用音波形をアップロードしたが、この構成に限定されない。例えば、訓練用音波形のアップロードが、S404で訓練ジョブの実行を指示した後に行われてもよい。この場合、S403において、通信端末200に記憶された複数の音波形(未アップロードの音波形を含む)から、波形セットとして一以上の音波形が選択され、訓練ジョブの実行指示に応じて、選択された音波形のうち未アップロードの音波形が、アップロードされてもよい。
[1-5.特性分布の表示方法]
 図5は、音響モデル120の訓練処理を例示するフローチャート、及び、音響モデル120の訓練に用いられた音波形の特性分布の表示処理を例示するフローチャートである。図5の処理は、システムによって実行される。本実施形態において、訓練に用いられた音波形は公開されていないが、その音波形の特性分布は公開されており、第3者によって閲覧可能である。
 図5の「訓練処理」では、サーバ100にアップロードされた音波形の中から、ユーザによって音波形が選択される。システムは、選択された音波形を用いて訓練ジョブを実行する。システム(サーバ100)は、ユーザの選択操作に応じて、音響モデル120の訓練に用いられる複数の音波形を特定する(S501)。システム(サーバ100)は、特定された複数の音波形を用いて、ベースとなる音響モデル120の訓練ジョブを実行することで、訓練済みの音響モデル120を確立する(S502)。そして、システム(サーバ100)は、確立された音響モデル120の訓練に用いられた音波形の識別子を含む履歴データを、当該音響モデル120にリンク(関連付け)する(S503)。ここで、履歴データなどの音響モデルにリンクされた各種データは、クラウドのストレージから、その音響モデルを入手する第3者に対し、その音響モデルに関連して提供される。そのストレージは、サーバ100と一体でもよく、一体でなくてもよい。第3者は、その履歴データ(識別子)に基づいて、その音響モデルの訓練に用いられた音波形の特性分布などの概要を取得し、確認できる。しかし、著作権又は個人情報の保護のため、音響モデル120の訓練に用いられた音波形そのものは、その音波形をアップロードした作成者を除くユーザの通信端末300からアクセスできないよう保護される。一方、サーバ100は、後述する音波形の分析のため、そのユーザがアップロードしたか否かに関係なく、その識別子を用いて、訓練済み音響モデル120の訓練に用いられた音波形を、特定し、取得できる。
 システム(サーバ100)は、履歴データに含まれる識別子が示す複数の音波形を分析し、当該音波形が有する複数の特性について、特性分布を取得する。特性分布は、例えば、分布を示す対象の特性値をx軸及びy軸とし、x軸及びy軸における各特性値における音波形のデータ量をz軸としたヒストグラム形式の分布である。
 図5の「表示処理」では、ユーザによって音響モデル120及び特性種別が選択される。システムは、選択された音響モデル120の履歴データによって特定される音波形の特性分布を、ユーザの通信端末200のUIの表示器(システムの表示器とも呼ぶ)に表示する。ユーザによる音響モデルの選択操作に応じて、システムは、複数の音響モデルの中から1つの音響モデル120を選択する(S511)。システムは、ユーザによる特性種別の選択操作に応じて、複数の特性種別の中から、表示する特性種別を選択する(S512)。ここで選択される種別は、1つでも複数でもよい。
 ここで、特性種別とは、当該音響モデル120の訓練に用いられた音波形が有する複数の特性の種別を意味する。例えば、音波形が有する複数の特性は、音高、強度、音韻、音長、スタイルである。ユーザは、上記選択操作によって、これらの特性から一以上の特性を選択する。
 上記のスタイルは、歌唱スタイル及び演奏スタイルを含む。歌唱スタイルは歌い方である。演奏スタイルは演奏の仕方である。具体的には、歌唱スタイルとして、ニュートラル、ビブラート、ハスキー、フライ、及びグロウル等が挙げられる。演奏スタイルとして、擦弦楽器であれば、ニュートラル、ビブラート、ピチカート、スピカート、フラジョレット、及びトレモロ等が挙げられ、撥弦楽器であれば、ニュートラル、ポジション、レガート、スライド、及びスラップ/ミュート等が挙げられる。クラリネットであれば、演奏スタイルとして、ニュートラル、スタカート、ビブラート、及びトリル等が挙げられる。例えば、上記のビブラートは、ビブラートを多用する歌唱スタイル又は演奏スタイルを意味する。歌唱又は演奏におけるピッチ、音量、音色、及びこれらの動的挙動は、全体的にスタイルによって変わる。
 システム(サーバ100)は、履歴データに含まれる識別子が示す複数の音波形の各々を分析することによって、S512で選択された、その波形の種別の特性分布を取得し、それら複数の音波形の特性分布を合成して1つの合成された特性分布を得る(S513)。例えば、システム(サーバ100)は、履歴データに含まれる識別子が示す音波形A、Bについて、音高に関する特性分布A、Bを取得し、各音高における音波形A、Bのデータ量を合成(積算)する。システムは、選択された種別について、合成された特性分布を表示する(S514)。当該特性分布の表示は、特性分布に関連する情報の1つの表示例である。S512で2以上の種別が選択された場合、システムは、S513で、各音波形の分析によって当該2以上の種別の特性分布を取得し、複数の音波形分の特性分布を種別ごとに合成して、S514で、当該2以上の種別について、合成された特性分布を表示する。
 上記のように、サーバ100は、ユーザによって選択された音響モデル120の訓練に用いられた全音波形の特性分布に関連する情報を表示する。上記合成された特性分布は、音響モデル120がその訓練で獲得した能力に相当する。
 本実施形態では、表示される特性分布に対応する特性種別がS512でユーザによって選択される構成を例示したが、当該特性種別が固定されており、ユーザによって選択できなくてもよい。
 S502の訓練が、未訓練の初期モデルをベースとして行われた場合、S503の履歴データには、その訓練で用いられた全ての音波形の識別子が含まれる。一方、S502の訓練が、既存の訓練済みの音響モデル120をベースとして行われた場合、S503の履歴データには、その訓練で用いられた全ての音波形の識別子と、ベースとなった音響モデル120の訓練に用いられた全ての音波形の識別子とが含まれる。ベースが初期モデルか否かに関わらず、訓練済みの音響モデル120にリンクされた属性データには、初期モデルからその音響モデル120が確立されるまでの全訓練に用いられた全ての音波形(音響モデルの訓練に用いられた全音波形)の識別子が含まれる。
 図5のS514において表示される特性分布の一例を図6に示す。この実施形態では、S512で特性種別として「音高」及び「強度」の2つが選択されている。図6の画面140には、履歴データに含まれる複数の音波形について合成された、「音高」及び「強度」の特性分布を示すグラフが表示されている。
 図6に示す画面140は、システム(サーバ100)によって提供され、システム(通信端末200)の表示器に表示される。画面140には、2次元表示部141、第1軸表示部142、第2軸表示部143、及びデータ量バー144が含まれる。
 第1軸表示部142は、第1軸における第1特性の各値に対する音波形のデータ量を示すカーブを表示する。本実施形態の第1特性は音高なので、第1軸の単位は[Hz]である。第2軸表示部143は、第2軸における第2特性の各値に対する音波形のデータ量を示すカーブを表示する。本実施形態の第2特性は強度(音量)なので、第2軸の単位は[Dyn.]である。
 2次元表示部141は、第1軸及び第2軸を用いた直交座標におけるデータ量の2次元分布である。2次元表示部141では、第1軸及び第2軸の各々の値における音波形のデータ量が、当該データ量の区分に応じた態様で表示されている。データ量バー144は、当該データ量の区分に応じた態様のスケールを示す。
 図6に示す例では、音波形のデータ量が、0[sec]である第1区分、0[sec]より大きく20[sec]以下である第2区分、20[sec]より大きく100[sec]以下である第3区分、及び100[sec]より大きく140[sec]以下である第4区分に分けられている。第1~第4区分は、それぞれ異なる態様で表示される。例えば、これらは色の違いで表示されてもよい。例えば、第1区分は「黒」で表示され、第2区分は「青」で表示され、第3区分は「緑」で表示され、第4区分は「黄色」で表示されてもよい。又は、第1区分は「黒」で表示され、第2区分は上記黒より明るく表示され、第3区分は第2区分より明るく表示され、第4区分は第3区分より明るく表示されてもよい。より多い態様又は少ない態様を用いて、より多くの区分又は少ない区分の表示が行われてもよい。異なる区分は、色や明るさの差異に限らず、ハッチング、形状、ぼやけ具合などの差異で表現されてもよい。
 以上のように、本実施形態に係る音響モデル訓練システム10によると、現在の音響モデル120の訓練に使用された音波形、又は音響モデル120の訓練に使用される候補である音波形に対応する特性分布を示すグラフを表示することで、ユーザが訓練に用いる訓練用音波形を特定しやすくなる。
[1-6.変形例]
 図7は、図5の表示方法に類似する、音波形の特性分布の表示方法を例示するフローチャートである。以下の説明において、両者の類似する部分について説明を省略し、主に両者の相違する部分について説明する。
 図7の「訓練処理」では、図5と同様に、ユーザによって音波形が選択される。システムは、選択された音波形を用いて訓練ジョブを実行する。図7のS701、S702は、図5のS501、S502と同じである。システム(サーバ100)は、S702で訓練済みの音響モデル120を確立した後、その訓練に用いられた複数の各音波形を分析して複数種別の特性分布を取得し、それらを種別ごとに合成して、複数種別の合成された特性分布を取得する(S703)。続いて、システム(サーバ100)は、S702の訓練のベースである音響モデルが未訓練の初期モデルか否かを判断する(S704)。
 S704でベースモデルが初期モデルではないと判断された場合(S704の「NO」)、システム(サーバ100)は、S703で取得した複数種別の特性分布と、その訓練のベースである訓練済みの音響モデルの履歴データが示す複数種別の特性分布とを、種別ごとに合成する(S705)。その合成後、システム(サーバ100)は、S702で確立された音響モデル120に、S705で合成された複数種別の特性分布を、履歴データとしてリンクする(S706)。一方、S704でベースモデルが初期モデルであると判断された場合(S704の「YES」)、システム(サーバ100)は、S705の処理をスキップして、S702で確立された音響モデル120に、S703で取得された複数種別の特性分布を、履歴データとしてリンクする(S706)。
 図5及び図7のいずれの表示処理においても、履歴データは、訓練済み音響モデル120に関して、その訓練に用いられた全音波形の特性分布を得るために用いられる。図5のS503で音響モデル120にリンクされる履歴データは、その訓練に用いられた全音波形を示す識別子である。図5の表示処理では、システムは、その識別子が示す各音波形を分析して、それら音波形の特性分布を取得し合成した(S513)。それに対し、図7の訓練処理では、システムは、訓練済みの音響モデル120に、履歴データとして、その訓練に用いられた全音波形の合成された特性分布を複数種別分リンクする(S706)。従って、図7の表示処理では、システムは、何れの音波形も分析することなく、その音響モデル120について、選択された種別の特性分布を取得し(S713)、画面(図6)に表示する(S714)。
 何れの本実施形態においても、第3者は、音響モデル120ごとの特性分布を入手し閲覧できる。
 図7の「表示処理」は、上述した点を除き、図5と同様なので、説明を省略する。つまり、S711~S714は、S511~S514と基本的に同じ処理である。
[2.第2実施形態]
 図8~図13を用いて、第2実施形態に係る音響モデル訓練システム10Aについて説明する。音響モデル訓練システム10Aの全体構成及びサーバに関するブロック図は、第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、図1~図4を参照し、これらの図に示された符号の後にアルファベット“A”を付して説明する。
[2-1.音響モデルの訓練処理]
 図8は、システム10Aによって実行される、音響モデルの訓練処理を例示するフローチャートである。図8に示す音響モデルの訓練処理では、特定の特性分布に関して訓練データが不足した範囲を検出し、その領域を補うために適したデータを用いて訓練を実行する構成について説明する。
 システム(サーバ100A)は、通信端末200A(又はユーザ)からの指示に応じて、音響モデル120Aと1又は複数の特性種別とを選択する(S801)。システム(サーバ100A)は、選択された音響モデル120Aの選択された種別の特性分布を取得し、音響モデル120Aに対する訓練における不足範囲を検出する(S802)。具体的には、システムは、選択された音響モデル120Aにリンクした履歴データを取得し、当該履歴データに基づいて、当該音響モデルの訓練に使用された音波形の選択された種別の特性分布を取得する。
 システム(サーバ100A)は、取得された各種別の特性分布に関して、その種別で訓練が必要とされる特性値の範囲(必要範囲)において、データ量が閾値より小さい範囲を、その種別の不足範囲として検出する。又は、システムは、取得した各種別の特性分布とその種別の参照用の特性値の分布(参照分布)とを比較し、その種別の特性分布が参照分布より小さい範囲を不足範囲として検出してもよい。各種別の必要範囲及び閾値、又は参照分布は、例えば、ユーザによって選択された任意の楽曲等のその種別の特性分布に基づいて決定してもよく、既存の訓練済み音響モデルのその種別の特性分布に基づいて決定してもよい。
 S802で不足範囲が検出されると、システムは、ユーザに対して、画面140(図6)への当該不足範囲の表示の要否を問い合わせる(S803)。この問い合わせは、当該不足範囲を文字で表示することによって行われるか(文字表示ボタン)、グラフで表示することによって行われるか(グラフ表示ボタン)、に関する問い合わせを含む。ユーザが(文字表示ボタンを操作して)文字表示を選択した場合、システムは当該不足範囲をその画面上に文字で表示する(S804)。
 他方、ユーザが(グラフ表示ボタンを操作して)グラフ表示を選択した場合、システムは当該不足範囲をその画面上にグラフ表示する(S805)。ユーザが当該不足範囲の表示を不要と判断した場合(文字表示ボタンもグラフ表示ボタンも操作されない場合)、システムはS804、S805の表示を行わずに次のステップ(S806)に進む。
 S805のグラフ表示の一例を図9に示す。図9に示すように、検出された音響モデル120Aの不足範囲が、枠で囲まれて表示される。この例では、偶然不足範囲が三角形の形状だったので、当該不足範囲が三角形の枠で囲まれている。この枠によって、ユーザは、第1特性(音高)及び第2特性(強度)における不足範囲の上限及び下限を確認できる。本実施形態では、不足範囲の上限及び下限の両方が表示されているが、上限及び下限の一方だけが表示されてもよい。
 図9に示す画面140Aは、システム(サーバ100A)によって提供され、システム(通信端末200A)の表示器に表示される。図9に示す特性分布は、音高が高い範囲、かつ、強度が低い範囲のデータが不足するため、画面140Aにおいて、不足範囲をユーザに通知するメッセージ(「データ補充が必要です」)が表示される。
 図9に示す画面140A及びメッセージは、一例に過ぎず、その他の態様で表示されてもよい。システムは、S804において、不足範囲に係る情報(例えば、不足範囲に含まれる音高又は強度)を、テキストで表示器に表示してもよい。又は、システムは、不足する音信号の表現(スタカート又はビブラートなど)を表示してもよい。
 図8のS804、S805に続き、システムは、ユーザに対して、音響モデル120Aの訓練の要否を問い合わせる(S806)。この問い合わせは、既存の音波形を使用して訓練を行うか(訓練ボタン)、訓練に使用する音波形を新たに録音する必要があるか(録音&訓練ボタン)、に関する問い合わせを含む。
 ユーザが(訓練ボタンを操作して)既存の音波形を使用して訓練を行うことを選択した場合、システム(サーバ100A)は、ユーザの波形選択操作に応じて、既にアップロードされサーバ100Aに保存されている音波形の中から音波形を選択し、訓練に用いる音波形として特定する(S807)。そして、システム(サーバ100A)は、訓練に用いられる音波形を分析して、当該音波形が有する1又は複数の特性について、特性分布を取得し、ベースが初期モデルならそのまま、ベースが初期モデルでなければベースの音響モデルの特性分布と合成して、例えば図6と同様の態様で通信端末200の表示器に表示する(S808)。
 他方、上記の問い合わせに対して、ユーザが(録音&訓練ボタンを操作して)音波形を新たに録音することを選択した場合、システム(サーバ100A)は、複数の楽曲から不足範囲の特性値の音を十分に含む楽曲を特定し、ユーザに推薦する(S809)。つまり、システムは、複数の楽曲のうち、不足範囲の特性値の音符を含む1又は複数の候補曲を検出し、ユーザに対して、検出された候補曲を提示する。本実施形態の場合、システムは、予め(図8に示す訓練処理が開始される前に)公開された楽曲の楽譜データに含まれる複数の音符を分析し、当該楽曲で演奏されるべき音信号の特性分布(当該楽曲の特性分布と呼ぶ)を取得している。
 システムは、ユーザに対して楽曲を推薦する際に、例えば図6と同様の態様で、推薦した各楽曲の特性分布を参考として表示する(S810)。推薦する楽曲が複数である場合、システムは、複数の楽曲の複数の特性分布を一括で表示してもよいし、1曲分ずつ個別に表示してもよい。S810で表示される特性分布は、当該特性分布に対応する楽曲の楽譜データに基づく、当該楽曲の特性分布である。
 S809で推薦される楽曲の音波形は、音響モデル120Aの訓練の前に録音される音波形であり、その訓練に使用される予定の(又は、使用される可能性がある)音波形である。
 S810で表示される楽曲の特性分布の画面の一例を図10に示す。図10の画面には、参考として、図9と同様の不足範囲が点線で表示されている。システム(サーバ100A)は、例えば、分析済みの楽曲の中から、この不足範囲に十分なデータ量を有する楽曲を、推薦する楽曲として特定する。図10の特性分布は1つの楽曲分の音信号だけの特性分布である。したがって、図10の特性分布のデータ量は、図6に示すような音響モデル120の訓練に用いられた全音波形の特性分布のデータ量と比べてかなり少ない。
 ユーザは、S809、S810で推薦された楽曲から、例えば1つの楽曲を選択して演奏する。システム(通信端末200)は、演奏された楽曲を録音し(S811)、その録音データ(新たな音波形)をサーバ100Aに送信する。システム(サーバ100A)は、その新たな音波形を既存の音波形と同様に、そのユーザの記憶領域に保存する。続いてS807で音波形の選択処理が行われる。
 S811でユーザによって録音された新たな音波形の特性分布は、当該楽曲の楽譜データの特性分布と必ずしも一致しない。新たな音波形全体の特性分布は、図10の特性分布と必ずしも一致しない。システム(サーバ100A)は、既存の音波形及び新たな音波形の中から訓練に用いられる音波形を選択し(S807)、訓練に用いられる音波形を分析して、その特性分布を取得する(S808)。ここで取得される特性分布は、その音波形が用いられた将来の訓練で確立されることが期待される音響モデル120Aについて、その将来の訓練で使用された音波形の特性分布である。S808において、システムは、当該期待される訓練済み音響モデル120Aの訓練で使用された全音波形の特性分布を表示する。その訓練のベースモデルが訓練済み音響モデルである場合、ベースモデルの特性分布と当該期待される音響モデル120の特性分布とを合成した特性分布が表示される。ユーザは、この特性分布を見て、S807で特定した音波形が適正か否か判断できる。
 S806の問い合わせに対して、ユーザが(訓練不要ボタンを操作して)訓練を希望しない旨の返答をした場合、図8に示すフローは終了する。
 S808に続き、サーバ100Aは、ユーザに対して、音響モデル120Aの訓練実行の要否を問い合わせる(S812)。当該問い合わせに対して、ユーザが訓練実行ボタンを操作して、S807で選択された音波形が用いられた訓練の実行を指示した場合、システム(サーバ100A)は、S502と同様に、S801で選択された音響モデル120Aの訓練を、S807で選択された音波形を用いて実行し、訓練済みの音響モデル120Aを確立する(S813)。システム(サーバ100A)は、S703~S706と同様に、確立された音響モデル120Aの訓練に用いられた全音信号の特性分布を取得し、履歴データとして当該音響モデル120Aにリンクする(S814)。
 他方、上記の問い合わせに対して、ユーザが(音波形の再選択ボタンを操作して)音波形の再選択を指示した場合、システム(サーバ100A)は、再度ユーザに対して音波形を選択するためのGUIを提供し、S807に示すようにユーザの選択操作に応じて音波形を特定する。
 S812の問い合わせに対して、ユーザが(訓練のキャンセルボタンを操作して)訓練の実行をキャンセルする旨を指示した場合、システムは、図8に示す処理を終了する。
 S812において、システムはユーザに対して新たな録音の要否を問い合わせてもよい。その問い合わせに対し、ユーザが(録音&訓練ボタンを操作して)音波形を新たに録音する旨を指示した場合、上述したS809~S811以降の処理が行われる。
 S809では、システムは、過去に音響モデル120Aの訓練に使用された楽曲に基づいて、新たな楽曲を推薦してもよい。例えば、システムは、既に訓練に使用された楽曲と同じ歌手又は演奏者の別の楽曲を推薦してもよい。システムは、訓練に使用された楽曲と同じ又は近いジャンルの楽曲を推薦してもよい。さらに、システムは、一曲の全体を推薦してもよく、一曲の一部だけを推薦してもよい。
 以上のように、本実施形態に係る音響モデル訓練システム10Aによると、現在の音響モデル120Aにおいて訓練不足の領域に適した訓練用音波形をユーザが効率よく準備ないし選定することができ、当該領域にデータを補充するために適した楽曲をユーザに推薦することができる。
[3.第3実施形態]
 図11を用いて、第3実施形態に係る音響モデル訓練システム10Bについて説明する。音響モデル訓練システム10Bの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、図1~図4を参照し、これらの図に示された符号の後にアルファベット“B”を付して説明する。
[3-1.楽曲の選択・編集・再生処理]
 図11は、システム10Bによって実行されるフローチャートであり、ユーザが所望の楽曲の選択、編集、再生をできるようにするために、楽曲の選択・編集・再生処理を例示するフローチャートである。図11では、音響モデル120Bの特性分布に基づいて、音響モデル120Bの得意度を評価し、その得意度をユーザに対して表示する構成について説明する。
 システム(サーバ100B)は、ユーザからの選択指示に応じて、複数の訓練済み音響モデルの中から音響モデル120Bを選択し、リンクされた履歴データに基づいて、当該音響モデル120Bの特性分布を取得する(S1101)。続いて、システム(サーバ100B)は、複数の楽曲から、S1101で取得された特性分布に適合しそうな1又は複数の候補曲を特定し(S1102)、各候補曲に対する当該音響モデル120Bの得意度を評価する(S1103)。
 各音響モデル120Bは、初期モデルから複数の第1楽曲の音波形を用いて訓練されたモデルであり、その訓練の少なくとも一部において、第1楽曲の演奏音の音波形及び当該音波形に対応する楽譜を用いて訓練されている。つまり、音響モデル120Bは、過去に訓練に用いられた第1楽曲の音波形の少なくとも一部の楽譜の楽譜特徴量と、当該音波形の第1音響特徴量とを含む訓練データとを用いて訓練されたモデルである。この音響モデル120Bに(訓練に使用されていない)未知の第2楽曲の楽譜が入力されると、音響モデル120Bは、当該第2楽曲の楽譜特徴量に応じた第2音響の音響特徴量(第2音響特徴量)を生成する。
 S1101において、システム(サーバ100B)は、選択された音響モデル120Bの訓練に用いられた第1楽曲の全音波形の履歴を示す履歴データを取得する。第1実施形態に関して説明したように、当該音響モデル120Bにリンクされた履歴データには、前記全音波形の識別子、又は、前記全音波形の特性分布が含まれていてもよい。システム(サーバ100B)は、当該履歴データに基づいて、前記全音信号の特性分布を、当該音響モデル120Bの特性分布として取得する。ここで取得される特性分布は、音信号の複数の特性のうち、ユーザの指定した又は所定の、何れか1以上の特性の分布である。システムは、当該音響モデルの特性分布を通信端末200Bの表示器に表示してもよい。本明細書において、楽譜データを「楽譜」と呼ぶ場合がある。
 システムには、複数の楽曲の楽譜データが用意されている。S1102において、システムは、前記複数の楽曲の各々を分析し、その楽曲の特性分布を取得し、前記複数の楽曲のうちから、その楽曲の特性分布が当該音響モデル120Bの特性分布から外れる量が少ない楽曲を選択することで、当該楽曲を当該音響モデル120に適合しそうな候補曲(推薦曲とも呼ぶ)として特定する。又は、S1102において、システムは、前記複数の楽曲の各々の最高音と最低音とを検出し、前記取得された音響モデル120Bの特性分布がその最高音及び最低音を含む1又は複数の楽曲を選択して、当該楽曲を当該音響モデル120Bに適合しそうな候補曲として特定してもよい。
 演奏する楽曲に対する得意度は、前記取得した特性分布及びその楽曲の楽譜データに基づいて評価される。具体的には、その得意度は、当該音響モデル120Bの特性分布が、その楽譜データの特性をカバーする程度である。当該音響モデル120Bの特性分布が楽譜データの特性をカバーする、とは、楽譜データに基づく音信号の特性が分布する範囲に、当該音響モデル120Bの特性が分布していること、つまり、その範囲の音信号を当該音響モデル120Bが既に学習していることを意味する。例えば、両特性分布を重ねた場合に、楽譜データの特性分布が、当該音響モデルの特性分布の内側に存在する場合、得意度は100%である。
 さらに、得意度は、楽譜データの特性が分布する範囲の各特性値における、当該音響モデル120Bの特性分布のデータ量に基づいて評価されてもよい。具体的には、得意度は、その範囲の特性値のうち、その特性分布のデータ量が所定量(例えば、40秒)より多くなる特性値の割合を意味してもよい。例えば、楽譜データの特性分布の範囲の全特性値において、当該音響モデル120Bの特性分布のデータ量が所定量より多い特性値の割合が80%である場合、当該音響モデルの得意度(カバー率)は80%である。
 得意度は数値、メータ、又はバーグラフで表されてもよい。又は、図6の表示において、システムが当該音響モデル120Bの特性分布と楽曲の楽譜データの特性分布とを重ねて表示することによって、ユーザは、その表示を見て、当該音響モデルのその楽曲に対する得意度を認識できる。
 S1103において、システム(サーバ100B)は、候補曲として特定された楽曲(第2楽曲)の楽譜及び当該音響モデル120Bの特性分布に基づき、当該音響モデルの、第2楽曲に対する得意度を評価する。S1102とS1103との実行順を逆にしてもよい。その場合、システムは、まずS1103において、用意された複数の楽曲全部の得意度を評価し、続くS1102において、複数の楽曲のうちから、得意度が高い1又は複数の曲を選択し、候補曲として特定してもよい。又は、複数の楽曲のうち得意度が閾値より高い楽曲を選び、選択された楽曲のうちから得意度の高い1又は複数の楽曲を候補曲として特定してもよい。
 続いて、システムは、各候補曲(推薦曲)に対応付けて、当該音響モデル120Bのその候補曲に対する得意度を表示する(S1104)。この推薦曲及び得意度の表示の一例を図12に示す。この例では、当該音響モデル120Bの特性分布に基づいて選択された複数の第2楽曲と、その各楽曲に対する当該音響モデル120Bの得意度とを対応付けて表示することで、ユーザにそれら楽曲を推薦している。
 図12に示すGUI160Bは、システム(通信端末200B)の表示器に表示され、表題161B、推薦曲の表示欄、及び選択ボタン166Bを含む。推薦曲の表示欄には、各推薦曲と、その推薦曲を選ぶためのラジオボタン162B~165Bと、その推薦曲についての得意度、ジャンルなどの付加情報が表示される。
 ユーザが、GUI160Bにおいて、複数の推薦曲のうちの所望の楽曲に対応するラジオボタンを選択して選択ボタン166Bを押すと、システム(サーバ100B)は当該ユーザ操作に応じてその楽曲を選択する(S1105)。
 続いて、システム(サーバ100B)は、選択された楽曲の楽譜データの一連の音符のうち各音符に対する当該音響モデル120Bの得意度を、当該音響モデル120Bの特性分布に基づいて評価し(S1106)、システム(通信端末200)の表示器に、その楽曲の各音符を、その音符に対する得意度とともに表示する(S1107)。例えば、システムは、得意度の表示付きで、その楽曲のピアノロールを表示してもよい。当該得意度は、各音符に対して評価されているため、当該ピアノロールにおいて、音符毎に得意度が表示される。
 S1107で表示されるピアノロールの一例を図13に示す。図13に示すピアノロール170Bにおいて、横軸が「時間(sec)」であり、縦軸が「音高」である。
 ピアノロール170B中には、選択された楽曲の一連の音符の各々のピッチとタイミングとを示す複数の音符バー171Bが表示される。各音符の音符バー171Bは、例えば、3種類の態様のうちその音符に対する得意度に応じた何れか1の態様で表示される。密なハッチングの音符バー172B「優」は、その音符に対する得意度が高いことを示す。疎なハッチングの音符バー173B「可」は、その音符に対する得意度が中程度であることを示す。白の音符バー174B「劣」は、その音符に対する得意度が低いことを示す。つまり、音符バーは、得意度が高い順に「優」、「可」、「劣」の3つのレベルで表示される。
 ここでは、当該音響モデル120Bの得意度が、音符毎に評価され表示される。当該得意度は、上記楽曲(第2楽曲)の各音符の区間の楽譜について評価され、図13のように、音符の区間毎に表示される。
 同じ音高であっても、強度が異なれば得意度が異なる場合がある。図13には、音高が同じでも得意度が異なる音符、及び音高が同じでも得意度が途中で変わる音符がある。楽曲に対する得意度の区分数は、3つに限らず、2つでも4つ以上でもよい。異なる区分は、ハッチングの差異に限らず、色、明るさ、形状、ぼやけ具合などの差異で表現してもよい。
 図13のバーをその上方から指し示す矢印は、後述する再生動作において、再生位置を示すカーソル175Bである。さらに、グラフの下方に示された得意度メータ176Bには、カーソル175Bの位置における楽曲の得意度が表示される。得意度メータ176Bの下方には、再生ボタン178B及び取消ボタン179Bが表示される。システムは、ユーザが音符バーを編集操作したか否かの判定(S1108)と、ユーザが再生ボタン178Bを操作したかい否かの判定(S1110)とを行う。
 ユーザが何れかの音符バーを編集操作した場合(S1108の「YES」)、サーバ100Bは、その編集操作に応じて、楽曲の楽譜データのうち、その音符バーに対応する音符を編集する(S1109)。当該編集は、その音符の音高、強度、音韻、音長、及びスタイルのいずれかの変更を含む。例えば、ユーザがある音符バーを縦軸方向に動かすと、対応する音符の音高が変更され、横方向に動かすと、その音符のタイミングが変更される。ユーザがある音符バーの長さを変更すると、対応する音符の音長が変化する。さらに、ユーザは、ある音符バーのプロパティ編集画面を開いて、対応する音符の強度やスタイルを変更できる。当該編集が行われると、再度S1106、S1107の処理によって、編集された音符に対する得意度が評価し直され、当該音符に対する表示(得意度を含む表示)が更新される。
 一方、ユーザが何れの音符バーも編集操作しない場合(S1108の「NO」)、システムは、S1110で再生ボタン操作の有無を判断する。ユーザが再生ボタン178Bを操作した場合(S1110の「YES」)、サーバ100Bは、当該音響モデル120Bを用いて、当該楽曲の楽譜データに応じた音波形を合成し、再生デバイスを用いて、その合成された音波形を再生し(S1111)、その再生が完了したら、ピアノロール表示を消去して、図11の処理を終了する。再生の完了時に、図11の処理を終了する代わりに、ピアノロール表示を残したまま、S1108に進んでもよい。
 上記の音波形の合成は、システム(サーバ100B又は通信端末200B)が入手した楽曲の楽譜データに基づく音波形(歌唱又は楽器音)の合成である。本実施形態では、S1110で再生指示された後に、S1111で楽譜データに基づく音波形が合成される。しかし、当該音波形の合成は、再生指示されるより前に行われてもよい。例えば、当該音波形の合成は、S1105で楽曲が選択された時点、又は楽譜データの編集が行われた時点などに行われてもよい。この場合、S1110における再生指示に応じて、予め合成された音波形が再生される。
 他方、ユーザが図13に示す再生ボタン178Bを操作しない場合(S1110の「NO」)、システムは、S1108のステップに戻り、編集要否を判断する。つまり、ユーザが音符バーの編集操作も再生ボタンの操作も行わない場合、サーバ100Bは、S1108、S1110のステップを繰り返すスタンバイ状態である。ユーザが取消ボタン179Bを操作すると、システムは、ピアノロール表示を消去して、図11の処理を終了する。
 以上のように、本実施形態に係る音響モデル訓練システム10Bによると、ユーザは、選択した訓練済み音響モデル120Bの特性分布に基づき、当該音響モデル120Bで再生するのに適した楽曲を、容易に選択できる。ユーザは、楽曲の各音符に関連づけて、当該音響モデル120Bのその音符に対する得意度を確認できる。さらに、ユーザは、楽曲の一連の音符の各々に対する得意度を確認しつつ、その楽曲の音符を個別に編集できる。
[4.第4実施形態]
 図14を用いて、第4実施形態に係る音響モデル訓練システム10Cについて説明する。音響モデル訓練システム10Cの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、図1~図4を参照し、これらの図に示された符号の後にアルファベット“C”を付して説明する。
[4-1.特性分布の表示方法]
 図14は、システム10Cが表示する音波形の特性分布の一例である。図14に示す特性分布は、図6に示す特性分布と類似しているが、特性分布を表示する2つの特性のうち、一方の特性が所定の範囲にある場合における他方の特性に係る分布を表示する点において、両者は相違する。
 図14では、ユーザが、第3区分に相当する音波形のデータ量が100[sec]より大きい条件を指定し、データ量の表示を音高についてその条件を満たす範囲(M1[Hz]~M2[Hz])に限定した場合において、第2軸表示部143Cにおける音量の特性分布の表示例が示されている。つまり、第1軸表示部142Cにおいて斜線で示された範囲(M1[Hz]~M2[Hz])の音波形の音量の分布が、第2軸表示部143Cに表示される。このように、図14では、システムは、音高(第1特性)が所定範囲内である場合における音信号の音量(第2特性)の特性分布を表示する。
 図14の例では、音波形のデータ量に基づいて、第1特性の範囲が決定されているが、これに限定されない。第1特性の範囲、つまり下限M1及び上限M2を、それぞれユーザが任意の値に設定してよい。下限M1及び上限M2の何れか一方だけを指定してもよい。又は、第2特性の範囲を指定し、その範囲における音波形の第1特性の分布が表示されてもよい。
 以上のように、本実施形態に係る音響モデル訓練システム10Cによると、ユーザは、第1特性に関して注目した音信号(訓練データ)の第2特性の特性分布を確認できる。例えば、音高が上限M2より低い範囲において、どの強度の音波形による訓練が不足しているか確認できる。又は、強度が下限M1より強い範囲において、どの音高の音波形による訓練が十分か確認できる。
[5.第5実施形態]
 図15を用いて、第5実施形態に係る音響モデル訓練システム10Dについて説明する。音響モデル訓練システム10Dの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、図1~図4を参照し、これらの図に示された符号の後にアルファベット“D”を付して説明する。
[5-1.リアルタイム得意度表示]
 図15は、楽曲再生処理を例示するフローチャートである。図15に示すフローチャートに示す処理では、音響モデル訓練システム10Dは、サーバ100D又は通信端末200Dに未保存の楽曲を、外部の配信サイトから、楽曲のストリームとして、その楽曲の楽譜データの一部分を順次受信しつつ音声合成を行う。本実施形態の場合、システムは、当該楽曲の一連の各音に対する得意度を予め算出できない。したがって、本実施形態では、システム(サーバ100D)は、各時点において受信したストリームに基づいて、そのストリームに含まれる各音に対する得意度をリアルタイムに計算し、表示する。
 システム10Dは、通信端末200D(又はユーザ)からの選択操作に応じて、複数の楽曲の中から所望の楽曲を選択する(S1501)。システム(サーバ100D)は、選択された楽曲の楽譜を分析し、その楽曲の特性分布を取得し、当該特性分布を、複数の音響モデル120Dの特性分布と対比し、その楽曲の特性分布をカバーできる特性分布を有する1以上の音響モデル120Dを、当該楽曲に適した候補モデルとして特定する(S1502)。つまり、システムは、楽曲に応じて、当該楽曲に適した音響モデル120Dを推薦する。そして、システム(サーバ100D)は、当該楽曲に対する、各候補モデルの得意度を取得する(S1503)。得意度の評価方法は、第2実施形態(図11に係る説明)と同様の手法で行われるため、詳細な説明を省略する。
 続いて、システムは、上記楽曲の特性分布及び各候補モデルの特性分布と、当該楽曲に対する各候補モデルの得意度とをシステム(通信端末200D)の表示器に表示する(S1504)。当該表示は、例えば、当該楽曲の特性分布及びユーザによって指定された何れかの候補モデルの特性分布が図6に示すようなグラフで表示され、その候補モデルの当該楽曲に対する得意度が、テキスト形式で、グラフ表示と重ねて又は並べて表示される。当該グラフ表示とテキスト形式の表示とが並列に表示されてもよい。
 候補モデルとして複数の音響モデル120Dが特定された場合、ユーザは、S1504で表示された特性分布及び得意度を参照して、何れか1の音響モデル120Dを選択する。システム(サーバ100D)は、その選択操作に応じて、その音響モデル120Dを選択する(S1505)。
 続いて、システムは、ユーザに対して、S1501で選択された楽曲又はS1505で選択された音響モデル120Dの変更要否(S1506)、及び当該楽曲の再生要否(S1507)を問い合わせる。
 ユーザがS1506で(音響モデルの選択ボタンを操作して)音響モデル120Dの変更を指示した場合、システムは、再度、上記の特性分布及び得意度をシステム(通信端末200D)の表示器に表示し(S1504)、ユーザによる新たな選択操作に応じて、何れか1の音響モデル120Dを選択する(S1505)。他方、ユーザがS1506で(楽曲の選択ボタンを操作して)楽曲の変更を指示した場合、システム(サーバ100D)は、ユーザによる新たな選択操作に応じて、何れか1の楽曲を選択する(S1501)。
 ユーザがS1506で(いずれの選択ボタンも操作せず)変更を指示しない場合(S1506の「NO」)、システムは、楽曲の再生要否(S1507)を判断する。ユーザが(再生ボタンを操作して)楽曲の再生を指示した場合(S1507の「YES」)、処理フローは楽曲再生のステップに進む。他方、ユーザがS1507で(再生ボタンを操作せず)再生を指示しない場合(S1507の「NO」)、システムは、S1606のステップに戻り、再び、上述の変更要否を判断する。つまり、ユーザが変更も再生も指示しない場合、システムは、S1506及びS1507のステップを繰り返すスタンバイ状態である。このように、処理フローがループすることによって、ユーザが楽曲の再生の前に楽曲や使用する音響モデルを選択し直すことができる。ユーザがS1507で取消を指示すると、システムは、図15に示す一連の処理フローを終了する。
 S1507でユーザが再生を指示すると、システム(サーバ100D)は、楽曲のストリームを取得する(S1508)。具体的には、ユーザが再生を指示すると、システムは、当該再生指示の操作に応じて、配信サイトに当該楽曲を要求する。当該要求に応じて、当該配信サイトからシステム(サーバ100D)に、当該楽曲のストリーム配信が開始される。楽譜データの部分ごとのストリーム配信は、楽曲の先頭から末尾まで継続的に行われる。つまり、S1508において、システム(サーバ100D)は、楽曲(第2楽曲)の楽譜の一部分を順次受け取る。なお、配信サイトが楽曲を通信端末200Dにストリーム配信し、通信端末200Dがその受信した楽譜の一部分をサーバ100Dに順次転送してもよい。
 システム(サーバ100D)は、楽曲のストリーム(一部分)を取得するごとに、選択された音響モデル120Dを用いた第2音響のリアルタイム生成と、その音響モデル120の得意度の表示とを並行で行う(S1509、S1510)。システム(サーバ100D)は、リアルタイム生成に並行して、受け取った楽譜の一部分とその音響モデル120Dの特性分布とに基づいて、その楽譜の一部分に対する、その音響モデル120Dの得意度をリアルタイムで取得(評価)する(S1509)。続いて、サーバ100Dは、その音響モデル120Dを用いて、その楽譜の一部分を処理して、その一部分に対応する第2音響特徴量をリアルタイムで生成し、その第2音響特徴量に基づいて音波形(第2音響)をリアルタイムで合成して再生するとともに、その取得された得意度をリアルタイムで表示する(S1510)。
 なお、本発明は上記の実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
[6.第6実施形態]
 図16~図24を用いて、本発明の一実施形態に係るサービスについて説明する。
 図16は、本発明の一実施形態に係るサービスのプロジェクト概要を説明する図である。図16には、プロジェクト概要に係る説明が記載されている。「プロジェクト概要」として、以下の項目が記載されている。
・目的
・基本機能
・補足
 「目的」の項目には、以下の内容が記載されている。
・歌声合成技術VOCALOID:AIのボイスバンクをユーザが制作するサービスの試作・評価。
・技術的課題の洗い出し(多様な入力への耐性,計算時間など)。
・社会的な応用可能性・課題の洗い出し(想定外の応用や悪用をユーザが試みる可能性)。
 「基本機能」の項目には、以下の内容が記載されている。
・歌声データをアップロードするとVOCALOID:AIのボイスバンクが機械学習されるWebサービス。
 「補足」の項目には、以下の内容が記載されている。
・商用の実サービスとしての提供は未定(その可否を検証する)。
・ただし,最大100人程度のモニターユーザーを公募してオープンベータテストを実施することが望ましい。
 図17は、本発明の一実施形態に係るサービスの背景を説明する図である。図17には、背景に係る説明が記載されている。「背景」として、以下の事項が記載されている。
(A)従来,VOCALOIDのボイスバンク制作は企業にしかできなかった。
(B)VOCALOID:AIでは個人でもボイスバンク制作ができるようにすることが望ましい。
 (A)には、以下の内容が記載されている。
・技術的制約から,非常に大きな(1000万円程度)制作コストがかかる。
・そのため限られた企業の趣向に従った,限られた数のボイスバンクしか世に出なかった。
 (B)には、以下の内容が記載されている。
・技術的には,歌声データさえあれば,機械学習によってほぼ全自動で制作可能である。
・世界中の個人にも参加してもらい,音楽制作における多様な声での歌声合成を実現することが望ましい。
・テキスト音声合成では,他社から既にそのようなサービスが出現している。
 図18は、本発明の一実施形態に係るサービスの機能概要を説明する図である。図18には、「voctrain機能概要」が記載されている。voctrainは、本発明の一実施形態に係るサービスの名称である。図18には、当該サービスにおいて提供されるユーザインタフェースの一例が示されている。
 図18の「voctrain機能概要」には、以下の内容が記載されている。
1.ユーザはWAVファイルを多数アップロードして保管できる。
 図19は、本発明の一実施形態に係るサービスの機能概要を説明する図である。図19には、「voctrain機能概要」が記載されている。図19には、当該サービスにおいて提供されるユーザインタフェースの一例が示されている。
 図19の「voctrain機能概要」には、以下の内容が記載されている。
2.ユーザはVOCALOID:AIボイスバンクを訓練できる。
・自身がアップロードし保管しているWAVファイルから,複数を選択して訓練ジョブを実行する。
・ファイルの組み合わせや種々の条件を変更して,複数回実行可能である。
 図20は、本発明の一実施形態に係るサービスの機能概要を説明する図である。図20には、「voctrain機能概要」が記載されている。図20には、当該サービスにおいて提供されるユーザインタフェース及び専用アプリケーション(専用アプリ)にダウンロードされた音波形の一例が示されている。
 図20の「voctrain機能概要」には、以下の内容が記載されている。
3.訓練完了後,ボイスバンクとサンプル合成音をダウンロードできる。
・ローカルPC上で専用のアプリを使うことで任意の歌声を合成できる。
 図20に示すように、ユーザインタフェースに表示された「ダウンロード」のアイコンを選択すると、選択されたアイコンとリンクする音波形がダウンロードされる。ダウンロードされたデータ(DLデータ)を専用アプリで表示した画面が図20に示されている。
 図21は、本発明の一実施形態に係るサービスにおける実装を説明する図である。図21には、実装に係る説明が記載されている。「実装」として、以下の項目が記載されている。
・AWS(Amazon Web Service)上での実装。
 「AWS上での実装」の項目には、以下の項目が記載されている。
・主要な利用サービス
・個人情報の保管
 「主要な利用サービス」の項目には、以下の内容が記載されている。
・EC2(Webサーバ,機械学習)
・S3(オーディオデータ,学習済みデータ保管)
・AWS Batch(ジョブ実行)
・RDS(ファイルリスト,ユーザ情報などのデータベース)
・Route53(DNS)
・Cognito(ユーザ認証)
・SES(通知メール配信)
 「個人情報の保管」の項目には、以下の内容が記載されている。
・RDSとCognitoに氏名・メールアドレスを保管
 図22は、本発明の一実施形態に係るサービスのシステム構成を説明する図である。図22では、一般ユーザによってアップロード(HTTPSファイルアップロード)された音声ファイルが訓練データ格納に格納されている。訓練データ格納に格納された音声ファイルが、ECS(Elastic Container Service)にコピー(データコピー)され、ECSにおいて音響モデルの訓練が実行される。訓練が実行されると、その結果が出力される。出力結果には、訓練済みボイスバンクファイル及びサンプル合成音が含まれる。出力結果は、直接又はロードバランサー(ALBロードバランサー)を介してWebサーバ(EC2 Webサーバ)に転送される。
 図23は、本発明の一実施形態に係るサービスについて、商用サービスとしての将来構想を説明する図である。図23には、商用サービスとしての将来構想に係る説明が記載されている。「商用サービスとしての将来構想」として、以下の事項が記載されている。
(C)ユーザがWeb上でVOCALOID:AIボイスバンクを売買する。
 (C)には、以下の内容が記載されている。
・スマホアプリストアのイメージ。
・ヤマハの商用歌声合成アプリ(VOCALOIDシリーズなど)で合成が可能になる。
・売り上げはボイスバンク制作ユーザに還元され,ヤマハは手数料をとる。
 図24は、本発明の一実施形態に係るサービスの構造イメージを説明する図である。図24に示すように、ボイスバンク制作・販売サービスは、ボイス販売の売上金から手数料をもらうビジネスである。利用者は、ボイス提供者及び音楽制作者である。事業としてボイスバンク学習サーバ及びボイスバンク販売サイトが実施される。
 ボイスバンク販売サイトは、制作ページ及び販売ページを含む。ボイス提供者は、制作ページに対して歌唱音源を提供(アップロード)する。歌唱音源をアップロードするときに、制作ページはボイス提供者に対して、歌唱音源を研究利用することについて許諾してもらう。音楽制作者が販売ページに対して購入代金を支払うことで、販売ページから音楽制作者にボイスバンクが提供される。
 事業者は、ボイスバンク販売サイトのサイト運営費を負担する代わりに、ボイスバンク販売サイトから販売手数料を事業者の収益として得る。ボイス提供者は、購入代金から手数料(販売手数料)を差し引いた額を収益として得る。
 ボイス提供者から提供された歌唱音源は、制作ページからボイスバンク学習サーバに提供される。ボイスバンク学習サーバは、研究利用が許諾された歌唱音源とボイスバンクとを事業者に提供する。事業者は、ボイスバンク学習サーバのサーバ運用費を負担し、事業者の研究成果をボイスバンク学習サーバに反映する。ボイスバンク学習サーバは、提供された歌唱音源に基づいて得られたボイスバンクを制作ページに提供する。
 なお、本発明は上記の実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、本発明に係る実施形態は以下の構成であってもよい。
[発明1-1]
[1.発明の概要]
 音響モデルの訓練制御方法において、
 端末からクラウドに予め複数の波形をアップロードし、前記アップロードされた波形の中から所望の波形を端末によって選択し、音響モデルの訓練ジョブの起動を指示したことに応じて、クラウドで、選択された波形を用いて、その音響モデルの訓練を実行し、訓練済みの音響モデルを端末に提供することによって、
 クラウド(サーバ)における音響モデルの訓練を、端末(デバイス)から効率的に制御する。
 ネットワークを介した機械学習システム。
[2.この発明の顧客価値]
 クラウドにおける訓練ジョブについて、端末からの制御が容易になる。
 訓練に使用する波形の組み合わせを変えながら、異なる音響モデルの訓練ジョブを、容易に起動して試すことができる。
[3.従来技術]
 クラウドにおける音響モデルの訓練
・端末は、訓練用の波形を、クラウドにアップロードする。
・クラウドは、アップロードされた波形を用いて音響モデルを訓練し、訓練済の音響モデルを端末に提供する。
・端末は、訓練の都度、波形をアップロードしないといけない。
[4.この発明の効果]
 クラウドにおける訓練ジョブについて、端末からの制御が容易になる。
[5.この発明の構成(構造、方法、工程、組成などの要点)]
[用語の定義]
 1以上のサーバ:単体のサーバや、複数のサーバで構成されるクラウドなどを含む。
 第1デバイス、第2デバイス:それぞれ、特定のデバイスではなく、第1ユーザが使用しているデバイスで、第2ユーザが使用しているデバイスが第2デバイス。第1ユーザが自分のスマートフォンを使用している間は、それが第1デバイスであり、共有のパソコンを使用している間は、それが第1デバイスである。
[基本システム]
(1) 音響特徴量を生成する音響モデルを訓練するシステム
 ネットワークに接続された、
 少なくとも第1ユーザの第1デバイスと、
 1以上のサーバと、
 を含み、
 前記第1デバイスは、前記第1ユーザによる制御の下で、
  予め、前記1以上のサーバに、複数の波形をアップロードし、
  前記アップロードされた波形の中から、一組の波形を選択し、
  前記音響モデルの訓練ジョブの起動を、前記1以上のサーバに指示し、
 前記1以上のサーバは、記第1デバイスからの起動指示に応じて、
  前記一組の波形を用いた、前記音響モデルの訓練ジョブを実行し、
  その訓練ジョブによって訓練済みになった音響モデルを、前記第1デバイスに提供する。
[他のユーザへの公開]
(2) (1)の機械学習システムにおいて、
 さらに、前記ネットワークに接続された、第2ユーザの第2デバイスを含み、
 前記第1デバイスは、前記第1ユーザによる制御の下で、
  前記起動された訓練ジョブの公開を、前記1以上のサーバに指示し、
 前記1以上のサーバは、前記公開の指示に応じて、
  前記実行された訓練ジョブの状態を示す情報を、前記第2デバイスに提供する。
(3) (2)の機械学習システムにおいて、
 前記訓練ジョブの状態は、時間の経過に応じて変化し、
 前記1以上のサーバは、
  前記実行された訓練ジョブの現時点の状態を示す情報を、前記第2デバイスに繰り返し提供する。
[複数訓練ジョブの並列実行]
(4) (1)の機械学習システムにおいて、
 前記第1デバイスは、前記第1ユーザによる制御の下で、
  並列に、複数組の波形を選択して、対応する複数の訓練ジョブの起動を、前記1以上のサーバに対して指示することができ、
 前記1以上のサーバは、それら複数の起動指示に応じて、
  並列に、前記複数組の波形を使用した前記複数の訓練ジョブを実行する。
(5) (4)の機械学習システムにおいて、
 さらに、前記ネットワークに接続された、第2ユーザの第2デバイスを含み、
 前記第1デバイスは、前記第1ユーザによる制御の下で、
  前記実行された複数の訓練ジョブのうち、所望の訓練ジョブの公開を、前記1以上のサーバに選択的に指示し、
 前記1以上のサーバは、前記公開の指示に応じて、
  前記実行中の複数の訓練ジョブのうち、前記選択的に公開が指示された訓練ジョブに関する情報を、前記第2デバイスに提供する。
[オンライン課金]
(6) (1)の機械学習システムにおいて、
 前記1以上のサーバは、記第1デバイスからの起動指示に応じて、
  前記訓練ジョブ実行の対価を、前記第1ユーザに対して、課金し、
  前記音響モデルの訓練ジョブの実行、および、前記訓練済みの音響モデルの前記第1デバイスへの提供は、前記課金が成功した場合に、実行される。
[カラオケルーム課金]
(7) (1)の機械学習システムにおいて、
 前記第1デバイスは、前記第1ユーザがレンタルした部屋に設置され、前記訓練ジョブ実行の対価は、その部屋のレンタル費用に含まれる。
(8) (7)の機械学習システムにおいて、
 前記部屋は、伴奏再生用のヘッドフォンと、収音用のマイクとを備えた防音室である。
[楽曲の推薦]
(9) (1)の機械学習システムにおいて、
 前記1以上のサーバは、
  前記アップロードされた複数の波形を分析し、
  その分析結果に基づき、前記第1ユーザに適した楽曲を選択し、
  前記選択された楽曲を示す情報を、前記第1デバイスに提供する。
(10) (9)の機械学習システムにおいて、
  前記分析結果は、前記第1ユーザが得意な演奏音域、前記第1ユーザが好きな音楽ジャンル、前記第1ユーザが好きな演奏スタイル、の何れか1以上を示す。
(11) (9)の機械学習システムにおいて、
  前記分析結果は、第1ユーザの演奏スキルを示す。
[6.追加説明]
 複数の音波形からユーザによって選択された音波形を用いて訓練ジョブを実行させる前段階として、ユーザにそのようなインタフェースを提供する。
 本開示は、波形がアップロードされることが前提だが、その本質的な部分は、アップロード済みの波形からユーザによって選択された波形を使って訓練することである。そのため、予めどこかに存在していればよいので「予め登録された」という表現が用いられている。
 実際のサービスでは、デバイス単位でIDが割り振られるのではなく、ユーザ単位でIDが割り振られる可能性が高い。
 ユーザは複数のデバイスを用いてサービスにログインすることが想定されるため、指示をする主体、及び訓練された音響モデルの提供先が「第1ユーザ」と規定される。
 他のユーザへの公開では、訓練の進行状況や完成度が公開される。公開する情報によって、訓練によって練り上げられている途中のパラメータを確認することができ、その時点でのパラメータを用いた音声を試聴することができる。
 ボイスバンク作製者は、公開された情報に基づいて、訓練を完了させることができる。訓練ジョブにかかる費用が従量制である場合、作製者は訓練の完成度合と費用とのバランスを考えて訓練を実行することができるため、作製者への訓練の程度に対する自由度を高くすることができる。
 一般ユーザは、訓練の進捗を見ながら、ボイスバンクが完成していく様子を楽しむことができる。
 現在の完成度を数値やプログレスバーで表示する。
 カラオケルームにおいて本開示が実施されてもよい。その場合、カラオケルームのレンタル費用に訓練ジョブの対価を加えてもよい。
 カラオケルームを「レンタルした空間」と定義してもよい。部屋以外の具体的な構成を想定している訳ではないが、「部屋」に限定解釈されないようにするためである。
 ユーザアカウントとルームIDとを関連付けてもよい。
 音波形に加えて伴奏(音程データ)及び歌詞(テキストデータ)を付加情報として音波形に付加してもよい。
 録音期間を区切ってもよい。
 アップロード前に録音した音声を確認してもよい。
 課金をする場合、CPを使った量に応じて金額を決定してもよく(完全従量制)、基本料金+従量制で決定してもよい(オンライン課金)。
 カラオケルームで音波形の録音及びアップデートを行うことができる(以下、カラオケルーム課金という)。
 音波形のアップデート及び訓練ジョブを行うサービスに対するユーザアカウントとカラオケルームのルームIDとを関連付けることで、アップロードされた音波形を特定するアップロードIDに対するユーザアカウントの特定を行ってもよい。
 ユーザアカウントとルームIDとの関連付けは、カラオケルームの予約時に行ってもよい。
 カラオケ利用時に録音をする期間を指定できるようにする。曲単位で録音の実行有無を指定してもよく、曲の中で所定の期間を録音するようにしてもよい。
 アップロードする前に、録音したデータを試聴してから、アップロード要否を判断してもよい。
 音楽のジャンルは、曲によって決まるものである。例えば、音楽のジャンルは、ロック、レゲエ、R&Bなどのジャンルを指す。
 演奏スタイルは、歌い方によって決まるものである。同じ曲でも演奏スタイルは変わる。例えば、演奏スタイルは、笑顔での歌唱、暗い雰囲気での歌唱などを指す。例えば、ビブラートというのは「ビブラートを多用する演奏スタイル」のことであって、ピッチも音量も音色も、またそれらの動的挙動も一貫して全体的にスタイルによって変わる。
 演奏スキルは、コブシなどの歌唱技術を指す。
 AIを用いて、歌声から音楽のジャンル、演奏スタイル、演奏スキルを認識することができる。
 アップロードされた音波形から、不足している音域や音の強度を把握することができる。よって、ユーザに対して、不足した音域や音の強度を含む楽曲を推薦することができる。
[発明1-2]
[1.発明の概要]
 第1入力データと第1音響特徴量とを含む訓練データを用いて、未知の入力データに応じた音響特徴量を生成するよう訓練された音響モデルに関する表示方法において、
 前記音響モデルに、その訓練に用いた前記第1入力データに関する履歴データが付与されており、前記音響モデルを用いた音生成に先立ち、又は、その音生成中に、前記履歴データに応じた表示を行う。
 ユーザは、訓練済みの音響モデルの能力を把握できる。
 音響モデルの訓練履歴を利用する。
[2.この発明の顧客価値]
 ユーザは、履歴データに基づいて、音響モデルの得意不得意を知ることができる。
[3.従来技術]
 音響モデルの訓練/JP6747489
・音響モデルに基本訓練した後に、必要に応じて、追加訓練を行うことができる。
・ユーザにとって、基本訓練に使用する波形が十分かどうか、判断するのが難しい。
・ユーザにとって、追加訓練にどのような波形を使うのが良いか、判断するのが難しい。
 音響モデルを用いた音生成
・音響モデルを用いて入力データを処理して、音を生成するとき、その入力データが、その音響モデルの訓練済み領域にあるのか、未訓練の領域にあるのか、ユーザにとって、判断するのが難しい。
[4.この発明の効果]
 ユーザは、履歴データに基づいて、音響モデルの得意不得意を知ることができる。
[5.この発明の構成(構造、方法、工程、組成などの要点)]
(1) コンピュータで実現される、音響モデルに関する情報表示方法
 前記音響モデルは、第1入力データと第1音響特徴量とを含む訓練データを用いて、未知の第2入力データに応じた音響特徴量を生成するよう訓練されており、また、その訓練に用いた前記第1入力データに関する履歴データが付与されており、
 前記音響モデルを用いた音生成に関連して、前記履歴データに応じた表示を行う。
[音響モデルの習熟状況を表示]
(2) (1)の表示方法において、
 前記表示ステップは、前記第2入力データが示す何れかの特徴に関して、前記履歴データに基づき、前記音響モデルの習熟状況を表示する。
※音響モデルが、どういう入力データに習熟しているか、が表示される。
(3) (2)の表示方法において、
 分布が表示される習熟状況は、前記第2入力データが示す音高、強度、音韻、音長、スタイルの何れかの特徴に関する。
※例えば、習熟している音高や強度の範囲が表示される。
※例えば、習熟しているスタイルが表示される。
[楽曲ごとの得意度を表示]
(4) (1)の表示方法において、
 前記表示ステップは、ある楽曲から生成される第2入力データに基づく音生成に関連して、その第2入力データと前記履歴データとに基づき、前記音響モデルの当該楽曲に関する得意度を推定して表示する。
※音響モデルが、音生成しようとしている楽曲を得意とするか否か、が表示される。
(5) (4)の表示方法において、
 前記推定して表示するステップは、
  前記音響モデルの得意度を、当該楽曲の(時間軸上の)各部分ごとに推定し、
  前記推定された得意度を、当該楽曲の各部分に対応付けて表示する。
※例えば、その色を得意度に応じて変えながら(得意な音符は青、不得意な音符は赤など)、楽曲の各音符を表示する。
(6) (4)の表示方法において、
 前記分布が表示される得意度は、前記楽曲の第2入力データが示す音高、強度、音韻、音長、スタイルの何れかの1以上の特徴に関する。
[得意度に基づく推薦曲を表示]
(7) (1)の表示方法において、
 前記表示ステップは、
  複数の楽曲の第2入力データと前記履歴データとに基づき、各楽曲の得意度を推定し、
  前記複数の楽曲のうちの前記推定された得意度が高い楽曲を、推薦曲として表示する。
[得意度をリアルタイムに表示]
(8) (1)の表示方法において、
 前記表示ステップは、
  前記音響モデルを用いた音生成の実行中に、その音生成に係る前記第2入力データをリアルタイムに受け取り、
  前記受け取った第2入力データと前記履歴データとに基づいて、前記音響モデルの得意度をリアルタイムに取得して表示する。
[6.追加説明]
 例えば、音強、音高をxy軸として、各点における習熟度を色表示又はz軸表示としてもよい。
 習熟状況は、例えば、第2入力データが男性の声で歌うデータの場合に、その場合に対する学習モデルの適性度を、例えば「xx%」という形で表示する。
 習熟状況は、歌いたい曲がまだ特定されていない状況において、どの範囲の音をよく学習しているか、を示すものである。一方、得意度は、曲が決まった後に、その曲が含む音の範囲とその音の範囲における習熟状況とに応じて、算出されるものである。
 作成したい楽曲が特定された場合に、その楽曲に対して、現在のボイスバンクがどの程度適しているか(得意度)を判断する。例えば、その楽曲で使われる音の強度、音域の習熟状況が十分か否かを判断する。
 得意度の判断は、楽曲単位だけでなく、ある楽曲の中のある区間に対して行うこともできる。
 演奏スタイルを学習していれば、スタイルに応じて推薦するMIDIデータを選択もできる。
 推薦曲として、学習に用いた楽曲とそれに類似した楽曲とが選択される。この場合、スタイルを学習していれば、そのスタイルに応じた楽曲を推薦することができる。
[発明1-3]
[1.発明の概要]
 複数の波形を用いて音響モデルの訓練する方法において、
 前記訓練に使用される又は使用された波形の特性分布を取得し、前記取得された特性分布を表示することによって、
 音響モデルの訓練状況をユーザが把握できる。
 訓練に用いる波形セットの傾向を表示する。
[2.この発明の顧客価値]
 ユーザは、訓練で不足している波形を特定して準備することで、音響モデルの訓練を効率的に行える。
[3.従来技術]
 音響モデルの訓練/JP6747489
・音響モデルに基本訓練した後に、必要に応じて、追加訓練を行うことができる。
・ユーザにとって、基本訓練に使用する波形が十分かどうか、判断するのが難しい。
・ユーザにとって、追加訓練にどのような波形を使うのが良いか、判断するのが難しい。
[4.この発明の効果]
 ユーザは、基本訓練に使用する波形が十分かどうかを、表示を見て判断できる。
 ユーザは、どういう波形が足りないのかを、表示を見て判断できる。
[5.この発明の構成(構造、方法、工程、組成などの要点)]
[訓練データの分布表示]
(1) コンピュータで実現される、複数の波形を用いて音響モデルの訓練する方法において、
 前記訓練に使用される又は使用された波形のうちの何れかの特性分布を取得し、
 前記取得された特性分布又はその特性分布に関する情報を表示する。
[発明の効果]
 音響モデルの訓練状況をユーザが把握できる。
※例:音高方向又は強度方向のヒストグラムを表示する。
(2) (1)の訓練方法において、
 前記取得される特性分布は、音高、強度、音韻、音長、スタイルのうちの1以上の特性の分布である。
(3) (1)の訓練方法において、
 前記取得され表示される特性分布は、前記複数の波形の第1特性と第2特性の2次元分布である。
※例:音高と強度の2次元ヒストグラムを表示する。
(4) (1)の訓練方法において、
 前記取得ステップでは、
  前記複数の波形の第1特性と第2特性とを検出し、
  前記複数の波形のうち、その前記第1特性が所定値である波形の前記第2特性の分布を取得し、
 前記表示ステップでは、
  前記取得された第2特性の分布を表示する。
※例:強度が強又は弱の波形の、音高方向のヒストグラムを表示する。
※例:音長が短いスタッカート波形の、音高方向のヒストグラムを表示する。
[不足データの指摘]
(5) (1)の訓練制御方法において、さらに、
 前記取得された特性分布における隙間を検出し、
 前記表示ステップでは、
  前記検出された隙間に関する情報を表示する。
(6) (5)の訓練制御方法において、
 前記隙間に関する情報は、前記隙間の特性値を示す。
※ユーザは、その隙間の特性値を認識して、そこを埋める波形を準備できる。
(7) 〔5〕の訓練制御方法において、さらに、
 前記隙間を埋めるのに適した楽曲を特定するステップを含み、
 前記隙間に関する情報は、前記特定された楽曲を示す。
※ユーザは、表示された楽曲を演奏して録音し、その隙間を埋めることができる。
[6.追加説明]
 習熟状況(特性分布)の具体例として、例えば、横軸に音の強度、縦軸に音域として二次元のグラフ上に訓練の習熟度をカラーで表示してもよい。
 訓練に使用する予定の波形を選択(例えば、チェックボックスをチェック)すると、当該波形の特性分布をレビューすることができる。このような構成によって、訓練に足りない特性を視認することができる。
 (6)の「隙間の特性値」は、特性分布のうち、どの音が不足しているかを示す。
 (7)の「楽曲を特定」は、その不足した音を補うために適した曲を推薦することを意味する。
[発明1-4]
[1.発明の概要]
 シンボル(テキストor楽譜)に基づき音響特徴量を生成する音響モデルの訓練方法において、
 受け取った複数の波形を分析し、目的の音色の音が含まれる区間を検出し、検出された区間の波形を用いて、前記音響モデルを訓練することによって、
 より品質の高い音響モデルを確立する。
 訓練に使用する波形の自動選別。
[2.この発明の顧客価値]
 ユーザが選択した波形に基づき、より品質の高い音響モデルが確立できる。
[3.従来技術]
 音響モデルの訓練/JP6747489
・音響モデルに基本訓練した後に、必要に応じて、追加訓練を行うことができる。
・訓練に使用する波形の品質によって、音響モデルの品質が大きな影響を受ける。
・ユーザにとって、訓練に使用する波形を選別するのが面倒である。
 訓練データの選別/JP4829871
・音声認識モデルの訓練に適した訓練データを自動選択する。
・音声認識モデルの認識スコアを向上させるための音声データを自動選択するものであり、音声合成や歌唱合成の訓練に適した音声データの選択には簡単に適用できない。
[4.この発明の効果]
 ユーザが選択した波形に基づき、より品質の高い音響モデルが確立できる。
[5.この発明の構成(構造、方法、工程、組成などの要点)]
(1) シンボル列(テキストor楽譜)に基づき音響特徴量を生成する音響モデルの訓練方法において、
 入力波形を受け取り、
 前記入力波形を分析し、
 その分析結果に基づいて、特定音色の音が含まれる複数の区間を検出し、
 前記複数の区間の波形を用いて、前記音響モデルを訓練する。
[ユーザが最終判断]
(2) (1)の訓練方法であって、さらに、
 前記入力波形の時間軸に沿って、前記検出された複数の区間を表示し、
 ユーザの操作に応じて、前記複数の区間の少なくとも1区間を調整する。
 ここで、前記音響モデルの訓練ステップは、調整された区間を含む前記複数の区間の波形を用いて実行される。
(3) (2)の訓練方法であって、
 前記調整は、前記1区間の境界の変更、削除、追加の何れかである。
(4) (2)の訓練方法であって、
 前記調整を行う区間の波形を再生する。
[無音の除去および特定音色の判定]
(5) (1)の訓練方法であって、
 前記分析ステップでは、
  前記入力波形の時間軸に沿って音の有無を判定し、
  そこで有音とされた区間の波形の音色を判定し、
 前記検出ステップでは、
  前記判定された音色が前記特定音色である前記複数の区間が検出される。
[特定音色以外の伴奏音やノイズの除去]
(6) (1)の訓練方法であって、
 前記分析ステップでは、
  少なくとも前記有音とされた区間の波形から、前記特定音色の波形が分離され、
 前記音響モデルの訓練には、前記複数の区間の前記分離された波形が用いられる。
(7) (6)の訓練方法であって、
 前記分離ステップでは、
  伴奏音、残響音、雑音のうちの少なくとも1が除去される。
[既存コンテンツの著作権の保護]
(8) (1)の訓練方法であって、
 前記分析ステップでは、
  前記入力波形に、少なくとも部分的な既存コンテンツの混入の有無を判定し、
前記検出ステップでは、
  前記入力波形のうち、前記既存コンテンツを含まない区間から、前記特定音色の音が含まれる複数の区間を検出する。
[6.追加説明]
 本開示は、入力データが提供されると音波形を合成するための音響特徴量を生成する音響モデルの訓練方法である。
 本開示は、シンボル列に基づく音響特徴量を生成するという点において、JP4829871の音声認識とは異なる。
 所望の音色が含まれている区間のみを使って、効率良く音響モデルを訓練することができる(不要な領域、ノイズ等を除外した訓練が可能になる)。
 選択された波形の区間を調整することで、ユーザの希望に応じた区間を用いて音響モデルの訓練を実行することができる。
 音の有無を判定する際に、音量について一定の閾値に基づいて判断してもよい。例えば「有音区間」は、音量レベルが一定以上の部分であってもよい。
[発明1-5]
[1.発明の概要]
 音響モデルの販売方法において、
 それぞれ、付加情報が付与された複数の音響モデルをユーザに供給し、そのユーザにより、前記複数の音響モデルのうちから何れか1の音響モデルが選択され、そのユーザにより、参照音響信号が用意され、そのユーザによって選択された音響モデルの付加情報が再訓練の許可を示していることを条件に、そのユーザが用意した参照音響信号を用いて、当該音響モデルを訓練し、その訓練の結果として得られる訓練済み音響モデルを、そのユーザに提供する、ことによって、
 作成者は、複数の音響モデルの一部を選択的にベースモデルとして供給し、ユーザは、そのベースモデルを用いて容易に音響モデルを作成できる。
[2.この発明の顧客価値]
 作成者は、作成した音響モデルの一部を選択的に、ベースモデルとして供給し、
 ユーザは、その提供されたベースモデルを用いて、新たな音響モデルを容易に作成できる。
[3.従来技術]
 音響モデルの訓練/JP6747489
・音響モデルに基本訓練した後に、必要に応じて、追加訓練を行うことができる。
・訓練に使用する波形の品質によって、音響モデルの品質が大きな影響を受ける。
・ユーザにとって、訓練に使用する波形を選別するのが面倒である。
 ユーザモデルの販売/JP6982672
・第1者が公開した第1モデルを、第2者が再学習させ、第2モデルを生成して公開する。
・その第2モデルが売れたら、その報酬を第1者と第2者とで分配する。
・モデルを一旦公開してしまうと、第3者によって、自由に再学習に使用されてしまう。
本発明によれば、再学習に使用されないように、公開することができる。
[4.この発明の効果]
 作成者は、作成した音響モデルの一部を選択的に、ベースモデルとして供給し、
 ユーザは、その提供されたベースモデルを用いて、新たな音響モデルを容易に作成できる。
[5.この発明の構成(構造、方法、工程、組成などの要点)]
(1) (ユーザへの)音響モデルの提供方法において、
 それぞれ、対応する付加情報が付与された複数の音響モデルを(前記ユーザが)入手し、
 (前記ユーザが)参照音響信号を用意し、
 (前記ユーザが)前記複数の音響モデルのなかから何れか1の音響モデルを選択し、
 (前記ユーザの指示に応じて)前記選択された1の音響モデルの付加情報が再訓練のベースモデルとしての利用可能であることを示すこと条件に、少なくとも前記参照音響信号を用いて、当該1の音響モデルを再訓練し、
 その再訓練の結果として得られる再訓練済み音響モデルを(前記ユーザに)提供する。
[発明の効果]
 作成者は、複数の音響モデルの一部を選択的にベースモデルとして供給し、ユーザは、そのベースモデルを用いて容易に音響モデルを作成できる。
(2) (1)の提供方法において、
 前記付加情報は、再訓練のベースモデルとして利用可能又は利用不可能であることを示す許可フラグを含む。
[発明の効果]
 再学習をクラウドで行う場合、許可フラグでの制限がシンプルかつ容易である。
(3) (1)の提供方法において、
 前記複数の音響モデルに対し、個々に異なる訓練プロセスが規定されており、
 前記付加情報は、前記1の音響モデルの訓練プロセスを示す手順データであり、
 前記再訓練ステップにおいて、
  前記1の音響モデルは、前記手順データの示す訓練プロセスを行うことで、再訓練される。
[発明の効果]
 追加訓練されたくない音響モデルを、より強力に保護することができる。なぜなら、訓練プロセスが不明であれば、追加訓練を行うことができないからである。
(4) (1)の提供方法において、
 各付加情報は、対応する音響モデルの特徴を示し、
 前記選択ステップにおいては、
  前記参照音響信号の特性を分析し、
  前記分析された特性と各音響モデルの付加情報が示す特徴とに基づいて、前記複数の音響モデルのなかから前記何れか1の音響モデルを選択する。
[発明の効果]
 参照音響信号の特性に適合した音響モデルを選択することで、追加学習をより効率的に行うことができる。
(5) (1)の提供方法において、
 1のテスト曲を、前記複数の各音響モデルで処理することにより、その曲の複数の音響信号を生成し、
 前記選択するステップにおいては、
  生成された複数の音響信号に基づいて、前記1の音響モデルが選択される。
[発明の効果]
 各音響モデルの生成する音響信号に応じて、何れか1の音響モデルを選択できる。
(6) (5)の提供方法において、
 前記選択ステップにおいては、
  前記参照音響信号の特性と、前記複数の各音響信号の特性とを分析し、
  前記参照音響信号の特性と、前記各音響信号の特性とに基づいて、前記複数の音響モデルのなかから前記何れか1の音響モデルを選択する。
[発明の効果]
 付加情報が各音響モデルの特徴を示さない場合でも、参照音響信号の特性に適合した音響モデルを選択することで、追加学習をより効率的に行うことができる。
(7) (1)の提供方法において、
 前記複数の音響モデルは、1以上の作成者により、作成されており、
 各作成者は、自分が訓練して作成した音響モデルに、前記ベースモデルとして利用可能であることを示す付加情報または利用不可能であることを示す付加情報を付与して、(前記ユーザに)販売する。
 前記入手ステップにおいて、
  前記複数の音響モデルは、前記販売された複数の音響モデルを(前記ユーザが)購入することにより、入手される。
[発明の効果]
 作成者は、自分の作成した音響モデルを(前記ユーザに)販売する際に、ベースモデルとして利用可能又は利用不可能であることを指定できる。
(8) (7)の提供方法において、さらに、
 (前記ユーザは)前記提供された再訓練済み音響モデルに、前記ベースモデルとして利用可能であることを示す付加情報または利用不可能であることを示す付加情報を付与して、(自身が作成者として別のユーザに)販売する。
[発明の効果]
 ユーザは、自分が再訓練した音響モデルを、(自身が作成者として)ベースモデルとして利用可能又は利用不可能であることを指定しつつ、(別のユーザに)販売できる。
(9) (7)の提供方法において、さらに、
 (前記ユーザは)前記提供された再訓練済み音響モデルを、(自身が作成者として別のユーザに)販売する。
 前記前記再訓練における、前記再訓練済み音響モデルの前記1の音響モデルからの変化度を算出し、
 前記販売された再訓練済み音響モデルが売れたとき、その対価を、前記算出された変化度に基づいて、(ユーザとベースモデルの作成者とで)分配する。
[発明の効果]
 ユーザは、自分の行った再訓練の程度に応じた対価を得ることができる。
(10) (7)の提供方法において、
 前記作成者が音響モデルに付与する前記利用可能であることを示す付加情報は、前記作成者の取り分を示し、
 さらに、
 (前記ユーザは)前記提供された再訓練済み音響モデルを、(自身が作成者として別のユーザに)販売する。
 前記販売された再訓練済み音響モデルが売れたとき、その対価を、前記1の音響モデルに付与された前記付加情報が示す取り分に基づいて、(ユーザとベースモデルの作成者とで)分配する。
[発明の効果]
 ベースモデルの作成者は、ユーザの再訓練済み音響モデルが売れたとき、その対価の一部を受け取ることができる。
(11) (1)の提供方法において、
 前記複数の音響モデルには、ベースモデルとして利用可能であることを示す付加情報が付与された、未訓練の音響モデルが含まれる。
[発明の効果]
 ユーザは、未訓練の音響モデルを、ゼロから訓練することができる。
(12) (1)の提供方法において、
 前記複数の音響モデルには、ベースモデルとして利用可能であることを示す付加情報が付与された、音色種別ごとに、その音色種別の基礎訓練がされた普遍的な音響モデルが含まれる。
[発明の効果]
 ユーザは、目的の音色種別に応じた、普遍的な音響モデルを起点に、再学習させることができる。
[6.追加説明]
 異なる音響モデルによって訓練されることが想定される。異なる音響モデルとは、例えば、ニューラルネットワーク(NN)が異なる、NNの接続関係が異なる、NNのサイズ、深さが異なる、等の構成が想定される。異なる音響モデル間において、訓練プロセスが分からないことは、前記再訓練ができないことを意味する。
「手順データ」がプロセス自体を示すデータであってもよく、プロセスを識別可能な識別子であってもよい。
 適した1つの音響モデルを選択するに当たり、訓練用の音波形である「参照音響信号」の元である楽曲データ(MIDI)を音響モデルに入れることで生成された音響特徴量を用いてもよい。
 オリジナルの音響モデル作成者が、自分が作成した音響モデルに対して、ベースモデルとしての利用可否を決める付加情報を付与してもよい。
 音響モデルを販売、購入できるようにしてもよい。
 作成者に第1付加情報を付与させる場合には、作成者に対して第1付加情報を付与させるためのインタフェースを提供してもよい。
 音響モデルを訓練したユーザが、訓練済み音響モデルに対して、訓練のベースモデルとしての利用可否を決める付加情報を付与してもよい。
 訓練による音響モデルの変化度に基づいて対価を算出してもよい。
 オリジナルの音響モデル作成者が取り分を予め決定してもよい。
 「初期化された音響モデル」に対して、初期化されたことを示す識別子が付与されるのであれば、識別子を規定してもよい。
[発明を特定する構成要件]
 以下の構成要件を特許請求の範囲として記載してもよい。
[構成要件1]
 音響特徴量を生成する音響モデルに対して、予め登録された複数の音波形から、第1訓練ジョブを実行させるための一以上の音波形を選択させるインタフェースを第1ユーザに提供する訓練方法。
[構成要件2]
 音響特徴量を生成する音響モデルに対して、予め登録された複数の音波形から第1ユーザの指示に基づいて選択された一以上の音波形を用いた第1訓練ジョブを実行し、
 前記第1訓練ジョブによって訓練された前記音響モデルを前記第1ユーザに提供する訓練方法。
[構成要件3]
 前記第1ユーザの公開指示に基づいて、前記第1訓練ジョブの状態を示す情報を、前記第1ユーザとは異なる第2ユーザに公開する、請求項2に記載の訓練方法。
[構成要件4]
 前記第1訓練ジョブの状態を示す情報を第1端末に表示することで前記第1ユーザに公開し、前記第1訓練ジョブの状態を示す情報を前記第1端末とは異なる第2端末に表示することで前記第2ユーザに公開する、請求項2に記載の訓練方法。
[構成要件5]
 前記第1訓練ジョブの状態は、時間経過に応じて変化し、
 前記第1訓練ジョブの状態を示す情報を前記第2ユーザに繰り返し提供する、請求項3または4に記載の訓練方法。
[構成要件6]
 前記第1訓練ジョブの状態を示す情報は、前記第1訓練ジョブの完成度を含む、請求項3または4に記載の訓練方法。
[構成要件7]
 前記公開指示に基づいて、前記公開指示のタイミングに応じた前記音響モデルを前記第1ユーザに提供する、請求項3に記載の訓練方法。
[構成要件8]
 前記第1ユーザの指示に基づいて、
  アップロードされた複数の音波形から他の一組の音波形を選択し、
  前記音響モデルに対して、前記他の一組の音波形を用いた第2訓練ジョブを起動し、
  前記第1訓練ジョブ及び前記第2訓練ジョブを並行して実行する、請求項2に記載の訓練方法。
[構成要件9]
 前記第1ユーザの公開指示に基づいて、前記第1訓練ジョブの状態を示す情報及び前記第2訓練ジョブの状態を示す情報を、選択的に、前記第1ユーザとは異なる第2ユーザに公開する、請求項8に記載の訓練方法。
[構成要件10]
 前記第1ユーザの指示に応じて、前記第1ユーザに対して課金し、
 前記課金が成功した場合に、前記第1訓練ジョブを実行する、請求項2に記載の訓練方法。
[構成要件11]
 前記第1ユーザがレンタルした空間を特定する空間IDを受信し、
 前記訓練方法を提供するサービスに対する前記第1ユーザのアカウントと、前記空間IDとを関連付ける、請求項2に記載の訓練方法。
[構成要件12]
 前記空間において提供された、曲を構成する音を示す音高データ及び曲の歌詞を示すテキストデータと、前記曲の提供期間の少なくとも一部における歌唱が収録された音声データを受信し、
 前記音声データを前記アップロードされた音波形として、前記音程データ及び前記テキストデータと関連付けて格納する、請求項11に記載の訓練方法。
[構成要件13]
 前記第1ユーザの録音指示に基づいて、前記提供期間のうち指定された期間の音声データのみを収録する、請求項12に記載の訓練方法。
[構成要件14]
 前記第1ユーザの再生指示に基づいて、受信した前記音声データを前記空間において再生し、
 前記再生指示によって再生した前記音声データを前記第1ユーザの指示に基づいて選択可能な前記複数の音波形の一つとして登録するか否かを前記第1ユーザに問い合わせる、請求項12に記載の訓練方法。
[構成要件15]
 前記アップロードされた音波形を分析し、
 前記分析によって得られた結果に基づいて、前記第1ユーザに対応する楽曲を特定し、
 特定された前記楽曲を示す情報を前記第1ユーザに提供する、請求項2に記載の訓練方法。
[構成要件16]
 前記分析結果は、演奏音域、音楽ジャンル、及び演奏スタイルの少なくともいずれか一を示す、請求項15に記載の訓練方法。
[構成要件17]
 前記分析結果は、演奏スキルを示す、請求項15に記載の訓練方法。
[構成要件18]
 音響特徴量を生成する音響モデルに関連する情報を表示する方法であって、
 前記音響モデルの訓練に関連する複数の音波形に対応する特性分布を取得し、
 前記特性分布に関する情報を表示する表示方法。
[構成要件19]
 前記音響モデルの訓練に関連する音波形は、前記訓練に使用される音波形又は前記訓練に使用された音波形を含む、請求項18に記載の表示方法。
[構成要件20]
 前記取得される前記特性分布は、音高、強度、音韻、音長、スタイルのうち1以上の特性の分布を含む、請求項18に記載の表示方法。
[構成要件21]
 前記表示される前記特性分布は、前記特性分布に含まれる特性のうち第1特性と第2特性との2次元分布である、請求項18に記載の表示方法。
[構成要件22]
 前記特性分布を前記取得することは、
  前記特性分布に含まれる特性のうち第1特性と第2特性とを抽出し、
  前記第1特性が所定の範囲に含まれる場合の前記第2特性の分布を取得する
 ことを含み、
 前記特性分布を前記表示することは、前記取得された前記第2特性の分布を表示することを含む、請求項18に記載の表示方法。
[構成要件23]
 前記取得された前記特性分布において、所定の条件を満たす領域を検出し、
 前記領域を表示する、請求項18に記載の表示方法。
[構成要件24]
 前記領域を前記表示することは、前記領域に係る特徴値を表示することを含む、請求項23に記載の表示方法。
[構成要件25]
 前記領域を前記表示することは、前記領域に対応する楽曲を表示することを含む、請求項23に記載の表示方法。
[構成要件26]
 前記音響モデルは、第1入力データ及び第1音響特徴量を含む訓練データを用いて訓練されたモデルであって、第2入力データが提供されると第2音響特徴量を生成するモデルであり、
 前記音響モデルの訓練に関連する音波形として、前記第1入力データに関する履歴データの音波形を取得し、前記履歴データに対応する前記特性分布を取得し、
 前記履歴データに対応する前記特性分布に関する情報を表示する、請求項18に記載の表示方法。
[構成要件27]
 前記第2入力データが示す任意の特性について、前記履歴データに基づき、前記音響モデルの学習状況を表示する、請求項26に記載の表示方法。
[構成要件28]
 前記任意の特性は、音高、強度、音韻、音長、及びスタイルの特性の少なくとも一つを含む、請求項27に記載の表示方法。
[構成要件29]
 楽曲を生成するために必要な前記第2入力データと前記履歴データとに基づき、前記楽曲に対する評価を行い、前記評価の結果を表示する、請求項26に記載の表示方法。
[構成要件30]
 前記楽曲を時間軸上で複数の区間に区分し、
 前記区間毎に前記楽曲に対する評価を行い、前記評価の結果を表示する、請求項29に記載の表示方法。
[構成要件31]
 前記評価の結果は、前記楽曲を生成するために必要な前記第2入力データが示す音高、強度、音韻、音長、及びスタイルの特性の少なくともいずれか一つを含む、請求項29に記載の表示方法。
[構成要件32]
 複数の楽曲を生成するために必要な前記第2入力データと前記履歴データとに基づき、前記複数の楽曲の各々に対する評価を行い、
 前記評価の結果に基づき、前記複数の楽曲から少なくとも一の楽曲を表示する、請求項26に記載の表示方法。
[構成要件33]
 前記音響モデルによって音を生成する際に、生成された音に対する前記第2入力データを受け取り、
 前記受け取った前記第2入力データと前記履歴データとに基づき、生成された前記第2音響特徴量に対する評価を行い、
 前記第2入力データとともに前記評価の結果を表示する、請求項26に記載の表示方法。
[構成要件34]
 シンボル列に基づく音響特徴量を生成する音響モデルの訓練方法であって、
 訓練に用いる音波形のうち、所定の条件を満たす特定区間を検出し、
 前記特定区間に含まれる前記音波形に基づいて前記音響モデルを訓練する訓練方法。
[構成要件35]
 入力データが提供されると音波形を合成するための音響特徴量を生成する音響モデルの訓練方法であって、
 訓練に用いる音波形のうち、所定の条件を満たす特定区間を検出し、
 前記特定区間に含まれる前記音波形に基づいて前記音響モデルを訓練する訓練方法。
[構成要件36]
 前記音波形の時間軸に沿って、複数の前記特定区間を検出し、
 前記複数の前記特定区間を表示し、
 ユーザの指示に基づき、表示された前記複数の前記特定区間のうち少なくとも1つの区間を時間軸の方向に調整する、請求項34または35に記載の訓練方法。
[構成要件37]
 前記音波形の時間軸に沿って、複数の前記特定区間を検出し、
 前記複数の前記特定区間を表示し、表示された前記複数の前記特定区間のうち少なくとも1つの区間を時間軸の方向に調整するためのインタフェースをユーザに提供する、請求項34または35に記載の訓練方法。
[構成要件38]
 前記調整は、前記少なくとも1つの区間の境界の変更、削除、又は追加である、請求項36に記載の訓練方法。
[構成要件39]
 前記調整が行われる対象の区間であって、前記少なくとも1つの区間に含まれる前記音波形に基づく音を再生する、請求項36に記載の訓練方法。
[構成要件40]
 前記特定区間を検出することは、
  前記音波形の時間軸に沿って、前記音波形における有音区間を検出し、
  検出された前記有音区間における前記音波形の第1音色を判定し、
  前記第1音色が前記特定音色に含まれる前記特定区間を検出することを含む、請求項34または35に記載の訓練方法。
[構成要件41]
 前記特定区間を検出した後に、前記音波形の時間軸に沿って、前記音波形における有音区間が検出された前記特定区間の波形から、前記特定音色の波形を分離し、前記特定区間に含まれる前記音波形に代えて、前記分離された前記特定音色の波形に基づいて前記音響モデルを訓練する、請求項34または35に記載の訓練方法。
[構成要件42]
 前記分離によって、前記音波形の時間軸の各時点において前記音波形とともに再生された音(伴奏音)、前記音波形に基づいて機械的に生成された音(残響音)、及び前記音波形のうち隣接する時点で所定の量以上の変化をするピークに含まれる音(雑音)のうち少なくとも1つが除去される、請求項41に記載の訓練方法。
[構成要件43]
 前記特定区間を検出することは、
  受け取った前記音波形の少なくとも一部に所定のコンテンツが含まれるか否かを判定し、
  前記特定区間から前記所定のコンテンツが含まれない区間を除外することを含む、請求項34または35に記載の訓練方法。
[構成要件44]
 音響特徴量を生成する音響モデルの提供方法であって、
 第1付加情報が関連付けられた音響モデルを、音波形を用いた再訓練の対象として取得し、
 前記第1付加情報に基づき、前記音響モデルに対する再訓練の可否を判定し、
 再訓練が可能と判定された場合に、前記音響モデルに対して再訓練が実行された再訓練済み音響モデルを提供する音響モデルの提供方法。
[構成要件45]
 前記第1付加情報は、前記音響モデルに対する再訓練の可否を示すフラグである、請求項44に記載の音響モデルの提供方法。
[構成要件46]
 前記第1付加情報は、前記音響モデルを再訓練するためのプロセスを示す手順データを含み、
 前記音響モデルの前記再訓練は、前記手順データに基づいて行われる、請求項44に記載の音響モデルの提供方法。
[構成要件47]
 前記第1付加情報は、前記音響モデルの第1特徴を示す情報を含み、
 再訓練に用いられる前記音波形が特定されると、前記第1特徴と前記音波形の第2特徴とに基づいて、それぞれ前記第1付加情報が関連付けられた複数の音響モデルから、再訓練の対象として取得する前記音響モデルを選択する、請求項44に記載の音響モデルの提供方法。
[構成要件48]
 再訓練の対象として取得される前記音響モデルは、それぞれ前記第1付加情報が関連付けられた複数の音響モデルから選択され、
 前記音波形に係る楽曲データを用いて、前記複数の音響モデルによって複数の前記音響特徴量に基づく複数の音響信号を生成し、
 前記音波形と前記複数の音響信号とに基づいて、再訓練の対象として取得される前記音響モデルを選択する、請求項44に記載の音響モデルの提供方法。
[構成要件49]
 前記複数の前記音響特徴量と前記音波形とに基づいて、前記音響モデルを選択する、請求項44に記載の音響モデルの提供方法。
[構成要件50]
 前記音響モデルは、1以上の作成者によって作成された音響モデルであり、
 前記第1付加情報は、前記1以上の作成者によって付与された、前記作成者が作成した音響モデルに対する再訓練の可否を示す情報である、請求項44に記載の音響モデルの提供方法。
[構成要件51]
 前記再訓練済み音響モデルには、第2付加情報が関連付けられており、
 前記第2付加情報は、再訓練を実行したユーザによって設定された、前記ユーザが再訓練を実行した前記再訓練済み音響モデルに対する再訓練の可否を示す情報である、請求項44又は50に記載の音響モデルの提供方法。
[構成要件52]
 前記再訓練済み音響モデルを購入した購入者による決済手続きに基づき、
 再訓練の対象としての前記音響モデルから、前記再訓練済み音響モデルへの変化度を算出し、
 前記変化度に基づいて、前記音響モデルに対する対価と、前記再訓練済み音響モデルに対する対価と、を算出する、請求項44又は50に記載の音響モデルの提供方法。
[構成要件53]
 前記第1付加情報は、取り分情報を含み、
 前記取り分情報は、購入者が前記再訓練済み音響モデルを購入する決済手続きに対する対価において、再訓練の対象としての前記音響モデルと、前記再訓練済み音響モデルと、の対価の比率を示す情報である、請求項44又は50に記載の音響モデルの提供方法。
[構成要件54]
 前記音響モデルは複数存在し、
 前記複数の前記音響モデルは、初期化された音響モデルを含み、
 前記初期化された音響モデルには、前記再訓練を可とする前記第1付加情報が付与され、
 前記初期化された音響モデルは、変数が乱数で置き換えられたモデルである、請求項44に記載の音響モデルの提供方法。
[構成要件55]
 前記音響モデルは複数存在し、
 前記複数の前記音響モデルには、前記音響モデルによって生成される前記音響特徴量が示す音色種別に関する識別子が関連付けられている、請求項44に記載の音響モデルの提供方法。
10:音響モデル訓練システム、 100:サーバ、 101:制御部、 102:RAM、 103:ROM、 104:ユーザインタフェース(UI)、 105:通信インタフェース、 110:ストレージ、 111:音声合成プログラム、 112:訓練ジョブ、 113:楽譜データ、 114:音波形、 120:音響モデル、 123:楽譜特徴量、 124、129:音響特徴量、 130:合成音波形、 140:画面、 141:2次元表示部、 142:第1軸表示部、 143:第2軸表示部、 144:データ量バー、 160B:GUI、 161B:表題、 162B~165B:ラジオボタン、 166B:選択ボタン、 170B:ピアノロール、 171B~174B:音符バー、 175B:カーソル、 176B:得意度メータ、 178B:再生ボタン、 179B:取消ボタン、 200、300:通信端末、 400:ネットワーク
 

Claims (22)

  1.  音響特徴量を生成するよう、複数の音波形を用いて訓練されることで確立される音響モデルに関連する情報を表示する方法であって、
     音波形が有する複数の特性のうちいずれかの特性であって、前記音響モデルの訓練に使用された複数の音波形の前記特性の分布を取得し、
     前記特性の分布に関連する情報を表示する表示方法。
  2.  前記特性の分布は、前記使用された複数の音波形を分析して得られる特性の分布である、請求項1に記載の表示方法。
  3.  前記特性の分布に関連する情報は、前記音響モデルに不足する訓練を示す、請求項1に記載の表示方法。
  4.  前記特性の分布に関連する情報は、前記音響モデルが前記訓練で獲得した能力を示す、請求項1に記載の表示方法。
  5.  前記取得では、前記音響モデルの訓練の前に、その訓練に使用する予定の音波形を含む、その訓練で確立されると期待される音響モデルの訓練で使用された音波形の前記特性の分布を取得し、
     前記表示では、前記期待される音響モデルの訓練に使用された複数の音波形の前記取得された特性の分布に関連する情報を表示する、請求項1に記載の表示方法。
  6.  前記訓練は追加訓練であって、
     前記特性の分布は、前記追加訓練前の音響モデルの訓練に使用された複数の音波形と前記追加訓練に使用される音波形とを分析して得られる特性の分布である、請求項5に記載の表示方法。
  7.  前記追加訓練前の音響モデルは、ユーザによって複数の訓練済み音響モデルの中から選択された音響モデルである、請求項6に記載の表示方法。
  8.  前記複数の音波形の特性は、音高、強度、音韻、音長、スタイルのうち一以上を含む、請求項1に記載の表示方法。
  9.  前記表示では、前記特性の分布を示すグラフが表示される、請求項1又は請求項8に記載の表示方法。
  10.  前記複数の特性は、第1特性及び第2特性を含み、
     前記表示では、前記第1特性及び前記第2特性の2次元分布を示すグラフが表示される、請求項1に記載の表示方法。
  11.  前記特性の分布を前記取得することは、
      前記複数の音波形を分析して、前記特性として第1特性及び第2特性を取得し、
     前記表示では、前記第1特性が所定範囲内のときの前記第2特性の分布を表示する、請求項1に記載の表示方法。
  12.  前記表示では、
     前記取得された前記特性の分布において、前記分布が閾値より小さくなる、前記特性に関する音波形の不足範囲を検出し、
     前記不足範囲を表示する、請求項1に記載の表示方法。
  13.  前記表示は、前記検出された範囲の上限と下限との少なくとも一方の特性値を表示する、請求項12に記載の表示方法。
  14.  前記表示は、複数の楽曲のうちの、前記検出された範囲の特性値の音符を含む楽曲を選択的に表示する、請求項12に記載の表示方法。
  15.  前記表示は、複数の楽曲のうちの、前記検出された範囲の特性値の音符を含む複数の候補曲を検出し、
     ユーザに対して、検出された候補曲を提示する、請求項12に記載の表示方法。
  16.  前記音響モデルは、第1楽曲の前記音波形の少なくとも一部の楽譜特徴量と、前記音波形の第1音響特徴量を含む訓練データを用いて訓練されることで、第2楽曲の楽譜特徴量に応じて第2音響特徴量を生成する能力を習得したモデルであり、
     前記取得は、前記音響モデルの訓練に用いた前記音波形の履歴を示す履歴データを取得し、前記履歴データに基づいて、前記音響モデルの訓練に用いた前記音波形の特性分布に関する情報を取得し、
     前記表示は、前記取得した音波形の特性分布に関する情報を表示する、請求項1に記載の表示方法。
  17.  前記表示は、前記取得した音波形の特性分布に基づき、前記第2楽曲の楽譜の特徴量に対する前記音響モデルの得意度を表示する、請求項16に記載の表示方法。
  18.  前記表示は、前記第2楽曲の楽譜と前記取得した音波形の特性分布とに基づき、前記音響モデルの、前記第2楽曲に対する得意度を評価し、前記評価された得意度を表示する、請求項16に記載の表示方法。
  19.  前記表示は、
     前記第2楽曲の各区間の楽譜と前記取得した音波形の特性分布とに基づいて、その区間の第2楽曲に対する前記音響モデルの得意度を評価し、
     前記評価された得意度を、区間毎に表示する、請求項16に記載の表示方法。
  20.  前記表示は、
     複数の第2楽曲の複数の楽譜と前記取得した音波形の特性分布とに基づき、前記音響モデルの、複数の第2楽曲の各々に対する得意度を評価し、
     前記評価された得意度に基づき、前記複数の楽曲のうちの少なくとも一の楽曲を推薦表示する、請求項16に記載の表示方法。
  21.  前記取得は、複数の音響モデルの各々について、その音響モデルの履歴データに基づいて、その音響モデルの訓練に用いた音信号の特性分布を取得し、
     前記表示は、前記第2楽曲の楽譜と前記取得された複数の音響モデルの複数の特性分布とに基づいて、前記第2楽曲に適合する一以上の音響モデルを推薦表示する、請求項16に記載の表示方法。
  22.  第2楽曲の楽譜の一部を順次受け取り、前記音響モデルを用いて前記受け取った楽譜の一部の特徴量をリアルタイム処理して、前記受け取った楽譜の一部に対応する、前記第2音響特徴量の一部をリアルタイム生成する生成方法の実行中に、
     前記表示は、
     前記受け取った楽譜の一部と前記取得した音信号の特性分布とに基づき、前記受け取った楽譜の一部に対する前記音響モデルの得意度をリアルタイム評価し、
     前記評価された得意度をリアルタイム表示する、請求項16に記載の表示方法。
PCT/JP2023/035437 2022-10-04 2023-09-28 音波形の特性分布に係る表示方法 WO2024075634A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263412887P 2022-10-04 2022-10-04
US63/412,887 2022-10-04
JP2023043561A JP2024054058A (ja) 2022-10-04 2023-03-17 音波形の特性分布に係る表示方法
JP2023-043561 2023-03-17

Publications (1)

Publication Number Publication Date
WO2024075634A1 true WO2024075634A1 (ja) 2024-04-11

Family

ID=90607762

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/035437 WO2024075634A1 (ja) 2022-10-04 2023-09-28 音波形の特性分布に係る表示方法

Country Status (1)

Country Link
WO (1) WO2024075634A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829482A (zh) * 2019-01-04 2019-05-31 平安科技(深圳)有限公司 歌曲训练数据处理方法、装置及计算机可读存储介质
WO2020026829A1 (ja) * 2018-07-31 2020-02-06 パナソニックIpマネジメント株式会社 音データ処理方法、音データ処理装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020026829A1 (ja) * 2018-07-31 2020-02-06 パナソニックIpマネジメント株式会社 音データ処理方法、音データ処理装置及びプログラム
CN109829482A (zh) * 2019-01-04 2019-05-31 平安科技(深圳)有限公司 歌曲训练数据处理方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KEIICHIRO OURA: "Sinsy — An HMM-based singing voice synthesis system which can realize your wish "I want this person to sing my song", IPSJ SIG TECHNICAL REPORT, vol. 2010-MUS, no. 1, 28 July 2010 (2010-07-28), pages 1 - 8, XP093154736 *

Similar Documents

Publication Publication Date Title
CN111512359B (zh) 模块化自动音乐制作服务器
US8173883B2 (en) Personalized music remixing
TW201238279A (en) Semantic audio track mixer
JP2008537180A (ja) 音楽作曲装置の運用方法
JP2008165759A (ja) 情報処理装置及び方法並びにプログラム
CN102193992A (zh) 用于生成定制歌曲的系统和方法
US10496250B2 (en) System and method for implementing an intelligent automatic music jam session
US20080190270A1 (en) System and method for online composition, and computer-readable recording medium therefor
KR20060117252A (ko) 콘텐츠 배신 서버, 콘텐츠 배신 방법 및 콘텐츠 배신프로그램
KR100500314B1 (ko) 인터넷을 이용한 공동 작곡방법 및 시스템과, 이를 이용한 사업방법
WO2021106694A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2024075634A1 (ja) 音波形の特性分布に係る表示方法
WO2024075633A1 (ja) 音響モデルの訓練システム及び方法
KR102568089B1 (ko) 상호협업 기반 음악 콘텐츠 제작 서비스 제공 시스템
WO2024075638A1 (ja) 音響モデルの訓練方法
EP3996085A1 (en) Relations between music items
JP4147885B2 (ja) 演奏データ加工処理装置
JP2024054058A (ja) 音波形の特性分布に係る表示方法
US20220130359A1 (en) Information processing device, information processing method, and information processing program
KR20140054810A (ko) 반주음악 제작 서비스 시스템 및 그 방법, 그리고 이에 적용되는 장치
JP2002297136A (ja) 楽曲作成装置、音楽配信システム及びプログラム
O'Grady Studio-based songwriting: Music production and shaping the pop song
WO2021106693A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2012194381A (ja) 歌唱音声評価装置
WO2023032278A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23874761

Country of ref document: EP

Kind code of ref document: A1