WO2020095951A1 - 音響処理方法および音響処理システム - Google Patents

音響処理方法および音響処理システム Download PDF

Info

Publication number
WO2020095951A1
WO2020095951A1 PCT/JP2019/043511 JP2019043511W WO2020095951A1 WO 2020095951 A1 WO2020095951 A1 WO 2020095951A1 JP 2019043511 W JP2019043511 W JP 2019043511W WO 2020095951 A1 WO2020095951 A1 WO 2020095951A1
Authority
WO
WIPO (PCT)
Prior art keywords
condition
sound
data
learning
pronunciation
Prior art date
Application number
PCT/JP2019/043511
Other languages
English (en)
French (fr)
Inventor
竜之介 大道
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to EP19882740.4A priority Critical patent/EP3879521A4/en
Priority to CN201980072998.7A priority patent/CN113016028A/zh
Publication of WO2020095951A1 publication Critical patent/WO2020095951A1/ja
Priority to US17/306,123 priority patent/US11842720B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/14Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour during execution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • G10H2210/331Note pitch correction, i.e. modifying a note pitch or replacing it by the closest one in a given scale
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/116Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of sound parameters or waveforms, e.g. by graphical interactive control of timbre, partials or envelope
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Definitions

  • the present disclosure relates to a technique of processing an acoustic signal.
  • Non-Patent Document 1 discloses a technique in which the pitch and amplitude of an acoustic signal are analyzed and displayed for each note to display the editing of the acoustic signal by the user.
  • one aspect of the present disclosure aims to suppress deterioration of sound quality due to a change in a sounding condition regarding an acoustic signal.
  • the sound processing method is a pre-learning method that generates feature data representing the characteristics of the sound produced under the pronunciation condition from condition data representing the pronunciation condition.
  • the additional learning of the synthetic model is executed by using the first condition data indicating the pronunciation condition specified from the acoustic signal and the first characteristic data indicating the characteristic of the acoustic represented by the acoustic signal, and the pronunciation condition regarding the acoustic signal.
  • the second characteristic data is generated by accepting the instruction to change the above and inputting the second condition data representing the changed pronunciation condition to the synthetic model after the additional learning.
  • An acoustic processing system is configured such that additional learning of a learned synthetic model that generates characteristic data representing characteristics of sounds produced under the pronunciation condition from the condition data representing the pronunciation condition is performed from the acoustic signal.
  • a learning processing unit that executes using the first condition data that represents the specified pronunciation condition and the first feature data that represents the feature of the sound represented by the sound signal, and receives an instruction to change the sound condition related to the sound signal.
  • An instruction receiving unit and a synthesis processing unit that generates the second feature data by inputting the second condition data representing the changed pronunciation condition to the synthesis model after the additional learning.
  • An acoustic processing system is an information processing system including one or more processors and one or more memories, and executes the program stored in the one or more memories to obtain: One or more processors perform additional learning of a pre-learned synthetic model that generates characteristic data representing the characteristics of the sound produced under the pronunciation condition from the condition data representing the pronunciation condition, and determines the pronunciation condition specified from the acoustic signal.
  • a first condition data representing the acoustic signal represented by the acoustic signal and a first characteristic data representing the acoustic characteristic represented by the acoustic signal are executed to receive an instruction to change the pronunciation condition related to the acoustic signal;
  • the second characteristic data is generated by inputting the two-condition data to the synthetic model after the additional learning.
  • FIG. 1 is a block diagram illustrating the configuration of the sound processing system 100 according to the first embodiment.
  • the sound processing system 100 according to the first embodiment is realized by a computer system including a control device 11, a storage device 12, a display device 13, an input device 14, and a sound emitting device 15.
  • a control device 11 for example, an information terminal such as a mobile phone, a smartphone, or a personal computer is used as the sound processing system 100.
  • the sound processing system 100 is realized as a single device, and also as a set of a plurality of devices that are configured separately from each other.
  • the control device 11 is composed of a single processor or a plurality of processors that control each element of the sound processing system 100.
  • the control device 11 includes one or more types such as a CPU (Central Processing Unit), an SPU (Sound Processing Unit), a DSP (Digital Signal Processor), an FPGA (Field Programmable Gate Array), or an ASIC (Application Specific Integrated Circuit). Composed of a processor.
  • the storage device 12 is a single or a plurality of memories configured by a known recording medium such as a magnetic recording medium or a semiconductor recording medium, and stores a program executed by the control device 11 and various data used by the control device 11.
  • the storage device 12 may be configured by combining a plurality of types of recording media.
  • a portable recording medium that is removable from the acoustic processing system 100 or an external recording medium (for example, online storage) that the acoustic processing system 100 can communicate with via a communication network may be used as the storage device 12. Good.
  • the storage device 12 of the first embodiment stores an acoustic signal V1 that represents the sound related to a specific song.
  • an acoustic signal V1 that represents a singing sound produced by a specific singer (hereinafter referred to as an "additional singer") by singing a song is assumed.
  • the acoustic signal V1 stored in a recording medium such as a music CD or the acoustic signal V1 received via a communication network is stored in the storage device 12.
  • the file format of the audio signal V1 is arbitrary.
  • the control device 11 of the first embodiment generates the acoustic signal V2 in which various conditions (hereinafter referred to as “singing condition”) regarding the acoustic signal V1 stored in the storage device 12 are changed according to an instruction from the user.
  • the singing condition includes, for example, pitch, volume and phoneme.
  • the display device 13 displays the image instructed by the control device 11.
  • a liquid crystal display panel is used as the display device 13.
  • the input device 14 receives an operation by the user.
  • an operator operated by the user or a touch panel that detects contact with the display surface of the display device 13 is used as the input device 14.
  • the sound emitting device 15 is, for example, a speaker or headphones, and emits sound according to the sound signal V2 generated by the control device 11.
  • FIG. 2 is a block diagram illustrating a function realized by the control device 11 executing a program stored in the storage device 12.
  • the control device 11 of the first embodiment implements a signal analysis unit 21, a display control unit 22, an instruction reception unit 23, a synthesis processing unit 24, a signal generation unit 25, and a learning processing unit 26.
  • the functions of the control device 11 may be realized by a plurality of devices that are separate from each other. Part or all of the functions of the control device 11 may be realized by a dedicated electronic circuit.
  • the signal analysis unit 21 analyzes the acoustic signal V1 stored in the storage device 12. Specifically, the signal analysis unit 21 generates condition data Xb representing the singing condition of the singing sound represented by the acoustic signal V1 and characteristic data Q representing the characteristics of the singing sound from the acoustic signal V1.
  • the condition data Xb of the first embodiment is time-series data that specifies a pitch, a phoneme (pronunciation character), and a pronunciation period for each of a plurality of notes forming a song as singing conditions. For example, condition data Xb in a format conforming to the MIDI (Musical Instrument Digital Interface) standard is generated.
  • a known analysis technique for example, an automatic transcription technique
  • the condition data Xb is not limited to the data generated from the acoustic signal V1.
  • the data of the musical score sung by the additional singer may be used as the condition data Xb.
  • the characteristic data Q is data representing the characteristics of the sound represented by the sound signal V1.
  • the feature data Q of the first embodiment includes a fundamental frequency (pitch) Qa and a spectrum envelope Qb.
  • the spectral envelope Qb is a rough shape of the frequency spectrum of the acoustic signal V1.
  • the characteristic data Q is sequentially generated for each unit period of a predetermined length (for example, 5 milliseconds). That is, the signal analysis unit 21 of the first embodiment generates the time series of the fundamental frequency Qa and the time series of the spectrum envelope Qb.
  • a known frequency analysis technique such as discrete Fourier transform is arbitrarily adopted.
  • the display control unit 22 causes the display device 13 to display an image.
  • the display control unit 22 of the first embodiment causes the display device 13 to display the edit screen G illustrated in FIG.
  • the edit screen G is an image visually recognized by the user in order to change the singing condition regarding the acoustic signal V1.
  • the edit screen G has a time axis (horizontal axis) and a pitch axis (vertical axis) that are orthogonal to each other.
  • a note image Ga, a pitch image Gb and a waveform image Gc are arranged on the edit screen G.
  • the note image Ga is an image showing the note of the music represented by the acoustic signal V1.
  • the display control unit 22 arranges the time series of the note image Ga on the edit screen G according to the condition data Xb generated by the signal analysis unit 21. Specifically, the position of each note image Ga in the direction of the pitch axis is set according to the pitch specified by the condition data Xb for the note of the note image Ga. The position of each note image Ga in the direction of the time axis is set according to the end point (start point or end point) of the sounding period designated by the condition data Xb for the note of the note image Ga.
  • each note image Ga in the direction of the time axis is set according to the duration of the sounding period designated by the condition data Xb for the note of the note image Ga. That is, the time series of the notes of the acoustic signal V1 is displayed in piano roll by the time series of the plurality of note images Ga. Further, in each note image Ga, a phoneme Gd specified by the condition data Xb for the note of the note image Ga is arranged.
  • the phoneme Gd may be represented by one or more characters or a combination of a plurality of phonemes.
  • the pitch image Gb is a time series of the fundamental frequency Qa of the acoustic signal V1.
  • the display control unit 22 arranges the time series of the pitch image Gb on the editing screen G according to the fundamental frequency Qa of the characteristic data Q generated by the signal analysis unit 21.
  • the waveform image Gc is an image showing the waveform of the acoustic signal V1.
  • the waveform image Gc of the acoustic signal V1 is arranged at a specific position in the pitch axis direction in FIG. 3, the acoustic signal V1 is divided for each note, and the waveform corresponding to each note is a note image of the note. It may be displayed over Ga. That is, the waveform of each note in which the acoustic signal V1 is divided may be arranged at a position corresponding to the pitch of the note in the pitch axis direction.
  • the user can appropriately change the singing condition of the acoustic signal V1 by appropriately operating the input device 14 while visually checking the edit screen G displayed on the display device 13. For example, the user moves the note image Ga in the direction of the pitch axis to instruct to change the pitch of the note represented by the note image Ga. Further, the user moves or expands / contracts the musical note image Ga in the direction of the time axis to instruct to change the sounding period (start point or end point) of the musical note represented by the musical note image Ga. The user can also instruct to change the phoneme Gd added to the note image Ga.
  • the instruction receiving unit 23 in FIG. 2 receives an instruction to change a singing condition (for example, pitch, phoneme or pronunciation period) regarding the acoustic signal V1.
  • the instruction receiving unit 23 of the first embodiment changes the condition data Xb generated by the signal analyzing unit 21 according to the instruction received from the user.
  • the instruction accepting unit 23 generates condition data Xb representing the singing condition (pitch, phoneme or pronunciation period) that has been changed in response to an instruction from the user for an arbitrary note in the music.
  • the synthesis processing unit 24 generates a time series of characteristic data Q representing the acoustic characteristics of the acoustic signal V2 in which the singing condition of the acoustic signal V1 is changed according to an instruction from the user.
  • the characteristic data Q includes the fundamental frequency Qa and the spectrum envelope Qb of the acoustic signal V2.
  • the characteristic data Q is sequentially generated for each unit period of a predetermined length (for example, 5 milliseconds). That is, the synthesis processing unit 24 of the first embodiment generates a time series of the fundamental frequency Qa and a time series of the spectrum envelope Qb.
  • the signal generator 25 generates an acoustic signal V2 from the time series of the characteristic data Q generated by the synthesis processor 24.
  • a known vocoder technique for example, is used to generate the acoustic signal V using the time series of the characteristic data Q.
  • the signal generation unit 25 adjusts the intensity of each frequency in the frequency spectrum corresponding to the fundamental frequency Qa according to the spectrum envelope Qb, and transforms the adjusted frequency spectrum into the time domain to generate the acoustic signal V2. To generate.
  • the sound signal V2 generated by the signal generation unit 25 By supplying the sound signal V2 generated by the signal generation unit 25 to the sound emitting device 15, the sound represented by the sound signal V2 is reproduced from the sound emitting device 15.
  • the singing sound obtained by changing the singing condition of the singing sound represented by the acoustic signal V1 according to the instruction from the user is reproduced from the sound emitting device 15.
  • the D / A converter for converting the acoustic signal V2 from digital to analog is omitted for convenience.
  • the synthesis model M is used to generate the characteristic data Q by the synthesis processing unit 24.
  • the synthesis processing unit 24 inputs the input data Z including the singer data Xa and the condition data Xb into the synthesis model M to generate the time series of the characteristic data Q.
  • the singer data Xa is data representing the acoustic characteristics (for example, voice quality) of the singing sound produced by the singer.
  • the singer data Xa of the first embodiment is an embedding vector in a multidimensional space (hereinafter referred to as “singer space”).
  • the singer space is a continuous space in which the position of each singer in the space is determined according to the characteristics of the sound. The closer the acoustic characteristics are between the singers, the smaller the distance between the singers in the singer space.
  • the singer space is expressed as a space that represents a relationship between singers regarding acoustic features. The generation of the singer data Xa will be described later.
  • the synthetic model M is a statistical prediction model that learns the relationship between the input data Z and the characteristic data Q.
  • the synthetic model M of the first embodiment is configured by a deep neural network (DNN: Deep Neural Network).
  • DNN Deep Neural Network
  • the synthetic model M includes a program that causes the control device 11 to execute an operation for generating the characteristic data Q from the input data Z (for example, a program module that constitutes artificial intelligence software), and a plurality of applications applied to the operation. It is realized in combination with the coefficient.
  • a plurality of coefficients that define the composite model M are set by machine learning (especially deep learning) using a plurality of learning data and stored in the storage device 12.
  • the learning processing unit 26 trains the synthetic model M by machine learning.
  • Machine learning by the learning processing unit 26 is classified into pre-learning and additional learning.
  • the pre-learning is a basic learning process of generating a synthetic model M using a large number of learning data L1 stored in the storage device 12.
  • the additional learning is a learning process additionally performed after the pre-learning by using a small number of learning data L2 as compared with the learning data L1 at the time of the pre-learning.
  • FIG. 4 is a block diagram for explaining pre-learning by the learning processing unit 26.
  • a plurality of learning data L1 stored in the storage device 12 are used for pre-learning.
  • Each of the plurality of learning data L1 includes identification information F corresponding to a known singer, condition data Xb, and an acoustic signal V.
  • the known singer is basically a singer separate from the additional singer.
  • the learning data for evaluation (hereinafter referred to as “evaluation data”) L1 used for determining the end of machine learning is also stored in the storage device 12.
  • the identification information F is a numerical sequence for identifying each of the plurality of singers who sang the singing sound represented by the acoustic signal V. For example, a numerical sequence of one-hot expressions in which an element corresponding to a specific singer is set to a numerical value 1 and a remaining element is set to a numerical value 0 among a plurality of elements corresponding to different singers is Is used as the identification information F of the singer. For the identification information F, one-cold expression in which the numerical value 1 and the numerical value 0 in the one-hot expression are replaced may be adopted. The combination of the identification information F and the condition data Xb differs for each learning data L1.
  • the acoustic signal V included in any one piece of learning data L1 is a signal representing a waveform of a singing sound when a known singer represented by the identification information F sings the song represented by the condition data Xb of the learning data L1.
  • the acoustic signal V is prepared in advance by recording the singing sound when the singer actually sings the song represented by the condition data Xb.
  • the plurality of learning data L1 respectively include acoustic signals V representing the singing sounds of a plurality of known singers whose characteristics are similar to the singing sounds of the additional singers. That is, the acoustic signal V representing the sound of the sound source of the same type as the sound source to be additionally learned (that is, a known singer) is used for the pre-learning.
  • the learning processing unit 26 of the first embodiment collectively trains the coding model E together with the synthetic model M, which is the original purpose of machine learning.
  • the encoding model E is an encoder that converts the identification information F of the singer to the singer data Xa of the singer.
  • the coding model E is composed of, for example, a deep neural network.
  • the singer data Xa generated by the coding model E from the identification information F of the learning data L1 and the condition data Xb of the learning data L1 are supplied to the synthetic model M.
  • the synthetic model M outputs the time series of the characteristic data Q according to the singer data Xa and the condition data Xb.
  • the coding model E may be composed of a conversion table.
  • the signal analysis unit 21 generates characteristic data Q from the acoustic signal V of each learning data L1.
  • the characteristic data Q generated by the signal analysis unit 21 represents the same kind of characteristic amount (that is, the fundamental frequency Qa and the spectrum envelope Qb) as the characteristic data Q generated by the synthetic model M.
  • the generation of the characteristic data Q is repeated every unit period of a predetermined length (for example, 5 milliseconds).
  • the characteristic data Q generated by the signal analysis unit 21 corresponds to a known correct value regarding the output of the synthetic model M.
  • the characteristic data Q generated from the acoustic signal V may be included in the learning data L1 instead of the acoustic signal V. Therefore, in the pre-learning, the analysis of the acoustic signal V by the signal analysis unit 21 is omitted.
  • the learning processing unit 26 iteratively updates a plurality of coefficients defining each of the synthetic model M and the coding model E in the pre-learning.
  • FIG. 5 is a flowchart illustrating a specific procedure of pre-learning performed by the learning processing unit 26. For example, pre-learning is started in response to an instruction from the user to the input device 14. The additional learning after the execution of the pre-learning will be described later.
  • the learning processing unit 26 selects any one of the plurality of learning data L1 stored in the storage device 12 (Sa1). Immediately after the start of the pre-learning, the first learning data L1 is selected. The learning processing unit 26 inputs the identification information F of the learning data L1 selected from the storage device 12 into the provisional coding model E (Sa2). The coding model E generates singer data Xa corresponding to the identification information F. In the initial coding model E at the time of starting the pre-learning, each coefficient is initialized by, for example, a random number.
  • the learning processing unit 26 inputs the input data Z including the singer data Xa generated by the encoding model E and the condition data Xb of the learning data L1 into the provisional synthesis model M (Sa3).
  • the synthetic model M generates characteristic data Q according to the input data Z.
  • each coefficient is initialized by, for example, a random number or the like.
  • the learning processing unit 26 represents an error between the characteristic data Q generated by the synthetic model M from the learning data L1 and the characteristic data Q (that is, the correct value) generated by the signal analysis unit 21 from the acoustic signal V of the learning data L1.
  • the evaluation function is calculated (Sa4).
  • the learning processing unit 26 updates each of the plurality of coefficients of the synthetic model M and the coding model E so that the evaluation function approaches a predetermined value (typically zero) (Sa5).
  • the error backpropagation method for example, is used to update the plurality of coefficients according to the evaluation function.
  • the learning processing unit 26 determines whether or not the update processing (Sa2 to Sa5) described above has been repeated a predetermined number of times (Sa61). When the number of repetitions of the update process is less than the predetermined value (Sa61: NO), the learning processing unit 26 selects the next learning data L from the storage device 12 (Sa1) and then performs the update process (S1) on the learning data L. Sa2 to Sa5) are executed. That is, the update process is repeated for each of the plurality of learning data L.
  • the learning processing unit 26 determines whether the characteristic data Q generated by the synthetic model M after the update process has reached a predetermined quality. It is determined whether or not (Sa62).
  • the above-described evaluation data L stored in the storage device 12 is used. Specifically, the learning processing unit 26 sets the characteristic data Q generated by the synthetic model M from the evaluation data L and the characteristic data Q (correct value) generated by the signal analysis unit 21 from the acoustic signal V of the evaluation data L. Calculate the error of. The learning processing unit 26 determines whether or not the characteristic data Q has reached a predetermined quality, depending on whether or not the error between the characteristic data Q is below a predetermined threshold value.
  • the learning processing unit 26 starts repeating the update processing (Sa2 to Sa5) a predetermined number of times.
  • the quality of the feature data Q is evaluated every time the update process is repeated a predetermined number of times.
  • the learning processing unit 26 determines the synthetic model M at that time as the final synthetic model M (Sa7). That is, the plurality of coefficients after the latest update are stored in the storage device 12.
  • the learned synthesis model M determined by the above procedure is used by the synthesis processing unit 24 to generate the feature data Q.
  • the learning processing unit 26 generates the singer data Xa by inputting the identification information F of each singer to the learned coding model E determined by the above procedure (Sa8).
  • the encoding model E is discarded after the singer data Xa is determined.
  • the singer space is a space constructed by the pre-learned coding model E.
  • the learned synthetic model M has a latent tendency between the input data Z corresponding to each learning data L1 and the feature data Q corresponding to the acoustic signal V of the learning data L1. Under the circumstances, it is possible to generate the statistically valid characteristic data Q for the unknown input data Z. That is, the synthetic model M learns the relationship between the input data Z and the characteristic data Q. Further, the coding model E learns the relationship between the identification information F and the singer data Xa so that the synthetic model M can generate the statistically valid characteristic data Q from the input data Z. When the pre-learning is completed, the plurality of learning data L1 are discarded from the storage device 12.
  • FIG. 6 is a flowchart illustrating a specific procedure of the overall operation of the sound processing system 100 including additional learning by the learning processing unit 26. After the training of the synthetic model M by the above-described pre-learning, the process of FIG. 6 is started, for example, triggered by an instruction from the user to the input device 14.
  • the signal analysis unit 21 analyzes the acoustic signal V1 of the additional singer stored in the storage device 12 to generate the condition data Xb and the characteristic data Q (Sb1).
  • the learning processing unit 26 trains the synthetic model M by additional learning using the learning data L2 including the condition data Xb generated from the acoustic signal V1 by the signal analysis unit 21 and the characteristic data Q (Sb2-Sb4).
  • the plurality of learning data L2 stored in the storage device 12 are used for additional learning.
  • the condition data Xb of the learning data L2 is an example of “first condition data”
  • the characteristic data Q of the learning data L2 is an example of “first characteristic data”.
  • the learning processing unit 26 outputs the input data Z including the singer data Xa of the additional singer initialized by random numbers and the condition data Xb generated from the acoustic signal V1 of the additional singer. , Are input to the pre-learned synthetic model M (Sb2).
  • the synthetic model M generates a time series of the characteristic data Q according to the singer data Xa and the condition data Xb.
  • the learning processing unit 26 calculates an evaluation function that represents an error between the characteristic data Q generated by the synthetic model M and the characteristic data Q (that is, the correct value) generated by the signal analysis unit 21 from the acoustic signal V1 of the learning data L2. (Sb3).
  • the learning processing unit 26 updates the singer data Xa and the plurality of coefficients of the synthetic model M so that the evaluation function approaches a predetermined value (typically zero) (Sb4).
  • a predetermined value typically zero
  • an error backpropagation method is used as in the case of updating the coefficients in the pre-learning.
  • the updating of the singer data Xa and the plurality of coefficients (Sb4) is repeated until the synthetic model M can generate the characteristic data Q of sufficient quality.
  • the display control unit 22 displays the edit screen G of FIG. 3 on the display device 13 (Sb5).
  • the time series of the note images Ga represented by the condition data Xb generated by the signal analysis unit 21 from the acoustic signal V1 and the pitch representing the time series of the fundamental frequency Qa generated by the signal analysis unit 21 from the acoustic signal V1.
  • An image Gb and a waveform image Gc representing the waveform of the acoustic signal V1 are arranged.
  • the user can instruct to change the singing condition of the acoustic signal V1 while visually checking the editing screen G.
  • the instruction receiving unit 23 determines whether the user has instructed to change the singing condition (Sb6).
  • the instruction receiving unit 23 changes the initial condition data Xb generated by the signal analysis unit 21 according to the instruction from the user (Sb7).
  • the synthesizing unit 24 inputs the input data Z including the condition data Xb changed by the instruction receiving unit 23 and the singer data Xa of the additional singer to the synthetic model M after the additional learning (Sb8).
  • the synthetic model M generates a time series of characteristic data Q according to the singer data Xa of the additional singer and the condition data Xb.
  • the changed condition data Xb is an example of “second condition data”
  • the characteristic data Q generated by the synthetic model M by the input of the condition data xb is an example of “second characteristic data”.
  • the signal generator 25 generates an acoustic signal V2 from the time series of the characteristic data Q generated by the synthetic model M (Sb9).
  • the display control unit 22 updates the editing screen G to reflect the change instruction from the user and the acoustic signal V2 using the synthetic model M after the additional learning (Sb10). Specifically, the display control unit 22 updates the time series of the note image Ga to the content indicating the changed singing condition instructed by the user. Further, the display control unit 22 updates the pitch image Gb displayed by the display device 13 to an image representing the time series of the fundamental frequency Qa of the acoustic signal V2 generated by the signal generation unit 25, and the waveform image Gc is the acoustic signal. Update to V2 waveform.
  • the control device 11 determines whether or not the user has instructed the reproduction of the singing sound (Sb11). When the reproduction of the singing sound is instructed (Sb11: YES). The control device 11 reproduces the singing sound by supplying the sound signal V2 generated by the above procedure to the sound emitting device 15 (Sb12). That is, the singing sound corresponding to the singing condition changed by the user is reproduced from the sound emitting device 15. If the change of the singing condition is not instructed (Sb6: NO), the change of the condition data Xb (Sb7), the generation of the acoustic signal V2 (Sb8, Sb9) and the update of the editing screen G (Sb10) are not executed.
  • the singing sound is reproduced by supplying the sound signal V1 stored in the storage device 12 to the sound emitting device 15 (Sb12). ..
  • the sound signal V (V1, V2) is not supplied to the sound emitting device 15.
  • the control device 11 determines whether or not the end of processing has been instructed by the user (Sb13). When the end of the process is not instructed (Sb13: NO), the control device 11 shifts the process to step Sb6 and receives an instruction to change the singing condition from the user. As can be understood from the above description, the condition data Xb is changed (Sb7) and the acoustic signal V2 is generated (Sb8, Sb9) using the synthetic model M after the additional learning and the editing screen for each instruction to change the singing condition. Update of G (Sb10) is executed.
  • the additional learning using the condition data Xb and the characteristic data Q specified from the acoustic signal V1 of the additional singer is executed for the pre-learned synthetic model M, and after the change.
  • the condition data Xb representing the singing condition of the above into the synthetic model M after the additional learning, the characteristic data Q of the singing sound produced by the additional singer under the changed singing condition is generated. Therefore, it is possible to suppress the deterioration of the sound quality due to the change of the singing condition, as compared with the conventional configuration in which the acoustic signal is directly adjusted according to the change instruction by the user.
  • the pre-learned synthetic model M is generated by using the acoustic signal V representing the singing sound of the same kind of sound source as the singer (that is, the additional singing person) of the singing sound represented by the acoustic signal V2. To be done. Therefore, even if the additional singer's acoustic signal V1 is small, there is an advantage that the characteristic data Q of the singing sound produced under the changed singing condition can be generated with high accuracy.
  • the singer data Xa of the additional singer is generated using the coding model E trained by the pre-learning. If the coding model E is discarded after the singer data Xa is generated, the singer space cannot be reconstructed at the stage of additional learning. In the second embodiment, the singer space can be reconstructed without discarding the coding model E in step Sa8 of FIG.
  • the additional learning in this case is executed for the purpose of, for example, expanding the range of the condition data Xb that the synthetic model M can support.
  • the additional modeler performs additional learning using the synthetic model M will be described. Prior to the processing of FIG.
  • unique identification information F is assigned to the additional singer so that the additional singer can be distinguished from other singers, and by the processing of Sb1 of FIG. 6, an acoustic signal V1 representing the singing sound of the additional singer.
  • the condition data Xb and the characteristic data Q are generated from the above, and are additionally stored in the storage device 12 as a part of the learning data L1.
  • step Sa1 to Sa6 in FIG. 5 additional learning using the learning data L1 including the condition data Xb and the characteristic data Q is executed to update the plurality of coefficients of each of the synthetic model M and the coding model E.
  • the procedure is the same as in the first embodiment. That is, in the additional learning, the synthetic model M is trained so that the characteristics of the singing sound of the additional singer are reflected, and the singer space is reconstructed.
  • the learning processing unit 26 uses the learning data L1 of the additional singer to retrain the pre-learned synthetic model M so that the synthetic model M can synthesize the singing sound of the additional singer.
  • the second embodiment by adding the acoustic signal V1 of a certain singer, it is possible to improve the quality of the singing of a plurality of singers generated by the synthetic model M. Further, there is an advantage that the singing sound of the additional singer can be generated from the synthetic model M with high accuracy even if the acoustic signal V1 of the additional singer is small.
  • the acoustic signal V2 is generated using the synthetic model M, but even if the acoustic signal V2 is generated using the synthetic model M and the acoustic signal V1 is directly adjusted.
  • the control device 11 functions as an adjustment processing unit 31 and a signal synthesizing unit 32 in addition to the same elements as those in the above-described embodiments.
  • the adjustment processing unit 31 generates the acoustic signal V3 by adjusting the acoustic signal V1 stored in the storage device 12 according to a user's instruction to change the singing condition.
  • the adjustment processing section 31 changes the pitch of the section corresponding to the note of the audio signal V1 according to the instruction, thereby changing the audio signal V3. To generate.
  • the adjustment processing section 31 expands or contracts the section of the sound signal V1 corresponding to the note on the time axis to generate the sound signal V3. ..
  • a known technique is arbitrarily adopted for changing the pitch of the acoustic signal V1 or expanding or contracting with time.
  • the signal synthesis unit 32 synthesizes the acoustic signal V2 generated by the signal generation unit 25 from the characteristic data Q generated by the synthesis model M and the acoustic signal V3 generated by the adjustment processing unit 31 of FIG. Generate V4.
  • the sound signal V4 generated by the signal synthesizer 32 is supplied to the sound emitting device 15.
  • the signal synthesis unit 32 evaluates the sound quality of the acoustic signal V2 generated by the signal generation unit 25 or the acoustic signal V3 generated by the adjustment processing unit 31, and determines the mixing ratio of the acoustic signal V2 and the acoustic signal V3 by the signal synthesis unit 32. Adjust according to the evaluation results.
  • the sound quality of the acoustic signal V2 or the acoustic signal V3 is evaluated using an index value such as an SN (Signal-to-Noise) ratio or an SD (Signal-to-Distortion) ratio.
  • the signal synthesizing unit 32 sets the mixing ratio of the acoustic signal V2 to the acoustic signal V3 to a higher numerical value, for example, as the sound quality of the acoustic signal V2 is higher. Therefore, when the sound quality of the sound signal V2 is high, the sound signal V4 in which the sound signal V2 is predominantly reflected is generated, and when the sound quality of the sound signal V2 is low, the sound signal V3 is predominantly reflected. The acoustic signal V4 is generated. Further, either the acoustic signal V2 or the acoustic signal V3 may be selected according to the sound quality of the acoustic signal V2 or the acoustic signal V3. For example, when the sound quality index of the audio signal V2 exceeds the threshold value, the sound signal V2 is supplied to the sound emitting device 15, and when the index is below the threshold value, the sound signal V3 is supplied to the sound emitting device 15. .
  • the acoustic signal V2 over the entire music is generated.
  • the acoustic signal V2 is generated for the section of the music in which the user instructs to change the singing condition, and the acoustic signal V2 is generated as the acoustic signal. It may be synthesized to V1.
  • the acoustic signal V2 may be cross-faded with respect to the acoustic signal V1 so that the start point or the end point of the acoustic signal V2 is not perceptually clearly perceived in the synthesized acoustic signal.
  • the learning processing unit 26 executes both the pre-learning and the additional learning, but the pre-learning and the additional learning may be performed by separate elements.
  • the learning processing unit 26 performs additional learning on the synthetic model M generated by the preliminary learning by the external device
  • the preliminary learning by the learning processing unit 26 is unnecessary.
  • a machine learning device for example, a server device
  • the terminal device includes a learning processing unit 26 that executes additional learning of the synthetic model M distributed from the machine learning device.
  • the singing sound produced by the singer is synthesized, but the present disclosure is also applied to synthesis of sounds other than the singing sound.
  • the present disclosure is also applied to synthesis of general speech sounds such as conversation sounds that do not require music, or synthesis of performance sounds of musical instruments.
  • the singer data Xa corresponds to an example of sound source data representing a sound source including a speaker or a musical instrument in addition to the singer.
  • the condition data Xb is comprehensively expressed as data representing a pronunciation condition including a speech condition (for example, phoneme) or a performance condition (for example, pitch and volume) in addition to the singing condition.
  • the synthetic data Xc regarding the performance of the musical instrument, the designation of the phoneme is omitted.
  • the characteristic data Q includes the fundamental frequency Qa and the spectrum envelope Qb is illustrated, but the content of the characteristic data Q is not limited to the above example.
  • Various data representing the characteristics of the frequency spectrum (hereinafter referred to as “spectral characteristics”) are used as the characteristic data Q.
  • spectral features that can be used as the characteristic data Q include the spectral envelope Qb described above, as well as, for example, a mel spectrum, a mel cepstrum, a mel spectrogram, or a spectrogram.
  • the fundamental frequency Qa may be omitted from the feature data Q.
  • the function of the sound processing system 100 according to each of the above-described embodiments is realized by the cooperation of the computer (for example, the control device 11) and the program.
  • a program according to one aspect of the present disclosure is provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but any known recording medium such as a semiconductor recording medium or a magnetic recording medium is used. Including a recording medium of the form.
  • the non-transitory recording medium includes any recording medium except a transitory propagation signal, and does not exclude a volatile recording medium.
  • the program may be provided to the computer in the form of distribution via a communication network.
  • the execution subject of the artificial intelligence software for realizing the synthetic model M is not limited to the CPU.
  • a processing circuit dedicated to a neural network such as a Tensor Processing Unit or a Neural Engine, or a DSP (Digital Signal Processor) dedicated to artificial intelligence may execute the artificial intelligence software.
  • a plurality of types of processing circuits selected from the above examples may cooperate to execute the artificial intelligence software.
  • a sound processing method adds a pre-learned synthetic model that generates feature data representing a feature of an acoustic sound produced under the pronunciation condition from condition data representing the pronunciation condition. Learning is executed using the first condition data representing the pronunciation condition specified from the acoustic signal and the first feature data representing the feature of the sound represented by the acoustic signal, and an instruction to change the pronunciation condition related to the acoustic signal. Is received and the second condition data representing the changed pronunciation condition is input to the synthetic model after the additional learning to generate the second characteristic data.
  • the additional learning using the first condition data representing the pronunciation condition specified from the acoustic signal and the first feature data of the acoustic signal is executed for the synthetic model, and the second learning representing the changed pronunciation condition is performed.
  • the condition data By inputting the condition data to the synthetic model after the additional learning, the second characteristic data of the sound produced under the changed pronunciation condition is generated. Therefore, as compared with the conventional configuration in which the acoustic signal is directly adjusted according to the change instruction, it is possible to suppress the deterioration of the sound quality due to the change of the sound generation condition.
  • the pre-learned synthetic model is generated by machine learning using a signal representing the sound of a sound source of the same kind as the sound source of the sound represented by the sound signal. It is a model.
  • the pre-learned synthetic model is generated by using the signal representing the sound of the same type of sound source as the sound source of the sound represented by the sound signal, the sound of the sound produced under the changed sounding condition is generated.
  • the second feature data can be generated with high accuracy.
  • the generation of the second feature data in the generation of the second feature data, a relationship between the second condition data representing the changed pronunciation condition and a sound source related to the acoustic feature. And the sound source data that represents the position of the sound source in the space that represents the input space to the synthetic model after the additional learning.
  • the pronunciation condition includes a pitch
  • the instruction to change the pronunciation condition is an instruction to change the pitch. According to the above-described aspect, it is possible to generate the second characteristic data of high-quality sound that is produced at the changed pitch.
  • the sounding condition includes a sounding period
  • the instruction to change the sounding condition is an instruction to change the sounding period. According to the above aspect, it is possible to generate the second characteristic data of high-quality sound produced in the changed pronunciation period.
  • the pronunciation condition includes a phoneme
  • the instruction to change the pronunciation condition is an instruction to change the phoneme. According to the above-described aspect, it is possible to generate the second characteristic data of high-quality sound that pronounces the changed phoneme.
  • the present disclosure is also realized as a sound processing system that executes the sound processing method of each aspect exemplified above, or as a program that causes a computer to execute the sound processing method of each aspect exemplified above.
  • 100 100 ... Acoustic processing system, 11 ... Control device, 12 ... Storage device, 13 ... Display device, 14 ... Input device, 15 ... Sound emitting device, 21 ... Signal analysis part, 22 ... Display control part, 23 ... Instruction receiving part, 24 ... Synthesis processing unit, 25 ... Signal generation unit, 26 ... Learning processing unit, M ... Synthesis model, Xa ... Singer data, Xb ... Condition data, Z ... Input data, Q ... Feature data, V1, V2 ... Acoustic signal , F ... identification information, E ... encoding model, L1, L2 ... learning data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

音響処理システムは、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用して実行する学習処理部と、音響信号に関する発音条件の変更の指示を受付ける指示受付部と、変更後の発音条件を表す第2条件データを追加学習後の合成モデルに入力することで第2特徴データを生成する合成処理部とを具備する。

Description

音響処理方法および音響処理システム
 本開示は、音響信号を処理する技術に関する。
 歌唱音または演奏音等の各種の音響を表す音響信号を利用者からの指示に応じて編集する技術が従来から提案されている。例えば非特許文献1には、音響信号の音高および振幅を音符毎に解析して表示することで、利用者による音響信号の編集を受付ける技術が開示されている。
'What is Melodyne ?'[平成30年10月21日検索],インターネット<https://www.celemony.com/en/melodyne/what-is-melodyne>
 しかし、従来の技術のもとでは、例えば音高等の発音条件の変更により音響信号の音質が低下するという問題がある。以上の事情を背景として、本開示のひとつの態様は、音響信号に関する発音条件の変更による音質の劣化を抑制することを目的とする。
 以上の課題を解決するために、本開示のひとつの態様に係る音響処理方法は、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用して実行し、前記音響信号に関する発音条件の変更の指示を受付け、前記変更後の発音条件を表す第2条件データを前記追加学習後の合成モデルに入力することで第2特徴データを生成する。
 本開示のひとつの態様に係る音響処理システムは、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用して実行する学習処理部と、前記音響信号に関する発音条件の変更の指示を受付ける指示受付部と、前記変更後の発音条件を表す第2条件データを前記追加学習後の合成モデルに入力することで第2特徴データを生成する合成処理部とを具備する。
 本開示のひとつの態様に係る音響処理システムは、1以上のプロセッサと1以上のメモリとを具備する情報処理システムであって、前記1以上のメモリに記憶されたプログラムを実行することにより、前記1以上のプロセッサが、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用して実行し、前記音響信号に関する発音条件の変更の指示を受付け、前記変更後の発音条件を表す第2条件データを前記追加学習後の合成モデルに入力することで第2特徴データを生成する。
第1実施形態に係る音響処理システムの構成を例示するブロック図である。 音響処理システムの機能的な構成を例示するブロック図である。 編集画面の模式図である。 事前学習の説明図である。 事前学習の具体的な手順を例示するフローチャートである。 音響処理システムの動作の具体的な手順を例示するフローチャートである。 変形例における音響処理システムの機能的な構成を例示するブロック図である。
<第1実施形態>
 図1は、第1実施形態に係る音響処理システム100の構成を例示するブロック図である。第1実施形態の音響処理システム100は、制御装置11と記憶装置12と表示装置13と入力装置14と放音装置15とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、音響処理システム100として利用される。なお、音響処理システム100は、単体の装置として実現されるほか、相互に別体で構成された複数の装置の集合でも実現される。
 制御装置11は、音響処理システム100の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置11は、CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサで構成される。記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成された単数または複数のメモリであり、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、音響処理システム100に対して着脱可能な可搬型の記録媒体、または音響処理システム100が通信網を介して通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。
 第1実施形態の記憶装置12は、特定の楽曲に関する音響を表す音響信号V1を記憶する。以下の説明では、特定の歌唱者(以下「追加歌唱者」という)が楽曲の歌唱により発音する歌唱音を表す音響信号V1を想定する。例えば、音楽CD等の記録媒体に記憶された音響信号V1、または、通信網を介して受信された音響信号V1が、記憶装置12に記憶される。音響信号V1のファイル形式は任意である。第1実施形態の制御装置11は、記憶装置12に記憶された音響信号V1に関する各種の条件(以下「歌唱条件」という)を利用者からの指示に応じて変更した音響信号V2を生成する。歌唱条件は、例えば音高と音量と音韻とを含む。
 表示装置13は、制御装置11から指示された画像を表示する。例えば液晶表示パネルが表示装置13として利用される。入力装置14は、利用者による操作を受付ける。例えば利用者が操作する操作子、または、表示装置13の表示面に対する接触を検知するタッチパネルが、入力装置14として利用される。放音装置15は、例えばスピーカまたはヘッドホンであり、制御装置11が生成する音響信号V2に応じた音響を放音する。
 図2は、記憶装置12に記憶されたプログラムを制御装置11が実行することで実現される機能を例示するブロック図である。第1実施形態の制御装置11は、信号解析部21と表示制御部22と指示受付部23と合成処理部24と信号生成部25と学習処理部26とを実現する。なお、相互に別体で構成された複数の装置により制御装置11の機能を実現してもよい。制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
 信号解析部21は、記憶装置12に記憶された音響信号V1を解析する。具体的には、信号解析部21は、音響信号V1が表す歌唱音の歌唱条件を表す条件データXbと、当該歌唱音の特徴を表す特徴データQとを音響信号V1から生成する。第1実施形態の条件データXbは、楽曲を構成する複数の音符の各々について音高と音韻(発音文字)と発音期間とを歌唱条件として指定する時系列データである。例えばMIDI(Musical Instrument Digital Interface)規格に準拠した形式の条件データXbが生成される。信号解析部21による条件データXbの生成には公知の解析技術(例えば自動採譜技術)が任意に採用される。なお、条件データXbは、音響信号V1から生成されたデータに限定されない。例えば、追加歌唱者が歌唱した楽譜のデータを条件データXbとして利用してもよい。
 特徴データQは、音響信号V1が表す音響の特徴を表すデータである。第1実施形態の特徴データQは、基本周波数(ピッチ)Qaとスペクトル包絡Qbとを含む。スペクトル包絡Qbは、音響信号V1の周波数スペクトルの概形である。特徴データQは、所定長(例えば5ミリ秒)の単位期間毎に順次に生成される。すなわち、第1実施形態の信号解析部21は、基本周波数Qaの時系列とスペクトル包絡Qbの時系列とを生成する。信号解析部21による特徴データQの生成には、離散フーリエ変換等の公知の周波数解析技術が任意に採用される。
 表示制御部22は、表示装置13に画像を表示させる。第1実施形態の表示制御部22は、図3に例示された編集画面Gを表示装置13に表示させる。編集画面Gは、音響信号V1に関する歌唱条件を変更するために利用者が視認する画像である。
 編集画面Gには、相互に直交する時間軸(横軸)と音高軸(縦軸)とが設定される。編集画面Gには、音符画像Gaとピッチ画像Gbと波形画像Gcとが配置される。
 音符画像Gaは、音響信号V1が表す楽曲の音符を表す画像である。表示制御部22は、信号解析部21が生成した条件データXbに応じて音符画像Gaの時系列を編集画面Gに配置する。具体的には、音高軸の方向における各音符画像Gaの位置は、当該音符画像Gaの音符について条件データXbが指定する音高に応じて設定される。また、時間軸の方向における各音符画像Gaの位置は、当該音符画像Gaの音符について条件データXbが指定する発音期間の端点(始点または終点)に応じて設定される。時間軸の方向における各音符画像Gaの表示長は、当該音符画像Gaの音符について条件データXbが指定する発音期間の継続長に応じて設定される。すなわち、複数の音符画像Gaの時系列により音響信号V1の音符の時系列がピアノロール表示される。また、各音符画像Gaには、当該音符画像Gaの音符について条件データXbが指定する音韻Gdが配置される。なお、音韻Gdは、1個以上の文字で表現されてもよいし、複数の音素の組合せで表現されてもよい。
 ピッチ画像Gbは、音響信号V1の基本周波数Qaの時系列である。表示制御部22は、信号解析部21が生成した特徴データQの基本周波数Qa応じてピッチ画像Gbの時系列を編集画面Gに配置する。波形画像Gcは、音響信号V1の波形を表す画像である。なお、図3においては音高軸の方向における特定の位置に音響信号V1の波形画像Gcを配置したが、音響信号V1を音符毎に区分し、各音符に対応する波形を当該音符の音符画像Gaに重ねて表示してもよい。すなわち、音響信号V1を区分した各音符の波形を、音高軸の方向において当該音符の音高に応じた位置に配置してもよい。
 利用者は、表示装置13に表示された編集画面Gを視認しながら入力装置14を適宜に操作することで、音響信号V1の歌唱条件を適宜に変更することが可能である。例えば、利用者は、音符画像Gaを音高軸の方向に移動することで、当該音符画像Gaが表す音符の音高の変更を指示する。また、利用者は、音符画像Gaを時間軸の方向に移動または伸縮することで、当該音符画像Gaが表す音符の発音期間(始点または終点)の変更を指示する。利用者は、音符画像Gaに付加された音韻Gdの変更を指示することも可能である。
 図2の指示受付部23は、音響信号V1に関する歌唱条件(例えば音高,音韻または発音期間)の変更の指示を受付ける。第1実施形態の指示受付部23は、信号解析部21が生成した条件データXbを、利用者から受付けた指示に応じて変更する。すなわち、楽曲内の任意の音符について利用者からの指示に応じて変更された歌唱条件(音高、音韻または発音期間)を表す条件データXbが指示受付部23により生成される。
 合成処理部24は、音響信号V1の歌唱条件を利用者からの指示に応じて変更した音響信号V2の音響的な特徴を表す特徴データQの時系列を生成する。特徴データQは、音響信号V2の基本周波数Qaとスペクトル包絡Qbとを含む。特徴データQは、所定長(例えば5ミリ秒)の単位期間毎に順次に生成される。すなわち、第1実施形態の合成処理部24は、基本周波数Qaの時系列とスペクトル包絡Qbの時系列とを生成する。
 信号生成部25は、合成処理部24が生成した特徴データQの時系列から音響信号V2を生成する。特徴データQの時系列を利用した音響信号Vの生成には、例えば公知のボコーダ技術が利用される。具体的には、信号生成部25は、基本周波数Qaに対応する周波数スペクトルにおける周波数毎の強度をスペクトル包絡Qbに応じて調整し、調整後の周波数スペクトルを時間領域に変換することで音響信号V2を生成する。信号生成部25が生成した音響信号V2が放音装置15に供給されることで、当該音響信号V2が表す音響が放音装置15から再生される。すなわち、音響信号V1が表す歌唱音の歌唱条件を利用者からの指示に応じて変更した歌唱音が放音装置15から再生される。なお、音響信号V2をデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
 第1実施形態では、合成処理部24による特徴データQの生成に合成モデルMが利用される。具体的には、合成処理部24は、歌唱者データXaと条件データXbとを含む入力データZを合成モデルMに入力することで特徴データQの時系列を生成する。
 歌唱者データXaは、歌唱者が発音する歌唱音の音響的な特徴(例えば声質)を表すデータである。第1実施形態の歌唱者データXaは、多次元の空間(以下「歌唱者空間」という)における埋込ベクトル(embedding vector)である。歌唱者空間は、音響の特徴に応じて空間内における各歌唱者の位置が決定される連続空間である。歌唱者間で音響の特徴が類似するほど、歌唱者空間内における当該歌唱者間の距離は小さい数値となる。以上の説明から理解される通り、歌唱者空間は、音響の特徴に関する歌唱者間の関係を表す空間と表現される。なお、歌唱者データXaの生成については後述する。
 合成モデルMは、入力データZと特徴データQとの関係を学習した統計的予測モデルである。第1実施形態の合成モデルMは、深層ニューラルネットワーク(DNN:Deep Neural Network)で構成される。具体的には、合成モデルMは、入力データZから特徴データQを生成する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。合成モデルMを規定する複数の係数は、複数の学習データを利用した機械学習(特に深層学習)により設定されて記憶装置12に保持される。
 学習処理部26は、機械学習により合成モデルMを訓練する。学習処理部26による機械学習は、事前学習と追加学習とに区分される。事前学習は、記憶装置12に記憶された多数の学習データL1を利用して合成モデルMを生成する基本的な学習処理である。他方、追加学習は、事前学習時の学習データL1と比較して少数の学習データL2を利用して事前学習後に追加的に実行される学習処理である。
 図4は、学習処理部26による事前学習を説明するためのブロック図である。記憶装置12に記憶された複数の学習データL1が事前学習に利用される。複数の学習データL1の各々は、既知の歌唱者に対応する識別情報Fと条件データXbと音響信号Vとを含む。既知の歌唱者は、基本的には、追加歌唱者とは別個の歌唱者である。また、機械学習の終了判定に利用される評価用の学習データ(以下「評価用データ」という)L1も記憶装置12に記憶される。
 識別情報Fは、音響信号Vが表す歌唱音を歌唱した複数の歌唱者の各々を識別するための数値列である。例えば、相異なる歌唱者に対応する複数の要素のうち特定の歌唱者に対応する要素が数値1に設定され、残余の要素が数値0に設定されたone-hot表現の数値列が、当該特定の歌唱者の識別情報Fとして利用される。なお、識別情報Fについては、one-hot表現における数値1と数値0とを置換したone-cold表現を採用してもよい。識別情報Fと条件データXbとの組合せは学習データL1毎に相違する。
 任意の1個の学習データL1に含まれる音響信号Vは、識別情報Fが表す既知の歌唱者が、当該学習データL1の条件データXbが表す楽曲を歌唱した場合における歌唱音の波形を表す信号である。例えば条件データXbが表す楽曲を歌唱者が実際に歌唱した場合の歌唱音を収録することで音響信号Vが事前に用意される。追加歌唱者の歌唱音に特性が類似する複数の既知の歌唱者の歌唱音を表す音響信号Vが複数の学習データL1にそれぞれ含まれる。すなわち、追加学習の対象となる発音源と同種の発音源(すなわち既知の歌唱者)の音響を表す音響信号Vが、事前学習に利用される。
 第1実施形態の学習処理部26は、機械学習の本来的な目的である合成モデルMとともに符号化モデルEを一括的に訓練する。符号化モデルEは、歌唱者の識別情報Fを当該歌唱者の歌唱者データXaに変換するエンコーダである。符号化モデルEは、例えば深層ニューラルネットワークで構成される。事前学習では、符号化モデルEが学習データL1の識別情報Fから生成した歌唱者データXaと当該学習データL1の条件データXbとが合成モデルMに供給される。前述の通り、合成モデルMは、歌唱者データXaと条件データXbとに応じた特徴データQの時系列を出力する。なお、符号化モデルEを変換テーブルで構成してもよい。
 信号解析部21は、各学習データL1の音響信号Vから特徴データQを生成する。信号解析部21が生成する特徴データQは、合成モデルMが生成する特徴データQと同種の特徴量(すなわち基本周波数Qaおよびスペクトル包絡Qb)を表す。特徴データQの生成は、所定長(例えば5ミリ秒)の単位期間毎に反復される。信号解析部21が生成する特徴データQは、合成モデルMの出力に関する既知の正解値に相当する。なお、音響信号Vから生成された特徴データQを音響信号Vに代えて学習データL1に含ませてもよい。したがって、事前学習では、信号解析部21による音響信号Vの解析は省略される。
 学習処理部26は、事前学習において、合成モデルMと符号化モデルEとの各々を規定する複数の係数を反復的に更新する。図5は、学習処理部26が実行する事前学習の具体的な手順を例示するフローチャートである。例えば入力装置14に対する利用者からの指示を契機として事前学習が開始される。なお、事前学習の実行後の追加学習については後述する。
 事前学習を開始すると、学習処理部26は、記憶装置12に記憶された複数の学習データL1の何れかを選択する(Sa1)。事前学習の開始の直後には最初の学習データL1が選択される。学習処理部26は、記憶装置12から選択した学習データL1の識別情報Fを暫定的な符号化モデルEに入力する(Sa2)。符号化モデルEは、識別情報Fに対応する歌唱者データXaを生成する。事前学習が開始される時点の初期的な符号化モデルEは、例えば乱数等により各係数が初期化されている。
 学習処理部26は、符号化モデルEが生成した歌唱者データXaと学習データL1の条件データXbとを含む入力データZを、暫定的な合成モデルMに入力する(Sa3)。合成モデルMは、入力データZに応じた特徴データQを生成する。事前学習が開始される時点の初期的な合成モデルMは、例えば乱数等により各係数が初期化されている。
 学習処理部26は、合成モデルMが学習データL1から生成した特徴データQと、当該学習データL1の音響信号Vから信号解析部21が生成した特徴データQ(すなわち正解値)との誤差を表す評価関数を算定する(Sa4)。学習処理部26は、評価関数が所定値(典型的にはゼロ)に近付くように、合成モデルMおよび符号化モデルEの各々の複数の係数を更新する(Sa5)。評価関数に応じた複数の係数の更新には、例えば誤差逆伝播法が利用される。
 学習処理部26は、以上に説明した更新処理(Sa2~Sa5)を所定の回数にわたり反復したか否かを判定する(Sa61)。更新処理の反復の回数が所定値を下回る場合(Sa61:NO)、学習処理部26は、記憶装置12から次の学習データLを選択(Sa1)したうえで、当該学習データLについて更新処理(Sa2~Sa5)を実行する。すなわち、複数の学習データLの各々について更新処理が反復される。
 更新処理(Sa2~Sa5)の回数が所定値に到達した場合(Sa61:YES)、学習処理部26は、更新処理後の合成モデルMにより生成される特徴データQが所定の品質に到達したか否かを判定する(Sa62)。特徴データQの品質の評価には、記憶装置12に記憶された前述の評価用データLが利用される。具体的には、学習処理部26は、合成モデルMが評価用データLから生成した特徴データQと評価用データLの音響信号Vから信号解析部21が生成した特徴データQ(正解値)との誤差を算定する。学習処理部26は、特徴データQ間の誤差が所定の閾値を下回るか否かに応じて、特徴データQが所定の品質に到達したか否かを判定する。
 特徴データQが所定の品質に到達していない場合(Sa62:NO)、学習処理部26は、所定の回数にわたる更新処理(Sa2~Sa5)の反復を開始する。以上の説明から理解される通り、所定の回数にわたる更新処理の反復毎に特徴データQの品質が評価される。特徴データQが所定の品質に到達した場合(Sa62:YES)、学習処理部26は、当該時点における合成モデルMを最終的な合成モデルMとして確定する(Sa7)。すなわち、最新の更新後の複数の係数が記憶装置12に記憶される。以上の手順で確定された学習済の合成モデルMが、合成処理部24による特徴データQの生成に利用される。また、学習処理部26は、以上の手順で確定された学習済の符号化モデルEに各歌唱者の識別情報Fを入力することで歌唱者データXaを生成する(Sa8)。歌唱者データXaの確定後に符号化モデルEは破棄される。なお、歌唱者空間は、事前学習された符号化モデルEにより構築された空間である。
 以上の説明から理解される通り、学習済の合成モデルMは、各学習データL1に対応する入力データZと当該学習データL1の音響信号Vに対応する特徴データQとの間に潜在する傾向のもとで、未知の入力データZに対して統計的に妥当な特徴データQを生成することが可能である。すなわち、合成モデルMは、入力データZと特徴データQとの関係を学習する。また、符号化モデルEは、合成モデルMが統計的に妥当な特徴データQを入力データZから生成できるように識別情報Fと歌唱者データXaとの関係を学習する。事前学習が完了すると複数の学習データL1は記憶装置12から破棄される。
 図6は、学習処理部26による追加学習を含む音響処理システム100の全体的な動作の具体的な手順を例示するフローチャートである。前述の事前学習による合成モデルMの訓練後に、例えば入力装置14に対する利用者からの指示を契機として図6の処理が開始される。
 図6の処理を開始すると、信号解析部21は、記憶装置12に記憶された追加歌唱者の音響信号V1を解析することで条件データXbと特徴データQとを生成する(Sb1)。学習処理部26は、信号解析部21が音響信号V1から生成した条件データXbと特徴データQとを含む学習データL2を利用した追加学習により合成モデルMを訓練する(Sb2-Sb4)。記憶装置12に記憶された複数の学習データL2が追加学習に利用される。学習データL2の条件データXbは「第1条件データ」の一例であり、当該学習データL2の特徴データQは「第1特徴データ」の一例である。
 具体的には、学習処理部26は、乱数等により初期化された追加歌唱者の歌唱者データXaと、当該追加歌唱者の音響信号V1から生成された条件データXbとを含む入力データZを、事前学習済の合成モデルMに入力する(Sb2)。合成モデルMは、歌唱者データXaと条件データXbとに応じた特徴データQの時系列を生成する。学習処理部26は、合成モデルMが生成した特徴データQと、学習データL2の音響信号V1から信号解析部21が生成した特徴データQ(すなわち正解値)との誤差を表す評価関数を算定する(Sb3)。学習処理部26は、評価関数が所定値(典型的にはゼロ)に近付くように、歌唱者データXaと合成モデルMの複数の係数とを更新する(Sb4)。評価関数に応じた複数の係数の更新には、事前学習での係数の更新と同様に、例えば誤差逆伝播法が利用される。歌唱者データXaおよび複数の係数の更新(Sb4)は、合成モデルMが充分な品質の特徴データQを生成できるようになるまで反復される。以上の追加学習により、歌唱者データXaと合成モデルMの複数の係数とが確定する。
 以上に説明した追加学習を実行すると、表示制御部22は、図3の編集画面Gを表示装置13に表示させる(Sb5)。編集画面Gには、信号解析部21が音響信号V1から生成した条件データXbが表す音符画像Gaの時系列と、信号解析部21が音響信号V1から生成した基本周波数Qaの時系列を表すピッチ画像Gbと、音響信号V1の波形を表す波形画像Gcとが配置される。
 利用者は、編集画面Gを視認しながら、音響信号V1の歌唱条件の変更を指示することが可能である。指示受付部23は、歌唱条件の変更が利用者から指示されたか否かを判定する(Sb6)。歌唱条件の変更の指示を受付けると(Sb6:YES)、指示受付部23は、信号解析部21が生成した初期的な条件データXbを利用者からの指示に応じて変更する(Sb7)。
 合成処理部24は、指示受付部23による変更後の条件データXbと追加歌唱者の歌唱者データXaとを含む入力データZを追加学習後の合成モデルMに入力する(Sb8)。合成モデルMは、追加歌唱者の歌唱者データXaと条件データXbとに応じた特徴データQの時系列を生成する。変更後の条件データXbは「第2条件データ」の一例であり、当該条件データxbの入力により合成モデルMが生成する特徴データQは「第2特徴データ」の一例である。
 信号生成部25は、合成モデルMが生成した特徴データQの時系列から音響信号V2を生成する(Sb9)。表示制御部22は、利用者からの変更の指示と追加学習後の合成モデルMを利用した音響信号V2とを反映した内容に編集画面Gを更新する(Sb10)。具体的には、表示制御部22は、音符画像Gaの時系列を、利用者が指示した変更後の歌唱条件を表す内容に更新する。また、表示制御部22は、表示装置13が表示するピッチ画像Gbを、信号生成部25が生成した音響信号V2の基本周波数Qaの時系列を表す画像に更新し、波形画像Gcを当該音響信号V2の波形に更新する。
 制御装置11は、歌唱音の再生が利用者から指示されたか否かを判定する(Sb11)。歌唱音の再生が指示されると(Sb11:YES)。制御装置11は、以上の手順で生成された音響信号V2を放音装置15に供給することで歌唱音を再生する(Sb12)。すなわち、利用者による変更後の歌唱条件に対応する歌唱音が放音装置15から再生される。なお、歌唱条件の変更が指示されない場合(Sb6:NO)、条件データXbの変更(Sb7)と音響信号V2の生成(Sb8,Sb9)と編集画面Gの更新(Sb10)とは実行されない。したがって、利用者から歌唱音の再生が指示されると(Sb11:YES)、記憶装置12に記憶された音響信号V1が放音装置15に供給されることで歌唱音が再生される(Sb12)。歌唱音の再生が指示されない場合(Sb11:NO)には、放音装置15に対して音響信号V(V1,V2)は供給されない。
 制御装置11は、処理の終了が利用者から指示されたか否かを判定する(Sb13)。処理の終了が指示されていない場合(Sb13:NO)、制御装置11は処理をステップSb6に移行し、歌唱条件の変更の指示を利用者から受付ける。以上の説明から理解される通り、歌唱条件の変更の指示毎に、条件データXbの変更(Sb7)と追加学習後の合成モデルMを利用した音響信号V2の生成(Sb8,Sb9)と編集画面Gの更新(Sb10)とが実行される。
 以上に説明した通り、第1実施形態では、追加歌唱者の音響信号V1から特定される条件データXbと特徴データQとを利用した追加学習が事前学習済の合成モデルMについて実行され、変更後の歌唱条件を表す条件データXbを追加学習後の合成モデルMに入力することで、変更後の歌唱条件で追加歌唱者により発音された歌唱音の特徴データQが生成される。したがって、利用者による変更の指示に応じて音響信号を直接的に調整する従来の構成と比較して、歌唱条件の変更による音質の劣化を抑制することが可能である。
 また、第1実施形態では、音響信号V2が表す歌唱音の歌唱者(すなわち追加歌唱者)と同種の発音源の歌唱音を表す音響信号Vを利用して事前学習済の合成モデルMが生成される。したがって、追加歌唱者の音響信号V1が少ない場合でも、変更後の歌唱条件で発音された歌唱音の特徴データQを高精度に生成できるという利点がある。
<第2実施形態>
 第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
 第1実施形態では、事前学習により訓練された符号化モデルEを利用して追加歌唱者の歌唱者データXaを生成した。歌唱者データXaの生成後に符号化モデルEを破棄した場合、追加学習の段階で歌唱者空間を再構築することができない。第2実施形態では、図5のステップSa8において符号化モデルEを破棄せず、歌唱者空間を再構築できるようにする。この場合の追加学習は、例えば、合成モデルMが対応できる条件データXbの範囲を拡張する等の目的で実行される。以下では、合成モデルMを利用して追加歌唱者の追加学習を行う場合を説明する。図5の処理に先立ち、追加歌唱者に他の歌唱者と区別できるように、ユニークな識別情報Fが割り当て、さらに、図6のSb1の処理により、追加歌唱者の歌唱音を表す音響信号V1から条件データXbおよび特徴データQを生成し、記憶装置12に、学習データL1の一部として追加記憶する。
 図5のステップSa1~Sa6の処理により、当該条件データXbおよび特徴データQを含む学習データL1を利用した追加学習を実行し、合成モデルMおよび符号化モデルEの各々の複数の係数を更新する手順は、第1実施形態と同様である。すなわち、追加学習においては、追加歌唱者の歌唱音の特徴が反映されるように合成モデルMが訓練されるとともに歌唱者空間が再構築される。学習処理部26は、追加歌唱者の学習データL1を利用して事前学習済の合成モデルMを再訓練する処理により、合成モデルMが追加歌唱者の歌唱音を合成できるようにする。
 第2実施形態によれば、ある歌唱者の音響信号V1を追加することにより、合成モデルMで生成される複数の歌唱者の歌唱の品質を高めることができる。また、追加歌唱者の音響信号V1が少ない場合でも、追加歌唱者の歌唱音を合成モデルMから高精度に生成できるという利点がある。
<変形例>
 以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、合成モデルMを利用して音響信号V2を生成したが、合成モデルMを利用した音響信号V2の生成と音響信号V1の直接的な調整とを併用してもよい。例えば図7に例示される通り、制御装置11は、前述の各形態と同様の要素に加えて調整処理部31および信号合成部32として機能する。調整処理部31は、記憶装置12に記憶された音響信号V1を利用者による歌唱条件の変更の指示に応じて調整することで音響信号V3を生成する。例えば特定の音符の音高の変化を利用者が指示した場合、調整処理部31は、音響信号V1のうち当該音符に対応する区間内の音高を指示に応じて変更することで音響信号V3を生成する。また、特定の音符の発音期間の変更を利用者が指示した場合、調整処理部31は、音響信号V1のうち当該音符に対応する区間を時間軸上で伸縮することで音響信号V3を生成する。音響信号V1の音高の変更または時間的な伸縮には公知の技術が任意に採用される。信号合成部32は、合成モデルMが生成した特徴データQから信号生成部25が生成した音響信号V2と、図7の調整処理部31が生成した音響信号V3とを合成することで、音響信号V4を生成する。信号合成部32が生成した音響信号V4が放音装置15に供給される。
 信号合成部32は、信号生成部25が生成した音響信号V2または調整処理部31が生成した音響信号V3の音質を評価し、信号合成部32による音響信号V2と音響信号V3との混合比を評価の結果に応じて調整する。音響信号V2または音響信号V3の音質は、例えばSN(Signal-to-Noise)比またはSD(Signal-to-Distortion)比等の指標値を利用して評価される。信号合成部32は、例えば、音響信号V2の音質が高いほど、音響信号V3に対する音響信号V2の混合比を高い数値に設定する。したがって、音響信号V2の音質が高い場合には、当該音響信号V2が優勢に反映された音響信号V4が生成され、音響信号V2の音質が低い場合には、音響信号V3が優勢に反映された音響信号V4が生成される。また、音響信号V2または音響信号V3の音質に応じて音響信号V2および音響信号V3の何れかを選択してもよい。例えば、音響信号V2の音質の指標が閾値を上回る場合には当該音響信号V2が放音装置15に供給され、当該指標が閾値を下回る場合には音響信号V3が放音装置15に供給される。
(2)前述の各形態では、楽曲の全体にわたる音響信号V2を生成したが、楽曲のうち利用者が歌唱条件の変更を指示した区間について音響信号V2を生成し、当該音響信号V2を音響信号V1に合成してもよい。合成後の音響信号において音響信号V2の始点または終点が聴覚的に明確に知覚されないように、音響信号V1に対して音響信号V2をクロスフェードしてもよい。
(3)前述の各形態では、学習処理部26が事前学習および追加学習の双方を実行したが、事前学習と追加学習とを別個の要素が実行してもよい。例えば、外部装置による事前学習で生成された合成モデルMについて学習処理部26が追加学習を実行する構成では、学習処理部26による事前学習は不要である。例えば、端末装置と通信可能な機械学習装置(例えばサーバ装置)が事前学習により合成モデルMを生成し、当該合成モデルMを端末装置に配信する。端末装置は、機械学習装置から配信された合成モデルMの追加学習を実行する学習処理部26を具備する。
(4)前述の各形態では、歌唱者が発音した歌唱音を合成したが、歌唱音以外の音響の合成にも本開示は適用される。例えば、音楽を要件としない会話音等の一般的な発話音の合成、または楽器の演奏音の合成にも、本開示は適用される。歌唱者データXaは、歌唱者のほかに発話者または楽器等を含む発音源を表す発音源データの一例に相当する。また、条件データXbは、歌唱条件のほかに発話条件(例えば音韻)または演奏条件(例えば音高および音量)を含む発音条件を表すデータとして包括的に表現される。楽器の演奏に関する合成データXcにおいては、音韻の指定が省略される。
(5)前述の各形態では、特徴データQが基本周波数Qaとスペクトル包絡Qbとを含む構成を例示したが、特徴データQの内容は以上の例示に限定されない。周波数スペクトルの特徴(以下「スペクトル特徴」という)を表す各種のデータが特徴データQとして利用される。特徴データQとして利用可能なスペクトル特徴としては、前述のスペクトル包絡Qbのほか、例えばメルスペクトル、メルケプストラム、メルスペクトログラムまたはスペクトログラムが例示される。なお、基本周波数Qaを特定可能なスペクトル特徴を特徴データQとして利用する構成では、特徴データQから基本周波数Qaを省略してもよい。
(6)前述の各形態に係る音響処理システム100の機能は、コンピュータ(例えば制御装置11)とプログラムとの協働により実現される。本開示のひとつの態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
(7)合成モデルMを実現するための人工知能ソフトウェアの実行主体はCPUに限定されない。例えば、Tensor Processing UnitもしくはNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるDSP(Digital Signal Processor)が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。
<付記>
 以上に例示した形態から、例えば以下の構成が把握される。
 本開示のひとつの態様(第1態様)に係る音響処理方法は、発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用して実行し、前記音響信号に関する発音条件の変更の指示を受付け、前記変更後の発音条件を表す第2条件データを前記追加学習後の合成モデルに入力することで第2特徴データを生成する。以上の態様では、音響信号から特定される発音条件を表す第1条件データと当該音響信号の第1特徴データとを利用した追加学習が合成モデルについて実行され、変更後の発音条件を表す第2条件データを追加学習後の合成モデルに入力することで、変更後の発音条件で発音された音響の第2特徴データが生成される。したがって、変更の指示に応じて音響信号を直接的に調整する従来の構成と比較して、発音条件の変更による音質の劣化を抑制することが可能である。
 第1態様の具体例(第2態様)において、前記事前学習済の合成モデルは、前記音響信号が表す音響の発音源と同種の発音源の音響を表す信号を利用した機械学習により生成されたモデルである。以上の態様では、音響信号が表す音響の発音源と同種の発音源の音響を表す信号を利用して事前学習済の合成モデルが生成されるから、変更後の発音条件で発音された音響の第2特徴データを高精度に生成できる。
 第1態様または第2態様の具体例(第3態様)において、前記第2特徴データの生成では、前記変更後の発音条件を表す前記第2条件データと、音響の特徴に関する発音源間の関係を表す空間における発音源の位置を表す発音源データとを、前記追加学習後の合成モデルに入力する。
 第1態様から第3態様の何れかの具体例(第4態様)において、前記発音条件は、音高を含み、前記発音条件の変更の指示は、前記音高の変更の指示である。以上の態様によれば、変更後の音高で発音された高音質な音響の第2特徴データを生成できる。
 第1態様から第4態様の何れかの具体例(第5態様)において、前記発音条件は、発音期間を含み、前記発音条件の変更の指示は、前記発音期間の変更の指示である。以上の態様によれば、変更後の発音期間で発音された高音質な音響の第2特徴データを生成できる。
 第1態様から第5態様の何れかの具体例(第6態様)において、前記発音条件は、音韻を含み、前記発音条件の変更の指示は、前記音韻の変更の指示である。以上の態様によれば、変更後の音韻を発音した高音質な音響の第2特徴データを生成できる。
 以上に例示した各態様の音響処理方法を実行する音響処理システム、または、以上に例示した各態様の音響処理方法をコンピュータに実行させるプログラムとしても、本開示は実現される。
100…音響処理システム、11…制御装置、12…記憶装置、13…表示装置、14…入力装置、15…放音装置、21…信号解析部、22…表示制御部、23…指示受付部、24…合成処理部、25…信号生成部、26…学習処理部、M…合成モデル、Xa…歌唱者データ、Xb…条件データ、Z…入力データ、Q…特徴データ、V1,V2…音響信号、F…識別情報、E…符号化モデル、L1,L2…学習データ。

Claims (9)

  1.  発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用して実行し、
     前記音響信号に関する発音条件の変更の指示を受付け、
     前記変更後の発音条件を表す第2条件データを前記追加学習後の合成モデルに入力することで第2特徴データを生成する
     コンピュータにより実現される音響処理方法。
  2.  前記事前学習済の合成モデルは、前記音響信号が表す音響の発音源と同種の発音源の音響を表す信号を利用した機械学習により生成されたモデルである
     請求項1の音響処理方法。
  3.  前記第2特徴データの生成においては、前記変更後の発音条件を表す前記第2条件データと、音響の特徴に関する発音源間の関係を表す空間における発音源の位置を表す発音源データとを、前記追加学習後の合成モデルに入力する
     請求項1または請求項2の音響処理方法。
  4.  前記発音条件は、音高を含み、
     前記発音条件の変更の指示は、前記音高の変更の指示である
     請求項1から請求項3の何れかの音響処理方法。
  5.  前記発音条件は、発音期間を含み、
     前記発音条件の変更の指示は、前記発音期間の変更の指示である
     請求項1から請求項4の何れかの音響処理方法。
  6.  前記発音条件は、音韻を含み、
     前記発音条件の変更の指示は、前記音韻の変更の指示である
     請求項1から請求項5の何れかの音響処理方法。
  7.  前記音響処理方法は、さらに、
     前記生成した第2特徴データに応じて音響信号を生成する
     請求項1から請求項6の何れかの音響処理方法。
  8.  発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用して実行する学習処理部と、
     前記音響信号に関する発音条件の変更の指示を受付ける指示受付部と、
     前記変更後の発音条件を表す第2条件データを前記追加学習後の合成モデルに入力することで第2特徴データを生成する合成処理部と
     を具備する音響処理システム。
  9.  1以上のプロセッサと1以上のメモリとを具備する情報処理システムであって、
     前記1以上のメモリに記憶されたプログラムを実行することにより、
     前記1以上のプロセッサが、
     発音条件を表す条件データから当該発音条件で発音された音響の特徴を表す特徴データを生成する事前学習済の合成モデルの追加学習を、音響信号から特定される発音条件を表す第1条件データと当該音響信号が表す音響の特徴を表す第1特徴データとを利用して実行し、
     前記音響信号に関する発音条件の変更の指示を受付け、
     前記変更後の発音条件を表す第2条件データを前記追加学習後の合成モデルに入力することで第2特徴データを生成する
     音響処理システム。
PCT/JP2019/043511 2018-11-06 2019-11-06 音響処理方法および音響処理システム WO2020095951A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP19882740.4A EP3879521A4 (en) 2018-11-06 2019-11-06 ACOUSTIC TREATMENT METHOD AND ACOUSTIC TREATMENT SYSTEM
CN201980072998.7A CN113016028A (zh) 2018-11-06 2019-11-06 音响处理方法及音响处理系统
US17/306,123 US11842720B2 (en) 2018-11-06 2021-05-03 Audio processing method and audio processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018209289A JP6737320B2 (ja) 2018-11-06 2018-11-06 音響処理方法、音響処理システムおよびプログラム
JP2018-209289 2018-11-06

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/306,123 Continuation US11842720B2 (en) 2018-11-06 2021-05-03 Audio processing method and audio processing system

Publications (1)

Publication Number Publication Date
WO2020095951A1 true WO2020095951A1 (ja) 2020-05-14

Family

ID=70611505

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/043511 WO2020095951A1 (ja) 2018-11-06 2019-11-06 音響処理方法および音響処理システム

Country Status (5)

Country Link
US (1) US11842720B2 (ja)
EP (1) EP3879521A4 (ja)
JP (1) JP6737320B2 (ja)
CN (1) CN113016028A (ja)
WO (1) WO2020095951A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118101632A (zh) * 2024-04-22 2024-05-28 安徽声讯信息技术有限公司 一种基于人工智能的语音低延时信号传输方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
WO2021251364A1 (ja) * 2020-06-09 2021-12-16 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016020972A (ja) * 2014-07-14 2016-02-04 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
JP2017107228A (ja) * 2017-02-20 2017-06-15 株式会社テクノスピーチ 歌声合成装置および歌声合成方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895588A (ja) * 1994-09-27 1996-04-12 Victor Co Of Japan Ltd 音声合成装置
US6304846B1 (en) 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
JP4839891B2 (ja) 2006-03-04 2011-12-21 ヤマハ株式会社 歌唱合成装置および歌唱合成プログラム
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
JP5471858B2 (ja) 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5293460B2 (ja) 2009-07-02 2013-09-18 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
GB2500471B (en) 2010-07-20 2018-06-13 Aist System and method for singing synthesis capable of reflecting voice timbre changes
GB2501067B (en) 2012-03-30 2014-12-03 Toshiba Kk A text to speech system
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
JP5949607B2 (ja) * 2013-03-15 2016-07-13 ヤマハ株式会社 音声合成装置
JP6261924B2 (ja) 2013-09-17 2018-01-17 株式会社東芝 韻律編集装置、方法およびプログラム
US8751236B1 (en) 2013-10-23 2014-06-10 Google Inc. Devices and methods for speech unit reduction in text-to-speech synthesis systems
CN104766603B (zh) * 2014-01-06 2019-03-19 科大讯飞股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
CN105023570B (zh) * 2014-04-30 2018-11-27 科大讯飞股份有限公司 一种实现声音转换的方法及系统
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
JP6000326B2 (ja) 2014-12-15 2016-09-28 日本電信電話株式会社 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
JP6622505B2 (ja) 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN113724685B (zh) * 2015-09-16 2024-04-02 株式会社东芝 语音合成模型学习装置、语音合成模型学习方法及存储介质
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
JP6004358B1 (ja) * 2015-11-25 2016-10-05 株式会社テクノスピーチ 音声合成装置および音声合成方法
JP6390690B2 (ja) 2016-12-05 2018-09-19 ヤマハ株式会社 音声合成方法および音声合成装置
JP6846237B2 (ja) 2017-03-06 2021-03-24 日本放送協会 音声合成装置及びプログラム
JP6729539B2 (ja) * 2017-11-29 2020-07-22 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
EP3739476A4 (en) 2018-01-11 2021-12-08 Neosapience, Inc. SPEECH SYNTHESIS PROCESS FROM MULTILINGUAL TEXT
WO2019139431A1 (ko) 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
US11302329B1 (en) * 2020-06-29 2022-04-12 Amazon Technologies, Inc. Acoustic event detection
US11551663B1 (en) * 2020-12-10 2023-01-10 Amazon Technologies, Inc. Dynamic system response configuration

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016020972A (ja) * 2014-07-14 2016-02-04 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
JP2017107228A (ja) * 2017-02-20 2017-06-15 株式会社テクノスピーチ 歌声合成装置および歌声合成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAKANO, TOMOYASU; GOTO, MASATAKA: "VocaListener: A Singing Synthesis System by Mimicking Pitch and Dynamics of User's Singing", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 52, no. 12, 15 December 2011 (2011-12-15), pages 3853 - 3867, XP009527468, ISSN: 1882-7799 *
See also references of EP3879521A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118101632A (zh) * 2024-04-22 2024-05-28 安徽声讯信息技术有限公司 一种基于人工智能的语音低延时信号传输方法及系统

Also Published As

Publication number Publication date
US20210256959A1 (en) 2021-08-19
JP6737320B2 (ja) 2020-08-05
US11842720B2 (en) 2023-12-12
EP3879521A4 (en) 2022-08-03
EP3879521A1 (en) 2021-09-15
CN113016028A (zh) 2021-06-22
JP2020076844A (ja) 2020-05-21

Similar Documents

Publication Publication Date Title
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
JP6747489B2 (ja) 情報処理方法、情報処理システムおよびプログラム
CN111542875B (zh) 声音合成方法、声音合成装置及存储介质
CN111418005B (zh) 声音合成方法、声音合成装置及存储介质
WO2020095951A1 (ja) 音響処理方法および音響処理システム
CN111418006B (zh) 声音合成方法、声音合成装置及记录介质
JP2016161919A (ja) 音声合成装置
CN109416911B (zh) 声音合成装置及声音合成方法
US20210375248A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium
JP7147211B2 (ja) 情報処理方法および情報処理装置
JP7359164B2 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
US20210350783A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
JP2020166299A (ja) 音声合成方法
JP2022065554A (ja) 音声合成方法およびプログラム
JP7192834B2 (ja) 情報処理方法、情報処理システムおよびプログラム
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP7088403B2 (ja) 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
JP2009237590A (ja) 音声効果付与装置
JP6822075B2 (ja) 音声合成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19882740

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019882740

Country of ref document: EP

Effective date: 20210607