WO2019181767A1 - 音処理方法、音処理装置およびプログラム - Google Patents

音処理方法、音処理装置およびプログラム Download PDF

Info

Publication number
WO2019181767A1
WO2019181767A1 PCT/JP2019/010770 JP2019010770W WO2019181767A1 WO 2019181767 A1 WO2019181767 A1 WO 2019181767A1 JP 2019010770 W JP2019010770 W JP 2019010770W WO 2019181767 A1 WO2019181767 A1 WO 2019181767A1
Authority
WO
WIPO (PCT)
Prior art keywords
expression
sound
period
note
sample
Prior art date
Application number
PCT/JP2019/010770
Other languages
English (en)
French (fr)
Inventor
メルレイン ブラアウ
ジョルディ ボナダ
竜之介 大道
久湊 裕司
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN201980018441.5A priority Critical patent/CN111837184A/zh
Priority to EP19772599.7A priority patent/EP3770906B1/en
Publication of WO2019181767A1 publication Critical patent/WO2019181767A1/ja
Priority to US17/027,058 priority patent/US11842719B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/04Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
    • G10H1/053Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only
    • G10H1/057Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/311Distortion, i.e. desired non-linear audio processing to change the tone color, e.g. by adding harmonics or deliberately distorting the amplitude of an audio waveform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch

Definitions

  • the present invention relates to a technique for adding expressions to sound such as singing voice.
  • Patent Literature 1 discloses a technique for generating an audio signal representing audio to which various audio expressions are added.
  • the speech expression added to the speech represented by the speech signal is selected by the user from a plurality of candidates. Further, the parameters relating to the addition of the speech expression are adjusted according to an instruction from the user.
  • the preferred embodiment of the present invention generates auditory natural speech to which speech expression is appropriately added without requiring specialized knowledge and complicated work related to speech expression. The purpose is to do.
  • a sound processing method adds an expression sample representing a sound expression to be added to the note and the sound expression according to the note data representing the note.
  • a processing parameter relating to an expression adding process for adding the sound expression to a portion within the expression period in an acoustic signal is specified according to the expression sample and the expression period, and the expression sample The expression adding process corresponding to the expression period and the processing parameter is executed.
  • the sound processing method provides the expression period in the acoustic signal according to the expression sample representing the sound expression to be added to the note represented by the note data and the expression period to which the sound expression is added.
  • a processing parameter related to the expression adding process for adding the sound expression to the inside portion is specified, and the expression adding process corresponding to the processing parameter is executed.
  • the sound processing apparatus specifies a representation sample representing a sound expression to be added to the note and an expression period in which the sound expression is added according to the note data representing the note.
  • an expression adding unit that executes the expression adding process according to the expression period and the processing parameter.
  • the sound processing device provides the expression period in the acoustic signal according to the expression sample representing the sound expression to be added to the note represented by the note data and the expression period to which the sound expression is added.
  • a program specifies a computer for an expression sample representing a sound expression to be added to the note and an expression period to which the sound expression is added, according to the note data representing the note.
  • FIG. 1 is a block diagram illustrating the configuration of an information processing apparatus 100 according to a preferred embodiment of the present invention.
  • the information processing apparatus 100 is an audio processing apparatus that adds various audio expressions to audio generated by singing a song (hereinafter referred to as “singing audio”).
  • the phonetic expression is an acoustic characteristic added to the singing voice.
  • the audio expression is a musical expression or facial expression related to the pronunciation of voice (ie, singing).
  • singing expressions such as vocal flies, roaring voices, and hoarse voices are suitable examples of audio expressions.
  • the voice expression is also referred to as voice quality.
  • attack part the beginning part of the pronunciation
  • release part the end part of the pronunciation
  • voice expression is added to the attack part and the release part in the singing voice. Therefore, it is possible to add the speech expression at an appropriate position in accordance with the actual tendency regarding the speech expression.
  • the attack part is a part where the volume increases immediately after the start of sound generation
  • the release part is a part where the sound volume decreases immediately before the end of sound generation.
  • the information processing apparatus 100 is realized by a computer system that includes a control device 11, a storage device 12, an operation device 13, and a sound emitting device 14.
  • a portable information terminal such as a mobile phone or a smartphone, or a portable or stationary information terminal such as a personal computer is preferably used as the information processing apparatus 100.
  • the operation device 13 is an input device that receives an instruction from a user.
  • a plurality of operators operated by the user or a touch panel that detects contact by the user is preferably used as the operation device 13.
  • the control device 11 is composed of one or more processors such as a CPU (Central Processing Unit) and executes various arithmetic processes and control processes.
  • the control device 11 according to the present embodiment generates a sound signal Z representing a sound obtained by adding a sound expression to the singing sound (hereinafter referred to as “processed sound”).
  • the sound emitting device 14 is, for example, a speaker or a headphone, and emits a processed sound represented by the sound signal Z generated by the control device 11.
  • generated from digital to analog was abbreviate
  • the configuration in which the information processing device 100 includes the sound emitting device 14 is illustrated in FIG. 1, the sound emitting device 14 that is separate from the information processing device 100 may be connected to the information processing device 100 by wire or wirelessly. Good.
  • the storage device 12 is a memory composed of a known recording medium such as a magnetic recording medium or a semiconductor recording medium.
  • the storage device 12 is a program executed by the control device 11 (that is, a series of instructions for the processor) and various types used by the control device 11. Data.
  • the storage device 12 may be configured by a combination of a plurality of types of recording media.
  • a storage device 12 (for example, cloud storage) separate from the information processing device 100 may be prepared, and the control device 11 may execute writing and reading with respect to the storage device 12 via a communication network. That is, the storage device 12 may be omitted from the information processing device 100.
  • the storage device 12 of the present embodiment stores an audio signal X, music data D, and a plurality of expression samples Y.
  • the audio signal X is an acoustic signal that represents a singing voice generated by singing a song.
  • the music data D is a music file that represents a time series of notes constituting the music represented by the singing voice. That is, the music is common between the audio signal X and the music data D.
  • the music data D designates a pitch, a sound generation period, and a sound intensity for each of a plurality of notes constituting the music.
  • a file (SMF: Standard MIDI File) conforming to the MIDI (Musical Instrument Digital Interface) standard is suitable as the music data D.
  • the audio signal X is generated, for example, by recording a user's song.
  • the audio signal X distributed from the distribution device may be stored in the storage device 12.
  • the music data D is generated by analyzing the audio signal X.
  • the method of generating the audio signal X and the music data D is not limited to the above examples.
  • the music data D may be edited in accordance with an instruction from the user to the operation device 13 and the audio signal X may be generated by a known voice synthesis process using the music data D.
  • the music data D distributed from the distribution device may be used for generating the audio signal X.
  • Each of the plurality of expression samples Y is data representing a voice expression to be added to the singing voice.
  • each expression sample Y represents an acoustic characteristic of a voice sung with voice expression added (hereinafter referred to as “reference voice”).
  • the type of voice expression (for example, classification of a roaring voice or a hoarse voice) is common to a plurality of expression samples Y, but characteristics such as temporal changes in sound volume or time length are different for each expression sample Y.
  • the plurality of expression samples Y include an expression sample Y for the attack part of the reference speech and an expression sample Y for the release part.
  • a plurality of expression samples Y may be stored in the storage device 12 for each of a plurality of types of speech expressions, and for example, a plurality of expression samples Y corresponding to one type of sound expression selected by the user may be selectively used. Good.
  • the information processing apparatus 100 adds the speech representation of the reference speech represented by the representation sample Y to the singing speech of the speech signal X, thereby generating the speech signal Z of the processed speech that maintains the phoneme and pitch of the singing speech.
  • the singing voice speaker and the reference voice speaker are different people, but the singing voice speaker and the reference voice speaker may be the same person.
  • the singing voice is a voice sung by the user without adding a voice expression
  • the reference voice is a voice sung by the user with the voice expression added.
  • each expression sample Y includes a time series of the fundamental frequency Fy and a time series of the spectrum envelope outline Gy.
  • the spectrum envelope outline Gy means an intensity distribution obtained by further smoothing the spectrum envelope Q2 which is an outline of the frequency spectrum Q1 of the reference speech in the frequency domain.
  • the spectral envelope outline Gy is an intensity distribution obtained by smoothing the spectral envelope Q2 to such an extent that phonological characteristics (phonetic-dependent differences) and individuality (speaker-dependent differences) cannot be perceived.
  • the spectral envelope outline Gy is represented by a predetermined number of coefficients located on the lower order side among a plurality of coefficients of the mel cepstrum representing the spectral envelope Q2.
  • the spectral envelope outline Gy of the expression sample Y is focused.
  • the spectrum envelope outline Gx having the same definition can be conceived for the audio signal X representing the singing voice.
  • FIG. 3 is a block diagram illustrating a functional configuration of the control device 11.
  • the control device 11 executes a program stored in the storage device 12 to provide a plurality of functions (specific processing unit 20 and expression adding unit 30) for generating the audio signal Z. Realize.
  • the function of the control device 11 may be realized by a plurality of devices configured separately from each other, or part or all of the function of the control device 11 may be realized by a dedicated electronic circuit.
  • the expression adding unit 30 executes a process (hereinafter referred to as “expression adding process”) S3 for adding a voice expression to the singing voice for the audio signal X stored in the storage device 12.
  • a voice signal Z of the processed voice is generated by the expression adding process S3 for the voice signal X.
  • FIG. 4 is a flowchart illustrating a specific procedure of the expression adding process S3
  • FIG. 5 is an explanatory diagram of the expression adding process S3.
  • expression periods Eb for one or more periods (hereinafter referred to as “expression periods”) Eb in the audio signal X, expression samples Ea selected from a plurality of expression samples Y stored in the storage device 12 are included. Added.
  • the expression period Eb is a period corresponding to the attack part or the release part in the sound generation period of each note specified by the music data D.
  • FIG. 5 illustrates the case where the expression sample Ea is added to the attack portion of the audio signal X.
  • the expression adding unit 30 temporally expands / contracts the expression sample Ea selected from the plurality of expression samples Y at an expansion / contraction rate R corresponding to the expression period Eb (S31). Then, the expression adding unit 30 transforms the portion of the audio signal X within the expression period Eb according to the expression sample Ea after expansion / contraction (S32, S33). The deformation of the audio signal X is executed every expression period Eb. Specifically, as will be described in detail below, the expression adding unit 30 performs basic frequency synthesis (S32) and spectral envelope outline synthesis (S33) between the audio signal X and the expression sample Ea. To do. The order of the synthesis of the fundamental frequency (S32) and the synthesis of the spectral envelope outline (S33) is arbitrary.
  • the expression adding unit 30 calculates the fundamental frequency F (t) of the audio signal Z at each time t in the expression period Eb by the calculation of the following formula (1).
  • F (t) Fx (t) ⁇ x (Fx (t) ⁇ fx (t)) + ⁇ y (Fy (t) ⁇ fy (t)) (1)
  • the basic frequency Fx (t) in Equation (1) is the basic frequency (pitch) of the audio signal X at time t on the time axis.
  • the reference frequency fx (t) is a frequency at time t when the time series of the fundamental frequency Fx (t) is smoothed on the time axis.
  • the fundamental frequency Fy (t) in Expression (1) is the fundamental frequency Fy at time t in the expression sample Ea after expansion / contraction.
  • the reference frequency fy (t) is a frequency at time t when the time series of the basic frequency Fy (t) is smoothed on the time axis.
  • the coefficient ⁇ x and the coefficient ⁇ y in Expression (1) are set to non-negative values of 1 or less (0 ⁇ ⁇ x ⁇ 1, 0 ⁇ ⁇ y ⁇ 1).
  • the second term of Equation (1) is the difference between the fundamental frequency Fx (t) of the singing voice and the reference frequency fx (t) in accordance with the coefficient ⁇ x. This is a process of reducing the fundamental frequency Fx (t) of the signal X.
  • the third term of Equation (1) is the difference between the fundamental frequency Fy (t) of the expression sample Ea and the reference frequency fy (t), and the fundamental frequency Fx ( This process is added to t).
  • the expression adding unit 30 calculates the difference between the fundamental frequency Fx (t) of the singing voice and the reference frequency fx (t), and the fundamental frequency Fy (t) of the reference voice and the reference frequency fy ( Replace with the difference from t). That is, the time change of the fundamental frequency Fx (t) within the expression period Eb of the audio signal X approaches the time change of the fundamental frequency Fy (t) in the expression sample Ea.
  • the expression adding unit 30 calculates the spectrum envelope outline G (t) of the audio signal Z at each time t within the expression period Eb by the calculation of the following formula (2).
  • G (t) Gx (t) ⁇ x (Gx (t) ⁇ gx) + ⁇ y (Gy (t) ⁇ gy) (2)
  • the spectrum envelope outline Gx (t) in Expression (2) is an outline of the spectrum envelope of the audio signal X at time t on the time axis.
  • the reference spectrum envelope outline gx is the spectrum envelope outline Gx (t) of the audio signal X at a specific point in time in the expression period Eb.
  • the spectrum envelope outline Gx (t) at the end point (for example, the start point or the end point) of the expression period Eb is used as the reference spectrum envelope outline gx.
  • a representative value (for example, average) of the spectrum envelope outline Gx (t) within the expression period Eb may be used as the reference spectrum envelope outline gx.
  • the spectrum envelope outline Gy (t) in Expression (2) is the spectrum envelope outline Gy of the expression sample Ea at the time t on the time axis.
  • the reference spectrum envelope outline gy is the spectrum envelope outline Gy (t) of the audio signal X at a specific point in time in the expression period Eb.
  • the spectrum envelope outline Gy (t) at the end point (for example, the start point or the end point) of the expression sample Ea is used as the reference spectrum envelope outline gy.
  • a representative value (for example, average) of the spectral envelope outline Gy (t) in the expression sample Ea may be used as the reference spectral envelope outline gy.
  • the coefficient ⁇ x and coefficient ⁇ y in Equation (2) are set to non-negative values (0 ⁇ ⁇ x ⁇ 1, 0 ⁇ ⁇ y ⁇ 1) of 1 or less.
  • the second term of the equation (2) is the difference between the spectrum envelope outline Gx (t) of the singing voice and the reference spectrum envelope outline gx in the degree corresponding to the coefficient ⁇ x, and the spectrum envelope outline Gx of the audio signal X. This is a process to reduce from (t).
  • the third term of Equation (2) is the difference between the spectral envelope outline Gy (t) and the reference spectral envelope outline gy of the expression sample Ea, and the spectral envelope of the audio signal X to the extent corresponding to the coefficient ⁇ y. This process is added to the outline Gx (t).
  • the expression adding unit 30 calculates the difference between the spectrum envelope outline Gx (t) of the singing voice and the reference spectrum envelope outline gx, and the spectrum envelope outline Gy (t) of the expression sample Ea. And the difference between the reference spectrum envelope outline gy.
  • the expression adding unit 30 generates the speech signal Z of the processed speech by using the processing results exemplified above (that is, the fundamental frequency F (t) and the spectral envelope outline G (t)) (S34). Specifically, the expression adding unit 30 adjusts each frequency spectrum of the audio signal X so as to follow the spectrum envelope outline G (t) of Equation (2), and the basic frequency Fx (t of the audio signal X ) Is adjusted to the fundamental frequency F (t). Adjustment of the frequency spectrum of the audio signal X and the fundamental frequency Fx (t) is performed, for example, in the frequency domain. The expression adding unit 30 generates the audio signal Z by converting the adjusted frequency spectrum exemplified above into the time domain (S35).
  • the time series of the fundamental frequency Fx (t) in the expression period Eb of the audio signal X is changed to the time series and coefficient of the fundamental frequency Fy (t) corresponding to the expression sample Ea. It is changed according to ⁇ x and coefficient ⁇ y.
  • the time series of the spectral envelope outline Gx (t) in the expression period Eb of the audio signal X is changed to the time series and coefficient of the spectrum envelope outline Gy (t) corresponding to the expression sample Ea. It is changed according to ⁇ x and coefficient ⁇ y.
  • the specific procedure of the expression adding process S3 is as described above.
  • the identification processing unit 20 in FIG. 3 identifies the expression sample Ea, the expression period Eb, and the processing parameter Ec for each note specified by the music data D. Specifically, an expression sample Ea, an expression period Eb, and a processing parameter Ec are specified for each note to which a voice expression is to be added among a plurality of notes specified by the music data D.
  • the processing parameter Ec is a parameter related to the expression addition processing S3. Specifically, as illustrated in FIG. 4, the processing parameter Ec is applied to the expansion / contraction rate R applied to the expansion / contraction (S31) of the expression sample Ea and the adjustment (S32) of the fundamental frequency Fx (t).
  • the coefficient ⁇ x and the coefficient ⁇ y, and the coefficient ⁇ x and the coefficient ⁇ y applied to the adjustment (S33) of the spectral envelope outline Gx (t) are included.
  • the identification processing unit 20 of the present embodiment includes a first identification unit 21 and a second identification unit 22.
  • the first specifying unit 21 specifies the expression sample Ea and the expression period Eb according to the note data N representing each note specified by the music data D.
  • the first specifying unit 21 outputs identification information indicating the expression sample Ea and time data indicating the start time and / or end time of the expression period Eb.
  • the note data N is data representing the situation (context) of one note constituting the music represented by the music data D.
  • the note data N of each note includes, for example, information on the note itself (pitch, time length, pronunciation intensity) and information on the relationship with other notes (for example, the time length of the silent period before and after, Difference in pitch from the note of).
  • the control device 11 generates the note data N of each note by analyzing the music data D.
  • the first specifying unit 21 of the present embodiment specifies whether or not a speech expression is added to a note specified by the note data N, and specifies an expression sample Ea and an expression period Eb for each note to which the sound expression is added.
  • the note data N of each note supplied to the specific processing unit 20 may be data designating only information related to the note (pitch, time length, pronunciation intensity). Information relating to the relationship with other notes is generated from information relating to each note and supplied to the first specifying unit 21 and the second specifying unit 22.
  • the second specifying unit 22 specifies the processing parameter Ec according to the control data C representing the specific result (expression sample Ea and expression period Eb) by the first specifying unit 21 for each note to which the speech expression is added.
  • the control data C of the present embodiment includes data representing the expression sample Ea and the expression period Eb specified by the first specifying unit 21 for one note, and the note data N of the note.
  • the expression sample Ea and expression period Eb specified by the first specifying unit 21 and the processing parameter Ec specified by the second specifying unit 22 are applied to the expression adding process S3 by the expression adding unit 30 as described above.
  • the second specification unit 22 determines the time difference between the start point and the end point of the expression period Eb (that is, the continuation length). ) May be specified as the processing parameter Ec.
  • the learned model (M1, M2) is used for identification of each piece of information by the identification processing unit 20.
  • the first specifying unit 21 specifies the expression sample Ea and the expression period Eb by inputting the note data N of each note to the first learned model M1.
  • the second specifying unit 22 specifies the processing parameter Ec by inputting the control data C of each note to which the phonetic expression is added to the second learned model M2.
  • the first learned model M1 and the second learned model M2 are statistical estimation models generated by machine learning.
  • the first learned model M1 is a model in which the relationship between the note data N, the expression sample Ea, and the expression period Eb is learned.
  • the second learned model M2 is a model in which the relationship between the control data C and the processing parameter Ec is learned.
  • various statistical estimation models such as a neural network are preferably used as the first learned model M1 and the second learned model M2.
  • Each of the first learned model M1 and the second learned model M2 includes a program for causing the control device 11 to execute an operation for generating output data from input data (for example, a program module constituting artificial intelligence software), and Realized in combination with multiple applied coefficients.
  • the plurality of coefficients are set by machine learning (particularly deep learning) using a large number of teacher data and held in the storage device 12.
  • the neural network constituting the first learned model M1 and the second learned model M2 various models such as CNN (ConvolutionalConNeural Network) or RNN (Recurrent Neural Network) are used, for example.
  • a neural network including additional elements such as LSTM (LongLshort-term memory) or ATTENTION may be used.
  • LSTM LongLshort-term memory
  • ATTENTION a statistical estimation model other than the neural network exemplified above may be used as the first learned model M1 and the second learned model.
  • various models such as a decision tree or a hidden Markov model are used.
  • the first learned model M1 outputs the expression sample Ea and the expression period Eb with the note data N as input data.
  • the first learned model M1 is generated by machine learning using a plurality of teacher data in which the note data N is associated with the expression sample Ea and the expression period Eb.
  • the expression sample Ea and the expression period Eb output when the note data N included in the teacher data is input to the provisional configuration and coefficient model, and the expression sample Ea and expression specified by the teacher data.
  • the model configuration may be simplified by omitting nodes with small coefficients.
  • the first learned model M1 is converted into the unknown note data N under the relationship between the note data N in the plurality of teacher data and the expression sample Ea and the expression period Eb.
  • a statistically valid expression sample Ea and expression period Eb are specified. That is, the expression sample Ea and the expression period Eb suitable for the situation (context) of each note designated by the note data N are specified.
  • the first learned model M1 may output a result that no speech expression is added to the note data N for the note data N of each note. For example, a phonetic expression is not added to a note whose pronunciation period is short.
  • the second learned model M2 outputs the processing parameter Ec with the control data C including the identification result by the first identification unit 21 and the note data N as input data.
  • the second learned model M2 is generated by machine learning using a plurality of teacher data in which the control data C and the processing parameter Ec are associated with each other. Specifically, the difference (that is, loss) between the processing parameter Ec output when the control data C included in the teacher data is input to the provisional configuration and coefficient model, and the processing parameter Ec specified by the teacher data.
  • a plurality of coefficients of the second learned model M2 are set by iteratively adjusting each coefficient so that the function is reduced (ideally minimized) for a plurality of teacher data. Note that the model configuration may be simplified by omitting nodes with small coefficients.
  • the second learned model M2 is obtained from the unknown control data C (representation samples Ea,%) Under the potential relationship between the control data C and the processing parameter Ec in the plurality of teacher data.
  • Statistically valid processing parameters Ec are specified for the expression period Eb and the note data N). That is, for each expression period Eb to which speech expression is added, a processing parameter Ec suitable for the expression sample Ea added to the expression period Eb and the situation (context) of the note to which the expression period Eb belongs is specified. .
  • FIG. 6 is a flowchart illustrating a specific operation procedure of the information processing apparatus 100. For example, the process of FIG. 6 is started in response to a user operation on the operation device 13, and the process of FIG. 6 is sequentially executed for each of a plurality of notes specified by the music data D in time series.
  • the identification processing unit 20 identifies the expression sample Ea, the expression period Eb, and the processing parameter Ec according to the note data N of each note (S1, S2). Specifically, the first specifying unit 21 specifies the expression sample Ea and the expression period Eb according to the note data N (S1). The second specifying unit 22 specifies the processing parameter Ec according to the control data C (S2).
  • the expression adding unit 30 generates the speech signal Z of the processed sound by the expression adding process to which the expression sample Ea, the expression period Eb, and the processing parameter Ec specified by the specifying processing unit 20 are applied (S3).
  • the specific procedure of the expression adding process S3 is as described above.
  • the processed sound is emitted by supplying the sound signal Z generated by the expression adding unit 30 to the sound emitting device 14.
  • the expression sample Ea, the expression period Eb, and the processing parameter Ec are specified according to the note data N, the designation of the expression sample Ea and the expression period Eb and the processing parameter Ec There is no need for the user to perform configuration. Accordingly, it is possible to generate an audibly natural sound to which the sound expression is appropriately added without requiring specialized knowledge about the sound expression or a complicated work related to the sound expression.
  • the expression sample Ea and the expression period Eb are specified by inputting the note data N to the first learned model M1, and the control data C including the expression sample Ea and the expression period Eb is specified as the second learned model.
  • the processing parameter Ec is specified by inputting to M2. Therefore, it is possible to appropriately specify the expression sample Ea, the expression period Eb, and the processing parameter Ec for the unknown note data N. Further, since the fundamental frequency Fx (t) and the spectral envelope outline Gx (t) of the audio signal X are changed according to the expression sample Ea, the audio signal Z of an audibly natural audio can be generated.
  • the note data N exemplified in the above-described form includes, for example, information on the note itself (pitch, time length, pronunciation intensity) and information on the relationship with other notes (for example, the time length of the silent period before and after, before and after Difference in pitch from the note of).
  • the information represented by the note data N is not limited to the above examples.
  • note data N that specifies the performance speed of music or the phonemes (for example, characters representing lyrics) specified for the notes may be used.
  • the configuration in which the specific processing unit 20 includes the first specifying unit 21 and the second specifying unit 22 is exemplified.
  • the specification of the expression sample Ea and the expression period Eb by the first specifying unit 21 The configuration in which the processing parameter Ec is specified by the second specifying unit 22 is not essential. That is, the specification processing unit 20 may specify the expression sample Ea, the expression period Eb, and the processing parameter Ec by inputting the note data N to the learned model.
  • the configuration including the first specifying unit 21 that specifies the expression sample Ea and the expression period Eb and the second specifying unit 22 that specifies the processing parameter Ec is exemplified.
  • One of 21 and the second specifying part 22 may be omitted.
  • the user instructs the expression sample Ea and the expression period Eb by operating the operation device 13.
  • the second specifying unit 22 is omitted, the user sets the processing parameter Ec by operating the operation device 13.
  • the information processing apparatus 100 may include only one of the first specifying unit 21 and the second specifying unit 22.
  • whether or not to add a speech expression to each note is determined according to the note data N. However, whether or not to add a speech expression in consideration of information other than the note data N is also determined. You may judge. For example, when the variation of the feature amount in the expression period Eb of the audio signal X is large (that is, when the audio expression is sufficiently added to the singing voice), a configuration in which the audio expression is not added is also assumed.
  • the audio expression is added to the audio signal X representing the singing voice, but the sound to which the expression is to be added is not limited to the singing voice.
  • the present invention is also applied to the case where various performance expressions are added to a musical sound generated by playing a musical instrument.
  • the expression adding process S3 is comprehensively expressed as a process of adding sound expression (for example, singing expression or performance expression) to a part within the expression period of an acoustic signal representing sound (for example, a sound signal or a musical sound signal). .
  • the processing parameter Ec including the expansion / contraction ratio R, the coefficient ⁇ x, the coefficient ⁇ y, the coefficient ⁇ x, and the coefficient ⁇ y
  • the types or total number of parameters included in the processing parameter Ec are limited to the above examples.
  • the second specifying unit 22 may specify one of the coefficient ⁇ x and the coefficient ⁇ y and calculate the other by subtracting the coefficient from 1.
  • the second specifying unit 22 may specify one of the coefficient ⁇ x and the coefficient ⁇ y and subtract the coefficient from 1 to calculate the other.
  • the expansion / contraction rate R is fixed to a predetermined value
  • the expansion / contraction rate R is excluded from the processing parameters Ec specified by the second specifying unit 22.
  • the function of the information processing apparatus 100 according to the above-described embodiment is realized by the cooperation of the processor such as the control device 11 and the program stored in the memory as described above.
  • the program according to the above-described form can be provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium is also included.
  • the non-transitory recording medium includes an arbitrary recording medium excluding a transient propagation signal (transitory, “propagating” signal), and does not exclude a volatile recording medium.
  • the storage device that stores the program in the distribution device corresponds to the non-transitory recording medium.
  • the sound processing method includes an expression sample representing a sound expression to be added to the note and an expression period in which the sound expression is added according to the note data representing the note. And processing parameters related to the expression addition processing for adding the sound expression to a portion within the expression period in the acoustic signal according to the expression sample and the expression period, and the expression sample and the expression period The expression adding process according to the processing parameter is executed.
  • the expression sample, the expression period, and the processing parameter of the expression adding process are specified according to the note data, it is not necessary for the user to set the expression sample, the expression period, and the processing parameter. Therefore, it is possible to generate auditory natural sound to which sound expression is appropriately added without requiring specialized knowledge about sound expression or complicated work related to sound expression.
  • the expression sample and the expression period are specified by inputting the note data into the first learned model.
  • the processing parameter in specifying the processing parameter, is specified by inputting control data representing the expression sample and the expression period to the second learned model.
  • an attack part including a start point of the note or a release part including an end point of the note is expressed as the expression.
  • the fundamental frequency of the acoustic signal within the expression period is set to a fundamental frequency corresponding to the expression sample and the process.
  • the spectral envelope outline of the acoustic signal in the expression period is changed according to the spectrum envelope outline corresponding to the expression sample and the processing parameter.
  • the sound processing method is based on an expression sample representing a sound expression to be added to a note represented by note data and an expression period in which the sound expression is added.
  • a processing parameter relating to an expression adding process for adding the sound expression to a portion of the signal within the expression period is specified, and the expression adding process corresponding to the processing parameter is executed.
  • the processing parameter of the expression adding process is specified according to the expression sample and the expression period, it is not necessary for the user to set the processing parameter. Therefore, it is possible to generate auditory natural sound to which sound expression is appropriately added without requiring specialized knowledge about sound expression or complicated work related to sound expression.
  • the sound processing device provides an expression sample representing a sound expression to be added to the note and an expression period in which the sound expression is added according to the note data representing the note. And a second specifying unit for specifying a processing parameter related to an expression adding process for adding the sound expression to a portion in the expression period of the acoustic signal according to the expression sample and the expression period. And an expression adding unit that executes the expression adding process according to the expression sample, the expression period, and the processing parameter.
  • the expression sample, the expression period, and the processing parameter of the expression adding process are specified according to the note data, it is not necessary for the user to set the expression sample, the expression period, and the processing parameter. Therefore, it is possible to generate auditory natural sound to which sound expression is appropriately added without requiring specialized knowledge about sound expression or complicated work related to sound expression.
  • the first specifying unit specifies the expression sample and the expression period by inputting the note data to the first learned model.
  • the second specifying unit specifies the processing parameter by inputting the expression sample and the control data representing the expression period to the second learned model.
  • the first specifying part includes an attack part including a start point of the note or a release part including an end point of the note in the expression period. As specified.
  • the expression adding unit sets the fundamental frequency of the acoustic signal within the expression period, the fundamental frequency corresponding to the expression sample, and the processing parameter.
  • the spectral envelope outline of the acoustic signal within the expression period is changed according to the spectrum envelope outline corresponding to the expression sample and the processing parameter.
  • the sound processing apparatus provides an acoustic signal according to an expression sample representing a sound expression to be added to a note represented by note data and an expression period in which the sound expression is added.
  • a specific processing unit for specifying a processing parameter related to an expression adding process for adding the sound expression to a portion of the signal in the expression period; and an expression adding unit for executing the expression adding process according to the processing parameter.
  • a program causes a computer to express an expression sample representing a sound expression to be added to the note and an expression to which the sound expression is added according to the note data representing the note.
  • a first specifying unit for specifying a period, and a second specifying unit for specifying a processing parameter related to an expression adding process for adding the sound expression to a portion in the expression period of an acoustic signal according to the expression sample and the expression period And an expression adding unit that executes the expression adding process according to the expression sample, the expression period, and the processing parameter.
  • the expression sample, the expression period, and the processing parameter of the expression adding process are specified according to the note data, it is not necessary for the user to set the expression sample, the expression period, and the processing parameter. Therefore, it is possible to generate auditory natural sound to which sound expression is appropriately added without requiring specialized knowledge about sound expression or complicated work related to sound expression.
  • DESCRIPTION OF SYMBOLS 100 Information processing apparatus, 11 ... Control apparatus, 12 ... Memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

特定処理部は、音符を表す音符データに応じて、音符に付加されるべき音声表現を表す表現サンプルと当該音声表現が付加される表現期間とを特定し、音声信号のうち表現期間内の部分に音声表現を付加する表現付加処理に関する処理パラメータを、表現サンプルおよび表現期間に応じて特定する。

Description

音処理方法、音処理装置およびプログラム
 本発明は、歌唱音声等の音響に表現を付加するための技術に関する。
 歌唱表現等の音声表現を音声に付加する各種の技術が従来から提案されている。例えば特許文献1には、各種の音声表現が付加された音声を表す音声信号を生成する技術が開示されている。音声信号が表す音声に付加される音声表現は、複数の候補から利用者により選択される。また、音声表現の付加に関するパラメータは、利用者からの指示に応じて調整される。
特開2017-41213号公報
 しかし、音声に付加される音声表現を複数の候補から適切に選択し、音声表現の付加に関するパラメータを適切に調整するためには、音声表現に関する専門的な知識が必要である。利用者に専門的な知識がある場合でも、音声表現の選択および調整という煩雑が作業が必要である。以上の事情を考慮して、本発明の好適な態様は、音声表現に関する専門的な知識および煩雑な作業を必要とすることなく、音声表現が適切に付加された聴感的に自然な音声を生成することを目的とする。
 以上の課題を解決するために、本発明のひとつの態様に係る音処理方法は、音符を表す音符データに応じて、前記音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とを特定し、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを、前記表現サンプルおよび前記表現期間に応じて特定し、前記表現サンプルと前記表現期間と前記処理パラメータとに応じた前記表現付加処理を実行する。
 本発明の他の態様に係る音処理方法は、音符データが表す音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とに応じて、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを特定し、前記処理パラメータに応じた前記表現付加処理を実行する。
 本発明のひとつの態様に係る音処理装置は、音符を表す音符データに応じて、前記音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とを特定する第1特定部と、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを、前記表現サンプルおよび前記表現期間に応じて特定する第2特定部と、前記表現サンプルと前記表現期間と前記処理パラメータとに応じた前記表現付加処理を実行する表現付加部とを具備する。
 本発明の他の態様に係る音処理装置は、音符データが表す音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とに応じて、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを特定する特定処理部と、前記処理パラメータに応じた前記表現付加処理を実行する表現付加部とを具備する。
 本発明の好適な態様に係るプログラムは、コンピュータを、音符を表す音符データに応じて、前記音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とを特定する第1特定部、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを、前記表現サンプルおよび前記表現期間に応じて特定する第2特定部、および、前記表現サンプルと前記表現期間と前記処理パラメータとに応じた前記表現付加処理を実行する表現付加部として機能させる。
本発明の実施形態に係る情報処理装置の構成を例示するブロック図である。 スペクトル包絡概形の説明図である。 情報処理装置の機能的な構成を例示するブロック図である。 表現付加処理の具体的な手順を例示するフローチャートである。 表現付加処理の説明図である。 情報処理装置の動作を例示するフローチャートである。
 図1は、本発明の好適な形態に係る情報処理装置100の構成を例示するブロック図である。本実施形態の情報処理装置100は、楽曲の歌唱により発音される音声(以下「歌唱音声」という)に対して各種の音声表現を付加する音声処理装置である。音声表現は、歌唱音声に付加される音響特性である。楽曲の歌唱に着目すると、音声表現は、音声の発音(すなわち歌唱)に関する音楽的な表現または表情である。具体的には、ボーカルフライ、唸り声、または嗄れ声のような歌唱表現が、音声表現の好適例である。なお、音声表現は、声質とも換言される。
 音声表現は、発音の始点側の部分(以下「アタック部」という)と、発音の終点側の部分(以下「リリース部」という)とにおいて顕在化する傾向がある。以上の傾向を考慮して、本実施形態では、歌唱音声のうち特にアタック部およびリリース部に対して音声表現を付加する。したがって、音声表現に関する実際の傾向に沿った適切な位置に音声表現を付加することが可能である。なお、アタック部は、発音の開始の直後に音量が増加していく部分であり、リリース部は、発音の終了の直前に音量が減少していく部分である。
 図1に例示される通り、情報処理装置100は、制御装置11と記憶装置12と操作装置13と放音装置14とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、情報処理装置100として好適に利用される。操作装置13は、利用者からの指示を受付ける入力機器である。例えば、利用者が操作する複数の操作子、または利用者による接触を検知するタッチパネルが、操作装置13として好適に利用される。
 制御装置11は、例えばCPU(Central Processing Unit)等の1以上のプロセッサで構成され、各種の演算処理および制御処理を実行する。本実施形態の制御装置11は、歌唱音声に音声表現を付加した音声(以下「加工音声」という)を表す音声信号Zを生成する。放音装置14は、例えばスピーカまたはヘッドホンであり、制御装置11が生成した音声信号Zが表す加工音声を放音する。なお、制御装置11が生成した音声信号Zをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。なお、情報処理装置100が放音装置14を具備する構成を図1では例示したが、情報処理装置100とは別体の放音装置14を情報処理装置100に有線または無線で接続してもよい。
 記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成されたメモリであり、制御装置11が実行するプログラム(すなわちプロセッサに対する指示の系列)と制御装置11が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、情報処理装置100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、制御装置11が通信網を介して記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12を情報処理装置100から省略してもよい。
 本実施形態の記憶装置12は、音声信号Xと楽曲データDと複数の表現サンプルYとを記憶する。音声信号Xは、楽曲の歌唱により発音された歌唱音声を表す音響信号である。楽曲データDは、歌唱音声が表す楽曲を構成する音符の時系列を表す音楽ファイルである。すなわち、音声信号Xと楽曲データDとの間で楽曲は共通する。具体的には、楽曲データDは、楽曲を構成する複数の音符の各々について音高と発音期間と発音強度とを指定する。例えばMIDI(Musical Instrument Digital Interface)規格に準拠した形式のファイル(SMF:Standard MIDI File)が楽曲データDとして好適である。
 音声信号Xは、例えば利用者の歌唱を収録することで生成される。なお、配信装置から配信された音声信号Xを記憶装置12に記憶してもよい。楽曲データDは、音声信号Xを解析することで生成される。ただし、音声信号Xおよび楽曲データDの生成方法は以上の例示に限定されない。例えば、操作装置13に対する利用者からの指示に応じて楽曲データDを編集し、当該楽曲データDを利用した公知の音声合成処理により音声信号Xを生成してもよい。配信装置から配信された楽曲データDを音声信号Xの生成に利用してもよい。
 複数の表現サンプルYの各々は、歌唱音声に付加されるべき音声表現を表すデータである。具体的には、各表現サンプルYは、音声表現を付加して歌唱された音声(以下「参照音声」という)の音響特性を表す。音声表現の種類(例えば唸り声または嗄れ声等の分類)は複数の表現サンプルYについて共通するが、音量の時間的な変化または時間長等の特性が表現サンプルY毎に相違する。複数の表現サンプルYには、参照音声のアタック部の表現サンプルYとリリース部の表現サンプルYとが包含される。なお、複数種の音声表現の各々について複数の表現サンプルYを記憶装置12に記憶し、例えば利用者が選択した1種類の音声表現に対応する複数の表現サンプルYを選択的に利用してもよい。
 本実施形態の情報処理装置100は、表現サンプルYが表す参照音声の音声表現を音声信号Xの歌唱音声に付加することで、歌唱音声の音韻および音高を維持した加工音声の音声信号Zを生成する。なお、基本的には歌唱音声の発声者と参照音声の発声者とは別人であるが、歌唱音声の発声者と参照音声の発声者とは同一人でもよい。例えば、歌唱音声は、音声表現を付加せずに利用者が歌唱した音声であり、参照音声は、当該利用者が音声表現を付加して歌唱した音声である。
 図1に例示される通り、各表現サンプルYは、基本周波数Fyの時系列とスペクトル包絡概形Gyの時系列とを含んで構成される。スペクトル包絡概形Gyは、図2に例示される通り、参照音声の周波数スペクトルQ1の概形であるスペクトル包絡Q2を周波数領域で更に平滑化した強度分布を意味する。具体的には、音韻性(音韻に依存した差異)および個人性(発声者に依存した差異)が知覚できなくなる程度にスペクトル包絡Q2を平滑化した強度分布がスペクトル包絡概形Gyである。例えばスペクトル包絡Q2を表すメルケプストラムの複数の係数のうち低次側に位置する所定個の係数によりスペクトル包絡概形Gyが表現される。なお、以上の説明では表現サンプルYのスペクトル包絡概形Gyに着目したが、歌唱音声を表す音声信号Xについても同様の定義のスペクトル包絡概形Gxを観念できる。
 図3は、制御装置11の機能的な構成を例示するブロック図である。図3に例示される通り、制御装置11は、記憶装置12に記憶されたプログラムを実行することで、音声信号Zを生成するための複数の機能(特定処理部20および表現付加部30)を実現する。なお、相互に別体で構成された複数の装置で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
<表現付加部30>
 表現付加部30は、記憶装置12に記憶された音声信号Xについて、歌唱音声に音声表現を付加するための処理(以下「表現付加処理」という)S3を実行する。音声信号Xに対する表現付加処理S3により加工音声の音声信号Zが生成される。図4は、表現付加処理S3の具体的な手順を例示するフローチャートであり、図5は、表現付加処理S3の説明図である。
 図5に例示される通り、音声信号Xにおける1個以上の期間(以下「表現期間」という)Ebに対して、記憶装置12に記憶された複数の表現サンプルYから選択された表現サンプルEaが付加される。表現期間Ebは、楽曲データDが指定する各音符の発音期間のうちアタック部またはリリース部に対応する期間である。図5においては、音声信号Xのアタック部に表現サンプルEaを付加する場合が例示されている。
 図4に例示される通り、表現付加部30は、複数の表現サンプルYから選択された表現サンプルEaを、表現期間Ebに応じた伸縮率Rで時間的に伸縮する(S31)。そして、表現付加部30は、音声信号Xのうち表現期間Eb内の部分を、伸縮後の表現サンプルEaに応じて変形する(S32,S33)。音声信号Xの変形は、表現期間Eb毎に実行される。具体的には、表現付加部30は、以下に詳述する通り、音声信号Xと表現サンプルEaとの間で、基本周波数の合成(S32)とスペクトル包絡概形の合成(S33)とを実行する。なお、基本周波数の合成(S32)とスペクトル包絡概形の合成(S33)との順序は任意である。
<基本周波数の合成(S32)>
 表現付加部30は、以下の数式(1)の演算により表現期間Eb内の各時刻tにおける音声信号Zの基本周波数F(t)を算定する。
 F(t)=Fx(t)-αx(Fx(t)-fx(t))+αy(Fy(t)-fy(t)) …(1)
 数式(1)の基本周波数Fx(t)は、時間軸上の時刻tにおける音声信号Xの基本周波数(ピッチ)である。基準周波数fx(t)は、基本周波数Fx(t)の時系列を時間軸上で平滑化したときの時刻tにおける周波数である。また、数式(1)の基本周波数Fy(t)は、伸縮後の表現サンプルEaのうち時刻tにける基本周波数Fyである。基準周波数fy(t)は、基本周波数Fy(t)の時系列を時間軸上で平滑化したときの時刻tにおける周波数である。数式(1)の係数αxおよび係数αyは、1以下の非負値(0≦αx≦1,0≦αy≦1)に設定される。
 数式(1)から理解される通り、数式(1)の第2項は、歌唱音声の基本周波数Fx(t)と基準周波数fx(t)との差分を、係数αxに応じた度合で、音声信号Xの基本周波数Fx(t)から低減する処理である。また、数式(1)の第3項は、表現サンプルEaの基本周波数Fy(t)と基準周波数fy(t)との差分を、係数αyに応じた度合で、音声信号Xの基本周波数Fx(t)に付加する処理である。以上の説明から理解される通り、表現付加部30は、歌唱音声の基本周波数Fx(t)と基準周波数fx(t)との差分を、参照音声の基本周波数Fy(t)と基準周波数fy(t)との差分に置換する。すなわち、音声信号Xの表現期間Eb内における基本周波数Fx(t)の時間変化が、表現サンプルEaにおける基本周波数Fy(t)の時間変化に近付く。
<スペクトル包絡概形の合成(S33)>
 表現付加部30は、以下の数式(2)の演算により表現期間Eb内の各時刻tにおける音声信号Zのスペクトル包絡概形G(t)を算定する。
 G(t)=Gx(t)-βx(Gx(t)-gx)+βy(Gy(t)-gy) …(2)
 数式(2)のスペクトル包絡概形Gx(t)は、時間軸上の時刻tにおける音声信号Xのスペクトル包絡の概形である。基準スペクトル包絡概形gxは、表現期間Eb内の特定の時点における音声信号Xのスペクトル包絡概形Gx(t)である。例えば、表現期間Ebの端点(例えば始点または終点)におけるスペクトル包絡概形Gx(t)が基準スペクトル包絡概形gxとして利用される。なお、表現期間Eb内におけるスペクトル包絡概形Gx(t)の代表値(例えば平均)を基準スペクトル包絡概形gxとして利用してもよい。
 数式(2)のスペクトル包絡概形Gy(t)は、時間軸上の時点tにおける表現サンプルEaのスペクトル包絡概形Gyである。基準スペクトル包絡概形gyは、表現期間Eb内の特定の時点における音声信号Xのスペクトル包絡概形Gy(t)である。例えば、表現サンプルEaの端点(例えば始点または終点)におけるスペクトル包絡概形Gy(t)が基準スペクトル包絡概形gyとして利用される。なお、表現サンプルEa内におけるスペクトル包絡概形Gy(t)の代表値(例えば平均)を基準スペクトル包絡概形gyとして利用してもよい。
 数式(2)の係数βxおよび係数βyは、1以下の非負値(0≦βx≦1,0≦βy≦1)に設定される。数式(2)の第2項は、歌唱音声のスペクトル包絡概形Gx(t)と基準スペクトル包絡概形gxとの差分を、係数βxに応じた度合で、音声信号Xのスペクトル包絡概形Gx(t)から低減する処理である。また、数式(2)の第3項は、表現サンプルEaのスペクトル包絡概形Gy(t)と基準スペクトル包絡概形gyとの差分を、係数βyに応じた度合で、音声信号Xのスペクトル包絡概形Gx(t)に付加する処理である。以上の説明から理解される通り、表現付加部30は、歌唱音声のスペクトル包絡概形Gx(t)と基準スペクトル包絡概形gxとの差分を、表現サンプルEaのスペクトル包絡概形Gy(t)と基準スペクトル包絡概形gyとの差分に置換する。
 表現付加部30は、以上に例示した処理の結果(すなわち基本周波数F(t)およびスペクトル包絡概形G(t))を利用して、加工音声の音声信号Zを生成する(S34)。具体的には、表現付加部30は、音声信号Xの各周波数スペクトルを数式(2)のスペクトル包絡概形G(t)に沿うように調整し、かつ、音声信号Xの基本周波数Fx(t)を基本周波数F(t)に調整する。音声信号Xの周波数スペクトルおよび基本周波数Fx(t)の調整は、例えば周波数領域で実行される。表現付加部30は、以上に例示した調整後の周波数スペクトルを時間領域に変換することで音声信号Zを生成する(S35)。
 以上に例示した通り、表現付加処理S3では、音声信号Xのうち表現期間Eb内の基本周波数Fx(t)の時系列が、表現サンプルEaに対応する基本周波数Fy(t)の時系列と係数αxおよび係数αyとに応じて変更される。また、表現付加処理S3では、音声信号Xのうち表現期間Eb内のスペクトル包絡概形Gx(t)の時系列が、表現サンプルEaに対応するスペクトル包絡概形Gy(t)の時系列と係数βxおよび係数βyとに応じて変更される。表現付加処理S3の具体的な手順は以上の通りである。
<特定処理部20>
 図3の特定処理部20は、楽曲データDが指定する各音符について表現サンプルEaと表現期間Ebと処理パラメータEcとを特定する。具体的には、楽曲データDが指定する複数の音符のうち音声表現が付加されるべき各音符について、表現サンプルEaと表現期間Ebと処理パラメータEcとが特定される。処理パラメータEcは、表現付加処理S3に関するパラメータである。具体的には、処理パラメータEcは、図4に例示される通り、表現サンプルEaの伸縮(S31)に適用される伸縮率Rと、基本周波数Fx(t)の調整(S32)に適用される係数αxおよび係数αyと、スペクトル包絡概形Gx(t)の調整(S33)に適用される係数βxおよび係数βyとを含む。
 図3に例示される通り、本実施形態の特定処理部20は、第1特定部21と第2特定部22とを具備する。第1特定部21は、楽曲データDが指定する各音符を表す音符データNに応じて表現サンプルEaと表現期間Ebとを特定する。具体的には、第1特定部21は、表現サンプルEaを示す識別情報と、表現期間Ebの始点および/または終点の時刻を表す時刻データとを出力する。音符データNは、楽曲データDが表す楽曲を構成する1個の音符の状況(コンテキスト)を表すデータである。具体的には、各音符の音符データNは、例えば当該音符自体に関する情報(音高,時間長,発音強度)と、他の音符との関係に関する情報(例えば前後の無音期間の時間長,前後の音符との音高差)とを指定する。制御装置11は、楽曲データDを解析することで各音符の音符データNを生成する。
 本実施形態の第1特定部21は、音符データNが指定する音符について音声表現を付加するか否かを特定し、音声表現を付加する各音符について表現サンプルEaと表現期間Ebとを特定する。なお、特定処理部20に供給される各音符の音符データNは、当該音符に関する情報(音高,時間長,発音強度)のみを指定するデータでもよい。他の音符との関係に関する情報は、各音符に関する情報から生成されて第1特定部21および第2特定部22に供給される。
 第2特定部22は、音声表現が付加される音符毎に、第1特定部21による特定の結果(表現サンプルEaおよび表現期間Eb)を表す制御データCに応じて処理パラメータEcを特定する。本実施形態の制御データCは、第1特定部21が1個の音符について特定した表現サンプルEaおよび表現期間Ebを表すデータと、当該音符の音符データNとを含んで構成される。第1特定部21が特定した表現サンプルEaおよび表現期間Ebと、第2特定部22が特定した処理パラメータEcとが、前述の通り、表現付加部30による表現付加処理S3に適用される。なお、第1特定部21が、表現期間Ebの始点および終点の一方のみを表す時刻データを出力する構成では、第2特定部22が、表現期間Ebの始点と終点との時間差(すなわち継続長)を処理パラメータEcとして特定してもよい。
 特定処理部20による各情報の特定には学習済モデル(M1,M2)が利用される。具体的には、第1特定部21は、各音符の音符データNを第1学習済モデルM1に入力することで、表現サンプルEaおよび表現期間Ebを特定する。第2特定部22は、音声表現が付加される各音符の制御データCを第2学習済モデルM2に入力することで、処理パラメータEcを特定する。
 第1学習済モデルM1および第2学習済モデルM2は、機械学習により生成された統計的推定モデルである。具体的には、第1学習済モデルM1は、音符データNと表現サンプルEaおよび表現期間Ebとの関係を学習したモデルである。第2学習済モデルM2は、制御データCと処理パラメータEcとの関係を学習したモデルである。例えばニューラルネットワーク等の各種の統計的推定モデルが、第1学習済モデルM1および第2学習済モデルM2として好適に利用される。第1学習済モデルM1および第2学習済モデルM2の各々は、入力データから出力データを生成する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。複数の係数は、多数の教師データを利用した機械学習(特に深層学習)により設定されて記憶装置12に保持される。
 第1学習済モデルM1および第2学習済モデルM2を構成するニューラルネットワークとしては、例えばCNN(Convolutional Neural Network)またはRNN(Recurrent Neural Network)等の各種のモデルが利用される。また、LSTM(Long short-term memory)またはATTENTION等の付加的な要素を含むニューラルネットワークを利用してもよい。なお、以上に例示したニューラルネットワーク以外の統計的推定モデルを第1学習済モデルM1および第2学習済モデルとして利用してもよい。例えば決定木または隠れマルコフモデル等の各種のモデルが利用される。
 第1学習済モデルM1は、音符データNを入力データとして、表現サンプルEaと表現期間Ebとを出力する。第1学習済モデルM1は、音符データNと表現サンプルEaおよび表現期間Ebとを対応させた複数の教師データを利用した機械学習により生成される。具体的には、教師データに含まれる音符データNを暫定的な構成および係数のモデルに入力したときに出力される表現サンプルEaおよび表現期間Ebと、当該教師データが指定する表現サンプルEaおよび表現期間Ebとの差異(すなわち損失関数)が、複数の教師データについて低減(理想的には最小化)されるように各係数を反復的に調整することで、第1学習済モデルM1の複数の係数が設定される。なお、係数が小さいノードを省略することでモデルの構成を簡素化してもよい。以上に例示した機械学習により、第1学習済モデルM1は、複数の教師データにおける音符データNと表現サンプルEaおよび表現期間Ebとの間に潜在する関係のもとで、未知の音符データNに対して統計的に妥当な表現サンプルEaおよび表現期間Ebを特定する。すなわち、音符データNが指定する各音符の状況(コンテキスト)に適合した表現サンプルEaおよび表現期間Ebが特定される。
 第1学習済モデルM1の機械学習に利用される複数の教師データのなかには、表現サンプルEaおよび表現期間Ebに代えて、音声表現を付加しないことを意味するデータが音符データNに対応付けられた教師データも存在する。したがって、第1学習済モデルM1は、各音符の音符データNに対して、当該音符に音声表現を付加しないという結果を出力する場合もある。例えば、発音期間の時間長が短い音符には音声表現は付加されない。
 第2学習済モデルM2は、第1特定部21による特定結果と音符データNとを含む制御データCを入力データとして処理パラメータEcを出力する。第2学習済モデルM2は、制御データCと処理パラメータEcとを対応させた複数の教師データを利用した機械学習により生成される。具体的には、教師データに含まれる制御データCを暫定的な構成および係数のモデルに入力したときに出力される処理パラメータEcと、当該教師データが指定する処理パラメータEcとの差異(すなわち損失関数)が、複数の教師データについて低減(理想的には最小化)されるように各係数を反復的に調整することで、第2学習済モデルM2の複数の係数が設定される。なお、係数が小さいノードを省略することでモデルの構成を簡素化してもよい。以上に例示した機械学習により、第2学習済モデルM2は、複数の教師データにおける制御データCと処理パラメータEcとの間に潜在する関係のもとで、未知の制御データC(表現サンプルEa,表現期間Ebおよび音符データN)に対して統計的に妥当な処理パラメータEcを特定する。すなわち、音声表現が付加される各表現期間Ebについて、当該表現期間Ebに付加される表現サンプルEaと、当該表現期間Ebが属する音符の状況(コンテキスト)とに適合した処理パラメータEcが特定される。
 図6は、情報処理装置100の具体的な動作の手順を例示するフローチャートである。例えば操作装置13に対する利用者からの操作に応じて図6の処理が開始され、楽曲データDが時系列に指定する複数の音符の各々について図6の処理が順次に実行される。
 図6の処理を開始すると、特定処理部20は、各音符の音符データNに応じて表現サンプルEaと表現期間Ebと処理パラメータEcとを特定する(S1,S2)。具体的には、第1特定部21は、音符データNに応じて表現サンプルEaと表現期間Ebとを特定する(S1)。第2特定部22は、制御データCに応じて処理パラメータEcを特定する(S2)。表現付加部30は、特定処理部20が特定した表現サンプルEaと表現期間Ebと処理パラメータEcとを適用した表現付加処理により加工音声の音声信号Zを生成する(S3)。表現付加処理S3の具体的な手順は前述の通りである。表現付加部30が生成した音声信号Zが放音装置14に供給されることで加工音声が放音される。
 以上に説明した通り、本実施形態においては、表現サンプルEaと表現期間Ebと処理パラメータEcとが音符データNに応じて特定されるから、表現サンプルEaおよび表現期間Ebの指定と処理パラメータEcの設定とを利用者が実行する必要はない。したがって、音声表現に関する専門的な知識、または、音声表現に関する煩雑な作業を必要とせずに、音声表現が適切に付加された聴感的に自然な音声を生成できる。
 本実施形態においては、音符データNを第1学習済モデルM1に入力することで表現サンプルEaおよび表現期間Ebが特定され、表現サンプルEaおよび表現期間Ebを含む制御データCを第2学習済モデルM2に入力することで処理パラメータEcが特定される。したがって、未知の音符データNについて表現サンプルEaと表現期間Ebと処理パラメータEcとを適切に特定できる。また、音声信号Xの基本周波数Fx(t)およびスペクトル包絡概形Gx(t)が表現サンプルEaに応じて変更されるから、聴感的に自然な音声の音声信号Zを生成できる。
<変形例>
 以上の態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の形態で例示した音符データNは、例えば音符自体に関する情報(音高,時間長,発音強度)と、他の音符との関係に関する情報(例えば前後の無音期間の時間長,前後の音符との音高差)とを指定する。音符データNが表す情報は、以上の例示に限定されない。例えば、楽曲の演奏速度、または、音符に指定された音韻(例えば歌詞を表す文字)を指定する音符データNを利用してもよい。
(2)前述の形態では、特定処理部20が第1特定部21と第2特定部22とを具備する構成を例示したが、第1特定部21による表現サンプルEaおよび表現期間Ebの特定と、第2特定部22による処理パラメータEcの特定とを区分した構成は必須ではない。すなわち、特定処理部20が、学習済モデルに音符データNを入力することで、表現サンプルEaと表現期間Ebと処理パラメータEcとを特定してもよい。
(3)前述の形態では、表現サンプルEaおよび表現期間Ebを特定する第1特定部21と、処理パラメータEcを特定する第2特定部22とを具備する構成を例示したが、第1特定部21および第2特定部22の一方を省略してもよい。例えば第1特定部21を省略した構成では、操作装置13に対する操作で利用者が表現サンプルEaおよび表現期間Ebを指示する。また、例えば第2特定部22を省略した構成では、操作装置13に対する操作で利用者が処理パラメータEcを設定する。以上の説明から理解される通り、情報処理装置100は、第1特定部21および第2特定部22の一方のみを具備してもよい。
(4)前述の形態では、各音符に音声表現を付加するか否かを音符データNに応じて判定したが、音符データN以外の情報も参酌して、音声表現を付加するか否かを判定してもよい。例えば、音声信号Xの表現期間Ebにおける特徴量の変動が大きい場合(すなわち、歌唱音声に音声表現が充分に付加されている場合)には音声表現を付加しない構成も想定される。
(5)前述の形態では、歌唱音声を表す音声信号Xに音声表現を付加したが、表現が付加されるべき音響は歌唱音声に限定されない。例えば、楽器の演奏により発音される楽音に対して各種の演奏表現を付加する場合にも本発明は適用される。すなわち、表現付加処理S3は、音響を表す音響信号(例えば音声信号または楽音信号)のうち表現期間内の部分に音表現(例えば歌唱表現または演奏表現)を付加する処理として包括的に表現される。
(6)前述の形態では、伸縮率R,係数αx,係数αy,係数βxおよび係数βyを含む処理パラメータEcを例示したが、処理パラメータEcに含まれるパラメータの種類または総数は以上の例示に限定されない。例えば、係数αxおよび係数αyの一方を第2特定部22が特定し、当該係数を1から減算することで他方を算定してもよい。同様に、係数βxおよび係数βyの一方を第2特定部22が特定し、当該係数を1から減算することで他方を算定してもよい。また、伸縮率Rが所定値に固定された構成では、第2特定部22が特定する処理パラメータEcから伸縮率Rが除外される。
(7)前述の形態に係る情報処理装置100の機能は、前述の通り、制御装置11等のプロセッサとメモリに記憶されたプログラムとの協働により実現される。前述の形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。
<付記>
 以上に例示した形態から、例えば以下の構成が把握される。
 本発明のひとつの態様(第1態様)に係る音処理方法は、音符を表す音符データに応じて、前記音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とを特定し、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを、前記表現サンプルおよび前記表現期間に応じて特定し、前記表現サンプルと前記表現期間と前記処理パラメータとに応じた前記表現付加処理を実行する。以上の態様によれば、表現サンプルおよび表現期間と表現付加処理の処理パラメータとが音符データに応じて特定されるから、表現サンプルと表現期間と処理パラメータとを利用者が設定する必要がない。したがって、音表現に関する専門的な知識、または、音表現に関する煩雑な作業を必要とせずに、音表現が適切に付加された聴感的に自然な音響を生成できる。
 第1態様の一例(第2態様)において、前記表現サンプルおよび前記表現期間の特定においては、前記音符データを第1学習済モデルに入力することで、前記表現サンプルおよび前記表現期間を特定する。
 第2態様の一例(第3態様)において、前記処理パラメータの特定においては、前記表現サンプルおよび前記表現期間を表す制御データを第2学習済モデルに入力することで、前記処理パラメータを特定する。
 第1態様から第3態様の何れかの一例(第4態様)において、前記表現期間の特定においては、前記音符の始点を含むアタック部、または、前記音符の終点を含むリリース部を、前記表現期間として特定する。
 第1態様から第4態様の何れかの一例(第5態様)において、前記表現付加処理においては、前記表現期間内における前記音響信号の基本周波数を、前記表現サンプルに対応する基本周波数と前記処理パラメータとに応じて変更し、前記表現期間内における前記音響信号のスペクトル包絡概形を、前記表現サンプルに対応するスペクトル包絡概形と前記処理パラメータとに応じて変更する。
 本発明のひとつの態様(第6態様)に係る音処理方法は、音符データが表す音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とに応じて、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを特定し、前記処理パラメータに応じた前記表現付加処理を実行する。以上の態様によれば、表現サンプルと表現期間とに応じて表現付加処理の処理パラメータが特定されるから、利用者が処理パラメータを設定する必要がない。したがって、音表現に関する専門的な知識、または、音表現に関する煩雑な作業を必要とせずに、音表現が適切に付加された聴感的に自然な音響を生成できる。
 本発明のひとつの態様(第7態様)に係る音処理装置は、音符を表す音符データに応じて、前記音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とを特定する第1特定部と、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを、前記表現サンプルおよび前記表現期間に応じて特定する第2特定部と、前記表現サンプルと前記表現期間と前記処理パラメータとに応じた前記表現付加処理を実行する表現付加部を具備する。以上の態様によれば、表現サンプルおよび表現期間と表現付加処理の処理パラメータとが音符データに応じて特定されるから、表現サンプルと表現期間と処理パラメータとを利用者が設定する必要がない。したがって、音表現に関する専門的な知識、または、音表現に関する煩雑な作業を必要とせずに、音表現が適切に付加された聴感的に自然な音響を生成できる。
 第7態様の一例(第8態様)において、前記第1特定部は、前記音符データを第1学習済モデルに入力することで、前記表現サンプルおよび前記表現期間を特定する。
 第8態様の一例(第9態様)において、前記第2特定部は、前記表現サンプルおよび前記表現期間を表す制御データを第2学習済モデルに入力することで、前記処理パラメータを特定する。
 第7態様から第9態様の何れかの一例(第10態様)において、前記第1特定部は、前記音符の始点を含むアタック部、または、前記音符の終点を含むリリース部を、前記表現期間として特定する。
 第7態様から第10態様の何れかの一例(第11態様)において、前記表現付加部は、前記表現期間内における前記音響信号の基本周波数を、前記表現サンプルに対応する基本周波数と前記処理パラメータとに応じて変更し、前記表現期間内における前記音響信号のスペクトル包絡概形を、前記表現サンプルに対応するスペクトル包絡概形と前記処理パラメータとに応じて変更する。
 本発明のひとつの態様(第12態様)に係る音処理装置は、音符データが表す音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とに応じて、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを特定する特定処理部と、前記処理パラメータに応じた前記表現付加処理を実行する表現付加部とを具備する。以上の態様によれば、表現サンプルと表現期間とに応じて表現付加処理の処理パラメータが特定されるから、利用者が処理パラメータを設定する必要がない。したがって、音表現に関する専門的な知識、または、音表現に関する煩雑な作業を必要とせずに、音表現が適切に付加された聴感的に自然な音響を生成できる。
 本発明のひとつの態様(第13態様)に係るプログラムは、コンピュータを、音符を表す音符データに応じて、前記音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とを特定する第1特定部、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを、前記表現サンプルおよび前記表現期間に応じて特定する第2特定部、および、前記表現サンプルと前記表現期間と前記処理パラメータとに応じた前記表現付加処理を実行する表現付加部として機能させる。以上の態様によれば、表現サンプルおよび表現期間と表現付加処理の処理パラメータとが音符データに応じて特定されるから、表現サンプルと表現期間と処理パラメータとを利用者が設定する必要がない。したがって、音表現に関する専門的な知識、または、音表現に関する煩雑な作業を必要とせずに、音表現が適切に付加された聴感的に自然な音響を生成できる。
100…情報処理装置、11…制御装置、12…記憶装置、13…操作装置、14…放音装置、20…特定処理部、21…第1特定部、22…第2特定部、30…表現付加部。

Claims (13)

  1.  音符を表す音符データに応じて、前記音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とを特定し、
     音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを、前記表現サンプルおよび前記表現期間に応じて特定し、
     前記表現サンプルと前記表現期間と前記処理パラメータとに応じた前記表現付加処理を実行する
     コンピュータにより実現される音処理方法。
  2.  前記表現サンプルおよび前記表現期間の特定においては、前記音符データを第1学習済モデルに入力することで、前記表現サンプルおよび前記表現期間を特定する
     請求項1の音処理方法。
  3.  前記処理パラメータの特定においては、前記表現サンプルおよび前記表現期間を表す制御データを第2学習済モデルに入力することで、前記処理パラメータを特定する
     請求項2の音処理方法。
  4.  前記表現期間の特定においては、前記音符の始点を含むアタック部、または、前記音符の終点を含むリリース部を、前記表現期間として特定する
     請求項1から請求項3の何れかの音処理方法。
  5.  前記表現付加処理においては、
     前記表現期間内における前記音響信号の基本周波数を、前記表現サンプルに対応する基本周波数と前記処理パラメータとに応じて変更し、
     前記表現期間内における前記音響信号のスペクトル包絡概形を、前記表現サンプルに対応するスペクトル包絡概形と前記処理パラメータとに応じて変更する
     請求項1から請求項4の何れかの音処理方法。
  6.  音符データが表す音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とに応じて、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを特定し、
     前記処理パラメータに応じた前記表現付加処理を実行する
     コンピュータにより実現される音処理方法。
  7.  音符を表す音符データに応じて、前記音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とを特定する第1特定部と、
     音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを、前記表現サンプルおよび前記表現期間に応じて特定する第2特定部と、
     前記表現サンプルと前記表現期間と前記処理パラメータとに応じた前記表現付加処理を実行する表現付加部と
     を具備する音処理装置。
  8.  前記第1特定部は、前記音符データを第1学習済モデルに入力することで、前記表現サンプルおよび前記表現期間を特定する
     請求項7の音処理装置。
  9.  前記第2特定部は、前記表現サンプルおよび前記表現期間を表す制御データを第2学習済モデルに入力することで、前記処理パラメータを特定する
     請求項8の音処理装置。
  10.  前記第1特定部は、前記音符の始点を含むアタック部、または、前記音符の終点を含むリリース部を、前記表現期間として特定する
     請求項7から請求項9の何れかの音処理装置。
  11.  前記表現付加部は、
     前記表現期間内における前記音響信号の基本周波数を、前記表現サンプルに対応する基本周波数と前記処理パラメータとに応じて変更し、
     前記表現期間内における前記音響信号のスペクトル包絡概形を、前記表現サンプルに対応するスペクトル包絡概形と前記処理パラメータとに応じて変更する
     請求項7から請求項10の何れかの音処理装置。
  12.  音符データが表す音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とに応じて、音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを特定する特定処理部と、
     前記処理パラメータに応じた前記表現付加処理を実行する表現付加部と
     を具備する音処理装置。
  13.  コンピュータを、
     音符を表す音符データに応じて、前記音符に付加されるべき音表現を表す表現サンプルと当該音表現が付加される表現期間とを特定する第1特定部、
     音響信号における前記表現期間内の部分に前記音表現を付加する表現付加処理に関する処理パラメータを、前記表現サンプルおよび前記表現期間に応じて特定する第2特定部、および、
     前記表現サンプルと前記表現期間と前記処理パラメータとに応じた前記表現付加処理を実行する表現付加部
     として機能させるプログラム。
PCT/JP2019/010770 2018-03-22 2019-03-15 音処理方法、音処理装置およびプログラム WO2019181767A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201980018441.5A CN111837184A (zh) 2018-03-22 2019-03-15 声音处理方法、声音处理装置及程序
EP19772599.7A EP3770906B1 (en) 2018-03-22 2019-03-15 Sound processing method, sound processing device, and program
US17/027,058 US11842719B2 (en) 2018-03-22 2020-09-21 Sound processing method, sound processing apparatus, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018054989A JP7147211B2 (ja) 2018-03-22 2018-03-22 情報処理方法および情報処理装置
JP2018-054989 2018-03-22

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/027,058 Continuation US11842719B2 (en) 2018-03-22 2020-09-21 Sound processing method, sound processing apparatus, and recording medium

Publications (1)

Publication Number Publication Date
WO2019181767A1 true WO2019181767A1 (ja) 2019-09-26

Family

ID=67987309

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/010770 WO2019181767A1 (ja) 2018-03-22 2019-03-15 音処理方法、音処理装置およびプログラム

Country Status (5)

Country Link
US (1) US11842719B2 (ja)
EP (1) EP3770906B1 (ja)
JP (1) JP7147211B2 (ja)
CN (1) CN111837184A (ja)
WO (1) WO2019181767A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020003536A (ja) * 2018-06-25 2020-01-09 カシオ計算機株式会社 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム
US11183201B2 (en) * 2019-06-10 2021-11-23 John Alexander Angland System and method for transferring a voice from one body of recordings to other recordings
US11183168B2 (en) * 2020-02-13 2021-11-23 Tencent America LLC Singing voice conversion

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009044525A1 (ja) * 2007-10-01 2009-04-09 Panasonic Corporation 音声強調装置および音声強調方法
JP2017041213A (ja) 2015-08-21 2017-02-23 ヤマハ株式会社 合成音声編集装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
IL135630A0 (en) * 1997-12-08 2001-05-20 Mitsubishi Electric Corp Method and apparatus for processing sound signal
US7619156B2 (en) * 2005-10-15 2009-11-17 Lippold Haken Position correction for an electronic musical instrument
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US8571879B2 (en) * 2008-01-21 2013-10-29 Panasonic Corporation Sound reproducing device adding audio data to decoded sound using processor selected based on trade-offs
US20110219940A1 (en) * 2010-03-11 2011-09-15 Hubin Jiang System and method for generating custom songs
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009044525A1 (ja) * 2007-10-01 2009-04-09 Panasonic Corporation 音声強調装置および音声強調方法
JP2017041213A (ja) 2015-08-21 2017-02-23 ヤマハ株式会社 合成音声編集装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOBAYASHI, K. ET AL.: "Statistical Singing Voice Conversion with Direct Waveform Modification based on the Spectrum Differential", PROC. INTERSPEECH 2014, September 2014 (2014-09-01), pages 2514 - 2518, XP055638903 *
See also references of EP3770906A4

Also Published As

Publication number Publication date
EP3770906A4 (en) 2021-12-15
EP3770906B1 (en) 2024-05-01
JP7147211B2 (ja) 2022-10-05
EP3770906A1 (en) 2021-01-27
JP2019168542A (ja) 2019-10-03
US20210005176A1 (en) 2021-01-07
US11842719B2 (en) 2023-12-12
CN111837184A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
US10176797B2 (en) Voice synthesis method, voice synthesis device, medium for storing voice synthesis program
US11495206B2 (en) Voice synthesis method, voice synthesis apparatus, and recording medium
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
US11942071B2 (en) Information processing method and information processing system for sound synthesis utilizing identification data associated with sound source and performance styles
US20210005176A1 (en) Sound processing method, sound processing apparatus, and recording medium
US11842720B2 (en) Audio processing method and audio processing system
JP6821970B2 (ja) 音声合成装置および音声合成方法
US11646044B2 (en) Sound processing method, sound processing apparatus, and recording medium
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
JP2022065554A (ja) 音声合成方法およびプログラム
WO2019239971A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP6191094B2 (ja) 音声素片切出装置
JP7192834B2 (ja) 情報処理方法、情報処理システムおよびプログラム
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP2020166298A (ja) 音声合成方法
WO2019239972A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP2019159013A (ja) 音声処理方法および音声処理装置
JP2019159014A (ja) 音声処理方法および音声処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19772599

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2019772599

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2019772599

Country of ref document: EP

Effective date: 20201022