WO2019172397A1 - 音処理方法、音処理装置および記録媒体 - Google Patents

音処理方法、音処理装置および記録媒体 Download PDF

Info

Publication number
WO2019172397A1
WO2019172397A1 PCT/JP2019/009220 JP2019009220W WO2019172397A1 WO 2019172397 A1 WO2019172397 A1 WO 2019172397A1 JP 2019009220 W JP2019009220 W JP 2019009220W WO 2019172397 A1 WO2019172397 A1 WO 2019172397A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
sound signal
period
time point
envelope outline
Prior art date
Application number
PCT/JP2019/009220
Other languages
English (en)
French (fr)
Inventor
竜之介 大道
嘉山 啓
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN201980017203.2A priority Critical patent/CN111837183A/zh
Priority to EP19763716.8A priority patent/EP3764357A4/en
Publication of WO2019172397A1 publication Critical patent/WO2019172397A1/ja
Priority to US17/014,312 priority patent/US11646044B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Definitions

  • the present invention relates to a technique for processing a sound signal representing sound.
  • Patent Document 1 discloses a technique for converting a voice represented by a voice signal into voice having a characteristic voice quality such as muddy voice or hoarse voice by moving each harmonic component of the voice signal in the frequency domain. ing.
  • Patent Document 1 has room for further improvement from the viewpoint of generating a natural sound audibly.
  • an object of the present invention is to synthesize an acoustically natural sound.
  • a sound processing method includes a first spectral envelope outline in a first sound signal representing a first sound and a first time point of the first sound signal.
  • a first difference which is a difference from the first reference spectrum envelope outline
  • a second spectrum envelope outline in a second sound signal representing a second sound having different acoustic characteristics from the first sound
  • the first sound is changed to the second sound by modifying the first spectrum envelope outline according to a second difference that is a difference from the second reference spectrum envelope outline at the second time point in the sound signal.
  • a synthetic spectrum envelope outline is generated in the third sound signal representing the deformed sound deformed in response, and the third sound signal corresponding to the synthetic spectrum envelope outline is generated.
  • a sound processing device is a sound processing device including one or more processors and a memory, wherein the instructions stored in the memory are set to the one or more instructions.
  • the first spectral envelope outline in the first sound signal representing the first sound and the first reference spectral envelope outline at the first time point in the first sound signal are the first difference. 1 difference and the second spectrum envelope outline in the second sound signal representing the second sound having different acoustic characteristics from the first sound, and the second reference spectrum envelope outline at the second time point in the second sound signal.
  • the first spectral envelope outline is deformed in accordance with a second difference that is a difference from the shape, thereby synthesizing a third sound signal representing a deformed sound obtained by deforming the first sound according to the second sound.
  • a spectral envelope outline is generated and Comprising a composition processing unit that generates the third sound signal corresponding to the spectrum envelope envelope.
  • a recording medium includes a first spectral envelope outline in a first sound signal representing a first sound, and a first time point out of the first sound signal.
  • a first difference that is a difference from a first reference spectrum envelope outline, a second spectrum envelope outline in a second sound signal representing a second sound having a different acoustic characteristic from the first sound, and the second sound
  • the first sound is changed according to the second sound by modifying the first spectrum envelope outline according to a second difference which is a difference from the second reference spectrum envelope outline at the second time point in the signal.
  • the computer executes a first process for generating a synthetic spectrum envelope outline for the third sound signal representing the deformed sound that has been deformed and a second process for generating the third sound signal corresponding to the synthetic spectrum envelope outline Record the program to be executed.
  • FIG. 1 is a block diagram illustrating the configuration of a sound processing apparatus 100 according to a preferred embodiment of the present invention.
  • the sound processing apparatus 100 is a signal processing apparatus that adds various sound expressions to a voice of a user singing a song (hereinafter referred to as “singing voice”).
  • the sound expression is an acoustic characteristic added to the singing voice (example of the first sound). Focusing on the singing of the music, the sound expression is a musical expression or expression relating to the pronunciation of voice (ie, singing). Specifically, singing expressions such as vocal flies, roaring voices, and hoarse voices are suitable examples of sound expressions. Note that sound expression is also referred to as voice quality.
  • the sound expression consists of a part of the singing voice where the volume increases immediately after the start of the pronunciation (hereinafter referred to as “attack part”) and a part of the singing voice where the volume decreases immediately before the end of the pronunciation (hereinafter “ Especially in the release section). Considering the above tendency, in the present embodiment, sound expression is added to the attack part and the release part in the singing voice.
  • the sound processing device 100 is realized by a computer system including a control device 11, a storage device 12, an operating device 13, and a sound emitting device 14.
  • a portable information terminal such as a mobile phone or a smartphone, or a portable or stationary information terminal such as a personal computer is preferably used as the sound processing apparatus 100.
  • the operation device 13 is an input device that receives an instruction from a user. For example, a plurality of operators operated by the user or a touch panel that detects contact by the user is preferably used as the operation device 13.
  • the control device 11 is one or more processors such as a CPU (Central Processing Unit), and executes various arithmetic processes and control processes.
  • the control device 11 according to the present embodiment generates a third sound signal Y that represents a sound (hereinafter referred to as “deformed sound”) obtained by adding sound expression to the singing sound.
  • the sound emitting device 14 is, for example, a speaker or a headphone, and emits a modified sound represented by the third sound signal Y generated by the control device 11.
  • generated from digital to analog was abbreviate
  • the configuration in which the sound processing device 100 includes the sound emitting device 14 is illustrated in FIG. 1, a sound emitting device 14 that is separate from the sound processing device 100 may be connected to the sound processing device 100 by wire or wirelessly. Good.
  • the storage device 12 is a memory composed of a known recording medium such as a magnetic recording medium or a semiconductor recording medium, and stores a program executed by the control device 11 and various data used by the control device 11.
  • the storage device 12 may be configured by a combination of a plurality of types of recording media.
  • a storage device 12 (for example, cloud storage) separate from the sound processing device 100 may be prepared, and the control device 11 may execute writing and reading with respect to the storage device 12 via a communication network. That is, the storage device 12 may be omitted from the sound processing device 100.
  • the storage device 12 of the present embodiment stores the first sound signal X1 and the second sound signal X2.
  • the 1st sound signal X1 is an acoustic signal showing the singing voice which the user of the sound processing apparatus 100 sang music.
  • the second sound signal X2 is an acoustic signal representing a sound (hereinafter referred to as “reference sound”) sung by a singer other than the user (for example, a singer) with a sound expression added.
  • the first sound signal X1 and the second sound signal X2 have different acoustic characteristics (for example, voice quality).
  • the sound processing apparatus 100 adds the sound expression of the reference sound (illustrated as the second sound) represented by the second sound signal X2 to the singing sound represented by the first sound signal X1, so A three-tone signal Y is generated. Note that the difference in music between the singing voice and the reference voice is not questioned. In the above description, it is assumed that the singing voice speaker and the reference voice speaker are different people, but the singing voice speaker and the reference voice speaker may be the same person. For example, the singing voice is a voice sung by the user without adding a sound expression, and the reference voice is a voice with the singing expression added by the user.
  • FIG. 2 is a block diagram illustrating a functional configuration of the control device 11.
  • the control device 11 executes the program stored in the storage device 12 (that is, a series of instructions to the processor), thereby generating the third sound signal X1 and the second sound signal X2 from the third sound signal X2.
  • a plurality of functions for generating the sound signal Y are realized.
  • the function of the control device 11 may be realized by a plurality of devices configured separately from each other, or part or all of the function of the control device 11 may be realized by a dedicated electronic circuit.
  • the signal analysis unit 21 generates analysis data D1 by analyzing the first sound signal X1, and generates analysis data D2 by analyzing the second sound signal X2. Analysis data D1 and analysis data D2 generated by the signal analysis unit 21 are stored in the storage device 12.
  • Analysis data D1 is data representing a plurality of stationary periods Q1 in the first sound signal X1. As illustrated in FIG. 3, each stationary period Q1 indicated by the analysis data D1 is a variable length period in which the fundamental frequency f1 and the spectrum shape of the first sound signal X1 are stable in time.
  • the analysis data D1 designates the start time (hereinafter referred to as “start time”) T1_S and the end time (hereinafter referred to as “end time”) T1_E of each stationary period Q1.
  • start time hereinafter referred to as “start time”
  • end time hereinafter referred to as “end time”
  • the analysis data D2 is data representing a plurality of stationary periods Q2 in the second sound signal X2.
  • Each steady period Q2 is a variable length period in which the fundamental frequency f2 and the spectrum shape of the second sound signal X2 are stable in time.
  • the analysis data D2 designates the start point time T2_S and the end point time T2_E of each stationary period Q2.
  • each stationary period Q2 is likely to be a period corresponding to one note in the music.
  • FIG. 4 is a flowchart of a process S0 in which the signal analysis unit 21 analyzes the first sound signal X1 (hereinafter referred to as “signal analysis process”) S0.
  • the signal analysis processing S0 in FIG. 4 is started in response to an instruction from the user to the operation device 13.
  • the signal analysis unit 21 calculates the fundamental frequency f1 of the first sound signal X1 for each of a plurality of unit periods (frames) on the time axis (S01).
  • a known technique is arbitrarily employed for calculating the fundamental frequency f1.
  • Each unit period is a period sufficiently shorter than the time length assumed in the steady period Q1.
  • the signal analysis unit 21 calculates a mel cepstrum M1 representing the spectrum shape of the first sound signal X1 for each unit period (S02).
  • the mel cepstrum M1 is expressed by a plurality of coefficients representing the envelope of the frequency spectrum of the first sound signal X1.
  • the mel cepstrum M1 is also expressed as a feature amount representing the phoneme of the singing voice.
  • a known technique is arbitrarily employed for calculating the mel cepstrum M1. Note that MFCC (Mel-Frequency Cepstrum Coefficients) may be calculated instead of the mel cepstrum M1 as a feature amount representing the spectrum shape of the first sound signal X1.
  • the signal analysis unit 21 estimates the voicedness of the singing voice represented by the first sound signal X1 for each unit period (S03). That is, it is determined whether the singing voice corresponds to voiced sound or unvoiced sound.
  • a known technique is arbitrarily employed for estimation of voicedness (voiced / unvoiced).
  • the order of the calculation of the fundamental frequency f1 (S01), the calculation of the mel cepstrum M1 (S02), and the estimation of voicedness (S03) is arbitrary, and is not limited to the order illustrated above.
  • the signal analyzer 21 calculates a first index ⁇ 1 indicating the degree of temporal change in the fundamental frequency f1 for each unit period (S04). For example, the difference of the fundamental frequency f1 between two successive unit periods is calculated as the first index ⁇ 1. The greater the temporal change in the fundamental frequency f1, the larger the first index ⁇ 1 is.
  • the signal analysis unit 21 calculates a second index ⁇ 2 indicating the degree of temporal change of the mel cepstrum M1 for each unit period (S05). For example, a numerical value obtained by combining (for example, adding or averaging) a difference for each coefficient of the mel cepstrum M1 between a plurality of successive unit periods is preferable as the second index ⁇ 2.
  • the second index ⁇ 2 is a large numerical value in the vicinity of the time when the phoneme of the singing voice changes.
  • the signal analysis unit 21 calculates a variation index ⁇ corresponding to the first index ⁇ 1 and the second index ⁇ 2 for each unit period (S06). For example, the weighted sum of the first index ⁇ 1 and the second index ⁇ 2 is calculated for each unit period as the variation index ⁇ .
  • the weight values of the first index ⁇ 1 and the second index ⁇ 2 are set to a predetermined fixed value or a variable value according to an instruction from the user to the operation device 13.
  • the variation index ⁇ tends to be larger as the temporal variation of the fundamental frequency f1 of the first sound signal X1 or the mel cepstrum M1 (that is, the spectrum shape) is larger.
  • the signal analysis unit 21 specifies a plurality of stationary periods Q1 in the first sound signal X1 (S07).
  • the signal analysis unit 21 of the present embodiment specifies the steady period Q1 according to the result of estimation of the voicedness of the singing voice (S03) and the variation index ⁇ .
  • the signal analysis unit 21 demarcates a set of unit periods as a stationary period Q1 where the singing voice is estimated to be a voiced sound and the variation index ⁇ is below a predetermined threshold.
  • a unit period in which the singing voice is estimated to be an unvoiced sound or a unit period in which the variation index ⁇ exceeds the threshold value is excluded from the steady period Q1.
  • the signal analysis unit 21 stores in the storage device analysis data D1 that specifies the start time T1_S and the end time T1_E of each steady period Q1. (S08).
  • the signal analysis unit 21 generates the analysis data D2 by executing the signal analysis process S0 described above for the second sound signal X2 representing the reference voice. Specifically, the signal analysis unit 21 calculates the fundamental frequency f2 (S01), the mel cepstrum M2 (S02), and estimates voiced (voiced / unvoiced) for each unit period of the second sound signal X2. S03) is executed. The signal analysis unit 21 calculates a variation index ⁇ according to the first index ⁇ 1 indicating the degree of temporal change in the fundamental frequency f2 and the second index ⁇ 2 indicating the degree of temporal change in the mel cepstrum M2. (S04-S06).
  • the signal analysis unit 21 specifies each steady period Q2 of the second sound signal X2 according to the result of estimation of the voicedness of the reference speech (S03) and the variation index ⁇ (S07).
  • the signal analysis unit 21 stores the analysis data D2 specifying the start point time T2_S and the end point time T2_E of each steady period Q2 in the storage device 12 (S08).
  • the analysis data D1 and the analysis data D2 may be edited in accordance with an instruction from the user to the operation device 13. Specifically, analysis data D1 designating the start point time T1_S and end point time T1_E designated by the user and analysis data D2 designating the start point time T2_S and end point time T2_E designated by the user are stored in the storage device 12. Is done. That is, the signal analysis process S0 is omitted.
  • the synthesis processing unit 22 uses the analysis data D2 of the second sound signal X2 to transform the analysis data D1 of the first sound signal X1.
  • the synthesis processing unit 22 includes an attack processing unit 31, a release processing unit 32, and a voice synthesis unit 33.
  • the attack processing unit 31 executes an attack process S1 for adding the sound expression of the attack part in the second sound signal X2 to the first sound signal X1.
  • the release processor 32 executes a release process S2 for adding the sound expression of the release part in the second sound signal X2 to the first sound signal X1.
  • the voice synthesizer 33 synthesizes the third sound signal Y of the deformed sound from the results of processing by the attack processor 31 and the release processor 32.
  • FIG. 5 shows the time change of the fundamental frequency f1 immediately after the start of the singing voice.
  • a voiced period Va exists immediately before the steady period Q1.
  • the voiced period Va is a period of voiced sound preceding the steady period Q1.
  • the voiced period Va is a period in which the acoustic characteristics of the singing voice (for example, the fundamental frequency f1 or the spectrum shape) fluctuate in an unstable manner immediately before the steady period Q1.
  • the attack portion from the time ⁇ 1_A at which the singing voice is started to the start time T1_S of the stationary period Q1 corresponds to the voiced period Va.
  • the singing voice is focused.
  • the voiced period Va also exists for the reference voice just before the steady period Q2.
  • the synthesis processing unit 22 (specifically, the attack processing unit 31) performs an attack on the second sound signal X2 with respect to the voiced period Va and the immediately following steady period Q1 in the first sound signal X1. Add sound expression.
  • FIG. 6 shows the time change of the fundamental frequency f1 immediately before the end of the singing voice.
  • a voiced period Vr exists immediately after the steady period Q1.
  • the voiced period Vr is a period of voiced sound that follows the stationary period Q1.
  • the voiced period Vr is a period in which the acoustic characteristics (for example, the fundamental frequency f2 or the spectrum shape) of the singing voice fluctuate in an unstable manner immediately after the steady period Q1.
  • the release part from the end point time T1_E of the stationary period Q1 to the time ⁇ 1_R when the singing voice is muted corresponds to the voiced period Vr.
  • the voice period Vr also exists for the reference voice immediately after the steady period Q2.
  • the synthesis processing unit 22 (specifically, the release processing unit 32) is the release unit of the second sound signal X2 with respect to the voiced period Vr and the immediately preceding steady period Q1 in the first sound signal X1. Add sound expression.
  • FIG. 7 is a flowchart illustrating the specific contents of the release process S2 executed by the release processor 32.
  • the release process S2 of FIG. 7 is executed every steady period Q1 of the first sound signal X1.
  • the release processor 32 determines whether or not to add the sound expression of the release part of the second sound signal X2 to the steady period Q1 to be processed in the first sound signal X1 (S21). . Specifically, the release processing unit 32 determines not to add the sound expression of the release unit for the steady period Q1 corresponding to any of the conditions Cr1 to Cr3 exemplified below. However, the condition for determining whether or not to add a sound expression to the stationary period Q1 of the first sound signal X1 is not limited to the following example. [Condition Cr1] The time length of the steady period Q1 is less than a predetermined value. [Condition Cr2] The time length of the silent period immediately after the steady period Q1 is less than a predetermined value. [Condition Cr3] The time length of the voiced period Vr following the steady period Q1 exceeds a predetermined value.
  • the release processing unit 32 excludes the stationary period Q1 from the addition target of the sound expression. If there is a sufficiently short unvoiced period immediately after the steady period Q1, the unvoiced period may be an unvoiced consonant period in the middle of the singing voice. And, when sound expression is added during the period of unvoiced consonants, there is a tendency that perceptual discomfort is perceived.
  • the release processing unit 32 excludes the stationary period Q1 from the addition target of the sound expression. Further, when the time length of the voiced period Vr immediately after the steady period Q1 is sufficiently long, there is a high possibility that a sufficient sound expression has already been added to the singing voice. Therefore, when the time length of the voiced period Vr following the stationary period Q1 is sufficiently long (condition Cr3), the release processing unit 32 excludes the stationary period Q1 from the addition target of the sound expression. When it is determined that the sound expression is not added to the steady period Q1 of the first sound signal X1 (S21: NO), the release processing unit 32 performs the release process S2 without executing the process described in detail below (S22-S26). Exit.
  • the release processing unit 32 When it is determined that the sound expression of the release part of the second sound signal X2 is added to the steady period Q1 of the first sound signal X1 (S21: YES), the release processing unit 32 has a plurality of steady periods Q2 of the second sound signal X2. Among them, the stationary period Q2 corresponding to the sound expression to be added to the stationary period Q1 of the first sound signal X1 is selected (S22). Specifically, the release processing unit 32 selects a stationary period Q2 in which the situation in the music approximates the stationary period Q1 to be processed.
  • the context considered for one stationary period includes the time length of the target stationary period, the time length of the stationary period immediately after the target stationary period, The pitch difference from the immediately following stationary period, the pitch of the steady period of interest, and the length of the silent period immediately before the stationary period of time are exemplified.
  • the release processing unit 32 selects the steady period Q2 in which the difference from the steady period Q1 is minimized for the situations exemplified above.
  • the release processing unit 32 executes a process (S23-S26) for adding a sound expression corresponding to the stationary period Q2 selected in the above procedure to the first sound signal X1 (analysis data D1).
  • FIG. 8 is an explanatory diagram of a process in which the release processing unit 32 adds the sound expression of the release unit to the first sound signal X1.
  • FIG. 8 shows both the waveform on the time axis and the time variation of the fundamental frequency for each of the first sound signal X1, the second sound signal X2, and the deformed third sound signal Y.
  • the starting point time T1_S and the end point time T1_E of the singing voice stationary period Q1 the ending point time ⁇ 1_R of the voiced period Vr immediately after the stationary period Q1, and the voiced period Va corresponding to the note immediately after the stationary period Q1.
  • the start point time ⁇ 1_A, the start point time T2_S and end point time T2_E of the stationary period Q2 of the reference speech, and the end point time ⁇ 2_R of the voiced period Vr immediately after the stationary period Q2 are known information.
  • the release processing unit 32 adjusts the positional relationship on the time axis between the stationary period Q1 to be processed and the stationary period Q2 selected in step S22 (S23). Specifically, the release processing unit 32 adjusts the position on the time axis of the steady period Q2 to a position based on the end point (T1_S or T1_E) of the steady period Q1. As illustrated in FIG. 8, the release processing unit 32 of the present embodiment performs the first processing on the first sound signal X1 so that the end point time T2_E of the stationary period Q2 matches the end point time T1_E of the stationary period Q1 on the time axis. The position on the time axis of the two-tone signal X2 (steady period Q2) is determined.
  • processing period Z1_R ⁇ Extension of processing period Z1_R (S24)>
  • the release processing unit 32 expands and contracts on the time axis a period (hereinafter referred to as “processing period”) Z1_R in which the sound expression of the second sound signal X2 is added in the first sound signal X1 (S24).
  • processing period Z1_R is a period from time Tm_R at which addition of sound expression is started (hereinafter referred to as “synthesis start time”) to the end point time ⁇ 1_R of the voiced period Vr immediately after the steady period Q1. is there.
  • the synthesis start time Tm_R is a time behind the start point time T1_S of the singing voice stationary period Q1 and the start point time T2_S of the stationary period Q2 of the reference voice. As illustrated in FIG. 8, when the starting point time T2_S of the stationary period Q2 is located behind the starting point time T1_S of the stationary period Q1, the starting point time T2_S of the stationary period Q2 is set as the synthesis start time Tm_R.
  • the synthesis start time Tm_R is not limited to the start point time T2_S.
  • the release processing unit 32 extends the processing period Z1_R of the first sound signal X1 according to the time length of the expression period Z2_R of the second sound signal X2.
  • the expression period Z2_R is a period representing the sound expression of the release portion of the second sound signal X2, and is used for adding the sound expression to the first sound signal X1.
  • the expression period Z2_R is a period from the synthesis start time Tm_R to the end point time ⁇ 2_R of the voiced period Vr immediately after the stationary period Q2.
  • the release processing unit 32 of the present embodiment extends the processing period Z1_R of the first sound signal X1 to the time length of the expression period Z2_R of the second sound signal X2.
  • the extension of the processing period Z1_R is realized by a process (mapping) that correlates an arbitrary time t1 of the first sound signal X1 (singing voice) and an arbitrary time t of the third sound signal Y (deformed sound) after deformation. Is done.
  • FIG. 8 shows the correspondence between the time t1 (vertical axis) of the singing voice and the time t (horizontal axis) of the deformed sound.
  • the time T_R is a predetermined time located between the synthesis start time Tm_R and the end point time ⁇ 1_R of the processing period Z1_R, as illustrated in FIG.
  • the time after the middle point ((T1_S + T1_E) / 2) between the start point time T1_S and the end point time T1_E of the stationary period Q1 and the synthesis start time Tm_R is set as the time T_R.
  • the period before the time T_R in the processing period Z1_R is not expanded or contracted. That is, the expansion of the processing period Z1_R is started from time T_R.
  • the degree of expansion is large at a position near the time T_R, and the degree of expansion is small as the end time ⁇ 1_R is approached. It is expanded on the time axis.
  • the function ⁇ (t) in Expression (1b) is a nonlinear function for extending the processing period Z1_R forward on the time axis and reducing the degree of extension of the processing period Z1_R backward on the time axis.
  • the processing period Z1_R is extended on the time axis so that the degree of extension becomes smaller as the position is closer to the end point time ⁇ 1_R of the processing period Z1_R. Therefore, it is possible to sufficiently maintain the acoustic characteristics in the vicinity of the end time ⁇ 1_R of the singing voice even in the deformed sound. Note that, at a position close to the time T_R, there is a tendency that a sense of incongruity in auditory sense due to the expansion is less perceived than in the vicinity of the end point time ⁇ 1_R.
  • the first sound signal X1 the period from the end point time ⁇ 2_R of the expression period Z2_R to the start point time ⁇ 1_A of the next voiced period Vr is shortened on the time axis as understood from the equation (1c). Since there is no sound during the period from the end point time ⁇ 2_R to the start point time ⁇ 1_A, the first sound signal X1 may be deleted by partial deletion.
  • the singing voice processing period Z1_R is extended to the time length of the reference voice expression period Z2_R.
  • the processing period Z1_R of the singing voice is expanded according to the time length of the expression period Z2_R, it is not necessary to expand the second sound signal X2. Therefore, the sound expression of the release part represented by the second sound signal X2 can be accurately added to the first sound signal X1.
  • the release processing unit 32 transforms the processing period Z1_R after the expansion of the first sound signal X1 according to the expression period Z2_R of the second sound signal X2 (S25-S26). ). Specifically, the synthesis of the fundamental frequency (S25) and the synthesis of the spectral envelope outline (S26) are executed between the processing period Z1_R after the singing voice is expanded and the expression period Z2_R of the reference voice.
  • the release processing unit 32 calculates the fundamental frequency F (t) at each time t of the third sound signal Y by the calculation of the following formula (2).
  • the smoothed fundamental frequency F1 (t1) in Equation (2) is a frequency obtained by smoothing the time series of the fundamental frequency f1 (t1) of the first sound signal X1 on the time axis.
  • the smoothed fundamental frequency F2 (t2) in Expression (2) is a frequency obtained by smoothing the time series of the fundamental frequency f2 (t2) of the second sound signal X2 on the time axis.
  • the coefficient ⁇ 1 and the coefficient ⁇ 2 in Equation (2) are set to non-negative values of 1 or less (0 ⁇ ⁇ 1 ⁇ 1, 0 ⁇ ⁇ 2 ⁇ 1).
  • the second term of the equation (2) is the difference between the fundamental frequency f1 (t1) and the smoothed fundamental frequency F1 (t1) of the singing voice in the degree according to the coefficient ⁇ 1, This is a process of reducing from the fundamental frequency f1 (t1) of the first sound signal X1.
  • the third term of Equation (2) is the fundamental frequency of the first sound signal X1 with the difference between the fundamental frequency f2 (t2) of the reference speech and the smoothed fundamental frequency F2 (t2) in accordance with the coefficient ⁇ 2. This process is added to f1 (t1).
  • the release processing unit 32 calculates the difference between the fundamental frequency f1 (t1) of the singing voice and the smoothed fundamental frequency F1 (t1), and the fundamental frequency f2 (t2) of the reference voice and the smoothed fundamental frequency. It functions as an element to be replaced with the difference from F2 (t2). That is, the time change of the fundamental frequency f1 (t1) in the processing period Z1_R after expansion in the first sound signal X1 approaches the time change of the fundamental frequency f2 (t2) in the expression period Z2_R in the second sound signal X2.
  • the release processing unit 32 synthesizes the spectral envelope outline between the processing period Z1_R after the singing voice expansion and the expression period Z2_R of the reference voice.
  • the spectrum envelope outline G1 of the first sound signal X1 means an intensity distribution obtained by further smoothing the spectrum envelope g2 which is the outline of the frequency spectrum g1 of the first sound signal X1 in the frequency domain, as illustrated in FIG. To do.
  • the spectral envelope outline G1 is an intensity distribution obtained by smoothing the spectral envelope g2 to such an extent that phonological characteristics (phonetic-dependent differences) and individuality (speaker-dependent differences) cannot be perceived.
  • the spectral envelope outline G1 is represented by a predetermined number of coefficients located on the lower order side among a plurality of coefficients of the mel cepstrum representing the spectral envelope g2.
  • the above description focuses on the spectral envelope outline G1 of the first sound signal X1, but the same applies to the spectral envelope outline G2 of the second sound signal X2.
  • the release processing unit 32 calculates a spectrum envelope outline (hereinafter referred to as “synthetic spectrum envelope outline”) G (t) at each time t of the third sound signal Y by calculation of the following formula (3).
  • the symbol G1_ref in Equation (3) is a reference spectrum envelope outline.
  • the reference spectrum envelope outline G1_ref is the spectrum envelope outline G1 (Tm_R) at the synthesis start time Tm_R (example of the first time point) in the first sound signal X1. That is, the time point at which the reference spectrum envelope outline G1_ref is extracted is located at a time behind the start point time T1_S of the stationary period Q1 and the start point time T2_S of the steady period Q2.
  • the time point at which the reference spectrum envelope outline G1_ref is extracted is not limited to the synthesis start time Tm_R.
  • the spectrum envelope outline G1 at an arbitrary point in the steady period Q1 is used as the reference spectrum envelope outline G1_ref.
  • the reference spectrum envelope outline G2_ref in Expression (3) is one spectrum envelope outline G2 at a specific point in time among the plurality of spectrum envelope outlines G2 of the second sound signal X2.
  • the reference spectrum envelope outline G2_ref is the spectrum envelope outline G2 (Tm_R) at the synthesis start time Tm_R (example of the second time point) in the second sound signal X2. That is, the time point at which the reference spectrum envelope outline G2_ref is extracted is located at a time behind the start point time T1_S of the stationary period Q1 and the start point time T2_S of the steady period Q2.
  • the time point at which the reference spectrum envelope outline G2_ref is extracted is not limited to the synthesis start time Tm_R.
  • the spectrum envelope outline G2 at an arbitrary point in the steady period Q1 is used as the reference spectrum envelope outline G2_ref.
  • the coefficient ⁇ 1 and coefficient ⁇ 2 in the equation (3) are set to non-negative values of 1 or less (0 ⁇ ⁇ 1 ⁇ 1, 0 ⁇ ⁇ 2 ⁇ 1).
  • the second term of Equation (3) is the difference between the spectrum envelope outline G1 (t1) of the singing voice and the reference spectrum envelope outline G1_ref according to the coefficient ⁇ 1 (example of the first coefficient). This is a process of reducing the spectrum envelope outline G1 (t1) of the sound signal X1.
  • the third term of Equation (3) is the difference between the spectral envelope outline G2 (t2) of the reference speech and the standard spectral envelope outline G2_ref according to the coefficient ⁇ 2 (example of the second coefficient).
  • This process is added to the spectral envelope outline G1 (t1) of the first sound signal X1.
  • the release processing unit 32 determines the difference between the spectrum envelope outline G1 (t1) of the singing voice and the reference spectrum envelope outline G1_ref (example of the first difference) and the spectrum envelope of the reference voice.
  • the spectral envelope outline G1 (t1) is modified according to the difference (example of the second difference) between the outline G2 (t2) and the reference spectrum envelope outline G2_ref, thereby synthesizing the spectrum envelope of the third sound signal Y. Calculate the outline G (t).
  • the release processing unit 32 uses the difference (example of the first difference) between the spectrum envelope outline G1 (t1) of the singing voice and the reference spectrum envelope outline G1_ref as an example of the spectrum envelope outline G2 ( It functions as an element that replaces the difference between t2) and the reference spectrum envelope outline G2_ref (example of the second difference).
  • Step S26 described above is an example of “first processing”.
  • FIG. 10 is a flowchart illustrating the specific content of the attack process S1 executed by the attack processing unit 31.
  • the attack process S1 shown in FIG. 10 is executed every steady period Q1 of the first sound signal X1.
  • the specific procedure of the attack process S1 is the same as the release process S2.
  • the attack processing unit 31 determines whether or not to add the sound expression of the attack portion of the second sound signal X2 to the stationary period Q1 to be processed in the first sound signal X1 (S11). . Specifically, the attack processing unit 31 determines that the sound expression of the attack unit is not added for the stationary period Q1 corresponding to any of the conditions Ca1 to Ca5 illustrated below. However, the condition for determining whether or not to add a sound expression to the stationary period Q1 of the first sound signal X1 is not limited to the following example. [Condition Ca1] The length of the stationary period Q1 is less than a predetermined value.
  • the condition Ca1 is a condition that takes into account the fact that it is difficult to add a sound expression with a natural voice quality during the stationary period Q1 with a sufficiently short time length, like the condition Cr1 described above. Moreover, when the fundamental frequency f1 fluctuates greatly within the steady period Q1, there is a high possibility that a sufficient sound expression is added to the singing voice. Therefore, the steady period Q1 in which the fluctuation range of the smoothed fundamental frequency f1 exceeds a predetermined value is excluded from the addition target of the sound expression (condition Ca2).
  • the condition Ca3 has the same contents as the condition Ca2, but is a condition focusing on a period close to the attack portion in the steady period Q1.
  • the stationary period Q1 (condition Ca4) in which the time length of the immediately preceding voiced period Va exceeds a predetermined value and the stationary period Q1 (condition Ca5) in which the fluctuation range of the fundamental frequency f1 within the voiced period Va exceeds a predetermined value are defined. , Excluded from the target of sound expression.
  • the attack processing unit 31 ends the attack process S1 without executing the processes (S12-S16) described in detail below.
  • the attack processing unit 31 When it is determined that the sound expression of the attack part of the second sound signal X2 is added to the steady period Q1 of the first sound signal X1 (S11: YES), the attack processing unit 31 has a plurality of steady periods Q2 of the second sound signal X2.
  • the stationary period Q2 corresponding to the sound expression to be added to the stationary period Q1 is selected (S12).
  • the method by which the attack processing unit 31 selects the stationary period Q2 is the same as the method by which the release processing unit 32 selects the stationary period Q2.
  • the attack processing unit 31 performs processing (S13-S16) for adding a sound expression corresponding to the stationary period Q2 selected in the above procedure to the first sound signal X1.
  • FIG. 11 is an explanatory diagram of processing in which the attack processing unit 31 adds the sound expression of the attack unit to the first sound signal X1.
  • the attack processing unit 31 adjusts the positional relationship on the time axis between the stationary period Q1 to be processed and the stationary period Q2 selected in step S12 (S13). Specifically, as illustrated in FIG. 11, the attack processing unit 31 applies the first sound signal X1 to the start point time T1_S of the steady period Q1 so that the start point time T2_S of the steady period Q2 matches on the time axis. The position on the time axis of the second sound signal X2 (steady period Q2) is determined.
  • the attack processing unit 31 extends on the time axis the processing period Z1_A to which the sound expression of the second sound signal X2 of the first sound signal X1 is added (S14).
  • the processing period Z1_A is a period from the start time ⁇ 1_A of the voiced period Va immediately before the steady period Q1 to the time Tm_A at which the addition of the sound expression is ended (hereinafter referred to as “synthesis end time”).
  • the combination end time Tm_A is, for example, the start point time T1_S of the steady period Q1 (start point time T2_S of the steady period Q2).
  • the voiced period Va ahead of the steady period Q1 is extended as the process period Z1_A.
  • the stationary period Q1 is a period corresponding to musical notes. According to the configuration in which the voiced period Va is extended and the steady period Q1 is not extended, the change in the start time T1_S of the steady period Q1 is suppressed. That is, it is possible to reduce the possibility that the beginning of a note in the singing voice moves back and forth.
  • the attack processing unit 31 of the present embodiment extends the processing period Z1_A of the first sound signal X1 according to the time length of the expression period Z2_A of the second sound signal X2.
  • the expression period Z2_A is a period representing the sound expression of the attack portion of the second sound signal X2, and is used for adding the sound expression to the first sound signal X1.
  • the expression period Z2_A is the voiced period Va immediately before the steady period Q2.
  • the attack processing unit 31 extends the processing period Z1_A of the first sound signal X1 to the time length of the expression period Z2_A of the second sound signal X2.
  • FIG. 11 shows the correspondence between the singing voice time t1 (vertical axis) and the deformed sound time t (horizontal axis).
  • the processing period Z1_A is extended on the time axis so that the degree of expansion becomes smaller as the position is closer to the start time ⁇ 1_A of the processing period Z1_A. Therefore, it is possible to sufficiently maintain the acoustic characteristics in the vicinity of the starting point time ⁇ 1_A of the singing voice even in the deformed sound.
  • the reference speech expression period Z2_A is not expanded or contracted on the time axis. Therefore, it is possible to accurately add the sound expression of the attack portion represented by the second sound signal X2 to the first sound signal X1.
  • the attack processing unit 31 transforms the processing period Z1_A after the expansion of the first sound signal X1 according to the expression period Z2_A of the second sound signal X2 (S15-S16). ). Specifically, the synthesis of the fundamental frequency (S25) and the synthesis of the spectral envelope outline (S26) are executed between the processing period Z1_A after the singing voice is expanded and the expression period Z2_A of the reference voice.
  • the attack processing unit 31 calculates the fundamental frequency f1 (t1) of the first sound signal X1 and the fundamental frequency f2 (t2) of the second sound signal X2 by the same calculation as the above equation (2).
  • the fundamental frequency F (t) of the third sound signal Y is calculated (S15). That is, the attack processing unit 31 reduces the difference between the fundamental frequency f1 (t1) and the smoothed fundamental frequency F1 (t1) from the fundamental frequency f1 (t1) of the first sound signal X1 to a degree corresponding to the coefficient ⁇ 1.
  • the third sound signal is obtained.
  • the time change of the fundamental frequency f1 (t1) in the processing period Z1_A after expansion in the first sound signal X1 approaches the time change of the fundamental frequency f2 (t2) in the expression period Z2_A in the second sound signal X2.
  • the attack processing unit 31 synthesizes the spectral envelope outline between the processing period Z1_A after the singing voice is expanded and the reference voice expression period Z2_A (S16). Specifically, the attack processing unit 31 performs the same calculation as the above-described mathematical expression (3), and the spectrum envelope outline G1 (t1) of the first sound signal X1 and the spectrum envelope outline G2 (2) of the second sound signal X2 ( The composite spectrum envelope outline G (t) of the third sound signal Y is calculated from t2).
  • Step S16 described above is an example of the “first process”.
  • the reference spectrum envelope outline G1_ref applied to the expression (3) in the attack process S1 is the spectrum envelope outline G1 (Tm_A) at the synthesis end time Tm_A (example of the first time point) in the first sound signal X1. That is, the time point at which the reference spectrum envelope outline G1_ref is extracted is located at the start time T1_S of the stationary period Q1.
  • the reference spectrum envelope outline G2_ref applied to the expression (3) in the attack process S1 is the spectrum envelope outline G2 (Tm_A) at the synthesis end time Tm_A (example of the second time point) in the second sound signal X2. It is. That is, the time when the reference spectrum envelope outline G2_ref is extracted is located at the start time T1_S of the stationary period Q1.
  • each of the attack processing unit 31 and the release processing unit 32 of the present embodiment is at a position on the time axis with the end point (start time T1_S or end time T1_E) of the steady period Q1 as a reference.
  • the first sound signal X1 (analysis data D1) is transformed using the second sound signal X2 (analysis data D2).
  • a time series of the fundamental frequency F (t) of the third sound signal Y representing the deformed sound and a time series of the synthetic spectrum envelope outline G (t) are generated. .
  • the process in which the speech synthesizer 33 generates the third sound signal Y is an example of “second process”.
  • the speech synthesizer 33 adjusts each frequency spectrum g1 calculated from the first sound signal X1 so as to follow the synthesized spectrum envelope outline G (t), and the basic of the first sound signal X1.
  • the frequency f1 is adjusted to the fundamental frequency F (t). Adjustment of the frequency spectrum g1 and the fundamental frequency f1 is performed in the frequency domain, for example.
  • the voice synthesizer 33 synthesizes the third sound signal Y by converting the adjusted frequency spectrum exemplified above into the time domain.
  • the difference between the spectral envelope outline G1 (t1) of the first sound signal X1 and the reference spectrum envelope outline G1_ref (G1 (t1) ⁇ G1_ref) and the second sound signal X2 The difference (G2 (t2) -G2_ref) between the spectral envelope outline G2 (t2) and the reference spectrum envelope outline G2_ref is synthesized into the spectrum envelope outline G1 (t1) of the first sound signal X1. Therefore, among the first sound signals X1, the acoustic characteristics are continuously perceptually natural at the boundary between the period (processing period Z1_A or Z1_R) transformed using the second sound signal X2 and the period before and after the period. Can generate various deformed sounds.
  • the stationary period Q1 in which the fundamental frequency f1 and the spectrum shape are temporally stable is specified in the first sound signal X1, and the end point (start time T1_S or end time T1_E) of the stationary period Q1 is determined.
  • the first sound signal X1 is transformed using the second sound signal X2 arranged as a reference. Therefore, an appropriate period of the first sound signal X1 is deformed in accordance with the second sound signal X2, and an auditory natural deformed sound can be generated.
  • the processing period (Z1_A or Z1_R) of the first sound signal X1 is expanded according to the time length of the expression period (Z2_A or Z2_R) of the second sound signal X2, the expansion of the second sound signal X2 is performed. Is unnecessary. Therefore, the acoustic characteristic (for example, sound expression) of the reference voice is accurately added to the first sound signal X1, and an acoustically natural deformation sound can be generated.
  • the steady period Q1 of the first sound signal X1 is specified using the fluctuation index ⁇ calculated from the first index ⁇ 1 and the second index ⁇ 2, but the first index ⁇ 1 and the second index
  • the method of specifying the steady period Q1 according to the index ⁇ 2 is not limited to the above example.
  • the signal analysis unit 21 specifies a first provisional period corresponding to the first index ⁇ 1 and a second provisional period corresponding to the second index ⁇ 2.
  • the first provisional period is, for example, a voiced sound period in which the first index ⁇ 1 is below a threshold value. That is, the period in which the fundamental frequency f1 is stable in time is specified as the first provisional period.
  • the second provisional period is, for example, a voiced sound period in which the second index ⁇ 2 is below a threshold value. That is, a period in which the spectrum shape is stable in time is specified as the second provisional period.
  • the signal analysis unit 21 specifies a period in which the first provisional period and the second provisional period overlap each other as the stationary period Q1. That is, a period in which both the fundamental frequency f1 and the spectrum shape are temporally stable in the first sound signal X1 is specified as the steady period Q1.
  • calculation of the variation index ⁇ may be omitted in specifying the steady period Q1.
  • attention is paid to the specification of the stationary period Q1, but the same applies to the specification of the stationary period Q2 in the second sound signal X2.
  • the period in which both the fundamental frequency f1 and the spectrum shape of the first sound signal X1 are temporally stable is specified as the stationary period Q1, but the fundamental frequency f1 of the first sound signal X1 and A period in which one of the spectrum shapes is temporally stable may be specified as the stationary period Q1.
  • a period in which one of the fundamental frequency f2 and the spectrum shape in the second sound signal X2 is temporally stable may be specified as the steady period Q2.
  • the reference spectrum envelope outline G1_ref is extracted.
  • the time point (first time point) to be performed is not limited to the above example.
  • the spectrum envelope outline G1 at the end point (start time T1_S or end time T1_E) of the stationary period Q1 may be set as the reference spectrum envelope outline G1_ref.
  • the first time point when the reference spectrum envelope outline G1_ref is extracted is a time point within the steady period Q1 in which the spectrum shape of the first sound signal X1 is stable.
  • the reference spectrum envelope outline G2_ref is used as the reference spectrum envelope outline G2_ref, but the reference spectrum envelope outline G2_ref is extracted.
  • the time point (second time point) is not limited to the above example.
  • the spectrum envelope outline G2 at the end point (start time T2_S or end time T2_E) of the steady period Q2 may be set as the reference spectrum envelope outline G2_ref.
  • the second time point at which the reference spectrum envelope outline G2_ref is extracted is a time point in the steady period Q2 in which the spectrum shape of the second sound signal X2 is stable.
  • the first time point when the reference spectrum envelope outline G1_ref is extracted from the first sound signal X1 and the second time point when the reference spectrum envelope outline G2_ref is extracted from the second sound signal X2 are on the time axis. May be at different times.
  • the first sound signal X1 representing the singing sound sung by the user of the sound processing apparatus 100 is processed, but the sound represented by the first sound signal X1 is not limited to the singing sound by the user. .
  • the first sound signal X1 read from a recording medium such as an optical disk may be processed.
  • the second sound signal X2 is acquired by an arbitrary method.
  • the sound represented by the first sound signal X1 and the second sound signal X2 is not limited to a narrowly defined sound (ie, a language sound uttered by a human).
  • the present invention is also applied when various sound expressions (for example, performance expressions) are added to the first sound signal X1 representing the performance sound of the musical instrument.
  • a performance expression such as vibrato is added to the first sound signal X1 representing a monotonous performance sound to which a performance expression is not added using the second sound signal X2.
  • the function of the sound processing apparatus 100 is realized by one or more processors executing instructions (programs) stored in the memory as described above.
  • the above program can be provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium is also included.
  • the non-transitory recording medium includes an arbitrary recording medium excluding a transient propagation signal (transitory, “propagating” signal), and does not exclude a volatile recording medium.
  • the storage device that stores the program in the distribution device corresponds to the non-transitory recording medium.
  • a sound processing method includes a first spectral envelope outline in a first sound signal representing a first sound, and a first reference at a first time point in the first sound signal.
  • a first difference that is a difference from a spectrum envelope outline, and a second spectrum envelope outline in a second sound signal representing a second sound having a different acoustic characteristic from the first sound and the second sound signal
  • the first sound is deformed according to the second sound by deforming the first spectrum envelope according to the second difference that is a difference from the second reference spectrum envelope at the second time point.
  • a synthetic spectrum envelope outline in the third sound signal representing the deformed sound is generated, and the third sound signal corresponding to the synthetic spectrum envelope outline is generated.
  • the first difference between the first spectrum envelope outline of the first sound signal and the first reference spectrum envelope outline, the spectrum envelope outline of the second sound signal, and the second reference spectrum envelope outline Is synthesized with the first spectral envelope outline to generate a synthesized spectral envelope outline for the deformed sound obtained by deforming the first sound according to the second sound. Therefore, it is possible to generate a perceptually natural deformed sound having acoustic characteristics that are continuous at a boundary between a period in which the second sound signal is synthesized in the first sound signal and a period before and after the period.
  • the spectrum envelope outline is an outline of the spectrum envelope.
  • the intensity distribution on the frequency axis in which the spectrum envelope is smoothed to such an extent that the phoneme (difference between phonemes) and individuality (difference between speakers) cannot be perceived corresponds to the spectrum envelope outline.
  • the spectral envelope outline is represented by a predetermined number of coefficients located on the lower order side among the plurality of coefficients of the mel cepstrum representing the outline of the frequency spectrum.
  • first aspect a first steady period in which the spectrum shape of the first sound signal is temporally stable and a spectrum shape of the second sound signal in which the spectrum shape is temporally stable. Adjusting the temporal position of the second sound signal with respect to the first sound signal so that the end point coincides with two steady periods, and the first time point is a time point within the first steady period; The second time point is a time point within the second stationary period, and the combined spectral envelope outline is generated between the first sound signal and the adjusted second sound signal.
  • the first time point and the second time point are the back time points of the start point of the first steady period and the start point of the second steady period.
  • the rear time point of the first steady period start point and the second steady period start point is the first time point and the second steady period. Selected as 2 time points. Therefore, it is possible to generate a deformed sound in which the acoustic characteristics of the release portion in the second sound are added to the first sound while maintaining the continuity of the acoustic characteristics at the start points of the first stationary period and the second stationary period.
  • a first stationary period in which a spectrum shape of the first sound signal is temporally stable and a spectrum shape of the second sound signal in which the spectrum shape is temporally stable Adjusting the temporal position of the second sound signal with respect to the first sound signal so that the start point coincides with two steady periods, and the first time point is a time point within the first steady period;
  • the second time point is a time point within the second stationary period, and the combined spectral envelope outline is generated between the first sound signal and the adjusted second sound signal.
  • the first time point and the second time point are start points of the first steady period.
  • the start point of the first steady period (the start point of the second steady period) is selected as the first time point and the second time point. Is done. Therefore, it is possible to generate a deformed sound in which the acoustic characteristics in the vicinity of the sound generation point of the second sound are added to the first sound while suppressing the movement of the start point of the first steady period.
  • the first steady period includes a first index indicating a degree of change in a fundamental frequency of the first sound signal, and the first sound. And a second index indicating the degree of change in the spectral shape of the signal.
  • the first steady period includes a first index indicating a degree of change in a fundamental frequency of the first sound signal, and the first sound.
  • a second index indicating the degree of change in the spectral shape of the signal.
  • a first coefficient is set to the first difference with respect to the first spectral envelope outline.
  • the result of multiplication is subtracted, and the result of multiplying the second difference by the second coefficient is added.
  • the result of multiplying the first difference by the first coefficient is subtracted from the first spectrum envelope outline, and the result of multiplying the second difference by the second coefficient is added to the first spectrum envelope outline.
  • a time series of the composite spectral envelope outline is generated. Therefore, it is possible to generate a modified sound that reduces the sound expression of the first sound and effectively adds the sound expression of the second sound.
  • the processing period of the first sound signal is set to the first sound signal among the second sound signals.
  • the first spectral envelope outline in the expanded processing period is expanded according to the length of the expression period to be applied to the deformation of one sound signal, and the first difference in the expanded processing period,
  • the composite spectrum envelope outline is generated by deforming according to the second difference of the expression period.
  • a sound processing apparatus is a speech synthesizer including one or more processors and a memory, and the one or more processors execute instructions stored in the memory.
  • a first difference that is a difference between the first spectrum envelope outline in the first sound signal representing the first sound and the first reference spectrum envelope outline at the first time point in the first sound signal;
  • the first spectral envelope outline is deformed in accordance with the second difference, and the synthesized spectrum envelope outline in the third sound signal representing the deformed sound obtained by deforming the first sound in accordance with the second sound.
  • To generate the composite spectral envelope It said third audio signal corresponding to the generated.
  • a first stationary period in which the spectrum shape of the first sound signal is temporally stable and a spectrum shape of the second sound signal in which the spectrum shape is temporally stable Adjusting the temporal position of the second sound signal with respect to the first sound signal so that the end point coincides with two steady periods, and the first time point is a time point within the first steady period;
  • the second time point is a time point within the second stationary period, and the combined spectral envelope outline is generated between the first sound signal and the adjusted second sound signal.
  • the first time point and the second time point are the rear time points of the start point of the first steady period and the start point of the second steady period.
  • a first stationary period in which the spectrum shape of the first sound signal is temporally stable and a spectrum shape of the second sound signal in which the spectrum shape is temporally stable Adjusting the temporal position of the second sound signal with respect to the first sound signal so that the start point coincides with two steady periods, and the first time point is a time point within the first steady period;
  • the second time point is a time point within the second stationary period, and the combined spectral envelope outline is generated between the first sound signal and the adjusted second sound signal.
  • the first time point and the second time point are start points of the first steady period.
  • the one or more processors are obtained by multiplying the first difference by a first coefficient with respect to the first spectral envelope outline. And the result obtained by multiplying the second difference by the second coefficient is added.
  • a recording medium includes a first spectrum envelope outline in a first sound signal representing a first sound, and a first reference spectrum at a first time point in the first sound signal.
  • a first difference which is a difference from the envelope outline, and a second spectrum envelope outline in the second sound signal representing the second sound having different acoustic characteristics from the first sound, and the first of the second sound signals.
  • a program for causing a computer to execute a first process for generating a synthesized spectrum envelope outline in a third sound signal representing sound and a second process for generating the third sound signal corresponding to the synthesized spectrum envelope outline is recorded. To do.
  • DESCRIPTION OF SYMBOLS 100 ... Sound processing apparatus, 11 ... Control apparatus, 12 ... Memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

音処理装置は、歌唱音声を表す第1音信号における第1スペクトル包絡概形と、第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、参照音声を表す第2音信号における第2スペクトル包絡概形と、第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とを第1スペクトル包絡概形に合成することで、歌唱音声を参照音声に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成し、合成スペクトル包絡概形に対応する第3音信号を生成合成処理部を具備する。

Description

音処理方法、音処理装置および記録媒体
 本発明は、音を表す音信号を処理する技術に関する。
 歌唱表現等の音表現を音声に付加する各種の技術が従来から提案されている。例えば特許文献1には、音声信号の各調波成分を周波数領域で移動させることにより、当該音声信号が表す音声を、濁声または嗄声等の特徴的な声質の音声に変換する技術が開示されている。
特開2014-2338号公報
 しかし、特許文献1の技術においては、聴感的に自然な音を生成するという観点から更なる改善の余地がある。以上の事情を考慮して、本発明は、聴感的に自然な音を合成することを目的とする。
 以上の課題を解決するために、本発明の好適な態様に係る音処理方法は、第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とに応じて前記第1スペクトル包絡概形を変形することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成し、前記合成スペクトル包絡概形に対応する前記第3音信号を生成する。
 以上の課題を解決するために、本発明の好適な態様に係る音処理装置は、1以上のプロセッサとメモリとを具備する音処理装置であって、前記メモリに記憶された指示を前記1以上のプロセッサが実行することにより、第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とに応じて前記第1スペクトル包絡概形を変形することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成し、前記合成スペクトル包絡概形に対応する前記第3音信号を生成する合成処理部を具備する。
 以上の課題を解決するために、本発明の好適な態様に係る記録媒体は、第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とに応じて前記第1スペクトル包絡概形を変形することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する第1処理と、前記合成スペクトル包絡概形に対応する前記第3音信号を生成する第2処理とをコンピュータに実行させるプログラムを記録する。
本発明の実施形態に係る音処理装置の構成を例示するブロック図である。 音処理装置の機能的な構成を例示するブロック図である。 第1音信号における定常期間の説明図である。 信号解析処理の具体的な手順を例示するフローチャートである。 歌唱音声の発音が開始された直後における基本周波数の時間変化である。 歌唱音声の発音が終了する直前における基本周波数の時間変化である。 リリース処理の具体的な手順を例示するフローチャートである。 リリース処理の説明図である。 スペクトル包絡概形の説明図である。 アタック処理の具体的な手順を例示するフローチャートである。 アタック処理の説明図である。
 図1は、本発明の好適な形態に係る音処理装置100の構成を例示するブロック図である。本実施形態の音処理装置100は、利用者が楽曲を歌唱した音声(以下「歌唱音声」という)に対して各種の音表現を付加する信号処理装置である。音表現は、歌唱音声(第1音の例示)に対して付加される音響特性である。楽曲の歌唱に着目すると、音表現は、音声の発音(すなわち歌唱)に関する音楽的な表現または表情である。具体的には、ボーカルフライ、唸り声、または嗄れ声のような歌唱表現が、音表現の好適例である。なお、音表現は、声質とも換言される。
 音表現は、歌唱音声のうち発音の開始の直後に音量が増加していく部分(以下「アタック部」という)と、歌唱音声のうち発音の終了の直前に音量が減少してく部分(以下「リリース部」という)とにおいて特に顕著となる。以上の傾向を考慮して、本実施形態では、歌唱音声のうち特にアタック部およびリリース部に対して音表現を付加する。
 図1に例示される通り、音処理装置100は、制御装置11と記憶装置12と操作装置13と放音装置14とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音処理装置100として好適に利用される。操作装置13は、利用者からの指示を受付ける入力機器である。例えば、利用者が操作する複数の操作子、または利用者による接触を検知するタッチパネルが、操作装置13として好適に利用される。
 制御装置11は、例えばCPU(Central Processing Unit)等の1以上のプロセッサであり、各種の演算処理および制御処理を実行する。本実施形態の制御装置11は、歌唱音声に音表現を付与した音声(以下「変形音」という)を表す第3音信号Yを生成する。放音装置14は、例えばスピーカまたはヘッドホンであり、制御装置11が生成した第3音信号Yが表す変形音を放音する。なお、制御装置11が生成した第3音信号Yをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。なお、音処理装置100が放音装置14を具備する構成を図1では例示したが、音処理装置100とは別体の放音装置14を音処理装置100に有線または無線で接続してもよい。
 記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成されたメモリであり、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、音処理装置100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、制御装置11が通信網を介して記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12を音処理装置100から省略してもよい。
 本実施形態の記憶装置12は、第1音信号X1と第2音信号X2とを記憶する。第1音信号X1は、音処理装置100の利用者が楽曲を歌唱した歌唱音声を表す音響信号である。第2音信号X2は、利用者以外の歌唱者(例えば歌手)が音表現を付加して歌唱した音声(以下「参照音声」という)を表す音響信号である。第1音信号X1と第2音信号X2とでは音響特性(例えば声質)が相違する。本実施形態の音処理装置100は、第2音信号X2が表す参照音声(第2音の例示)の音表現を、第1音信号X1が表す歌唱音声に付加することで、変形音の第3音信号Yを生成する。なお、歌唱音声と参照音声との間で楽曲の異同は不問である。なお、以上の説明では歌唱音声の発声者と参照音声の発声者とが別人である場合を想定したが、歌唱音声の発声者と参照音声の発声者とは同一人でもよい。例えば、歌唱音声は、音表現を付加せずに利用者が歌唱した音声であり、参照音声は、当該利用者が歌唱表現を付加した音声である。
 図2は、制御装置11の機能的な構成を例示するブロック図である。図2に例示される通り、制御装置11は、記憶装置12に記憶されたプログラム(すなわちプロセッサに対する指示の系列)を実行することで、第1音信号X1と第2音信号X2とから第3音信号Yを生成するための複数の機能(信号解析部21および合成処理部22)を実現する。なお、相互に別体で構成された複数の装置で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
 信号解析部21は、第1音信号X1の解析により解析データD1を生成し、第2音信号X2の解析により解析データD2を生成する。信号解析部21が生成した解析データD1および解析データD2は記憶装置12に格納される。
 解析データD1は、第1音信号X1における複数の定常期間Q1を表すデータである。図3に例示される通り、解析データD1が示す各定常期間Q1は、第1音信号X1のうち基本周波数f1とスペクトル形状とが時間的に安定している可変長の期間である。解析データD1は、各定常期間Q1の始点の時刻(以下「始点時刻」という)T1_Sと終点の時刻(以下「終点時刻」という)T1_Eとを指定する。なお、楽曲内で相前後する2個の音符の間では、基本周波数f1またはスペクトル形状(すなわち音韻)が変化する場合が多い。したがって、各定常期間Q1は、楽曲内の1個の音符に相当する期間である可能性が高い。
 同様に、解析データD2は、第2音信号X2における複数の定常期間Q2を表すデータである。各定常期間Q2は、第2音信号X2のうち基本周波数f2とスペクトル形状とが時間的に安定している可変長の期間である。解析データD2は、各定常期間Q2の始点時刻T2_Sと終点時刻T2_Eとを指定する。定常期間Q1と同様に、各定常期間Q2は、楽曲内の1個の音符に相当する期間である可能性が高い。
 図4は、信号解析部21が第1音信号X1を解析する処理(以下「信号解析処理」という)S0のフローチャートである。例えば操作装置13に対する利用者からの指示を契機として図4の信号解析処理S0が開始される。図4に例示される通り、信号解析部21は、時間軸上の複数の単位期間(フレーム)の各々について第1音信号X1の基本周波数f1を算定する(S01)。基本周波数f1の算定には公知の技術が任意に採用される。各単位期間は、定常期間Q1に想定される時間長と比較して充分に短い期間である。
 信号解析部21は、第1音信号X1のスペクトル形状を表すメルケプストラムM1を単位期間毎に算定する(S02)。メルケプストラムM1は、第1音信号X1の周波数スペクトルの包絡線を表す複数の係数で表現される。メルケプストラムM1は、歌唱音声の音韻を表す特徴量とも表現される。メルケプストラムM1の算定には公知の技術が任意に採用される。なお、第1音信号X1のスペクトル形状を表す特徴量として、メルケプストラムM1の代わりにMFCC(Mel-Frequency Cepstrum Coefficients)を算定してもよい。
 信号解析部21は、第1音信号X1が表す歌唱音声の有声性を単位期間毎に推定する(S03)。すなわち、歌唱音声が有声音および無声音の何れに該当するかが判定される。有声性(有声/無声)の推定には公知の技術が任意に採用される。なお、基本周波数f1の算定(S01)とメルケプストラムM1の算定(S02)と有声性の推定(S03)とについて順序は任意であり、以上に例示した順序には限定されない。
 信号解析部21は、基本周波数f1の時間的な変化の度合を示す第1指標δ1を単位期間毎に算定する(S04)。例えば相前後する2個の単位期間の間における基本周波数f1の差分が第1指標δ1として算定される。基本周波数f1の時間的な変化が顕著であるほど第1指標δ1は大きい数値となる。
 信号解析部21は、メルケプストラムM1の時間的な変化の度合を示す第2指標δ2を単位期間毎に算定する(S05)。例えば、相前後する2個の単位期間の間においてメルケプストラムM1の係数毎の差分を複数の係数について合成(例えば加算または平均)した数値が、第2指標δ2として好適である。歌唱音声のスペクトル形状の時間的な変化が顕著であるほど第2指標δ2は大きい数値となる。例えば歌唱音声の音韻が変化する時点の付近では、第2指標δ2は大きい数値となる。
 信号解析部21は、第1指標δ1および第2指標δ2に応じた変動指標Δを単位期間毎に算定する(S06)。例えば、第1指標δ1と第2指標δ2との加重和が変動指標Δとして単位期間毎に算定される。第1指標δ1および第2指標δ2の各々の加重値は、所定の固定値、または操作装置13に対する利用者からの指示に応じた可変値に設定される。以上の説明から理解される通り、第1音信号X1の基本周波数f1またはメルケプストラムM1(すなわちスペクトル形状)の時間的な変動が大きいほど、変動指標Δは大きい数値になるという傾向がある。
 信号解析部21は、第1音信号X1における複数の定常期間Q1を特定する(S07)。本実施形態の信号解析部21は、歌唱音声の有声性の推定の結果(S03)と変動指標Δとに応じて定常期間Q1を特定する。具体的には、信号解析部21は、歌唱音声が有声音であると推定され、かつ、変動指標Δが所定の閾値を下回る一連の単位期間の集合を定常期間Q1として画定する。歌唱音声が無声音であると推定された単位期間、または、変動指標Δが閾値を上回る単位期間は、定常期間Q1から除外される。以上の手順により第1音信号X1の各定常期間Q1を画定すると、信号解析部21は、各定常期間Q1の始点時刻T1_Sと終点時刻T1_Eとを指定する解析データD1を記憶装置12に格納する(S08)。
 信号解析部21は、以上に説明した信号解析処理S0を、参照音声を表す第2音信号X2についても実行することで解析データD2を生成する。具体的には、信号解析部21は、第2音信号X2の単位期間毎に、基本周波数f2の算定(S01)とメルケプストラムM2の算定(S02)と有声性(有声/無声)の推定(S03)とを実行する。信号解析部21は、基本周波数f2の時間的な変化の度合を示す第1指標δ1と、メルケプストラムM2の時間的な変化の度合を示す第2指標δ2とに応じた変動指標Δを算定する(S04-S06)。そして、信号解析部21は、参照音声の有声性の推定の結果(S03)と変動指標Δとに応じて第2音信号X2の各定常期間Q2を特定する(S07)。信号解析部21は、各定常期間Q2の始点時刻T2_Sと終点時刻T2_Eとを指定する解析データD2を記憶装置12に格納する(S08)。なお、解析データD1および解析データD2を、操作装置13に対する利用者からの指示に応じて編集してもよい。具体的には、利用者が指示した始点時刻T1_Sおよび終点時刻T1_Eを指定する解析データD1と、利用者が指示した始点時刻T2_Sおよび終点時刻T2_Eを指定する解析データD2とが記憶装置12に格納される。すなわち、信号解析処理S0は省略される。
 図2の合成処理部22は、第2音信号X2の解析データD2を利用して第1音信号X1の解析データD1を変形する。本実施形態の合成処理部22は、アタック処理部31とリリース処理部32と音声合成部33とを含んで構成される。アタック処理部31は、第2音信号X2におけるアタック部の音表現を第1音信号X1に付加するアタック処理S1を実行する。リリース処理部32は、第2音信号X2におけるリリース部の音表現を第1音信号X1に付加するリリース処理S2を実行する。音声合成部33は、アタック処理部31およびリリース処理部32による処理の結果から変形音の第3音信号Yを合成する。
 図5には、歌唱音声の発音が開始された直後における基本周波数f1の時間変化が図示されている。図5に例示される通り、定常期間Q1の直前には有声期間Vaが存在する。有声期間Vaは、定常期間Q1に先行する有声音の期間である。有声期間Vaは、歌唱音声の音響特性(例えば基本周波数f1またはスペクトル形状)が定常期間Q1の直前に不安定に変動する期間である。例えば、歌唱音声の発音が開始した直後の定常期間Q1に着目すると、歌唱音声の発音が開始される時刻τ1_Aから当該定常期間Q1の始点時刻T1_Sまでのアタック部が有声期間Vaに相当する。なお、以上の説明では歌唱音声に着目したが、参照音声についても同様に、定常期間Q2の直前に有声期間Vaが存在する。合成処理部22(具体的にはアタック処理部31)は、アタック処理S1において、第1音信号X1のうち有声期間Vaと直後の定常期間Q1とに対して第2音信号X2におけるアタック部の音表現を付加する。
 図6には、歌唱音声の発音が終了する直前における基本周波数f1の時間変化が図示されている。図6に例示される通り、定常期間Q1の直後には有声期間Vrが存在する。有声期間Vrは、定常期間Q1に後続する有声音の期間である。有声期間Vrは、歌唱音声の音響特性(例えば基本周波数f2またはスペクトル形状)が定常期間Q1の直後に不安定に変動する期間である。例えば、歌唱音声の発音が終了する直前の定常期間Q1に着目すると、当該定常期間Q1の終点時刻T1_Eから歌唱音声が消音する時刻τ1_Rまでのリリース部が有声期間Vrに相当する。なお、以上の説明では歌唱音声に着目したが、参照音声についても同様に、定常期間Q2の直後に音声期間Vrが存在する。合成処理部22(具体的にはリリース処理部32)は、リリース処理S2において、第1音信号X1のうち有声期間Vrと直前の定常期間Q1とに対して第2音信号X2のリリース部の音表現を付加する。
<リリース処理S2>
 図7は、リリース処理部32が実行するリリース処理S2の具体的な内容を例示するフローチャートである。第1音信号X1の定常期間Q1毎に図7のリリース処理S2が実行される。
 リリース処理S2を開始すると、リリース処理部32は、第1音信号X1のうち処理対象の定常期間Q1に第2音信号X2のリリース部の音表現を付加するか否かを判定する(S21)。具体的には、リリース処理部32は、以下に例示する条件Cr1から条件Cr3の何れかに該当する定常期間Q1についてはリリース部の音表現を付加しないと判定する。ただし、第1音信号X1の定常期間Q1に音表現を付加するか否かを判定する条件は以下の例示に限定されない。
[条件Cr1]定常期間Q1の時間長が所定値を下回る。
[条件Cr2]定常期間Q1の直後の無声期間の時間長が所定値を下回る。
[条件Cr3]定常期間Q1に後続する有声期間Vrの時間長が所定値を上回る。
 時間長が充分に短い定常期間Q1には自然な声質で音表現を付加することが困難である。そこで、定常期間Q1の時間長が所定値を下回る場合(条件Cr1)、リリース処理部32は、当該定常期間Q1を音表現の付加対象から除外する。また、定常期間Q1の直後に充分に短い無声期間が存在する場合、当該無声期間は、歌唱音声の途中における無声子音の期間である可能性がある。そして、無声子音の期間に音表現を付加すると、聴感的な違和感が知覚されるという傾向がある。以上の傾向を考慮して、定常期間Q1の直後の無声期間の時間長が所定値を下回る場合(条件Cr2)、リリース処理部32は、当該定常期間Q1を音表現の付加対象から除外する。また、定常期間Q1の直後の有声期間Vrの時間長が充分に長い場合には、歌唱音声に既に充分な音表現が付加されている可能性が高い。そこで、定常期間Q1に後続する有声期間Vrの時間長が充分に長い場合(条件Cr3)、リリース処理部32は、当該定常期間Q1を音表現の付加対象から除外する。第1音信号X1の定常期間Q1に音表現を付加しないと判定した場合(S21:NO)、リリース処理部32は、以下に詳述する処理(S22-S26)を実行することなくリリース処理S2を終了する。
 第1音信号X1の定常期間Q1に第2音信号X2のリリース部の音表現を付加すると判定した場合(S21:YES)、リリース処理部32は、第2音信号X2の複数の定常期間Q2のうち、第1音信号X1の定常期間Q1に付加されるべき音表現に対応する定常期間Q2を選択する(S22)。具体的には、リリース処理部32は、処理対象の定常期間Q1に楽曲内の状況が近似する定常期間Q2を選択する。例えば、1個の定常期間(以下「着目定常期間」という)について考慮される状況(context)としては、着目定常期間の時間長、着目定常期間の直後の定常期間の時間長、着目定常期間と直後の定常期間との間の音高差、着目定常期間の音高、および着目定常期間の直前の無音期間の時間長が例示される。リリース処理部32は、以上に例示した状況について定常期間Q1との差異が最小となる定常期間Q2を選択する。
 リリース処理部32は、以上の手順で選択した定常期間Q2に対応する音表現を第1音信号X1(解析データD1)に付加するための処理(S23-S26)を実行する。図8は、リリース処理部32が第1音信号X1にリリース部の音表現を付加する処理の説明図である。
 図8には、第1音信号X1と第2音信号X2と変形後の第3音信号Yとの各々について、時間軸上の波形と基本周波数の時間変化とが併記されている。図8において、歌唱音声の定常期間Q1の始点時刻T1_Sおよび終点時刻T1_Eと、当該定常期間Q1の直後の有声期間Vrの終点時刻τ1_Rと、当該定常期間Q1の直後の音符に対応する有声期間Vaの始点時刻τ1_Aと、参照音声の定常期間Q2の始点時刻T2_Sおよび終点時刻T2_Eと、当該定常期間Q2の直後の有声期間Vrの終点時刻τ2_Rとが、既知の情報である。
 リリース処理部32は、処理対象の定常期間Q1とステップS22で選択した定常期間Q2との間で時間軸上の位置関係を調整する(S23)。具体的には、リリース処理部32は、定常期間Q2の時間軸上の位置を、定常期間Q1の端点(T1_SまたはT1_E)を基準とした位置に調整する。本実施形態のリリース処理部32は、図8に例示される通り、定常期間Q1の終点時刻T1_Eに定常期間Q2の終点時刻T2_Eが時間軸上で一致するように、第1音信号X1に対する第2音信号X2(定常期間Q2)の時間軸上の位置を決定する。
<処理期間Z1_Rの伸長(S24)>
 リリース処理部32は、第1音信号X1のうち第2音信号X2の音表現が付加される期間(以下「処理期間」という)Z1_Rを時間軸上で伸縮する(S24)。図8に例示される通り、処理期間Z1_Rは、音表現の付加が開始される時刻(以下「合成開始時刻」という)Tm_Rから定常期間Q1の直後の有声期間Vrの終点時刻τ1_Rまでの期間である。合成開始時刻Tm_Rは、歌唱音声の定常期間Q1の始点時刻T1_Sと参照音声の定常期間Q2の始点時刻T2_Sとのうち後方の時刻である。図8の例示の通り、定常期間Q2の始点時刻T2_Sが定常期間Q1の始点時刻T1_Sの後方に位置する場合には、定常期間Q2の始点時刻T2_Sが合成開始時刻Tm_Rとして設定される。ただし、合成開始時刻Tm_Rは始点時刻T2_Sに限定されない。
 図8に例示される通り、本実施形態のリリース処理部32は、第1音信号X1の処理期間Z1_Rを、第2音信号X2のうち表現期間Z2_Rの時間長に応じて伸長する。表現期間Z2_Rは、第2音信号X2のうちリリース部の音表現を表す期間であり、第1音信号X1に対する当該音表現の付加に利用される。図8に例示される通り、表現期間Z2_Rは、合成開始時刻Tm_Rから定常期間Q2の直後の有声期間Vrの終点時刻τ2_Rまでの期間である。
 歌手等の熟練した歌唱者が歌唱した参照音声には相応の時間長にわたる充分な音表現が付加されるのに対し、歌唱に不慣れな利用者が歌唱した歌唱音声では音表現が時間的に不足する傾向がある。以上の傾向のもとでは、図8に例示される通り、参照音声の表現期間Z2_Rが歌唱音声の処理期間Z1_Rと比較して長い期間となる。したがって、本実施形態のリリース処理部32は、第1音信号X1の処理期間Z1_Rを、第2音信号X2の表現期間Z2_Rの時間長まで伸長する。
 処理期間Z1_Rの伸長は、第1音信号X1(歌唱音声)の任意の時刻t1と変形後の第3音信号Y(変形音)の任意の時刻tとを相互に対応付ける処理(マッピング)で実現される。図8には、歌唱音声の時刻t1(縦軸)と変形音の時刻t(横軸)との対応関係が図示されている。
 図8の対応関係における時刻t1は、変形音の時刻tに対応する第1音信号X1の時刻である。図8に鎖線で併記された基準線Lは、第1音信号X1が伸縮されない状態(t1=t)を意味する。また、変形音の時刻tに対する歌唱音声の時刻t1の勾配が基準線Lと比較して小さい区間は、第1音信号X1が伸長される区間を意味する。時刻tに対する時刻t1の勾配が基準線Lと比較して大きい区間は、歌唱音声が収縮される区間を意味する。
 時刻t1と時刻tとの対応関係は、以下に例示する数式(1a)から数式(1c)の非線形関数で表現される。
Figure JPOXMLDOC01-appb-M000001
 時刻T_Rは、図8に例示される通り、合成開始時刻Tm_Rと処理期間Z1_Rの終点時刻τ1_Rとの間に位置する所定の時刻である。例えば、定常期間Q1の始点時刻T1_Sと終点時刻T1_Eとの中点((T1_S+T1_E)/2)と合成開始時刻Tm_Rとのうちの後方の時刻が時刻T_Rとして設定される。数式(1a)から理解される通り、処理期間Z1_Rのうち時刻T_Rの前方の期間は伸縮されない。すなわち、時刻T_Rから処理期間Z1_Rの伸長が開始される。
 数式(1b)から理解される通り、処理期間Z1_Rのうち時刻T_Rの後方の期間は、当該時刻T_Rに近い位置において伸長の度合が大きく、終点時刻τ1_Rに近付くほど伸長の度合が小さくなるように時間軸上で伸長される。数式(1b)の関数η(t)は、時間軸上の前方ほど処理期間Z1_Rを伸長し、時間軸上の後方ほど処理期間Z1_Rの伸長の度合を低減するための非線形関数である。具体的には、例えば時刻tの2次関数(η(t)=t)が関数η(t)として好適に利用される。以上に説明した通り、本実施形態では、処理期間Z1_Rの終点時刻τ1_Rに近い位置ほど伸長の度合が小さくなるように処理期間Z1_Rが時間軸上で伸長される。したがって、歌唱音声の終点時刻τ1_Rの近傍の音響特性を変形音においても充分に維持することが可能である。なお、時刻T_Rに近い位置では、終点時刻τ1_Rの近傍と比較して、伸長に起因した聴感上の違和感が知覚され難い傾向がある。したがって、前述の例示のように時刻T_Rに近い位置において伸長の度合を増大させても、変形音の聴感上の自然性は殆ど低下しない。なお、第1音信号X1のうち表現期間Z2_Rの終点時刻τ2_Rから次の有声期間Vrの始点時刻τ1_Aまでの期間は数式(1c)から理解される通り時間軸上で短縮される。なお、終点時刻τ2_Rから始点時刻τ1_Aまでの期間には音声が存在しないから、第1音信号X1を部分的な削除により削除してもよい。
 以上の例示の通り、歌唱音声の処理期間Z1_Rは参照音声の表現期間Z2_Rの時間長に伸長される。他方、参照音声の表現期間Z2_Rは時間軸上で伸縮されない。すなわち、変形音の時刻tに対応する配置後の第2音信号X2の時刻t2は当該時刻tに一致する(t2=t)。以上の例示の通り、本実施形態においては、歌唱音声の処理期間Z1_Rが表現期間Z2_Rの時間長に応じて伸長されるから、第2音信号X2の伸長は不要である。したがって、第2音信号X2が表すリリース部の音表現を正確に第1音信号X1に付加することが可能である。
 以上に例示した手順で処理期間Z1_Rを伸長すると、リリース処理部32は、第1音信号X1の伸長後の処理期間Z1_Rを第2音信号X2の表現期間Z2_Rに応じて変形する(S25-S26)。具体的には、歌唱音声の伸長後の処理期間Z1_Rと参照音声の表現期間Z2_Rとの間で、基本周波数の合成(S25)とスペクトル包絡概形の合成(S26)とが実行される。
<基本周波数の合成(S25)>
 リリース処理部32は、以下の数式(2)の演算により第3音信号Yの各時刻tにおける基本周波数F(t)を算定する。
Figure JPOXMLDOC01-appb-M000002
 数式(2)における平滑基本周波数F1(t1)は、第1音信号X1の基本周波数f1(t1)の時系列を時間軸上で平滑化した周波数である。同様に、数式(2)の平滑基本周波数F2(t2)は、第2音信号X2の基本周波数f2(t2)の時系列を時間軸上で平滑化した周波数である。数式(2)の係数λ1および係数λ2は1以下の非負値に設定される(0≦λ1≦1,0≦λ2≦1)。
 数式(2)から理解される通り、数式(2)の第2項は、歌唱音声の基本周波数f1(t1)と平滑基本周波数F1(t1)との差分を、係数λ1に応じた度合で、第1音信号X1の基本周波数f1(t1)から低減する処理である。また、数式(2)の第3項は、参照音声の基本周波数f2(t2)と平滑基本周波数F2(t2)との差分を、係数λ2に応じた度合で、第1音信号X1の基本周波数f1(t1)に付加する処理である。以上の説明から理解される通り、リリース処理部32は、歌唱音声の基本周波数f1(t1)と平滑基本周波数F1(t1)との差分を、参照音声の基本周波数f2(t2)と平滑基本周波数F2(t2)との差分に置換する要素として機能する。すなわち、第1音信号X1における伸長後の処理期間Z1_R内の基本周波数f1(t1)の時間変化が、第2音信号X2における表現期間Z2_R内の基本周波数f2(t2)の時間変化に近付く。
<スペクトル包絡概形の合成(S26)>
 リリース処理部32は、歌唱音声の伸長後の処理期間Z1_Rと参照音声の表現期間Z2_Rとの間でスペクトル包絡概形を合成する。第1音信号X1のスペクトル包絡概形G1は、図9に例示される通り、第1音信号X1の周波数スペクトルg1の概形であるスペクトル包絡g2を周波数領域で更に平滑化した強度分布を意味する。具体的には、音韻性(音韻に依存した差異)および個人性(発声者に依存した差異)が知覚できなくなる程度にスペクトル包絡g2を平滑化した強度分布がスペクトル包絡概形G1である。例えばスペクトル包絡g2を表すメルケプストラムの複数の係数のうち低次側に位置する所定個の係数によりスペクトル包絡概形G1が表現される。以上の説明では第1音信号X1のスペクトル包絡概形G1に着目したが、第2音信号X2のスペクトル包絡概形G2も同様である。
 リリース処理部32は、以下の数式(3)の演算により第3音信号Yの各時刻tにおけるスペクトル包絡概形(以下「合成スペクトル包絡概形」という)G(t)を算定する。
Figure JPOXMLDOC01-appb-M000003
 数式(3)の記号G1_refは、基準スペクトル包絡概形である。第1音信号X1の複数のスペクトル包絡概形G1のうち、特定の時点における1個のスペクトル包絡概形G1が、基準スペクトル包絡概形G1_ref(第1基準スペクトル包絡概形の例示)として利用される。具体的には、基準スペクトル包絡概形G1_refは、第1音信号X1のうち合成開始時刻Tm_R(第1時点の例示)におけるスペクトル包絡概形G1(Tm_R)である。すなわち、基準スペクトル包絡概形G1_refが抽出される時点は、定常期間Q1の始点時刻T1_Sおよび定常期間Q2の始点時刻T2_Sのうち後方の時刻に位置する。なお、基準スペクトル包絡概形G1_refが抽出される時点は合成開始時刻Tm_Rに限定されない。例えば、定常期間Q1内の任意の時点のスペクトル包絡概形G1が基準スペクトル包絡概形G1_refとして利用される。
 同様に、数式(3)の基準スペクトル包絡概形G2_refは、第2音信号X2の複数のスペクトル包絡概形G2のうち、特定の時点における1個のスペクトル包絡概形G2である。具体的には、基準スペクトル包絡概形G2_refは、第2音信号X2のうち合成開始時刻Tm_R(第2時点の例示)におけるスペクトル包絡概形G2(Tm_R)である。すなわち、基準スペクトル包絡概形G2_refが抽出される時点は、定常期間Q1の始点時刻T1_Sおよび定常期間Q2の始点時刻T2_Sのうち後方の時刻に位置する。なお、基準スペクトル包絡概形G2_refが抽出される時点は合成開始時刻Tm_Rに限定されない。例えば、定常期間Q1内の任意の時点のスペクトル包絡概形G2が基準スペクトル包絡概形G2_refとして利用される。
 数式(3)の係数μ1および係数μ2は、1以下の非負値に設定される(0≦μ1≦1,0≦μ2≦1)。数式(3)の第2項は、歌唱音声のスペクトル包絡概形G1(t1)と基準スペクトル包絡概形G1_refとの差分を、係数μ1(第1係数の例示)に応じた度合で、第1音信号X1のスペクトル包絡概形G1(t1)から低減する処理である。また、数式(3)の第3項は、参照音声のスペクトル包絡概形G2(t2)と基準スペクトル包絡概形G2_refとの差分を、係数μ2(第2係数の例示)に応じた度合で、第1音信号X1のスペクトル包絡概形G1(t1)に付加する処理である。以上の説明から理解される通り、リリース処理部32は、歌唱音声のスペクトル包絡概形G1(t1)と基準スペクトル包絡概形G1_refとの差分(第1差分の例示)と、参照音声のスペクトル包絡概形G2(t2)と基準スペクトル包絡概形G2_refとの差分(第2差分の例示)とに応じてスペクトル包絡概形G1(t1)を変形することで、第3音信号Yの合成スペクトル包絡概形G(t)を算定する。具体的には、リリース処理部32は、歌唱音声のスペクトル包絡概形G1(t1)と基準スペクトル包絡概形G1_refとの差分(第1差分の例示)を、参照音声のスペクトル包絡概形G2(t2)と基準スペクトル包絡概形G2_refとの差分(第2差分の例示)に置換する要素として機能する。以上に説明したステップS26は、「第1処理」の一例である。
<アタック処理S1>
 図10は、アタック処理部31が実行するアタック処理S1の具体的な内容を例示するフローチャートである。第1音信号X1の定常期間Q1毎に図10のアタック処理S1が実行される。なお、アタック処理S1の具体的な手順はリリース処理S2と同様である。
 アタック処理S1を開始すると、アタック処理部31は、第1音信号X1のうち処理対象の定常期間Q1に第2音信号X2のアタック部の音表現を付加するか否かを判定する(S11)。具体的には、アタック処理部31は、以下に例示する条件Ca1から条件Ca5の何れかに該当する定常期間Q1についてはアタック部の音表現を付加しないと判定する。ただし、第1音信号X1の定常期間Q1に音表現を付加するか否かを判定する条件は以下の例示に限定されない。
[条件Ca1]定常期間Q1の時間長が所定値を下回る。
[条件Ca2]定常期間Q1内で平滑化した基本周波数f1の変動幅が所定値を上回る。
[条件Ca3]定常期間Q1のうち始点を含む所定長の期間内で平滑化した基本周波数f1の変動幅が所定値を上回る。
[条件Ca4]定常期間Q1の直前の有声期間Vaの時間長が所定値を上回る。
[条件Ca5]定常期間Q1の直前の有声期間Vaにおける基本周波数f1の変動幅が所定値を上回る。
 条件Ca1は、前述の条件Cr1と同様に、時間長が充分に短い定常期間Q1には自然な声質で音表現を付加することが困難であるという事情を考慮した条件である。また、定常期間Q1内で基本周波数f1が大きく変動する場合には、歌唱音声に充分な音表現が付加されている可能性が高い。そこで、平滑後の基本周波数f1の変動幅が所定値を上回る定常期間Q1は、音表現の付加対象から除外される(条件Ca2)。条件Ca3は、条件Ca2と同様の内容であるが、定常期間Q1のうち特にアタック部に近い期間に着目した条件である。また、定常期間Q1の直前の有声期間Vaの時間長が充分に長い場合、または有声期間Va内で基本周波数f1が大きく変動する場合には、歌唱音声に既に充分な音表現が付加されている可能性が高い。そこで、直前の有声期間Vaの時間長が所定値を上回る定常期間Q1(条件Ca4)と、有声期間Va内での基本周波数f1の変動幅が所定値を上回る定常期間Q1(条件Ca5)とは、音表現の付加対象から除外される。定常期間Q1に音表現を付加しないと判定した場合(S11:YES)、アタック処理部31は、以下に詳述する処理(S12-S16)を実行することなくアタック処理S1を終了する。
 第1音信号X1の定常期間Q1に第2音信号X2のアタック部の音表現を付加すると判定した場合(S11:YES)、アタック処理部31は、第2音信号X2の複数の定常期間Q2のうち、定常期間Q1に付加されるべき音表現に対応する定常期間Q2を選択する(S12)。アタック処理部31が定常期間Q2を選択する方法は、リリース処理部32が定常期間Q2を選択する方法と同様である。
 アタック処理部31は、以上の手順で選択した定常期間Q2に対応する音表現を第1音信号X1に付加するための処理(S13-S16)を実行する。図11は、アタック処理部31が第1音信号X1にアタック部の音表現を付加する処理の説明図である。
 アタック処理部31は、処理対象の定常期間Q1とステップS12で選択した定常期間Q2との間で時間軸上の位置関係を調整する(S13)。具体的には、アタック処理部31は、図11に例示される通り、定常期間Q1の始点時刻T1_Sに定常期間Q2の始点時刻T2_Sが時間軸上で一致するように、第1音信号X1に対する第2音信号X2(定常期間Q2)の時間軸上の位置を決定する。
<処理期間Z1_Aの伸長>
 アタック処理部31は、第1音信号X1のうち第2音信号X2の音表現が付加される処理期間Z1_Aを時間軸上で伸長する(S14)。処理期間Z1_Aは、定常期間Q1の直前の有声期間Vaの始点時刻τ1_Aから音表現の付加が終了される時刻(以下「合成終了時刻」という)Tm_Aまでの期間である。合成終了時刻Tm_Aは、例えば定常期間Q1の始点時刻T1_S(定常期間Q2の始点時刻T2_S)である。すなわち、アタック処理S1においては、定常期間Q1の前方の有声期間Vaが処理期間Z1_Aとして伸長される。前述の通り、定常期間Q1は楽曲の音符に相当する期間である。有声期間Vaを伸長し、定常期間Q1は伸長しない構成によれば、定常期間Q1の始点時刻T1_Sの変化が抑制される。すなわち、歌唱音声における音符の先頭が前後に移動する可能性を低減できる。
 図11に例示される通り、本実施形態のアタック処理部31は、第1音信号X1の処理期間Z1_Aを、第2音信号X2のうち表現期間Z2_Aの時間長に応じて伸長する。表現期間Z2_Aは、第2音信号X2のうちアタック部の音表現を表す期間であり、第1音信号X1に対する当該音表現の付加に利用される。図11に例示される通り、表現期間Z2_Aは、定常期間Q2の直前の有声期間Vaである。
 具体的には、アタック処理部31は、第1音信号X1の処理期間Z1_Aを、第2音信号X2の表現期間Z2_Aの時間長まで伸長する。図11には、歌唱音声の時刻t1(縦軸)と変形音の時刻t(横軸)との対応関係が図示されている。
 図11に例示される通り、本実施形態では、処理期間Z1_Aの始点時刻τ1_Aに近い位置ほど伸長の度合が小さくなるように処理期間Z1_Aが時間軸上で伸長される。したがって、歌唱音声の始点時刻τ1_Aの近傍の音響特性を変形音においても充分に維持することが可能である。他方、参照音声の表現期間Z2_Aは時間軸上で伸縮されない。したがって、第2音信号X2が表すアタック部の音表現を正確に第1音信号X1に付加することが可能である。
 以上に例示した手順で処理期間Z1_Aを伸長すると、アタック処理部31は、第1音信号X1の伸長後の処理期間Z1_Aを第2音信号X2の表現期間Z2_Aに応じて変形する(S15-S16)。具体的には、歌唱音声の伸長後の処理期間Z1_Aと参照音声の表現期間Z2_Aとの間で、基本周波数の合成(S25)とスペクトル包絡概形の合成(S26)とが実行される。
 具体的には、アタック処理部31は、前述の数式(2)と同様の演算により、第1音信号X1の基本周波数f1(t1)と第2音信号X2の基本周波数f2(t2)とから第3音信号Yの基本周波数F(t)を算定する(S15)。すなわち、アタック処理部31は、基本周波数f1(t1)と平滑後の基本周波数F1(t1)との差分を係数λ1に応じた度合で第1音信号X1の基本周波数f1(t1)から低減し、基本周波数f2(t2)と平滑後の基本周波数F2(t2)との差分を係数λ2に応じた度合で第1音信号X1の基本周波数f1(t1)に付加することで、第3音信号Yの基本周波数F(t)を算定する。したがって、第1音信号X1における伸長後の処理期間Z1_A内の基本周波数f1(t1)の時間変化が、第2音信号X2における表現期間Z2_A内の基本周波数f2(t2)の時間変化に近付く。
 また、アタック処理部31は、歌唱音声の伸長後の処理期間Z1_Aと参照音声の表現期間Z2_Aとの間でスペクトル包絡概形を合成する(S16)。具体的には、アタック処理部31は、前述の数式(3)と同様の演算により、第1音信号X1のスペクトル包絡概形G1(t1)と第2音信号X2のスペクトル包絡概形G2(t2)とから第3音信号Yの合成スペクトル包絡概形G(t)を算定する。以上に説明したステップS16は、「第1処理」の一例である。
 アタック処理S1において数式(3)に適用される基準スペクトル包絡概形G1_refは、第1音信号X1のうち合成終了時刻Tm_A(第1時点の例示)におけるスペクトル包絡概形G1(Tm_A)である。すなわち、基準スペクトル包絡概形G1_refが抽出される時点は、定常期間Q1の始点時刻T1_Sに位置する。
 同様に、アタック処理S1において数式(3)に適用される基準スペクトル包絡概形G2_refは、第2音信号X2のうち合成終了時刻Tm_A(第2時点の例示)におけるスペクトル包絡概形G2(Tm_A)である。すなわち、基準スペクトル包絡概形G2_refが抽出される時点は、定常期間Q1の始点時刻T1_Sに位置する。
 以上の説明から理解される通り、本実施形態のアタック処理部31およびリリース処理部32の各々は、定常期間Q1の端点(始点時刻T1_Sまたは終点時刻T1_E)を基準とした時間軸上の位置において第2音信号X2(解析データD2)を利用して第1音信号X1(解析データD1)を変形する。以上に例示したアタック処理S1およびリリース処理S2により、変形音を表す第3音信号Yの基本周波数F(t)の時系列と合成スペクトル包絡概形G(t)の時系列とが生成される。図2の音声合成部33は、第3音信号Yの基本周波数F(t)の時系列と合成スペクトル包絡概形G(t)の時系列とから第3音信号Yを生成する。音声合成部33が第3音信号Yを生成する処理は、「第2処理」の一例である。
 図2の音声合成部33は、アタック処理S1およびリリース処理S2の結果(すなわち変形後の解析データ)を利用して変形音の第3音信号Yを合成する。具体的には、音声合成部33は、第1音信号X1から算定される各周波数スペクトルg1を合成スペクトル包絡概形G(t)に沿うように調整し、かつ、第1音信号X1の基本周波数f1を基本周波数F(t)に調整する。周波数スペクトルg1および基本周波数f1の調整は例えば周波数領域で実行される。音声合成部33は、以上に例示した調整後の周波数スペクトルを時間領域に変換することで第3音信号Yを合成する。
 以上に説明した通り、本実施形態では、第1音信号X1のスペクトル包絡概形G1(t1)と基準スペクトル包絡概形G1_refとの差分(G1(t1)-G1_ref)と、第2音信号X2のスペクトル包絡概形G2(t2)と基準スペクトル包絡概形G2_refとの差分(G2(t2)-G2_ref)とが、第1音信号X1のスペクトル包絡概形G1(t1)に合成される。したがって、第1音信号X1のうち、第2音信号X2を利用して変形される期間(処理期間Z1_AまたはZ1_R)と当該期間の前後の期間との境界において音響特性が連続する聴感的に自然な変形音を生成できる。
 また、本実施形態では、第1音信号X1のうち基本周波数f1およびスペクトル形状が時間的に安定している定常期間Q1が特定され、定常期間Q1の端点(始点時刻T1_Sまたは終点時刻T1_E)を基準として配置された第2音信号X2を利用して第1音信号X1が変形される。したがって、第1音信号X1の適切な期間が第2音信号X2に応じて変形され、聴感的に自然な変形音を生成できる。
 本実施形態では、第1音信号X1の処理期間(Z1_AまたはZ1_R)が第2音信号X2の表現期間(Z2_AまたはZ2_R)の時間長に応じて伸長されるから、第2音信号X2の伸長は不要である。したがって、参照音声の音響特性(例えば音表現)が正確に第1音信号X1に付加され、聴感的に自然な変形音を生成できる。
<変形例>
 以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の形態では、第1指標δ1と第2指標δ2とから算定される変動指標Δを利用して第1音信号X1の定常期間Q1を特定したが、第1指標δ1と第2指標δ2とに応じて定常期間Q1を特定する方法は以上の例示に限定されない。例えば、信号解析部21は、第1指標δ1に応じた第1暫定期間と第2指標δ2に応じた第2暫定期間とを特定する。第1暫定期間は、例えば第1指標δ1が閾値を下回る有声音の期間である。すなわち、基本周波数f1が時間的に安定している期間が第1暫定期間として特定される。第2暫定期間は、例えば第2指標δ2が閾値を下回る有声音の期間である。すなわち、スペクトル形状が時間的に安定している期間が第2暫定期間として特定される。信号解析部21は、第1暫定期間と第2暫定期間とが相互に重複する期間を定常期間Q1として特定する。すなわち、第1音信号X1のうち基本周波数f1とスペクトル形状との双方が時間的に安定している期間が定常期間Q1として特定される。以上の説明から理解される通り、定常期間Q1の特定において変動指標Δの算定を省略してもよい。なお、以上の説明では定常期間Q1の特定に着目したが、第2音信号X2における定常期間Q2の特定についても同様である。
(2)前述の形態では、第1音信号X1のうち基本周波数f1およびスペクトル形状の双方が時間的に安定する期間を定常期間Q1として特定したが、第1音信号X1のうち基本周波数f1およびスペクトル形状の一方が時間的に安定する期間を定常期間Q1として特定してもよい。同様に、第2音信号X2のうち基本周波数f2およびスペクトル形状の一方が時間的に安定する期間を定常期間Q2として特定してもよい。
(3)前述の形態では、第1音信号X1のうち合成開始時刻Tm_Rまたは合成終了時刻Tm_Aにおけるスペクトル包絡概形G1を基準スペクトル包絡概形G1_refとして利用したが、基準スペクトル包絡概形G1_refが抽出される時点(第1時点)は以上の例示に限定されない。例えば、定常期間Q1の端点(始点時刻T1_Sまたは終点時刻T1_E)におけるスペクトル包絡概形G1を基準スペクトル包絡概形G1_refとしてもよい。ただし、基準スペクトル包絡概形G1_refが抽出される第1時点は、第1音信号X1のうちスペクトル形状が安定している定常期間Q1内の時点であることが望ましい。
 基準スペクトル包絡概形G2_refについても同様である。すなわち、前述の形態では、第2音信号X2のうち合成開始時刻Tm_Rまたは合成終了時刻Tm_Aにおけるスペクトル包絡概形G2を基準スペクトル包絡概形G2_refとして利用したが、基準スペクトル包絡概形G2_refが抽出される時点(第2時点)は以上の例示に限定されない。例えば、定常期間Q2の端点(始点時刻T2_Sまたは終点時刻T2_E)におけるスペクトル包絡概形G2を基準スペクトル包絡概形G2_refとしてもよい。ただし、基準スペクトル包絡概形G2_refが抽出される第2時点は、第2音信号X2のうちスペクトル形状が安定している定常期間Q2内の時点であることが望ましい。
 また、第1音信号X1のうち基準スペクトル包絡概形G1_refが抽出される第1時点と、第2音信号X2のうち基準スペクトル包絡概形G2_refが抽出される第2時点とは、時間軸上の相異なる時点でもよい。
(4)前述の形態では、音処理装置100の利用者が歌唱した歌唱音声を表す第1音信号X1を処理したが、第1音信号X1が表す音声は、利用者による歌唱音声に限定されない。例えば、素片接続型または統計モデル型の公知の音声合成技術により合成された第1音信号X1を処理してもよい。また、光ディスク等の記録媒体から読出された第1音信号X1を処理してもよい。第2音信号X2についても同様に、任意の方法で取得される。
 また、第1音信号X1および第2音信号X2が表す音響は、狭義の音声(すなわち人間が発声する言語音)に限定されない。例えば、楽器の演奏音を表す第1音信号X1に各種の音表現(例えば演奏表現)を付加する場合にも本発明は適用される。例えば、演奏表現が付加されていない単調な演奏音を表す第1音信号X1に対し、第2音信号X2を利用してビブラート等の演奏表現が付加される。
(5)前述の形態に係る音処理装置100の機能は、前述の通り、メモリに記憶された指示(プログラム)を1以上のプロセッサが実行することで実現される。以上のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。
<付記>
 以上に例示した形態から、例えば以下の構成が把握される。
 本発明の好適な態様(第1態様)に係る音処理方法は、第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とに応じて前記第1スペクトル包絡概形を変形することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成し、前記合成スペクトル包絡概形に対応する前記第3音信号を生成する。以上の態様では、第1音信号の第1スペクトル包絡概形と第1基準スペクトル包絡概形との間の第1差分と、第2音信号のスペクトル包絡概形と第2基準スペクトル包絡概形との間の第2差分とを、第1スペクトル包絡概形に合成することで、第1音を第2音に応じて変形した変形音における合成スペクトル包絡概形が生成される。したがって、第1音信号のうち第2音信号が合成される期間と当該期間の前後の期間との境界において音響特性が連続する聴感的に自然な変形音を生成できる。
 なお、スペクトル包絡概形は、スペクトル包絡の概形である。具体的には、音韻性(音韻間の差異)および個人性(発話者間の差異)が知覚できなくなる程度にスペクトル包絡を平滑化した周波数軸上の強度分布がスペクトル包絡概形に相当する。周波数スペクトルの概形を表すメルケプストラムの複数の係数のうち低次側に位置する所定個の係数によりスペクトル包絡概形が表現される。
 第1態様の好適例(第2態様)において、前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で終点が一致するように前記第1音信号に対する前記第2音信号の時間的な位置を調整し、前記第1時点は、前記第1定常期間内の時点であり、前記第2時点は、前記第2定常期間内の時点であり、前記合成スペクトル包絡概形は、前記第1音信号と前記調整された前記第2音信号との間で生成される。第2態様の好適例(第3態様)において、前記第1時点および前記第2時点は、前記第1定常期間の始点および前記第2定常期間の始点のうち後方の時点である。以上の態様では、第1定常期間と第2定常期間との間で終点を一致させたときに、第1定常期間の始点および第2定常期間の始点のうち後方の時点が第1時点および第2時点として選定される。したがって、第1定常期間および第2定常期間の始点において音響特性の連続性を維持しながら、第2音におけるリリース部の音響特性を第1音に付加した変形音を生成できる。
 第1態様の好適例(第4態様)において、前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で始点が一致するように前記第1音信号に対する前記第2音信号の時間的な位置を調整し、前記第1時点は、前記第1定常期間内の時点であり、前記第2時点は、前記第2定常期間内の時点であり、前記合成スペクトル包絡概形は、前記第1音信号と前記調整された前記第2音信号との間で生成される。第4態様の好適例(第5態様)において、前記第1時点および前記第2時点は、前記第1定常期間の始点である。以上の態様では、第1定常期間と第2定常期間との間で始点を一致させたときに、第1定常期間の始点(第2定常期間の始点)が第1時点および第2時点として選定される。したがって、第1定常期間の始点の移動を抑制しながら、第2音の発音点付近における音響特性を第1音に付加した変形音を生成できる。
 第2態様から第5態様の何れかの好適例(第6態様)において、前記第1定常期間は、前記第1音信号の基本周波数の変化の度合を示す第1指標と、前記第1音信号の前記スペクトル形状の変化の度合を示す第2指標とに応じて特定される。以上の態様によれば、基本周波数とスペクトル形状との双方が時間的に安定している期間を第1定常期間として特定することが可能である。なお、例えば、第1指標と第2指標とに応じた変動指標を算定し、当該変動指標に応じて第1定常期間を特定する構成が想定される。また、第1指標に応じて第1暫定期間を特定し、第2指標に応じて第2暫定期間を特定し、第1暫定期間と第2暫定期間とから第1定常期間を特定することも可能である。
 第1態様から第6態様の何れかの好適例(第7態様)において、前記合成スペクトル包絡概形の生成では、前記第1スペクトル包絡概形に対して、前記第1差分に第1係数を乗算した結果を減算し、前記第2差分に第2係数を乗算した結果を加算する。以上の態様では、第1差分に第1係数を乗算した結果を第1スペクトル包絡概形から減算し、第2差分に第2係数を乗算した結果を第1スペクトル包絡概形に加算することで、合成スペクトル包絡概形の時系列が生成される。したがって、第1音の音表現を低減するとともに第2音の音表現を有効に付加した変形音を生成できる。
 第1態様から第7態様の何れかの好適例(第8態様)において、前記合成スペクトル包絡概形の生成においては、前記第1音信号の処理期間を、前記第2音信号のうち前記第1音信号の変形に適用されるべき表現期間の時間長に応じて伸長し、前記伸長された処理期間における前記第1スペクトル包絡概形を、前記伸長された処理期間における前記第1差分と、前記表現期間の前記第2差分とに応じて変形することで、前記合成スペクトル包絡概形を生成する。
 本発明の好適な態様(第9態様)に係る音処理装置は、1以上のプロセッサとメモリとを具備する音声合成装置であって、前記メモリに記憶された指示を前記1以上のプロセッサが実行することにより、第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とに応じて前記第1スペクトル包絡概形を変形することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成し、前記合成スペクトル包絡概形に対応する前記第3音信号を生成。
 第9態様の好適例(第10態様)において、前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で終点が一致するように前記第1音信号に対する前記第2音信号の時間的な位置を調整し、前記第1時点は、前記第1定常期間内の時点であり、前記第2時点は、前記第2定常期間内の時点であり、前記合成スペクトル包絡概形は、前記第1音信号と前記調整された前記第2音信号との間で生成される。第10態様の好適例(第11態様)において、前記第1時点および前記第2時点は、前記第1定常期間の始点および前記第2定常期間の始点のうち後方の時点である。
 第9態様の好適例(第12態様)において、前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で始点が一致するように前記第1音信号に対する前記第2音信号の時間的な位置を調整し、前記第1時点は、前記第1定常期間内の時点であり、前記第2時点は、前記第2定常期間内の時点であり、前記合成スペクトル包絡概形は、前記第1音信号と前記調整された前記第2音信号との間で生成される。第12態様の好適例(第13態様)において、前記第1時点および前記第2時点は、前記第1定常期間の始点である。
 第9態様から第13態様の何れかの好適例(第14態様)において、前記1以上のプロセッサは、前記第1スペクトル包絡概形に対して、前記第1差分に第1係数を乗算した結果を減算し、前記第2差分に第2係数を乗算した結果を加算する。
 本発明の好適な態様(第15態様)に係る記録媒体は、第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分とに応じて前記第1スペクトル包絡概形を変形することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する第1処理と、前記合成スペクトル包絡概形に対応する前記第3音信号を生成する第2処理とをコンピュータに実行させるプログラムを記録する。
100…音処理装置、11…制御装置、12…記憶装置、13…操作装置、14…放音装置、21…信号解析部、22…合成処理部、31…アタック処理部、32…リリース処理部、33…音声合成部。

Claims (15)

  1.  第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、
     前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分と
     に応じて前記第1スペクトル包絡概形を変形することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成し、
     前記合成スペクトル包絡概形に対応する前記第3音信号を生成する、
     コンピュータにより実現される音処理方法。
  2.  前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で終点が一致するように、前記第1音信号に対する前記第2音信号の時間的な位置を調整し、
     前記第1時点は、前記第1定常期間内の時点であり、前記第2時点は、前記第2定常期間内の時点であり、
     前記合成スペクトル包絡概形は、前記第1音信号と前記調整された前記第2音信号との間で生成される
     請求項1の音処理方法。
  3.  前記第1時点および前記第2時点は、前記第1定常期間の始点および前記第2定常期間の始点のうち後方の時点である
     請求項2の音処理方法。
  4.  前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で始点が一致するように、前記第1音信号に対する前記第2音信号の時間的な位置を調整し、
     前記第1時点は、前記第1定常期間内の時点であり、前記第2時点は、前記第2定常期間内の時点であり、
     前記合成スペクトル包絡概形は、前記第1音信号と前記調整された前記第2音信号との間で生成される
     請求項1の音処理方法。
  5.  前記第1時点および前記第2時点は、前記第1定常期間の始点である
     請求項4の音処理方法。
  6.  前記第1定常期間は、前記第1音信号の基本周波数の変化の度合を示す第1指標と、前記第1音信号の前記スペクトル形状の変化の度合を示す第2指標とに応じて特定される
     請求項2から請求項5の何れかの音声処理方法。
  7.  前記合成スペクトル包絡概形の生成においては、
     前記第1スペクトル包絡概形に対して、
     前記第1差分に第1係数を乗算した結果を減算し、
     前記第2差分に第2係数を乗算した結果を加算する
     請求項1から請求項6の何れかの音処理方法。
  8.  前記合成スペクトル包絡概形の生成においては、
     前記第1音信号の処理期間を、前記第2音信号のうち前記第1音信号の変形に適用されるべき表現期間の時間長に応じて伸長し、
     前記伸長された処理期間における前記第1スペクトル包絡概形を、前記伸長された処理期間における前記第1差分と、前記表現期間の前記第2差分とに応じて変形することで、前記合成スペクトル包絡概形を生成する
     請求項1から請求項7の何れかの音処理方法。
  9.  1以上のプロセッサとメモリとを具備する音処理装置であって、
     前記メモリに記憶された指示を前記1以上のプロセッサが実行することにより、
     第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、
     前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分と
     に応じて前記第1スペクトル包絡概形を変形することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成し、
     前記合成スペクトル包絡概形に対応する前記第3音信号を生成する、
     音処理装置。
  10.  前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で終点が一致するように、前記第1音信号に対する前記第2音信号の時間的な位置を調整し、
     前記第1時点は、前記第1定常期間内の時点であり、前記第2時点は、前記第2定常期間内の時点であり、
     前記合成スペクトル包絡概形は、前記第1音信号と前記調整された前記第2音信号との間で生成される
     請求項9の音処理装置。
  11.  前記第1時点および前記第2時点は、前記第1定常期間の始点および前記第2定常期間の始点のうち後方の時点である
     請求項9の音処理装置。
  12.  前記第1音信号のうちスペクトル形状が時間的に安定する第1定常期間と、前記第2音信号のうちスペクトル形状が時間的に安定する第2定常期間との間で始点が一致するように前記第1音信号に対する前記第2音信号の時間的な位置を調整し、
     前記第1時点は、前記第1定常期間内の時点であり、前記第2時点は、前記第2定常期間内の時点であり、
     前記合成スペクトル包絡概形は、前記第1音信号と前記調整された前記第2音信号との間で生成される
     請求項9の音処理装置。
  13.  前記第1時点および前記第2時点は、前記第1定常期間の始点である
     請求項12の音処理装置。
  14.  前記1以上のプロセッサは、前記第1スペクトル包絡概形に対して、前記第1差分に第1係数を乗算した結果を減算し、前記第2差分に第2係数を乗算した結果を加算する
     請求項9から請求項13の何れかの音処理装置。
  15.  第1音を表す第1音信号における第1スペクトル包絡概形と、前記第1音信号のうち第1時点の第1基準スペクトル包絡概形との差分である第1差分と、
     前記第1音とは音響特性が相違する第2音を表す第2音信号における第2スペクトル包絡概形と、前記第2音信号のうち第2時点の第2基準スペクトル包絡概形との差分である第2差分と
     に応じて前記第1スペクトル包絡概形を変形することで、前記第1音を前記第2音に応じて変形した変形音を表す第3音信号における合成スペクトル包絡概形を生成する第1処理と、
     前記合成スペクトル包絡概形に対応する前記第3音信号を生成する第2処理と
     をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。
PCT/JP2019/009220 2018-03-09 2019-03-08 音処理方法、音処理装置および記録媒体 WO2019172397A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201980017203.2A CN111837183A (zh) 2018-03-09 2019-03-08 声音处理方法、声音处理装置及记录介质
EP19763716.8A EP3764357A4 (en) 2018-03-09 2019-03-08 VOICE PROCESSING METHOD, VOICE PROCESSING DEVICE AND RECORDING MEDIA
US17/014,312 US11646044B2 (en) 2018-03-09 2020-09-08 Sound processing method, sound processing apparatus, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018043116A JP7139628B2 (ja) 2018-03-09 2018-03-09 音処理方法および音処理装置
JP2018-043116 2018-03-09

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/014,312 Continuation US11646044B2 (en) 2018-03-09 2020-09-08 Sound processing method, sound processing apparatus, and recording medium

Publications (1)

Publication Number Publication Date
WO2019172397A1 true WO2019172397A1 (ja) 2019-09-12

Family

ID=67847157

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/009220 WO2019172397A1 (ja) 2018-03-09 2019-03-08 音処理方法、音処理装置および記録媒体

Country Status (5)

Country Link
US (1) US11646044B2 (ja)
EP (1) EP3764357A4 (ja)
JP (1) JP7139628B2 (ja)
CN (1) CN111837183A (ja)
WO (1) WO2019172397A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7484118B2 (ja) 2019-09-27 2024-05-16 ヤマハ株式会社 音響処理方法、音響処理装置およびプログラム
JP7439432B2 (ja) 2019-09-27 2024-02-28 ヤマハ株式会社 音響処理方法、音響処理装置およびプログラム
JP7439433B2 (ja) 2019-09-27 2024-02-28 ヤマハ株式会社 表示制御方法、表示制御装置およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244694A (ja) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 声質変換方法
JP2014002338A (ja) 2012-06-21 2014-01-09 Yamaha Corp 音声処理装置
JP2017203963A (ja) * 2016-05-13 2017-11-16 日本放送協会 音声加工装置、及びプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3035939B2 (ja) * 1989-11-30 2000-04-24 日本電気株式会社 音声分析合成装置
JP3259759B2 (ja) * 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JP3444396B2 (ja) * 1996-09-11 2003-09-08 日本電信電話株式会社 音声合成方法、その装置及びプログラム記録媒体
KR100351590B1 (ko) * 2000-12-19 2002-09-05 (주)신종 음성 변환 방법
JP2006030609A (ja) * 2004-07-16 2006-02-02 Yamaha Corp 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
JP4349316B2 (ja) * 2005-04-28 2009-10-21 ヤマハ株式会社 音声分析及び合成装置、方法、プログラム
JP5141688B2 (ja) * 2007-09-06 2013-02-13 富士通株式会社 音信号生成方法、音信号生成装置及びコンピュータプログラム
JP2009284110A (ja) * 2008-05-20 2009-12-03 Funai Electric Advanced Applied Technology Research Institute Inc 音声入力装置及びその製造方法、並びに、情報処理システム
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
JP2010250131A (ja) * 2009-04-16 2010-11-04 Victor Co Of Japan Ltd 雑音除去装置
AU2016204672B2 (en) * 2010-07-02 2016-08-18 Dolby International Ab Audio encoder and decoder with multiple coding modes
CN102456352A (zh) * 2010-10-26 2012-05-16 深圳Tcl新技术有限公司 一种背景音频处理装置以及处理方法
CA2984936C (en) * 2011-02-18 2019-10-29 Ntt Docomo, Inc. Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
US9159329B1 (en) * 2012-12-05 2015-10-13 Google Inc. Statistical post-filtering for hidden Markov modeling (HMM)-based speech synthesis
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
WO2016045706A1 (en) * 2014-09-23 2016-03-31 Binauric SE Method and apparatus for generating a directional sound signal from first and second sound signals
CN106205623B (zh) * 2016-06-17 2019-05-21 福建星网视易信息系统有限公司 一种声音转换方法及装置
JP6821970B2 (ja) * 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法
WO2018084305A1 (ja) * 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法
US10504538B2 (en) * 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244694A (ja) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 声質変換方法
JP2014002338A (ja) 2012-06-21 2014-01-09 Yamaha Corp 音声処理装置
JP2017203963A (ja) * 2016-05-13 2017-11-16 日本放送協会 音声加工装置、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AZUMA AKIHIRO , OGIHARA AKIO, SHIBATA HIROSHI: "A voice Quality Conversion Method Using Morphing of Log Power Spectral Envelopes Modified by Frequency Wrapping", PROCEEDINGS OF IEICE , vol. J84-A, no. 2, 1 February 2001 (2001-02-01), pages 238 - 242, XP055736316, ISSN: 0913-5707 *
See also references of EP3764357A4

Also Published As

Publication number Publication date
EP3764357A4 (en) 2022-04-20
US11646044B2 (en) 2023-05-09
CN111837183A (zh) 2020-10-27
EP3764357A1 (en) 2021-01-13
JP2019159012A (ja) 2019-09-19
JP7139628B2 (ja) 2022-09-21
US20200402525A1 (en) 2020-12-24

Similar Documents

Publication Publication Date Title
JP5961950B2 (ja) 音声処理装置
EP3065130B1 (en) Voice synthesis
JP6724932B2 (ja) 音声合成方法、音声合成システムおよびプログラム
US11646044B2 (en) Sound processing method, sound processing apparatus, and recording medium
US11289066B2 (en) Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
WO2019181767A1 (ja) 音処理方法、音処理装置およびプログラム
JP6747236B2 (ja) 音響解析方法および音響解析装置
JP7106897B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP5573529B2 (ja) 音声処理装置およびプログラム
WO2019172396A1 (ja) 音声処理方法、音声処理装置および記録媒体
JP6011039B2 (ja) 音声合成装置および音声合成方法
JP6191094B2 (ja) 音声素片切出装置
JP6784137B2 (ja) 音響解析方法および音響解析装置
JP6056190B2 (ja) 音声合成装置
JP2018072370A (ja) 音響解析方法および音響解析装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19763716

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2019763716

Country of ref document: EP