WO2018043708A1 - 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム - Google Patents
音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム Download PDFInfo
- Publication number
- WO2018043708A1 WO2018043708A1 PCT/JP2017/031581 JP2017031581W WO2018043708A1 WO 2018043708 A1 WO2018043708 A1 WO 2018043708A1 JP 2017031581 W JP2017031581 W JP 2017031581W WO 2018043708 A1 WO2018043708 A1 WO 2018043708A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- zff
- signal
- amplitude
- frame
- pattern
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000009499 grossing Methods 0.000 claims abstract description 15
- 230000005236 sound signal Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 2
- 230000003321 amplification Effects 0.000 abstract 1
- 238000003199 nucleic acid amplification method Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 30
- 238000012545 processing Methods 0.000 description 21
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 229940035289 tobi Drugs 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000237502 Ostreidae Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000020636 oyster Nutrition 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Definitions
- the present invention relates to a method for extracting a speech intonation structure, and more particularly to a language-independent method for extracting a F0 pattern used for speech synthesis or the like from a speech signal.
- the intonation structure in this specification particularly relates to the aspect of F 0 or pitch.
- F 0 and pitch have the same meaning herein.
- ⁇ is type 0 (no accent)
- oyster is type 1
- wall is type 2
- Patent Document 1 when learning of the F 0 model can than using raw F 0 patterns observed from the actual speech, better to use F 0 patterns is approximated by F 0 generation model is improved quality of synthesized speech Known (Patent Document 1).
- the prior art has a problem that linguistic knowledge about the target language is required to apply the F 0 generation process model. Therefore, when developing a speech synthesis system that supports multiple languages, it is necessary to use a technique for obtaining an F 0 generation process model individually for each language. As a result, there was a problem that it was difficult to develop such a system. Not only that, but there is also a problem that if a human resource with sufficient knowledge about the target language cannot be found, the speech synthesis system cannot be used for that language.
- an object of the present invention is to provide a method capable of extracting an intonation structure from an audio signal without depending on a language.
- the method according to the first aspect of the present invention extracts the intonation structure of speech without language dependence by zero frequency filtering.
- This method includes a step of obtaining a zero-frequency filtered signal (ZFF signal) by applying a zero frequency filter (ZFF) method to an audio signal, a step of calculating an amplitude sequence of the ZFF signal in units of frames, and a ZFF signal And determining a fundamental frequency sequence of the audio signal in units of frames based on the amplitude sequence of.
- ZFF signal zero-frequency filtered signal
- ZFF zero frequency filter
- the step of calculating the amplitude series of the ZFF signal in units of frames is performed by applying an amplitude pattern extraction algorithm to the amplitude signal of the ZFF signal under a predetermined condition in each glottal cycle detected from the ZFF signal. , Obtaining an amplitude sequence of the ZFF signal, a fitting curve of the amplitude sequence, and a smoothing curve of the amplitude sequence.
- the step of determining the fundamental frequency sequence of the audio signal in units of frames includes a step of selecting an effective frame based on the amplitude of the ZFF signal, and a ZFF method for the determined fundamental frequency sequence of the effective frame. Applying the used F 0 pattern extraction algorithm to calculate the F 0 pattern.
- the method further comprising the step of extracting the intonation structure of the audio signal by the fundamental frequency sequence is determined in a frame unit, applying the F 0 pattern extraction algorithm.
- the predetermined algorithm receives the number of repetitions K and the window width N for signal processing in ZFF as arguments.
- This algorithm receives an input signal s [n], linearly interpolates the zero portion of the input signal s [n] to generate an interpolated signal s 0 [n], and outputs the signal s 0 [n] Applying ZFF to obtain a signal ⁇ s 0 [n], substituting 0 for the iteration control variable i, and repeatedly executing the following processing while the iteration control variable i is smaller than the iteration count K: including.
- the process executed repeatedly includes a step of obtaining a difference ⁇ ⁇ s i [n] by applying ZFF to s 0 [n] ⁇ ⁇ s i [n] with a window width N, and s i + 1 [
- the step includes setting the value of n] to ⁇ s i [n] + ⁇ s i [n] and adding 1 to the repetitive control variable i.
- the predetermined algorithm further includes a step of outputting a signal ⁇ s K [n] at the end of the step of repeatedly executing.
- the step of determining a valid frame normalizes the amplitude value of the amplitude series of the ZFF signal, and determines that a frame in a predetermined range including a frame whose amplitude is equal to or greater than the first threshold is valid.
- the computer program according to the second aspect of the present invention functions to cause a computer to execute one of the methods described above.
- FIG. 6 is a flowchart showing a control structure of a program for realizing processing for calculating the amplitude of a ZFF signal in the embodiment of the present invention. It is a flowchart showing a control structure of a program for realizing the process of extracting the F 0 and an amplitude pattern with ZFF in the embodiment of the present invention.
- FIG. 10E is an enlarged view of a part of FIG. 9E for explaining the process of extracting the fit curve and the smoothing curve of the ZFF signal in the embodiment of the present invention.
- FIG. 9 for explaining the extraction process of the virtual pitch registers and F 0 pattern, an enlarged view of a portion of the FIG. 9 (F). It is a figure for demonstrating the change process of the data until the fitting curve and smoothing curve of ZFF are obtained from the original audio
- the method according to the embodiment of the present invention it is a diagram for explaining the change process of the data from the original audio signal to obtain an F 0 pattern and the virtual pitch register. It is a figure for demonstrating that the influence by a microprosody is removed by the method which concerns on embodiment of this invention.
- the method according to the embodiment of the present invention is a diagram for describing the ability to detect the F 0 pattern and the virtual pitch register.
- the method according to the embodiment of the present invention is a diagram for describing the ability to detect the F 0 pattern and the virtual pitch register. It is an external view of a computer system for implementing the F 0 pattern and detection method of the virtual pitch register according to the embodiment of the present invention.
- FIG. 18 is a block diagram showing an internal configuration of a computer system whose appearance is shown in FIG. 17.
- the same reference numerals are assigned to the same parts. Therefore, detailed description thereof will not be repeated.
- the audio signal is digitized and framed with a predetermined frame length and a predetermined shift amount (allowing duplication).
- extraction method F 0 pattern and virtual pitch register according to the embodiment of the present application, the step 30 of obtaining a ZFF signal from the audio signal, from ZFF signal extracted in step 30, the glottal cycle And step 32 of detecting an epoch.
- the ZFF signal will be described later with reference to FIG.
- An epoch is a position where the value of a ZFF signal obtained from a voice signal changes from negative to positive with reference to FIG. 14, and indicates one cycle in which the glottis vibrates.
- This program further calculates the amplitude of the ZFF signal obtained in step 30 using the information about the epoch obtained in step 32, normalizes the amplitude obtained in step 34, and the value is 0
- Step 36 for detecting a frame of .08 or more as a sound frame
- Step 38 for selecting a plurality of stable sound frames starting from the sound frame detected in Step 36
- Step 38. from stable voiced frame includes a step 40 of restoring the F 0 pattern, and a step 42 of estimating a virtual pitch register from the restored F 0 pattern in step 40.
- Non-Patent Document 1 in order to calculate the observed utterance F 0 pattern from the global pitch motion (virtual pitch register), amplitude - is used a tone conversion technique that takes into account the frequency response mechanism. From the technique described in Non-Patent Document 1, it can be seen that an ideal zero frequency resonator (ZFR) is expressed as follows.
- x [k] represents a signal obtained by removing a DC component or a low-frequency bias component at the time of recording from a signal s [k] of the kth frame
- y [k] is a signal of the kth frame after being filtered by ZFR.
- ZFF is a process of applying this ZFR to the input signal twice.
- ZFF 62 is connected to receive an output of ZFR 70, ZFR 70 connected to receive input signal 60, and an output of ZFR 72, and is connected to receive an output of ZFR 72.
- a trend removing unit 74 that removes a trend composed of components not depending on data contents and outputs a ZFF signal 64.
- the ZFF 62 is realized by computer hardware and a program executed on the computer hardware.
- the control structure of the program will be described with reference to FIG.
- data of the kth frame of the signal s is described as s [k].
- the program includes a step 90 of removing a direct current component or a low frequency bias component at the time of recording from the signal s [k] by the following equation.
- x [k] s [k]-s [k-1]
- the program further passes the signal x [k] obtained in step 90 through the ideal ZFR twice to obtain a new signal y [k], and the y [k] obtained in step 92 Removing the trend by removing the local average and obtaining a zero frequency filtered signal z [k] 94.
- Step 32 in FIG. 1 detects a point where the ZFF signal crosses the time axis from negative to positive in the ZFF signal thus obtained. This is the epoch of the glottal cycle.
- step 34 in FIG. 1 The control structure of the program that implements step 34 in FIG. 1 is shown in flowchart form in FIG. Referring to FIG. 4, this program performs processing 110 for calculating the maximum value of the absolute value of the ZFF signal in each glottal cycle detected in step 32 of FIG. Sampling 114 a maximum value of the absolute value of the amplitude of the ZFF signal every 5 milliseconds with a window width of 5 milliseconds.
- step 116 of FIG. 4 utilizes ZFF method for F 0 pattern and the amplitude extraction employed in this embodiment.
- ZFF will be described with reference to FIG.
- a signal to be processed s [n], the number of repetitions K, and a window width N used in internal processing (the actual window width is 2N + 1) are received as arguments.
- This program linearly interpolates the zero part of s [n] to obtain s 0 [n] 140, and applies ZFF shown in FIG. 2 to s 0 [n] obtained in step 140 ⁇ obtaining 142 s 0 [n].
- the following is an iterative process using the iterative control variable i. Note that the symbol “ ⁇ ” (hat) is shown immediately above the character immediately after it in figures and formulas, and cannot be described in the specification. is there.
- This program further includes step 144 for substituting 0 for variable i, step 146 for repeatedly executing process 148 while the value of variable i is smaller than the number of repetitions K given as an argument, and when step 146 is completed. And outputting 150 s K [n] obtained when the value of the variable i reaches the number of repetitions K.
- this program assigns 100 to variable N defining window width and 10 to iteration count K.
- step 118 for calculating the ZFF amplitude by applying the F 0 and amplitude pattern extraction algorithm using ZFF to the sampling sequence s a [k] the window width N is set to 100, and the repetition count K is set to 10 respectively.
- FIG. 5 The control structure for the F 0 and amplitude pattern extraction algorithm used in steps 118, 122, and 126 is shown in FIG. Referring to FIG. 5, as described above, this program starts processing by receiving signal s [n], the number of repetitions K, and window width N as arguments as arguments.
- This program includes a step 140 to obtain a signal s signal the zero part of the [n] to linear interpolation s 0 [n], by applying the ZFF for the signal s 0 [n] ⁇ s 0 a [n] Step 142 to obtain, Step to assign 0 to the iteration control variable i, Step 146 to repeat the following processing 148 while the value of the variable i is smaller than the number of iterations K, and the signal ⁇ s K obtained at the end of Step 146 outputting [n].
- the process 148 includes a step 160 for obtaining ⁇ ⁇ s i [n] by applying ZFF to s 0 [n]- ⁇ s i [n], and the value of ⁇ s i + 1 [n] is changed to ⁇ s i [n]. n] + ⁇ ⁇ s i [n], and step 164 of adding 1 to the repetitive control variable i.
- the process of selecting a stable sound frame performed in step 38 of FIG. 1 includes a step 180 of calculating an average ⁇ a and a variance ⁇ a of ⁇ ⁇ s a [k]; Step 182 for calculating the intersection of the amplitude fitting curve and the smoothing curve, and the peak at the amplitude fitting curve or the frame at the position of the intersection determined in step 182 is marked as the initial value of the stable sound frame. Step 184.
- the program further repeats the following processing 188 for each unstable frame (for example, frame i) adjacent to the stable frame (for example, frame j), starting from the initial value of the stable sound frame obtained in step 184.
- Step 186 to obtain a group of stable sound frames, and the stable sound frames obtained in Step 186 are deleted if the difference in F 0 between adjacent frames is 0.8 ⁇ semitone or more.
- Step 190 to obtain a group of stable sound frames, and the stable sound frames obtained in Step 186 are deleted if the difference in F 0 between adjacent frames is 0.8 ⁇ semitone or more.
- the process 188 determines whether or not the absolute value of ⁇ s a [i] ⁇ ⁇ s a [j] is equal to or less than the average ⁇ a + dispersion ⁇ a, and if the determination is negative, step 200 ends the process 188; And step 202 where the frame i is selected as a stable sound frame and the process 188 is terminated when the determination in step 200 is affirmative.
- FIG. 7 shows details of step 40 in FIG.
- the process includes a step 220 of calculating, based on the epoch detected in step 32 of FIG. 1, a F 0 of stable voiced frame group selected in the processing in step 38, F 0 And the value set in step 222 and the value set in step 222 are substituted for the window width N for the amplitude pattern extraction algorithm and 100 for the number of repetitions K, respectively, and the sequence of F 0 calculated in step 220 is used. Reconstructing a continuous F 0 pattern by applying a F 0 and amplitude pattern extraction algorithm to it.
- FIG. 8 shows a control structure of a program for realizing step 42 in FIG. 1 in the form of a flowchart.
- FIG. 9A illustrates an outline of the audio signal 260.
- FIG. 9B shows an outline of the ZFF signal 262 obtained from the audio signal 260 as a result of the processing performed in step 30 of FIG.
- FIG. 9C shows an enlarged view of the portion surrounded by the rectangle 270 in FIGS. 9A and 9B.
- an irregular waveform having a sharp peak is the audio signal 260
- a rounded regular waveform is the ZFF signal 262.
- step 34 the following processing is performed.
- the maximum absolute value of the amplitude of ZFF signal 262 is calculated in each glottal cycle (step 110 of FIG. 4).
- the amplitude sequence obtained by this processing is sampled in the following step 114 with a window width of 5 milliseconds and a shift length of 5 milliseconds.
- the amplitude sequence s a [k] obtained as a result is the amplitude sequence shown in FIG. 9D, and shows the excitation of the sound source and the vibration state of the vocal cords.
- FIG. 9E also shows a stable sound frame sequence 336 obtained from these.
- the portion indicated by the rectangle 360 is shown in an enlarged manner in FIG.
- step 36 of FIG. 1 among the ZFF amplitude series 330, the ZFF amplitude ⁇ s a [k] of 0.08 ⁇ semitone or more is marked as a sound frame. Further, if there is an isolated frame among the sound frames obtained by this processing, it is deleted.
- step 180 average ⁇ a and variance ⁇ a of ⁇ ⁇ s a [k] are calculated (step 180).
- step 182 referring to FIG. 10, the intersection of the amplitude fit curve 332 and the smoothing curve 334 is calculated.
- the frame located at the intersection point thus obtained and the frame located at the peak of the fit curve 332 are marked as initial values of the stable sound frame (step 184).
- step 186 the following process 188 is performed for each unstable frame (eg, frame i) adjacent to the stable frame (eg, frame j).
- process 188 it is determined whether or not the absolute value of ⁇ s a [i] ⁇ ⁇ s a [j] is equal to or less than the average ⁇ a + dispersion ⁇ a (step 200). If the determination is negative, the process 188 is terminated without doing anything. If the determination in step 200 is affirmative, in step 202, the frame i is selected as a stable sound frame, and the process 188 is terminated.
- step 190 a stable sound frame sequence 336 as shown by a square in FIG. 10 is obtained.
- step 40 of FIG. 1 the F 0 pattern is restored based on the stable sound frame sequence selected by the process of step 38. Specifically, referring to FIG. 7, based on the epoch detected in step 32 of FIG. 1, F 0 of the stable sound frame group selected in the process of step 38 is calculated (step 220). In step 222, the 100 to window width N for F 0 and amplitude pattern extracting algorithm, the 15 number of repetitions K, the values are. Further, in the subsequent step 224, using the value set in step 222, F 0 patterns is restored by applying the F 0 and amplitude pattern extracting algorithm to the calculated F 0 sequence in step 220 .
- FIG. 9 (E) The state of the processing shown in FIGS. 7 and 8 is shown in FIG. 9 (E), and the portion represented by the rectangle 362 is enlarged and shown in FIG.
- the actually observed F 0 pattern 340 is not continuous but clearly discontinuous.
- noise due to the influence of microprosody is mixed.
- a portion affected by the microprocedure for example, a portion 348 of the F 0 sequence
- the F 0 pattern 344 does not include the influence of the microprocedure.
- a virtual pitch register 346 obtained by further smoothing the F 0 pattern 344 is obtained.
- the F 0 pattern 344 and the virtual pitch register 346 obtained in this way are continuous and do not include the influence of microprocedures. Therefore, by using the F 0 model constructed with these, the higher the quality of the voice synthesis.
- FIG. 12 shows the process changes in the data due to obtain fitting curves 332 and smoothing the curve 334
- FIG. 13 shows a change in the signal for obtaining a F 0 pattern 344 and the virtual pitch register 346.
- a ZFF signal 262 (B) is obtained from the audio signal 260 (A).
- a ZFF amplitude series 330 (C) is obtained from the ZFF signal 262.
- the fit curve 332 (D) is obtained from the ZFF amplitude series 330, and the smoothing curve 334 (D) is obtained. From these intersection points and the peak position of the fit curve 332, an initial value of a stable sound frame is determined, and a stable sound frame sequence 336 (E) is obtained based on the initial value.
- a fit curve 332 (A) and a smoothing curve 334 (A) are obtained from the ZFF signal 262 by the processing shown in FIG. 12.
- F 0 pattern 340 (B) is obtained as an amplitude sequence from ZFF signal 262.
- the F 0 pattern 340 is discontinuous, and includes a noise component due to the influence of the micro-prosodic.
- the F 0 pattern 344 is obtained by detecting stable sound frames among the points constituting the F 0 pattern 340 and obtaining curves that fit them.
- This F 0 pattern 344 is continuous and does not include noise components due to the influence of microprocedures.
- a virtual pitch register 346 is further obtained from the F 0 pattern 344. Similarly this virtual pitch register 346 F 0 pattern 344 does not include a noise component due to the influence of the continuous and and micro prosodic.
- FIG. 15 shows a speech waveform 410, an F 0 pattern actually observed therefrom (+), and an F 0 pattern 412 obtained by the present invention.
- the observed F 0 pattern there are portions of reference numerals 420 and 422 that become lower due to the influence of microprosody caused by expiration. These points indicate changes in F 0 that are different from the speaker's intention, and adversely affect speech synthesis.
- F 0 pattern 412 according to the present invention contrast, no effect on F 0 at this point, can restore the original intonation the speaker was intended.
- an utterance end position 430 different from the original utterance end position may be detected as indicated by reference numeral 432, for example.
- the correct end position 432 can be obtained.
- the example at the time of applying this invention to Korean is shown.
- the observed F 0 pattern is discontinuous, and it is difficult to extract an F 0 pattern suitable for speech synthesis from the conventional method.
- the F 0 pattern can be extracted without the influence of the microprocedure, and the virtual pitch register can also be appropriately extracted as shown by the broken line. Therefore, F 0 pattern can be correctly extracted breath at 450, 452, 454 that falls below the virtual pitch register.
- the Korean speech corpus was compared with a transcription called K-ToBI labeled “IP3” for a strong discontinuous portion of the phrase.
- K-ToBI labeled “IP3” for a strong discontinuous portion of the phrase.
- IP3 is a discontinuous portion of the phrase labeled IP3 in K-ToBI.
- IP3 those that can be detected by the present invention are described as “3”, and those that cannot be detected are described as “(3)”.
- IP3 can be detected with high accuracy.
- the method according to the present invention does not depend on the language of the target speech. Therefore, the method according to the present invention can be effectively applied particularly for speech synthesis related to multiple languages.
- FIG. 17 shows the external appearance of the computer system 530
- FIG. 18 shows the internal configuration of the computer system 530.
- this computer system 530 includes a computer 540 having a memory port 552 and a DVD (Digital Versatile Disc) drive 550, a keyboard 546, a mouse 548, and a monitor 542.
- DVD Digital Versatile Disc
- the computer 540 includes a CPU (Central Processing Unit) 556, a bus 566 connected to the CPU 556, the memory port 552, and the DVD drive 550, and a boot program. And the like, a read only memory (ROM) 558 for storing etc., a random access memory (RAM) 560 connected to the bus 566 for storing program instructions, system programs, work data and the like, and a hard disk 554.
- the computer system 530 is further connected to the bus 566 and provides a connection to a sound board 568 for digitizing and converting the audio signal into a form that can be processed by the computer, and a network 572 that allows communication with other terminals.
- a microphone 570 is connected to the sound board 568.
- a computer program for causing the computer system 530 to function as each functional unit that realizes the method for extracting the intonation structure according to each of the above-described embodiments is stored in the DVD 562 or the removable memory 564 installed in the DVD drive 550 or the memory port 552. It is stored and further transferred to the hard disk 554. Alternatively, the program may be transmitted to the computer 540 through the network 572 and stored in the hard disk 554. The program is loaded into the RAM 560 when executed. The program may be loaded directly into the RAM 560 from the DVD 562, from the removable memory 564, or via the network 572.
- This program includes an instruction sequence including a plurality of instructions for causing the computer 540 to function as each functional unit that implements the method according to the above embodiment.
- Some of the basic functions necessary to cause the computer 540 to perform this operation are an operating system or third party program running on the computer 540 or various dynamically linkable programming toolkits or programs installed on the computer 540. Provided by the library. Therefore, this program itself does not necessarily include all functions necessary for realizing the method of the above embodiment.
- This program uses the above method by dynamically calling the appropriate program in the appropriate function or programming toolkit or program library at run time in a controlled manner to achieve the desired result. It is only necessary to include an instruction for realizing a function for realizing. Of course, all necessary functions may be provided only by the program.
- the present invention can be applied to all devices and services that interact with a user using voice, and can further use humans in various devices and services by directly using voice or using voice in communication. Available for devices and services to improve the interface with.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
【課題】言語に依存せず、音声信号からイントネーション構造を抽出する方法を提供する。 【解決手段】方法は、フレーム化された音声信号にゼロ周波数フィルタ(ZFF)法を適用してZFF信号を得るステップ30と、ZFF信号から検出される各声門サイクルにおいて、ZFF信号の振幅信号に、ZFF法を用いたF0パターン及び振幅パターン抽出のアルゴリズムを適用して、ZFF信号の振幅、振幅シーケンスのフィット曲線、及び振幅シーケンスの平滑化曲線を得るステップ32、34と、ZFF信号の振幅に基づき、ZFF信号のうち安定した有声フレームを選択するステップ36、38と、これらフレームの基本周波数を算出して上記アルゴリズムを適用しF0パターンを算出するステップ40と、F0パターンにさらに上記アルゴリズムを適用して音声信号のイントネーションを抽出するステップ42とを含む。
Description
この発明は音声のイントネーション構造を抽出する方法に関し、特に、音声合成等に用いられるF0パターンを音声信号から抽出するための、言語に依存しない方法に関する。
人間は言語的な意味とパラ言語的な情報とを様々なイントネーションにより伝達する。文の途中でピッチすなわち基本周波数(F0)が変化すると、聴者は文のイントネーションの変化を感じとる。時間及び強さの変化も理解のプロセスにおける音響的な手掛かりとなる。
本明細書におけるイントネーション構造とは、特にF0又はピッチという局面に関する。F0という用語及びピッチという用語は本明細書では同じ意味を表す。Text-to-Speech音声合成に関しては入力テキストから適切なイントネーションを合成することが重要で、さもないとメッセージの重要なニュアンスを全て正確に伝えることが難しくなる。
アジアの言語では、ピッチの局所的な変化により言葉の意味が変化する。例えば日本語の場合、n個のシラブルを持つ単語は、n+1個のアクセントタイプ(n=0,…,n)を持つことが可能である。例えば2個のシラブルを持つ単語の場合、「柿」はタイプ0(アクセントなし)、「牡蠣」はタイプ1、「垣」はタイプ2というように、アクセントにより意味が変化する。同様の現象が、ミャンマー語及び中国語(マンダリン)の声調にも存在する。複数の言語を扱う音声合成では、このような声調とアクセントとF0のイントネーションとの間の干渉を一貫した方法で取り扱うことができることが望ましい。
こうした問題を重ね合わせの原理で処理できれば、ピッチの種々の要素及び機能を分けてモデル化できるので都合がよい。しかし、ピッチをその構成要素に自動的に分解することは簡単なことではない。その主たる原因には3つの局面がある。第1は、F0パターンを一意に分解するための一般的な方法がないという問題である。いくつかの構成要素が入れ替わった結果、同じF0パターンが結果として生じることもあるためである。第2に、非共鳴音が途中介在し、マイクロプロソディと呼ばれる分節的なF0変化によってF0パターンが乱され滑らかにならないことが多いためである。第3に、イントネーションとアクセントはもともと言語学的・抽象的な概念であり、それらを音響的に分離することは従来技術では困難なためである。
一方、F0モデルの学習時には、実際の音声から観測される生のF0パターンを使うより、F0生成過程モデルで近似したF0パターンを使った方が合成音声の品質が向上することが知られている(特許文献1)。
J. Ni, Y. Shiga, C. Hori, "Extraction of pitch register from expressive speech in Japanese," Proc. of ICASSP2015, pp.4764-4768, 2015.
しかし、従来技術では、F0生成過程モデルを適用するには、対象となる言語に関する言語的知識が必要であるという問題があった。そのため多言語に対応する音声合成システムを開発する場合には、言語毎に個別にF0生成過程モデルを得る技術を用いる必要がある。その結果、そうしたシステムの開発が困難であるという問題があった。それだけではなく、対象となる言語に関する十分な知識を持つ人材が見つからない場合には、その言語については音声合成システムを利用できないという問題もあった。
それゆえに本発明の目的は、言語に依存せず、音声信号からイントネーション構造を抽出できる方法を提供することである。
本発明の第1の局面に係る方法は、ゼロ周波数フィルタリングにより言語に依存せず音声のイントネーション構造を抽出する。この方法は、音声信号にゼロ周波数フィルタ(ZFF)法を適用することによりゼロ周波数フィルタリングされた信号(ZFF信号)を得るステップと、ZFF信号の振幅系列をフレーム単位で算出するステップと、ZFF信号の振幅系列に基づいて音声信号の基本周波数系列をフレーム単位で決定するステップとを含む。
好ましくは、ZFF信号の振幅系列をフレーム単位で算出するステップは、ZFF信号から検出される各声門サイクルにおいて、ZFF信号の振幅信号に、振幅パターン抽出のアルゴリズムをそれぞれ所定の条件で適用することにより、ZFF信号の振幅系列と、振幅系列のフィット曲線と、振幅系列の平滑化曲線とを得るステップとを含む。
さらに好ましくは、音声信号の基本周波数系列をフレーム単位で決定するステップは、ZFF信号の振幅に基づいて有効フレームを選択するステップと、判定された有効フレームの基本周波数列に対して、ZFF法を用いたF0パターン抽出アルゴリズムを適用してF0パターンを算出するステップとを含む。
より好ましくは、この方法は、フレーム単位で決定された基本周波数列に対して、F0パターン抽出アルゴリズムを適用することにより音声信号のイントネーション構造を抽出するステップをさらに含む。
好ましくは、所定のアルゴリズムは、繰り返し回数K及び、ZFFにおける信号処理のためのウィンドウ幅Nを引数として受ける。このアルゴリズムは、入力信号s[n]を受け取り、当該入力信号s[n]のゼロ部分を線形補間して補間後の信号s0[n]を生成するステップと、信号s0[n]にZFFを適用して信号^s0[n]を得るステップと、繰り返し制御変数iに0を代入するステップと、繰り返し制御変数iが繰り返し回数Kより小さい間、以下の処理を繰り返し実行するステップとを含む。この繰り返して実行される処理は、s0[n]-^si[n]にZFFをウィンドウ幅Nで適用することにより差分Δ^si[n]を得るステップと、si+1[n]の値を^si[n]+Δsi[n]に定めるステップと、繰り返し制御変数iに1を加算するステップとを含む。所定のアルゴリズムはさらに、繰り返し実行するステップの終了時の信号^sK[n]を出力するステップを含む。
有効フレームを判定するステップは、ZFF信号の振幅系列の振幅値を正規化し、その振幅が第1のしきい値以上となるフレームを含む所定範囲のフレームを有効と判定するステップと、有効と判定されたフレームのうち、フィット曲線と平滑化曲線との交差位置にあるフレーム、及びフィット曲線のピークに位置するフレームを有効フレームの初期値として、さらに、有効フレームに隣接し、かつ当該フレームとの振幅差が第2のしきい値以下のフレームを有効フレームとして追加して選択するステップとを含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータに、上記したいずれかの方法を実行させるように機能する。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の説明では、音声信号はデジタル化され、所定フレーム長及び所定シフト量(重複を許す)でフレーム化されるものとする。
[構成]
図1を参照して、本願の実施の形態に係るF0パターン及び仮想ピッチレジスタの抽出方法は、音声信号からZFF信号を得るステップ30と、ステップ30で抽出されたZFF信号から、声門サイクルのエポックを検出するステップ32とを含む。ZFF信号については図2を参照して後述する。エポックとは、図14を参照して、音声信号から得られるZFF信号の値が負から正に変化する位置のことであり、声門が振動する1サイクルを示す。
図1を参照して、本願の実施の形態に係るF0パターン及び仮想ピッチレジスタの抽出方法は、音声信号からZFF信号を得るステップ30と、ステップ30で抽出されたZFF信号から、声門サイクルのエポックを検出するステップ32とを含む。ZFF信号については図2を参照して後述する。エポックとは、図14を参照して、音声信号から得られるZFF信号の値が負から正に変化する位置のことであり、声門が振動する1サイクルを示す。
このプログラムはさらに、ステップ30により得られたZFF信号の振幅を、ステップ32により得られたエポックに関する情報を用いて計算するステップ34と、ステップ34により得られた振幅を正規化し、その値が0.08以上であるフレームを有音フレームとして検出するステップ36と、ステップ36で検出された有音フレームを起点として、安定した複数個の有音フレームを選択するステップ38と、ステップ38において選択された安定した有音フレームから、F0パターンを復元するステップ40と、ステップ40で復元したF0パターンから仮想ピッチレジスタを推定するステップ42とを含む。
図1のステップ30で得られるZFF信号について説明する。上記非特許文献1では、観測された発話のF0パターンからグローバルなピッチの動き(仮想ピッチレジスタ)を計算するために、振幅‐周波数レスポンス機構を考慮したトーン変換技術を用いている。非特許文献1に記載された技術から、理想的ゼロ周波数共鳴器(ZFR)が以下のように表される事がわかる。
図2を参照して、ZFF62は、入力信号60を受けるように接続されたZFR70と
ZFR70の出力を受けるように接続されたZFR72と、ZFR72の出力を受けるように接続され、ZFR72の出力から、データの内容によらない成分からなるトレンドを除去してZFF信号64を出力するトレンド除去部74とを含む。
ZFR70の出力を受けるように接続されたZFR72と、ZFR72の出力を受けるように接続され、ZFR72の出力から、データの内容によらない成分からなるトレンドを除去してZFF信号64を出力するトレンド除去部74とを含む。
本実施の形態では、このZFF62はコンピュータハードウェアとその上で実行されるプログラムとにより実現される。そのプログラムの制御構造について図3を参照して説明する。なお、以下の説明では、信号sのk番目のフレームのデータをs[k]と記載する。
図3を参照して、このプログラムは、信号s[k]から録音時の直流成分又は低周波バイアス成分を以下の式により除去するステップ90を含む。
x[k] = s[k] - s[k-1]
このプログラムはさらに、ステップ90により得られた信号x[k]を理想的ZFRに2回通し、新たな信号y[k]を得るステップ92と、ステップ92で得られたy[k]からその局所平均を除くことによりトレンドを除去し、ゼロ周波数フィルタリングされた信号z[k]を得るステップ94とを含む。
このプログラムはさらに、ステップ90により得られた信号x[k]を理想的ZFRに2回通し、新たな信号y[k]を得るステップ92と、ステップ92で得られたy[k]からその局所平均を除くことによりトレンドを除去し、ゼロ周波数フィルタリングされた信号z[k]を得るステップ94とを含む。
図1のステップ32は、このようにして得られたZFF信号において、ZFF信号が時間軸を負から正にクロスする点を検出する。これが声門サイクルのエポックである。
図1のステップ34を実現するプログラムの制御構造を図4にフローチャート形式で示す。図4を参照して、このプログラムは、図1のステップ32で検出された各声門サイクルにおいて、ZFF信号の振幅の絶対値の最大値を計算する処理112を行うステップ110と、ステップ110で計算されたZFF信号の振幅の絶対値の最大値を5ミリ秒のウィンドウ幅で5ミリ秒ごとにサンプリングするステップ114とを含む。
図4のステップ116以下は、本実施の形態で採用したF0パターン及び振幅抽出のためのZFF法を利用する。そこで、まず、図5を参照して、ZFFについて説明する。
図5を参照して、ZFF法は、引数として処理対象の信号s[n]、繰り返し回数K、及び内部の処理で使用するウィンドウ幅N(実際のウィンドウ幅は2N+1である。)を受け取って処理を開始する。このプログラムは、s[n]のゼロ部を線形補間してs0[n]を得るステップ140と、ステップ140で得られたs0[n]に図2に示したZFFを適用して^s0[n]を得るステップ142とを含む。以下は繰り返し制御変数iを用いた繰り返し処理である。なお、記号「^」(ハット)は、図及び式においては直後の文字の直上に記載されているものであり、明細書ではそうした記載ができないために、修飾すべき文字の直前に記載してある。
このプログラムは、さらに、変数iに0を代入するステップ144と、変数iの値が引数として与えられた繰り返し回数Kより小さい間、処理148を繰り返し実行するステップ146と、ステップ146が完了したとき(変数iの値が繰り返し回数Kに達したとき)に得られる^sK[n]を出力するステップ150とを含む。
再び図4を参照して、このプログラムは、ZFF法を実行するための準備として、ウィンドウ幅を規定する変数Nに100を、繰り返し回数Kに10を、それぞれ代入するステップ116と、ステップ116の後、サンプリング系列sa[k]に対し、ZFFを利用したF0及び振幅パターン抽出アルゴリズムを適用してZFF振幅を算出するステップ118と、ウィンドウ幅Nに100を、繰り返し回数Kに10をそれぞれ代入するステップ120と、サンプリング系列sa[k]に対してZFFを利用したF0及び振幅パターン抽出アルゴリズムを適用してZFF振幅のフィット曲線を算出するステップ122と、ウィンドウ幅Nに300を、繰り返し回数Kに5をそれぞれ代入するステップ124と、サンプリング系列sa[k]に対してZFFを利用したF0及び振幅パターン抽出アルゴリズムを適用してZFF振幅の平滑化曲線を算出するステップ126とを含む。
ステップ118、122、及び126で使用される、F0及び振幅パターン抽出アルゴリズムについて、その制御構造を図5に示す。図5を参照して、このプログラムは、前述したように、引数として信号s[n]、繰り返し回数K、及びウィンドウ幅Nを引数として受けて処理を開始する。このプログラムは、信号s[n]のゼロ部分を線形補完して信号s0[n]を得るステップ140と、信号s0[n]に対してZFFを適用して^s0[n]を得るステップ142と、繰り返し制御変数iに0を代入するステップと、変数iの値が繰り返し回数Kより小さい間、以下の処理148を繰返すステップ146と、ステップ146の終了時に得られる信号^sK[n]を出力するステップ150とを含む。
処理148は、s0[n]―^si[n]にZFFを適用してΔ^si[n]を得るステップ160と、^si+1[n]の値を^si[n]+Δ^si[n]に設定するステップ162と、繰り返し制御変数iに1を加算するステップ164とを含む。
図6を参照して、図1のステップ38で行われる、安定した有音フレームを選択する処理は、Δ^sa[k]の平均μaと分散σaとを算出するステップ180と、振幅のフィット曲線と平滑化曲線との交点を計算するステップ182と、振幅のフィット曲線のピーク、又はステップ182で求めた交点の位置にあるフレームを、安定した有音フレームの初期値としてマークするステップ184とを含む。
このプログラムはさらに、ステップ184で求めた安定した有音フレームの初期値を起点として、安定したフレーム(例えばフレームj)に隣接する安定でない各フレーム(例えばフレームi)について、以下の処理188を繰返すことにより、安定した有音フレーム群を得るステップ186と、ステップ186で得られた安定した有音フレームのうち、隣接するフレームとのF0の差が0.8×半音以上であるものを削除するステップ190とを含む。
処理188は、^sa[i]-^sa[j]の絶対値が平均μa+分散σa以下か否かを判定し、判定が否定のときには処理188を終了するステップ200と、ステップ200の判定が肯定のときに、フレームiを安定した有音フレームとして選択して処理188を終了するステップ202とを含む。
図7に、図1のステップ40の詳細を示す。図7を参照して、この処理は、図1のステップ32で検出されたエポックに基づき、ステップ38の処理で選択された安定な有音フレーム群のF0を計算するステップ220と、F0及び振幅パターン抽出アルゴリズムのためのウィンドウ幅Nに100を、繰り返し回数Kに15を、それぞれ代入するステップ222と、ステップ222で設定された値を用い、ステップ220で算出されたF0の系列に対してF0及び振幅パターン抽出アルゴリズムを適用することにより連続したF0パターンを復元するステップ224とを含む。
図8に、図1のステップ42を実現するプログラムの制御構造をフローチャート形式で示す。図8を参照して、この処理は、ウィンドウ幅に150を、繰り返し回数Kに1を、それぞれ代入するステップ240と、ステップ240で設定されたウィンドウ幅及び繰り返し回数Kを用い、図1のステップ42で復元された連続したF0パターンに対し、F0及び振幅パターン抽出アルゴリズムを適用するステップ242と、ステップ242の処理の結果得られたパターンをfb[k]=2.5×半音だけ下方に移動することにより仮想ピッチレジスタを推定するステップ244とを含む。
「動作」
図9を参照し、図1~図8に示す制御構造を有するプログラムがコンピュータにより実行されることで音声波形がどのように処理され、F0パターン及び仮想ピッチレジスタが得られるかについて説明する。
図9を参照し、図1~図8に示す制御構造を有するプログラムがコンピュータにより実行されることで音声波形がどのように処理され、F0パターン及び仮想ピッチレジスタが得られるかについて説明する。
図9(A)は、音声信号260の概形を例示する。また図9(B)には、図1のステップ30で行われる処理の結果、音声信号260から得られるZFF信号262の概形を示す。両者の関係を示すため、図9(A)及び図9(B)において矩形270で囲んだ部分を横に拡大した図を図9(C)に示す。図9(C)において、鋭いピークを持つ不規則な波形が音声信号260であり、丸みを帯びた規則的な波形がZFF信号262である。
ステップ34では、以下の様な処理が行われる。図4を参照して、図1のステップ32で検出されたエポックに基づき、各声門サイクルにおいてZFF信号262の振幅の絶対値の最大値を算出する(図4のステップ110)。この処理により得られた振幅系列を、続くステップ114で5ミリ秒のウィンドウ幅及び5ミリ秒のシフト長でサンプリングする。その結果得られる振幅系列sa[k]は図9(D)に示す振幅系列であり、音源の励振と声帯の振動状態とを示す。
さらに、この振幅系列sa[k]に対して図4のステップ116から126の処理を実行することにより、図9(E)に示すZFF振幅系列330、ZFF振幅系列330に対するフィット曲線332、ZFF振幅系列330をさらに平滑化した平滑化曲線334がそれぞれ得られる。図9(E)にはさらに、これらから求められる、安定した有音フレームの系列336も示す。なお、この図では、ZFF振幅系列330と、安定した有音フレームの系列336とが錯綜して描かれていて明瞭に区別できないため、矩形360により示した部分を図10に拡大して示す。
図1のステップ36では、ZFF振幅系列330のうちで、ZFF振幅^sa[k]が0.08×半音以上であるものを有音フレームとしてマークする。またこの処理で得た有音フレームのうち、孤立したものがある場合には削除される。
図6を参照して、図1のステップ38では、前述したように、Δ^sa[k]の平均μaと分散σaとを算出する(ステップ180)。次に、ステップ182において、図10を参照して、振幅のフィット曲線332と平滑化曲線334との交点を計算する。こうして求めた交点の位置にあるフレームと、フィット曲線332のピークに位置するフレームとを、安定した有音フレームの初期値としてマークする(ステップ184)。
さらに、ステップ184で求めた安定した有音フレームの初期値を起点として、ステップ186において、安定したフレーム(例えばフレームj)に隣接する安定でない各フレーム(例えばフレームi)について、以下の処理188を繰返す。処理188では、^sa[i]-^sa[j]の絶対値が平均μa+分散σa以下か否かが判定される(ステップ200)。判定が否定のときにはなにもせず処理188を終了する。ステップ200の判定が肯定のときには、ステップ202において、フレームiを安定した有音フレームとして選択して処理188を終了する。さらに、このようにステップ186で得られた安定した有音フレームのうち、隣接するフレームとのF0の差が0.8×半音以上であるものが削除される(ステップ190)。この処理によって、図10において四角で示したような安定した有音フレーム系列336が得られる。
図1のステップ40では、ステップ38の処理により選択された安定した有音フレームの系列に基づいてF0パターンが復元される。具体的には、図7を参照して、図1のステップ32で検出されたエポックに基づき、ステップ38の処理で選択された安定な有音フレーム群のF0を計算する(ステップ220)。続くステップ222で、F0及び振幅パターン抽出アルゴリズムのためのウィンドウ幅Nに100を、繰り返し回数Kに15を、それぞれ代入する。さらに、その後のステップ224において、ステップ222で設定された値を用い、ステップ220で算出されたF0の系列に対してF0及び振幅パターン抽出アルゴリズムを適用することによりF0パターンが復元される。
このようにして得られたF0パターンから、図1のステップ42で仮想ピッチレジスタが推定される。具体的には、図8を参照して、ステップ240で、ウィンドウ幅に150を、繰り返し回数Kに1を、それぞれ代入する。続くステップ242において、ステップ240で設定されたウィンドウ幅N及び繰り返し回数Kを用い、図1のステップ40(図7のステップ220から224)で復元された連続F0パターンに対し、F0及び振幅パターン抽出アルゴリズムを適用する(ステップ242)。さらに、ステップ242の処理の結果得られたパターンをfb[k]=2.5×半音だけ下方に移動することにより仮想ピッチレジスタを推定する(ステップ244)。
図7及び図8に示す処理の様子を図9(E)に示し、その中で矩形362により表される部分を図11に拡大して示す。特に図11を参照して、実際に観測されたF0パターン340は、連続ではなく明らかに不連続になっている。さらに、マイクロプロソディの影響による雑音が混入している。それに対し、図1のステップ38で選択された安定した有音フレームの系列342からは、マイクロプロソディの影響を受けた部分(例えばF0系列の一部348等)は除去されている。図7のステップ224の処理により、これら安定した有音フレームの系列342にフィットするようなF0パターン344を計算すると、このF0パターン344は、マイクロプロソディの影響を含まないものとなる。さらに、図8に示す処理を実行することにより、F0パターン344をさらに平滑化した仮想ピッチレジスタ346が得られる。
このようにして得たF0パターン344及び仮想ピッチレジスタ346は連続したものであり、マイクロプロソディの影響を含まない。したがって、これらを用いて構築したF0モデルを用いることにより、音声合成の品質が高くなる。
図12に、フィット曲線332及び平滑化曲線334を得るまでの処理によるデータの変化を示し、図13に、F0パターン344及び仮想ピッチレジスタ346を得るまでの信号の変化を示す。
図12を参照して、音声信号260(A)からZFF信号262(B)が得られる。このZFF信号262からZFF振幅系列330(C)が得られる。ZFF振幅系列330からそのフィット曲線332(D)が得られ、さらに平滑化曲線334(D)が得られる。これらの交点と、フィット曲線332のピーク位置とから、安定した有音フレームの初期値が定められ、それにもとづいて、安定した有音フレーム系列336(E)が得られる。
図13を参照して、ZFF信号262から、図12に示した処理によりフィット曲線332(A)及び平滑化曲線334(A)が得られる。一方、ZFF信号262からは振幅系列としてF0パターン340(B)が得られる。このF0パターン340は不連続であり、かつマイクロプロソディの影響による雑音成分を含む。本願発明では、F0パターン340を構成する各点のうちで、安定した有音フレームを検出し、それらにフィットする曲線を得ることでF0パターン344が得られる。このF0パターン344は連続であり、かつマイクロプロソディの影響による雑音成分を含まない。このF0パターン344からさらに仮想ピッチレジスタ346が得られる。この仮想ピッチレジスタ346もF0パターン344と同様、連続でかつマイクロプロソディの影響による雑音成分を含まない。
以上のようにこの発明によれば、F0パターン及び仮想ピッチレジスタに、マイクロプロソディの影響による雑音が含まれない。そのため、以下の様な効果を得ることができる。例えば図15に、音声波形410とそこから実際に観測されたF0パターン(+印)と、本願発明により得たF0パターン412とを示す。図から明らかなように、観測されたF0パターンでは、参照符号420及び422において、呼気により生じたマイクロプロソディの影響を受けて低くなる箇所がある。これらの箇所は、話者の意図とは異なるF0の変化を示すものであり、音声合成に悪影響を与える。これに対し本願発明に係るF0パターン412では、こうした箇所でもF0には影響がなく、話者が意図していた本来のイントネーションを復元できる。また、発話の終了の検出時にもマイクロプロソディによるF0パターンへの影響が見られる。そのため、従来の方法により観測されたF0パターンを用いると、例えば参照符号432で示すように本来の発話の終了位置とは異なる発話終了位置430を検出してしまうことがある。これに対して本願発明では、正規化されたZFF振幅(≧0.08が有音フレーム)により発話の終了を検出するので、正しい終了位置432を得ることができる。
さらに、図16を参照して、本願発明を韓国語に適用した際の例を示す。この例でも、観測されたF0パターンは不連続であり、そこから音声合成に適したF0パターンを抽出するのは従来法では難しかった。それに対して本願発明では、図16において実線で示すように、F0パターンをマイクロプロソディの影響なしに抽出することができ、さらに破線で示すように仮想ピッチレジスタについても適切に抽出できる。そのため、F0パターンが仮想ピッチレジスタを下回った点450、452、454において正しく呼気段落を抽出できる。なお、この例では、韓国語の音声コーパスについて、フレーズの強い不連続部分について「IP3」とラベリングしたK―ToBIと呼ばれるトランスクリプションと比較した。図16において、「3」又は「(3)」と記載したのがK―ToBIにおいてIP3とラベリングされたフレーズの不連続箇所である。これらIP3のうち、本願発明で検出できたものについては「3」と記載し、検出できなかったものについては「(3)」と記載してある。図16から分かるように、本願発明では精度よくIP3を検出できる。
上記実施の形態からも分かるように、本発明に係る方法は、対象となる音声の言語に依存しない。したがって、特に多言語に関する音声合成のために、本発明に係る方法を有効に適用できる。
[コンピュータによる実現]
本発明の各実施の形態に係るイントネーション構造を抽出する方法は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図17はこのコンピュータシステム530の外観を示し、図18はコンピュータシステム530の内部構成を示す。
本発明の各実施の形態に係るイントネーション構造を抽出する方法は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図17はこのコンピュータシステム530の外観を示し、図18はコンピュータシステム530の内部構成を示す。
図17を参照して、このコンピュータシステム530は、メモリポート552及びDVD(Digital Versatile Disc)ドライブ550を有するコンピュータ540と、キーボード546と、マウス548と、モニタ542とを含む。
図18を参照して、コンピュータ540は、メモリポート552及びDVDドライブ550に加えて、CPU(中央処理装置)556と、CPU556、メモリポート552及びDVDドライブ550に接続されたバス566と、ブートプログラム等を記憶する読出専用メモリ(ROM)558と、バス566に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)560と、ハードディスク554を含む。コンピュータシステム530はさらに、バス566に接続され、音声信号をデジタル化してコンピュータにおいて処理可能な形式に変換するためのサウンドボード568と、他端末との通信を可能とするネットワーク572への接続を提供するネットワークインターフェイスカード(NIC)574を含む。サウンドボード568にはマイクロフォン570が接続される。
コンピュータシステム530を上記した各実施の形態に係るイントネーション構造を抽出する方法を実現する各機能部として機能させるためのコンピュータプログラムは、DVDドライブ550又はメモリポート552に装着されるDVD562又はリムーバブルメモリ564に記憶され、さらにハードディスク554に転送される。又は、プログラムはネットワーク572を通じてコンピュータ540に送信されハードディスク554に記憶されてもよい。プログラムは実行の際にRAM560にロードされる。DVD562から、リムーバブルメモリ564から又はネットワーク572を介して、直接にRAM560にプログラムをロードしてもよい。
このプログラムは、コンピュータ540を、上記実施の形態に係る方法を実現する各機能部として機能させるための複数個の命令からなる命令列を含む。コンピュータ540にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ540上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ540にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体は上記実施の形態の方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記した方法を実現するための機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
本発明は、音声を用いてユーザとのインタラクションを行う装置及びサービス全般に適用可能であり、さらに、直接に音声を用いたり、通信において音声を用いたりすることにより、様々な装置及びサービスにおける人間とのインターフェイスを改善するための装置及びサービスに利用できる。
60 入力信号
62 ZFF
64、262 ZFF信号
70、72 ZFR
74 トレンド除去部
260 音声信号
330 ZFF振幅系列
332 フィット曲線
334 平滑化曲線
336 有音フレーム系列
340、344、412 F0パターン
342 安定した有音フレームの系列
346 仮想ピッチレジスタ
62 ZFF
64、262 ZFF信号
70、72 ZFR
74 トレンド除去部
260 音声信号
330 ZFF振幅系列
332 フィット曲線
334 平滑化曲線
336 有音フレーム系列
340、344、412 F0パターン
342 安定した有音フレームの系列
346 仮想ピッチレジスタ
Claims (6)
- ゼロ周波数フィルタリングにより言語に依存せず音声のイントネーション構造を抽出する方法であって、
音声信号にゼロ周波数フィルタ(ZFF)法を適用することによりゼロ周波数フィルタリングされた信号(ZFF信号)を得るステップと、
前記ZFF信号の振幅系列をフレーム単位で算出するステップと、
前記ZFF信号の振幅系列に基づいて前記音声信号の基本周波数系列をフレーム単位で決定するステップとを含む、音声のイントネーション構造を抽出する方法。 - 前記ZFF信号の振幅系列をフレーム単位で算出するステップは、前記ZFF信号から検出される各声門サイクルにおいて、前記ZFF信号の振幅信号に、振幅パターン抽出のアルゴリズムをそれぞれ所定の条件で適用することにより、前記ZFF信号の振幅系列と、前記振幅系列のフィット曲線と、前記振幅系列の平滑化曲線とを得るステップを含む、請求項1に記載の方法。
- 前記音声信号の基本周波数系列をフレーム単位で決定するステップは、前記ZFF信号の振幅に基づいて有効フレームを判定するステップと、
前記判定された有効フレームの基本周波数列に対して、前記ZFF法を用いた基本周波数パターン抽出アルゴリズムを適用して基本周波数パターンを算出するステップとを含む、請求項1又は請求項2に記載の方法。 - 前記フレーム単位で決定された基本周波数系列に対して、前記基本周波数パターン抽出アルゴリズムを適用することにより前記音声信号のイントネーション構造を抽出するステップをさらに含む、請求項1~請求項3のいずれかに記載の方法。
- 前記有効フレームを判定するステップは、
前記ZFF信号の振幅系列の振幅値を正規化し、その振幅が第1のしきい値以上となるフレームを含む所定範囲のフレームを有効と判定するステップと、
有効と判定された前記フレームのうち、前記フィット曲線と前記平滑化曲線との交差位置にあるフレーム、及び前記フィット曲線のピークに位置するフレームを有効フレームの初期値として、さらに、有効フレームに隣接し、かつ当該フレームとの振幅差が第2のしきい値以下のフレームを有効フレームとして追加して選択するステップとを含む、請求項3に記載の方法。 - コンピュータに、請求項1~請求項5の何れかに記載の方法を実行させるように機能する、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016172608A JP2018040838A (ja) | 2016-09-05 | 2016-09-05 | 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム |
JP2016-172608 | 2016-09-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018043708A1 true WO2018043708A1 (ja) | 2018-03-08 |
Family
ID=61301227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2017/031581 WO2018043708A1 (ja) | 2016-09-05 | 2017-09-01 | 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2018040838A (ja) |
WO (1) | WO2018043708A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015183254A1 (en) * | 2014-05-28 | 2015-12-03 | Interactive Intelligence, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
-
2016
- 2016-09-05 JP JP2016172608A patent/JP2018040838A/ja active Pending
-
2017
- 2017-09-01 WO PCT/JP2017/031581 patent/WO2018043708A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015183254A1 (en) * | 2014-05-28 | 2015-12-03 | Interactive Intelligence, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
Non-Patent Citations (3)
Title |
---|
FUNAKI ET AL: "ZFR o Mochiita Onsei no FO Suitei ni Kansuru Kento", REPORT OF THE 2012 SPRING MEETING, THE ACOUSTICAL SOCIETY OF JAPAN CD-ROM, 6 March 2012 (2012-03-06), pages 507 - 508 * |
IOHARA ET AL: "Seimon Heisaten no Suiteiho no Kaizen", REPORT OF THE 2016 SPRING MEETING, THE ACOUSTICAL SOCIETY OF JAPAN CD-ROM, 24 February 2016 (2016-02-24), pages 275 - 278 * |
NI, JINFU ET AL.: "A method for representing expressive intonation using pitch register", REPORT OF THE 2014 SPRING MEETING, THE ACOUSTICAL SOCIETY OF JAPAN CD-ROM, 26 August 2014 (2014-08-26), pages 255 - 256 * |
Also Published As
Publication number | Publication date |
---|---|
JP2018040838A (ja) | 2018-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Morise et al. | World: a vocoder-based high-quality speech synthesis system for real-time applications | |
JP6496030B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
WO2018159402A1 (ja) | 音声合成システム、音声合成プログラムおよび音声合成方法 | |
JP7274184B2 (ja) | 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法 | |
JP2017032839A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP6180553B2 (ja) | 入力雑音混入信号を強調する方法およびシステム | |
Mittal et al. | Study of characteristics of aperiodicity in Noh voices | |
JP2019008206A (ja) | 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP2019144404A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
KR102198598B1 (ko) | 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법 | |
KR102198597B1 (ko) | 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법 | |
JP2004012584A (ja) | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 | |
WO2018043708A1 (ja) | 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム | |
JP5660437B2 (ja) | 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム | |
JP2019074580A (ja) | 音声認識方法、装置およびプログラム | |
JP4177751B2 (ja) | 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ | |
JP6689769B2 (ja) | 声道スペクトル推定装置、方法、及びプログラム | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
CN112420004A (zh) | 生成歌曲的方法、装置、电子设备及计算机可读存储介质 | |
JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
JP6213217B2 (ja) | 音声合成装置及び音声合成用コンピュータプログラム | |
Roebel | Between physics and perception: Signal models for high level audio processing | |
JP3907027B2 (ja) | 音声変換装置および音声変換方法 | |
Sui et al. | RDSinger: Reference-based Diffusion Network for Singing Voice Synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17846711 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17846711 Country of ref document: EP Kind code of ref document: A1 |