WO2003098597A1 - Dispositif d'extraction de noyau syllabique et progiciel associe - Google Patents

Dispositif d'extraction de noyau syllabique et progiciel associe Download PDF

Info

Publication number
WO2003098597A1
WO2003098597A1 PCT/JP2003/001954 JP0301954W WO03098597A1 WO 2003098597 A1 WO2003098597 A1 WO 2003098597A1 JP 0301954 W JP0301954 W JP 0301954W WO 03098597 A1 WO03098597 A1 WO 03098597A1
Authority
WO
WIPO (PCT)
Prior art keywords
waveform
distribution
time axis
region
section
Prior art date
Application number
PCT/JP2003/001954
Other languages
English (en)
French (fr)
Inventor
Nick Campbell
Parham Mokhtari
Original Assignee
Japan Science And Technology Agency
Advanced Telecommunication Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science And Technology Agency, Advanced Telecommunication Research Institute International filed Critical Japan Science And Technology Agency
Priority to US10/514,413 priority Critical patent/US7627468B2/en
Priority to CA2483607A priority patent/CA2483607C/en
Publication of WO2003098597A1 publication Critical patent/WO2003098597A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids

Definitions

  • the present invention generally relates to a technique for extracting a portion of a speech waveform having high characteristics and a reliable I "raw from a speech waveform.
  • the present invention relates to a technique for highly reliably estimating the state of a speech waveform source.
  • the present invention relates to a technique for extracting an effective area from a speech waveform.
  • “Tensioned sound” refers to a sound that is generated so that the airflow is difficult to pass through the glottis when the glottis is nervous and the acceleration of the airflow when passing is increased. That means. In this case, the glottal airflow waveform is greatly deformed from the sine curve, and the gradient of the differential waveform becomes locally large. If a voice has these characteristics, it will be referred to as "tensile" voice.
  • “Breath hy so un d” refers to the sound produced when the vocal tract is uttered such that the glottis is not nervous and the air flow is easy to pass through, and as a result, the glottal air flow waveform approaches the sine curve. . In this case, the slope of the differential waveform of the glottal airflow waveform does not locally increase. If the speech has these characteristics, it will be called "breathing" speech.
  • the “voice” (modal, modal) is an utterance that is intermediate between a tense sound and a breath sound.
  • the “AQ index” (Am 1 i t u d e Q u o i e n t) is the value obtained by dividing the peak-to-peak amplitude of the glottal (vocal cord) airflow waveform by the minimum value of the differential amplitude of the glottal airflow waveform.
  • One specific measure is as follows. That is, the utterances are recorded and compiled into a database that can be processed, and utterance units that are supposed to exhibit the desired characteristics (anger, joy, sadness, etc.) are labeled with the characteristics. At the time of speech synthesis, speech with a label corresponding to the desired paralinguistic information is used.
  • One of the utterance styles is the distinction between nervous sounds and breath sounds.
  • the tone the glottis is nervous, resulting in a rather strong vocalization.
  • the breath sound the sound is close to the sign carp, and there is no impression that it is strong. Therefore, the distinction between nervous sounds and breath sounds is also important as one of the utterance styles, and if the degree can be quantified, there is a possibility that it can be used as paralinguistic information.
  • Numerous studies have been conducted on such indicators. See, for example, Reference 1 listed at the end of the sentence. No. However, many of these studies were limited to utterances (or songs) that were recorded during continuous, stable vowel production. Indeed, the need to reliably measure the degree of nervousness and breathiness based on acoustic measurement data obtained from a vast amount of recorded speech is a very significant problem, and It would be very useful if implemented.
  • Reference 2 states that one advantage of the AQ index is that it is relatively independent of sound pressure level (SPL), and that its value depends mainly on the qualitative quality of pronunciation. I have. Another advantage is that this parameter is purely in the amplitude domain, and is a source of error when measuring the time domain features of the estimated glottal waveform for various utterance styles. Is relatively immune to According to the authors in Reference 2, if the vowel "a" is continuously pronounced in various pronunciation styles, the pronunciation is breathless for all four men and four women. The value of the AQ index decreased monotonically as the tension was changed from that of (1) (Ref. 2, p.136). Therefore, the AQ index is likely to be valid for the problem we are trying to solve here. However, the following conditions must be satisfied for the AQ index to be valid.
  • SPL sound pressure level
  • an object of the present invention is to enable a portion showing the characteristics of a speech waveform with high reliability to be determined by automatic processing. Another object of the present invention is to make it possible to determine a portion showing the characteristics of a speech waveform with high reliability without the intervention of an operator. Still another object of the present invention is to enable automatic extraction of syllable nuclei with high reliability.
  • an apparatus for determining, based on audio waveform data representing a physical quantity, which can be decomposed into a plurality of clauses, a portion which shows a characteristic of an audio waveform with high reliability relates to a program for operating a computer as such a device.
  • This device calculates the distribution on the time axis of the energy in a predetermined frequency region of the audio waveform from the data, and generates the audio waveform in each section of the audio waveform based on the distribution and the pitch of the audio waveform.
  • Extracting means for extracting a region generated stably by the source; calculating the distribution of the spectrum of the audio waveform on the time axis from the data; and calculating the audio waveform based on the distribution of the spectrum on the time axis.
  • estimating means for estimating an area in which the change is well controlled by the source, an output of the estimating means, and an area extracted stably by the source by the extracting means, and Means for determining a region estimated by the estimating means to be well controlled by the source as a reliable portion of the speech waveform.
  • the determination result becomes more reliable.
  • the extraction means includes: a voiced determination means for determining whether each section of the voice waveform is a voiced section based on the data; and a minimum portion of the time axis distribution of energy in a predetermined frequency region of the voice waveform.
  • means for extracting the information is separating the audio waveform into nodes at In each section, a section that includes the peak of the energy in the section and that is determined to be a voiced section by the voiced determination means, and in which the energy of the predetermined frequency region is equal to or greater than a predetermined threshold or value.
  • the estimating means includes a linear predicting means for performing a # fountain-type prediction analysis on the speech waveform and outputting an estimated value of the formant frequency;
  • a first calculating means for calculating a distribution on the time axis of the reliability, and a local variance of a spectral change on the time axis of the speech waveform on the time axis, based on an output of the linear prediction means.
  • a second calculating means for calculating the distribution of the formant frequency, a distribution on the time axis of the unreliability of the estimated value of the formant frequency calculated by the first calculating means, and a voice calculated by the second calculating means.
  • the means for deciding is that the region included in the region extracted by the extraction unit among the regions in which the change in the audio waveform is estimated to be well controlled by the source by the estimation unit has high reliability of the audio waveform.
  • Means for determining as a part may be included. Only the area where the change of the voice waveform is estimated to be well controlled by the source and where the voice waveform is stably generated by the source is determined as the high reliability part. Therefore, a truly reliable portion can be extracted.
  • Another aspect of the present invention is a pseudo-syllable nucleus extraction device for separating a speech signal into pseudo-syllables and further extracting a core portion of each pseudo-syllable, and a computer as such a device. It relates to a program to be operated.
  • This pseudo-syllable nucleus extraction device includes voiced determination means for determining whether each section of a voice signal is a voiced section, and voice at a minimum portion of a waveform of a temporal distribution of energy in a predetermined frequency domain of the voice signal.
  • the speaker Since a region that is determined to be a voiced region and in which the energy of the predetermined frequency region is equal to or higher than the predetermined threshold value is extracted as a nucleus of the pseudo-syllable, the speaker is uttering steadily. The sound of the time can be extracted.
  • Still another aspect of the present invention relates to an apparatus for determining a portion showing a characteristic of an audio signal with high reliability, and a program for operating a computer as such an apparatus.
  • the apparatus is based on a linear prediction means for performing a linear prediction analysis on the audio signal, a formant estimate by the linear prediction means, and the unreliability of the formant estimate on the time axis based on the audio signal.
  • the first calculation means for calculating the distribution of the audio signal, and the distribution on the time axis of the local variance of the spectral change of the audio signal is calculated based on the result of the linear prediction analysis by the linear prediction means.
  • the distribution of the unreliability of the estimate of the formant on the time axis, the distribution of the local variance of the spectrum change of the audio signal on the time axis, and the minimal part of the audio signal are all The portion where the generation of the audio waveform is well controlled by the source is shown. Since the area is estimated using both of them, the portion where the generation of the audio waveform is well controlled can be specified with high reliability.
  • FIG. 1 shows a computer system that executes a program according to an embodiment of the present invention. It is a figure showing appearance.
  • FIG. 2 is a block diagram of the computer system shown in FIG.
  • FIG. 3 is a diagram showing the overall configuration of a program according to an embodiment of the present invention in the form of a block diagram.
  • FIG. 4 is a diagram schematically showing a configuration of audio data.
  • FIG. 5 is a block diagram of the acoustic / prosodic analysis unit 92 shown in FIG.
  • FIG. 6 is a block diagram of the cepstrum analysis unit 94 shown in FIG.
  • FIG. 7 is a block diagram of the standardization and integration section 144 shown in FIG.
  • FIG. 8 is a block diagram of the optimizer 98 of the formant shown in FIG.
  • FIG. 9 is a block diagram of the AQ index calculator 100 shown in FIG.
  • FIG. 10 is a diagram showing a display example by a program according to an embodiment of the present invention.
  • FIG. 11 shows the estimated value of the glottal airflow waveform, the estimated value of the derivative of the glottal airflow waveform, and the spectrum of the estimated glottal airflow waveform at a point in time when the tone is determined to be a tone.
  • FIG. 11 shows the estimated value of the glottal airflow waveform, the estimated value of the derivative of the glottal airflow waveform, and the spectrum of the estimated glottal airflow waveform at a point in time when the tone is determined to be a tone.
  • FIG. 12 shows the estimated value of the glottal airflow waveform, the estimated value of the derivative of the glottal airflow waveform, and the spectrum of the estimated glottal airflow waveform at a point in time determined as a breath sound in the voice data.
  • FIG. 13 is a scatter plot showing the relationship between the sensed breathiness and the acoustically measured AQ index.
  • “Pseudo-syllable” refers to a break in a signal determined from a speech signal by predetermined signal processing, and corresponds to an estimated syllable in the case of Japanese speech.
  • “Sonorant energy” is defined as a certain frequency (for example, 6 (Energy in the frequency range of 0 Hz to 3 kHz), which is expressed in decibels.
  • centerofreliability means that the characteristics of the target audio waveform can be extracted reliably from the audio waveform as a result of the signal processing on the audio waveform. Refers to the area.
  • “Dip” refers to a constricted part of a figure such as a graph. In particular, it refers to the part of the waveform formed by the distribution of values on the time axis that changes as a function of time, corresponding to the minimum value.
  • Unreliability is a measure of unreliability. Unreliability is the opposite concept of reliability.
  • FIG. 1 shows an external view of the computer system 20 used in this embodiment
  • FIG. 2 shows a block diagram of the computer system 20. Note that the computer system 20 shown here is merely an example, and various other configurations are possible.
  • the computer system 20 includes a computer 40 and a monitor 42, a keyboard 46, and a mouse 48, all of which are connected to the computer 40.
  • the computer 40 further has a built-in CD-ROM (Com- amD-D iSc-Re-A-D e-Memo ry) drive 50 and a floppy disk (F-i-e-xib-le-D-Isk) drive 52.
  • computer system 20 further includes a printer 44 connected to computer 40, which is not shown in FIG.
  • the computer 40 further includes a bus 66 connected to a CD-ROM drive 50 and an FD drive 52, and a central processing unit (CPU) 56 connected to the bus 66.
  • ROM Read—On 1 y Memory
  • ROM Read—On 1 y Memory
  • RAM Random Access Memory
  • hard disk 54 storing an audio database described later.
  • Software for realizing the system of the embodiment described below is, for example, recorded on a recording medium such as a CD-ROM 62 and distributed, and is transmitted to a computer via a reading device such as a CD-ROM drive 50. It is read into 40 and stored on hard disk 54.
  • the CPU 56 executes this program, it reads this program from the hard disk 54, stores it in the RAM 60, and reads and executes an instruction from an address designated by a program counter (not shown).
  • the CPU 56 reads the data to be processed from the hard disk 54 and stores the processing result in the hard disk 54 as well.
  • the distribution form of the software is not limited to the form fixed to the storage medium as described above. For example, it may be distributed by receiving data from another computer connected through a network. In addition, a distribution form in which part of the software is stored in the hard disk 54 in advance, and the rest of the software is imported to the hard disk 54 via the network and integrated at execution time may be possible. .
  • FIG. 3 is a functional diagram showing the program of the present embodiment as a device as a device.
  • this device 80 performs the following processing on audio data 82 stored on hard disk 54, and processes each unit (eg, syllable) included in the audio data. This is for calculating and outputting the AQ index described above for each case.
  • audio data is 32 msec per frame. It is framed beforehand.
  • the device 80 performs an FFT (Fast Fourier Transform: FFT) on the audio data, and uses the output of the FFT processing unit 90 to output the audio waveform represented by the audio data.
  • FFT Fast Fourier Transform
  • the syllables are generated stably by the speaker's vocalization mechanism.
  • a cepstrum analysis of the audio data 82, and the output of the FFT processing unit 90 is used to extract the region (hereinafter referred to as “pseudo-syllable nucleus”).
  • Cepstrum analysis unit 94 for estimating the “center of fluctuation” or simply “center of reliability”.
  • the device 80 further extracts, as the pseudo-syllable center, only those in the pseudo-syllable nucleus output from the acoustic 'prosodic analysis unit 92', among the centers of the high-reliability 'small fluctuation parts' output by the cepstrum analysis unit 94
  • the pseudo-syllable center extraction unit 96 and the speech data corresponding to the pseudo-syllable center extracted by the pseudo-syllable center extraction unit 96 perform the initial formant estimation and optimization processing, And performs signal processing such as adaptive filtering on the audio data using the formant values output from the formant optimization section 98.
  • an AQ index calculation unit 100 for estimating the glottal airflow waveform by integrating the differential and estimating the glottal airflow waveform based on the differential, and calculating the AQ index based on them. .
  • FIG. 4 is a diagram schematically showing a configuration of audio data.
  • voice data waveform 102 is divided into frames each having a period of 32 ms ec, and is digitized by shifting every 8 msec between the preceding and succeeding frames. Then, in the processing described later, for example, at a certain time t0, the processing is performed with the first frame at the head, and at the next time t1, the processing is performed with the next second frame shifted by 8 ms ec at the head. Perform processing.
  • FIG. 5 is a block diagram of the acoustic / prosodic analyzer 92 shown in FIG. Referring to Fig.
  • the sound 'prosody analysis unit 92 determines whether or not the frame to be processed is a voiced section using the pitch of the sound source measured from the speech waveform (see this method for details). Based on the output of the pitch determination unit 110 and the FFT processing unit 90, the waveform distribution on the time axis of the sonorant energy in a predetermined frequency region (60 Hz to 3 kHz) is calculated. Energy calculation unit 112 and the sonorant energy calculation unit 112 apply a convex hull algorithm to the contour of the distribution waveform on the time axis, which is calculated by the sonorant energy.
  • the dip detector 114 detects the dip in the contour of the distribution waveform on the time axis and divides the input speech into pseudo-syllables (see references 4 and 5 for this method).
  • detection 1 Starting from the point at which the maximum value of sonolan energy (SEpeak) is obtained in the pseudo-syllable obtained by (14), the sonolant energy is larger than a predetermined threshold value (0.8xSEpeak) to the left and right, and the pitch is determined.
  • the frame determined as a voiced section by the unit 110, and in the same pseudo-syllable, are expanded one frame at a time, so that a voiced 'energy determination unit 1 for outputting a pseudo-syllable nucleus. 1 and 6 are included.
  • FIG. 6 is a block diagram of the cepstrum analysis unit 94 shown in FIG.
  • cepstrum analysis section 94 performs a selective / linear prediction (S LP) analysis on the speech waveform of speech data 82 to obtain an S LP cepstrum coefficient.
  • the formant estimator 132 uses the linear cepstrum-formant mapping proposed in Ref. 6 and learns mappings for carefully measured vowel formants using the same data subset. See Reference 7 for this learning.
  • the cepstrum analysis unit 94 further includes a cepstrum regeneration unit 1336 for recalculating the cepstrum coefficient Ci simp based on the estimated formant frequency and the like, and a logarithmic transformation and cosine conversion on the output of the FFT processing unit 90.
  • I DCT Inverse transform
  • Logarithmic transform and inverse DCT section 140 to calculate the FFT cepstrum coefficient, and cepstrum coefficient C ⁇ mp calculated by cepstrum regenerator 1 36 and logarithmic transform and inverse DCT section 140
  • the cepstrum distance d f 2 defined by the following equation is calculated as a value representing the difference from the calculated FFT cepstrum coefficient C ⁇ , and the unreliable value of the value such as the formant frequency estimated by the formant
  • a cepstrum distance calculation unit 144 for outputting as an index indicating gender.
  • the formant estimator 1 32, the cepstrum regenerator 1 36, the cepstrum distance calculator 1 42, and the logarithmic transform and inverse DCT unit 1 400 allow the formant frequency and other information estimated based on the results of linear prediction analysis.
  • the unreliability of the value is calculated.
  • the cepstrum analysis unit 94 further includes a ⁇ cepstrum calculation unit 13 4 for calculating a ⁇ cepstrum from the cepstrum coefficient output from the linear prediction analysis unit 130, and a ⁇ cepstrum output from the ⁇ cepstrum calculation unit 13 4
  • an inter-frame variance calculation unit 138 for calculating the variance of the magnitude of the spectrum change in five frames including that frame based on the frame.
  • the output of the inter-frame variance calculator 1 38 represents the contour of the distribution waveform on the time axis of the local spectrum movement, and its minimum value is the articulatory voice proposed in Reference 8. According to scientific theory, it can be considered to indicate controlled movement (CM).
  • the cepstrum analysis unit 94 further includes a value indicating the unreliability of the estimated formant frequency output from the cepstrum distance calculation unit 14 2 and a local value for each frame output from the inter-frame variance calculation unit 1 38.
  • a standardization and integration unit that receives the inter-frame variance value, normalizes and integrates both values, and outputs a value indicating the unreliability of the audio signal for each frame as a distribution waveform on the time axis 14 4 and the standardization and integration unit 1 4 4
  • FIG. 7 is a block diagram of the standardization and integration section 144 shown in FIG. Seventh Referring to the figure, the normalization and integration section 144 performs the first standardization for normalizing the cepstrum distance output by the cepstrum distance calculation section 144 to a value of [0, 1]. And a second normalization unit 16 for normalizing the inter-frame variance value calculated by the inter-frame variance calculation unit 13 for each frame to a value of [0, 1].
  • an interpolation processing unit for performing linear interpolation processing so that the position on the time axis of the local inter-frame variance value coincides with the sampling timing of the cepstrum distance output from the cepstrum distance calculation unit 14 2
  • an average calculation unit 166 for averaging and outputting the output of the first normalization unit 160 and the output of the interpolation processing unit 164 for each frame.
  • the output of the average calculator 166 represents the contour of the distribution waveform on the time axis of the integrated value. By detecting the dip (minimum part) of the contour of this waveform by the reliability center candidate output unit 144, the part with the lowest unreliability (the part with the highest reliability) is selected as the candidate for the center of reliability. Can be identified.
  • FIG. 8 is a block diagram of the formant optimizing unit 98 shown in FIG.
  • a formant optimizing unit 98 includes an FFT processing unit 180 for performing FFT processing on a speech waveform, and a logarithmic conversion and an output of the FFT processing unit 180.
  • a distance minimization processing unit 186 for optimizing the estimated formant value by the hill-climbing method.
  • the formant estimated value optimized by the distance minimizing processing unit 186 is provided to the AQ index calculating unit 100 as an output of the formant optimizing unit 98.
  • AQ index calculating section 100 selectively selects only frequency components of 70 Hz or more from a portion of 64 msec at a position corresponding to the syllable center in the audio signal.
  • a high-pass filter 200 for passing through the filter and a filter for selectively passing only the frequency component equal to or less than the sum of the optimized fourth formant frequency and the band from the output of the high-pass filter 200
  • An adaptive inverse filter 204 for performing an adaptive inverse filter process on the output of the low-pass filter 202 using the first to fourth formant frequencies.
  • the output of the adaptive inverse filter 204 is a differential waveform of the glottal airflow waveform.
  • the AQ index calculation unit 100 further integrates an output of the adaptive inverse filter 204 to output a glottal airflow waveform, and a peak-to-peak output of the integration circuit 206.
  • the output of the ratio calculation circuit 2 1 2 is the AQ index.
  • the device described above operates as follows. First, the used audio data 82 will be described. This audio data was used in Ref. 9 and was created by recording the recitations of three stories of women who are native speakers of Japanese. The story was pre-written to create emotions of anger, joy, and sadness. Each of the stories contains utterances that are at least 400 sentences long (approximately 30,000 phonemes). Each utterance was stored and processed in a separate speech waveform file.
  • the utterance data of each sentence is processed as follows after the FFT processing by the FFT processing unit 90.
  • the processing is broadly divided into two systems and executed.
  • the first system is an acoustic / prosodic process performed by the acoustic / prosodic analysis unit 92
  • the other system is an acoustic / phonological process performed by the cepstrum analysis unit 94.
  • the sonorant energy in the 6 OHz to 3 kHz frequency domain is calculated by the sonorant energy calculation unit 112 shown in FIG.
  • the dip detector 114 detects a dip from the contour of the entire waveform of the utterance data of one sentence output by the sonorant energy calculator 112 by the convex hull algorithm. With this dip, this utterance is divided into pseudo-syllables.
  • the energy determination unit 1 ⁇ 6 finds a point in the pseudosyllable where the sonorant energy is maximum (SEpeak). This point is the initial point of the pseudosyllable nucleus.
  • the voiced 'energy determination unit 1 16 further starts from the initial point of this pseudosyllable nucleus, To the frame, until the sonorant energy reaches 0.8 XS Epeak or less, or the pitch determination unit 110 determines that the voice is not voiced, or the frame outside the pseudo-syllable reaches the frame of the pseudo-syllable nucleus. spread. Thus, the boundaries of the pseudo-syllable nuclei are determined. This information is provided to the pseudo-syllable center extracting unit 96. Note that the threshold value of 0.8 is used here, but this is only an example, and it is necessary to change the threshold value to an appropriate value depending on the application.
  • linear predictive analysis section 130 performs linear predictive analysis on one input utterance sentence, and outputs SLP cepstrum coefficients.
  • the ⁇ cepstrum calculating section 13 4 calculates a ⁇ cepstrum based on the SLP cepstrum coefficient, and gives the ⁇ cepstrum to the inter-frame variance calculating section 1 38.
  • the inter-frame variance calculation unit 138 calculates, for each frame, the variance of the local spectral change in five frames including that frame based on the ⁇ cepstrum coefficient. It is considered that the smaller the variance is, the more the utterance of the speaker is controlled by the speaker. Conversely, if the variance is large, the control by the speaker is not well controlled.
  • the output of 38 is considered to indicate the degree to which the speaker's utterance is unreliable (unreliable).
  • formant estimating unit 132 estimates the frequencies and bands of first to fourth formants based on SLP cepstrum coefficients using linear cepstrum formant mapping.
  • the cepstrum regeneration unit 1336 calculates the cepstrum coefficient in reverse based on the first to fourth formants estimated by the formant estimation unit 132, and supplies the cepstrum coefficient to the cepstrum distance calculation unit 142.
  • Logarithmic transformation and inverse DCT unit 140 performs logarithmic transformation and inverse cosine transformation on voice data under the same frame as processed by formant estimation unit 132 and cepstrum regeneration unit 1336. To calculate the FFT cepstrum coefficient and give it to the cepstrum distance calculation unit 142.
  • the cepstrum distance calculation unit 14 2 calculates the distance between the cepstrum coefficient from the cepstrum regeneration unit 1 36 and the cepstrum coefficient from the logarithmic transform and inverse DCT unit 140 according to the above equation (1). I do. The result is considered to be a waveform representing the distribution on the time axis of the value indicating the unreliability of the formant estimated by the formant estimating unit 132. Cepstrum distance calculator 1 4 2 gives this result to the normalization and integration section 144.
  • the first normalization section 160 of the normalization and integration section 144 calculates from the estimated formant value output from the cepstrum distance calculation section 144 of FIG.
  • the obtained unreliability value for each frame is normalized to the range of [0, 1] and provided to the average calculation unit 1666.
  • the second normalizing section 16 2 sets the local inter-frame variance value calculated for each frame, output by the inter-frame variance calculating section 1 38 in FIG. 6, within the range [0, 1].
  • the result is normalized and given to the interpolation processing section 16 4.
  • the interpolation processor 164 performs a linear operation so that a value corresponding to the sampling point of each frame output from the first normalizer 160 is obtained for each value of the second normalizer 162.
  • the average calculation unit 166 normalizes the output of the first normalization unit 160 and the output of the interpolation processing unit 164 for each frame, and calculates the unreliable distribution on the time axis based on the result.
  • the integrated waveform shown is output to the reliability center candidate output unit 144.
  • the central symptom output unit 146 of the reliability detects the dip of the contour of the integrated waveform output from the normalization and integration unit 144 by the convex hull algorithm and identifies the frame.
  • the extracted information is output to the pseudo-syllable center extracting unit 96 in FIG. 3 as a candidate for the center of reliability.
  • the pseudo-syllable center extraction unit 96 shown in FIG. 3 includes the sound and prosody analysis unit 92 in the center of reliability given from the reliability center candidate output unit 144 shown in FIG. Only those within the pseudosyllable nucleus given by are extracted as pseudosyllable centers.
  • the pseudo-syllable center extracting unit 96 gives this information to the formant optimizing unit 98, and the formant optimizing unit 98 uses this information to perform pseudo-syllable Calculate the AQ index at the center.
  • the length of the pseudo-syllable center is five consecutive frames.
  • One frame is 32 mse.
  • consecutive frames are not 8 ms apart from each other Therefore, the total of 5 frames corresponds to a voice period of 64 msec.
  • the AQ index at the center of these pseudo-syllables can be calculated directly from the glottal airflow waveform obtained in the AQ index calculator 100 in FIG.
  • the estimation of the glottal airflow itself is affected by the resonance of the vocal tract, which is equivalent to the original formant, and its reliability is taken from the 64 msec data of the original speech waveform. Depends on whether it can be removed. Therefore, the AQ index obtained by such calculations is unreliable.
  • the apparatus of the present embodiment further optimizes the formant frequency as follows.
  • FFT processing section 180 performs FFT processing on the speech waveform for each frame.
  • Logarithmic transformation and inverse DCT section 182 perform logarithmic transformation and inverse cosine transformation on the output of FFT processing section 180.
  • Cepstrum distance calculation section 1884 calculates the distance between the cepstrum coefficient output from logarithmic transformation and inverse DCT section 182 and the estimation of the cepstrum coefficient provided from distance minimization processing section 1886.
  • the distance minimization processing unit 186 minimizes the distance by the hill-climbing method so that the distance calculated by the cepstrum distance calculation unit 184 becomes the minimum value, starting from the value of the cepstrum coefficient representing the estimated formant value.
  • the value of the cepstrum coefficient given from the processing unit 186 is further optimized, and the estimated formant value when the minimum value is obtained is output.
  • the internal configuration of the AQ index calculator 100 is shown in FIG. 9, and with reference to FIG. 9, the speech data at the center of the pseudo-syllable first passes through the high-pass filter 200, and as a result, 7 OH z
  • the following low frequency noise is removed: Further, the spectrum information in the frequency domain higher than the fourth formant is removed by the adaptive low-pass filter 202. Then, the effects of the first to fourth formants are removed by the adaptive inverse filter 204.
  • the output of the adaptive inverse filter 204 is a good estimate of the derivative of the glottal airflow waveform.
  • an estimated value of the glottal airflow waveform is obtained.
  • the peak of the glottal airflow waveform by the maximum peak-to-peak amplitude detection circuit 208 The maximum value of the two-peak amplitude is detected.
  • the maximum negative peak amplitude detection circuit 210 detects the maximum negative amplitude in the cycle of the differential waveform of the glottal airflow.
  • the AQ index at the pseudo-syllable center is calculated. Is obtained.
  • the AQ index obtained in this way reliably represents the characteristics of the original speech data at each pseudosyllable center (the degree between tension and breath sounds).
  • an appropriate label corresponding to the AQ index is attached as paralinguistic information to a portion of the audio data that indicates a certain AQ index, and a desired AQ index is used for speech synthesis. If the speech data is used, speech synthesis can be performed not only with simple text but also with paralinguistic information.
  • FIGS. 10 to 12 show examples of screen display when the device of this embodiment is realized by a computer.
  • the display window of this program contains the audio data waveform 240, the audio label 242 attached to the audio data, and the distribution of the fundamental frequency waveform on the time axis.
  • the contour of the unreliable distribution waveform on the time axis which is an integrated waveform of the contour of the non-reliability, and the glottal AQ index at the pseudo-syllable center calculated as described above, Vocal tract plane estimated at each pseudosyllable center Functions 2 5 6 are shown.
  • the thick line and vertical line 2 32 shown in the display area of the audio data waveform 240 and the thick vertical line shown in the display area of the sonolan energy fluctuation of the sonorant energy indicate the boundaries of pseudo-syllables.
  • the thin vertical line 230 shown in the display area of the audio data waveform 240 and the outline 240 of the fluctuation of the sonorant energy and the waveform outline 240 of the fundamental frequency appear in the display area.
  • the thin vertical lines shown indicate the boundaries of the pseudosyllable nuclei.
  • Unreliable waveform 25 The vertical line shown in the display area of 52 is the minimum value (dip) of the waveform, and the area where the AQ index is calculated with that as the center is the area with the highest reliability. It is.
  • the periods and values for which the AQ index was calculated are indicated by horizontal bars. The higher the vertical position of the horizontal bar, the closer to a tense sound, and the lower the vertical position, the closer to a breath sound.
  • FIG. 11 shows the estimated value of the glottal airflow waveform at the time indicated by the dotted box 262 on the left side of FIG. 27, its differential waveform, and the estimated glottal
  • the spectrum 274 of the airflow waveform is shown.
  • the AQ index 254 is high, ie, the utterance at this point is close to a tense tone.
  • the waveform of the glottal airflow at this time is close to a sawtooth shape, and is far different from the sine-wave waveform. Also, the differentiated waveform changes sharply.
  • Figure 12 shows the estimated value of the glottal airflow waveform at the time indicated by the pox of the spring at point f in Fig. 10, the derivative waveform of the glottal airflow, and the estimated glottal airflow.
  • the waveform spectrum 284 is shown.
  • the AQ index 254 is low, that is, the utterance at this time is close to breath sound.
  • the glottal airflow waveform at this time is close to a clean sine curve.
  • the differential waveform is also gentle.
  • the above-mentioned speech data is actually processed to extract pseudo-syllable centers, and an AQ index is calculated for each pseudo-syllable center, while sounds corresponding to those pseudo-syllable centers are extracted.
  • the correlation between the impression that humans perceive when listening and the AQ index was investigated as follows.
  • the center of reliability extracted using the above-mentioned device is 22.000, and the corresponding glottal airflow waveform and AQ index for each of them and the RMS (Root Mean) of the original speech waveform S quare) energy (dB) was calculated.
  • RMS Root Mean of the original speech waveform S quare
  • Perceptual evaluation is performed based on statistical information calculated for this data set.
  • a subset consisting of 60 stimuli was selected for the analysis.
  • the average of the AQ index for each emotion is extremely low or extremely high, or the standard deviation ( ⁇ ) of the distribution, or the average of the AQ index.
  • standard deviation
  • the time lengths of the 60 pseudo-syllabic nuclei selected in this way ranged from 32 msec to 56 Omsec, with an average of 171 msec.
  • One subject with normal auditory ability performed an auditory assessment of each of these short-term stimuli. Subjects listened to each stimulus as many times as necessary in a quiet office environment using high-quality headphones, and for each stimulus, according to two scales, each of which only described "breathing” and "strength", 7 levels was scored. The scoring of each subject was normalized in proportion to the range [0, 1], respectively, and based on the normalized scores, the breathability and intensity of all 11 subjects for each of the 60 stimuli were evaluated. The average value was calculated.
  • FIG. 13 is a scatter diagram comparing the breathability determined as described above with the AQ index value measured acoustically.
  • the linear correlation coefficient for these 60 pairs of values was 0.77. This correlation is not necessarily high, but it does support the clear trend that the higher the measured value of AQ for a stimulus, the higher the average breathability felt for that stimulus.
  • a closer look at some of the points that are furthest from the bestfit straight line assumed on the scatter plot in Figure 13 reveals the following sources of error.
  • the formant discontinuity in five frames, the high breathiness in some syllable nuclei not included in five frames, and the five frames The strong effect of the adjacent nasal on the vowel part of.
  • a face can be realized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

明細書 音節核の抽出装置およびそのプログラム製品
技術分野
この発明は、 一般的には音声波形からその特徴を高レ、信頼 I"生で示す部分を抽出 するための技術に関し、 特に、 音声波形の発生源の状態を高い信頼性で推定する ために有効な領域を、 音声波形から抽出するための技術に関する。 背景技術
[用語の定義 1]
最初に、 この節で使用される用語について定義する。
「緊張音」 (p r e s s e d s o u n d ) とは、 発声の際に声門が緊張して いるために声門を気流が通過しにくく、 かつ通過をする際の気流の加速度が大き くなるように発声される音のことをいう。 この場合、 声門気流波形はサインカー ブから大きく変形し、 その微分波形の傾きが局部的に大きくなる。 音声がこうし た特徴を有する場合、 「緊張性」 の音声であると呼ぶことにする。
「気息音」 (b r e a t hy s o un d) とは、 発声の際に声門に緊張がな いために気流が通過しやすく、 その結果声門気流波形がサインカーブに近くなる ように発声される音をいう。 この場合、 声門気流波形の微分波形の傾きが局部的 に大きくなることはない。 音声がこうした特徴を有する場合、 「気息性」 の音声 であると呼ぶことにする。
「地声」 (モーダル、 mo d a l) とは、 緊張音と気息音との中間の発声のこ とを ヽう。
「AQ指数」 (Am 1 i t u d e Q u o t i e n t ) とは、 声門 (声帯) 気流の波形のピークツーピークの振幅を、 声門気流の波形の微分の振幅の最小値 で除した値のことをいう。
[従来の技術] 音声認識と並んで重要な音声研究分野に、 音声合成がある。 最近の信号処理技 術の発達により、 音声合成が既に多くの分野で利用されている。 し力、し、 今まで の音声合成は単にテキスト情報を音声化しているだけともいえ、 人間が発話する 際のような微妙な感情の表現までは行なえない。
たとえば、 人間が発話する際には、 怒り、 喜び、 および悲しみなどの情報が、 発話内容以外の情報、 つまり声色などにより伝達される。 このように発話に付随 する、 言語以外の情報をパラ言語情報と呼ぶ。 これらはテキス ト情報のみでは表 わせない情報である。 しかし従来の'音声合成では、 こうしたパラ言語情報を伝達 することは難しかった。 マンマシンインタフェースをより効率的なものとするた めには、 テキスト情報だけではなくパラ言語情報も音声合成の際に伝えられるよ うにすることが望ましい。
こうした問題を解決するために、 種々の発話スタイルで連続的に音声合成を行 なおうとする試みがある。 ひとつの具体的な方策として次のようなものがある。 すなわち、 発話を録音してデータ処理可能な形でデータベース化し、 さらにその 中で所望の特徴 (怒り、 喜び、 悲しみなど)を表わすと思われる発話単位にそれら の特徴を示すラベルを付ける。 音声合成の際には所望のパラ言語情報に対応した ラベルが付けられた音声を利用する。
し力 し、 十分な広さの発話スタイルをカバーできるようにデータベースを構築 しょうとすれば、 膨大な量の録音音声を処理しなければならない。 そのために、 自動的にオペレータの介在なく確実にそうした特徴の抽出とラベル付け処理とを 行なえるようにする必要がある。
以下、 パラ言語情報の一例を挙げる。 発話スタイルの一つとして、 緊張音と気 息音という区別がある。 緊張音では声門が緊張しているために、 どちらかという と強い発声となる。 一方気息音では、 音声はサインカープに近く、 強いという印 象はない。 したがって緊張音と気息音という区別も発話スタイルの一つとして重 要であり、 その程度を数量化できれば、 パラ言語情報として利用できる可能性が 緊張音と気息音との音質を区別する音響学的な指標については、 今までにも数 多くの研究がなされてきた。 たとえば文末にリス トした参考文献 1を参照された い。 し力 し、 そうした研究の多くは、 持続的に安定して母音を発音している間に 録音された発話 (または歌) を対象としたものに限定されていた。 実際、 膨大な 量の発話の録音データから得られた音響測定データに基づいて、 緊張性と気息性 との程度を信頼性高く計量しなければならないというのは非常に大きな問題であ り、 かつ実現された場合には非常に有用となるであろう。
スぺクトルドメインでの音源の属性を推定しょうとする様々な手段が提案され て来たが、 それよりも直接的な推定が、 声門気流の波形とその導関数との組み合 わせによって得られるはずである。 そうした推定の一例が文末の参考文献 2にお いて提案された A Q指数である。
参考文献 2では、 A Q指数の一つの利点として、 音圧レベル (S P L ) から比 較的独立していること、 およびその値が主として発音の質的なものに依存してい ることがあげられている。 他の利点として考えられるのは、 このパラメータが純 粋に振幅ドメインのものであって、 種々の発話スタイルに応じた、 推定された声 門波形の時間ドメインの特徴量を測定する際の誤差源に対して比較的免疫性があ ることである。 また、 参考文献 2の著者らによれば、 様々な発音スタイルで 「a」 という母音を持続して発音した場合、 4人の男性と 4人の女性との全てに 対して、 発音を気息性のものから緊張性に変えていくにしたがって、 A Q指数の 値は単調に減少したとのことである (参考文献 2の第 1 3 6頁) 。 したがって A Q指数は、 ここで我々が解決しようとしている問題に関して有効である可能性が 高い。 ただし、 A Q指数が有効となるためには、 次の条件が満足される必要があ る。
1 ) 録音された通常の発話について、 ロバストでかつ信頼性高く A Q指数を 測定できること、 および
2 ) そうした条件で測定された知覚上の特徴が顕著な部分を確認することがで きること。
このような条件を満足させるためには、 自然に発話された音声などの物理量を 表わす音声波形から、 いかにして信頼性高く音声波形の特徴を表わすパラメータ を抽出できるかが重要である。 特に音声の場合のように、 発話が話者によりその 細部まで完全にはコントロールされているわけでない場合、 また様々な人が様々 なスタイルで発話する場合には、 パラメータを抽出すべき部分として信頼性がお ける場所と、 そうでない場所とが存在することが考えられる。 そのため、 音声波 形のうちのどの部分を処理対象とするかが重要である。 またそのために、 日本語 のように音節が発音の単位となる場合、 音節の中心部 (仮にこれを 「音節核」 と 呼ぶ。 ) を誤りなく抽出できるようにすることが必要である。 発明の開示
したがって、 本発明の目的は、 音声波形の特徴を高い信頼性で示す部分を自動 的な処理で決定することを可能とすることである。 本発明の他の目的は、 音声波 形の特徴を高い信頼性で示す部分をオペレータの介在なく決定することを可能と することである。 本発明のさらに他の目的は、 音節核を高い信頼性で自動的に抽 出できるようにすることである。
本発明の第 1の局面は、 複数個の節に分解可能な、 物理的量を表わす音声波形 のデータに基づいて、 音声波形の特徴を高い信頼性で示す部分を決定するための 装置と、 そうした装置としてコンピュータを動作させるプログラムに関する。 こ の装置は、 データから音声波形のうちの所定周波数領域のエネルギーの時間軸上 の分布を算出し、 当該分布および音声波形のピッチに基づいて、 音声波形の各節 のうち、 音声波形の発生源によって安定して発生されている領域を抽出するため の抽出手段と、 データから音声波形のスペクトルの時間軸上の分布を算出し、 当 該スペクトルの時間軸上の分布に基づいて、 音声波形のうち、 その変化が発生源 により良好に制御されている領域を推定するための推定手段と、 推定手段の出力 と、 発生源によって安定して発生されている領域として抽出手段により抽出され、 かつ発生源によってその変化が良好に制御されていると推定手段によって推定さ れた領域を音声波形の高信頼性部分として決定するための手段とを含む。
抽出手段による抽出結果と、 推定手段による推定結果との双方に基づいて音声 波形の高信頼性部分を決定するので、 決定結果がより確実なものとなる。
抽出手段は、 データに基づいて、 音声波形の各区間が有声区間か否かを判定す るための有声判定手段と、 音声波形の所定周波数領域のエネルギーの時間軸上の 分布の波形の極小部で音声波形を節に分離するための手段と、 音声波形のうち、 各節内で、 当該節内のエネルギーのピークを含み、 かつ有声判定手段により有声 区間であると判定された区間であって、 かつ所定周波数領域のエネルギーが所定 のしきレ、値以上である領域を抽出するための手段とを含んでもよレ、。
有声と判定された区間であって、 かつ所定周波数領域のエネルギーが所定のし きい値以上である領域が抽出されるので、 発話者が安定して発声している区間を 確実に抽出できる。
また好ましくは、 推定手段は、 音声波形に対する #泉形予測分析を行ないフオル マント周波数の推定値を出力するための線形予測手段と、 データを用いて、 線形 予測手段によるフォルマント周波数の推定値の非信頼性の時間軸上の分布を算出 するための第 1の算出手段と、 線形予測手段の出力に基づいて、 音声波形の時間 軸上のスぺクトル変化の局所的な分散の、 時間軸上の分布を算出するための第 2 の算出手段と、 第 1の算出手段により算出されたフォルマント周波数の推定値の 非信頼性の時間軸上の分布と、 第 2の算出手段により算出された音声波形のスぺ クトル変化の局所的な分散の時間軸上の分布との双方に基づいて、 音声波形の変 化が発生源により良好に制御されている領域を推定するための手段とを含む。 フォルマント周波数の推定値の非信頼性と、 音声波形の時間軸上のスぺクトル 変化の局所的な分散との双方に基づいて、 音声波形の変化が発生源により良好に 制御されている領域が推定される。 振動変化の発生源 (たとえば発話者) が明確 な意図をもって振動を制御している領域が推定できるので、 そうした領域から振 動の特徴量を算出すれば、 算出された特徴量の信頼性が高くなることが期待でき る。
決定するための手段は、 推定手段により音声波形の変化が発生源により良好に 制御されていると推定された領域のうち、 抽出手段により抽出された領域に含ま れる領域を音声波形の高信頼性部分として決定するための手段を含んでもよい。 音声波形の変化が発生源により良好に制御されていると推定された領域であつ て、 かつ発生源により音声波形が安定に発生されているもののみを高信頼性部分 として決定する。 したがって真に信頼性が高い部分を抽出できる。
本発明の他の局面は、 音声信号を擬似音節に分離し、 さらに各擬似音節の核部 分を抽出するための擬似音節核抽出装置と、 そうした装置としてコンピュータを 動作させるプログラムとに関する。 この擬似音節核抽出装置は、 音声信号の各区 間が有声区間か否かを判定するための有声判定手段と、 音声信号の所定周波数領 域のエネルギーの時間的な分布の波形の極小部で音声信号を擬似音節に分離する ための手段と、 音声信号のうち、 各擬似音節内でのエネルギーのピークを含み、 かつ有声判定手段により有声区間であると判定された区間であって、 かつ所定周 波数領域のエネルギーが所定のしきい値以上である領域を当該擬似音節の核とし て抽出するための手段とを含む。
有声区間であると判定された区間であって、 かつ所定周波数領域のエネルギー が所定のしきい値以上である領域が擬似音節の核として抽出されるので、 発話者 が安定して発声しているときの音声を抽出することができる。
本発明のさらに他の局面は、 音声信号の特徴を高い信頼性で示す部分を決定す るための装置と、 そうした装置としてコンピュータを動作させるプログラムとに 関する。 当該装置は、 音声信号に対する線形予測分析を行なうための線形予測手 段と、 線形予測手段によるフォルマントの推定値と、 音声信号とに基づいて、 フ オルマントの推定値の非信頼性の時間軸上の分布を算出するための第 1の算出手 段と、 線形予測手段による/線形予測分析の結果に基づいて、 音声信号のスぺクト ル変化の局所的な分散の時間軸上の分布を算出するための第 2の算出手段と、 第 1の算出手段により算出されたフォルマント周波数の推定値の非信頼性の時間軸 上の分布と、 第 2の算出手段により算出された音声波形のスぺク トル変化の局所 的な分散の時間軸上の分布との双方に基づいて、 音声波形の変化が発生源により 良好に制御されている領域を推定するための手段とを含む。
フォルマントの推定値の非信頼性の時間軸上の分布も、 音声信号のスぺク トル 変化の局所的な分散の時間軸上の分布も、 その極小部ではいずれも音声信号のう ちでその発生源により音声波形の発生が良好に制御されている部分を示す。 これ らの双方を用いて領域を推定するので、 音声波形の発生が良好に制御されている 部分を信頼性高く特定することができる。 図面の簡単な説明
第 1図は、 本発明の一実施例のプログラムを実行するコンピュータシステムの 外観を示す図である。
第 2図は、 第 1図に示すコンピュータシステムのプロック図である。
第 3図は、 本発明の一実施例のプログラムの全体構成をプロック図形式で示す 図である。
第 4図は、 音声データの構成を模式的に示す図である。
第 5図は、 第 3図に示す音響'韻律分析部 9 2のブロック図である。
第 6図は、 第 3図に示すケプストラム分析部 9 4のプロック図である。
第 7図は、 第 6図に示す規格化および統合部 1 4 4のプロック図である。 第 8図は、 第 3図に示すフォルマントの最適化部 9 8のプロック図である。 第 9図は、 第 3図に示す A Q指数計算部 1 0 0のブロック図である。
第 1 0図は、 本発明の一実施例のプログラムによる表示例を示す図である。 第 1 1図は、 音声データのうち、 緊張音と判断される一時点での声門気流波形 の推定値、 声門気流波形の微分の推定値、 および推定された声門気流波形のスぺ クトルを示す図である。
第 1 2図は、 音声データのうち、 気息音と判断される一時点での声門気流波形 の推定値、 声門気流波形の微分の推定値、 および推定された声門気流波形のスぺ クトルを示す図である。
第 1 3図は、 感知された気息性と音響的に測定された A Q指数との間の関連を 示す散布図である。 発明を実施するための最良の形態
以下に述べる本発明の実施例は、 コンピュータおよびコンピュータ上で動作す るソフトウェアにより実現される。 もちろん、 以下に述べる機能の一部又は全部 を、 ソフトウェアでなくハードウェアで実現することも可能である。
[用語の定義 2 ] .
以下、 本実施例の説明で使用される用語について定義する。
「擬似音節」 とは、 音声信号から所定の信号処理によって決定される信号の切 れ目のことを指し、 日本語音声の場合の音節を推定したものに対応する。
「ソノラントエネルギー」 とは、 音声信号のうちで、 所定周波数 (たとえば 6 0Hz〜3 kHzの周波数領域) のエネノレギーのことをいい、 デシベルで表わさ れる。
「信頼性の中心」 (c e n t e r o f r e l i a b i l i t y) とは、 音 声波形に対する信号処理の結果、 音声波形のうちで、 対象となる音声波形の特徴 を信頼性高く抽出することができるとみなされることとなった領域のことをいう。
「ディップ」 とは、 グラフなどの図形がくびれた部分のことをいう。 特に、 時 間の関数として変化するような値の時間軸上の分布により形成される波形のうち、 極小値に対応する部分をいう。
「非信頼性」 とは、 信頼性のなさを表わす尺度のことをいう。 非信頼性は信頼 性の逆の概念である。
第 1図に、 本実施例で利用されるコンピュータシステム 20の外観図を、 第 2 図にコンピュータシステム 20のプロック図を、 それぞれ示す。 なおここに示す コンピュータシステム 20はあくまで一例であり、 この他にも種々の構成が可能 である。
第 1図を参照して、 コンピュータシステム 20は、 コンピュータ 40と、 いず れもこのコンピュータ 40に接続されたモニタ 42、 キーボード 46、 およびマ ウス 48を含む。 コンピュータ 40にはさらに、 CD— ROM (C om a c t D i s c R e a d-On l y Memo r y) ドライブ 50と、 FD (F i e x i b l e D i s k) ドライブ 5 2とが内蔵されている。
第 2図を参照して、 コンピュータシステム 20はさらに、 コンピュータ 40に 接続されるプリンタ 44を含むが、 これは第 1図には示していない。 またコンビ ユータ 40はさらに、 CD— ROMドライブ 50および FDドライブ 5 2に接続 されたバス 6 6と、 いずれもバス 6 6に接続された中央演算装置 (C e n t r a 1 P r o c e s s i n g Un i t : CPU) 56、 コンピュータ 40のブー トアッププログラムなどを記憶した ROM (R e a d— On 1 y Me mo r y) 58、 CPU 5 6が使用する作業エリアおよび CPU 56により実行される プログラムの格納エリアを提供する RAM (R a n d om A c c e s s Me mo r y) 6 0、 および後述する音声データベースを格納したハードディスク 5 4を含む。 以下に述べる実施例のシステムを実現するソフトウェアは、 たとえば、 C D— R OM 6 2のような記録媒体上に記録されて流通し、 C D— R OMドライブ 5 0 のような読取装置を介してコンピュータ 4 0に読込まれ、 ハードディスク 5 4に 格納される。 C P U 5 6がこのプログラムを実行する際には、 ハードディスク 5 4からこのプログラムを読み出して R AM 6 0に格納し、 図示しないプログラム カウンタによって指定されるァドレスから命令を読出して実行する。 C P U 5 6 は、 処理対象のデータをハードディスク 5 4から読出し、 処理結果を同じくハー ドディスク 5 4に格納する。
コンピュータシステム 2 0の動作自体は周知であるので、 ここではその詳細に ついては繰り返さない。
なお、 ソフトウ アの流通形態は上記したように記憶媒体に固定された形には 限定されない。 たとえば、 ネットワークを通じて接続された他のコンピュータか らデータを受取る形で流通することもあり得る。 また、 ソフトウェアの一部が予 めハードディスク 5 4中に格納されており、 ソフトウェアの残りの部分をネット ワーク経由でハードディスク 5 4に取込んで実行時に統合するような形の流通形 態もあり得る。
一般的に、 現代のプログラムはコンピュータのオペレーティングシステム (O S ) によって提供される汎用の機能を利用し、 それらを所望の目的にしたがって 組織ィヒした形態で実行することにより前記した所望の目的を達成する。 したがつ て、 以下に述べる本実施例の各機能のうち、 O Sまたはサードパーティが提供す る汎用的な機能を含まず、 それら汎用的な機能の実行順序の組合せだけを指定す るプログラム (群) であっても、 それらを利用して全体的として所望の目的を達 成する制御構造を有するプログラム(群) である限り、 それらが本発明の技術的 範囲に含まれることは明らかである。
本実施例のプログラムを装置とみなして機能的に示したのが第 3図以下のプロ ック図である。 第 3図を参照して、 この装置 8 0は、 ハードディスク 5 4に格納 された音声データ 8 2に対して以下に説明する処理を行なって、 音声データに含 まれる各処理単位 (たとえば音節) ごとに前述した A Q指数を算出し出力するた めのものである。 なお、 音声データは後述するように 1フレーム 3 2 m s e cと なるように予めフレーム化されている。
装置 80は、 音声データに対して高速フーリエ変換 (F a s t F o u r i e r T r a n s f o rm : FFT) を行なう F F T処理部 90と、 F F T処理部 90の出力を用い、 音声データにより表わされる音声波形のうちの 60Hz〜3 kHzの周波数領域のエネルギーの時間的変化および音声のピッチの変化に基づ いて、 音声データにより表わされる音声波形の各音節のうち、 話者の発声機構に よって安定して発生されている領域 (これを以後 「擬似音節核」 と呼ぶ。 ) とを 抽出する音響 ·韻律分析部 92と、 音声データ 82に対してケプストラム分析を 行ない、 さらに、 F FT処理部 90の出力を用いてケプストラム分析の結果音声 スぺクトルの変化が少なく、 音声データの特徴を信頼性高く抽出できると思われ る部分 (これを 「高信頼性 '小変動部の中心」 または 「高信頼'小変動の中心」 ま たは単に 「信頼性の中心」 と呼ぶ。 ) を推定するためのケプストラム分析部 94 とを含む。
装置 80はさらに、 ケプストラム分析部 94の出力する高信頼性 '小変動部の 中心の中で、 音響'韻律分析部 92の出力する擬似音節核の中にあるものだけを 擬似音節中心として抽出するための擬似音節中心の抽出部 96と、 擬似音節中心 の抽出部 96によつて抽出された擬似音節中心に対応する音声データに対して、 フォルマントの初期推定と最適化処理とを行なって最終的なフォルマントの推定 値を出力するためのフォルマントの最適化部 98と、 音声データに対して、 フォ ルマントの最適化部 98から出力されるフォルマント値を用いた適応的フィルタ 処理などの信号処理を行なって声門気流波形の微分を推定し、 さらにそれを積分 することによつて声門気流波形を推定し、 それらに基づいて A Q指数を計算する ための AQ指数計算部 100とを含む。
第 4図は、 音声データの構成を模式的に示す図である。 第 4図を参照して、 音 声データ波形 102は、 それぞれ 32ms e cごとのフレームに分けられ、 かつ 前後のフレーム間では 8 m s e cごとにずらしてデジタノレ化されている。 そして、 後述する処理では、 たとえばある時点 t 0では第 1のフレームを先頭として処理 をし、 次の時点 t 1では 8ms e cずれた次の第 2のフレームを先頭として処理 をする、 という形で処理を行なっていく。 第 5図は、 第 3図に示す音響 ·韻律分析部 9 2のブロック図である。 第 5図を 参照して、 音響'韻律分析部 9 2は、 音声波形から測定される音源のピッチを用 いて、 処理対象のフレームが有声区間か否かを判定する (この方法については参 考文献 3を参照) ためのピッチ判定部 1 1 0と、 F FT処理部 90の出力に基づ いて所定周波数領域 (60Hz〜3 kH z) のソノラントエネルギの時間軸上の 波形分布を算出するためのソノラントエネルギ算出部 1 1 2と、 ソノラントエネ ノレギ算出部 1 1 2によって算出されるソノラントエネルギの時間軸上の分布波形 の輪郭に対して凸包ァルゴリズムを適用することにより、 ソノラントエネルギの 時間軸上の分布波形の輪郭の中のディップを検出して、 入力音声を擬似音節に分 割する (この方法については参考文献 4および 5を参照) ためのディップ検出部 1 14と、 ディップ検出部 1 14によって得られた擬似音節中の、 ソノラントェ ネルギの最大値 (SEpeak) が得られる点を起点として、 その左右に、 ソノラン トエネルギが所定のしきい値 (0. 8xSEpeak) より大きく、 かつピッチ判定 部 1 1 0によって有声区間であると判定されたフレームであって、 かつ同じ擬似 音節中のフレームを 1フレームずつ広げていくことにより、 擬似音節核を出力す るための有声'エネルギ判定部 1 1 6とを含む。
第 6図は、 第 3図に示すケプストラム分析部 94のブロック図である。 第 6図 を参照して、 ケプストラム分析部 94は、 音声データ 8 2の音声波形に対して選 択的/線形予測 (S e l e c t i v e L i n e a r P r e d i c t i o n : S LP) 分析を行なって、 S LPケプストラム係数 C f,iを出力するための線形予測 分析部 1 3 0と、 このケプストラム係数に基づいて先頭の 4つのフォルマントの 周波数と帯域との初期推定値を算出するためのフォルマント推定部 1 3 2とを含 む。 フォルマント推定部 1 3 2は、 参考文献 6により提案された線形ケプストラ ム一フォルマントマッピングを利用し、 かつ同じデータのサブセットを使用して 注意深く測定された母音フォルマントに対するマッピングを学習させてある。 こ の学習については、 参考文献 7を参照されたい。
ケプストラム分析部 94はさらに、 推定されたフォルマント周波数などに基づ いてケプストラム係数 Cisimpを再計算するためのケプストラム再生成部 1 3 6と、 F FT処理部 90の出力に対して対数変換およびコサイン逆変換 (I DCT) を 行なって F F Tケプストラム係数を算出するための対数変換および逆 D C T部 1 4 0と、 ケプストラム再生成部 1 3 6により計算されたケプストラム係数 C ^mp と、 対数変換および逆 D C T部 1 4 0により計算された F F Tケプストラム係数 C严との間の差を表わす値として次の式により定義されるケプストラム距離 d f 2 を計算し、 フォルマント推定部 1 3 2によって推定されたフォルマント周波数な どの値の非信頼性を表わす指標として出力するためのケプストラム距離計算部 1 4 2とをさらに含む。
d} = Sum, {/2 . (cfmp - c 7 Y } (1)
フォルマント推定部 1 3 2、 ケプストラム再生成部 1 3 6、 ケプストラム距離 計算部 1 4 2、 および対数変換および逆 D C T部 1 4 0により、 線形予測分析の 結果に基づいて推定されたフォルマント周波数などの値の非信頼性が算出される。 ケプストラム分析部 9 4はさらに、 線形予測分析部 1 3 0の出力するケプスト ラム係数から Δケプストラムを算出する為の Δケプストラム算出部 1 3 4と、 Δ ケプストラム算出部 1 3 4の出力する Δ ケプストラムに基づいて、 各フレーム ごとに、 そのフレームを含む 5フレームのスペク トル変化の大きさの分散を算出 する為のフレーム間分散算出部 1 3 8とを含む。 フレーム間分散算出部 1 3 8の 出力は、 局所的なスぺクトルの動きの時間軸上の分布波形の輪郭を表わすものと なり、 その極小値は、 参考文献 8で提案されている調音音声学理論にならってい えば、 制御された動き C M (Controlled Movement) を示すものと考えることが できる。
さらにケプストラム分析部 9 4は、 ケプストラム距離計算部 1 4 2の出力する フォルマント周波数の推定値の非信頼性を示す値と、 フレーム間分散算出部 1 3 8の出力する各フレームごとの局所的なフレーム間分散値とを受け、 両者の値を 規格化し統合して、 フレームごとの音声信号の非信頼性を示す値の時間軸上の分 布波形として出力するための規格化および統合部 1 4 4と、 規格化および統合部 1 4 4の出力する非信頼性の値の時間軸上の分布波形により形成される波形の輪 郭のディップを凸包アルゴリズムにより検出して、 信頼性の中心候補として出力 するための信頼性の中心候補出力部 1 4 6とを含む。
第 7図は、 第 6図に示す規格化および統合部 1 4 4のブロック図である。 第 7 図を参照して、 規格化および統合部 1 4 4は、 ケプストラム距離計算部 1 4 2に より出力されたケプストラム距離を [ 0, 1 ] の値に規格化するための第 1の規 格化部 1 6 0と、 フレーム間分散算出部 1 3 8が各フレームごとに算出するフレ ーム間分散の値を [ 0, 1 ] の値に規格化するための第 2の規格化部 1 6 2と、 局所的なフレーム間分散の値の時間軸上の位置を、 ケプストラム距離計算部 1 4 2の出力するケプストラム距離のサンプリングタイミングと一致させるように線 形補間処理を行なうための補間処理部 1 6 4と、 第 1の規格化部 1 6 0の出力と 補間処理部 1 6 4の出力とを 1フレームごとに平均して出力するための平均計算 部 1 6 6とを含む。 平均計算部 1 6 6の出力は、 統合された値の時間軸上の分布 波形の輪郭を表わす。 信頼性の中心候補出力部 1 4 6によってこの波形の輪郭の ディップ (極小部) を検出することにより、 非信頼性が最も低い部分 (信頼性が 最も高い部分)を信頼性の中心の候補として特定することができる。
第 8図は、 第 3図に示すフォルマントの最適化部 9 8のブロック図である。 第 8図を参照して、 フォルマントの最適化部 9 8は、 音声波形に対して F F T処理 を行なうための F F T処理部 1 8 0と、 F F T処理部 1 8 0の出力に対して対数 変換およびコサイン逆変換を行なうための対数変換および逆 D C T部 1 8 2と、 対数変換および逆 D C T部 1 8 2の出力する F F Tケプストラム係数と、 後述す るフオルマントの推定値との間の距離を計算するためのケプストラム距離計算部 1 8 4と、 信頼性の中心候補の各々における第 1〜第 4のフォルマント周波数の 初期推定値を初期値とし、 ケプストラム距離計算部 1 8 4が計算する距離を最小 にするように山登り法によってフォルマントの推定値を最適化するための距離最 小化処理部 1 8 6とを含む。 距離最小化処理部 1 8 6によって最適化されたフォ ルマント推定値がフォルマントの最適化部 9 8の出力として A Q指数計算部 1 0 0に与えられる。
第 9図を参照して、 A Q指数計算部 1 0 0は、 音声信号のうちで音節中心に相 当する位置の 6 4 m s e cの部分のうち、 7 0 H z以上の周波数成分のみを選択 的に通過させるためのハイパスフィルタ 2 0 0と、 ハイパスフィルタ 2 0 0の出 力のうち、 最適化された第 4フォルマント周波数とその帯域との和以下の周波数 成分のみを選択的に通過させるための適応的ローパスフィルタ 2 0 2と、 適応的 ローパスフィルタ 2 0 2の出力に対し、 第 1〜第 4フォルマント周波数を用いた 適応的逆フィルタ処理を行なうための適応的逆フィルタ 2 0 4とを含む。 適応的 逆フィルタ 2 0 4の出力は、 声門気流波形の微分波形となる。
A Q指数計算部 1 0 0はさらに、 適応的逆フィルタ 2 0 4の出力を積分して声 門気流波形を出力するための積分回路 2 0 6と、 積分回路 2 0 6の出力のピーク ツーピークの最大振幅を検出するための最大ピーク間振幅検出回路 2 0 8と、 適 応的逆フィルタ 2 0 4の出力の負のピークの最大振幅を検出するための最大の負 のピーク振幅検出回路 2 1 0と、 最大の負のピーク振幅検出回路 2 1 0の出力に 対する最大ピーク間振幅検出回路 2 0 8の出力の比を算出するための比計算回路 2 1 2とを含む。 比計算回路 2 1 2の出力が A Q指数である。
以上に説明した装置は以下のように動作する。 まず、 使用された音声データ 8 2について説明する。 この音声データは参考文献 9で使用されたものであり、 日 本語のネイティブスピー力である女性の 3つの物語の朗読を録音して作成された ものである。 この物語は、 怒りと、 喜びと、 悲しみという感情を引き起こすよう に予め作成されていたものである。 物語の各々は 4 0 0文の長さ (おおよそ 3 0, 0 0 0音素) 以上の発話を含む。 各発話は別々の音声波形ファイルに格納され処 理された。
各文の発話データは F F T処理部 9 0による F F T処理の後、 以下のようにし て処理される。 処理は大きく見て二つの系統に分かれ実行される。 第 1の系統は 音響'韻律分析部 9 2で行なわれる音響韻律的な処理であり、 他の系統はケプス トラム分析部 9 4が行なう音響音声学的な処理である。
音響韻律的な系統の処理では、 第 5図に示すソノラントエネルギ算出部 1 1 2 によって 6 O H z〜3 k H z周波数領域のソノラントエネルギが算出される。 ソ ノラントエネルギ算出部 1 1 2の出力する一文の発話データの全体波形の輪郭か ら、 ディップ検出部 1 1 4が凸包アルゴリズムによりディップを検出する。 この ディップにより、 この発話文は擬似音節に分割される。
有声.エネルギ判定部 1 丄 6は、 擬似音節の中でソノラントエネルギが最大 ( S Epeak) となる点を見つける。 この点が擬似音節核の初期点である。 有声' エネルギ判定部 1 1 6はさらに、 この擬似音節核の初期点から始めて、 その左右 に向かい、 ソノラントエネルギが 0 . 8 X S Epeak以下のフレーム、 またはピッ チ判定部 1 1 0が有声でないと判定したフレーム、 または擬似音節の外のフレー ムに出会うまで、 擬似音節核の範囲を広げる。 こうして擬似音節核の境界が決定 される。 この情報は擬似音節中心の抽出部 9 6に与えられる。 なお、 ここでしき い値として 0 . 8の値を用いているが、 これは単なる例であって,応用によりこ のしきレ、値を適切な値に代える必要がある。
第 6図を参照して、 入力された一つの発話文に対して線形予測分析部 1 3 0が 線形予測分析を行ない、 S L Pケプストラム係数を出力する。 Δケプストラム算 出部 1 3 4がこの S L Pケプストラム係数に基づいて Δ ケプストラムを算出し、 フレーム間分散算出部 1 3 8に与える。 フレーム間分散算出部 1 3 8は、 この Δ ケプストラム係数に基づき、 各フレームごとに、 そのフレームを含む 5フレーム の中での局所的なスぺクトル変化の分散を計算する。 この分散が小さいほど発話 者の発声が発話者によりょく制御されていると考えられ、 逆にこの分散が大きい と話者による制御がよくされていないと考えられるので、 フレーム間分散算出部 1 3 8の出力は発話者の発声が信頼されない程度 (非信頼性) を表わすと考えら れる。
第 6図をさらに参照して、 フォルマント推定部 1 3 2は、 線形ケプストラムフ オルマントマッピングを用い、 S L Pケプストラム係数に基づいて第 1〜第 4フ オルマントの周波数と帯域とを推定する。 ケプストラム再生成部 1 3 6は、 フォ ルマント推定部 1 3 2により推定された第 1〜第 4フォルマントに基づいて逆に ケプストラム係数を算出しケプストラム距離計算部 1 4 2に与える。 対数変換お よび逆 D C T部 1 4 0は、 フォルマント推定部 1 3 2およびケプストラム再生成 部 1 3 6が処理したのと同じフレームのもとの音声データに対して対数変換およ びコサイン逆変換を行なって F F Tケプストラム係数を算出しケプストラム距離 計算部 1 4 2に与える。 ケプストラム距離計算部 1 4 2は、 ケプストラム再生成 部 1 3 6からのケプストラム係数と対数変換および逆 D C T部 1 4 0からのケプ ストラム係数との間の距離を前述の式 (1 ) にしたがって計算する。 この結果得 られるのは、 フォルマント推定部 1 3 2が推定したフォルマントの非信頼性を示 す値の時間軸上の分布を表わす波形と考えられる。 ケプストラム距離計算部 1 4 2は、 この結果を規格化および統合部 1 4 4に与える。
第 7図を参照して、 規格化および統合部 1 4 4の第 1の規格化部 1 6 0は、 第 6図のケプストラム距離計算部 1 4 2の出力する、 フォルマントの推定値から算 出された各フレームごとの非信頼性値を [ 0 , 1 ] の範囲に正規化して平均計算 部 1 6 6に与える。 第 2の規格化部 1 6 2は、 第 6図のフレーム間分散算出部 1 3 8が出力する、 フレームごとに計算された局所的なフレーム間分散の値を [ 0, 1 ] の範囲に正規化して補間処理部 1 6 4に与える。 補間処理部 1 6 4は、 第 2 の規格化部 1 6 2の各値に対し、 第 1の規格化部 1 6 0の出力する各フレームの サンプリングボイントに対応する値が得られるように線形補間処理を行なって平 均計算部 1 6 6に与える。 平均計算部 1 6 6は、 フレームごとに、 第 1の規格化 部 1 6 0の出力と補間処理部 1 6 4の出力とを正規化し、 その結果を時間軸上の 非信頼性の分布を示す統合された波形として信頼性の中心候補出力部 1 4 6に出 力する。
信頼性の中心候捕出力部 1 4 6は、 凸包ァルゴリズムにより、 規格化およぴ統 合部 1 4 4の出力する統合された波形の輪郭のディップを検出して、 そのフレー ムを特定する情報を第 3図の擬似音節中心の抽出部 9 6に対して信頼性の中心の 候補として出力する。
第 3図に示す擬似音節中心の抽出部 9 6は、 第 6図に示す信頼性の中心候補出 力部 1 4 6から与えられた信頼性の中心の中で、 音響'韻律分析部 9 2から与え られた擬似音節核の中にあるもののみを擬似音節中心として抽出する。
以上の処理によって、 音声データのうちで音声データの特徴を抽出する、 また は音声データをラベル付けするために適した高信頼性 '小変動領域を示す情報が 得られたことになる。 したがって、 この情報によって特定されるフレームについ て所望の処理を行なえばよい。 本実施例の装置では、 擬似音節中心の抽出部 9 6 はこの情報をフォルマントの最適化部 9 8に与え、 フォルマントの最適化部 9 8 はこの情報を用いて、 以下のようにして擬似音節中心における A Q指数を算出す る。
なお、 本実施例の装置では、 擬似音節中心の長さは連続する 5フレームとする。 1フレームは 3 2 m s e。であり、 連続するフレームは互いに 8 m s e cずつず れているから、 5フレームの全体では 6 4 m s e cの音声期間に相当する。 これらの擬似音節中心における A Q指数は、 第 9図の A Q指数計算部 1 0 0中 で得られる声門気流の波形により直接計算することができる。 しカゝし、 声門気流 の推定自体、 もともとのフォルマントに相当する声道の共振によつて影響されて おり、 その信頼性は共振の影響をもとの音声波形の 6 4 m s e cのデータから取 り除くことができるかに依存している。 したがって、 そのような計算によって得 られた A Q指数は信頼できないものとなる。
一方、 擬似音節中心におけるフォルマントは、 スペクトルがよく一致している という意味で、 既によい推定となっているが、 本実施例の装置では、 さらに以下 のようにしてフォルマント周波数を最適化する。
すなわち、 第 8図を参照して、 F F T処理部 1 8 0は音声波形に対してフレー ムごとに F F T処理を行なう。 対数変換および逆 D C T部 1 8 2は F F T処理部 1 8 0の出力に対して対数変換およびコサイン逆変換を行なう。 ケプストラム距 離計算部 1 8 4は、 対数変換および逆 D C T部 1 8 2の出力するケプストラム係 数と距離最小化処理部 1 8 6から与えられるケプストラム係数の推定 との間の 距離を計算する。 距離最小化処理部 1 8 6は、 フォルマントの推定値を表わすケ ブストラム係数の値を起点として、 ケプストラム距離計算部 1 8 4により計算さ れる距離が最小値となるように山登り法によって距離最小化処理部 1 8 6から与 えられたケプストラム係数の値をさらに最適化し、 最小値が得られるときのフォ ルマント推定値を出力する。
A Q指数計算部 1 0 0の内部構成は第 9図に示されており、 この第 9図を参照 して、 擬似音節中心における音声データはまずハイパスフィルタ 2 0 0を通り、 その結果 7 O H z以下の低周波数の雑音が除去される。 さらに適応的ローバスフ ィルタ 2 0 2によって第 4フォルマントより高い周波数領域のスぺク トル情報が 除去される。 そして、 適応的逆フィルタ 2 0 4によって第 1〜第 4フォルマント による影響が除去される。
その結果、 適応的逆フィルタ 2 0 4の出力は声門気流の波形の微分のよい推定 値となる。 これを積分回路 2 0 6で積分することにより声門気流の波形の推定値 が得られる。 最大ピーク間振幅検出回路 2 0 8によって声門気流の波形のピーク ツーピークの振幅の最大値を検出する。 最大の負のピーク振幅検出回路 2 1 0に よって声門気流の微分波形のサイクル内での負の最大の振幅を検出する。 最大ピ ーク間振幅検出回路 2 0 8の出力の、 最大の負のピーク振幅検出回路 2 1 0の出 力に対する比を比計算回路 2 1 2で計算することにより、 擬似音節中心における A Q指数が得られる。
こうして得られた A Q指数は、 各擬似音節中心におけるもとの音声データの特 徴 (緊張音 -気息音の間の度合い) を信頼性高くあらわしている。 これら各擬似 音節中心に対して A Q指数を計算し、 さらにこれら得られた A Q指数を補間する ことにより、 擬似音節中心以外の部分の A Q指数を推定することもできる。 そう することにより、 音声データのうち、 一定の A Q指数を示す部分に、 当該 A Q指 数に対応した適切なラベルをパラ言語情報として付けておき、 音声合成の際には、 所望の A Q指数を有する音声データを使用すれば、 単なるテキストだけでなく、 パラ言語情報をも含んだ形での音声合成を行なうことが可能になる。
第 1 0図〜第 1 2図に、 本実施例の装置をコンピュータにより実現した際の画 面表示例を示す。
第 1 0図を参照して、 このプログラムによる表示ウィンドウには、 音声データ 波形 2 4 0と、 音声データに対して付された音声ラベル 2 4 2と、 基本周波数の 波形の時間軸上の分布波形の輪郭 2 4 4と、 ソノラントエネルギの変動の時間軸 上の分布波形の輪郭 2 4 6と、 Δケプストラムから計算されたスぺクトル変化の 局所的な分散の時間軸上の分布波形の輪郭 2 4 8と、 フオルマントー F F Tケプ ストラム距離の時間軸上の分布波形の輪郭 2 5 0と、 スぺクトル変化の局所的な 分散の分布波形の輪郭 2 4 8およびフォルマント一ケプストラム距離の分布波形 の輪郭 2 5 0を統合した波形である非信頼性の時間軸上の分布波形の輪郭 2 5 2 と、 上述のようにして算出された擬似音節中心での声門の A Q指数 2 5 4と、 各 擬似音節中心で推定された声道の面積関数 2 5 6とが示されている。
音声データ波形 2 4 0の表示領域に示された太レ、縦線 2 3 2と、 ソノラントェ ネルギの変動の輪郭 2 4 6の表示領域に示された太い縦線とは擬似音節の境界を 示す。 音声データ波形 2 4 0の表示領域に示された細い縦線 2 3 0と、 ソノラン トエネルギの変動の輪郭 2 4 6および基本周波数の波形輪郭 2 4 4の表示領域に 示された細い縦線は擬似音節核の境界を示す。
非信頼性の波形 2 5 2の表示領域に示された縦線は波形の極小値部分 (ディッ プ) であり、 そこを中心として A Q指数が計算されている部分が最も信頼性の高 い部分である。 なお A Q指数が計算された期間および値は横棒で示されており、 横棒の縦位置が高いほど緊張音に近く、 低いほど気息音に近い。
第 1 1図には、 第 1 0図の左側の点線のボックス 2 6 2で示される時点での声 門気流波形の推定値 2 7 0と、 その微分波形 2 7 2と、 推定された声門気流波形 のスぺクトル 2 7 4とが示されている。 第 1 0図のボックス 2 6 2に対応する時 点では A Q指数 2 5 4は高く、 すなわちこの時点の発声は緊張音に近い。 第 1 1 図に示すとおり、 このときの声門気流の波形はのこぎり形に近く、 サインゥエー ブの波形からは遠く異なっている。 また、 微分波形は鋭く変化している。
第 1 2図には、 第 1 0図の点 f泉のポックス 2 6 0で示される時点での声門気流 波形の推定値 2 8 0と、 その微分波形 2 8 2と、 推定された声門気流波形のスぺ クトル 2 8 4とが示されている。 第 1 0図のボックス 2 6 0に対応する時点では A Q指数 2 5 4は低く、 すなわちこの時点の発声は気息音に近い。 第 1 2図に示 すとおり、 このときの声門気流の波形はきれいなサインカーブに近い。 微分波形 も緩やかなものとなっている。
上に述べた装置を用い、 前述した音声データを実際に処理して擬似音節中心を 抽出し、 各擬似音節中心に対して A Q指数を算出する一方、 それらの擬似音節中 心に対応する音を人間が聞いたときに感ずる感想と、 A Q指数との相関を以下の ようにして調査した。
上記した装置を用いて抽出された信頼性の中心は 2 2, 0 0 0個であり、 その 各々について対応する声門気流波形および A Q指数と、 もとの音声波形の RM S (R o o t M e a n S q u a r e ) エネルギ( d B ) とを算出した。 これら 信頼性の中心のうち、 同一の音節核中に存在しかつ互いの A Q指数がほぼ一致し ているものをまとめ、 さらにそれら信頼性の中心のうち、 統合された非信頼性の 値が 0 . 2以上のものを棄却することにより、 聴覚刺激として使用可能と思われ る音節核の数は 1 5, 0 0 0をわずかに超えたものとなった。
このデータセットに対して算出された統計情報に基づき、 知覚上の評価を行な うために 6 0の刺激からなるサブセットを選択した。 具体的には、 前述した 3つ の感情を表わすデータベースの各々について、 極めて低い、 または極めて高い、 または各感情に対する A Q指数の平均値マイナスその分布の標準偏差 (σ) 近辺、 または A Q指数の平均値プラス標準偏差近辺、 の 4つのカテゴリのいずれかに A Q指数が属するような信頼性の中心を含む音節核を 5つずつ選択した。
このようにして選択された 6 0個の擬似音節核の時間的長さは 3 2 m s e cか ら 5 6 O m s e cの範囲であり、 その平均は 1 7 1 m s e cであった。 通常の聴 覚的能力を有する 1 1人の被験者が、 これら短時間の刺激の各々について聴覚的 評価を行なった。 被験者は静粛なオフィス環境で、 高音質のヘッドフォンを用い、 各刺激を必要な回数だけ聞き、 各刺激について、 それぞれ 「気息性」 および 「強 さ」 とだけ説明した二つのスケールにしたがい、 7段階で採点した。 各被験者の 採点は各々比例により [ 0 , 1 ] の範囲に正規化され、 正規化した点数に基づい て、 6 0個の刺激の各々についての 1 1人の被験者全ての気息性および強さに関 する平均値を算出した。
第 1 3図は、 上のようにして調べた気息性と、 音響的に測定した A Q指数の値 とを比較する散布図である。 これら 6 0対の値に対する線形相関係数は 0 . 7 7 であった。 この相関は必ずしも高いものではないが、 刺激に対する A Qの測定値 が高くなれば、 その刺激に対して感じられる気息性も平均すれば高くなるという 明らかな傾向があることを裏付けるものといえる。 第 1 3図の散布図上で想定さ れるべストフイツトの直線から最も遠い位置に存在する点のいくつかをより詳細 に調べると、 誤差の原因として次のようなものが浮かび上がる。 すなわち、 動的 制約が欠如しているために生ずる、 5つのフレーム中でのフォルマントの非連続 性、 5つのフレームに含まれていない音節核の一部において生ずる高い気息性、 および 5つのフレーム中の母音部分に対して、 隣接した鼻音がおよぼす強い影響 などである。
さらに、 第 1 3図からは、 中位から下位の A Q指数を有する刺激に対しては、 気息性の感じ方が広いことに気づく。 これは、 気息性が低い刺激に気息性に関す る点数をつけることが難しく、 むしろ地声または緊張音的な発音という側面から 点数付けしたほうがよりよく特徴を表わせるのではないか、 という直感的な理解 を裏付けるものと思われる。
ここでは図としては示していないが、 強さの感じ方を、 同じ信頼性の中心にお いて測定された RM Sエネルギと比較するための散布図も作成した。 その相関係 数は 0 . 8 3となり、 より高度な重み付けを用いて強さの感じ方を測定している わけではないにもかかわらず、 その関係の強さを裏付けるものとなっている。 以上のように本実施例では、 音響'韻律的分析と、 ケプストラム分析とを組合 せて、 ( i ) 録音された自然な発声中の擬似音節の信頼性の中心の位置を決定す るための、 ( i i ) 参考文献 2で提案された A Q指数により定量化された音源の 属性を測定するための、 全くオペレータが介在する必要がない方法および装置を 実現した。 そして、 その方法および装置を用いて行なった音声知覚の実験の結果 は、 擬似音節核中で知覚された気息性と強い相関を持つ、 頑健性をもって測定で きる値としての A Q指数の重要性を確認するものであった。 実際、 前述したよう な誤差源が存在しているにもかかわらず、 A Q指数と気息性の知覚との間に見出 された相関により、 音質パラメータとしての A Q指数をさらに研究する必要があ ることを確認することができた。
今回開示された実施の形態は単に例示であって、 本発明が上記した実施の形態 のみに制限されるわけではない。 本発明の範囲は、 発明の詳細な説明の記載を参 酌した上で、 特許請求の範囲の各請求項によって示され、 そこに記載された文言 と均等の意味および範囲内でのすベての変更を含む。
[参考文献]
丄) Sundberg, J. (1987) . The science of the singing voice, Northern Illinois University Press, Delcalb, Illinois.
( 2 ) Alku, P. & Vilkman, E. (1996) . "Amplitude domain quotient for characterization of the glottal volume velocity waveform estimated by inverse filtering", SpeechComm. , 18 (2), 131 - 138.
( 3 ) .Hermes, D. (1988) . "Measurement of pitch by subharmonic summation", J. Acoust.
Soc. Am. 83 (1), 257-264.
( 4 ) Merrael stein, P. (1975) , 、、 Automatic segmentation of speech into syllabic units", J. Acoust. Soc. Am. 58 (4), 880-883.
( 5 ) Lea, W. A. (1980) . "Prosodic aids to speech recognition", in Lea, W. A. (ed. ) , Trends in Speech Recognition, Prentice-Hall, New Jersey, 166-205.
( 6 ) Broad, D. J. & Clermont, F. (1989) . "Formant estimation by linear transformation of the LPC cepstrum", J. Acoust. Soc. Am. 86 (5), 2013-2017.
( 7 ) Mokhtari, P. , Iida, A. & Campbell, N. (2001) . "Some articulatory correlates of emotion variability in speech : a preliminary study on spoken Japanese vowels", Proc. Int. Conf. on SpeechProcess. , Taejon, Korea, 431-436.
( 8 ) Peterson, G. E. , & Shoup, J. E. (1966) . 、、A physiological theory of phonetics", J. Speech Hear. Res. 9, 5 - 67.
( 9 ) Iida, A. , Campbell, N. , Iga, S. , Higuchi, F. & Yasumura, M. (1998) . "Acoustic nature and perceptual testing of corpora of emotional speech", Proc. 5th Int. Conf. on Spoken Lang. Process., 1559-1562. 産業上の利用可能性
この方法および装置により、 発声単位に対するパラ言語的なラベル付けを、 ォ ペレータの介在なく自動的に行なってデータベースを構築することが容易になる。 そのように所望のラベル付けがされた発声単位のデータベースを用いて音声の連 続合成を行なうことにより、 緊張音から地声、 さらに気息的な発音までの範囲に わたる幅広い発声スタイルを用いた自然な音声合成を使用した
フェースを実現することが可能となる。

Claims

請求の範囲
1 . 音声波形のデータに基づいて、 前記音声波形の特徴を高い信頼性で示す 部分を決定するための装置であって、
前記データから前記音声波形のうちの所定周波数領域のエネルギーの時間軸上 の分布を算出し、 当該分布および前記音声波形のピッチに基づいて、 前記音声波 形の各節のうち、 前記音声波形の発生源によって安定して発生されている領域を 抽出するための抽出手段と、
前記データから前記音声波形のスぺクトルの時間軸上の分布を算出し、 当該ス ぺクトルの時間軸上の分布に基づいて、 前記音声波形のうち、 その変化が前記発 生源により良好に制御されている領域を推定するための推定手段と、
前記推定手段の出力と、 前記発生源によって安定して発生されている領域とし て前記抽出手段により抽出され、 力、つ前記発生源によってその変化が良好に制御 されていると前記推定手段によつて推定された領域を前記音声波形の高信頼性部 分として決定するための手段とを含む、 音声波形の特徴を高い信頼性で示す部分 を決定するための装置。
2 . 前記抽出手段は、
前記データに基づいて、 前記音声波形の各区間が有声区間か否かを判定するた めの有声判定手段と、
前記音声波形の前記所定周波数領域のエネルギーの時間軸上の分布の波形の極 小部で前記音声波形を節に分離するための手段と、
前記音声波形のうち、 各節内で、 当該節内のエネルギーのピークを含み、 かつ 前記有声判定手段により有声区間であると判定された区間であって、 かつ前記所 定周波数領域のエネルギーが所定のしきい値以上である領域を抽出するための手 段とを含む、 請求項 1に記載の装置。
3 . 前記推定手段は、
前記音声波形に対する線形予測分析を行ないフォルマント周波数の推定値を出 力するための線形予測手段と、
前記データを用いて、 前記線形予測手段によるフォルマント周波数の推定値の 非信頼性の時間軸上の分布を算出するための第 1の算出手段と、 前記線形予測手段の出力に基づいて、 前記音声波形の時間軸上のスぺク トル変 化の局所的な分散の、 時間軸上の分布を算出するための第 2の算出手段と、 前記第 1の算出手段により算出された前記フォルマント周波数の推定値の非信 頼性の時間軸上の分布と、 前記第 2の算出手段により算出された前記音声波形の スぺクトル変化の局所的な分散の時間軸上の分布との双方に基づいて、 前記音声 波形の変化が前記発生源により良好に制御されている領域を推定するための手段 とを含む、 請求項 1に記載の装置。
4 . 前記決定するための手段は、 前記推定手段により前記音声波形の変化が 前記発生源により良好に制御されていると推定された領域のうち、 前記抽出手段 により抽出された領域に含まれる領域を前記音声波形の高信頼性部分として決定 するための手段を含む、 請求項 1に記載の装置。
5 . 音声信号を擬似音節に分離し、 さらに各擬似音節の核部分を抽出するた めの擬似音節核抽出装置であって、
前記音声信号の各区間が有声区間か否かを判定するための有声判定手段と、 前記音声信号の所定周波数領域のエネルギ一の時間的な分布の波形の極小部で 前記音声信号を擬似音節に分離するための手段と、
前記音声信号のうち、 各擬似音節内でのエネルギーのピークを含み、 かつ前記 有声判定手段により有声区間であると判定された区間である領域を当該擬似音節 の核として抽出するための手段とを含む、 擬似音節核抽出装置。
6 . 前記抽出するための手段は、 前記音声信号のうち、 各擬似音節内でのェ ネルギ一のピークを含み、 かつ前記有声判定手段により有声区間であると判定さ れた区間であって、 かつ前記所定周波数領域のエネノレギ一が所定のしきい値以上 である領域を当該擬似音節の核として抽出するための手段を含む、 請求項 5に記 載の擬似音節核抽出装置。
7 . 音声信号の特徴を高い信頼性で示す部分を決定するための装置であって、 前記音声信号に対する線形予測分析を行なうための線形予測手段と、
前記線形予測手段によるフォルマントの推定値と、 前記音声信号とに基づいて、 前記フォルマントの推定値の非信頼性の時間軸上の分布を算出するための第 1の 算出手段と、
前記線形予測手段による線形予測分析の結果に基づいて、 前記音声信号のスぺ クトル変化の局所的な分散の時間軸上の分布を算出するための第 2の算出手段と、 前記第 1の算出手段により算出された前記フォルマント周波数の推定値の非信 頼性の時間軸上の分布と、 前記第 2の算出手段により算出された前記音声波形の スぺク トル変化の局所的な分散の時間軸上の分布との双方に基づいて、 前記音声 波形の変化が前記発生源により良好に制御されている領域を推定するための手段 とを含む、 音声信号の特徴を高い信頼性で示す部分を決定するための装置。
8 . コンピュータ上で実行されると、 音声波形のデータに基づいて、 前記音 声波形の特徴を高い信頼性で示す部分を決定するための装置としてコンピュータ を動作させるプログラム製品であって、 前記装置は、
前記データから前記音声波形のうちの所定周波数領域のエネルギーの時間軸上 の分布を算出し、 当該分布および前記音声波形のピッチに基づいて、 前記音声波 形の各節のうち、 前記音声波形の発生源によって安定して発生されている領域を 抽出するための抽出手段と、
+前記データから前記音声波形のスぺクトルの時間軸上の分布を算出し、 当該ス ベク トルの時間軸上の分布に基づいて、 前記音声波形のうち、 その変化が前記発 生源により良好に制御されている領域を推定するための推定手段と、
前記推定手段の出力と、 前記発生源によって安定して発生されている領域とし て前記抽出手段により抽出され、 力つ前記発生源によってその変化が良好に制御 されていると前記推定手段によつて推定された領域を前記音声波形の高信頼性部 分として決定するための手段とを含む、 プログラム製品。
9 . 前記抽出手段は、
前記データに基づいて、 前記音声波形の各区間が有声区間か否かを判定するた めの有声判定手段と、
前記音声波形の前記所定周波数領域のエネルギーの時間軸上の分布の波形の極 小部で前記音声波形を節に分離するための手段と、
前記音声波形のうち、 各節内で、 当該節内のエネルギーのピークを含み、 かつ 前記有声判定手段により有声区間であると判定された区間であって、 かつ前記所 定周波数領域のエネルギーが所定のしきい値以上である領域を抽出するための手 段とを含む、 請求項 8に記載のプログラム製品。
1 0 . 前記推定手段は、
前記音声波形に対する線形予測分析を行ないフォルマント周波数の推定 を出 力するための線形予測手段と、
前記データを用いて、 前記線形予測手段によるフォルマント周波数の推定値の 非信頼性の時間軸上の分布を算出するための第 1の算出手段と、
前記線形予測手段の出力に基づいて、 前記音声波形の時間軸上のスぺクトル変 化の局所的な分散の、 時間軸上の分布を算出するための第 2の算出手段と、 前記第 1の算出手段により算出された前記フォルマント周波数の推定値の非信 頼性の時間軸上の分布と、 前記第 2の算出手段により算出された前記音声波形の スぺクトル変化の局所的な分散の時間軸上の分布との双方に基づいて、 前記音声 波形の変化が前記発生源により良好に制御されている領域を推定するための手段 とを含む、 請求項 8に記載のプロダラム製品。
1 1 . 前記決定するための手段は、 前記推定手段により前記音声波形の変化 が前記発生源により良好に制御されていると推定された領域のうち、 前記抽出手 段により抽出された領域に含まれる領域を前記音声波形の高信頼性部分として決 定するための手段を含む、 請求項 8に記載のプログラム製品。
1 2 . コンピュータ上で実行されると、 音声信号を擬似音節に分離し、 さら に各擬似音節の核部分を抽出するための擬似音節核抽出装置としてコンピュータ を動作させるプログラム製品であって、 前記擬似音節核抽出装置は、
前記音声信号の各区間が有声区間か否かを判定するための有声判定手段と、 前記音声信号の所定周波数領域のエネルギーの時間的な分布の波形の極小部で 前記音声信号を擬似音節に分離するための手段と、
前記音声信号のうち、 各擬似音節内でのエネルギーのピークを含み、 かつ前記 有声判定手段により有声区間であると判定された区間であって、 かつ前記所定周 波数領域のエネルギーが所定のしきい値以上である領域を当該擬似音節の核とし て抽出するための手段とを含む、 プログラム製品。
1 3 . 音声信号の特徴を高い信頼性で示す部分を決定するための装置として コンピュータを動作させるプログラム製品であって、 前記装置は、 前記音声信号に対する線形予測分析を行なうための線形予測手段と、
前記線形予測手段によるフォルマントの推定値と、 前記音声信号とに基づいて、 前記フォルマントの推定値の非信頼性の時間軸上の分布を算出するための第 1の 算出手段と、
前記線形予測手段による線形予測分析の結果に基づいて、 前記音声信号のスぺ クトル変化の局所的な分散の時間軸上の分布を算出するための第 2の算出手段と、 前記第 1の算出手段により算出された前記フォルマント周波数の推定値の非信 頼性の時間軸上の分布と、 前記第 2の算出手段により算出された前記音声波形の スペクトル変化の局所的な分散の時間軸上の分布との双方に基づいて、 前記音声 波形の変化が前記発生源により良好に制御されている領域を推定するための手段 とを含む、 音声信号の特徴を高い信頼性で示す部分を決定するためのプログラム 製品。
1 4 . 音声波形のデータに基づいて、 前記音声波形の特徴を高い信頼性で示 す部分を決定する方法であって、
前記データから前記音声波形のうちの所定周波数領域のエネルギーの時間軸上 の分布を算出し、 当該分布および前記音声波形のピッチに基づいて、 前記音声波 形の各節のうち、 前記音声波形の発生源によって安定して発生されている領域を 抽出するステップと、
前記データから前記音声波形のスペク トルの時間軸上の分布を算出し、 当該ス ベクトルの時間軸上の分布に基づいて、 前記音声波形のうち、 その変化が前記宪 生源により良好に制御されている領域を推定するステップと、
前記推定するステツプの出力と、 前記発生源によつて安定して発生されている 領域として前記抽出するステップにおいて抽出され、 かつ前記発生源によってそ の変化が良好に制御されていると前記推定するステップにおいて推定された領域 を前記音声波形の高信頼性部分として決定するステップとを含む、 方法。
1 5 . 前記抽出するステップは、
前記データに基づいて、 前記音声波形の各区間が有声区間か否かを判定するス テツプと、 前記音声波形の前記所定周波数領域のエネルギーの時間軸上の分布の波形の極 小部を検出し、 当該極小部で前記音声波形を節に分離するステツプと、
前記音声波形のうち、 各節内で、 当該節内のエネ ギ一のピークを含み、 かつ 前記有声判定手段により有声区間であると判定された区間であって、 かつ前記所 定周波数領域のエネルギーが所定のしきい値以上である領域を抽出するステップ とを含む、 請求項 1 4に記載の方法。 '
1 6 . 前記推定するステツプは、
前記音声波形に対する線形予測分析を行ないフォルマント周波数の推定値を出 力するステップと、
前記データを用いて、 前記推定値を出力するステップにより推定されたフオル マント周波数の非信頼性の時間軸上の分布を算出するステップと、
算出された前記フォルマント周波数の非信頼性の時間軸上の分布に基づいて、 前記音声波形の時間軸上のスぺクトル変化の局所的な分散の、 時間軸上の分布を 算出するステップと、
前記算出された前記フォルマント周波数の非信頼性の時間軸上の分布と、 算出 された前記音声波形のスぺクトル変化の局所的な分散の時間軸上の分布との双方 に基づいて、 前記音声波形の変化が前記発生源により良好に制御されている領域 を推定するステップとを含む、 請求項 1 4に記載の方法。
1 7 . 前記決定するステップは、 前記推定するステップにおいて前記音声波 形の変化が前記発生源により良好に制御されていると推定された領域のうち、 前 記抽出するステップにより抽出された領域に含まれる領域を前記音声波形の高信 頼性部分として決定するステップを含む、 請求項 1 4に記載の方法。
1 8 . 音声信号を擬似音節に分離し、 さらに各擬似音節の核部分を抽出する 方法であって、
前記音声信号の各区間が有声区間か否かを判定するステップと、
前記音声信号の所定周波数領域のエネルギーの時間的な分布の波形の極小部で 前記音声信号を擬似音節に分離するステップと、
前記音声信号のうち、 各擬似音節内でのエネルギーのピークを含み、 かつ前記 判定するステツプにおいて有声区間であると判定された区間である領域を当該擬 似音節の核として抽出するステップとを含む、 方法。
1 9 . 前記抽出するステップは、 前記音声信号のうち、 各擬似音節内でのェ ネルギ一のピークを含み、 かつ前記判定するステップにおいて有声区間であると 判定された区間であって、 かつ前記所定周波数領域のエネルギーが所定のしきい 値以上である領域を当該擬似音節の核として抽出するステップを含む、 請求項 1 8に記載の方法。
PCT/JP2003/001954 2002-05-16 2003-02-21 Dispositif d'extraction de noyau syllabique et progiciel associe WO2003098597A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/514,413 US7627468B2 (en) 2002-05-16 2003-02-21 Apparatus and method for extracting syllabic nuclei
CA2483607A CA2483607C (en) 2002-05-16 2003-02-21 Syllabic nuclei extracting apparatus and program product thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002-141390 2002-05-16
JP2002141390A JP3673507B2 (ja) 2002-05-16 2002-05-16 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム

Publications (1)

Publication Number Publication Date
WO2003098597A1 true WO2003098597A1 (fr) 2003-11-27

Family

ID=29544947

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/001954 WO2003098597A1 (fr) 2002-05-16 2003-02-21 Dispositif d'extraction de noyau syllabique et progiciel associe

Country Status (4)

Country Link
US (1) US7627468B2 (ja)
JP (1) JP3673507B2 (ja)
CA (1) CA2483607C (ja)
WO (1) WO2003098597A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457753B2 (en) * 2005-06-29 2008-11-25 University College Dublin National University Of Ireland Telephone pathology assessment
JP4677548B2 (ja) * 2005-09-16 2011-04-27 株式会社国際電気通信基礎技術研究所 パラ言語情報検出装置及びコンピュータプログラム
JP4085130B2 (ja) * 2006-06-23 2008-05-14 松下電器産業株式会社 感情認識装置
CA2657087A1 (en) * 2008-03-06 2009-09-06 David N. Fernandes Normative database system and method
JP4970371B2 (ja) * 2008-07-16 2012-07-04 株式会社東芝 情報処理装置
JP5382780B2 (ja) * 2009-03-17 2014-01-08 株式会社国際電気通信基礎技術研究所 発話意図情報検出装置及びコンピュータプログラム
US20120006183A1 (en) * 2010-07-06 2012-01-12 University Of Miami Automatic analysis and manipulation of digital musical content for synchronization with motion
ITTO20120054A1 (it) * 2012-01-24 2013-07-25 Voce Net Di Ciro Imparato Metodo e dispositivo per il trattamento di messaggi vocali.
US9805738B2 (en) * 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement
WO2015057661A1 (en) * 2013-10-14 2015-04-23 The Penn State Research Foundation System and method for automated speech recognition
US20150127343A1 (en) * 2013-11-04 2015-05-07 Jobaline, Inc. Matching and lead prequalification based on voice analysis
KR102017244B1 (ko) * 2017-02-27 2019-10-21 한국전자통신연구원 자연어 인식 성능 개선 방법 및 장치
CN107564543B (zh) * 2017-09-13 2020-06-26 苏州大学 一种高情感区分度的语音特征提取方法
TR201917042A2 (tr) * 2019-11-04 2021-05-21 Cankaya Ueniversitesi Yeni bir metot ile sinyal enerji hesabı ve bu metotla elde edilen konuşma sinyali kodlayıcı.

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01244499A (ja) * 1988-03-25 1989-09-28 Toshiba Corp 音声素片ファイル作成装置
JPH10260697A (ja) * 1997-03-17 1998-09-29 Matsushita Electric Ind Co Ltd ピッチ波形切り出し基準位置決定方法とその装置
JP2001282277A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP2001306087A (ja) * 2000-04-26 2001-11-02 Ricoh Co Ltd 音声データベース作成装置および音声データベース作成方法および記録媒体

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3649765A (en) * 1969-10-29 1972-03-14 Bell Telephone Labor Inc Speech analyzer-synthesizer system employing improved formant extractor
US4802223A (en) * 1983-11-03 1989-01-31 Texas Instruments Incorporated Low data rate speech encoding employing syllable pitch patterns
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
KR950013552B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 음성신호처리장치
US5577160A (en) * 1992-06-24 1996-11-19 Sumitomo Electric Industries, Inc. Speech analysis apparatus for extracting glottal source parameters and formant parameters
JP2924555B2 (ja) * 1992-10-02 1999-07-26 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
US5479560A (en) * 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5675705A (en) * 1993-09-27 1997-10-07 Singhal; Tara Chand Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary
JP3533696B2 (ja) * 1994-03-22 2004-05-31 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
US7043430B1 (en) * 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
US6535851B1 (en) * 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
JP4201471B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US6493668B1 (en) * 2001-06-15 2002-12-10 Yigal Brandman Speech feature extraction system
JPWO2003107326A1 (ja) * 2002-06-12 2005-10-20 三菱電機株式会社 音声認識方法及びその装置
US7231346B2 (en) * 2003-03-26 2007-06-12 Fujitsu Ten Limited Speech section detection apparatus
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01244499A (ja) * 1988-03-25 1989-09-28 Toshiba Corp 音声素片ファイル作成装置
JPH10260697A (ja) * 1997-03-17 1998-09-29 Matsushita Electric Ind Co Ltd ピッチ波形切り出し基準位置決定方法とその装置
JP2001282277A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP2001306087A (ja) * 2000-04-26 2001-11-02 Ricoh Co Ltd 音声データベース作成装置および音声データベース作成方法および記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mitsuo FUJIMOTO, Toru KITAMURA, Masayuki IIDA, Ryuji SUZUKI, "Onsei Suhen Sakusei Shien System", The Institute of Electronics, Information and Communication Engineers Zenkoku Taikai Koen Ronbunshu, 1989, Vol.1989, No.Spring, Pt.1, page 14 *

Also Published As

Publication number Publication date
US7627468B2 (en) 2009-12-01
JP3673507B2 (ja) 2005-07-20
JP2003330478A (ja) 2003-11-19
CA2483607A1 (en) 2003-11-27
CA2483607C (en) 2011-07-12
US20050246168A1 (en) 2005-11-03

Similar Documents

Publication Publication Date Title
Drugman et al. Glottal source processing: From analysis to applications
Gómez-García et al. On the design of automatic voice condition analysis systems. Part I: Review of concepts and an insight to the state of the art
Benzeghiba et al. Automatic speech recognition and speech variability: A review
Rao Voice conversion by mapping the speaker-specific features using pitch synchronous approach
Rudzicz Adjusting dysarthric speech signals to be more intelligible
US8185395B2 (en) Information transmission device
Govind et al. Expressive speech synthesis: a review
Le Cornu et al. Generating intelligible audio speech from visual speech
JP4914295B2 (ja) 力み音声検出装置
Kontio et al. Neural network-based artificial bandwidth expansion of speech
Suni et al. The GlottHMM speech synthesis entry for Blizzard Challenge 2010
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
Ibrahim et al. Robust feature extraction based on spectral and prosodic features for classical Arabic accents recognition
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
Vegesna et al. Prosody modification for speech recognition in emotionally mismatched conditions
Narendra et al. Estimation of the glottal source from coded telephone speech using deep neural networks
Ramteke et al. Phoneme boundary detection from speech: A rule based approach
Cherif et al. Pitch detection and formant analysis of Arabic speech processing
Narendra et al. Generation of creaky voice for improving the quality of HMM-based speech synthesis
Orellana et al. Vowel characterization of Spanish speakers from Antioquia–Colombia using a specific-parameterized discrete wavelet transform analysis
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
Narendra et al. Time-domain deterministic plus noise model based hybrid source modeling for statistical parametric speech synthesis
Mokhtari et al. Automatic measurement of pressed/breathy phonation at acoustic centres of reliability in continuous speech

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA US

WWE Wipo information: entry into national phase

Ref document number: 2483607

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 10514413

Country of ref document: US