WO1998049673A1 - Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif - Google Patents

Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif Download PDF

Info

Publication number
WO1998049673A1
WO1998049673A1 PCT/JP1998/001984 JP9801984W WO9849673A1 WO 1998049673 A1 WO1998049673 A1 WO 1998049673A1 JP 9801984 W JP9801984 W JP 9801984W WO 9849673 A1 WO9849673 A1 WO 9849673A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
value
speed conversion
time
data length
Prior art date
Application number
PCT/JP1998/001984
Other languages
English (en)
French (fr)
Inventor
Atsushi Imai
Nobumasa Seiyama
Tohru Takagi
Original Assignee
Nippon Hoso Kyokai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP11296197A external-priority patent/JP3220043B2/ja
Priority claimed from JP11282297A external-priority patent/JP3160228B2/ja
Application filed by Nippon Hoso Kyokai filed Critical Nippon Hoso Kyokai
Priority to US09/202,867 priority Critical patent/US6236970B1/en
Priority to EP98917743A priority patent/EP0944036A4/en
Priority to CA002258908A priority patent/CA2258908C/en
Priority to KR1019980710777A priority patent/KR100302370B1/ko
Publication of WO1998049673A1 publication Critical patent/WO1998049673A1/ja
Priority to NO19986172A priority patent/NO317600B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Definitions

  • the present invention relates to a voice section detection method and apparatus, and a speech speed conversion method and apparatus using the method and apparatus.
  • the present invention relates to video equipment such as televisions, radios, tape recorders, video tape recorders, video disc players, hearing aids, audio equipment, and medical equipment.
  • the present invention relates to a speech speed conversion method and a device for realizing the intelligibility expected of the speech speed conversion without extending the time.
  • the present invention processes voice uttered with noise and background sound during a broadcast program, recording tape, or everyday life to change the pitch and speaking speed of the voice. Speech that distinguishes between speech sections and non-speech sections in the input signal, such as when recognizing or mechanically recognizing the meaning or encoding or transmitting or recording.
  • the present invention relates to a section detection method and a device therefor.
  • the present invention relates to a speech speed conversion method for converting a speech uttered by a person and converting the speech speed in real time, and a device therefor.
  • the speech speed is reduced, the data length of the input voice and the output data length calculated in advance by the conversion function for the scaling factor given in advance are actually output. Loss of information may occur while constantly monitoring the data length of the voice being applied in a fixed processing unit. Instead, they perform a series of processing.
  • the speech rate conversion method and the apparatus use the time difference between video and audio by expanding the audio, for example, when using it to watch TV.
  • the length must be greater than or equal to the variable threshold set according to the degree of delay (conversion rate) expected for mouth occupation.
  • the length of the non-speech section is appropriately shortened, and depending on the time difference of the output data length with respect to the input data length; by changing the conversion magnification adaptively. It is also possible to automatically generate a large sense of creativity that can be realized within a fixed time frame while keeping the speech time of the converted voice almost the same as the speech time of the original voice. It is.
  • the input signal data is calculated for each predetermined time interval at a predetermined time interval in a frame unit having a predetermined time width.
  • the maximum value and the minimum value of the power within the time period are held, and the power changes according to the maximum value and the difference between the maximum value and the minimum value.
  • the audio section and the non-speech section are set for each frame.
  • delays from the original sound may be a problem, such as in emergency reports.
  • this delay may have an adverse effect, contrary to the effect expected for speech rate conversion.
  • the former is based on the assumption that all utterance styles are known, and The number is set manually, and the latter also specifies the function to give the magnification manually, and once it is set, it is fixed.
  • shortening of the non-speech section also manually specifies only a certain remaining time, and if a large amount of “shift” is accumulated, it is accumulated in a buffer. The sound of the expanded sound was manually cleared.
  • the form of speech of the broadcast sound (such as the speech speed and the manner of “between”) varies depending on the speaker, and depending on the hand, Since it is necessary to set parameters that are appropriate for each case, it is difficult to set the parameters themselves, and there are many operation points. There was a problem that it was too difficult to handle.
  • the noise level, voice level, etc. are calculated based on the voice signal power, etc., and the level threshold is set based on the calculation result. Then, the level threshold value is compared with the input signal, and if the level of the input signal is large, it is determined to be a voice section, and if the level is small, The method for determining this as a non-speech section is known.
  • the threshold value is a value obtained by adding a predetermined constant to the noise level value at the time of voice input.
  • the level is set to a relatively large value.
  • the level threshold value is set to a relatively small value (for example, see JP-A-58-13039). No. 5, Japanese Unexamined Patent Publication No. Sho 61-27272796, etc.).
  • the input signal is continuously observed, and the level is maintained for a certain time or more.
  • this is regarded as the noise level, and while updating the noise level one by one, the threshold value for voice section detection is set. Proceedings of the IEICE General Conference, D-695, p. 301).
  • the first method has the advantage of simplicity, and works well when the average level of the sound is medium, but the average level of the sound is low. If the level is too high, noise or the like is likely to be erroneously detected as voice, and if it is too low, part of the voice is missing and easily detected. was there.
  • the second method can solve such a problem of the first method, but the noise and the background in the input signal can be solved. Since it is assumed that the sound level is almost constant, the sound level fluctuation follows the fluctuation, but the level of noise and background sound is reduced. The problem was that accurate detection of speech segments was not guaranteed when the timing changed.
  • the present invention allows a user to set and operate the conversion magnification, which is a guide of several steps, only once and adjust the speech speed conversion magnification and the non-speech section adaptively according to the set conditions.
  • the input sound and the background sound A voice section detection method and a voice section detection method capable of performing voice processing in real time by sequentially adapting to the change in each level and discriminating between a voice section and a non-voice section. The purpose of this is to provide such a device. Disclosure of invention
  • a predetermined time interval is applied to the input signal data at predetermined time intervals. Frames with frame width.
  • the maximum and minimum values of the frame power within a predetermined time in the past are held, and the held maximum value and the difference between the maximum value and the minimum value are held. That change in response to A threshold value for the current frame is determined, and this threshold value is compared with the current frame value to determine whether the current frame is a voice section or a non-voice section. Is determined.
  • the input signal data has a predetermined frame width at a predetermined time interval. Calculate the frame no., Hold the maximum and minimum values of the frame power within a predetermined time in the past, and hold the maximum value and the difference between the maximum value and the minimum value. A threshold value for the power that changes according to the current frame is determined, and the threshold value is compared with the current frame power to determine whether the current frame is a voice section. By determining whether the section is a non-voice section, the input voice and the background sound can be determined. While adaptively adapting to changes in each level, speech processing is performed in real time to determine speech sections and non-speech sections.
  • the maximum value and the maximum value are determined. Compared with a case where the difference from the minimum value is equal to or more than a predetermined value, the threshold value is determined so as to be close to the maximum value.
  • the input signal data is output at predetermined time intervals.
  • a power calculation unit that calculates a frame power with a predetermined frame width, and an instantaneous power maximum value holding unit that holds the maximum value of the frame power within a predetermined time in the past.
  • the instantaneous power minimum value holding unit that holds the minimum value of the frame power within a predetermined time in the past, and the instantaneous power maximum value holding unit and the instantaneous power minimum value holding unit.
  • a power threshold value determination unit that determines a threshold value for the power that varies according to both the held maximum value and the difference between the maximum value and the minimum value. The threshold value obtained by this power threshold determination unit and the current By comparing the Roh ⁇ ° Wa one full rate arm, or speech segment, you are characterized that you and a determination section that determine whether a non-speech section.
  • the power calculation unit has a frame having a predetermined time width for each predetermined time interval. Entered in units The signal data is processed, the power is calculated, and the instantaneous power maximum value holding unit and the instantaneous power minimum value holding unit are used to calculate the power within a predetermined time in the past. While maintaining the maximum and minimum values of the power to be applied, the difference between the maximum value and the difference between the maximum value and the minimum value is determined by the threshold value determination unit. In response to this, a threshold value for the power that changes sequentially is determined, and the input signal data is converted by a discriminator in units of frames based on the threshold value.
  • the power threshold value determination unit determines a difference between a maximum value and a minimum value. If the difference is smaller than a predetermined value, the threshold value is determined so as to be closer to the maximum value, as compared with a case where the difference between the maximum value and the minimum value is equal to or larger than the predetermined value.
  • the input data is expanded and synthesized at an arbitrary ratio that changes with time.
  • this input is performed.
  • the feature is that the decompression time of output data for data is reduced by any time within the decompression time.
  • the output data obtained by extending and synthesizing the input data at an arbitrary ratio that changes with time is provided.
  • the output data for this input data By reducing the decompression time by an arbitrary time within this decompression time, the user can set the conversion magnification, which is a guide for several steps, only once and set it.
  • the speech rate conversion magnification and the non-speech section are adaptively controlled according to the conditions, and the effect expected for speech rate conversion can be stably obtained within the time frame actually spoken.
  • the input data length and the input monitor the target data length, which is calculated by multiplying the data length by an arbitrary scaling factor, with the actual output data length so that there is no inconsistency between the target data length and the actual output data length.
  • the target data length which is calculated by multiplying the data length by an arbitrary scaling factor, with the actual output data length so that there is no inconsistency between the target data length and the actual output data length.
  • the input data length and the input data length can be arbitrarily expanded and reduced. Multiplied by magnification
  • the synthesis process is not performed while monitoring sequentially, and the time-varying arbitrary
  • the user only needs to set and operate the conversion rate once, which is a guideline for several steps, and adapts the speech rate conversion rate and the non-speech section adaptively according to the set conditions. Control to achieve the expected effect of speech rate conversion within the time frame actually spoken
  • the speech rate conversion method described in Section 5 is used to eliminate the extension from the input data length associated with the speech rate conversion.
  • the feature is that part of the non-voiced section that is longer than a certain duration is deleted, and the remaining rate of the non-voiced section is adaptively changed according to the speech speed conversion factor, the amount of expansion, etc. are doing .
  • the user only needs to set and operate the conversion ratio once, which is a guide for several steps, and adaptively controls the speech speed conversion ratio and non-speech section according to the set conditions. Within the uttered time frame, the expected effect of speech rate conversion can be obtained stably.
  • the speech rate conversion method described in Section 8 when the speech rate conversion is performed within a limited time frame in the speech rate conversion method described in Section 5, the input data Monitoring is performed so that the relationship between the target data length, which is calculated by multiplying the input data length by an arbitrary expansion / contraction ratio, and the actual output data length does not conflict with each other.
  • the speed conversion ratio is temporarily increased, and the time difference is increased.
  • the feature is that the speech speed conversion factor is changed more responsively by temporarily lowering the speech speed conversion factor.
  • the speech rate conversion method described in claim 8 when performing the speech rate conversion within a limited time frame, the input data length and the In order to ensure that the relationship between the target data length, which is calculated by multiplying the input data length by an arbitrary scaling factor, and the actual output data, there is no inconsistency in the monitoring of the power S
  • the expansion amount is measured at a predetermined time interval, and based on this measurement result, when the time difference is small, the speech rate conversion factor is increased temporally, and the time difference is increased. In many cases, the speech rate conversion factor is temporarily lowered, and by adapting the speech rate conversion factor adaptively, the user can see several steps.
  • the user only needs to set the conversion magnification once and adjust the conversion magnification and non-speech interval according to the specified conditions. To control, actually in the speech time frame, stably obtain the effect that the s conversion Ru is expected.
  • the input signal data is used.
  • the frame power is calculated at a predetermined frame width for each predetermined time interval, and the maximum value of the frame noise within a predetermined time in the past is calculated.
  • a threshold value for the power that varies according to the maximum value held and the difference between the maximum value and the minimum value, and determines the threshold value. It is characterized in that the value is compared with the current frame part to determine whether the current frame is a speech section or a non-speech section.
  • the maximum value is set. It is characterized in that the threshold value is determined so as to be close to the maximum value, as compared with the case where the difference between the minimum value and the minimum value is greater than or equal to a predetermined value.
  • the input data is divided into each block and the block data is divided. And generating a connection data based on each block data and a Z connection data generation means, based on each block data and the desired speech speed inputted.
  • Split processing Determines the block data generated by the Z connection data generation means and the connection order of each connection data, and connects them to generate output data.
  • connection processing means wherein the connection processing means expands and synthesizes each block data at an arbitrary ratio that changes with time, and When a non-speech section appears during the entire night and the duration of this non-speech section exceeds a predetermined threshold, the output data for this block * It is characterized in that the decompression time of the data is reduced by any time within the decompression time.
  • the input data is divided into blocks, and the input data is divided into blocks.
  • ⁇ Split processing / connection data generating means for generating connection data and connection data based on each block data, and input desired speech rate
  • the block data generated by the division processing connection data generating means, the connection order of the connection data, and the connection order of the connection data are determined based on the connection processing, and the output data is connected.
  • the block data is expanded and synthesized by the connection processing means at an arbitrary ratio that changes with time. A non-speech section appears in the obtained output data, and the output data for the block data indicating that the duration of the non-speech section exceeds a predetermined threshold value.
  • the user only has to set and operate the conversion ratio once, which is a guide for several steps, and according to the set conditions, the speech speed conversion ratio and the non- The speech rate conversion according to claim 12, wherein the speech section is adaptively controlled so that the effect expected in the speech rate conversion can be stably obtained within the time frame actually spoken.
  • the first speech section is adaptively controlled so that the effect expected in the speech rate conversion can be stably obtained within the time frame actually spoken.
  • the connection processing means when performing expansion and contraction synthesis of the input data, the input data length and the input data length.
  • the target data length which is calculated by multiplying the input data length of the input data by an arbitrary expansion / contraction ratio, and the actual output data length are monitored sequentially so that the relationship does not conflict.
  • a synthesis process is performed to prevent a loss of information in the audio part from an arbitrary expansion / synthesis ratio that changes with time, and to prevent a change in speech speed. It is characterized in that it retains accurate time information on the expansion accompanying the exchange.
  • the input data length and the input data length are used when the connection processing means performs the expansion and contraction of the input data.
  • the target data length which is calculated by multiplying the input data length of the input data by an arbitrary expansion / contraction ratio, and the actual output data length do not contradict each other.
  • Synthesizing processing is performed to prevent loss of information in the audio part against the arbitrary expanding / contracting ratio that changes over time, and to talk.
  • the user By retaining accurate time information for decompression due to speed conversion, the user only has to set and operate the conversion magnification, which is a guide for several steps, only once.
  • the speech rate conversion ratio and the non-voice section are adaptively controlled according to the set conditions, In the speech time frame at the time, that give stability to the effect that will be expected in the speech speed conversion.
  • connection processing means may determine an input data length according to the speech speed conversion.
  • the connection processing means may determine an input data length according to the speech speed conversion.
  • the speech conversion device according to claim 13, wherein the connection processing means performs speech rate conversion.
  • the connection processing means when performing a speech speed conversion within a limited time frame, sets the input data length and the input data length to To prevent inconsistency between the target data length calculated by multiplying an arbitrary expansion / contraction ratio and the actual output data length, it is set in advance while performing sequential monitoring.
  • the extension amount is measured at certain time intervals, and based on this measurement result, when the time is short, the speech speed conversion magnification
  • the speech speed conversion factor is adaptively changed by temporarily lowering the speech speed conversion factor. It is said that.
  • the speech speed conversion device when performing the speech speed conversion in a limited time frame by the connection processing means, the input data length and Do not monitor sequentially so that the relationship between the target data length calculated by multiplying the input data length by an arbitrary expansion / contraction ratio and the actual output data length does not conflict.
  • the amount of expansion is measured at a preset time interval, and based on this measurement result, when the time difference is small, the speech speed conversion magnification is temporarily increased, and When there is a large time difference, the number of users can be reduced by temporarily lowering the speech speed conversion factor and adaptively changing the speech speed conversion factor.
  • the user only needs to set the conversion factor once as a guideline for the stage, and adaptively controls the speech speed conversion factor and non-speech section according to the set conditions, and actually speaks. Within the time frame, the expected effect of speech rate conversion can be obtained stably.
  • a predetermined time interval is provided for the input data at a predetermined time interval. Calculates the frame power with the frame width of, and holds the maximum and minimum values of the frame power within a predetermined time in the past. A threshold value for the power to be changed according to the value and a difference between the maximum value and the minimum value is determined, and the threshold value and the power of the current frame are determined.
  • This method is characterized in that the method further comprises an analysis processing means for determining whether the current frame is a speech section or a non-speech section.
  • the speech speed conversion device wherein the difference between the maximum value and the minimum value is less than a predetermined value.
  • the threshold value is determined so as to be close to the maximum value.
  • FIG. 1 is a block diagram showing one embodiment of the speech speed conversion device of the present invention.
  • FIG. 2 is a block diagram showing one embodiment of the voice section detection device of the present invention.
  • FIG. 3 is a schematic diagram showing an operation example of the voice section detection device shown in FIG.
  • FIG. 4 is a schematic diagram showing a method of generating connection data used when the same block is repeatedly connected in the connection data generation unit shown in FIG. .
  • FIG. 5 is a block diagram showing a detailed configuration example of an input / output data length monitoring and comparing unit in the connection order generating unit shown in FIG.
  • FIG. 6 is a schematic diagram showing an example of a connection order generated by the connection order generation unit shown in FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a block diagram showing one embodiment of the speech speed conversion device of the present invention.
  • the speech speed converter shown in this figure has a terminal 1 and an AZD converter.
  • a connection unit 2 an analysis processing unit 3, a block data division unit 4, a block data storage unit 5, a connection data generation unit 6, a connection data storage unit 7,
  • the data of the input speech data is obtained.
  • Data length (input data length) target data length calculated by multiplying this by an arbitrary expansion / contraction ratio, and data length of actual output audio data (output data length).
  • the expansion / contraction ratio can be increased. Even if there is a change in the sound, there is no loss of voice information, and the time difference between the original voice that changes every moment and the converted voice is monitored. If the time difference is small, the speech speed conversion factor is temporarily increased, and if the time difference is large, the speech speed conversion factor is temporarily decreased. The scaling factor is changed, and the remaining ratio of the non-speech section is adaptively changed based on the speech speed conversion factor and the amount of expansion, and the time difference from the original speech due to the speech speed conversion is calculated. Eliminate adaptively.
  • the audio signal input to the terminal 1 at a predetermined sampling rate (for example, 32 kHz), for example, a microphone or a microphone.
  • a predetermined sampling rate for example, 32 kHz
  • the audio signals output from the analog audio output terminals of the television, radio, and other video equipment and audio equipment are converted to AZD and converted to AZD.
  • the obtained audio data is not-referenced to the FIF memory, it is transmitted to the subsequent analysis processing unit 3 and the block data analysis unit 4 without excess and deficiency. Supply.
  • the analysis processing unit 3 analyzes the voice data output from the AZD conversion unit 2 to extract a voice section and a non-voice section, and based on these sections, In the audio data division process performed in the block data division unit 4, division information for determining each block time length required is generated, and this is used as the block data division. Supply to Part 4.
  • the voice section detection method and apparatus when the power of an input signal is used as an index, the fluctuation in the level of the voice in the input signal is input immediately before. This is reflected in the maximum value of the input power, and the fluctuation in the background sound level is reflected in the minimum value of the power input immediately before.
  • a predetermined value is set from the maximum value of the power input immediately before. The value obtained by subtracting only this value is used as the basic threshold value. As the value obtained by subtracting the minimum value from the maximum value of the power input immediately before and then decreasing becomes smaller (SN As the threshold decreases, the correction must be increased to increase the threshold and increase the threshold. In the jar processing, determine the Ki have value.
  • the power of the input audio data is calculated for each frame having a predetermined time width at predetermined time intervals.
  • the power varies according to the maximum value and the difference between the maximum value and the minimum value.
  • the threshold value for the word it is possible to distinguish between the speech section and the non-speech section for each frame while adapting to changes in the input voice, background sound, and each power sequentially.
  • Fig. 2 is a block diagram showing an example of a voice section detection device.
  • the voice section detection device 1 shown in FIG. 1 calculates the power at a predetermined frame width at predetermined time intervals with respect to input signal data that has been digitized and input.
  • a power calculation unit 2 that stores the maximum value of the frame power within a predetermined time in the past; a maximum value holding unit 3 that stores the maximum value of the frame power within a predetermined time in the past; Instantaneous pulse that holds the minimum value of the momentary pulse-is held in the minimum value holding unit 4, and these instantaneous maximum value holding unit 3 and instantaneous pulse minimum value holding unit 4
  • a threshold value determining unit 5 that determines a threshold value that changes in accordance with both the maximum value and the difference between the maximum value and the minimum value. The threshold value determined by the threshold value determination unit 5 is compared with the current frame's eight-degree threshold to make a sound. Or sections, that have a discrimination unit 6 that determine whether a non-voice interval
  • the voice section detection device 1 calculates the power of the input signal in the unit of a frame having a predetermined time width at predetermined time intervals with respect to the input signal and the evening.
  • the maximum and minimum values of the power while maintaining the maximum and minimum values, and the power that varies according to the difference between the maximum and minimum values.
  • the values are used to discriminate between a speech section and a non-speech section for each frame while sequentially adapting to changes in the powers of the input speech and the background sound.
  • the power calculation unit 2 calculates the sum of squares or the mean square value of the signal at a time interval of, for example, 5 ms, over a frame width of, for example, 20 ms. This is logarithmized, that is, converted to decibels, and the frame power at that time is set to “P”. This is referred to as an instantaneous power maximum value holding unit 3 and an instantaneous power minimum value holding unit 4. And to the determination unit 6.
  • the instantaneous power maximum value holding unit 3 is designed to hold the maximum value of the frame number ⁇ P within a predetermined time in the past (for example, 6 seconds).
  • the stored value “P upper” is always supplied to the power threshold value determination unit 5. However, when the frame power “P” is supplied from the power calculation unit 2 such that the maximum value “P upper” is “P> P upper”, the value is immediately obtained. Is updated.
  • the instantaneous power minimum value holding unit 4 stores a frame within a predetermined time in the past (for example, 4 seconds). It is designed to hold the minimum value of "P”, and always supplies the held value "P lower” to the threshold determination unit 5. However, if the frame power “P” is supplied from the power calculation unit 2 such that the minimum value “P lower” is such that “P ⁇ P lower”, The value is updated at that time.
  • P thr P upper-3 5 + 3 5 X ⁇ 1-(P upper-P lower) / 60 ⁇ ... (2)
  • P thr P upper-3 5 + 3 5 X ⁇ 1-(P upper-P lower) / 60 ⁇ ...
  • the power supply value “P” supplied from the power calculation unit 2 for each frame and the power threshold value determination unit 5 are supplied.
  • the threshold value is compared with “P thr”. For each frame, if “P> P thr”, the frame is determined to be a voice section, and if “P thr”, Then, the frame is determined to be a non-voice section, and a voice Z non-voice determination signal is output based on the results of these determinations.
  • the power is calculated in units of frames having a predetermined time width at predetermined time intervals with respect to the input signal data, and the past power is calculated.
  • the threshold value it is possible to discriminate between a voice section and a non-voice section for each frame while adapting to changes in the input voice, background sound, and their powers sequentially.
  • voices that are uttered with noise or background sounds during broadcast programs, on recording tapes, or in everyday life are recorded on a frame-by-frame basis. It is possible to accurately determine whether the section is a section or a non-speech section.
  • the level of the background sound is estimated based on the minimum value of the instantaneous power within a predetermined time in the past. Even if the sound level fluctuates from moment to moment and the sound continues to be emitted at the same time, it is still possible to distinguish between the sound section in the input signal and the non-speech section. Wear .
  • a voiced sound that is a voice accompanied by vocal cord vibration or a vocal cord vibration is generated. Judgment is made for unaccompanied unvoiced sound. For this, not only the size of the noise, but also a zero cross analysis, a self-correlation analysis, etc. are used in combination.
  • the time length of each block In order to analyze the voice data, when determining the time length of each block, the time length of each block must be determined for each voice section (voiced section, unvoiced section) and non-voice section.
  • the self-correlation analysis is performed to detect the periodicity, and the block length is determined based on the periodicity.
  • pitch periods which are the vocal fold oscillation periods, are detected, and division is performed so that each pitch period has its own block length. U.
  • the voiced area Since the pitch period between them is distributed over a wide range of about 1.25 ms to 28.O ms, self-correlation analysis of window widths with different lengths should be performed. Then, a pitch period that is as accurate as possible is detected. Note that the pitch period is used as the block length between voiced sound segments because the change in voice pitch due to repetition in block units (low Voice).
  • block lengths within 5 ms are detected and block lengths are detected.
  • a predetermined time length for example, 2 ms
  • the part before the time length is supplied to the connection data generation unit 6.
  • the audio data of the block unit supplied from the block data overnight division section 4 by the ring buffer is provided. Overnight, the block length is temporarily stored, and if necessary, the temporarily stored block-by-block audio data is supplied to the audio data connection unit 9. In addition, the temporarily stored block length is supplied to the connection order generation unit 8 as necessary.
  • connection data generator 6 generates a diagram for each block. As shown in Fig. 4, windowing is performed at the end of the immediately preceding block, the sound at the beginning of the block, and the sound at the beginning of the immediately following block. After that, the overlap addition of the end part of the block immediately before and the end part of the block and the overlap addition of the start part of the block and the start part of the block immediately after are performed. At the same time, they are connected to generate connection data for each block, and the connection data is supplied to the connection data storage unit 7.
  • connection buffer for each block supplied from the connection data generation unit 6 by the ring buffer is used.
  • the connected connection data is supplied to the connection section 9 of the audio connection.
  • connection order generation unit 8 generates the audio data and the connection order of the connection Z no. In units of blocks in order to achieve the desired speech speed set by the listener. .
  • the listener's power, the digital revolving volume, etc. is used as the interface, and the time of each attribute V (sound section, non-sound section, and non-speech section)
  • the connection order generating unit 8 of the above when speech synthesis is actually performed for the expansion ratio set in the above memory, the input voice data and the output voice at the same time are output.
  • the utterance time of the original voice and the output of the converted voice can be obtained.
  • the time difference from the time can always be monitored, and by feeding back this information, the time difference can be automatically reduced to a certain length or less.
  • the execution of the scaling factor which is changed to an arbitrary value at any evening, is not consistent with the execution of the scaling factor (for example, rather than the input voice data length). It is possible to check whether or not there is a request to shorten the output audio data length, and to prevent the loss of audio information during synthesis.
  • the data supplied from the block storage unit 5 are used.
  • the target data length is the length obtained by multiplying the length by the scaling factor set by the listener.
  • the audio data connection section 9 connects the audio data so that it matches the target value, and outputs the output audio data that is actually output.
  • the target length generated by the input / output data length monitoring / comparison section 20 is sent to the audio data connection section 9 as connection order information.
  • the input / output data length monitoring / comparing section 20 includes an input data length monitoring section 21 for monitoring the input data length, and an input data length obtained by the input data length monitoring section 21. For example, the listener
  • Target data length (Or the target memory of the output data generated by the voice speed conversion performed on the basis of the value given by the function memory built into the device) (Target data length) and an output target length calculator 22 that automatically corrects the target data length, and an output target length calculator
  • the target data length is determined by the input data length. If the target data length is shorter than the input data length, the target data length is set to the input data length, and if the target data length is longer than the input data length, the target data length is output as it is.
  • the target data length is set to the output data length, and the target data length is also output.
  • the audio expansion / contraction information is obtained. Then, the connection information taking into account is generated from time to time, and as shown in FIG. 6, the sound data for each block and the connection data are connected.
  • the input data length is sequentially compared with the target data length, and if the input data length is determined to be equal to or longer than the target data length, the input data length is aligned. Then, the target data length is corrected, and if it is determined that the input data length is less than the target data length, the change of the target data length is stopped.
  • the target data length is compared with the actual output data length, and if the output data length is determined to be greater than or equal to the target data length, the output data length is determined. Correct the target data length so that they are aligned with the evening length, and if the output data length is determined to be less than the target data length, change the target data length. Abort .
  • connection command indicating expansion information, connection information, etc. is generated, and this is connected to the audio data connection.
  • the control conditions of the speech speed conversion magnification in the connection order generation unit 8 will be described. For example, when it is desired to perform speech rate conversion within a limited time frame, such as a broadcast time frame, the input data length and the output data length are required. When the delay amount is small, the speech speed conversion ratio can be changed by measuring the time difference between the two data at predetermined time intervals. If it rises temporarily and vice versa To do so, it is only necessary to set a function that adaptively changes the magnification, such as performing a process of lowering this.
  • a function that gives a scale factor corresponding to the start time of each voiced sound appearing in the range of "0 ⁇ t ⁇ T” it is possible to use a cosine function such as the following equation. it can .
  • the time difference between the input data length and the output data length is calculated at a certain time interval, for example, every one second, and the initial value re is set according to the time difference at that time. From “1.0" to "0.
  • A is used for the subsequent voiced sections, for example, at a multiplication factor of 1.0.
  • the amount of change of pitch, pitch, etc. is used for the subsequent voiced sections, for example, at a multiplication factor of 1.0.
  • the rate of speech rate conversion It can be arbitrarily set as a function so that it is adaptively changed in consideration of the rate and the amount of expansion.
  • the allowable limit for shortening the non-speech section (at least the value indicating how much is saved without reduction) is set, and expressed by a function as described above. However, it can be set discretely, for example, as described below.
  • the non-voice section reduction method is realized by moving the pointer to an arbitrary address on the ring buffer.
  • the voice by moving to the start of the voiced sound immediately after the non-voice section, the voice
  • the audio data connection unit 9 uses the block data storage unit according to the connection order determined by the connection order generation unit 8.
  • the audio data of the block is read out from 5 and the audio data of the specified block is expanded and the connection data is expanded.
  • predetermined data is buffered by the FIFO memory while the output audio data supplied from the audio data connection unit 9 is buffered.
  • the output audio data is D / A converted, an output audio signal is generated, and this is output from terminal 11.
  • Output .
  • analysis processing is performed on input voice data from a speaker based on the attributes of the voice data, and the analysis processing is performed in response to the analysis information.
  • the input data length, the target data length calculated by multiplying this by an arbitrary expansion / contraction ratio, and By comparing these values with the actual output audio data length, we tried to perform these processes so that there would be no inconsistency. In this case, it is possible to prevent the lack of audio information from occurring.
  • the time difference between the original voice, which changes from moment to moment, and the converted voice is monitored.If the time difference is small, the voice speed conversion ratio is temporarily increased, and vice versa.
  • the scaling factor is adaptively changed, such as temporarily lowering the speech rate conversion factor, and the remaining rate of the non-speech section is determined based on the speech rate conversion factor, the amount of expansion, etc.
  • the time difference from the original voice due to the speech speed conversion is adaptively eliminated, so that the user can take several steps as a guide.
  • the conversion rate can be set only once, and the speech rate conversion rate and the non-speech section are adaptively controlled according to the set conditions, and within the time frame in which the speech was actually made, The effect expected for speech rate conversion can be obtained stably.
  • the user only needs to set and operate the conversion magnification, which is a guide of several steps, only once.
  • the speech rate conversion magnification and non-speech section are adaptively controlled according to the set conditions, and the expected effect of speech rate conversion can be stably obtained within the time frame actually spoken. I can do it.
  • the calculation time can be reduced by using only the relatively simple feature amount called power. While reducing the cost, the input voice and the background sound are successively adapted to changes in their levels while reducing costs, and voice processing is performed in real time. By performing the above, it is possible to discriminate between a voice section and a non-voice section.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

明 細 書 音声 区間検出方法及びそ の装置、 並びにそ の方法及び装 置を利用 し た話速変換方法及びその装置 技術分野
本発明 は、 テ レ ビ ジ ョ ン 、 ラ ジオ、 テー プ レ コ ー ダ、 ビデオテー プ レ コ ー ダ、 ビデオディ ス ク プ レーヤ 、 補聴 器な ど の 映像機器、 音響機器、 医療機器な ど にお い て 、 時間 を伸張 さ せ る こ と な く 、 話速変換 に期待 さ れ る 聞 き 易 さ を実現す る 話速変換方法及びそ の装置 に 関す る 。
ま た 、 本発明 は、 放送番組中や録音テー プあ る い は 日 常生活で、 雑音や背景音 を伴 っ て発声 さ れた音声 を加工 し て声の高 さ や話す速 さ を変 えた り 、 意味内容 を機械的 に認識 し た り 、 符号化 し て伝送あ る い は記 .録す る 場合な ど に 、 入力 信号 中 の音声区間 と 、 非音声 区間 と を判別す る 音声区間検出方法及びそ の装置 に関す る 。
[発明 の概要 ]
本発明 は、 人が発声 し た音声 を加工 し て リ アルタ イ ム で発話速度 を変換す る 話速変換方法及びそ の装置 に 関す る も ので あ っ て、 受聴音声の発声する 速 さ (話速) を遅 く す る 際 に 、 入力音声 のデー タ 長 と 、 事前 に与え ら れた 伸縮倍率 に 関する 変換関数 に よ っ て予め 計算 さ れた 出 力 デー タ 長 と 、 実際 に 出 力 さ れて い る 音声のデー タ 長 と を 一定 の処理単位で常 に監視 し なが ら 、 情報の欠落 を 生 じ る こ と な く 、 一連の処理 を行な う も ので あ る 。
さ ら に 、 こ の話速変換方法及びそ の装置 にお い て は、 例 え ばテ レ ビ の視聴 に使用 す る 際、 音声 を伸張す る こ と に よ る 映像 と 音声 と の時間差 を最小限 にする こ と を 目 的 と し て 、 口占 換 に期待 さ れ る 遅 さ の度合 い (変換倍 率 ) に応 じ て設定 さ れる 可変の し さ い値以上 の長 さ を有 する 非音声区間 を適宜、 短縮 'し 、 かつ入力 デ一 夕 長 に対 す る 出 力 デー タ 長の時間差 の程度 に よ っ て ; 応的 に変換 倍率 を変化 さ せ る こ と に よ り 、 変換音声 の発話時間 を原 立声 の発話時間 に ほ ぼ保ち つ つ 、 決め ら れた時間枠 の 中 で実現 し ½ る 琼大の ゅ つ く り 感 を 自 動的 に生成す る も の で あ る 。
加 えて 、 本発明 は 、 入力 信号デー タ に対 し 、 所定 の時 間間 隔毎 に 、 所定の時間幅 を有す る フ レー ム単位で 、 そ のパ ヮ一を算出 し 、 過去の所定の時間 内 にお け る パ ワ ー の最大値 と 、 最小値 と を保持す る と と も に 、 その最大値 並びに最大値 と 最小値 と の差 に応 じ て変化す る パ ワ ー に す る し き い値 を用 い て 、 入力信号中 の音声 と 背景音 と のそれぞれのパ ワ ー の変化 に逐次、 適応 し なが ら 、 フ レ ム毎 に音声区間 と 、 非音声区間 と の判別 を行な う こ と よ り 、 入力信号中 の音声区間 を正確 に検出 し て 、 放送 組中や録音テー プあ る い は 日 常生活で、 雑音や背景音 を伴 っ て発声 さ れた音声 を加工 し て声の 高 さ や話す速 さ を変えた り 、 意味内容 を機械的 に認識 し た り 、 符号化 し て伝 ¾あ る い は記録する 場合な ど に 、 加工音声の音質 の 向上、 音声認識率の改善、 符号化効率の上昇や復号化音 声の 品質向上な ど を 図 る 。
さ ら に 、 パ ワ ー と レ う 比較的、 簡便 に求め ら れる 特徴 量の み を用 い る こ と に よ り 、 演算時間 を短 く す る と と も に 、 コ ス ト を低減 さ せ、 リ ア ルタ イ ム に音声処理 を行な う こ と を可能 にする 。 背景技術
話速変換手法 を実際 の放送 に適用 す る 場合、 緊急報道 な ど 、 原音声か ら の遅れが問題 にな る 場合があ る 。 特 に、 映像 を伴 う メ ディ ア につ い て は、 こ の遅れが話速変換 に 期待 さ れる 効果 と は逆 に 、 悪影響 を及 ぼす可能性があ る 。
そ こ で、 原音声か ら 遅れる こ と な く 、 話速変換効果 (ゆ っ く り 感) を実現す る 手法 と して、 一様 に ゆ っ く り 変換す る ので はな く 、 一息で行な う 発声の 開始点か ら 終 了点 に 向か う 経過時間 の 関数 と し て 、 話速 を ゆ っ く り カゝ ら 速 く に変化 さ せ る こ と で伸張を抑制 し 、 文章間 の 非音 声区間 を適宜、 短縮す る 方法 (池沢龍 ほか 、 平成 4 年 日 本音響学会春期研究発表会 「話速変換 に伴 う 時間伸張 を 吸収す る た め の一手法」 2 — 6 — 2 、 p p . 3 3 1 〜 3 3 2 ) や、 こ の手法を リ ア ルタ イ ム処理化す る 方法 (今 井篤 ほか 、 平成 7 年電子情報通信学会総合大会講演論文 集 「話速変換 に伴 う 時間伸張の リ アルタ イ ム 吸収法」 D — 6 9 4 、 p p . 3 0 0 ) な どが報告 さ れて い る 。
前者は、 全て の発話様式が既知 と し て上で 、 適 当 な 関 数 を手動で設定する も ので あ り 、 後者 も 倍率 を与え る 関 数 を 手動で規定 し 、 一度設定 し た後は、 こ れ を 固定す る も ので あ る 。
一方、 非音声区間 の短縮 も 、 一定の残存時間 の み を 手 動で規定す る も ので あ り 、 仮 に 「ずれ」 が多 く 積算 さ れ た場合 に は、 バ ッ フ ァ に蓄積 さ れた伸張分の音声 を手動 で ク リ アする も ので あ っ た。
こ の た め 、 従来の話速変換装置では、 放送音声の発話 形態 (話速や 「間」 の と り 方な ど) が発話者 に よ っ て 様々 で あ り 、 人手 に よ っ て 、 それぞれ に適 し たパ ラ メ 一 夕 を設定 し な ければな ら な い こ と か ら 、 操作箇所が多 い と と も も に 、 設定 自 体が難 し く 、 一般のユーザが取 り 扱 う の に難 し過ぎる と レ う 問題があ っ た。
加えて 、 上述の話速変換装置 にお いて は、 音声区間 と 、 非音声区間 と を 区別 し て認識する こ と が必要で あ る が、 従来の音声区間検 出方式 に は種々 の方式があ る 。
従来の音声区間検出方式の 1 つ と し て 、 音声信号のパ ヮ ーな ど を基 に 、 雑音 レベル、 音声 レベルな ど を算出 し 、 こ の算出結果 に基づいて レベル し き い値 を設定 し 、 こ の レベル し き い値 と 、 入力 信号 と を 比較 し て 、 入力信号の レ ベルが大で あ る 場合 に 、 こ れを音声区間 と 判定 し 、 ま た小で あ る 場合 に 、 こ れ を 非音声区間 と 判定す る 方式力 知 ら れて い る 。
こ の方式で用 い る レベル し き い値 を設定す る 方法 と し て は、 代表的な第 1 〜第 3 の方式があ り 、 第 1 の方式で P 一 5一
は、 音声入力 時の雑音 レベル値に 、 予め定め ら れて い る 定数 を加算 し た値 を レ ベル し き い値 と す る 。 ま た こ れ を 改良 し た第 2 の方式で は、 入力音声信号 レベル最大値か ら 雑音 レベル値 を減算 し た値が大で あ る と き に は、 比較 的大 き い値 に 前記 レベル し き い値 を設定 し 、 小で あ る と き に は、 比較的小 さ い値 に前記 レベル し き い値 を設定す る (例 え ば、 特開昭 5 8 — 1 3 0 3 9 5 号公報、 特開昭 6 1 — 2 7 2 7 9 6 号公報な ど) 。
ま た 、 第 3 の方式で は、 こ れ ら の各 レ ベル し き い値の 設定方法 に加 え 、 入力 信号 を連続的 に観測 し 、 その レべ ルが一定の時間以上 にわた っ て定常な と き 、 こ れを雑音 レベル と見な し 、 逐次、 雑音 レベル を更新 し なが ら 、 音 声区間検出 の た め の し き い値 を設定す る (平成 7 年、 電 子情報通信学会総合大会講演論文集 D - 6 9 5 、 3 0 1 頁) 。
し か し なが ら 、 上述 し た従来の音声区間検出方式 に お い て は、 次 に述べ る よ う な 問題があ っ た。
ま ず、 第 1 の方式は、 簡便であ る と い う 利点 を持ち 、 音声 の平均的な レ ベルが中程度の場合 に は、 う ま く 機能 す る も の の 、 音声 の平均的な レベルが大 き過ぎる 場合 に は、 雑音な ど を音声 と し て誤検出 し 易 く 、 ま た小 さ 過ぎ る 場合 に は、 音声の一部が欠落 し て検出 さ れ易 い と い う 問題があ っ た。
ま た 、 第 2 の方式は、 こ の よ う な第 1 の方式 の 問題 を 解決す る こ と がで き る も の の 、 入力 信号中 の雑音や背景 音の レベルがほ ぼ一定で あ る こ と を前提 に し て い る こ と か ら 、 音声の レベル変動 に対 し ては、 こ れに追随す る が、 雑音や背景音の レ ベルが時々 刻 々 、 変化 し た場合 に は、 正確な音声区間 の検出が保証さ れて いな い と い う 問題が め っ た。
ま た 、 第 3 の方式では、 こ の よ う な雑音 レ ベルの変動 を考慮 し て い る こ と か ら 、 雑音 レベルが逐次、 変化 し て も 、 誤検出が発生 し な い 。
し か し なが ら 、 放送番組な どでは、 雑音 の みな ら ず、 効果音 と し て 、 音楽や擬音な どの背景音が存在 し 、 それ ら の レベルが時々 刻 々 、 変動す る のが一般的で あ り 、 し か も こ れ と 同時 に音声が常 に発せ ら れ続け、 入力信号 レ ベルが一定時間以上 にわた っ て定常 にな る こ と が殆 ど無 レ こ と も あ り 、 こ の よ う な場合 に は、 第 3 の方式で も 、 雑音 レベル を正 し く 設定す る こ と がで きず、 音声区間 を 正確 に検出す る こ と が難 し レゝ と い う 問題があ っ た。
本発明 は上記の事情 に鑑み、 ユーザが数段階の 目 安 と な る 変換倍率 を一度だけ設定操作する だけで 、 設定 さ れ た条件 に応 じ て話速変換倍率や非音声区間 を適応的 に制 御 し 、 実際 に発話 さ れた時間枠の 中 で 、 話速変換 に期待 さ れる 効果 を安定 し て得 る こ と がで き る 話速変換方法及 びそ の装置 を提供す る こ と を 目 的 と し て い る 。
ま た 、 パ ワ ー と い う 比較的 、 簡便 に求め ら れ る 特徴量 のみ を用 い る こ と に よ り 、 演算時間 を短 く す る と と も に 、 コ ス ト を低減 さ せなが ら 、 入力音声 と 、 背景音 と をそれ ぞれの レベルの変化 に逐次、 適応 し て、 リ アルタ イ ム で 音声処理 を行な っ て、 音声区間 と 、 非音声区間 と を 判別 す る こ と がで き る 音声区間検出方法及びそ の装置 を提供 する こ と を 目 的 と し て レ る 。 発明 の 開示
上記の 目 的 を達成する た め に 、 請求の範囲第 1 項 に記 載の音声区間検出方法で は、 入力 さ れた信号デー タ に対 し て 、 所定の時間間隔毎 に 、 所定 の フ レ ー ム幅で フ レー ムノ、。 ヮ ー を算出す る と と も に 、 過去の所定 の時間 内 の フ レームパ ワ ー の最大値及び最小値 を保持 し 、 保持 さ れて い る 最大値、 並びに最大値 と最小値 と の差 に応 じて変化 する ノ、。 ヮ 一 に 関す る し き い値 を決定 し 、 こ の し き い値 と 、 現在の フ レーム のノ \° ヮ 一 と を比較 して 、 現在の フ レーム が音声区間か 、 非音声区間か を決定す る こ と を特徴 と し て い る 。
上記の構成 に よ り 、 請求の範囲第 1 項 に記載の音声区 間検出方法で は、 入力 さ れた信号デー タ に対 し て、 所定 の時間間隔毎 に 、 所定の フ レーム 幅で フ レーム ノ\° ヮ ー を 算出 し 、 過去の所定の時間 内 の フ レームパ ワ ー の最大値 及び最小値 を保持 し 、 保持 さ れて い る 最大値、 並びに最 大値 と 最小値 と の差 に応 じ て変化する パ ワ ー に 関す る し き い値 を決定 し 、 こ の し き い値 と 、 現在の フ レーム のパ ヮ 一 と を比較 し て 、 現在の フ レーム が音声区間か、 非音 声区間か を決定す る こ と に よ り 、 入力 音声 と 、 背景音 と をそれぞれの レベルの変化 に逐次、 適応 し なが ら 、 リ ア ルタ イ ム で音声処理 を行な っ て、 音声区間 と 、 非音声区 間 と を判別す る 。
請求の範囲第 2 項 に記載の音声区間検出方法で は、 第 1 項 に記載の音声区間検出方法 にお いて、 最大値 と 最小 値 と の差が所定値未満の場合 に は、 最大値 と 最小値 と の 差が所定値以上の場合 と 比較 し て 、 前記 し き い値 を 、 最 大値 に近 い よ う に決定す る こ と を特徴 とす る 。
ま た 、 上記の 目 的 を達成す る た め に 、 請求の範囲第 3 項 に記載の音声区間検出装置で は、 入力 さ れた信号デー 夕 に対 し て 、 所定の 時間間 隔毎に 、 所定の フ レー ム幅で フ レームパ ヮ 一 を算出する パ ワ ー算出部 と 、 過去の所定 の時間内 の フ レー ムパ ワ ー の最大値 を保持す る 瞬時パ ヮ 一最大値保持部 と 、 過去の所定の時間内 の フ レームパ ヮ 一 の最小値 を保持す る 瞬時パ ワ ー最小値保持部 と 、 こ れ ら 瞬時パ ワ ー最大値保持部、 瞬時パ ワ ー最小値保持部 に 保持 さ れて い る 最大値、 並びに最大値 と最小値 と の差の 両者 に応 じ て変化す る パ ワ ー に 関する し き い値 を決定す る パ ワ ー し き い値決定部 と 、 こ のパ ワ ー し き い値決定部 に よ っ て得 ら れた し き い値 と 現在の フ レー ム のノ \° ヮ 一 と を 比較 し て 、 音声区間か 、 非音声区間か を決定す る 判定 部 と を備え た こ と を特徴 と し て い る 。
上記構成 に よ り 、 請求の範囲第 3 項 に記載の音声区間 検出装置で は、 パ ワ ー算出部 に よ っ て、 所定の時間間 隔 毎 に 、 所定の時間幅 を有す る フ レーム単位で入力 さ れた 信号デー タ を処理 し て 、 そのパ ワ ー を算出す る と と も に 、 瞬時パ ワ ー最大値保持部及び瞬時パ ワ ー最小値保持部 に よ っ て、 過去の所定の時間内 にお け る パ ワ ー の最大値 と 最小値 と を保持 し なが ら 、 ノ、 ヮ 一 し き い値決定部 に よ つ て、 最大値、 な よ びに最大値 と最小値 と の差 に応 じ て逐 次、 変化す る パ ワ ー に 関す る し き い値 を決定 し 、 判別部 に よ っ て、 前記 し き い値 に基づき 、 前記入力 信号デー タ を フ レーム単位で、 音声区間 と 、 非音声区間 と に 区分す る こ と に よ り 、 パ ワ ー と い う 比較的 、 簡便 に求め ら れ る 特徴量の み を用 い て、 演算時間 を短 く す る と と も に 、 コ ス ト を低減 さ せなが ら 、 入力 音声 と 、 背景音 と をそれぞ れの レベルの変化 に逐次、 適応 し て、 リ ア ルタ イ ム で音 声処理 を行な っ て、 音声区間 と 、 非音声 区間 と を判別す る 。
請求の範囲第 4 項 に記載の音声 区間検出 装置で は、 第 3 項 に記載 の音声区間検出装置 にお いて 、 前記パ ワ ー し き い値決定部は、 最大値 と 最小値 と の差が所定値未満の 場合 に は、 最大値 と 最小値 と の差が所定値以上 の場合 と 比較 し て 、 前記 し き い値 を 、 最大値 に近 い よ う に決定す る こ と を特徴 と す る 。
ま た 、 上記の 目 的 を達成す る た め に 、 請求の範囲第 5 項 に記載の話速変換方法で は、 時間的 に変化す る 任意の 比率で、 入力 デー タ を伸張合成 し て得 ら れた 出 力 デー タ につ いて 、 あ る 非音声区間が出現 し 、 こ の 非音声区間 の 継続時間が所定の し き い値 を越え て い る と き 、 こ の入力 デー タ に対す る 出 力 デー タ の伸張時間 を 、 こ の伸張時間 内 の任意の時間だけ削減する こ と を特徴 と し て い る 。
上記 の構成 にお いて 、 請求 の範囲第 5 項 に記載の話速 変換方法で は、 時間的 に変化す る 任意の 比率で、 入力 デ 一 夕 を伸張合成 し て得 ら れた 出 力 デー タ につ い て、 あ る 非音声区間が出現 し 、 こ の非音声区間 の継続時間が所定 の し き い値 を越えて い る と き 、 こ の入力 デー タ に対す る 出 力 デー タ の伸張時間 を 、 こ の伸張時間 内 の任意の時間 だけ削減す る こ と に よ り 、 ユーザが数段階の 目 安 と な る 変換倍率 を一度だ け設定操作する だけで、 設定 さ れた条 件 に応 じて話速変換倍率や非音声区間 を適応的 に制御 し 、 実際 に発話さ れた時間枠の 中 で、 話速変換 に期待 さ れる 効果 を安定 し て得 る 。
請求の範囲第 6 項 に記載の話速変換方法で は、 第 5 項 に記載の話速変換方法 にお い て、 入力 デー タ の伸縮合成 す る 際、 入力 デー タ 長 と 、 こ の入力 デー タ 長 に任意の伸 縮倍率 を乗 じ て算出 さ れる 目 標デー タ 長 と 、 実.際の 出 力 デー タ 長 と の 関係が矛盾 し な い よ う に 、 逐次監視 し なが ら 、 合成処理 を行な い 、 時間的 に変化す る 任意の伸縮合 成比率 に対 し 、 音声部分 に 関 し て 、 情報の 欠落が生 じ な い よ う にす る と と も に 、 話速変換に伴 う 伸張 に対す る 正 確な時間情報 を保持 さ せ る こ と を特徴 と し て い る 。
上記の構成 にお いて 、 請求の範囲第 6 項 に記載の話速 変換方法で は、 入力 デー タ を伸縮合成す る 際、 入力 デ一 夕 長 と 、 こ の入力 デー タ 長 に任意の伸縮倍率 を乗 じ て算 出 さ れる 目 標デ一 夕 長 と 、 実際の 出 力 デー タ 長 と の 関係 が矛盾 し な い よ う に、 逐次監視 し なが ら 、 合成処理 を行 な い 、 時間的 に変化する任意の伸縮合成比率 に対 し 、 音 声部分 に 関 し て、 情報の欠落が生 じ な い よ う にする と と も に 、 話速変換 に伴 う 伸張 に対する 正確な時間情報 を保 持 さ せ る こ と に よ り 、 ユーザが数段階の 目 安 と な る 変換 倍率 を一度だけ設定操作す る だけで 、 設定 さ れた条件 に 応 じ て話速変換倍率や非音声区間 を適応的 に 制御 し 、 実 際 に発話 さ れた時間枠 の 中 で 、 話速変換 に期待 さ れ る 効 果果 を安定 し て得る
求の範囲第 7 項に記載の話速変換方法で は、 第 5 項 に記載の話速変換方法 にお いて、 話速変換 に伴 う 入力 デ 夕 長か ら の伸張分 を解消す る 際、 一定継続時間以上の 非立声区間 の一部 を削除 して 、 話速変換倍率、 伸張量な ど に応 じ て 、 非音声区間 の残存割合 を適応的 に変化 さ せ る と を特徴 と し て い る 。
上記 の構成 にお いて 、 請求の範囲第 7 項 に記載の話速 変換方法で は、 話速変換 に伴 う 入力 デー タ 長か ら の伸張 分 を解消す る 際、 一定継続時間以上 の非音声区間の一部 を 削除 し て 、 話速変換倍率、 伸張量な ど に応 じ て 、 非音 声区間 の残存割合 を適応的 に変化 さ せる こ と に よ り 、 ュ
―ザが数段階の 目 安 と な る 変換倍率 を一度だ け設定操作 す る だけで 、 設定 さ れた条件 に応 じ て話速変換倍率や非 音声区間 を適応的 に制御 し 、 実際 に発話 さ れた時間枠の 中 で 、 話速変換に期待 さ れ る 効果 を安定 し て得 る 。 求の範囲第 8 項 に記載の話速変換方法で は、 第 5 項 に記 の話速変換方法にお いて、 限 ら れた時間枠の 中 で 話速 換 を行な う 際、 入力 デー タ 長 と 、 こ の入力 デー タ 長 に任意の伸縮倍率 を乗 じ て算出 さ れ る 目 標デー タ 長 と 実際の 出 力 デー タ 長 と の 関係が矛盾 し な い よ う に 、 逐次 監視 し なが ら 、 予め設定 さ れて い る 時間間隔で伸張量 を 測定 し の測定結果 に基づき 、 時間差が少な い と き に は、 速変換倍率 を一時的 に上昇 さ せ、 ま た時間差が多 い と に は、 話速変換倍率 を 一時的 に下降 さ せ る こ と に よ り 応的 に話速変換倍率 を変化 さ せ る こ と を特徴 と し て い る 。
上記の構成 にお いて、 請求の範囲第 8 項 に記載の話速 変換方法で は、 限 ら れた時間枠の 中で、 話速変換 を行な う 際 入力 デ一 夕 長 と 、 こ の入力 デー タ 長 に任意の伸縮 倍率 を乗 じ て算出 さ れる 目 標デ一 夕 長 と 、 実際の 出 力 デ ― 夕 と の 関係が矛盾 し な い よ う に 、 逐次監視 し な力 S ら 予め 定 さ れて い る 時間間隔で伸張量 を測定 し 、 こ の測 定結 に基づき 、 時間差が少な い と き に は、 話速変換倍 率 を 時的 に上昇 さ せ、 ま た時間差が多い と さ に は、 話 速変換倍率を 一時的 に下降 さ せ る し に り 、 適応的 に 話速 換倍率 を変化 さ せ る こ と に よ り 、 ュ一ザが数段階 の 目 と な る 変換倍率 を一度だけ設定操作す る だけで、 さ れた条件に応 じ て π舌 ^換倍率や非音声区間 を適 応的 に制御 し 、 実際 に発話 さ れた時間枠の 中 で、 s 換 に期待 さ れ る 効果 を安定 し て得る 。 請求の範囲第 9 項に記載の話速変換方法で は、 第 5 項 に記載の話速変換方法 にお い て、 音声 区間 と 非音声区間 を識別す る 際 に 、 入力 さ れた信号デー タ に対 し て 、 所定 の時間間隔毎 に 、 所定の フ レー ム幅で フ レー ムパ ワ ー を 算出す る と と も に 、 過去の所定の時間 内 の フ レーム ノ° ヮ 一 の最大値及び最小値 を保持 し 、 保持 さ れて い る 最大値 並びに最大値 と 最小値 と の差 に応 じ て変化す る パ ワ ー に 関す る し き い値 を決定 し 、 こ の し き い値 と 、 現在の フ レ 一ム の パ ヮ 一 と を 比較 し て 、 現在の フ レー ム が音声 区間 か 、 非音声区間か を 決定す る こ と を特徴 と し て い る 。
請求の範囲第 1 0 項 に記載の話速変換方法で は、 第 9 項 に記載の話速変換方法 にお いて、 最大値 と 最小値 と の 差が所定値未満の場合 に は、 最大値 と 最小値 と の差が所 定値以上の場合 と 比較 し て 、 前記 し き い値 を 、 最大値 に 近 い よ う に決定す る こ と を特徴 と し て い る 。
ま た 、 上記の 目 的 を達成す る た め に 、 請求の範囲第 1 1 項 に記載の話速変換装置で は、 入力 デー タ を各 ブ ロ ッ ク に分割 し て ブ ロ ッ ク デ一 夕 を生成す る と と も に 、 各ブ ロ ッ ク デ一 夕 に基づき 、 接続デー タ を 生成す る 分割処理 Z接続デ一 夕 生成手段 と 、 入力 さ れた所望話速 に基づき 前記分割処理 Z接続デー タ 生成手段 に よ っ て生成 さ れた 各ブ ロ ッ ク デー タ 、 各接続デー タ の接続順序 を決め て、 こ れ ら を接続 し 、 出 力 デー タ を 生成す る 接続処理手段 と を備え 、 前記接続処理手段は、 時間的 に変化す る 任意の 比率で、 各 ブ ロ ッ ク デー タ を伸張合成 し て得 ら れた 出力 デ一夕 中 に非音声区間が出現 し 、 こ の非音声区間の継続 時間が所定の し き い値 を越えて レ る と き 、 こ の ブ ロ ッ ク *一タ に対す る 出 力 デー タ の伸張時間 を 、 こ の伸張時間 内 の任意の時間だけ削減す る こ と を特徴 と し て い る 。
上記の構成 にお いて 、 請求の範囲第 1 1 項 に記載の話 変換装置では、 入力 デー タ を各ブ ロ ッ ク に分割 し て ブ
□ ッ ク デ一 夕 を 生成す る と と も に 、 各 ブ ロ ッ ク デー タ に づき 、 接続デー タ を 生成す る分割処理 /接続デー タ 生 成手段 と 、 入力 さ れた所望話速に基づき 、 前記分割処理 接 デー タ 生成手段 に よ っ て生成 さ れた各ブ ロ ッ ク デ 夕 、 各接続デー タ の接続順序 を決めて 、 こ れ ら を接続 し 、 出 力 デー タ を 生成す る 接続処理手段 と を有す る 話速 換装置にお いて 、 前記接続処理手段 に よ つ て 、 時間的 に変化する任意の 比率で、 各 ブ ロ ッ ク デー タ を伸張合成 し て得 ら れた 出 力 デー タ 中 に非音声区間が出現 し 、 こ の 非音声区間 の継続時間が所定の し き い値 を越え て い る と の ブ ロ ッ ク デー タ に対する 出 力 デ一 夕 の伸張時間 を、 こ の伸張時間 内 の任意の時間 だけ削減す る し と に よ り 、 ュ一ザが数段階の 目 安 と な る 変換倍率 を一度だ け設 定操作す る だ けで、 設定 さ れた条件に応 じ て話速変換倍 率や非音声区間 を適応的 に制御 し 、 実際 に発話さ れた時 間枠の 中で 、 話速変換 に期待 さ れ る 効果 を安定 し て得 る 請求の範囲第 1 2 項 に記載の話速変換装置で は、 第 1
1 項 に記載の話速変換装置 にお い て、 前記接続処理手段 は、 入力 デー タ の伸縮合成す る 際、 入力 デー 夕 長 と 、 こ の入力 デー タ 長 に任意の伸縮倍率 を乗 じ て算出 さ れ る 目 標デ一 夕 長 と 、 実際の 出 力 デー タ 長 と の 関係が矛盾 し な い よ う に逐次監視 し なが ら 、 合成処理 を行な い 、 時間的 に変化す る 任意の伸縮合成比率に対 し 、 音声部分 に 関 し て、 情報 の 欠落が生 じ な い よ う にする と と も に 、 話速変 換 に伴 う 伸張 に対す る 正確な時間情報 を保持 さ せ る こ と を特徴 と し て い る 。
上記の構成 にお いて 、 請求の範囲第 1 2 項 に記載の話 速変換装置で は、 前記接続処理手段 に よ っ て 、 入力 デー 夕 の伸縮合成す る 際、 入力 デー タ 長 と 、 こ の入力 デー タ 長 に任意の伸縮倍率を乗 じ て算出 さ れる 目 標デー タ 長 と 、 実際の 出 力 デー タ 長 と の 関係が矛盾 し な い よ う に 、 逐次 監視 し なが ら 、 合成処理 を行な い 、 時間的 に変化す る 任 意の伸縮合成比率 に対 し 、 音声部分 に 関 し て 、 情報の欠 落が生 じ な い よ う にす る と と も に 、 話速変換 に伴 う 伸張 に対す る 正確な時間情報 を保持 さ せ る こ と に よ り 、 ユ ー ザが数段階の 目 安 と な る 変換倍率 を一度だけ設定操作す る だ けで、 設定 さ れた 条件 に応 じ て話速変換倍率や非音 声区間 を適応的 に制御 し 、 実際 に発話 さ れた時間枠の 中 で、 話速変換 に期待 さ れ る 効果を安定 し て得 る 。
請求の範囲第 1 3 項 に記載の話速変換装置で は、 第 1 1 項 に記載の話速変換装置 にお いて、 前記接続処理手段 は、 話速変換 に伴 う 入力 デー タ 長か ら の伸張分 を解消す る 際、 一定継続時間以上 の非音声区間の一部 を 削除 し て 、 話速変換倍率、 伸張量な ど に応 じ て 、 非音声区間 の残存 合 を適応的 変化 さ せる こ と を特徴 と し て い る
上記の構成 お いて、 請求の範囲第 1 3 項 に記載の話 変換装置で 、 前記接続処理手段 に よ つ て 、 話速変換 非話一はにるど
に伴 う 入力 デ 夕 長か ら の伸張分 を解消す る 際、 一定継 時間以上 の 音声区間 の一部を削除 し て 、 話速変換倍 、 伸張量な に応 じ て 、 非音声区間 の残存割合 を適 ゝ 的 に変化 さ せ こ と に よ り 、 ユーザが数段階の 目 安 と な る 変換倍率 を 度だけ設定操作する だけで 、 e Λ£ さ れた 条件 に応 じ て 速変換倍率や非音声区間 を適応的 に制御 しし 、 実際 に発 さ れた時間枠の 中 で 、 話速変換 に期待 さ れる 効果 を安定 し て得る 。
請求の範囲 1 4 項 に記載の話速変換装置では 、 第 1
1 項 に記載の 速変換装置 にお いて 、 前記接続処理手段 は、 限 ら れた時間枠の 中 で、 話速変換 を行な う 際、 入力 テ一 夕 長 と 、 の入力 デー タ 長 に任意の伸縮倍率 を 乗 じ て算 出 さ れる 標デ一 夕 長 と 、 実際の 出 力 デー タ 長 と の 係が矛盾 し な い よ う に 、 逐次監視 し なが ら 、 予め 設定 さ れて い る 時間間隔で伸張量を測定 し 、 こ の測定結果 に 基づき 、 時間 が少な い と き に は、 話速変換倍率
的 に上昇 さ せ ま た時間差が多い と き に は 、 話速変換倍 率 を 一時的 に下降 さ せ る こ と に よ り 、 適応的 に話速変換 倍率 を変化 さ せ る こ と を特徴 と し て い る 。
上記の構成 にお いて 、 請求の範囲第 1 4 項 に記載 の話 速変換装置では、 前記接続処理手段 に よ つ て 、 限 ら れた 時間枠の 中 で 話速変換 を行な う 際、 入力 デー タ 長 と 、 こ の入力 デ一 夕 長 に任意の伸縮倍率 を乗 じ て算出 さ れる 目 標デ一 夕 長 と 、 実際の 出 力 デー タ 長 と の 関係が矛盾 し な い よ う に 、 逐次監視 し なが ら 、 予め 設定 さ れて い る 時 間間隔で伸張量 を測定 し 、 こ の測定結果 に基づき 、 時間 差が少な い と き に は、 話速変換倍率 を 一時的 に上昇 さ せ、 ま た時間差が多 い と き に は、 話速変換倍率 を一時的 に下 降 さ せ る こ と に よ り 、 適応的 に話速変換倍率 を変化 さ せ る こ と に よ り 、 ユーザが数段階の 目 安 と な る 変換倍率 を 一度だけ設定操作す る だけで 、 設定 さ れた条件 に応 じ て 話速変換倍率や非音声区間 を適応的 に制御 し 、 実際 に発 話 さ れた時間枠の 中 で、 話速変換 に期待 さ れる 効果 を安 定 し て得る 。
請求の範囲第 1 5 項 に記載の話速変換装置で は、 第 1 1 項 に記載の話速変換装置 に お いて 、 前記入力 デー タ に 対 し て 、 所定 の時間間 隔毎 に 、 所定の フ レー ム 幅で フ レ 一 ムパ ヮ 一 を算出す る と と も に 、 過去の所定 の時間 内 の フ レー ムパ ワ ー の最大値及び最小値 を保持 し 、 保持 さ れ て い る 最大値、 並びに最大値 と最小値 と の差 に応 じ て変 ィ匕す る パ ワ ー に 関す る し き い値 を決定 し 、 こ の し き い値 と 、 現在の フ レー ム のパ ワ ー と を比較 し て 、 現在の フ レ ー ム が音声区間か 、 非音声区間か を決定す る 分析処理手 段 を更 に備え る こ と を特徴 と し て い る 。
請求の範囲第 1 6 項 に記載の話速変換装置で は、 第 1 5 項 に記載の話速変換装置 にお いて 、 前記分析処理手段 は、 最大値 と 最小値 と の差が所定値未満の場合 に は、 最 大値 と 最小値 と の差が所定値以上 の場合 と 比較 し て 、 前 記 し き い値 を 、 最大値 に近い よ う に決定す る こ と を特徴 と し て レゝ る 。 図面 の簡単な説明
図 1 は、 本発明 の話速変換装置の一実施形態 を示すブ ロ ッ ク 図であ る 。
図 2 は、 本発明 の音声区間検出装置の一実施形態 を示 すブ ロ ッ ク 図で あ る 。
図 3 は、 図 2 に示す音声区間検出装置の動作例 を示す 模式図で あ る 。
図 4 は、 図 1 に示す接続デ一 夕 生成部 にお け る 、 同一 ブ ロ ッ ク を繰 り 返 し て接続す る 際 に用 い る 接続デー タ の 生成方法 を示す模式図で あ る 。
図 5 は、 図 1 に示す接続順序生成部 にお け る 入出 力 デ 一 夕 長監視比較部の詳細な構成例 を示す ブ ロ ッ ク 図で あ る 。
図 6 は、 図 1 に示す接続順序生成部で生成 さ れる 接続 順序の一例 を示す模式図で あ る 。 発明 を実施す る た め の最良 の形態
以下、 図面 に基づいて本発明 を詳細 に説明す る 。
図 1 は、 本発明 の話速変換装置の一実施形態 を示すブ ロ ッ ク 図で あ る 。
こ の 図 に示す話速変換装置は、 端子 1 と 、 A Z D 変換 部 2 と 、 分析処理部 3 と 、 ブロ ッ ク デー 夕 分割部 4 と 、 ブ ロ ッ ク デー タ 蓄積部 5 と 、 接続デ一 夕 生成部 6 と 、 接 続デー タ 蓄積部 7 と 、 接続順序生成部 8 と 、 音 F> 夕 接続部 9 と 、 D / A変換部 1 0 と 、 端子 1 1 と を備え て お り 、 発話者か ら の入力音声デー タ に対 し て、 音声デー 夕 の属性 に基づ く 分析処理 を施 し 、 当 該分析 I冃 報 に応 じ て所望の 関数 を使用 し て 、 話速変換音声一 -' を合成す る 際 、 入力 音声デー タ のデー タ長 (入力 デー タ 長) と 、 こ れ に任意の伸縮倍率 を乗 じ て算出 さ れ る 目 標デー タ 長 と 、 実際の 出 力音声デ一 夕 のデー タ 長 ( 出 力 デ一 夕 長) と を 比較 し なが ら 、 矛盾がな い よ う に 、 こ れ ら の処理 を 行な う こ と に よ り 、 伸張 · 伸縮倍率の変化 に対 し て も 、 音声情報の欠落が生 じ る こ と が無 く 、 ま た時々 刻々 、 変 化す る 原音声 と 、 変換音声 と の時間差 を監視す る 。 そ し て 、 時間差が少な い場合 に は、 話速変換倍率 を一時的 に 上昇 さ せ、 ま た逆 に多 い場合 に は、 話速変換倍率 を一時 的 に下降 さ せな ど 、 適応的 に倍率 を変化 さ せ、 さ ら に話 速変換倍率や伸張量な ど に基づいて 、 非音声区間 の残存 割合 を適応的 に変化 さ せて 、 話速変換 に伴 う 原音声か ら の時間差 を適応的 に解消す る 。
A Z D 変換部 2 で は 、 所定のサ ン プ リ ン グ レー ト (例 え ば、 3 2 k H z ) で、 端子 1 に入力 さ れた音声信号、 例 え ばマ イ ク ロ ホ ンやテ レ ヒ ジ ョ ン 、 ラ ジォ、 そ の他の 映像機器、 音響機器の ア ナ ロ グ音声出 力端子か ら 出 力 さ れる 音声信号 を A Z D 変換す る と と も に 、 こ れ に よ つ て 得 ら れた音声デー タ を F I F 〇 メ モ リ にノ ッ フ ァ リ ン グ し なが ら 、 過不足な く 、 後続の分析処理部 3 と 、 ブ ロ ッ ク デー タ 分析部 4 と に供給す る 。
分析処理部 3 で は、 A Z D 変換部 2 か ら 出 力 さ れる 音 声デー タ を分析 し て、 音声区間及び非音声 区間 を抽出す る と と も に 、 こ れ ら の 区間 に基づいて 、 ブ ロ ッ ク デー タ 分割部 4 にお いて行われる 音声デー タ の分割処理で必要 な各ブ ロ ッ ク 時間長 を決定す る 分割情報 を 生成 し 、 こ れ を ブ ロ ッ ク デー タ 分割部 4 に供給す る 。
こ こ で 、 本発明 の音声区間検出方法及びそ の装置 にお け る 一実施形態を説明す る 。
本発明 に よ る音声区間検出方法及びそ の装置で は、 入 力 信号のパ ワ ー を指標 と し た場合、 入力 信号中 の音声の レベル変動 に 関 し て は、 直前 ま で に入力 さ れたパ ワ ー の 最大値 に反映 さ れ、 背景音の レベル変動 に 関 し て は、 直 前 ま で に入力 さ れたパ ワ ー の最小値 に反映 さ れて い る こ と に着 目 し て 、 音声 /非音声判別 の し き い値 を決定す る 際、 雑音が殆 ど存在 し な い と き 、 直前ま で に入力 さ れた パ ワ ー の最大値か ら 所定の値だ け減算 し た値 を基本の し き い値 と し 、 直前 ま で に 入力 さ れたパ ワ ー の最大値か ら 最小値 を差 し 引 い た値が小 さ く な る につれて ( S N が 小 さ く な る につれて) 、 し き い値 を大き く し て レゝ く よ う に 、 補正 を力 Dえ る と い う 処理で、 し き い値 を決定す る 。
そ し て 、 入力音声デー タ に対 し 、 所定 の時間 間隔毎 に 、 所定 の時間幅 を有す る フ レー ム単位で、 そ のパ ワ ー を算 出 し 、 過去の所定の時間 内 に お け る パ ワ ー の最大値 と 、 小値 と を保持 し なが ら 、 最大値、 並びに最大値 と 最小 と の差 に応 じて変化す る パ ワ ー に 関す る し き い値 を用 いて 、 入力 音声、 背景音、 それぞれのパ ワ ー の変化 に逐 次 適応 し なが ら 、 フ レー ム毎に音声区間 と 、 非音声区 と を判別す る 。
以下、 図面 に基づい て具体的に説明する 。
2 は、 音声区間検出装置の一例 を示すブ ロ ッ ク 図で あ る
の 図 に示す音声区間検出装置 1 は、 デジ 夕 ル化 さ れ て入力 さ れた入力信号デー 夕 に対 し て所定の時間 間 隔毎 に所定の フ レ ー ム 幅でパ ヮ ー を算出する パ ヮ ー算出部 2 と 過去の所定の時間 内 の フ レ ー ム パ ワ ー の最大値 を保 持す る 瞬時パ ヮ一最大値保持部 3 と 、 過去の所定 の時間 内 の フ レ ー ムパ ヮ 一 の最小値 を保持す る 瞬時パ ヮ ―最小 値保持部 4 と、 こ れ ら 瞬時 ヮ一最大値保持部 3 、 瞬時 パ ヮ一最小値保持部 4 に保持 さ れて い る 最大値、 並びに 大値 と 最小値 と の差 の両者 に応 じ て変化す る パ ヮ 一 に す る し さ い値 を決定す る パ ヮ一 し き い値決定部 5 と 、 のパ ヮ一 し さ い値決定部 5 に よ つ て決定 さ れた し さ い 値 と 現在の フ レ ー ム の八 ° ヮ 一 と を 比較 し て音声区間か 、 非 声区間か を決定す る 判別部 6 と を備えて い る
そ し て 、 こ の音声区間検出装置 1 では、 入力 信 亍— 夕 対 し 、 所定の時間間隔毎に所定の時間幅 を有す る フ レ ム単位でそのパ ワ ー を算出 し 、 過去の所定の時間内 にお け る パ ワ ー の最大値 と最小値 と を保持 し なが ら 、 最 大値、 並びに最大値 と 最小値 と の差 に応 じ て変化す る パ ヮ 一 に 関す る し き い値 を用 い て、 入力音声 と 背景音 のそ れぞれのパ ワ ー の変化 に逐次適応 し なが ら 、 フ レー ム 毎 に音声区間 と 、 非音声区間 と の判別 を行な う 。
パ ワ ー算 出部 2 では、 例 え ば 5 m s の時間 間隔で 、 例 え ば 2 0 m s の フ レーム幅 に わた り 、 信号の 自 乗和な い し 自 乗平均値 を算出 し 、 こ れ を対数化、 即ち デ シベル化 し て 、 そ の時刻 の フ レームパ ワ ー を " P " と し 、 こ れ を 瞬時パ ワ ー最大値保持部 3 と 、 瞬時パ ワ ー最小値保持部 4 と 、 判別部 6 と に供給す る 。
瞬時パ ワ ー最大値保持部 3 では、 過去の所定の時間 内 (例 え ば、 6 秒) の フ レーム ノ \° ヮ 一 " P " の最大値 を保 持す る よ う に設計 さ れてお り 、 常 にそ の保持 し た値 " P upper" をパ ワ ー し き い値決定部 5 に供給す る 。 但 し 、 最大値 " P upper" は " P 〉 P upper" で あ る よ う な 、 フ レームパ ワ ー " P " がパ ワ ー算出部 2 か ら 供給 さ れ る と 、 直ち にその値が更新 さ れる 。
ま た 、 瞬時パ ワ ー最小値保持部 4 で は、 過去 の所定 の 時間内 (例 え ば、 4 秒) の フ レームノ、。 ヮ 一 " P " の最小 値 を保持す る よ う に設計 さ れてお り 、 常 にそ の保持 し た 値 " P lower" をノ ^ ヮ 一 し き い値決定部 5 に供給する 。 但 し 、 最小値 " P lower" は " P < P lower" で あ る よ う な 、 フ レ一ムパ ワ ー " P " がパ ワ ー算出部 2 力ゝ ら 供 給 さ れる と 、 直ち にそ の値が更新 さ れる 。 パ ワ ー し き い値決定部 5 で は、 瞬時パ ワ ー最大値保持 部 3 及び瞬時パ ワ ー最小値保持部 4 に保持 さ れて い る 最 大値 " P upper" と 、 最小値 " P lower" と を用 い て 、 例 え ば、 次式 に示す演算 を行な っ てパ ワ ー に 関す る し き い値 " P thr" を 決定 し 、 こ れを判別部 6 に供給す る 。
P upper- P lower≥ 6 0 [ d B ] の場合 :
P thr = P upper - 3 5 … ( 1 )
P upper- P lower< 6 0 [ d B ] の場合 :
P thr = P upper - 3 5 + 3 5 X { 1 - ( P upper — P lower) / 6 0 } … ( 2 ) 但 し 、 背景音の レベルが音声の レベル に近接 し て き た 場合 の本発明装置の誤動作 を 防 ぐため に 、 P thr は、 P thr= P upper - 1 3 を上限 とする の が望ま し い。 ま た 、 上式中 の定数 3 5 は、 前述の雑音が殆 ど存在 し な い と き の基本 の し き い値で あ る 。
ま た 、 判定部 6 で は、 パ ワ ー算出部 2 か ら フ レーム毎 に供給 さ れる ノ° ヮ 一 " P " と 、 パ ワ ー し き い値決定部 5 力 ら 供給 さ れ る し き い値 " P thr" と を 比較 し て 、 フ レー ム 毎に 、 " P > P thr" な ら ば、 当 該 フ レーム を音 声 区間 と 判定 し 、 ま た " P P thr" な ら ば、 当 該 フ レーム を 非音声区間 と 判定 し 、 こ れ ら の各判定 結果 に 基づき 音声 Z非音声の判別信号を 出 力 す る 。
こ れ に よ つ て 、 図 3 に示すよ う に 、 入力信号デー タ の 値が変化 し て い る と き 、 パ ワ ー算出部 2 か ら 出 力 さ れる パ ワ ー " P " に基づき 、 瞬時パ ヮ 一最大値保持部 3 と 、 瞬時パ ワ ー最小値保持部 4 と に各々 、 最大値 " P upper" と 、 最小値 " P lower" と が保持 さ れる と と も に 、 こ れ ら 最大値 " P u er" と 、 最小値 " P lower" と に基づいて 、 し き レゝ値 " P thr" が決定 さ れ、 こ の し き い値 " P thr" に基づき 、 各 フ レーム が音声区間、 非 音声区間 の いずれで あ る か判定 さ れる 。
こ の よ う に 、 こ の実施の形態では、 入力 信号デ一 夕 に 対 し 、 所定の時間間隔毎に所定の時間幅 を有する フ レー ム 単位でそ のパ ワ ー を算出 し 、 過去の所定 の時間内 にお け る パ ワ ー の最大値 と 最小値 と を保持 し なが ら 、 最大値、 な よ びに最大値 と 最小値 と の差 に応 じ て変化する パ ワ ー に 関す る し き い値 を用 いて、 入力 音声、 背景音、 それぞ れのパ ワ ー の変化 に逐次、 適応 し なが ら 、 フ レーム毎 に 音声区間 と 、 非音声区間 と の判別 を行な う よ う に し て い る ので、 放送番組中や録音テー プあ る い は 日 常生活で、 雑音や背景音 を伴 っ て発声 さ れた音声 につ いて 、 フ レー ム毎 に 、 音声区間か 、 非音声 区間か を正確 に判別す る こ と がで き る 。
ま た 、 こ の実施の形態で は、 過去の所定の時間 内 の 瞬 時パ ワ ー の最小値 を基 に 、 背景音の レベル を推定 し て い る ので、 放送番組中 な どで、 背景音の レ ベルが時々 刻 々 、 変動 し 、 かつ 同時 に音声が発せ ら れ続けて い る 場合 にお いて も 、 入力 信号 中 の音声区間 と 、 非音声区間 と を判別 す る こ と がで き る 。
こ の結果、 入力 信号中 の音声 に対 し て 、 ( a ) 加工 し て声の高 さ や話す速 さ を変え る 、
( b ) 意味内容 を機械的 に音声認識する 、
( c ) 符号化 し て伝送 あ る い は記録す る 、
場合な ど にお いて、 加工音声の音質 の 向上、 ま た音声認 識率の改善、 さ ら に符号化効率の 上昇や、 復号化音声の 品質の 向上が可能 と な る 。
ま た 、 パ ワ ー と い う 比較的簡便 に求め ら れ る 特徴量の み を用 いて い る ので、 演算時間 を短縮す る こ と がで き る と と も に 、 装置全体の構成 を簡素化 し て、 コ ス ト を低減 す る こ と がで き 、 さ ら に リ アルタ イ ム に音声処理 を行な う こ と が可能 と な る 。
そ し て、 本発明 の話速変換方法 にお い て は、 以下の よ う に更 に処理 を続け る 。
つ ま り 、 ゾ° ヮ 一が所定 の し き い値 P t h r以上の 区間、 すなわ ち 音声区間 につ い て は、 声帯 の振動 を 伴 う 音声 で あ る 有声音か 、 声帯の振動 を伴わな い音声で あ る 無声 音か の判定 を行な う 。 こ れ に は、 ノ° ヮ 一 の大き さ だ けで な く 、 ゼ ロ 交差分析、 自 己相 関分析な ど を併用す る 。
ま た 、 音声デー タ を分析す る た め に、 各ブ ロ ッ ク の時 間長 を 決定す る と き に は、 音声区間 (有声音区間、 無声 音区間) 及び非音声区間毎 に所定の 自 己相 関分析 を行な つ て周期性 を検出 し 、 こ の周期性 を基に 、 ブ ロ ッ ク 長 を 決定す る 。 ま た 、 有声音区間 につ いて は、 声帯の振動周 期であ る ピ ッ チ周期 を検出 し 、 各 ピ ッ チ周期が各々 の ブ ロ ッ ク 長 と な る よ う に分割 を行な う 。 こ の 際、 有声音区 間の ピ ッ チ周期が 1 . 2 5 m s 〜 2 8 . O m s 程度 の広 い範囲 に分布 し て い る た め 、 長短異な る 窓幅 の 自 己相 関 分析 を行な う な ど し て 、 で き る だけ正確な ピ ッ チ周期 を 検出す る 。 なお 、 有声音区 間 の ブ ロ ッ ク 長 と し て、 ピ ッ チ周期 を用 い た の は、 ブ ロ ッ ク 単位の繰 り 返 し に起因す る 声の 高 さ の変化 (低 い声 に な る ) を 防止す る た め で あ る 。 ま た 、 無声音区間、 非音声区 間 につ い て は、 5 m s 以内 の周斯性 を検出 し て、 ブ ロ ッ ク 長 を検出す る 。
ま た 、 ブ ロ ッ ク デ一 夕 分割部 4 で は、 分析処理部 3 で 決定 さ れた ブ ロ ッ ク 長 に し たがっ て、 A / D 変換部 2 か ら 出 力 さ れる 音声デー タ を分割 し 、 こ の分割処理で得 ら れた ブ ロ ッ ク 単位の音声デー タ と 、 そ の ブ ロ ッ ク 長 と を ブ ロ ッ ク デー タ 蓄積部 5 に供給す る と と も に 、 分割処理 で得 ら れた各 ブ ロ ッ ク 単位の音声デー タ の両端部分、 す なわ ち 開始部分か ら 所定 の時間長 (例 え ば、 2 m s 分) と 、 終了部分か ら 所定 の時間長 (例 え ば、 2 m s 分) 前 の部分 を接続デー タ 生成部 6 に供給す る 。
ま た 、 ブ ロ ッ ク 蓄積部 5 で は、 リ ン グバ ッ フ ァ に よ つ て 、 ブ ロ ッ ク デ一 夕 分割部 4 か ら 供給 さ れた ブ ロ ッ ク 単 位の音声デ一 夕 、 その ブ ロ ッ ク 長 を一時的 に格納 し 、 必 要 に応 じ て一時記憶 し て い る ブ ロ ッ ク 単位の音声デー タ を音声デー タ 接続部 9 に供給す る と と も に 、 必要 に応 じ て一時記憶 し て い る ブ ロ ッ ク 長 を接続順序生成部 8 に供 給す る 。
ま た 、 接続デー タ 生成部 6 で は、 各ブ ロ ッ ク 毎に 、 図 4 に示すよ う に 、 直前の ブ ロ ッ ク の終了部分、 当 該プ ロ ッ ク の 開始部分の音声、 直後の ブ ロ ッ ク の 開始部分 の音 声デ一 夕 に窓掛け を行な っ た後、 直前の ブ ロ ッ ク の終了 部分 と 、 当 該ブ ロ ッ ク の終了部分の重複加算及び当 該 ブ □ ッ ク の 開始部分 と 直後の ブ ロ ッ ク 開始部分の重複加算 を行な う と と も に 、 こ れ ら を連結 し て各ブ ロ ッ ク 毎 に 、 接続デー タ を 生成 し 、 こ れを接続デー タ 蓄積部 7 に供給 する
接続デ一 夕 蓄積部 7 で は、 リ ン グバ ッ フ ァ に よ っ て 、 接続デー タ 生成部 6 カゝ ら 供給 さ れた各 ブ 口 ッ ク 毎の接続 一》
つ 夕 を一 d ¾する と と ち に 、 必要 に応 じて一時記憶
、、
して い る 接続デー 夕 を音尸 ア 一 夕 接続部 9 に供給す る 。
た 、 接続順序生成部 8 で は、 受聴者が設定 し た所望 の話速 を実現す る た め に、 ブ □ ッ ク 単位の音声デー タ 及 び接 Z ノー 一 夕 の接続順序 を 生成す る 。 こ の場合、 受聴者 力 デジ 夕 リレボ リ ュ ー ム な ど を ィ ン 夕 フ エ ー ス と し て 、 各 属性 V ¾ 尸 音区間、 無尸 音区間及び非音声区間) 毎の時 間的な伸張倍率 を設定で さ る の値 は書き換え可能な メ モ リ に格納 さ れて い る 。 ま た こ の値は、 固定の伸張倍 率 と し て処理 さ れる 方法 ( = 一様伸張モー ド ) と 、 こ の δ又 疋倍率 を 目 標 に し つ つ 定時間以上ずれが積算 し な い よ う に 、 各音声属性 を総合的 に 、 かつ適応的 に制御す る こ と で、 限 ら れた時間枠で話速変換効果を実現す る 方 法 ( = 時間伸張吸収モー F ) と の いずれか を選択す る こ と に よ っ て提供 さ れ る 。 の接続順序生成部 8 に よ れば、 上記メ モ リ に設定 さ れた伸張倍率に対 し て実際 に音声合成を行な う 際 に 、 同 時刻 の入力 音声デ— 夕 長 と 出 力音声デー タ 長 と 、 こ れか ら 成 し よ う と す る 音声デ一 夕 長の各時間関係 を リ ァ ル 夕 ィ ム で把握する こ と で 、 原音声の発話時刻 と 変換音声 の 出 力 時刻 と の時間差 を常 に監視す る こ と がで き 、 こ の 報 を フ ィ ― ド バ ッ ク す る こ と で時間差 を 自 動的 に一定 長以下 に抑え込む こ と がで き る 。 ま た 同時 に 、 任意の 夕 ィ ミ ン グで任意の値 に変更 さ れ る 伸縮倍率 に対 し て 、 そ の実行 に時間的な矛盾 (例 え ば、 入力音声テ 一 タ 長よ り も 出 力音声デー タ 長 を短 く す る よ う な要求な ど) がな い か否か を チエ ッ ク で き 、 合成時 に音声情報の 欠落 を 生ず る と を 防止でき る 。
次 に 、 こ の接続順序生成部 8 の処理 を具体的 に説明す る 任意の 関数 に よ っ て音声 の伸縮倍率 を設定す る 際、 ブ □ ッ ク ァ一 夕 蓄積部 5 か ら 供給 さ れる 各 ブ ロ ッ ク 長 に つ き 、 ブ ロ ッ ク デー タ 分割部 4 で規定 さ れた処理単位 の音声デー 夕 長 ( = 入 力 夕 長) を逐次算出 し 、 こ の 入力 デ一 夕 長 に対 し 、 受聴者 に よ っ て設定 さ れた伸縮倍 率 を乗 じ た も の を 目 標デ一 夕 長 と す る 。 音声デー タ 接続 部 9 では、 こ の 目 檫 7 夕 値 と 一致す る よ う に音声デー 夕 を接続す る と と も に 、 実際 に 出 力 さ れた 出 力 音声デー
夕 の長 さ と な る 音尸 :? 夕 長 ( = 出 カ デ一 夕 長) を逐次 順序生成部 8 に フ ィ 一 ド バ ッ ク す る
そ し て、 図 5 に示すよ う に 、 接続順序生成部 8 に設 け ら れた入出 力 デー タ 長監視比較部 2 0 に よ っ て生成 さ れ る 目 標長 を 、 接続順序情報 と し て音声デ一 夕 接続部 9 に 送 る 。 入出 力 デー タ 長監視比較部 2 0 は、 入力 デー タ 長 を監視する 入力 デー タ 長監視部 2 1 と 、 こ の入力 デー タ 長監視部 2 1 で得 ら れた入力 デ一 夕 長 と 例 え ば受聴者
( あ る い は、 装置 に 内蔵 さ れた 関数 メ モ リ ) に よ っ て与 え ら れた値 と に基づい て行われた話速倍率変換で生成 さ れる 出 力 デー タ の 目 標長 ( 目 標デ一 夕 長) を演算する と と も に 、 こ の 目 標デー タ 長 を 自 動的 に修正す る 出 力 目 標 長演算部 2 2 と 、 こ の 出 力 目 標長演算部 2 2 で得 ら れた 目 標デー タ 長 と 入力 デ一 夕 長監視部 2 1 で得 ら れた入力 デ一 夕 長 と を 比較 し て、 目 標デー タ 長が入力 デー タ 長よ り 短い と き は 目 標デー タ 長 を入力 デー タ 長 に揃え 、 さ ら に 、 目 標デー タ 長が入力 デー タ 長以上の と き は 目 標デー 夕 長 をその ま ま 出 力 す る 比較部 2 3 と 、 音声デー タ 接続 部 9 か ら 出 力 デ一 夕 に 関す る 既接続情報 を入力 し て 出 力 デー タ 長 を監視す る 出 力 デ一 夕 長監視部 2 4 と 、 こ の 出 カ デ一 夕 長監視部 2 4 で得 ら れた 出 力 デー タ 長 と 比較部 2 3 で得 ら れた 目 標デー タ 長 と を 比較 し 、 目 標デー タ 長 が出 力 デ一 夕 長よ り 短 い と き は 目 標デー タ 長 を 出 力 デー 夕 長 に揃え 、 さ ら に 、 目 標デ一 夕 長が出 力 デー タ 長以上 の と き は 目 標デー タ 長 をそ の ま ま 出力す る 比較部 2 5 と 、 で構成 さ れ る 。 そ し て 、 次 に述べ る よ う に 、 音声 の属性 毎 に設定 さ れた メ モ リ の値 を所定 の時間間隔で読み出す と と も に 、 読み出 さ れた属性毎の伸張倍率 を実現す る た め に 、 目 標デー タ 長 を求め る と と も 、 こ の 目 標デー タ 長 と 、 出力 デー タ 長監視部 2 4 で得 ら れた 出 力 デー タ 長 と に基づき 、 音声の伸縮情報 を加味 し た接続情報 を 時々 刻 々 、 生成 し て、 図 6 に示すよ う に 、 各 ブ ロ ッ ク 毎の音 声デー タ と 、 接続デー タ と を接続 さ せ る 。
ま ず、 入力 デー タ 長 と 、 目 標デー タ 長 と を逐次比較 し 入力 デ一 夕 長が 目 標デ一 夕 長以上 と 判定 さ れた と き に は 入力 デー タ 長 に揃 う よ う に 、 目 標デー タ 長 を修正 し 、 ま た入力 デー タ 長が 目 標デー タ 長未満で あ る と 判定 さ れた と き に は、 目 標デ一 夕 長の変更 を 中止す る 。
次 に 、 目 標デー タ 長 と 、 実際の 出 力 デ一 夕 長 と を 比較 し 、 出力 デ一 夕 長が 目 標デ一 夕 長以上 と 判定 さ れた と き に は、 出 力 デ一 夕 長 に揃 う よ う に 、 目 標デー タ 長 を修正 し 、 ま た 出 力 デー タ 長が 目 標デー タ 長未満 と 判定 さ れた と き に は、 目 標デー タ 長の変更 を 中止す る 。
こ れ ら の 比較処理 に よ っ て得 ら れた 目 標デー タ 長 と 合 致す る よ う に 、 伸張情報や接続情報な ど を示す接続指令 を 生成 し て 、 こ れを音声デー タ 接続部 9 に供給す る 。
次 に 、 接続順序生成部 8 にお け る 話速変換倍率の制御 条件 につ い て説明す る 。 例 え ば、 放送の時間枠な ど 、 限 ら れた時間枠の 中 で 、 話速変換を行な う こ と を所望す る 場合 にお い て は、 入力 デー タ 長 と 、 出力 デー タ 長 と を逐 次監視 し 、 予め任意 に設定 し た時間間隔で、 両デ一 夕 の 時間差 を測定す る こ と に よ っ て 、 遅延量が少な い と き に は、 話速変換倍率 を一時的 に上昇 さ せ、 ま た逆 に多 い と さ に は、 こ れを下降 さ せる 処理 を行な う な ど 、 適応的 に 倍率 を変化 さ せる よ う な関数 を設定すれば良 い 。
例 え ば、 こ の実施の形態で は、 2 0 0 m s 以上の非音 声区間が出現 し た時点で、 それ以降 に 出現す る 最初 の有 声音の 開始時刻 を " t = 0 " と し 、 " 0 ≤ t ≤ T " の範 囲 に 出現す る 各有声音の 開始時刻 に対応 し た倍率 を与え る 関数 と し て 、 以下の式の よ う な余弦関数 を用 い る こ と がで き る 。
f ( t ) = r s + 0 . 5 ( e ) ( c o s π t
/ T + 1 . 0 ) ·· ( 3 ) 但 し 、 t : 0 ≤ t ≤ T
r s : 受聴者 に よ る 外部入力値 (
r s ≤ 1 . 6 )
r e : 初期値 と し て与え ら,れ る 値 (例 え ば、 r e = 1 . 0 )
こ で、 入力 デ一 夕 長 と 、 出力 デ一 夕 長 と の時間差 を あ る 一定の時間間隔、 例 え ば 1 秒毎 に計算 し 、 その と き の時間差 に応 じて 、 初期値 r e を " 1 . 0 " か ら " 0 .
0 5 " づつ増加 さ せた り 、 ま た逆 に " 0 . 9 5 " 程度 ま で減少 さ せ る 処理 を行な う 。 ただ し 、 期 間 T を越え た時 点で 、 ま だ 2 0 0 m s 以上 の非音声区間が出現 し な い場
A は、 それ以降の有声音区間 に は、 例 え ば 1 . 0 倍の 倍率 :遍用 す る 。 こ こ で は、 ピ ッ チやパ ヮ 一な ど の変化 量 を 匕 1
曰 Τ示 に し て新たな倍率 を与え る こ と も で さ る 。
た 、 非音声区間 の残存割合 につ いて も 、 話速変換倍 率や伸張量な ど を鑑みて適応的 に変化 さ せ る よ う にする こ れ も 関数 と し て任意 に設定でき る 。
た、 外部入力値 r s に対応 し て非音声区間 の短縮許 容限 (最低、 どれだ けは削減せずに保存する か を示す 値) を設定 し 、 上述 し た よ う な関数で表現 し て も 良 い が 例 え ば次 に述べ る よ う に 、 離散的 に設定す る こ と も でき る 。
s = 1 . 0 の と さ は、 3 0 0 m s ま で削減可能 s = 1 . 1 の と さ は、 2 5 0 m s ま で削減可能 s = 1 . 2 の と き は、 2 3 0 m S ま で削減可能 r s = 1 . 3 の と さ は、 2 0 0 m S ま で削減可能 r s = 1 . 4 の と さ は、 2 0 0 m S ま で削減可能 r s = 1 . 5 の と さ は、 1 5 0 m S ま で削減可能
s = 1 . 6 の と き は、 1 0 0 m S ま で削減可能 な ど に δ又 疋 し て も 良 い
た 、 非音声区間 の削減方式 につ いて は、 リ ン グバ ッ フ ァ 上の任意 の ァ ド レ ス にポイ ン タ を移動 さ せ る こ と に よ つ て実現する 。 こ の実施の形態では、 当 該非音声区間 の直後の有声音の 開始部分 に移動す る こ と に よ り 、 音声
I冃 の欠落 を 防止 し て い る 。
た 、 音声デー タ 接続部 9 では、 接続順序生成部 8 で 決定 さ れた接続順序 に し たが つ て ブ ロ ッ ク デー タ 蓄積部
5 か ら ブ ロ ッ ク 単位の音声デー タ を読み出 し 、 指定 さ れ た ブ ロ ッ ク の音声デー 夕 を伸張さ せ る と と も に 、 接続デ
— 々 蓄積部 7 か ら 接続つ 夕 を も 出 し なが ら 、 D A 変換部 1 0 に設け ら れた F I F O メ モ リ に過不足が起 こ ら な い よ う に 、 接続処理 を抑制 し なが ら 、 音声デー タ と 接続デ一 夕 と を接続 し て、 出 力音声デー タ を 生成 し 、 こ れを D / A変換部 1 0 に供給する 。
D Z A変換部 1 0 で は、 F I F O メ モ リ に よ っ て 、 音 声デー タ 接続部 9 か ら 供給 さ れる 出 力 音声デー タ をバ ッ フ ァ リ ン グ し なが ら 、 所定 のサ ン プ リ ン グ レー ト (例 え ば、 3 2 k H z ) で、 出 力 音声デ一 夕 を D / A変換 し て、 出 力 音声信号 を生成 し 、 こ れ を端子 1 1 か ら 出 力 す る 。
こ の よ う に 、 こ の実施の形態で は、 発話者か ら の入力 音声デー タ に対 し て 、 音声デー タ の属性 に基づ く 分析処 理 を施 し 、 当 該分析情報 に応 じ た所望の 関数 を使用 し て 話速変換音声デー タ を 合成す る 際、 入力 デ一 夕 長 と 、 こ れに任意の伸縮倍率 を乗 じ て算出 さ れ る 目 標デー タ 長 と 、 実際 の 出 力 音声デ一 夕 長 と を 比較 し なが ら 、 矛盾がな い よ う に 、 こ れ ら の処理 を行な う よ う に し た ので 、 伸張 · 伸縮倍率の変化 に対 し て も 、 音声情報の 欠落が生 じ な い よ う にす る こ と がで き る 。 ま た、 時々 刻 々 変化す る 原音 声 と 、 変換音声 と の時間差 を監視 し 、 時間差が少な い場 合 に は、 話速変換倍率 を一時的 に上昇さ せ、 ま た逆 に多 い場合 に は、 話速変換倍率 を一時的 に下降 さ せ る な ど 、 適応的 に倍率 を変化 さ せ、 さ ら に話速変換倍率や伸張量 な ど に基づいて 、 非音声区間 の残存割合 を適応的 に変化 さ せて、 話速変換 に伴 う 原音声か ら の時間差 を適応的 に 解消す る よ う に し て い る ので、 ユーザが数段階の 目 安 と な る 変換倍率 を一度だけ設定操作する だけで、 設定 さ れ た条件 に応 じ て話速変換倍率や非音声区間 を適応的 に制 御 し 、 実際 に発話 さ れた時間枠の 中 で 、 話速変換に期待 さ れ る 効果 を安定 し て得る こ と ができ る 。
こ れに よ つ て、 話者が頻繁 に入れ替わ る 放送番組な ど に対 し て も 、 自 動的 に各発話者に最適な話速変換効果 を 提供す る こ と がで き 、 ご く 簡単な操作で、 早 口 が聞 き取 り 難 い 高齢者や視聴障害者 に対 し て も 、 リ アルタ イ ム性 を有す る 緊急報道やテ レ ビな ど の映像付き の メ ディ ァ の 音声 を 時間遅れ無 く 、 かつ安定 し て ゆ っ く り 聴取 さ せ る こ と がで き る 。
産業上の利用 可能性
以上説明 し た よ う に本発明 の話速変換方法及びそ の装 置 に よ れば、 ユーザが数段階の 目 安 と な る 変換倍率 を一 度だ け設定操作す る だ けで 、 設定 さ れた条件 に応 じ て話 速変換倍率や非音声区間 を適応的 に制御 し 、 実際 に発話 さ れた時間枠の 中 で、 話速変換に期待 さ れる効果 を安定 し て得る こ と がで き る 。
ま た 、 本発明 の音声区間検出方法及びそ の装置 に よ れ ば、 パ ワ ー と い う 比較的、 簡便 に求め ら れる 特徴量の み を用 い る こ と に よ り 、 演算時間 を短 く す る と と も に 、 コ ス ト を低減 さ せなが ら 、 入力 音声 と 、 背景音 と をそれぞ れの レ ベルの変化 に逐次、 適応 し て 、 リ アルタ イ ム で音 声処理 を行な っ て 、 音声区間 と 、 非音声区間 と を判別す る こ と がで き る 。

Claims

請 求 の 範 囲 1 . 入力 さ れた信号デー タ に対 し て 、 所定の時間間隔 毎 に 、 所定の フ レー ム 幅で フ レー ムノ ヮ 一 を算 出す る と と も に 、 過去の所定の時間 内 の フ レー ムパ ワ ー の最大値 及び最小値 を保持 し 、
保持さ れて い る 最大値、 並びに最大値 と 最小値 と の差 に応 じ て変ィヒす る ノ \° ヮ 一 に 関す る し き い値 を決定 し 、 こ の し き い値 と 、 現在の フ レー ム のパ ワ ー と を 比較 し て 、 現在の フ レー ム が音声区間か 、 非音声区間か を 決定 する こ と を特徴 とす る 音声区間検出方法。
2 . 請求項 1 に記載の音声区間検出方法 にお い て 、 最大値 と 最小値 と の差が所定値未満の場合 に は、 最大 値 と 最小値 と の差が所定値以上の場合 と 比較 し て、 前記 し き い値 を 、 最大値 に近 い よ う に決定す る こ と を特徴 と す る 音声区間検出方法。
3 . 入力 さ れた信号デー タ に対 し て、 所定 の 時間 間 隔 毎に 、 所定の フ レーム幅で フ レームパ ワ ー を算 出す る パ ヮ 一算出部 ( 3 2 ) と 、
過去の所定の時間内 の フ レームパ ワ ー の最大値 を保持 す る 瞬時パ ワ ー最大値保持部 ( 3 3 ) と 、
過去の所定の時間 内 の フ レー ムパ ワ ー の最小値 を保持 す る 瞬時パ ワ ー最小値保持部 ( 3 4 ) と 、 こ れ ら 瞬時パ ワ ー最大値保持部、 瞬時パ ワ ー最小値保 持部 に保持 さ れて い る 最大値、 並びに最大値 と 最小値 と の差 の両者 に応 じ て変化する パ ワ ー に 関す る し き い値 を 決定す る ノ、。 ヮ 一 し き い値決定部 ( 3 5 ) と 、
こ の ノ° ヮ 一 し き い値決定部 に よ っ て得 ら れた し き い値 と 現在の フ レー ム のパ ワ ー と を 比較 し て 、 音声区 間か 、 非音声区間か を決定す る 判定部 ( 3 6 ) と 、
を備え た こ と を特徴 と す る 音声区間検出装置。
4 . 請求項 3 に記載の音声 区間検出装置 に お い て 、 前記パ ワ ー し き い値決定部 ( 3 5 ) は、 最大値 と 最小 値 と の差が所定値未満の場合 に は、 最大値 と 最小値 と の 差が所定値以上の場合 と 比較 して 、 前記 し き い値 を 、 最 大値 に近い よ う に決定す る こ と を特徴 と する 音声区間検 出方法。
5 . 時間的 に変化す る 任意の比率で 、 入力 デー タ を伸 張合成 し て得 ら れた 出 力 デー タ につ いて、 あ る 非音声区 間が出現 し 、 こ の非音声区間 の継続時間が所定の し き い 値 を越えて い る と き 、 こ の入力デ一 夕 に対す る 出 力 デ一 夕 の伸張時間 を 、 こ の伸張時間内 の任意の時間 だけ削減 す る こ と を特徴 と す る 話速変換方法。
6 . 請求項 5 に記載の話速変換方法 にお いて、
入 力 デー タ の伸縮合成す る 際、 入力 デー タ 長 と 、 こ の 入力 デー タ 長 に任意の伸縮倍率 を乗 じ て算出 さ れ る 目 標 デー タ 長 と 、 実際 の 出 力 デー タ 長 と の 関係が矛盾 し な い よ う に 、 逐次監視 し なが ら 、 合成処理 を行な い 、
時間的 に変化す る 任意の伸縮合成比率 に対 し 、 音声部 分 に 関 し て 、 情報の 欠落が生 じ な い よ う にす る と と も に 話速変換 に伴 う 伸張 に対す る 正確な時間情報 を保持 さ せ る こ と を特徴 と す る 話速変換方法。
7 . 請求項 5 に記載の話速変換方法 に お い て 、
話速変換 に伴 う 入力 デー タ 長か ら の伸張分 を解消す る 際、 一定継続時間以上の非音声区間 の一部 を 削除 し て 、 話速変換倍率、 伸張量な ど に応 じ て 、 非音声区間 の残存 割合 を適応的 に変化 さ せる こ と を特徴 と す る 話速変換方 法。
8 . 請求項 5 に記載の話速変換方法 に お いて、
限 ら れた時間枠の 中 で 、 話速変換 を行な う 際、 入 力 デ 一 夕 長 と 、 こ の入力 デー タ 長 に任意 の伸縮倍率 を乗 じ て 算出 さ れる 目 標デー タ 長 と 、 実際 の 出力 デー タ 長 と の 関 係が矛盾 し な い よ う に 、 逐次監視 し なが ら 、 予め設定 さ れて い る 時間間 隔で伸張量 を測定 し 、 こ の測定結果 に基 づき 、 時間差が少な い と き に は、 話速変換倍率 を一時的 に上昇 さ せ、 ま た時間差が多 い と き に は、 話速変換倍率 を一時的 に下降 さ せる こ と に よ り 、 適応的 に話速変換倍 率 を変化 さ せ る こ と を特徴 と す る 話速変換方法。
9 . 請求項 5 に記載の話速変換方法 にお い て 、 音声区間 と 非音声区間 を識別す る 際 に 、
入力 さ れた信号デー タ に対 し て、 所定の時間間隔毎 に 所定 の フ レー ム幅で フ レームパ ワ ー を算 出す る と と も に 過去の所定の時間内 の フ レームパ ワ ー の最大値及び最小 値 を保持 し 、
保持 さ れて い る 最大値、 並びに最大値 と 最小値 と の差 に応 じ て変化す る ゾ ヮ 一 に 関す る し き い値 を 決定 し 、 こ の し き い値 と 、 現在の フ レーム のノ \° ヮ 一 と を 比較 し て、 現在の フ レーム が音声区間か 、 非音声区間か を決定 する こ と を特徴 とす る 話速変換方法。
1 0 . 請求項 9 に記載の話速変換方法 にお いて、 最大値 と 最小値 と の差が所定値未満の場合 に は、 最大 値 と 最小値 と の差が所定値以上の場合 と 比較 し て 、 前記 し き い値 を 、 最大値 に近 い よ う に決定す る こ と を特徴 と す る 話速変換方法。
1 1 . 入力 デ一 夕 を各 ブ ロ ッ ク に分割 し て ブ ロ ッ ク デ 一 夕 を 生成す る と と も に 、 各 ブ ロ ッ ク デ一 夕 に基づき 、 接続デー タ を 生成す る 分割処理 Z接続デー タ 生成手段 と 入力 さ れた所望話速 に基づき 、 前記分割処理 接続デ 一 夕 生成手段 に よ っ て生成 さ れた各ブ ロ ッ ク デー タ 、 各 接続デー タ の接続順序 を 決め て 、 こ れ ら を接続 し 、 出 力 デ一 夕 を 生成す る 接続処理手段 と を備え 、
こ の接続処理手段は、 時間的 に変化す る 任意の 比率で 各 ブ ロ ッ ク デ一 夕 を伸張合成 し て得 ら れた 出 力 デ一 夕 中 に非音声区間が出現 し 、 こ の非音声区間 の継続時間が所 定の し き い値 を越えて い る と き に は、 こ の ブ ロ ッ ク デ一 夕 に対す る 出力 デー タ の伸張時間 を 、 こ の伸張時間 内 の 任意の時間 だ け削減する こ と を特徴 と す る 話速変換装置
1 2 . 請求項 1 1 に記載の話速変換装置 に お いて、 前記接続処理手段は、 入力 デー タ を伸縮合成す る 際、 入力 デー タ 長 と 、 こ の入力 デ一 夕 長 に任意の伸縮倍率 を 乗 じ て算出 さ れる 目 標デー タ 長 と 、 実際の 出力 デー タ 長 と の 関係が矛盾 し な い よ う に 、 逐次監視 し なが ら 合成処 理 を行な い 、
時間的 に変化す る 任意の伸縮合成比率 に対 し 、 音声部 分 に 関 し て情報 の 欠落が生 じ な い よ う にす る と と も に 、 話速変換 に伴 う 伸張 に対す る 正確な時間情報 を保持 さ せ る こ と を特徴 と す る 話速変換装置。
1 3 . 請求項 1 1 に記載の話速変換装置 にお いて、 前記接続処理手段は、 話速変換に伴 う 入力 デー タ 長か ら の伸張分 を解消す る 際、 一定継続時間以上の非音声区 間 の一部 を 削除 し て 、 話速変換倍率、 伸張量な ど に応 じ て、 非音声 区間 の残存割合 を適応的 に変化 さ せる こ と を 特徴 と す る 話速変換装置。
1 4 . 請求項 1 1 に記載の話速変換装置 にお い て 、 前記接続処理手段は、 限 ら れた時間枠の 中で、 話速変 換 を行な う 際、 入力 デー タ 長 と 、 こ の入力 デー タ 長 に任 意の伸縮倍率 を乗 じ て算出 さ れ る 目 標デー タ 長 と 、 実際 の 出 力 デー タ 長 と の 関係が矛盾 し な い よ う に逐次監視 し なが ら 、 予め設定 さ れて い る 時間間 隔で伸張量 を測定 し こ の測定結果 に基づき 、 時間差が少な い と き に は、 話速 変換倍率 を一時的 に上昇 さ せ、 ま た時間差が多 い と き に は、 話速変換倍率 を一時的 に下降 さ せる こ と に よ り 、 適 応的 に話速変換倍率 を変化 さ せる こ と を特徴 とす る 話速 変換装置。
1 5 . 請求項 1 1 に記載の話速変換装置 にお いて 、 前記入力 デー タ に対 し て、 所定 の時間間隔毎 に 、 所定 の フ レー ム 幅で フ レームパ ワ ー を算出す る と と も に 、 過 去の所定 の 時間内 の フ レー ムパ ワ ー の最大値及び最小値 を保持 し 、 保持 さ れて い る最大値、 並びに最大値 と 最小 値 と の差 に応 じ て変化する パ ワ ー に 関す る し き い値 を 決 定 し 、 こ の し き い値 と 、 現在の フ レーム のパ ワ ー と を 比 較 し て 、 現在の フ レーム が音声区間か、 非音声 区間か を 決定す る 分析処理手段 を更 に備 え る こ と を特徴 とす る 話 速変換装置。
1 6 . 請求項 1 5 に記載の話速変換装置 にお いて 、 前記分析処理手段は、 最大値 と 最小値 と の差が所定値 未満の場合 に は、 最大値 と 最小値 と の差が所定値以上の 場合 と 比較 し て、 前記 し き い値 を 、 最大値 に近 い よ う に 決定す る こ と を特徴 と す る 話速変換装置。
PCT/JP1998/001984 1997-04-30 1998-04-30 Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif WO1998049673A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US09/202,867 US6236970B1 (en) 1997-04-30 1998-04-30 Adaptive speech rate conversion without extension of input data duration, using speech interval detection
EP98917743A EP0944036A4 (en) 1997-04-30 1998-04-30 METHOD AND DEVICE FOR DETECTING LANGUAGE AREAS, AND METHOD AND DEVICE FOR LANGUAGE SPEED CONVERSION
CA002258908A CA2258908C (en) 1997-04-30 1998-04-30 Speech rate conversion without extension of input data duration, using speech interval detection
KR1019980710777A KR100302370B1 (ko) 1997-04-30 1998-04-30 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
NO19986172A NO317600B1 (no) 1997-04-30 1998-12-29 Taleomvandling for a gi bedret forstaelighet og basert pa deteksjon av taleintervaller

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP9/112822 1997-04-30
JP9/112961 1997-04-30
JP11296197A JP3220043B2 (ja) 1997-04-30 1997-04-30 話速変換方法およびその装置
JP11282297A JP3160228B2 (ja) 1997-04-30 1997-04-30 音声区間検出方法およびその装置

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US09/202,867 A-371-Of-International US6236970B1 (en) 1997-04-30 1998-04-30 Adaptive speech rate conversion without extension of input data duration, using speech interval detection
US09/781,634 Division US6374213B2 (en) 1997-04-30 2001-02-12 Adaptive speech rate conversion without extension of input data duration, using speech interval detection

Publications (1)

Publication Number Publication Date
WO1998049673A1 true WO1998049673A1 (fr) 1998-11-05

Family

ID=26451896

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1998/001984 WO1998049673A1 (fr) 1997-04-30 1998-04-30 Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif

Country Status (7)

Country Link
US (2) US6236970B1 (ja)
EP (3) EP1944753A3 (ja)
KR (1) KR100302370B1 (ja)
CN (2) CN1117343C (ja)
CA (1) CA2258908C (ja)
NO (1) NO317600B1 (ja)
WO (1) WO1998049673A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19933541C2 (de) * 1999-07-16 2002-06-27 Infineon Technologies Ag Verfahren für ein digitales Lerngerät zur digitalen Aufzeichnung eines analogen Audio-Signals mit automatischer Indexierung
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
MXPA03001198A (es) * 2000-08-09 2003-06-30 Thomson Licensing Sa Metodo y sistema para habilitar la conversion de velocidad de audio.
DE60107438T2 (de) * 2000-08-10 2005-05-25 Thomson Licensing S.A., Boulogne Vorrichtung und verfahren um sprachgeschwindigkeitskonvertierung zu ermöglichen
EP1393301B1 (en) * 2001-05-11 2007-01-10 Koninklijke Philips Electronics N.V. Estimating signal power in compressed audio
JP4265908B2 (ja) * 2002-12-12 2009-05-20 アルパイン株式会社 音声認識装置及び音声認識性能改善方法
JP4114658B2 (ja) * 2004-04-13 2008-07-09 ソニー株式会社 データ送信装置及びデータ受信装置
FI20045146A0 (fi) * 2004-04-22 2004-04-22 Nokia Corp Audioaktiivisuuden ilmaisu
EP1770688B1 (en) * 2004-07-21 2013-03-06 Fujitsu Limited Speed converter, speed converting method and program
JP2006084754A (ja) * 2004-09-16 2006-03-30 Oki Electric Ind Co Ltd 音声録音再生装置
WO2008007616A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible
DE602006009927D1 (de) 2006-08-22 2009-12-03 Harman Becker Automotive Sys Verfahren und System zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite
US8069039B2 (en) 2006-12-25 2011-11-29 Yamaha Corporation Sound signal processing apparatus and program
CN101636784B (zh) 2007-03-20 2011-12-28 富士通株式会社 语音识别系统及语音识别方法
CN101472060B (zh) * 2007-12-27 2011-12-07 新奥特(北京)视频技术有限公司 一种估算新闻节目长度的方法和装置
US20090209341A1 (en) * 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Gaming Apparatus Capable of Conversation with Player and Control Method Thereof
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
CN102376303B (zh) * 2010-08-13 2014-03-12 国基电子(上海)有限公司 录音设备及利用该录音设备进行声音处理与录入的方法
JP5593244B2 (ja) * 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
CN103716470B (zh) * 2012-09-29 2016-12-07 华为技术有限公司 语音质量监控的方法和装置
US9036844B1 (en) 2013-11-10 2015-05-19 Avraham Suhami Hearing devices based on the plasticity of the brain
US9202469B1 (en) * 2014-09-16 2015-12-01 Citrix Systems, Inc. Capturing noteworthy portions of audio recordings
CN107731243B (zh) * 2016-08-12 2020-08-07 电信科学技术研究院 一种语音实时变速播放方法及设备
EP3662470B1 (en) * 2017-08-01 2021-03-24 Dolby Laboratories Licensing Corporation Audio object classification based on location metadata
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
CN111540342B (zh) * 2020-04-16 2022-07-19 浙江大华技术股份有限公司 一种能量阈值调整方法、装置、设备及介质
JP7508409B2 (ja) * 2021-05-31 2024-07-01 株式会社東芝 音声認識装置、方法およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02272837A (ja) * 1989-04-14 1990-11-07 Oki Electric Ind Co Ltd 音声区間検出方式
JPH0713586A (ja) * 1993-06-23 1995-01-17 Matsushita Electric Ind Co Ltd 音声判別装置と音響再生装置
JPH0772896A (ja) * 1993-09-01 1995-03-17 Sanyo Electric Co Ltd 音声の圧縮伸長装置
JPH08254992A (ja) * 1995-03-17 1996-10-01 Fujitsu Ltd 話速変換装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58130395A (ja) 1982-01-29 1983-08-03 株式会社東芝 音声区間検出装置
DE3370423D1 (en) * 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
US4696040A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with energy normalization and silence suppression
JPS61272796A (ja) 1985-05-28 1986-12-03 沖電気工業株式会社 音声区間検出方式
US4897832A (en) * 1988-01-18 1990-01-30 Oki Electric Industry Co., Ltd. Digital speech interpolation system and speech detector
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
JPH0698398A (ja) 1992-06-25 1994-04-08 Hitachi Ltd 音声の無音区間検出伸長装置及び音声の無音区間検出伸長方法
JPH07129190A (ja) * 1993-09-10 1995-05-19 Hitachi Ltd 話速変換方法及び話速変換装置並びに電子装置
JPH06266380A (ja) * 1993-03-12 1994-09-22 Toshiba Corp 音声検出回路
DE69421911T2 (de) * 1993-03-25 2000-07-20 British Telecommunications P.L.C., London Spracherkennung mit pausedetektion
US5611018A (en) * 1993-09-18 1997-03-11 Sanyo Electric Co., Ltd. System for controlling voice speed of an input signal
JPH08294199A (ja) 1995-04-20 1996-11-05 Hitachi Ltd 話速変換装置
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02272837A (ja) * 1989-04-14 1990-11-07 Oki Electric Ind Co Ltd 音声区間検出方式
JPH0713586A (ja) * 1993-06-23 1995-01-17 Matsushita Electric Ind Co Ltd 音声判別装置と音響再生装置
JPH0772896A (ja) * 1993-09-01 1995-03-17 Sanyo Electric Co Ltd 音声の圧縮伸長装置
JPH08254992A (ja) * 1995-03-17 1996-10-01 Fujitsu Ltd 話速変換装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP0944036A4 *

Also Published As

Publication number Publication date
NO986172L (no) 1999-02-19
CN1441403A (zh) 2003-09-10
CN1198263C (zh) 2005-04-20
EP1944753A2 (en) 2008-07-16
CA2258908C (en) 2002-12-10
KR20000022351A (ko) 2000-04-25
EP0944036A4 (en) 2000-02-23
EP1517299A3 (en) 2012-08-29
US20010010037A1 (en) 2001-07-26
CN1225737A (zh) 1999-08-11
CA2258908A1 (en) 1998-11-05
EP1944753A3 (en) 2012-08-15
EP1517299A2 (en) 2005-03-23
EP0944036A1 (en) 1999-09-22
US6374213B2 (en) 2002-04-16
NO986172D0 (no) 1998-12-29
US6236970B1 (en) 2001-05-22
NO317600B1 (no) 2004-11-22
KR100302370B1 (ko) 2001-09-29
CN1117343C (zh) 2003-08-06

Similar Documents

Publication Publication Date Title
WO1998049673A1 (fr) Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif
EP2176862B1 (en) Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing
JP4222951B2 (ja) 紛失フレームを取扱うための音声通信システムおよび方法
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
JP2008171017A (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
EP1554717B1 (en) Preprocessing of digital audio data for mobile audio codecs
JP3307875B2 (ja) 符号化音声再生装置および符号化音声再生方法
CA2452022C (en) Apparatus and method for changing the playback rate of recorded speech
JPH0644195B2 (ja) エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法
JP2005530213A (ja) 音声信号処理装置
JP3220043B2 (ja) 話速変換方法およびその装置
JP3553828B2 (ja) 音声蓄積再生方法および音声蓄積再生装置
JP3378672B2 (ja) 話速変換装置
JP2000276200A (ja) 声質変換システム
JP3373933B2 (ja) 話速変換装置
JP3081469B2 (ja) 話速変換装置
JPH07192392A (ja) 話速変換装置
JPH05204395A (ja) 音声用利得制御装置および音声記録再生装置
JPH06118993A (ja) 有声/無声判定回路
CA2392849C (en) Speech interval detecting method and device
JPS5854399B2 (ja) 音声分析合成系のピツチ周波数伝送方式
JPS61269198A (ja) 音声合成方式

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 98800566.2

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CA CN KR NO US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 1998917743

Country of ref document: EP

Ref document number: 09202867

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2258908

Country of ref document: CA

Ref document number: 2258908

Country of ref document: CA

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1019980710777

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1998917743

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1019980710777

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1019980710777

Country of ref document: KR

WWR Wipo information: refused in national office

Ref document number: 1998917743

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1998917743

Country of ref document: EP