WO2001039175A1 - Procede et appareil de detection vocale - Google Patents

Procede et appareil de detection vocale Download PDF

Info

Publication number
WO2001039175A1
WO2001039175A1 PCT/JP1999/006539 JP9906539W WO0139175A1 WO 2001039175 A1 WO2001039175 A1 WO 2001039175A1 JP 9906539 W JP9906539 W JP 9906539W WO 0139175 A1 WO0139175 A1 WO 0139175A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
quality
detection device
signal
frame
Prior art date
Application number
PCT/JP1999/006539
Other languages
English (en)
French (fr)
Inventor
Kaori Suzuki
Yasuji Ota
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP1999/006539 priority Critical patent/WO2001039175A1/ja
Priority to JP2001540759A priority patent/JP3878482B2/ja
Publication of WO2001039175A1 publication Critical patent/WO2001039175A1/ja
Priority to US10/112,470 priority patent/US6490554B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • the present invention relates to a voice detection device that takes in a voice signal and identifies a voiced section and a silent section of the voice signal, and a voice detection method applied to the voice detection apparatus.
  • the above-mentioned silent section and speech section of the audio signal are used.
  • a voice detection device is installed that detects an audio signal and allows transmission to the transmission path only in this sound section.
  • FIG. 12 is a diagram showing a configuration example of a wireless terminal device equipped with a voice detection device.
  • a microphone 41 is connected to an input of a voice detection device 42 and a modulation input of a transmission / reception unit 43, and a feeding terminal of the antenna 44 is connected to an antenna terminal of the transmission / reception unit 43.
  • the output of the voice detection device 42 is connected to the transmission control input of the transmission / reception unit 43, and the corresponding input / output port of the control unit 45 is connected to the control input / output of the transmission / reception unit 43.
  • a specific output port of the control unit 45 is connected to a control input of the voice detection device 42, and a demodulation output of the transmitting and receiving unit 43 is connected to an input of the receiver 46.
  • the transmitting / receiving section 43 can access the voice signal, which is the transmission information to be transmitted / received via the microphone 41 and the receiver 46, via the antenna 44.
  • the voice signal which is the transmission information to be transmitted / received via the microphone 41 and the receiver 46, via the antenna 44.
  • the control unit 45 takes the initiative in performing channel control required for forming the wireless transmission path by cooperating with the transmission / reception unit 43.
  • the voice detection device 42 generates a sequence of voice frames by sampling the above-described voice signal at a predetermined cycle. Further, the voice detection device 42 identifies each of these voice frames as a voiced section or a non-voiced section based on the properties of the voice signal, and performs the identification. Outputs a binary signal indicating the result.
  • the amplitude distribution can be approximated by a standard probability density function.
  • the transmission / reception unit 43 suspends transmission during a period in which the logical value of the binary signal means the above-mentioned silent section.
  • the useless transmission of the transmission / reception unit 43 is restricted. Therefore, in accordance with the reduction in power consumption, interference through other wireless channels is suppressed and the radio frequency is effectively used.
  • the feature amount between the voiced section and the silent section is a small value.
  • the amplitude of the voice signal is generally distributed to a smaller value than in the vowel section.
  • consonant section is likely to be identified as a silent section.
  • the consonant (voiced) section that was erroneously identified as described above, the corresponding voice frame was not transmitted, and there was a high possibility that the call quality would be unnecessarily degraded.
  • transmission may be restricted over a voice frame indicating most of the voice signal on which the noise is superimposed.
  • An object of the present invention is to provide a voice detection device and a voice detection method that can flexibly adapt to various characteristics of a voice signal and noise that can be superimposed on the voice signal, and that can accurately distinguish between a voiced section and a silent section. It is to provide.
  • an object of the present invention is to provide a voiced section even in a case where the quality of a voice signal is low, for example, in a section in which the amplitude of a voice signal is large, such as a consonant section. The point is that the accuracy of the section can be obtained with a large value.
  • an object of the present invention is to obtain a certainty of a sound section for each voice frame with high accuracy.
  • Another object of the present invention is to reduce the required processing amount or increase the responsiveness.
  • an object of the present invention is to provide a high level of superimposed noise, The point is that even for a voice frame with a small SN ratio, the accuracy indicating that the voice frame belongs to a voiced segment can be obtained with a large value.
  • a voice detection device and a voice detection method which are characterized in that, for each voice frame, a probability and quality belonging to a sound section are obtained, and the probability is weighted and output with this quality.
  • the above-mentioned object is to obtain the probability and quality belonging to a sound section for each voice frame, and to determine the level of the voice frame for which the probability is to be obtained, the lower the quality, the smaller the level.
  • the lower the quality the greater the weight is given to the instantaneous value of each voice signal included in each voice frame.
  • An audio signal given as a sequence of instantaneous values is obtained with a high degree of certainty belonging to the above-mentioned sound section.
  • the above-mentioned object is to determine the probability and quality of belonging to a sound section for each voice frame, and the higher the quality, the more comprehension of the voice frame for which this probability should be obtained.
  • This is achieved by a voice detection device and a voice detection method which are characterized in that the gradient or threshold value of the companding characteristics to be applied to the processing is set to a large value.
  • the process of weighting the instantaneous value included in each voice frame as the voice signal quality is lower is a companding process. It is done.
  • the above-described object is to detect a voice section and / or a non-voice section for each voice frame, and to apply these characteristics as quality to detect a voice. Achieved by the device
  • the quality of the speech signal can be stably obtained by applying various techniques for realizing acoustic analysis or speech analysis.
  • the above-mentioned object is achieved by a voice detection device and a voice detection method which are characterized in that noise estimation power is obtained for each voice frame, and the noise estimation power is applied as quality.
  • the above-described calculation of the estimated noise power is generally achieved by a simple arithmetic operation.
  • the above-mentioned object is to obtain the noise estimation power and the estimated value of the S / N ratio for each voice frame, and calculate the number given as a monotone non-increasing function for the former and a monotone non-decreasing function for the latter. This is achieved by a voice detection device that has a feature in applying it as quality.
  • a large value indicating that the speech frame belongs to a sound section can be obtained with a large value.
  • the above-mentioned object is achieved by a speech detection device different from the speech detection device described earlier in that a standardized probability variable is applied instead of the noise estimation power.
  • the larger the absolute value of the standardized random variable the larger the initial value of the amplitude of the speech frame is, compared to the standard amplitude of the speech signal. It means that there is a high possibility that a level of noise is superimposed on this audio frame. '' On the contrary, the smaller the noise level, the more the initial value of the amplitude of the audio frame is compared to the standard amplitude of the audio signal. And the level of the noise superimposed on this voice frame is also low.
  • the standardized random variable can substitute for the noise estimation power described above.
  • the above-described object is characterized in that the standardized random variable is approximately calculated based on the amplitude distribution of the speech frame and the maximum value of the amplitude distribution. This is achieved by a vocal sound detection device.
  • the above-described normalized random variable is obtained by a simple arithmetic operation.
  • a voice detection device which is characterized in that the quality obtained prior to the voice frame unit is integrated in a time-series order, and the result is applied as the quality. Is done.
  • a steep fluctuation component that may be caused by the quality of a speech signal obtained in a time series is reduced or suppressed.
  • the purpose described above is that the quality obtained prior to the unit of the voice frame is integrated in chronological order, and the larger the result is, the smaller the result is weighted, and the value obtained is the quality. Achieved by a voice detection device that is characterized in that
  • FIG. 1 is a first principle block diagram of the present invention.
  • FIG. 2 is a second principle block diagram of the present invention.
  • FIG. 3 is a diagram showing Embodiments 1, 3 to 8 of the present invention.
  • FIG. 4 is an operation flowchart of the first embodiment.
  • FIG. 5 is a diagram showing a second embodiment of the present invention.
  • FIG. 6 is an operation flowchart of the second embodiment.
  • FIG. 7 is an operation flowchart according to the third embodiment.
  • FIG. 8 is an operation flowchart according to the fourth embodiment.
  • FIG. 9 is an operation flowchart of the fifth embodiment.
  • FIG. 10 is an operation flowchart of the sixth embodiment.
  • FIG. 11 is an operation flowchart of the seventh embodiment and the eighth embodiment.
  • FIG. 12 is a diagram showing a configuration example of a wireless terminal device equipped with a voice detection device.
  • FIG. 1 is a first principle block diagram of the present invention.
  • the voice detection device shown in FIG. 1 has a section estimation unit 11 and a cm quality monitoring unit.
  • the principle of the first speech detection device according to the present invention is as follows.
  • the section estimating means 11 obtains the probability of belonging to a sound section based on the statistical properties of the voice signal for each voice frame given as a voice signal in chronological order. Further, the quality monitoring means 12 monitors the quality of the audio signal for each audio frame.
  • the section determination means 13 calculates, for each frame given as a speech signal in time series order, the quality monitoring means 12 and the probability obtained by the section estimation means 11. Weights the quality monitored by, and obtains the accuracy of the voiced section.
  • the higher the quality of the voice signal the higher the probability that each voice frame is identified as a voiced segment, and conversely, the probability of being identified as a silence interval. It becomes smaller.
  • a sound section for example, a section in which the amplitude of the audio signal is largely distributed in a small area such as a consonant section, even if the quality of the audio signal in the consonant section is low, the sound section Is obtained with a large value.
  • FIG. 2 is a second principle block diagram of the present invention.
  • the voice detection device shown in FIG. 2 includes section determination means 15 and 15 A, and quality monitoring means 16.
  • the principle of the second voice detection device according to the present invention is as follows.o
  • the section discriminating means 15 obtains, for each voice frame given as a voice signal in chronological order, the probability of belonging to a voiced section based on the statistical properties of the voice signal.
  • the quality monitoring means 16 individually monitors the quality of the above-mentioned audio signal for these audio frames.
  • section determination means 15 includes, in each of the above-described audio frames, a sequence of instantaneous values of the audio signals individually included, a monotonically decreasing function or a monotone decreasing function with respect to the quality monitored by the quality monitoring means 16. Weighting is performed using the weight given as a monotonic non-increasing function.
  • the section discriminating means 15 weights the instantaneous value of each voice signal included in the voice frame. For an audio signal given as a sequence of instantaneous values given as follows, the likelihood that belongs to the above-mentioned sound section is determined.
  • a sound section for example, a section in which the amplitude of the audio signal is largely distributed in a small area such as a consonant section, even if the quality of the audio signal in the consonant section is low, the sound section Is obtained with a large value.
  • the principle of the third voice detection device according to the present invention is as follows:
  • the quality monitoring means 16 monitors the quality of each audio frame provided as a sequence of audio frames in time series.
  • the section determination means 15A individually performs companding processing on these audio frames and analyzes the resulting sequence of instantaneous values of the audio signal based on the statistical properties of the audio signal. By doing so, the accuracy belonging to the sound section is obtained.
  • the section determination means 15A is a monotonic decreasing function of the instantaneous value of the voice with respect to the quality monitored by the quality monitoring means 16 for each voice frame described above. Is applied to the drawing process.
  • the process of weighting the instantaneous value of the voice signal included in each voice frame as the quality of the voice signal is lower is the companding process described above.
  • the processing is performed in the same manner as the above-described second voice detection device.
  • a voiced section for example, a section in which the amplitude of the audio signal is widely distributed in a small area such as a consonant section, even if the quality of the audio signal in the consonant section is low, The accuracy indicating that the section is a section is obtained with a large value.
  • the principle of the fourth speech detection device according to the present invention is as follows.
  • the quality monitoring means 12 and 16 determine the characteristics of the audio signal for both or one of the voiced section and the silent section of the voice signal, and calculate the difference between the one or both of the characteristics and the difference between the two. And obtain the quality of this audio signal.
  • the quality of the speech signal can be stably obtained as the above-described feature under the application of acoustic analysis or various techniques for realizing speech analysis.
  • the accuracy of a voiced section for each voice frame can be obtained with higher accuracy.
  • the principle of the fifth speech detection device according to the present invention is as follows.
  • the quality monitoring means 12, 16 obtains the noise estimation power for each voice frame, and obtains the quality of the voice signal as a monotone decreasing function of the noise estimation power.
  • the calculation of the noise estimation power is generally achieved by a simple arithmetic operation. Therefore, the processing amount is reduced and the responsiveness is improved as compared with the first to third voice detection devices described above.
  • the principle of the sixth speech detection device according to the present invention is as follows.
  • the quality monitoring means 12 and 16 obtain the estimated noise power and the estimated value of the S / N ratio for each voice frame, and determine the noise monotonic non-increasing function and the monotonic non-decreasing function of the voice signal as the monotonic non-decreasing function. Gain quality.
  • the principle of the seventh speech detection device according to the present invention is as follows:
  • the quality monitoring means 12, 16 obtains a standardized random variable for each voice frame, and obtains the quality of the voice signal as a monotonic non-increasing function of the standardized random variable.
  • the principle of the eighth speech detection device according to the present invention is as follows.
  • the quality monitoring means 12 and 16 determine the standardized random variable and the estimated SNR for each voice frame, and calculate the former monotonic non-increasing function and the latter Obtain the quality of the audio signal as a monotonic non-decreasing function.
  • the principle of the first voice detection method according to the present invention is as follows.
  • the probability of belonging to a voiced section is calculated based on the statistical properties of the voice signal.
  • the signal quality is monitored.
  • the probability obtained as described above is weighted by the monitored quality, so that the accuracy of the sound section is determined. Is obtained.
  • the higher the quality of the voice signal the higher the probability that each voice frame is identified as a voiced section, and conversely, the probability of being identified as a silent section. It becomes smaller.
  • a sound section for example, a section in which the amplitude of the audio signal is largely distributed in a small area such as a consonant section, even if the quality of the audio signal in the consonant section is low, the sound section Is obtained with a large value.
  • the principle of the second voice detection method according to the present invention is as follows.o
  • the probability that the speech signal belongs to a sound section is calculated based on the statistical properties of the speech signal.
  • the quality of the audio signal is monitored for each audio frame.
  • the sequence of instantaneous values of the audio signal included individually is, as described above, a monotonically decreasing function or a monotonically non-increasing function for the monitored quality.
  • the weight given by the given weight is Done.
  • a sound section for example, a section in which the amplitude of the audio signal is largely distributed in a small area such as a consonant section, even if the quality of the audio signal in the consonant section is low, the sound section Is obtained with a large value.
  • the principle of the third voice detection method according to the present invention is as follows.
  • companding processing is performed on individual speech frames given in the order of time series, and the resulting sequence of instantaneous values of the speech signal is used as the statistical value of the speech signal.
  • the accuracy belonging to the sound section is obtained, and the quality of the voice signal is monitored.
  • companding characteristics given as a monotonically decreasing function of the quality monitored in this manner are applied to each audio frame.
  • a sound section for example, a section in which the amplitude of the audio signal is largely distributed in a small area such as a consonant section, even if the quality of the audio signal in the consonant section is low, the sound section Is obtained with a large value.
  • FIG. 3 is a diagram showing Embodiments 1, 3 to 8 of the present invention.
  • components having the same functions and configurations as those shown in FIG. 12 are denoted by the same reference numerals, and description thereof is omitted here.
  • This embodiment is shown in FIG. 12 and FIG.
  • the difference from the conventional example is that a voice detection device 20 is provided instead of the voice detection device 42.
  • the sound detection device 20 has a sound / silence discriminating unit 21 provided at the first stage and a monitor terminal directly connected to a monitor output of the sound / silence discriminating unit 21. 2 and a memory 2 having two ports respectively connected to the outputs of the sound / non-speech discriminating section 21 and the discriminating accuracy discriminating section 22 provided in the initial stage. 3 and a final decision section 24 which is directly connected to the output of the memory 23 and is provided as a final stage.
  • FIG. 4 is an operation flowchart of the first embodiment.
  • the voiced / silence discrimination unit 21 performs the same processing as that performed by the voice detection device 42 shown in FIG. 12 on the voice signal given via the microphone 41. , The speech section and the silence section are discriminated for each speech frame described above, and the binary information I indicating the result of this discrimination is provided in parallel with the memory 23 and the discrimination accuracy judgment section 22. give t.
  • the identification accuracy determination unit 22 converts the above-described audio signal into the above-described sequence of audio frames in parallel with the voiced / silent identification unit 21. Further, the identification accuracy determination unit 22 identifies a voiced interval and a silent interval according to the logical value of the binary information It provided by the voiced / silent identification unit 21, and determines these intervals. , The feature value F t of each voice frame (here, For simplicity, it is assumed that the energy and / or the number of zero crossings are either. ) Is constantly monitored.
  • the identification accuracy determination unit 22 determines the difference between the distribution (average value) of the above-described feature amount F t between the voiced section and the silent section during a period in which each voice frame is given. A determination is made as to whether the value is below the threshold value F th, and a binary identification accuracy R t indicating the result of the determination is obtained.
  • identification accuracy Rt is set to “0” when the quality of the audio signal is low enough that the difference described above falls below the threshold Fth, and conversely, this threshold is set to this threshold. If the quality of the audio signal is good enough to exceed F th, it is assumed to be set to “1”.
  • the binary information It provided by the voiced / silence discriminating unit 21 and the identification accuracy Rt obtained by the identification accuracy determining unit 22 are described above. It is stored in association with the frame unit.
  • the final determination unit 24 sequentially performs the following processing according to each combination of the binary information It and the identification accuracy Rt thus stored in the memory 23.
  • the transmitting / receiving section 43 transmits a transmission wave signal modulated by the audio signal given by the microphone 41 to a radio channel allocated under the channel control performed by the control section 45.
  • the process is performed as described above. By giving a delay equal to the time required for the operation of the processing performed by the voice detection device 20 in units of voice frames, synchronization with the voice detection device 20 is achieved. To maintain.
  • the binary information It provided by the separate unit 21 is provided as a binary signal to the transmitting / receiving unit 43, but if the quality is not good, the logical value of the binary signal is Is set to "1", which indicates
  • the present embodiment compared to the conventional example in which the sound section and the silent section are distinguished based on only the statistical properties of the speech signal regardless of the identification accuracy R t, It is highly accurate to avoid that a voiced section with poor signal quality is identified as a silent section, and the transmission quality is reduced.
  • the sound / non-sound discriminating unit 21 and the identification accuracy judging unit 22 perform a process of individually converting an audio signal into a sequence of audio frames in parallel.
  • the binary information I t obtained by the voiced / silent discrimination unit 21 and the identification accuracy R t obtained by the identification accuracy judgment unit 22 are converted into speech. It is stored in memory 23 in association with each frame.
  • the transmission / reception unit 43 gives a delay equal to the operation required time of the processing performed by the voice detection device 20 to each voice frame, so that this voice detection is performed. Maintains synchronization with device 20.
  • the above-described identification accuracy R t is obtained by the identification accuracy determining unit 22.
  • the identification accuracy determination unit 22 and the final determination unit 24 may have any form of function distribution, for example, by the identification accuracy determination unit 22 performing only one of the following processes. It may be planned.
  • the quality of the audio signal is determined based on the magnitude relationship between the difference between the feature amounts F t between the sounded section and the silent section and the threshold value F th.
  • the present invention is not limited to such a configuration.
  • the other Only the characteristic amount of the audio signal may be obtained, and the quality of the transmission quality of the audio signal may be determined based on the magnitude relationship between the characteristic amount and the specified threshold.
  • FIG. 5 is a diagram showing a second embodiment of the present invention.
  • a voice detection device 30 is provided instead of the voice detection device 20.
  • the difference between the configuration of the voice detection device 30 and the configuration of the voice detection device 20 is that a voice / silence discrimination unit 21 A is provided instead of the voice / silence discrimination unit 21, and the final judgment unit 24 Instead, an identification condition adjustment unit 31 is provided, and the output of the identification condition adjustment unit 31 is connected to the threshold input of the sound / silence identification unit 21 A in place of the corresponding control input of the transmission / reception unit 43. Sound on its control input This is at the point where the output of the silence discriminator 21 A is connected.
  • FIG. 6 is an operation flowchart of the second embodiment.
  • Embodiment 1 The difference between the present embodiment and Embodiment 1 is that the following processing performed by the identification condition adjustment unit 31 and the presence of the voiced / silent identification unit 21A based on the threshold given under the processing are as follows. And the point where the binary information It is obtained.
  • the voiced / silent discrimination unit 21 A performs the same processing as that performed by the voice detection device 42 mounted on the conventional example shown in FIG. 12 on the voice signal given via the microphone 41, By applying the value given by the identification condition adjusting unit 31 as a threshold value (hereinafter referred to as “section identification threshold value”) relating to the statistical properties of the audio signal in the process of processing, Find value information It.
  • a threshold value hereinafter referred to as “section identification threshold value”
  • the voice / non-speech discriminator 21 outputs “the binary information I t during the period in which the quality of the audio signal is good.
  • a standard section discrimination threshold (hereinafter, referred to as “standard threshold”) to be applied by the voiced / silent discriminator 21A is given (Fig. 6 (1)). It is assumed that the standard threshold value is given to the identification condition adjustment unit 31 in advance.
  • the section discrimination threshold previously given to the voiced / silent discrimination unit 21A (see the above “marker”) It may be a “quasi-threshold”. ) Is updated or set to one of the following values (Fig. 6 (2)).
  • Sound Z silence discriminator 2 1 A value that is highly likely to identify a speech frame following A as a speech frame belonging to a sound segment.
  • Speech / silence discrimination unit 2 1 A value that reliably identifies the speech frame that follows A as a speech frame belonging to a speech section.
  • the transmitting / receiving unit 43 captures the sequence of the binary information It provided by the voiced / silent discriminating unit 21A as the above-described binary signal, and according to the first embodiment.
  • the synchronization with the voice detection device 30 is maintained in the same manner as in.
  • the binary information It provided by the voiced / silent discriminating unit 21A is regarded as a binary signal.
  • the section identification threshold is updated as appropriate, so that the “1” indicating a sound section is converted to “1” indicating the voiced section. The probability that the logical value of is set is increased.
  • the quality is lower than that of the conventional example in which the sound section and the silent section are distinguished based on only the statistical properties of the audio signal regardless of the identification accuracy R t. Deterioration of transmission quality due to bad speech sections being identified as silence sections is mitigated or avoided.
  • the section identification threshold is appropriately updated or set by the identification condition adjustment unit 31.
  • variable gain amplifier that amplifies an audio signal in a linear region is mounted on the voiced / silent discrimination unit 21A, and a voiced section and a voiceless
  • the gain of the variable gain amplifier may be varied instead of the section discrimination threshold described above.
  • the difference between the present embodiment and the first embodiment is that the identification accuracy determination unit 2 2 in that an identification accuracy determination unit 22 A is provided instead of 2.
  • FIG. 7 is an operation flowchart of the third embodiment.
  • the feature of the present embodiment lies in the procedure of the following processing performed by the identification accuracy determining unit 22A.
  • the identification accuracy judgment unit 22A converts the audio signal into a sequence of audio frames in parallel with the sound / non-speech identification unit 21 (Fig. 7 (1)). Is performed.
  • the noise estimation power P Nt is calculated based on the exponential smoothing method (see FIG. 7 (4)).
  • the final determination unit 24 determines the identification as in the first embodiment.
  • a binary signal is generated by referring to the degree R t, and the binary signal is sequentially provided to the transmitting / receiving section 43.
  • the quality of the speech signal can be easily obtained by the simple arithmetic operations represented by the above equations (1) and (2), and the result of the above-described determination is false. Regardless of the logical value It of the binary information given by the sound / silence discriminating section 21, the period is identified as a sound period with high accuracy or surely.
  • the difference between the present embodiment and the first embodiment is that an identification accuracy determining unit 22 B is provided instead of the identification accuracy determining unit 22.
  • FIG. 8 is an operation flowchart of the fourth embodiment.
  • the identification accuracy determination unit 22B converts the audio signal into a sequence of audio frames in parallel with the sound / non-speech identification unit 21 (Fig. 8 (1)). Is performed.
  • the SN estimate SN t a determination is made whether exceeds the threshold value SN th set in advance like the aforementioned threshold F th for the SN estimate SN t (hereinafter, referred to as "SN determination".)
  • SN determination a determination is made whether exceeds the threshold value SN th set in advance like the aforementioned threshold F th for the SN estimate SN t (hereinafter, referred to as "SN determination”.)
  • SN determination The (Fig. 8 (4)).
  • Noise estimate power P N t Do Nay Kano determine below the threshold P th described above described above (hereinafter, referred to as "noise discrimination”.) Is performed (FIG. 8 (5)).
  • SN estimate SN t is rather small, and when the noise estimate power P N t as described above is large, decreased markedly the accuracy of discrimination made me by the voiced / silent discrimination unit 2 1 Even in the state, it is possible to avoid with high accuracy that the sound determination section is discriminated by the final determination section 74 as a silent section.
  • the difference between the present embodiment and the first embodiment is that an identification accuracy determining unit 22C is provided in place of the identification accuracy determining unit 22.
  • FIG. 9 is an operation flowchart of the fifth embodiment.
  • the identification accuracy determination unit 22C converts the audio signal into a sequence of audio frames in parallel with the voiced / silence identification unit 21 (Fig. 9 (1)). The following processing is performed instead of the processing for calculating the noise estimation power P N t .
  • a given number M is given in the order of time series t at the time preceding that speech frame. For M speech frames which are example, and acquires the average value s t a leading value s P t stored similarly.
  • normalized random variable P r t means the correlation between the amplitude of the leading value s P t of the most recent speech frames in contained Ru audio signal, and the distribution of their amplitudes.
  • Et al is a standardized random variable P r t, the higher the absolute value is larger, "the head value of the amplitude of the most recent speech frames are rather large compared to the standard amplitude of the audio signal, and the noise of a large level This means that the probability of being superimposed on this audio frame is high.On the contrary, the smaller the value, the smaller the leading value of the amplitude of the latest audio frame is compared to the standard amplitude of the audio signal. And that the level of noise superimposed on this voice frame is low.
  • the identification accuracy determining unit 2 2 C obtains an SN estimated value SN t in the same manner as in Embodiment 4 (FIG. 9 (3)), and intends rows "SN judgment" (FIG. 9 (4)).
  • the identification accuracy determining unit 2 2 C is whether the above-described normalized random variable P r t is below the threshold value P r th prescribed determination (hereinafter, "variable determination" That. ) (Fig. 9 (5)).
  • the identification accuracy determining unit 22C obtains and outputs the identification accuracy Rt as follows according to the combination of the results of these determinations.
  • the difference between the present embodiment and the fifth embodiment is that an identification accuracy determination unit 22D is provided in place of the identification accuracy determination unit 22.
  • FIG. 10 is an operation flowchart of the sixth embodiment.
  • the operation of the present embodiment will be described with reference to FIGS. 3 and 10.
  • the difference between the present embodiment and the fifth embodiment is that the identification accuracy determination unit 22D is replaced with the identification accuracy determination unit 22C.
  • Te lies in calculating the standard Ka ⁇ rate variable P r t on the basis of the procedure described below.
  • the probability density function indicating the amplitude distribution of a speech signal can be approximated by a gamma distribution or Laplace distribution.
  • the probability density function P (X) is defined by the following equation with respect to the amplitude X of the voice normalized by the standard deviation, for example, when approximated by the Laplace distribution described above. .
  • the number K of sample values included in each audio frame and sampled and subjected to predetermined digital signal processing (here, for simplicity, ⁇ 100 Is generally given as a known value.
  • the probability that the leading value of the amplitude appears in the voice frame included in each voice frame is determined by the identification accuracy determination unit 22D given by (1 / K).
  • the identification accuracy determination unit 22D finds the instantaneous value p of the amplitude of the audio signal given by the corresponding audio frame (Fig. 10 (2)),
  • the identification accuracy determination unit 22D is a unit sound frame. The processing described above is performed for each game.
  • the error may be compressed by performing the same process for each of a plurality of desired audio frames given in the order of time series.
  • Embodiments 3 to 6 are configured by making the above-described changes to the configuration of Embodiment 1.
  • the configuration of the present embodiment may be the same as any of the configurations of Embodiments 1 to 6 described above.
  • FIG. 11 is an operation flowchart of the seventh embodiment and the eighth embodiment.
  • the feature of the present embodiment lies in the procedure of the following processing performed by any of the above-described identification accuracy determination units 22 and 22A to 22D.
  • identification accuracy determination unit 22 will be focused on among the identification accuracy determination units 22 and 22A to 22D.
  • the identification accuracy determination unit 22 does not directly store the identification accuracy R t in the memory 23 but integrates while applying a predetermined weight in the order of time series.
  • the integral value obtained in this way (hereinafter referred to as “integration identification accuracy RI t”) is obtained (Fig. 11 (1)), and the integration identification accuracy RI t is replaced with the identification accuracy R t. And store it in memory (Fig. 11 (2)).
  • the discrimination accuracy R t previously obtained by multiplying the predetermined number C by the moving average method, the exponential smoothing method, and any other algorithm and weight are used. Integration processing may be performed.
  • the configuration of the present embodiment is basically the same as the configurations of Embodiments 1 to 7 described above.
  • the feature of the present embodiment lies in the following processing procedure performed by the identification accuracy determination units 22 and 21A to 22D.
  • identification accuracy determination units 22 and 21A to 22D perform the following processing.
  • identification accuracy determination unit 22 will be focused on among the identification accuracy determination units 22 and 22A to 22D.
  • the memory 23 does not directly store the integral identification accuracy R It.
  • the identification accuracy determining section 22 holds the integral identification accuracy RI t in a register (not shown) provided therein (see FIG. 1). 1 l (a)).
  • the identification accuracy determination unit 22 determines whether or not the integral identification accuracy RIt exceeds a threshold RIth described later (FIG. 11B), and a binary information RB indicating a result of the determination. t is stored in the memory 23 instead of the integral identification accuracy RIt (Fig. 11 (c)).
  • the identification accuracy determination unit 22 performs the following processing, The threshold RI th to be applied to the similar processing applied to the subsequently given speech frame is determined (Fig. 11 (d)).
  • the logical value of the binary information RB t to be given to the final judgment unit 24 or the identification condition adjustment unit 31 via the memory 23 is However, the higher the quality of the preceding voice frame or the greater the time rate at which the quality was high, the greater the probability that the subsequently provided voice frame will be identified as a sound segment. Set to a higher value.
  • Embodiments 1 to 7 As compared with Embodiments 1 to 7, a decrease in transmission quality due to the fact that a sound section is identified as a silent section can be avoided with high accuracy.
  • the present invention is applied to the transmission unit of the wireless transmission system.
  • the present invention is not limited to such a wireless transmission system, and may perform a predetermined processing (pattern recognition) in response to a transmission unit of a wired transmission system or voice. including.
  • a predetermined processing pattern recognition
  • the same can be applied to various electronic devices that perform or operate.
  • FIGS. 1 and 2 The principle block diagram of each of the following “claims for additional disclosure” is as shown in FIGS. 1 and 2.
  • the leading value of the instantaneous value of the individually included audio signal is found, and the probability density function that approximates the amplitude distribution of the audio signal is used to calculate the number of these instantaneous values and the probability that the leading value appears.
  • the amplitude normalized by the standard deviation of this probability density function is calculated, and the standardized random variable is calculated as the ratio of the amplitude to the leading value.
  • a voice detection device characterized by this.
  • a voice detection device characterized by this.
  • the quality of the obtained audio signal is sequentially integrated, and the resulting monotone increasing function Alternatively, apply the value obtained as a monotonic non-decreasing function as this quality
  • a voice detection device characterized by this.
  • the quality monitoring means 12 and 16 obtain the head value of the instantaneous value of the voice signal included individually for each voice frame, and By applying the number of these instantaneous values and the probability that the leading value appears to the probability density function that approximates the amplitude distribution, the amplitude normalized by the standard deviation of this probability density function is calculated, and the The standardized random variable is calculated as the ratio between the amplitude and the starting value.
  • the above-described standardized random variable is obtained based on a simple arithmetic operation as compared with the above-described fifth voice detection device, and therefore, compared to the above-described fifth voice detection device.
  • the quality monitoring means 12, 16 sequentially integrates the quality of the obtained speech signal and applies the result as normal quality.
  • a component of a steep fluctuation which may be accompanied by the quality of a voice signal obtained in a time series is reduced or suppressed (thus, the voice detection device according to the present invention has Therefore, it is possible to flexibly adapt to the various noises that can be caused and to stabilize the performance.
  • the quality monitoring means 12 and 16 sequentially integrate the quality of the obtained voice signal and generate a monotone increasing function or a monotone non-decreasing function. The value obtained from this is applied as this quality.
  • a voice frame given in advance is used.
  • the first, second, and third voice detection devices for a section having a large amplitude of a voice signal in a small area such as a consonant section in a sound section, for example, Even if the quality of the voice signal in the sound section is low, a large value is obtained as the accuracy indicating that the section is a sound section.
  • the accuracy of a voiced section for each voice frame can be obtained with higher accuracy than the first to third voice detection devices.
  • the processing amount is reduced or the responsiveness is enhanced as compared with the first to third voice detection devices.
  • a large level of noise is superimposed, and even a speech frame having a small SN ratio can be obtained with a large value indicating that it belongs to a sound section. .
  • the consonant section in a voiced section, for example, a section in which the amplitude of the voice signal is widely distributed in a small area such as a consonant section, the consonant section includes Even if the quality of the audio signal is low, a large value indicating the accuracy of indicating that it is a voiced section can be obtained.
  • the communication device and other electronic devices to which these inventions are applied can be flexibly adapted to the acoustic environment in which the sound-to-electric conversion means for emitting a sound signal is arranged, or the characteristics and performance of the information source of the sound signal. While adaptively, the distinction between a sound section and a silent section of the audio signal is accurately and stably realized, and the desired performance adapted to the result of the distinction is achieved. Effective utilization of resources can be achieved accurately.

Description

明細 音声検出装置および音声検出方法 技術分野
本発明は、 音声信号を取 り 込み、 その音声信号の有音区間と無音 区間と を識別する音声検出装置と、 その音声検出装置に適用された 音声検出方法に関する。
背景技術
近年、 ディ ジタル信号処理技術が高度に進展 し 、 かつ移動通信シ ステムその他の通信システムにおいては、 これらのディ ジタル信号 処理技術が適用される こ とによって、 伝送情報である音声信号に実 時間で多様な信号処理が施されている。
また、 このよ う な通信システムの送信端では、 伝送帯域の圧縮や 無線周波数の有効利用に併せて、 消費電力の節減を 目的と して、 上 述した音声信号の無音区間と有音区間とを検出 し、 この有音区間に 限って伝送路に対する送信を許容する音声検出装置が搭載されてい る。
図 1 2 は、 音声検出装置が搭載された無線端末装置の構成例を示 す図である。
図において、 マイ ク 4 1 は音声検出装置 4 2 の入力 と送受信部 4 3 の変調入力とに接続され、 その送受信部 4 3 のアンテナ端子には アンテナ 4 4の給電端が接続される。 音声検出装置 4 2 の出力は送 受信部 4 3 の送信制御入力に接続され、 その送受信部 4 3 の制御用 の入出力には制御部 4 5 の対応する入出力ポ一 ト が接続される。 制 御部 4 5 の特定の出力ポー ト は音声検出装置 4 2 の制御入力に接続 され、 かつ送受信部 4 3 の復調出力はレシーバ 4 6 の入力に接続さ れる。 このよ う な構成の無線端末装置では、 送受信部 4 3 はマイ ク 4 1 と レシーバ 4 6 と を介して送受されるべき伝送情報である音声信号 と、 アンテナ 4 4 を介してアクセスが可能な無線伝送路 (図示され ない。) との無線イ ンタ フ ェースを とる。
制御部 4 5 は、 その送受信部 4 3 と連係する こ とによ って、 この 無線伝送路の形成に要するチャネル制御を主導的に行う 。
音声検出装置 4 2 は、 所定の周期で上述した音声信号をサンプリ ングする こ と によ って音声フ レームの列を生成する。 さ ら に、 音声 検出装置 4 2 は、 これらの個々の音声フ レームについて、 音声信号 の性質に基づいて、 有音区間と無音区間との何れに該当するかの識 別を行い、 その識別の結果を示す 2値信号を出力する。
なお、 上述した性質とは、 例えば、 下記の事項である。
• 約 5 5 デシベルのダイ ナ ミ ッ ク レ ンジを有する。
• 振幅分布が標準的な確率密度関数で近似され得る。
· エネルギーの密度と零交差回数とは、 それそれ無音区間と有 音区間とにおいて異なる値となる。
送受信部 4 3 は、 その 2値信号の論理値が上述した無音区間を意 味するする期間には、 送信を見合わせる。
すなわち、 音声信号に伝送情報と して有効な情報が含まれていな い期間には、 送受信部 4 3 が無用に送信する こ とが規制される。 し たがって、 消費電力の節減にあわせて、 他の無線チャネルに介する 干渉の抑制と無線周波数の有効利用 とが図られる。
しかし、 このよ う な従来例では、 マイ ク 4 1 を介して与え られる 音声信号に大きな レベルの雑音が重畳している期間には、 有音区間 と無音区間との間における特徴量 (例えば、 上述した零交差回数) の差が小さな値となる。
さ ら に、 有音区間であって も子音区間には、 一般に、 音声信号の 振幅は、 母音区間に比べて小さい値に多 く 分布する。
したがって、 子音区間は無音区間と して識別される可能性が高 く . 上述したよ う に誤って識別された子音 (有音) 区間には、 該当する 音声フ レームの送信が行われず、 通話品質が無用に劣化する可能性 が高かった。
また、 上述した雑音のレベルが過大である場合には、 その騒音が 重畳された音声信号の大半を示す音声フ レーム に亘つて送信が規制 される可能性があっ た。
なお、 これらの問題点については、 例えば、 有音区間と しての識 別がされ易い値にその識別の基準となる特徴量等の閾値が設定され る こ とによ って、 改善され得る。
しかし、 このよ う な閾値が適用された場合には、 無音区間である にもかかわ らず有音区間と して識別される確率が増加 し、 かつその 有音区間の時間率が過大とな り得るために、 既述の消費電力の節減 干渉の抑制および無線周波数の有効利用が十分に図られない可能性 があった。 発明の開示
本発明の 目的は、 音声信号とその音声信号に重畳され得る雑音と の多様な特徴に柔軟に適応し、 かつ確度高 く 有音区間と無音区間 と を識別できる音声検出装置および音声検出方法を提供する こ とであ る。
また、 本発明の目的は、 有音区間の内、 例えば、 子音区間のよ う に音声信号の振幅が小さい領域に多 く 分布する区間について、 音声 信号の品質が低い場合であっても有音区間である確度が大きな値で 得られる点にある。
さ ら に、 本発明の目的は、 精度よ く 、 音声フ レーム毎に有音区間 である確度が得られる点にある。
また、 本発明の目的は、 所要する処理量が削減され、 あるいは応 答性が高められる点にある。
さ ら に、 本発明の 目的は、 重畳している雑音のレベルが大き く 、 かつ S N比が小さい音声フ レ ーム についても、 有音区間に属する こ とを示す確度が大きな値で得られる点にある。
上述した 目的は、 音声フ レーム毎に、 有音区間に属する確率と品 質とを求め、 その確率をこ の品質で重み付けて出力する点に特徴が ある音声検出装置および音声検出方法によって達成される。
このよ う な構成の音声検出装置および音声検出方法では、 個々の 音声フ レームは、 品質が良好であるほど、 高い確率で有音区間と し て識別され、 反対に無音区間と して識別される確率が小さ く なる。
また、 上述した目的は、 音声フ レーム毎に、 有音区間に属する確 率と品質と を求め、 こ の確率が求め ら れるべき音声フ レ ームの レべ ルをその品質が大きいほど小さな値に設定する点に特徴がある音声 検出装置および音声検出方法によって達成される。
このよ う な構成の音声検出装置および音声検出方法では、 品質が 低いほど、 個々の音声フ レーム に含まれる個々の音声信号の瞬時値 に対して大きな重み付けが行われるために、 その結果である瞬時値 の列と して与え られる音声信号が上述した有音区間に属する確度が 高い値で求められる。
さ ら に、 上述した 目的は、 音声フ レ ーム毎に、 有音区間に属する 確率と品質とが求め られ、 その品質が高いほど、 こ の確率が求めら れるべき音声フ レームの圧伸処理に適用されるべき圧伸特性の勾配 あるいは閾値を大きな値に設定する点に特徴がある音声検出装置お よび音声検出方法によって達成される。
このよ う な構成の音声検出装置および音声検出方法では、 音声信 号の品質が低いほど個々の音声フ レ ーム に含まれる瞬時値に対 して 大きな重み付けを行う処理は、 圧伸処理と して行われる。
また、 上述した 目的は、 音声フ レ ーム毎に、 有音区間と無音区間 との双方あるいは何れか一方について特徴を求め、 これらの特徴を 品質と して適用する点に特徴がある音声検出装置によ って達成され
。 このよ う な構成の音声検出装置では、 音声信号の品質は、 音響分 析あるいは音声分析を実現する多様な技術の適用の下で安定に得ら れる。
さ ら に、 上述した 目的は、 音声フ レーム毎に、 雑音推定パワーを 求め、 その雑音推定パワーを品質と して適用する点に特徴がある音 声検出装置および音声検出方法によって達成される。
このよ う な構成の音声検出装置では、 上述した雑音推定パワーの 算出は、 一般に、 単純な算術演算によ って達成される。
また、 上述した 目的は、 音声フ レーム毎に、 雑音推定パ ワーと、 S N比の推定値とを求め、 前者に対する単調非増加関数と後者に対 する単調非減少関数と して与え られる数を品質と して適用する点に 特徴がある音声検出装置によ って達成される。
このよ う な構成の音声検出装置では、 重畳している雑音のレベル が大き く 、 かつ S N比が小さい音声フ レーム について も、 有音区間 に属する こ とを示す確度が大きな値で得られる。
さ ら に、 上述した 目的は、 雑音推定パワーに代えて標準化確率変 数が適用される点で先行 して記載された音声検出装置と異なる音声 検出装置によって達成される。
このよ う な構成の音声検出装置では、 標準化確率変数は、 その絶 対値が大きいほど、 「音声フ レームの振幅の先頭値が音声信号の標 準的な振幅に比べて大き く 、 かつ大きなレベルの雑音がこ の音声フ レームに重畳されている可能性が高いこ と」 を意味し、 反対に小さ いほど、 「音声フ レームの振幅の先頭値が音声信号の標準的な振幅 に比べて小さ く 、 この音声フ レーム に重畳されている雑音のレベル も小さいこ と」 を意味する。
したがって、 標準化確率変数は、 上述した雑音推定パワーに代替 し得る。
また、 上述した 目的は、 標準化確率変数が音声フ レームの振幅分 布とその振幅分布の最大値と に基づいて近似的に算出される点に特 徴がある音声検出装置によって達成される。
このよ う な構成の音声検出装置では 、 上述した相 準化確率変数は 簡便な算術演算によって求められる。
さ ら に、 上述した 目的は、 音声フ レームの単位に先行 して得られ た品質が時系列の順に積分され、 その結果が品質と して適用される 点に特徴がある音声検出装置によって達成される。
このよ う な構成の音声検出装置では、 時系列の順に得られた音声 信号の品質に伴い得る急峻な変動の成分が軽減され、 あるいは抑圧 される。
また、 上述した目的は、 音声フ レームの単位に先行 して得られた 品質が時系列の順に積分され、 その結果が大きいほどこの結果が小 さ く 重み付けされて得られた値が品質と して適用される点に特徴が ある音声検出装置によ って達成される
このよ う な構成の音声検出装置では 、 先行して与え られた音声フ レームの品質が高く 、 あるいはその品質が高かった時間率が大きい ほど、 後続して与え られる音声フ レームが有音区間である確度が大 きな値で得られる。 図面の簡単な説明
図 1 は、 本発明の第 1 の原理ブロ ッ ク図である。
図 2 は、 本発明の第 2 の原理ブロ ッ ク図である。
図 3 は、 本発明の実施形態 1、 3〜 8 を示す図である
図 4 は、 実施形態 1 の動作フ ローチャー トである。
図 5 は、 本発明の実施形態 2 を示す図である。
図 6 は、 実施形態 2 の動作フ ローチヤ一 卜である。
図 7 は、 実施形態 3 の動作フ ローチャー トである。
図 8 は、 実施形態 4 の動作フ ローチャー トである。
図 9 は、 実施形態 5 の動作フ ローチャー トである。
図 1 0 は、 実施形態 6 の動作フ ローチャー ト である。 図 1 1 は、 実施形態 7および実施形態 8 の動作フ ロ ーチャー ト で ある。
図 1 2 は、 音声検出装置が搭載された無線端末装置の構成例を示 す図である。 発明を実施する ための最良の形態
まず、 図 1 および図 2 を参照して本発明にかかわる音声検出装置 および音声検出方法の原理を説明する。
図 1 は、 本発明の第 1 の原理ブロ ッ ク図である。
図 1 に示す音声検出装置は、 区間推定手段 1 1 と、 cm質監視手段
1 2 と、 区間判定手段 1 3 とから構成される。
本発明にかかわる第 1 の音声検出装置の原理は、 下記の通 り であ る。
区間推定手段 1 1 は、 音声信号と して時系列の順に与え られる音 声フ レーム毎に、 その音声信号の統計的な性質に基づいて有音区間 に属する確率を求める。 また、 品質監視手段 1 2 は、 音声フ レ ーム 毎に音声信号の品質を監視する。
区間判定手段 1 3 は、 上述したよ う に音声信号と して時系列の順 に与え られる個々のフ レームについて、 区間推定手段 1 1 によ って 求められた確率に、 品質監視手段 1 2 によ って監視された品質を重 み付け、 有音区間である確度を得る。
このよう な音声検出装置では、 個々の音声フ レームは、 音声信号 の品質が良好であるほど、 高い確率で有音区間と して識別され、 反 対に無音区間と して識別される確率が小さ く なる。
したがって、 有音区間の内、 例えば、 子音区間のよ う に音声信号 の振幅が小さな領域に多 く 分布する区間については、 その子音区間 における音声信号の品質が低い場合であって も有音区間である確度 が大きな値で得られる。
図 2 は、 本発明の第 2 の原理ブロ ッ ク図である。 図 2 に示す音声検出装置は、 区間判定手段 1 5、 1 5 Aと、 品質 監視手段 1 6 とから構成される。
本発明にかかわる第 2 の音声検出装置の原理は、 下記の通 り であ る o
区間判別手段 1 5 は、 音声信号と して時系列の順に与え られる音 声フ レーム毎に、 その音声信号の統計的な性質に基づいて有音区間 に属する確度を求める。 品質監視手段 1 6 は、 これらの音声フ レ ー ムについて、 個別に上述した音声信号の品質を監視する。
また、 区間判定手段 1 5 は、 上述した音声フ レーム毎に、 個別に 含まれる音声信号の瞬時値の列に、 品質監視手段 1 6 に よって監視 された品質に対して単調減少関数ある いは単調非増加関数と して与 え られる重みによる重み付けを行う。
このよ う な音声検出装置では、 音声フ レーム毎に、 品質が低いほ ど、 区間判別手段 1 5 は、 その音声フ レームに含まれる個々の音声 信号の瞬時値に大きな重み付けを行い、 その結果と して与え ら れる 瞬時値の列 と して与え られる音声信号について、 上述した有音区間 に属する確度を求める。
したがって、 有音区間の内、 例えば、 子音区間のよ う に音声信号 の振幅が小さな領域に多 く 分布する区間については、 その子音区間 における音声信号の品質が低い場合であって も有音区間である確度 が大きな値で得られる。
本発明にかかわる第 3 の音声検出装置の原理は、 下記の通 り であ る ο
品質監視手段 1 6 は、 時系列の順に音声フ レ ームの列 と して与え られる音声信号について、 その音声フ レーム毎に品質を監視する。 区間判定手段 1 5 Aは、 これらの音声フ レーム に個別に圧伸処理 を施し、 その結果と して得られた音声信号の瞬時値の列をその音声 信号の統計的な性質に基づいて解析する こ とによって、 有音区間に 属する確度を求める。 さ ら に、 区間判定手段 1 5 Aは、 上述した音声フ レ ーム毎に、 品 質監視手段 1 6 によ って監視された品質に対して音声の瞬時値の単 調減少関数と して与え られる圧伸特性を前記圧伸処理に適用する。
このよう な音声検出装置では、 音声信号の品質が低いほど、 個々 の音声フ レ ーム に含まれる音声信号の瞬時値に対して大きな重み付 けを行う処理は、 上述した圧伸処理と して、 既述の第 2 の音声検出 装置と同様に行われる。
したがって、 有音区間の内、 例えば、 子音区間のよ う に音声信号 の振幅が小さな領域に多 く 分布する区間については、 その子音区間 における音声信号の品質が低い場合であって も、 有音区間である こ とを示す確度が大きな値で得 られる。
本発明にかかわる第 4 の音声検出装置の原理は、 下記の通 り であ る。
品質監視手段 1 2、 1 6 は、 音声信号の有音区間と無音区間との 双方または何れか一方についてその音声信号の特徴を求め、 これら の特徴の何れか一方も し く は両者の差分と して この音声信号の品質 を得る。
このよ う な音声検出装置では、 音声信号の品質は、 音響分析ある いは音声分析を実現する多様な技術の適用の下で、 上述 した特徴と して安定に得られる。
したがって、 既述の第 1 ない し第 3 の音声検出装置に比べて、 音 声フ レーム毎に有音区間である確度が精度よ く 得られる。
本発明にかかわる第 5 の音声検出装置の原理は、 下記の通 り であ る。
品質監視手段 1 2、 1 6 は、 音声フ レーム毎に、 雑音推定パ ワー を求め、 その雑音推定パワーの単調減少関数と して音声信号の品質 を得る。
このよう な音声検出装置では、 雑音推定パワーの算出は、 一般に、 単純な算術演算によ って達成される。 したがって、 既述の第 1 ない し第 3 の音声検出装置に比べて、 処 理量が削減され、 ある いは応答性が高められる。
本発明にかかわる第 6 の音声検出装置の原理は、 下記の通 り であ る。
品質監視手段 1 2、 1 6 は、 音声フ レーム毎に、 雑音推定パワー と S N比の推定値と を求め、 前者の単調非増加関数と、 かつ後者の 単調非減少関数と して音声信号の品質を得る。
このよ う な音声検出装置では、 大きな レベルの雑音が重畳し、 か つ S N比が小さい音声フ レームについて も、 有音区間に属する こ と を示す確度が大きな値で得られる。
本発明にかかわる第 7 の音声検出装置の原理は、 下記の通 り であ o
品質監視手段 1 2、 1 6 は、 音声フ レーム毎に、 標準化確率変数 を求め、 その標準化確率変数の単調非増加関数と して音声信号の品 質を得る。
このよ う な音声検出装置では、 標準化確率変数は、 その絶対値が 大きいほど、 「音声フ レームの振幅の先頭値が音声信号の標準的な 振幅に比べて大き く 、 かつ大きなレベルの雑音がこの音声フ レーム に重畳されている可能性が高いこ と」 を意味し、 反対に小さいほど 「音声フ レームの振幅の先頭値が音声信号の標準的な振幅に比べて 小さ く 、 この音声フ レームに重畳されている雑音のレベルも小さい こ と」 を意味する。
したがって、 既述の第 6 の音声検出装置と同様に、 重畳している 雑音のレベルが高く 、 かつ S N比が小さい音声フ レームについて も . 有音区間に属する こ とを示す確度が大きな値で得られる。
本発明にかかわる第 8 の音声検出装置の原理は、 下記の通 り であ る。
品質監視手段 1 2 、 1 6 は、 音声フ レーム毎に、 標準化確率変数 と S N比の推定値と を求め、 前者の単調非増加関数と、 かつ後者の 単調非減少関数と して音声信号の品質を得る。
このよ う な音声検出装置では、 大きなレベルの雑音が重畳 し、 か つ S N比が小さい音声フ レーム について も、 有音区間に属する こ と を示す確度が大きな値で得られる。
本発明にかかわる第 1 の音声検出方法の原理は、 下記の通 り であ る。
第 1 の音声検出方法では、 音声信号と して時系列の順に与え られ る音声フ レーム毎に、 その音声信号の統計的な性質に基づいて有音 区間に属する確率が求められ、 かっこの音声信号の品質が監視され る。
さ ら に、 音声信号と して時系列の順に与え られる個々のフ レーム については、 上述したよ う に求められた確率に、 監視された品質が 重み付けられる こ と によって、 有音区間である確度が得 られる。
このよう な音声検出方法では、 個々の音声フ レームは、 音声信号 の品質が良好であるほど、 高い確率で有音区間と して識別され、 反 対に無音区間と して識別される確率が小さ く なる。
したがって、 有音区間の内、 例えば、 子音区間のよ う に音声信号 の振幅が小さな領域に多 く 分布する区間については、 その子音区間 における音声信号の品質が低い場合であって も有音区間である確度 が大きな値で得られる。
本発明にかかわる第 2 の音声検出方法の原理は、 下記の通 り であ る o
第 2 の音声検出方法では、 音声信号と して時系列の順に与え られ る音声フ レ ーム毎に、 その音声信号の統計的な性質に基づいて有音 区間に属する確率が求められ、 かっこの音声信号の品質が前記音声 フ レーム毎に監視される。
さ ら に、 音声フ レ ーム毎に、 個別に含まれる音声信号の瞬時値の 列については、 上述したよ う に監視された品質に対して単調減少関 数あるいは単調非増加関数と して与え られる重みによる重み付けが 行われる。
このよ う な音声検出方法では、 音声フ レーム毎に、 音声信号の品 質が低いほど、 その音声フ レームに含まれる個々の音声信号の瞬時 値に対して大きな重み付けが行われ、 その結果と して与え られる瞬 時値の列と して与え られる音声信号について、 上述した有音区間に 属する確度が求められる。
したがって、 有音区間の内、 例えば、 子音区間のよ う に音声信号 の振幅が小さな領域に多 く 分布する区間については、 その子音区間 における音声信号の品質が低い場合であって も有音区間である確度 が大きな値で得られる。
本発明にかかわる第 3 の音声検出方法の原理は、 下記の通 り であ る。
第 3 の音声検出方法では、 時系列の順に与え られる個々の音声フ レームについて、 圧伸処理が施され、 その結果と して得られた音声 信号の瞬時値の列がその音声信号の統計的な性質に基づいて解析さ れる こ と によって、 有音区間に属する確度が求められ、 かつその音 声信号の品質が監視される。
さ ら に、 上述した圧伸処理の過程では、 音声フ レーム毎に、 こ の よ う に して監視された品質の単調減少関数と して与え られる圧伸特 性が適用される。
このよ う な音声検出方法では、 音声信号の品質が低いほど、 個々 の音声フ レ ーム に含まれる音声信号の瞬時値に対して大きな重み付 けを行う処理は、 上述した圧伸処理と して、 第二の音声検出方法と 同様に行われる。
したがって、 有音区間の内、 例えば、 子音区間のよ う に音声信号 の振幅が小さな領域に多 く 分布する区間については、 その子音区間 における音声信号の品質が低い場合であって も有音区間である確度 が大きな値で得られる。
以下、 図面に基づいて本発明の実施形態について詳細に説明する 図 3 は、 本発明の実施形態 1、 3〜 8 を示す図である。 図において、 図 1 2 に示すものと機能および構成が同 じものにつ いては、 同 じ符号を付与 して示 し、 こ こでは、 その説明を省略する 本実施形態と図 1 2 に示す従来例との構成の相違点は、 音声検出 装置 4 2 に代えて音声検出装置 2 0 が備え られた点にあ る。
音声検出装置 2 0 は、 初段に備え られた有音/無音識別部 2 1 と その有音/無音識別部 2 1 のモニタ出力に直結されたモニタ端子を 有し、 この有音/無音識別部 2 1 と共に初段に備え られた識別確度 判定部 2 2 と、 これらの有音/無音識別部 2 1 および識別確度判定 部 2 2 の出力にそれぞれ接続された 2 つのポー ト を有するメ モ リ 2 3 と、 そのメ モ リ 2 3 の出力に直結される と共に、 最終段と して備 え られた最終判定部 2 4 とか ら構成される。
図 4 は、 実施形態 1 の動作フ ローチャー トである。
[実施形態 1 ]
以下、 図 3 および図 4 を参照して本発明にかかわる実施形態 1 の 動作を説明する。
音声検出装置 2 0 では、 有音/無音識別部 2 1 は、 マイ ク 4 1 を 介して与え られる音声信号に、 図 1 2 に示す音声検出装置 4 2 が行 う処理と同じ処理を施すこ と によって、 既述の音声フ レーム毎に有 音区間と無音区間との識別を行い、 かつメモ リ 2 3 と識別確度判定 部 2 2 とに並行して この識別の結果を示す 2値情報 I t を与える。
なお、 この 2値情報 I t の論理値については、 簡単のため、 有音 区間には 「 1 」 に設定され、 反対に無音区間には 「 0 」 に設定され る と仮定する。
一方、 識別確度判定部 2 2 は、 有音/無音識別部 2 1 と並行 して 上述した音声信号を既述の音声フ レームの列に変換する 。 さ ら に、 識別確度判定部 2 2 は、 有音/無音識別部 2 1 によって与え られる 2値情報 I t の論理値に応じて有音区間と無音区間と を識別 し、 こ れらの区間について、 個々の音声フ レームの特徴量 F t (こ こでは、 簡単のため、 エネルギーと零交差回数との双方あるいは何れか一方 である と仮定する。) の分布 (平均値) を定常的に監視する。
さ ら に、 識別確度判定部 2 2 は、 個々の音声フ レームが与え られ る期間に、 有音区間と無音区間とにおける上述した特徴量 F t の分 布 (平均値) の差分が所定の閾値 F th を下回るか否かの判別を行 い、 その判別の結果を示す 2値の識別確度 R t を求める。
なお、 このよ う な識別確度 R t の論理値については、 上述した差 分が閾値 F th を 下回 る程度 に 音声信号の 品質が低い場合に は 「 0 」 に設定され、 反対に この閾値 F th を上回る程度に音声信号 の品質が良好である場合には 「 1 」 に設定される と仮定する。
また、 メ モ リ 2 3 には、 有音/無音識別部 2 1 によって与え られ た 2値情報 I t と、 識別確度判定部 2 2 によって求められた識別確 度 R t とが上述した音声フ レームの単位に対応付けられて蓄積され る。
最終判定部 2 4 は、 このよ う にメ モ リ 2 3 に蓄積された 2値情報 I t と識別確度 R t との個々の組み合わせに応 じて、 下記の処理を 順次行う。
• 識別確度 R t の論理値が 「 1 」 である場合には、 論理値が 2 値情報 I t の論理値に等しい 2値信号を送受信部 4 3 に与える (図 4 ( 1 ) )。
• 識別確度 R t の論理値が 「 0 」 であ る場合には、 論理値が 「 1 」 であ る 2 値信号を送受信部 4 3 に与える (図 4 ( 2 ) )。
また、 送受信部 4 3 は、 制御部 4 5 が行う チャネル制御の下で割 り付けられた無線チャネルに、 マイ ク 4 1 によ って与え られる音声 信号で変調された送信波信号を送信する過程には、 上述したよ う に. 音声フ レーム単位に音声検出装置 2 0 で行われる処理の演算所要時 間に等しい遅延を与える こ とによ って、 この音声検出装置 2 0 との 同期を維持する。
すなわち、 音声信号の品質が良好である場合には、 有音 無音識 別部 2 1 によって与え られた 2値情報 I t が 2値信号と して送受信 部 4 3 に与え られるが、 その品質が良好でない場合には、 この 2値 信号の論理値は、 有音区間を示す 「 1 」 に設定される。
したがって、 本実施形態によれば、 識別確度 R t の如何にかかわ らず音声信号の統計的な性質のみに基づいて有音区間と無音区間と の識別が行われる従来例に比べて、 その音声信号の品質が悪い有音 区間が無音区間と して識別される こ とが確度高 く 回避され、 かつ伝 送品質の劣化が緩和される。
なお、 本実施形態では、 有音/無音識別部 2 1 と識別確度判定部 2 2 とが並行 して個別に音声信号を音声フ レームの列に変換する処 理を行っている。
しか し、 このよう な処理は、 有音 無音識別部 2 1 と識別確度判 定部 2 2 との何れか一方によ って主導的に行われ、 あるいはこれら の有音/無音識別部 2 1 と識別確度判定部 2 2 との前段に配置され た手段によ って行われて も よい。
また、 本実施形態では、 有音/無音識別部 2 1 によ って求め られ た 2値情報 I t と、 識別確度判定部 2 2 によ って求められた識別確 度 R t とが音声フ レーム毎に対応つけ られてメ モ リ 2 3 に蓄積され ている。
しかし、 メ モ リ 2 3 は、 有音/無音識別部 2 1 、 識別確度判定部 2 2 および最終判定部 2 4 によって行われるべき既述の処理の所要 時間に伴い得る変動分が許容される程度に小さい場合には、 備え ら れな く て も よい。
さ ら に、 本実施形態では、 送受信部 4 3 は、 音声フ レーム単位に 音声検出装置 2 0 によって行われる処理の演算所要時間に等 しい遅 延を与える こ とによ って、 この音声検出装置 2 0 との同期を維持 し ている。
しか し、 このよう な遅延は、 上述 した同期が所望の確度で維持さ れる程度に小さい場合には、 何 ら与え られな く て も よい。 また、 本実施形態では、 識別確度判定部 2 2 によって既述の識別 確度 R t が求められている。
しかし、 識別確度判定部 2 2 と最終判定部 2 4 とは、 例えば、 そ の識別確度判定部 2 2 が下記の処理の何れかのみを行う こ とによつ て、 如何なる形態で機能分散が図られて も よい。
• 既述の音声フ レームが与え られる時点あるいは期間に、 有音 区間 と無音区間 と における上述 した特徴量 F t の分布 (平均 値) を求める。
- その特徴量 F t の分布 (平均値) を求め、 こ の隔た り (差 分) が所定の閾値 F th を下回るか否かの判別を行う 。
さ ら に、 本実施形態では、 有音区間と無音区間との特徴量 F t の 差分と閾値 F th との大小関係に基づいて、 音声信号の品質の良否 が判別されている。
しかし、 本発明は、 このよ う な構成に限定されず、 例えば、 有音 区間と無音区間との何れか一方の特徴量が所望の確度で既知の値と して与え られる場合には、 他方の特徴量のみが求められ、 その特徴 量と規定の閾値との大小関係に基づいて、 音声信号の伝送品質の良 否が判別されて も よい。
[実施形態 2 ]
図 5 は、 本発明の実施形態 2 を示す図である。
図において、 図 3 に示すもの と機能および構成が同 じものについ ては、 同じ符号を付与して示 し、 こ こでは、 その説明を省略する。
本実施形態と既述の実施形態 1 との構成の相違点は、 音声検出装 置 2 0 に代えて音声検出装置 3 0 が備え られた点にある。
音声検出装置 3 0 と音声検出装置 2 0 との構成の相違点は、 有音 /無音識別部 2 1 に代えて有音/無音識別部 2 1 Aが備え られ、 最 終判定部 2 4 に代えて識別条件調整部 3 1 が備え られ、 その識別条 件調整部 3 1 の出力は送受信部 4 3 の対応する制御入力に代わる有 音/無音識別部 2 1 Aの閾値入力に接続され、 その制御入力に有音 無音識別部 2 1 Aの出力が接続された点にある。
図 6 は、 実施形態 2 の動作フ ローチャー トである。
以下、 図 5 および図 6 を参照して本発明にかかわる実施形態 2 の 動作を説明する。
本実施形態と実施形態 1 との相違点は、 識別条件調整部 3 1 が行 う下記の処理と、 有音 Z無音識別部 2 1 Aがその処理の下で与え ら れる閾値に基づいて既述の 2 値情報 I t を求める点と にある。
なお、 以下では、 有音/無音識別部 2 1 A、 識別確度判定部 2 2 およびメ モ リ 2 3 が連係する こ とによ って行われる処理の手順につ いては、 既述の実施形態 1 と基本的に同じであるので、 こ こでは、 その説明を省略する。
有音/無音識別部 2 1 Aは、 マイ ク 4 1 を介して与え られる音声 信号に、 図 1 2 に示す従来例に搭載された音声検出装置 4 2 が行う 処理と同じ処理を施し、 その処理の過程でこの音声信号の統計的な 性質にかかわる閾値 (以下、 「区間識別閾値」 とい う 。) と して、 識 別条件調整部 3 1 によって与え られる値を適用する こ と によって、 2値情報 I t を求める。
また、 識別条件調整部 3 1 は、 このよ う に して求め ら れた 2 値情 報 I t と識別確度判定部 2 2 によって求められた識別確度 R t との 組み合わせを順次メ モ リ 2 3 を介して取り込み、 かつ下記の処理を 行う。
• 識別確度 R t の論理値が 「 1 」 である場合には、 その有音/ 無音識別部 2 1 に、 『上述 した音声信号の品質が良好であ る期 間に 2値情報 I t を求める過程で、 有音/無音識別部 2 1 Aが 適用すべき標準的な 区間識別閾値 (以下、 「標準閾値」 と い う 。)』 を与える (図 6 ( 1 ) )。 なお、 標準閾値については、 識別 条件調整部 3 1 に予め与え られている と仮定する。
• 識別確度 R t の論理値が 「 0 」 である場合には、 先行 して有 音/無音識別部 2 1 Aに与え ら た区間識別閾値 (上述した 「標 準閾値」 であって も よい。) を下記の何れかの値に更新し、 あ るいは設定する (図 6 ( 2 ) )。
—有音 Z無音識別部 2 1 Aが後続する音声フ レ ームを有音区間に属 する音声フ レーム と識別する可能性が高い値
—有音 無音識別部 2 1 Aが後続する音声フ レ ームを有音区間に属 する音声フ レーム と して確実に識別する値
さ ら に、 送受信部 4 3 は、 有音/無音識別部 2 1 Aに よって与え られる 2値情報 I t の列を既述の 2値信号と して取 り込み、 既述の 実施形態 1 と同様に音声検出装置 3 0 との同期を維持する。
このよ う に本実施形態によれば、 音声信号の品質が良好である場 合には、 有音/無音識別部 2 1 Aによ って与え られた 2 値情報 I t が 2値信号と して送受信部 4 3 に与え られるが、 その品質が良好で ない場合には、 区間識別閾値が適宜更新される こ と によ って、 『有 音区間を示す 「 1 」 にこの 2値信号の論理値が設定される確率』 が 高められる。
したがって、 本実施形態によれば、 識別確度 R t の如何にかかわ らず音声信号の統計的な性質のみに基づいて有音区間と無音区間と の識別が行われる従来例に比べて、 品質が悪い有音区間が無音区間 と して識別される こ とに起因する伝送品質の劣化が緩和され、 ある いは回避される。
なお、 本実施形態では、 区間識別閾値は、 識別条件調整部 3 1 に よって適宜更新され、 あるいは設定されている。
しかし、 本発明は、 このよ う な構成に限定されず、 例えば、 有音 /無音識別部 2 1 Aに音声信号を線形領域で増幅する可変利得増幅 器が搭載され、 かつ有音区間と無音区間との識別の基準がその音声 信号のレベルである場合には、 上述した区間識別閾値に代えて こ の 可変利得増幅器の利得が可変されて も よい。
[実施形態 3 ]
本実施形態と実施形態 1 との構成の相違点は、 識別確度判定部 2 2に代えて識別確度判定部 2 2 Aが備え られた点にある。
図 7は、 実施形態 3の動作フ ローチャー トである。
以下、 図 3および図 7を参照して本実施形態の動作を説明する。 本実施形態の特徴は、 識別確度判定部 2 2 Aが行う下記の処理の 手順にある。
識別確度判定部 2 2 Aは、 有音/無音識別部 2 1 と並行して音声 信号を音声フ レームの列に変換し (図 7 (1))、 かつ個々の音声フ レ ームについて下記の処理を施す。
なお、 以下では、 個々の音声フ レームは、 簡単のため、 時系列 t ( = 0〜N )の順に(N + 1)個の瞬時値 x ( t )の列 と して与え られる と 仮定する。
1 . 下式(1) で示される算術演算を行う こ と によって、 フ レームパ ヮ一 P t を算出し、 時系列 tの順に蓄積する (図 7 (2))。
2 . 先行する音声フ レームについて同様に して算出され、 かつ蓄積 されている先行フ レームパワー P t_ !を取得する (図 7 (3))。
3. 規定の時定数ひ (< 1 )に対して下式(2) で示される算術演算を 行う こ とに よ って、 雑音推定パワー P N t を指数平滑法に基づいて 算出する (図 7 (4))。
4. この雑音推定パワー P N t と、 その雑音推定パワー P N t につい て既述の閾値 F th と同様に予め設定された閾値 P th とを比較する こ とによって、 前者が後者を上回るか否かの判別を行い (図 7 ( 5 ) ). その判別の結果を示す 2値の識別確度 Rt を求める (図 7 (6))。
PN t = a P t_ 1 +(l- a )P t -( 2 )
P '= : X (" 2 · · · (1)
なお、 このよ う な識別確度 R t の論理値については、 上述した判 別の結果が真である場合には 「 0」 (通話信号の品質が低い こ と を 意味する。) に設定され、 反対に偽である場合には 「 1」 (通話信号 の品質が良好である こ とを意味する。) に設定される と仮定する。
また、 最終判定部 2 4は、 既述の実施形態 1 と同様に この識別確 度 R t を参照する こ とによ って 2値信号を生成し、 その 2値信号を 送受信部 4 3 に順次与え る。
このよ う に本実施形態によれば、 上式(1)、(2) に示す単純な算術 演算によ って通話信号の品質が簡便に求められ、 かつ上述した判別 の結果が偽である期間は、 有音/無音識別部 2 1 によって与え られ た 2値情報の論理値 I t の如何にかかわ らず、 高い確度で、 あるい は確実に有音期間と して識別される。
[実施形態 4 ]
本実施形態と実施形態 1 との構成の相違点は、 識別確度判定部 2 2 に代えて識別確度判定部 2 2 Bが備え られた点にある。
図 8 は、 実施形態 4の動作フ ローチャー トである。
以下、 図 3および図 8 を参照して本実施形態の動作を説明する。 本実施形態の特徴は、 識別確度判定部 2 2 Bが行う下記の処理の 手順にある。
識別確度判定部 2 2 Bは、 有音/無音識別部 2 1 と並行して音声 信号を音声フ レームの列に変換し (図 8 (1))、 かつ個々の音声フ レ —ムについて下記の処理を施す。
1. 既述の実施形態 3 において識別確度判定部 2 2 Aによ って行 われる処理の手順と同 じ手順に基づいて フ レームノ ヮ一 P t と、 雑音推定パワー P N t とを算出する (図 8 (2))。
2. 下式(3) で示される算術演算を行う こ と によ って、 こ の音声 フ レームの S N比の推定値 (以下、 単に、 「 S N推定値」 と い う 。) S N t を算出する (図 8 (3))。
3. この S N推定値 S N t がその S N推定値 S N t について既述 の閾値 F th と同様に予め設定された閾値 S N th を上回るか否か の判別 (以下、 「 S N判別」 という 。) を行う (図 8 (4))。
. 上述した雑音推定パワー P N tが既述の閾値 P th を下回るか否 かの判別 (以下、 「雑音判別」 という 。) を行う (図 8 (5))。
5. これらの判別の結果の組み合わせに応 じて、 下記の通 り に識 別確度 R t を求め、 かつ出力する。
① S N判別の結果が真である場合と、 その S N判別の結果が偽 であ り 、 かつ雑音判別の結果が真であ る場合と には、 こ の雑音 判別の結果を示す 2 値を識別確度 R t と して 出力する ( 図 8 (6))。
② S N判別の結果が偽であ り 、 かつ雑音判別の結果が偽であ る 場合には、 論理値が 「 ◦ 」 である識別確度 R t を出力する (図 8 (7)。
S N t 二 101og10( P t / P N t ) ·'·(3)
すなわち、 S N推定値 S N t が小さ く 、 かつ上述 し た雑音推定 パワー P N t が大きい場合に、 有音/無音識別部 2 1 によ って行わ れた識別の確度が著し く 低下した状態であって も、 最終判定部 7 4 によって有音区間が無音区間と識別される こ とが確度高 く 回避され る。
[実施形態 5 ]
本実施形態と実施形態 1 との構成の相違点は、 識別確度判定部 2 2 に代えて識別確度判定部 2 2 Cが備え られた点にある。
図 9 は、 実施形態 5の動作フ ローチヤ一 卜である。
以下、 図 3および図 9 を参照して本実施形態の動作を説明する。 本実施形態と既述の実施形態 4 との相違点は、 識別確度判定部 2 2 Cが行う 下記の処理の手順にある。
識別確度判定部 2 2 Cは、 有音/無音識別部 2 1 と並行して音声 信号を音声フ レームの列に変換し (図 9 (1))、 かつ個々の音声フ レ ームについて、 雑音推定パワー P N t を算出する処理に代えて以下 の処理を行う。
A) 時系列 t の順に与え られる個々の音声フ レームで示される音 声信号の振幅の先頭値 s P t と平均値 s Bt とを求めて蓄積する。
B) 最新の音声フ レームが与え られる度に、 所定の数 Mに対して その音声フ レームに先行する時点で時系列 t の順にそれそれ与 え られた M個の音声フ レーム について、 同様に蓄積された先頭 値 s P t と平均値 s t とを取得する。
C) これら の先頭値お よび平均値を下式(4) に代入する こ とに よ つて行われる算術演算の結果と して、 該当する音声フ レームで 示される音声信号の振幅の標準偏差(7t を算出する。
D) 最新の音声フ レームで示される音声信号の振幅の先頭値 X を 求める。
E) これら の標準偏差 び t と先頭値 X と に対 して下式(5) で示さ れる算術演算を行う こ とによ って、 上述した音声信号の振幅の 標準化確率変数 P r t を算出する (図 9 (2))。
1/2
σ
t 2 s, M
=UZM ) … (4)
P r t = x / σ t …(5)
なお、 標準化確率変数 P r t は、 最新の音声フ レームに含まれ る音声信号の振幅の先頭値 s P t と、 その振幅の分布との相関関係 を意味する。
さ ら に、 標準化確率変数 P r t は、 その絶対値が大きいほど、 「最新の音声フ レームの振幅の先頭値が音声信号の標準的な振幅に 比べて大き く 、 かつ大きなレベルの雑音がこの音声フ レームに重畳 されている可能性が高いこ と」 を意味 し、 反対に小さいほど、 「最 新の音声フ レームの振幅の先頭値が音声信号の標準的な振幅に比べ て小さ く 、 この音声フ レームに重畳されている雑音のレベルが小さ いこ と」 を意味する。
また、 識別確度判定部 2 2 Cは、 実施形態 4 と同様に して S N推 定値 S N t を求め (図 9 (3))、 かつ 「 S N判定」 を 行 う (図 9 (4))。
さ ら に、 識別確度判定部 2 2 Cは、 上述した標準化確率変数 P r t が規定の閾値 P r th を下回るか否かの判別 (以下、 「変数判別」 という 。) を行う (図 9 (5) )。
また、 識別確度判定部 2 2 Cは、 これらの判別の結果の組み合わ せに応じて、 下記の通 り に識別確度 Rtを求めて出力する。
I . S N判別の結果が真であ る場合と、 変数判別の結果が真で ある場合と には、 この変数判別の結果を示す 2値を識別確度
Rt と して出力する (図 9 (6))。
II. S N判別の結果が偽であ り 、 かつ変数判別の結果が偽であ る場合には、 論理値が 「 0」 である識別確度 R t を出力する
(図 9 (7))o
すなわち、 識別確度 Rt の論理値は、 標準化確率変数 P r t の 値が大きい場合には、 有音ノ無音識別部 2 1 によって行われる識別 の確度が著 し く 低下 した状態であって も、 最終判定部 7 4によ って 有音区間を無音区間と識別する こ とが確度高く 回避される。
[実施形態 6 ]
本実施形態と実施形態 5 との構成の相違点は、 識別確度判定部 2 2に代えて識別確度判定部 2 2 Dが備え られた点にある。
図 1 0は、 実施形態 6の動作フ ローチャー トである。
以下、 図 3および図 1 0を参照 して本実施形態の動作を説明する 本実施形態と実施形態 5 との相違点は、 識別確度判定部 2 2 Dが 識別確度判定部 2 2 Cに代えて、 後述する手順に基づいて標準化確 率変数 P r t を算出する点にある。
音声信号の振幅分布を示す確率密度関数は、 一般に、 ガンマ分布 やラ プラス分布で近似が可能である。
また、 この確率密度関数 P ( X ) は、 例えば、 上述したラ プラス分 布で近似された場合には、 標準偏差で正規化された音声の振幅 X に 対して、 下記の式で定義される。
Figure imgf000025_0001
したがって、 標準偏差で正規化された音声の振幅 Xの絶対値は、 |= (- 1 / V2~)« In ( - ( )) … (6)
の式で与え られる。
と こ ろで、 個々の音声フ レームに含まれ、 かつサンプリ ングされ て所定のディ ジタル信号処理が施される標本値の数 K ( こ こでは、 簡単のため、 「 1 0 0 0」 である と仮定する。) は、 一般に、 既知の 値と して与え られる。
また、 このよ う な場合には、 個々の音声フ レームに含まれる音声 フ レームに振幅の先頭値が出現する確率は、 ( 1 / K )で与え られる 識別確度判定部 2 2 Dは、 この確率 ( = 1 / K ) が上式(6) に適 用される こ とによ って得られる下記の式で示される算術演算を行い その結果結果と して | χ | の値を求める (図 1 0 (1))。
|χ— 1 / 2")· In [^2 ' (1/K ))
= ― 1 / V2~) · In (V2 · (1/100。 ))
さ ら に、 識別確度判定部 2 2 Dは、 該当する音声フ レームで与え られる音声信号の振幅の瞬時値 p を求め (図 1 0 (2))、 その瞬時値 P と上述した
I X Iの値とに対して、
σ t = p / I x I
の式で示される算術演算を行 う こ と に よ って標準偏差 r t を算出 する (図 1 0 (3))と共に、 こ の標準偏差 cr t の値を既述の式(5) に代入する こ と に よ って標準化確率変数 P r t を求める (図 1 0 (4) )o
すなわち、 実施形態 5 において行われる既述の処理 A )〜 E )に比 ベて簡便な算術演算に基づいて標準化確率変数 P r t が求め ら れ る o
したがって、 本実施形態によれば、 実施形態 5 に比べて所望の応 答性が得られるために確保されるべき処理量の削減、 あるいはその 応答性の向上が可能となる。
なお、 本実施形態では、 識別確度判定部 2 2 Dは、 単位音声フ レ ーム毎に既述の処理を行なっている。
しかし、 このよ う な処理については、 時系列の順に与え られる所 望の複数の音声フ レーム毎に同様の処理が行われる こ と によって、 誤差の圧縮が図られて も よい。
なお、 実施形態 3 〜実施形態 6 は、 実施形態 1 の構成に既述の変 更が施される こ とに よ って構成されている。
しかし、 これらの実施形態については、 実施形態 2 の構成に同様 の発明が適用される こ とによ って構成されて も よい。
[実施形態 7 ]
本実施形態の構成は、 既述の実施形態 1 〜実施形態 6 の構成の何 れと同じであって も よい。
図 1 1 は、 実施形態 7 および実施形態 8 の動作フ ローチャー トで ある。
以下、 図 3、 図 5 および図 1 1 を参照して、 本実施形態の動作を 説明する。
本実施形態の特徴は、 既述の識別確度判定部 2 2 、 2 2 A〜 2 2 Dの何れかによ つて行われる下記の処理の手順にある。
なお、 以下では、 簡単のため、 識別確度判定部 2 2 、 2 2 A〜 2 2 Dの内、 識別確度判定部 2 2 のみに着目する こ と とする。
識別確度判定部 2 2 は、 新たな識別確度 R t が求められて も、 そ の識別確度 R t をメ モ リ 2 3 に直接格納せず、 時系列の順に所定の 重み付けを行いつつ積分する こ とによ って得ら れた積分値 (以下、 「積分識別確度 R I t 」 とい う 。) を求め (図 1 1 ( 1 ) )、 その積分 識別確度 R I t を識別確度 R t に代えてメ モ リ に格納する (図 1 1 ( 2 ) )。
このよ う な積分の過程では、 時系列の順に求められた識別確度 R t に伴い得る急峻な変動の成分は、 上述した重み付けに適用された 重みに応じて軽減され、 あるいは抑圧される。
したがって、 本実施形態によれば、 音声信号に伴い得る多様な騒 音に対する柔軟な適応が可能とな り、 かつ実施形態 1 〜実施形態 6 の何れについて も、 本発明が適用される こ とによって、 性能の安定 ィ匕が図られる。
なお、 本実施形態では、 上述した重みだけではな く 、 積分を実現 する算術演算の形態やアルゴ リ ズムが具体的に示されていない。
しか し、 このよ う な算術演算の過程では、 先行して所定の数 C に 豆って得られた識別確度 R t に移動平均法、 指数平滑法その他の如 何なるアルゴ リ ズムおよび重みによる積分処理が行われて も よい。
[実施形態 8 ]
本実施形態の構成は、 既述の実施形態 1 〜 7 の構成と基本的に同 じである。
以下、 図 3、 図 5 および図 1 1 を参照して本実施形態の動作を説 明する。
本実施形態の特徴は、 識別確度判定部 2 2 , 2 1 A〜 2 2 Dが行 う下記の処理の手順にある。
本実施形態と既述の実施形態 7 との相違点は、 識別確度判定部 2 2 , 2 1 A〜 2 2 Dが下記の処理を行う点にある。
なお、 以下では、 簡単のため、 識別確度判定部 2 2 、 2 2 A〜 2 2 Dの内、 識別確度判定部 2 2 のみに着目する こ と とする。
識別確度判定部 2 2 は、 新たな積分識別確度 R I t が求めら れて も、 メ モ リ 2 3 は、 その積分識別確度 R I t を直接格納 しない。
さ ら に、 識別確度判定部 2 2 は、 新たな積分識別確度 R I t が求 められる と、 その積分識別確度 R I t を内部に備え られた レ ジス夕 (図示されない。) に保持する (図 1 l ( a ) )。
また、 識別確度判定部 2 2 は、 この積分識別確度 R I t が後述す る閾値 R I th を上回る か否かを判別 し (図 1 1 ( b ) )、 その判別の 結果を示す 2値情報 R B t をその積分識別確度 R I t に代えてメ モ リ 2 3 に格納する (図 1 1 ( c ) )。
さ ら に、 識別確度判定部 2 2 は、 下記の処理を行う こ とによ って、 後続して与え られる音声フ レームに施される同様の処理に適用され るべき閾値 R I th を確定する (図 1 1 ( d ) )。
• 上述した レ ジス夕 に保持された積分識別確度 R I t の値が大 きいほど、 小さな値に設定する。
· 反対に、 その積分識別確度 R I t の値が小さいほど、 大きな 値に設定する。
すなわち、 識別確度 R t 、 積分識別確度 R I t に代えて、 メ モ リ 2 3 を介して最終判定部 2 4 あるいは識別条件調整部 3 1 に与え ら れるべき 2 値情報 R B t の論理値は、 先行 して与え られた音声フ レ —ムの品質が高く 、 あるいはその品質が高かった時間率が大きいほ ど、 後続して与え られる音声フ レームが有音区間と して識別される 確率が高 く なる値に設定される。
したがって、 本実施形態によれば、 実施形態 1 〜実施形態 7 に比 ベて、 有音区間が無音区間と して識別される こ とに起因する伝送品 質の低下が確度高く 回避される。
なお、 上述した各実施形態では、
• 有音/無音識別部 2 1、 2 1 Aが求める 2値情報 I t;、 • 識別確度判定部 2 2、 2 2 A〜 2 2 Dが求める 2値の識別確 度 R t、 積分識別確度 R I t および 2値情報 R I tの何れか、 · 最終判定部 2 4 によって送受信部 4 3 に与え られる 2 値信号 の値、
の何れも が 2値情報となっている。
しかし、 これらの値については、 既述の目的が達成される限 り、 多値の情報と して与え られ、 かつ閾値との大小関係の判別に代えて 量子化が行われ、 あるいは適宜重み付けが施されて も よい。
さ ら に、 上述した各実施形態では、 無線伝送系の送信部に本発明 が適用されている。
しかし、 本発明は、 このよ う な無線伝送系に限定されず、 有線伝 送系の送信部、 あるいは音声に応答して所定の処理 (パターン認識 を含む。) や動作を行う多様な電子機器にも同様に適用が可能であ る。
以下、 既述の実施形態と して開示された発明の内、 請求の範囲 1 ないし請求の範囲 2 1 と して記載された発明以外の発明を順次 「追 加開示請求の範囲」 と して列記する。
なお、 下記の各 「追加開示請求の範囲」 の原理ブロ ッ ク図は、 図 1および図 2 に示す通りである。
(追加開示請求の範囲 1 )
請求の範囲 7ない し請求の範囲 1 2の何れか 1項に記載の音声検 出装置において、
品質監視手段 1 2 、 1 6 は、
音声フ レーム毎に、 個別に含まれる音声信号の瞬時値の先頭値を 求め、 その音声信号の振幅分布を近似する確率密度関数に、 これら の瞬時値の数と先頭値が出現する確率とを適用するこ とによって、 この確率密度関数の標準偏差で正規化された振幅を算出する と共に その振幅と先頭値との比と して標準化確率変数を求める
こ とを特徴とする音声検出装置。
(追加開示請求の範囲 2 )
請求の範囲 1 ない し請求の範囲 1 8 および追加開示請求の範囲 1 の何れか 1項に記載の音声検出装置において、
PP質監視手段 1 2 、 1 6 は、
得られた音声信号の品質を順次積分し、 その結果を正規の品質と して適用する
こ とを特徴とする音声検出装置。
(追加開示請求の範囲 3 )
請求の範囲 1 ない し請求の範囲 1 8 および追加開示請求の範囲 1 2 の何れか 1項に記載の音声検出装置において、
品質監視手段 1 2 、 1 6 は、
得られた音声信号の品質を順次積分し、 その結果の単調増加関数 あるいは単調非減少関数と して得られる値をこの品質と して適用す る
こ とを特徴とする音声検出装置。
以下、 追加開示請求の範囲 1 〜 3 の作用 · 効果を順次記述する。 追加開示請求の範囲 1 にかかわる音声検出装置では、 品質監視手 段 1 2、 1 6 は、 音声フ レーム毎に、 個別に含まれる音声信号の瞬 時値の先頭値を求め、 その音声信号の振幅分布を近似する確率密度 関数に、 これらの瞬時値の数と先頭値が出現する確率と を適用する こ とによって、 この確率密度関数の標準偏差で正規化された振幅を 算出する と共に、 その振幅と先頭値との比と して標準化確率変数を 求める。
このよ う な音声検出装置では、 上述した標準化確率変数は、 既述 の第 5 の音声検出装置に比べて、 簡便な算術演算に基づいて求めら したがって、 上述した第五の音声検出装置に比べて、 所望の応答 性が得られるために確保されるべき処理量の削減、 ある いはその応 答性の向上が可能となる。
追加開示請求の範囲 2 にかかわる音声検出装置では、 品質監視手 段 1 2、 1 6 は、 得 られた音声信号の品質を順次積分 し、 その結果 を正規の品質と して適用する。
このよ う な音声検出装置では、 時系列の順に得られた音声信号の 品質に伴い得る急峻な変動の成分が軽減され、 あるいは抑圧される( したがって、 本発明にかかわる音声検出装置は、 音声信号に伴い 得る多様な騒音に柔軟に適応し、 かつ性能の安定化が図 られる。
追加開示請求の範囲 3 にかかわる音声検出装置では、 品質監視手 段 1 2、 1 6 は、 得 られた音声信号の品質を順次積分し、 その結果 の単調増加関数ある いは単調非減少関数と して得られる値をこの品 質と して適用する。
このよ う な音声検出装置では、 先行 して与え られた音声フ レーム の品質が高 く 、 あるいはその品質が高かった時間率が大きいほど、 後続して与え られる音声フ レームが有音区間である確度が大きな値 で得られる。 産業上の利用の可能性
本発明にかかかわる第 1 、 第 2 および第 3 の音声検出装置では、 有音区間の内、 例えば、 子音区間のよ う に音声信号の振幅が小さな 領域に多 く 分布する区間については、 その子音区間における音声信 号の品質が低い場合であって も、 有音区間である こ とを示す確度が 大きな値で得られる。
本発明にかかわる第 4の音声検出装置では、 第 1 ない し第 3 の音 声検出装置に比べて、 音声フ レーム毎に有音区間である確度が精度 よ く得られる。
本発明にかかわる第 5 の音声検出装置では、 第 1 ない し第 3 の音 声検出装置に比べて、 処理量が削減され、 あるいは応答性が高めら ォしる o
本発明にかかわる第 6 および第 7 の音声検出装置では、 大きなレ ベルの雑音が重畳し、 かつ S N比が小さい音声フ レーム について も 有音区間に属する こ とを示す確度が大きな値で得られる。
本発明にかかわる第 1 ない し第 3 の音声検出方法では、 有音区間 の内、 例えば、 子音区間のよ う に音声信号の振幅が小さな領域に多 く 分布する 区間については、 その子音区間における音声信号の品質 が低い場合であって も、 有音区間である こ と を示す確度が大きな値 で得られる。
したがって、 これらの発明が適用された通信機器その他の電子機 器では、 音声信号を発する音響一電気変換手段が配置される音響的 な環境、 あるいはその音響信号の情報源の特性や性能に柔軟に適応 しつつ、 こ の音声信号の有音区間と無音区間との峻別が確度高 く 、 安定に実現され、 その峻別の結果に適応 した所望の性能の達成と、 資源の有効利用 とが的確に図られる。

Claims

請求の範囲
( 1 ) 音声信号と して時系列の順に与え られる音声フ レーム毎に、 その音声信号の統計的な性質に基づいて有音区間に属する確率を求 める区間推定手段と、
前記音声フ レーム毎に前記音声信号の品質を監視する品質監視手 段と、
前記音声信号と して時系列の順に与え られる個々の フ レームにつ いて、 前記区間推定手段によって求められた確率に、 前記品質監視 手段によ って監視された品質を重み付け、 前記有音区間である確度 を得る区間判定手段と
を備えた こ とを特徴とする音声検出装置。
( 2 ) 音声信号と して時系列の順に与え られる音声フ レーム毎に、 その音声信号の統計的な性質に基づいて有音区間に属する確度を求 める区間判定手段と、
前記音声フ レーム毎に前記音声信号の品質を監視する品質監視手 段とを備え、
前記区間判定手段は、
前記音声フ レーム毎に、 個別に含まれる前記音声信号の瞬時値の 列に、 前記品質監視手段によって監視された品質の単調減少関数あ るいは単調非増加関数と して与え られる重みによる重み付けを行う こ とを特徴とする音声検出装置。
( 3 ) 時系列の順に与え られる個々の音声フ レ ームについて、 圧伸 処理を施し、 その結果と して得られた音声信号の瞬時値の列をその 音声信号の統計的な性質に基づいて解析する こ とによ って、 有音区 間に属する確度を求める区間判定手段と、
前記音声フ レーム毎に前記音声信号の品質を監視する品質監視手 段とを備え、
前記区間判定手段は、 前記音声フ レーム毎に、 前記品質監視手段に よって監視された品 質の単調減少関数と して与え られる圧伸特性を前記圧伸処理に適用 する
こ と を特徴とする音声検出装置。
( 4 ) 請求の範囲 1 に記載の音声検出装置において、
品質監視手段は、
音声信号の有音区間と無音区間との双方または何れか一方につい てその音声信号の特徴を求め、 これらの特徴の何れか一方も し く は 両者の差分と して この音声信号の品質を得る
こ とを特徴とする音声検出装置。
( 5 ) 請求の範囲 2 に記載の音声検出装置において、
品質監視手段は、
音声信号の有音区間と無音区間との双方または何れか一方につい てその音声信号の特徴を求め、 これらの特徴の何れか一方も し く は 両者の差分と して この音声信号の品質を得る
こ とを特徴とする音声検出装置。
( 6 ) 請求の範囲 3 に記載の音声検出装置において、
品質監視手段は、
音声信号の有音区間と無音区間との双方または何れか一方につい てその音声信号の特徴を求め、 これらの特徴の何れか一方も し く は 両者の差分と して この音声信号の品質を得る
こ とを特徴とする音声検出装置。
( 7 ) 請求の範囲 1 に記載の音声検出装置において、
品質監視手段は、
音声フ レーム毎に、 雑音推定パワーを求め、 その雑音推定パワー の単調非増加関数と して音声信号の品質を得る
こ とを特徴とする音声検出装置。
( 8 ) 請求の範囲 2 に記載の音声検出装置において、
品質監視手段は、 音声フ レ ーム毎に、 雑音推定パワーを求め、 その雑音推定パワー の単調非増加関数と して音声信号の品質を得る
こ と を特徴とする音声検出装置。
( 9 ) 請求の範囲 3 に記載の音声検出装置において、
品質監視手段は、
音声フ レーム毎に、 雑音推定パワーを求め、 その雑音推定パワー の単調非増加関数と して音声信号の品質を得る
こ と を特徴とする音声検出装置。
( 1 0 ) 請求の範囲 1 に記載の音声検出装置において、
品質監視手段は、
音声フ レーム毎に、 雑音推定パワーと S N比の推定値とを求め、 前者の単調非増加関数と、 後者の単調非減少関数と して音声信号の 品質を得る
こ とを特徴とする音声検出装置。
( 1 1 ) 請求の範囲 2 に記載の音声検出装置において、
品質監視手段は、
音声フ レーム毎に、 雑音推定パワーと S N比の推定値とを求め、 前者の単調非増加関数と、 後者の単調非減少関数と して音声信号の 品質を得る
こ とを特徴とする音声検出装置。
( 1 2 ) 請求の範囲 3 に記載の音声検出装置において、
品質監視手段は、
音声フ レーム毎に、 雑音推定パワーと S N比の推定値とを求め、 前者の単調非増加関数と、 後者の単調非減少関数と して音声信号の 品質を得る
こ とを特徴とする音声検出装置。
( 1 3 ) 請求の範囲 1 に記載の音声検出装置において、
品質監視手段は、
音声フ レーム毎に、 標準化確率変数を求め、 その標準化確率変数 の単調減少関数と して音声信号の品質を得る
こ と を特徴とする音声検出装置。
( 1 4 ) 請求の範囲 2に記載の音声検出装置において、
品質監視手段は、
音声フ レーム毎に、 標準化確率変数を求め、 その標準化確率変数 の単調減少関数と して音声信号の品質を得る
こ と を特徴とする音声検出装置。
( 1 5 ) 請求の範囲 3 に記載の音声検出装置において、
品質監視手段は、
音声フ レーム毎に、 標準化確率変数を求め、 その標準化確率変数 の単調減少関数と して音声信号の品質を得る
こ とを特徴とする音声検出装置。
( 1 6 ) 請求の範囲 1 に記載の音声検出装置において、
品質監視手段は、
音声フ レーム毎に、 標準化確率変数と S N比の推定値とを求め、 前者の単調非増加関数と、 後者の単調非減少関数と して音声信号の 品質を得る
こ とを特徴とする音声検出装置。
( 1 7 ) 請求の範囲 2 に記載の音声検出装置において、
品質監視手段は、
音声フ レ ーム毎に、 標準化確率変数と S N比の推定値とを求め、 前者の単調非増加関数と、 後者の単調非減少関数と して音声信号の 品質を得る
こ とを特徴とする音声検出装置。
( 1 8 ) 請求の範囲 3に記載の音声検出装置において、
品質監視手段は、
音声フ レーム毎に、 標準化確率変数と S N比の推定値と を求め、 前者の単調非増加関数と、 後者の単調非減少関数と して音声信号の 品質を得る こ と を特徴とする音声検出装置。
( 1 9 ) 音声信号と して時系列の順に与え られる音声フ レーム毎に その音声信号の統計的な性質に基づいて有音区間に属する確率を求 め、
前記音声フ レーム毎に前記音声信号の品質を監視し、
前記音声信号と して時系列の順に与え られる個々の フ レームにつ いて、 前記求められた確率に、 前記監視された品質を重み付け、 前 記有音区間である確度を得る
こ とを特徴とする音声検出方法。
( 2 0 ) 音声信号と して時系列の順に与え られる音声フ レーム毎に その音声信号の統計的な性質に基づいて有音区間に属する確度を求 め、
前記音声フ レーム毎に前記音声信号の品質を監視し、
前記音声フ レーム毎に、 個別に含まれる前記音声信号の瞬時値の 列に、 前記監視された品質の単調減少関数あるいは単調非増加関数 と して与え られる重みによ る重み付けを行う
こ とを特徴とする音声検出方法。
( 2 1 ) 時系列の順に与え られる個々の音声フ レームについて、 圧 伸処理を施し、 その結果と して得られた音声信号の瞬時値の列をそ の音声信号の統計的な性質に基づいて解析する こ とによ って、 有音 区間に属する確度を求め、
前記音声フ レーム毎に前記音声信号の品質を監視し、
前記音声フ レーム毎に、 前記監視された品質の単調減少関数と し て与え られる圧伸特性を前記圧伸処理に適用する
こ とを特徴とする音声検出方法。
PCT/JP1999/006539 1999-11-24 1999-11-24 Procede et appareil de detection vocale WO2001039175A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP1999/006539 WO2001039175A1 (fr) 1999-11-24 1999-11-24 Procede et appareil de detection vocale
JP2001540759A JP3878482B2 (ja) 1999-11-24 1999-11-24 音声検出装置および音声検出方法
US10/112,470 US6490554B2 (en) 1999-11-24 2002-03-28 Speech detecting device and speech detecting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1999/006539 WO2001039175A1 (fr) 1999-11-24 1999-11-24 Procede et appareil de detection vocale

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US10/112,470 Continuation US6490554B2 (en) 1999-11-24 2002-03-28 Speech detecting device and speech detecting method

Publications (1)

Publication Number Publication Date
WO2001039175A1 true WO2001039175A1 (fr) 2001-05-31

Family

ID=14237370

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/006539 WO2001039175A1 (fr) 1999-11-24 1999-11-24 Procede et appareil de detection vocale

Country Status (3)

Country Link
US (1) US6490554B2 (ja)
JP (1) JP3878482B2 (ja)
WO (1) WO2001039175A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1744304A2 (en) 2003-07-31 2007-01-17 Fujitsu Limited Data embedding device and data extraction device
JP2007094388A (ja) * 2005-09-26 2007-04-12 Samsung Electronics Co Ltd 音声区間検出装置及び音声区間検出方法
JP2007122047A (ja) * 2005-10-28 2007-05-17 Samsung Electronics Co Ltd 音声信号検出システム及び方法
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
JP2010035001A (ja) * 2008-07-30 2010-02-12 Fujitsu Ltd クリップ検出装置及び方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US6765971B1 (en) * 2000-08-08 2004-07-20 Hughes Electronics Corp. System method and computer program product for improved narrow band signal detection for echo cancellation
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
EP1391106B1 (en) 2001-04-30 2014-02-26 Polycom, Inc. Audio conference platform with dynamic speech detection threshold
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7343291B2 (en) 2003-07-18 2008-03-11 Microsoft Corporation Multi-pass variable bitrate media encoding
US7383180B2 (en) 2003-07-18 2008-06-03 Microsoft Corporation Constant bitrate media encoding techniques
US20060018457A1 (en) * 2004-06-25 2006-01-26 Takahiro Unno Voice activity detectors and methods
US20060136201A1 (en) * 2004-12-22 2006-06-22 Motorola, Inc. Hands-free push-to-talk radio
US20060184363A1 (en) * 2005-02-17 2006-08-17 Mccree Alan Noise suppression
WO2006104555A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
US8325800B2 (en) 2008-05-07 2012-12-04 Microsoft Corporation Encoding streaming media as a high bit rate layer, a low bit rate layer, and one or more intermediate bit rate layers
US8379851B2 (en) 2008-05-12 2013-02-19 Microsoft Corporation Optimized client side rate control and indexed file layout for streaming media
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
US7925774B2 (en) 2008-05-30 2011-04-12 Microsoft Corporation Media streaming using an index file
JP4327888B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
US8265140B2 (en) 2008-09-30 2012-09-11 Microsoft Corporation Fine-grained client-side control of scalable media delivery
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法
GB0919672D0 (en) 2009-11-10 2009-12-23 Skype Ltd Noise suppression
WO2012020717A1 (ja) * 2010-08-10 2012-02-16 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
US10332543B1 (en) * 2018-03-12 2019-06-25 Cypress Semiconductor Corporation Systems and methods for capturing noise for pattern recognition processing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5788497A (en) * 1980-11-21 1982-06-02 Hitachi Ltd Recognizer for sound
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section
EP0439073A1 (en) * 1990-01-18 1991-07-31 Matsushita Electric Industrial Co., Ltd. Voice signal processing device
JPH04340598A (ja) * 1991-05-16 1992-11-26 Ricoh Co Ltd 音声認識装置
JPH05130067A (ja) * 1991-10-31 1993-05-25 Nec Corp 可変閾値型音声検出器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5509102A (en) * 1992-07-01 1996-04-16 Kokusai Electric Co., Ltd. Voice encoder using a voice activity detector
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6104993A (en) * 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
EP0867856B1 (fr) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US6321194B1 (en) * 1999-04-27 2001-11-20 Brooktrout Technology, Inc. Voice detection in audio signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5788497A (en) * 1980-11-21 1982-06-02 Hitachi Ltd Recognizer for sound
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section
EP0439073A1 (en) * 1990-01-18 1991-07-31 Matsushita Electric Industrial Co., Ltd. Voice signal processing device
JPH04340598A (ja) * 1991-05-16 1992-11-26 Ricoh Co Ltd 音声認識装置
JPH05130067A (ja) * 1991-10-31 1993-05-25 Nec Corp 可変閾値型音声検出器

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8340973B2 (en) 2003-07-31 2012-12-25 Fujitsu Limited Data embedding device and data extraction device
US7974846B2 (en) 2003-07-31 2011-07-05 Fujitsu Limited Data embedding device and data extraction device
EP1744304A2 (en) 2003-07-31 2007-01-17 Fujitsu Limited Data embedding device and data extraction device
US7711558B2 (en) 2005-09-26 2010-05-04 Samsung Electronics Co., Ltd. Apparatus and method for detecting voice activity period
JP2007094388A (ja) * 2005-09-26 2007-04-12 Samsung Electronics Co Ltd 音声区間検出装置及び音声区間検出方法
US7739107B2 (en) 2005-10-28 2010-06-15 Samsung Electronics Co., Ltd. Voice signal detection system and method
JP4545729B2 (ja) * 2005-10-28 2010-09-15 三星電子株式会社 音声信号検出システム及び方法
JP2007122047A (ja) * 2005-10-28 2007-05-17 Samsung Electronics Co Ltd 音声信号検出システム及び方法
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
JP5446874B2 (ja) * 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
US8694308B2 (en) 2007-11-27 2014-04-08 Nec Corporation System, method and program for voice detection
JP2010035001A (ja) * 2008-07-30 2010-02-12 Fujitsu Ltd クリップ検出装置及び方法
US8392199B2 (en) 2008-07-30 2013-03-05 Fujitsu Limited Clipping detection device and method

Also Published As

Publication number Publication date
US20020138255A1 (en) 2002-09-26
JP3878482B2 (ja) 2007-02-07
US6490554B2 (en) 2002-12-03

Similar Documents

Publication Publication Date Title
WO2001039175A1 (fr) Procede et appareil de detection vocale
US6993481B2 (en) Detection of speech activity using feature model adaptation
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
JP5905608B2 (ja) 背景雑音の存在下でのボイスアクティビティ検出
EP0548054B1 (en) Voice activity detector
US9047878B2 (en) Speech determination apparatus and speech determination method
RU2251750C2 (ru) Обнаружение активности сложного сигнала для усовершенствованной классификации речи/шума в аудиосигнале
US8380494B2 (en) Speech detection using order statistics
CN102194452B (zh) 复杂背景噪声中的语音激活检测方法
US9959886B2 (en) Spectral comb voice activity detection
EP1229520A2 (en) Silence insertion descriptor (sid) frame detection with human auditory perception compensation
JP3255584B2 (ja) 有音検知装置および方法
JPH09212195A (ja) 音声活性検出装置及び移動局並びに音声活性検出方法
JP2006079079A (ja) 分散音声認識システム及びその方法
JP2008058983A (ja) 音声コーディングにおける雑音のロバストな分類のための方法
TWI807012B (zh) 有計算效率的語音分類器及相關方法
US11240609B2 (en) Music classifier and related methods
KR100976082B1 (ko) 잡음 환경들에 대한 음성 활동도 검출기 및 검증기
JP4601970B2 (ja) 有音無音判定装置および有音無音判定方法
Craciun et al. Correlation coefficient-based voice activity detector algorithm
JPH08221097A (ja) 音声成分の検出法
US7672839B2 (en) Detecting audio signal activity in a communications system
US6539350B1 (en) Method and circuit arrangement for speech level measurement in a speech signal processing system
Asgari et al. Voice activity detection using entropy in spectrum domain
WO1988007738A1 (en) An adaptive multivariate estimating apparatus

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 10112470

Country of ref document: US