WO2000046788A1 - Systeme de traitement de donnees - Google Patents

Systeme de traitement de donnees Download PDF

Info

Publication number
WO2000046788A1
WO2000046788A1 PCT/JP1999/000493 JP9900493W WO0046788A1 WO 2000046788 A1 WO2000046788 A1 WO 2000046788A1 JP 9900493 W JP9900493 W JP 9900493W WO 0046788 A1 WO0046788 A1 WO 0046788A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
numerical
gaussian distribution
feature
access
Prior art date
Application number
PCT/JP1999/000493
Other languages
English (en)
French (fr)
Inventor
Motohito Nakagawa
Hideo Maejima
Original Assignee
Hitachi, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi, Ltd. filed Critical Hitachi, Ltd.
Priority to AU21865/99A priority Critical patent/AU2186599A/en
Priority to JP2000597789A priority patent/JP3796121B2/ja
Priority to PCT/JP1999/000493 priority patent/WO2000046788A1/ja
Publication of WO2000046788A1 publication Critical patent/WO2000046788A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Definitions

  • the present invention relates to a speech recognition technology using a continuous distribution Hidden Markov Model (HMM) using a Gaussian mixture distribution, and also to an output probability calculation technology therefor.
  • HMM Hidden Markov Model
  • the present invention relates to a technology that is effective when applied to a battery-driven portable information terminal device having a data processor for performing arithmetic processing.
  • the hidden Markov model is a state transition model represented by a Markov process (a stochastic process in which the state at time t + 1 is given only by the state at time n).
  • This hidden Markov model can be applied to speech recognition technology.
  • C An overview of this speech recognition technology will be explained in an easy-to-understand manner.
  • the target speech is divided into sub-intervals (frames) such as 10 ms, and feature vectors such as frequency spectrum are extracted for each frame.
  • a chain of sounds to be recognized is regarded as a chain of states for each frame. If each state can be determined so that a sound source approximating the feature vector can be assigned to each state, speech recognition will be realized.
  • the output probabilities that represent the likelihood (likelihood) that each state is comparable to the feature vector for various sound sources, and the state transition that indicates the probability that the current state changes to the next state Probability is adopted, and a speech recognition result can be obtained using a chain of states in which the total sum of the states of the product of the output probability and the state transition probability for each state is the largest.
  • the output probabilities are given by a mixed multidimensional Gaussian distribution.
  • the mixed multidimensional Gaussian distribution has, for example, a stochastic distribution for each element such as age and gender for the phoneme “A”, and each stochastic distribution has the order of the feature vector. It consists of a multidimensional Gaussian distribution corresponding to, and each multidimensional Gaussian distribution is a probability distribution that combines a one-dimensional Gaussian distribution. Therefore, the larger the number of mixtures and the order in the mixed multidimensional Gaussian distribution, the longer it takes to calculate the output probability. According to the inventor's estimation, the calculation load of the output probability may be enormous, such as 50 to 80% of the entire speech recognition processing.
  • Vector quantization is a method that considers a finite number of representative vectors in the feature space, and approximates an arbitrary point in the feature space by the representative vector closest to the point.
  • the table can be configured by vector quantization.
  • the output probability is reduced by vector quantization. If this is done, the quantization error will increase and the recognition performance will degrade.
  • Scalar quantization is adopted for such a method.
  • scalar quantization for example, there is a method of tabulating a single Gaussian distribution. In this case, unlike vector quantization, the quantization error is small.
  • non-linear scalar quantization can be adopted.
  • the feature order of the feature vector extends over several tens of dimensions, and it is not efficient to tabulate all single Gaussian distributions for each dimension of the mixed multidimensional Gaussian distribution. It is something to try.
  • the function for each dimension is a single one-dimensional normal distribution (single Gaussian distribution), which can be used to simplify the calculation of output probabilities.
  • the correlation of the one-dimensional normal distribution which will differ for each feature order and mixture, can be specified if the average and variance of each distribution are known.
  • a parameter is calculated for each feature order, and the calculated parameter and the characteristic component of the feature vector are used to calculate the typical one-dimensional normal distribution values. Access the table. Techniques for reducing the computational complexity of a mixed HMM by accessing a numerical table using such nonlinear force quantization are described in, for example, "ON THE USE OF SCALAR QUANTIZATION FOR FAST HMM COMPUTATION", ICASSP 95 , Pp.213-216.
  • the parameter calculation must be performed for each feature component for accessing the table, and the parameter calculation calculated as described above is used when referring to the table. Since access does not always result in continuous array access to the table, address operations for referencing the table also require multiplication and addition each time.
  • linear scalar quantization to which general linear quantization is applied may be performed. That is, the features are quantized at equal intervals. For example, if the data table with a single Gaussian distribution is divided into 2 N powers for easy quantization, the quantization can be easily performed by extracting the upper N bits of the feature component.
  • the representative point is fixed, so the linear scalar quantization processing for the mixed multidimensional Gaussian distribution may be performed once for each frame. In other words, it may be performed once for each characteristic dimension.
  • the difference between the head address and the desired address in the numerical table (hereinafter, offset) is the index X data length, which is also common to all distributions. Therefore, such calculations need only be performed once per frame.
  • the necessary access to the numerical table can be calculated by the sum of the address of each numerical table and the offset common to all the characteristic components. Therefore, one addition and two loads (top Address and numerical data).
  • linear scalar quantization is very fast in terms of computational efficiency, but requires a numerical table for each distribution for fixed representative points. Therefore, it is said that the number of numerical tables or the amount of data will be enormous. There is a big problem. Also, if the parameters (mean 'variance) of the mixed Gaussian distribution are modified for speaker adaptation processing or noise adaptation processing, the amount of computation involved will be enormous, and a large amount of modification will be required to modify the numerical table. Processing is required.
  • An object of the present invention is to provide a data processing system that can calculate the output probability of the HMM at a high speed, and can flexibly cope with model modification such as speaker adaptation and environment adaptation, and a method of calculating a mixed Gaussian HMM output probability. Is to do.
  • Another object of the present invention is to provide a data processing system having a relatively low arithmetic processing capability, such as a portable information terminal device or a data processing system driven by a battery, and a data processing system in which low-cost requirements are severe. Even so, an object of the present invention is to provide a data processing system capable of realizing a high-speed output probability calculation and a high-speed processing for changing a multidimensional Gaussian distribution by adaptation.
  • a mixed multidimensional Gaussian distribution is The sum is the Gaussian distribution, and the multidimensional Gaussian distribution is the product of the one-dimensional Gaussian distributions for each feature component.
  • the feature component is the component of the feature vector that is the observation system of the speech to be recognized.
  • the variance and mean of the one-dimensional Gaussian distribution for each feature component are unique to each feature component.
  • the numerical table (1052) stores numerical values of respective distributions based on a plurality of types of one-dimensional Gaussian distributions having representative variances and averages.
  • Linear scalar quantization is used for the feature components, and the information on the intermediate table is referred to using the quantization value as an index.
  • each intermediate table stores address information indicating the location of a numerical value on a numerical table relating to a one-dimensional Gaussian distribution corresponding to a required variance and average.
  • the variance or mean of the one-dimensional Gaussian distribution is changed by adaptation, the contents of the intermediate table are rewritten according to the location of the numerical data of the one-dimensional Gaussian distribution corresponding to the changed variance or mean.
  • the global table has storage areas in the form of a matrix in the X and Y directions, as shown in Fig. 17, and each array in the X direction has a corresponding one-dimensional Gaussian distribution on a numerical tuple. It is an array of address information indicating the location of the numerical values.
  • the variances of the one-dimensional Gaussian distribution in each X-direction array are different from each other, and the average is unified, for example, at the center of the distribution.
  • the variance value of the one-dimensional Gaussian distribution is considered when selecting the ⁇ method for the global table, and the average value of the one-dimensional Gaussian distribution is considered when selecting the head position in the X direction.
  • Global table Y position and X direction top position thus, the intermediate table starting from the head position in the X direction can be extracted.
  • the access to the extracted intermediate table uses the quantized value of the characteristic component as an offset from the head position, as described above.
  • the head position in the X direction when extracting the intermediate table may be changed.
  • the head address of the intermediate table to be extracted for each feature component may be indicated by an access pointer (P0 to Pn).
  • the value of the access boyne can be calculated in advance according to the variance (B) and the average (B).
  • the access-bore values can be modified in accordance with the variance and average corrections.
  • the access pointers for each feature component can be collected in advance in an access pointer template (420) for each multidimensional Gaussian distribution.
  • linear scalar quantization is adopted to avoid correction of mean and variance while avoiding complicated parameter operations for referring to numerical tables for each feature component.
  • An intermediate table was used to control the access pattern of the numerical table according to the linearly quantized feature component.
  • linear scalar quantization guarantees high-speed lookup of numerical tables, and is similar to nonlinear scalar quantization. It is possible to reduce the amount of data in the tape.
  • Classification of Index Conversion and Efficiency by Commonization >> If the above configuration is simply realized, rewriting of the numerical table will not occur, but rewriting of the intermediate table will occur instead.
  • Gaussian mixture distribution reduction of the distribution is an effective method to speed up the calculation.
  • the calculation is simplified by providing the intermediate table with a distribution selection function.
  • a multidimensional Gaussian distribution is expressed as a product of a one-dimensional Gaussian distribution in each feature dimension.
  • a numerical table is obtained. Can reduce the unnecessary reference of, and realize the distribution reduction function.
  • a data processor (103) in order to perform HMM speech recognition on a feature vector, includes an intermediate table (301, 302) and a numerical table (310). 1 0 5 2)
  • the output probability represented by the mixed multidimensional Gaussian distribution can be calculated, and the numerical value table (1052) stores the numerical values of the respective distributions based on a plurality of types of one-dimensional Gaussian distributions ( 1 0 5 2 E), and the intermediate table (301, 30 2) has a quantization value in a region selected based on a linear quantization value for a value of a feature component of the feature vector.
  • the data processor linearly quantizes the value of the feature component, and selects an intermediate table according to an access bin (P0 to Pn of 310) for each feature component. Address information is obtained from the selected intermediate table based on the quantized value, a process of referring to a numerical table using the obtained address information is performed, and the output is performed based on the value referred to from the numerical table. Calculate the probability.
  • the multi-dimensional Gaussian distribution of the mixed multidimensional Gaussian distribution has an area for forming an access spawn table (310) in which the access bins for each feature component are arranged.
  • the processor may be configured to select the intermediate table using the access pointer of the access pointer template.
  • the quantized value of the feature component is the upper N bits of the value. This means that it can be quantized by simply shifting the feature components.
  • the data processor calculates the value of the multidimensional Gaussian distribution by repeating the process of referring to the numerical table for each characteristic component, and repeats the process of calculating the value of the multidimensional Gaussian distribution a predetermined number of times.
  • the output probability expressed by the mixed multidimensional Gaussian distribution can be calculated.
  • Distance information for distribution reduction can be stored in the intermediate table.
  • the intermediate table has an area (E 1) for storing the address information in a range of a multiple of the variance starting from an average position of a one-dimensional Gaussian distribution serving as a reference of the numerical value table, and outside the area.
  • the intermediate table has an area (E 3) for storing a fixed value (for example, a value “0”) outside the distance information.
  • a fixed value for example, a value “0”
  • the calculation for the multidimensional Gaussian distribution currently being processed can be stopped.
  • the data processing system can be configured as, for example, a portable information terminal device (120) using a battery (121) as an operation power source. Since a device driven by a battery is required to have low power consumption and can reduce the calculation load of the output probability described above, even if the power consumption is 1 W or less, the data processor can operate at a high speed that can withstand practical use. Recognition processing can be performed.
  • the data processing system specialized in using the global table requires the data processor (103) to perform HMM speech recognition on the feature vector. 0) and the numerical sample (1 0 5 2), the output probability represented by the mixed multidimensional Gaussian distribution is
  • the numerical value table (1052) can be operated, and the numerical value table (1052) stores the numerical value of each distribution based on a plurality of types of one-dimensional Gaussian distributions having the same average and different variances.
  • the global table (400) has an area (400E) for storing a plurality of sets of arrays in the X direction for each distribution in the numerical table in the Y direction.
  • the array in the X direction indicates the location of the value of the numerical value table corresponding to the quantized value at a position selected based on the linear quantized value for the value of the characteristic component of the feature vector. Address information is stored.
  • the data processor linearly quantizes the value of the feature component, and considers the variance in the selection of the ⁇ direction with respect to the plurality of sets in the X direction, and determines the start position of the array in the X direction.
  • the intermediate table (401, 402) is extracted from the global table according to the value of the access bin (P0 to Pn in FIG. 38) for each feature component in which the average is taken into account. Starting from the head position of the extracted intermediate table, the address information is acquired based on the linear quantized value, and a process of referring to the numerical table using the acquired address information is performed. The output probability can be calculated based on the value.
  • the data processor can extract the intermediate table using the access points (P0 to Pn) of the access pointer table (420).
  • the access data table is a table in which the access data for each characteristic component is arranged for each multidimensional Gaussian distribution of the mixed multidimensional Gaussian distribution.
  • the processor may change the access point value of the access point table accordingly. Good. There is no need to modify the contents of the global store itself.
  • the The overnight processor can identify the speaker and use the access point table according to the identification result.
  • the identification of the speaker can be performed based on the state of the switch (1302 SW) that specifies the speaker. For example, in a data processing system that performs one-way communication such as a transceiver, speaker identification can be performed in conjunction with switching between transmission and reception.
  • a management table (500) for associating the access pointer table with the speaker can be employed.
  • the data processor identifies the speaker based on a comparison result between identification feature information registered in advance indicating a speaker characteristic and an actual speech feature analysis result, and the identified speaker is If the speaker is a speaker registered in the management table, the access speaker table of the registered speaker is referred to.
  • the data processor limits the number of speakers that can be registered in the management table to a fixed number, and adds information on the frequency of use for each registered speaker to the management table, and the voice feature analysis result indicates that the registered speaker is a registered speaker.
  • the frequency of use of registered speakers that match the analysis result is incremented, the frequency of use of registered speakers that do not match the analysis result is decremented, and if the speech feature analysis result is other than the registered speaker, the minimum is used. It is also possible to adopt a configuration in which a registered speaker whose use frequency is used is deleted from the management table, and a speaker other than the registered speaker is added to the management table instead.
  • a plurality of voice input systems each of the voice input systems having the access button table, and the data processor independently accessing the plurality of voice input systems. It is also possible to perform speech recognition in parallel by using a table.
  • the data processor performs linear quantization on all feature components of the feature vector, and performs a single distribution of the quantization value and the array in the X direction.
  • the feature offset from the top position of the extracted intermediate table is calculated based on the product of the column element and the address amount, and then, for each multidimensional mixed Gaussian distribution, the feature offset is calculated by using the access data and the feature offset. You can refer to the numerical table by referring to the table. This eliminates the need to redo the feature offset calculation for each mixed multidimensional Gaussian distribution.
  • the output probability calculation control program for voice recognition executed by the data processing system can be provided to the data processing system via a computer-readable recording medium.
  • FIG. 1 is a block diagram showing an example of a speech recognition system using a microcomputer.
  • FIG. 2 is a block diagram showing an example of a microcomputer.
  • FIG. 3 is a flowchart generally showing an outline of a process executed by using the speech recognition device shown in FIG.
  • FIG. 4 is a flowchart showing an outline of the recognition processing.
  • FIG. 5 is an explanatory diagram showing an example of HMM.
  • FIG. 6 is an explanatory diagram showing an example of a left-to-right type HMM model.
  • FIG. 7 is an explanatory diagram showing a three-mixed two-dimensional mixed multidimensional Gaussian distribution as an example of a mixed multidimensional Gaussian distribution.
  • FIG. 8 is an explanatory diagram showing a state in which the two-dimensional feature space is cut along the cross section 1 in FIG. 7 and viewed from the side.
  • FIG. 9 is an explanatory diagram showing the relationship between a numerical table and one-dimensional normal distribution when performing linear scalar quantization.
  • FIG. 10 is an explanatory diagram illustrating the principle of linear scalar quantization.
  • FIG. 11 is an explanatory diagram showing an example of the mean and variance of a one-dimensional Gaussian distribution.
  • FIG. 12 is an explanatory diagram showing a one-dimensional Gaussian distribution in which the mean and the variance are different from those in FIG.
  • FIG. 13 is an explanatory view schematically showing a data structure of an intermediate table for reducing distribution.
  • FIG. 14 is an explanatory diagram showing an example of distance information for distribution reduction in the intermediate table.
  • FIG. 15 is an explanatory diagram showing an example of the arrangement of distribution reduction information in the intermediate table for a single Gaussian distribution.
  • FIG. 16 is a flowchart exemplarily showing the branch of the process according to the value of the intermediate table.
  • FIG. 17 is an explanatory diagram showing an example of the global intermediate table.
  • FIG. 18 is a flowchart showing a detailed example of the calculation process of the output probability.
  • FIG. 19 is a flowchart showing an example of processing for correcting the mean and variance of the Gaussian mixture distribution in the adaptive processing.
  • FIG. 20 is a flowchart generally showing an example of a processing procedure for determining a corresponding intermediate table value for the variance and average of the Gaussian distribution modified by the adaptive processing of FIG. .
  • FIG. 21 is an explanatory diagram showing an example of the appearance of a portable information terminal device to which a system for speech recognition is applied.
  • FIG. 22 is a block diagram showing an example of the portable information terminal device shown in FIG.
  • FIG. 23 is a flowchart showing in detail an example of a processing procedure in the case of performing noise adaptation using two microphones in the portable information terminal.
  • FIG. 24 is a flowchart showing an example of a speech recognition processing procedure in a transceiver type call using a portable information terminal device.
  • FIG. 25 is a flowchart showing an example of a voice recognition processing procedure in a separate call using a portable information terminal device.
  • FIG. 26 is a flowchart showing an example of the procedure of a speech recognition process in a speech recognition system that performs speaker adaptation and noise adaptation.
  • FIG. 27 is a flowchart showing an example of a speech recognition processing procedure in which unsupervised speaker adaptation is performed and the registered speaker is determined according to the frequency of use.
  • FIG. 28 is a flowchart showing an example of a speech recognition processing procedure in which unsupervised speaker adaptation is performed and the number of registered speakers is kept at a constant number according to the frequency of use.
  • FIG. 29 is an explanatory diagram showing an example of the structure of a speaker management table relating to speaker management in identification information for speaker adaptation.
  • FIG. 30 is a flowchart showing an example of processing for correcting and changing the structure of the speaker management table based on frequency information.
  • FIG. 31 is an explanatory diagram showing an example of an operation on a list newly replaced with a speaker management table by initialization.
  • FIG. 32 is an explanatory diagram showing an example of an operation on a list already existing in the speaker management table.
  • FIG. 33 is a flowchart showing the processing procedure of FIGS. 31 and 32.
  • FIG. 34 is an explanatory diagram showing the principle of two-microphone noise adaptation.
  • FIG. 35 is an explanatory diagram showing the principle of speech recognition in a transceiver-type call.
  • FIG. 36 is an explanatory diagram showing the principle of voice recognition in a separate type call.
  • FIG. 37 is an explanatory view showing in principle the operation of correcting the value of the table head address pointer according to the noise adaptation.
  • FIG. 38 is an explanatory diagram showing an example of the structure of the access pointer table for the global table included in the HMM parameter set.
  • FIG. 39 is an explanatory diagram showing an example of the structure of an access point table for an intermediate table included in the HMM parameter set.
  • FIG. 40 is an explanatory diagram summarizing a table access method for probability calculation using a multidimensional Gaussian distribution.
  • FIG. 41 is an explanatory diagram showing the relationship between access to the intermediate table and access to the numerical value table in chronological order.
  • FIG. 42 is an explanatory diagram showing an example of a numerical table of a one-dimensional Gaussian distribution suitable for using a microprocessor that supports floating-point arithmetic.
  • FIG. 43 is an explanatory diagram showing an example of a numerical table of a one-dimensional Gaussian distribution that can be handled by an integer operation.
  • FIG. 5 shows an example of HMM.
  • HMM is a state transition model represented by a Markov process (a stochastic process in which the state at time t + 1 is given only by the state at time n).
  • this state is regarded as a kind of probabilistic “sound source”.
  • the meaning of stochastic is always a certain thing when it exists in this state. It is not always the case that a solid sound is generated, and the probability that various sounds are generated is given. This is generally called output probability.
  • words and sounds are represented by a model that connects these states by giving a semi-order relationship. Specifically, a left-to-right type HMM as shown in FIG. 6 is often used.
  • the state transition for oneself and the state transition for the neighbor are represented stochastically.
  • the utterance pattern in which “a” ends for m frames after “a” continues for n frames can be stochastically expressed (in the form of the generation probability of each pattern). This probability is the transition probability (state transition probability).
  • al (l, l) is the state transition probability that state S1 takes the next same state S1, and & 1 (1,2) Is the state transition probability that state 31 takes the next adjacent state S2.
  • the acoustic characteristics of the utterance “a” differ greatly depending on the age and gender.
  • the utterance patterns of various people are modeled. Can be.
  • This stochastic expression is the output probability.
  • the output probability of Word 1 in state S1 is represented by bl l (y)
  • the output probability of Word 1 in state S2 is represented by bl2 (y).
  • the HMM is a probabilistic model of the human vocal process in order to “express the temporal or acoustic variation of various people's words”. I have no choice. In other words, given a certain observation sequence (analysis result of input speech), the model expressing each word evaluates the probability (likelihood) of obtaining the observation sequence, and the model with the highest likelihood ( Or the word it implies) as a recognition candidate.
  • the model with the highest likelihood is output as a recognition candidate. To do this, it is necessary to calculate the likelihood for each model. To do so, it is necessary to calculate the product of the state transition probability and the output probability for each state, which results in a huge calculation load as a whole. is expected. Therefore, for such an operation, for example, a process using a kind of dynamic programming method called the Viterbi method is performed.
  • the bibybi method selects the path with the highest likelihood (optimal path) from the state transition paths (paths) that exist in multiple paths, and evaluates the path based on the likelihood. This calculation can be performed efficiently as shown in Equation 1.
  • a ⁇ ( ⁇ ) 0 ( ⁇ 1)
  • a ;, ; are the state transition probabilities from state j to state i.
  • b; yi) is the output probability of outputting state ⁇ ⁇ ⁇ ⁇ in state i, and is the value of the corresponding feature order of the feature vector.
  • HI is the forward probability in Uki, State i.
  • this output probability is given by a mixed multidimensional Gaussian distribution. This is referred to herein as a mixed Gaussian HMM.
  • the output probability is given by a function such as the mixed multidimensional Gaussian distribution in Equation 2.
  • Equation 2 representing a mixed multidimensional Gaussian distribution
  • a three-mixed two-dimensional mixed multidimensional Gaussian distribution can be represented as shown in FIG.
  • the 3-mixed two-dimensional Gaussian distribution in FIG. 7 is expressed as shown in Equation 3.
  • FIG. 7 is a diagram in which the three-mixing two-dimensional Gaussian distribution expressed by V (bi;) expression 3 is expressed, for example, in a two-dimensional feature space y1, y2.
  • the mountain of * A is represented by the first item of Equation 3
  • the mountain of * B is represented by the second item of Equation 3
  • the mountain of * C is represented by the third item of Equation 3.
  • This two-dimensional feature space is cut along section 1 in Fig. 7, and the side view is shown in Fig. 8.
  • Equation 2 k is the number of mixtures, is the height of the peak, and the function for each dimension
  • yi is a feature component for each dimension of the feature vector.
  • Equation 2 multiple The fact that there is a mountain is based on the fact that the acoustic characteristics of the same word differ between young and old.
  • Equation 3 In order to speed up the calculation of the Gaussian mixture distribution as shown in Equations 2 and 3, etc., a method of greatly limiting the distribution to be calculated and a method of tabulating a part of the calculation are effective. In addition, for efficiency, the mixed multidimensional Gaussian distribution is often evaluated by logarithmic evaluation. However, the principle is the same in the case of performing integer processing. For example, a method for speeding up the operation of Equation 3 will be described.
  • the feature vectors correspond to some standard patterns (vector quantization), and the output probability is defined for each pattern. A method is possible.
  • Equation 3 For a feature vector that exists in region 1, the value defined by Equation 3 is almost equal to the value of the first item (ie, the second item and the third item). The score can be regarded as almost 0). Therefore, if it is known that the feature exists in region 1, the output probability of equation 3 can be obtained only by the calculation of the first item (that is, the calculation of distribution * A).
  • the feature space is divided into partial regions, and the distributions to be calculated are associated with the partial regions.
  • vector quantization is used for the correspondence between the feature vectors and the partial regions. Is often done.
  • Vector quantization is a method that considers a finite number of representative vectors in the feature space and approximates an arbitrary point in the feature space by the representative vector closest to that point. For example, if the feature space shown in Fig. 7 is represented by three points a, b, and c, the feature vector in region 1 will correspond to a.
  • a representative vector with the minimum distance is selected. For example, by calculating the distance from a representative point such as a, b, c to the value of each feature order, The representative vector with the shortest distance can be selected.
  • This vector quantization requires a small amount of computation as compared to calculating the mixed multidimensional Gaussian distribution as it is, but the computational load is still not small.
  • the table can be configured by vector quantization.
  • the quantization error increases and the recognition performance deteriorates.
  • Equation 4 Equation 4
  • scalar quantization includes nonlinear scalar quantization and linear scalar quantization.
  • the function for each dimension is a single one-dimensional normal distribution, and the characteristics of the distribution can be specified if the mean and variance are known.
  • a numerical table for a typical one-dimensional Gaussian distribution of mean and variance is set up.
  • a numerical table is referred from the evening and the characteristic component.
  • the parameter operation must be performed for each feature component for accessing the table, and the parameter calculated in such a manner must be used when referring to the table. Since access using a table does not necessarily mean access to a continuous array with respect to the table, address operations for referring to the table also require multiplication and addition each time. This technique is described in the above-mentioned document "ON THE USE OF SCALAR QUANTIZATION FOR FAST SAT COMPUTATION", ICASSP 95, pp.
  • linear scalar quantization To obtain the value of the numerical table without performing this calculation, for example, it is possible to perform general linear quantization. This is referred to herein as linear scalar quantization.
  • Figure 9 shows the relationship between the numerical table and the one-dimensional normal distribution when performing linear scalar quantization.
  • linear scalar quantization features are quantized at equal intervals. If the entire distribution is divided into 2 N powers for easy quantization, linear scalar quantization is equivalent to extracting the upper N bits of the feature component.
  • FIG. 1 ⁇ shows the contents of this linear scalar quantization.
  • the representative point of quantization is fixed, so that the quantization process may be performed once for each frame, in other words, for each feature component.
  • the difference between the start address and the desired address (hereinafter, offset) in the numerical table becomes the index X data length, and all the operations are performed.
  • the distribution is the same, and it is sufficient to execute once for each frame.
  • the necessary numeric tables Since the process can be calculated by the sum of the head address of each numerical table and the offset, it is executed by one addition and two loads (head address and numerical data).
  • Equation 3 In calculating the output probability of a mixed Gaussian HMM (Equation 3), it is important to reduce the amount of calculation corresponding to a single Gaussian distribution (including logarithmic system). Such calculation for each feature component is the portion with the largest calculation load in the calculation of the output probability, and the number of calculations is the total number of models (the number of states connected by the number of recognition elements X left to right). (In the example of Fig. 6, 2N) X number of mixtures X number of feature dimensions, so that a trivial increase in computational cost directly leads to an increase in overall computational complexity. In this part, linear scalar quantization is very good from the viewpoint of computational efficiency, since no computation occurs except for table access.
  • a part of the output probability calculation is replaced with access to a one-dimensional normal distribution data table to increase the calculation speed.
  • the amount of data in the table can be reduced. It enables flexible adaptation to speaker adaptation and environmental (noise) adaptation.
  • FIG. 1 shows a block diagram of a speech recognition system according to one embodiment of the present invention.
  • the speech recognition system shown in FIG. 1 includes, but is not limited to, a speech recognition board 101, a microphone 107, and a monitor (display) 108.
  • the voice recognition board 101 can be realized entirely on a one-chip LSI.
  • the monitor 203 is not always necessary when used for, for example, a voice input device.
  • the speech recognition board 101 includes an A / D converter 102, a microprocessor (MPU) 103, a ROM (read only memory) 105, and a RAM (random 'access'). Memory) 106.
  • MPU microprocessor
  • ROM read only memory
  • RAM random 'access'
  • Memory Memory
  • the A / D converter 102 converts the analog audio signal input from the microphone 107 into a digital signal.
  • the ROM 105 is a read-only memory, which stores a program of the speech recognition system and necessary data (for example, a dictionary and HMM parameters).
  • the RAM 106 is a readable / writable memory, and is used as a peak area or a temporary area of the microprocessor 103.
  • FIG. 2 shows a detailed example of the MPU shown in FIG.
  • the MPU 103 is connected to the ROM 105, the RAM 106, the A / D 102, and the VIF 104 via the bus-in interface 118.
  • the operation program of the MPU 103 is sent to the instruction control unit 112 via the instruction cache 110 to be decoded.
  • the MPU 103 performs an arithmetic control operation based on the decoding result.
  • Necessary data can be transferred from the mouthpiece 114 to the Regis evening file 111 via the data cache 117, or from the Regis evening file 111 to the — Sent to cache memory 1 1 7
  • the data stored in the register register 111 is processed by the integer unit 116 for integer arithmetic and the floating-point unit 117 for floating-point numbers, if necessary.
  • the processing result is returned to the registry file 111 again and written to the memory via the storage unit 115. If the data cache 117 in the data access is a cache hit, access to the external memory is not performed, and a read from the data cache 117 or a cache fill for the data cache is performed.
  • the external data memory is accessed, and the required entry is added to the data cache 117 from the external data memory.
  • the instruction access if the instruction cache 110 is a cache hit, the external memory access is not performed, and the instruction is fetched from the instruction cache 110.
  • the external instruction memory is accessed, and the required entry is added to the instruction cache 110 from the external instruction memory.
  • Fig. 3 shows the procedure of the processing performed using the speech recognition device shown in Fig. 1 as the processing from turning on the power to starting up the system to turning off the power and stopping the system.
  • step 201 indicates the start of the process. Specifically, this corresponds to the start of operation of the system instructed by turning on the operation power (power on).
  • the necessary data 250 is read from the ROM 105 in step 202, and is loaded into the RAMI 06 or the data cache 117.
  • ROM 105 can be directly read when necessary without having to expand it to RAM 106 or the like.
  • Steps 203 to 205 are, here, a kind of infinite loop, which is repeated until, for example, an end instruction is executed.
  • the termination is determined in step 205, the system operation is terminated (step 206).
  • the adaptation process step 203 and the recognition process (step 204) are executed as needed.
  • the adaptive processing means a processing for correcting various parameters such as HMM as necessary. For example, taking environmental adaptation as an example, the noise in the noise environment to be used is sampled, and the output probability of HMM is corrected accordingly. In the mixed Gaussian HMM in which the output probability is represented by the above equation 2, it means the correction of the mean and the variance of each mixed Gaussian distribution. Data overnight 252 is data for adaptation, and data overnight 253 is data for recognition.
  • the recognition processing is executed by using the HMM parameters (step 251) subjected to the above-described adaptive processing (step 203) as necessary.
  • voice recognition is performed on the input voice data 25 3 from the microphone 107, and the recognized result 25 4 (for example, text data overnight) is output.
  • FIG. 4 shows an outline of the recognition processing (step 204).
  • the recognition process is started in step 211, first, in step 212, the features of the sample speech 253 are analyzed (feature analysis).
  • the speech waveform is extracted at regular intervals (for example, every 10 ms) in a fixed section (this partial speech section is called a frame). Analyze the nature of the sound). Sound properties can be analyzed, for example, by frequency spectrum (calculated by FFT) or LPC coefficients (calculated by Levinson-Durbin recursion). These are generally called feature vectors because they are generally represented by multiple parameters.
  • FFT frequency spectrum
  • LPC coefficients calculated by Levinson-Durbin recursion
  • the output probability is calculated.
  • the output probability means a probability that each state outputs a sound having a “characteristic”. Therefore, the output probability is expressed as a function of a feature vector indicating “a certain feature”, as described in Equation 2 above.
  • the feature vector is quantized by vector and the output probability is given as a function of the quantization vector (discrete HMM).
  • discrete HMM There is a type HMM), but in the present embodiment, the latter is a method in which the output probability is defined by a Gaussian mixture distribution.
  • the output probability is given by the above equation 2 for each state of each HMM as a function of the feature vector.
  • This output probability calculation can be performed in parallel with the recognition matching (step-by-step search) in step 2-14. However, since the calculation load is large, the matching (search) 2 is performed to avoid duplicate calculations. Prior to 14, the required output probabilities are calculated (step 2 13).
  • the score of each model is calculated from the observation vector sequence obtained in step 2 12 and the output probability 2 56 calculated in step 2 13.
  • the score can be defined, for example, by the (logarithmic) probability that the model shown in FIG. 6 generates a pattern of a given feature vector sequence.
  • the recognition candidate is the model with the highest score.
  • the score of the state transition sequence with the highest probability in each model (hereinafter referred to as the score) is considered as the score of the model, and the score search is performed. It is.
  • FIG. 18 shows further details of the output probability calculation process (step 2 13) in this embodiment.
  • the (logarithmic) probability calculation of a single Gaussian distribution is performed by equally dividing the feature components into partial regions (linear scalar quantization).
  • the calculation result corresponding to this is converted into a numerical table in advance to reduce the calculation load. ing.
  • the advantage of performing linear scalar quantization is that each feature is quantized to the same point for all mixture distributions. That is, since the quantization process is shared by all the distributions, only one frame is required.
  • the offset of the numerical template (difference between the head address of the table to be accessed and the address of the corresponding array element, index and data in general) (Calculated as the product of the length of the night)), so the process of finding the offset in the numerical table only needs to be performed once per frame.
  • the processing required for calculating a single Gaussian distribution (unlike non-linear scalar quantization) becomes possible only with addition (sum of the initial address of the array and offset) and one-dot store. The calculation can be performed in a significantly shorter calculation time than that of the nonlinear quantization.
  • the access pattern is controlled using an intermediate table (intermediate table) in which the access address to the numerical table is set.
  • this intermediate table is provided with information for selection and reduction of distribution, to simplify calculations. The details are described below.
  • Step 1 00 0 means the start of the step 2 13 of the output probability calculation.
  • step 1001 the feature vector analyzed in step 2 12
  • Linear scalar quantization is performed on the torque (both integer and floating-point types are possible), and the offset (hereinafter referred to as feature offset or table offset) is calculated for the value (index).
  • This calculation can be performed by simple calculations. For example, in the case of integer system, the value obtained by linear scalar quantization is divided by the total number of quantizations, and then multiplied by the data length (the data length of one entire array) By processing, the feature offset can be calculated. As explained in Fig.
  • linear quantization can be quantized by obtaining the upper N bits of the feature component if the quantization range is divided into 2 N, so that the quantization If the data length value is in the form of 2 to the Nth power, it can be executed with one right shift.
  • the data length value is in the form of 2 to the Nth power, it can be executed with one right shift.
  • it is converted to an integer type by multiplying by a constant (domain length / quantization number X data length) in the characteristic component.
  • the above-mentioned feature offset is used, and the feature vector is not used for the calculation.
  • This feature offset is represented by the following data.
  • step 1002 an access address of the intermediate table to be accessed for each distribution in each state is obtained from the feature offset obtained in step 1001.
  • the access address of the intermediate table is obtained by adding the start address of the intermediate template defined for each distribution (of course, it differs for each distribution) and the characteristic offset (all common for the same characteristic dimension). Desired.
  • the intermediate tables are shown in FIG. 11 and FIG.
  • the global table 400 can be positioned as a set of many intermediate tables.
  • reference numerals 301 and 302 are examples of intermediate tables.
  • reference numeral 400 denotes an example of a global table.
  • reference numerals 401 and 402 are examples of intermediate tables extracted from the global table 400.
  • the head address of the intermediate tables 401 and 402 is the head position of the data area to be extracted as an intermediate table from the global table 400, for example, P1, P2 is shown.
  • P1, P2 is shown.
  • the calculation is performed using the values of the table 410 storing the average and variance values for each feature component.
  • an access pointer table 420 storing the calculation results in advance can be used.
  • the pointers P0 to Pn of the access data table 420 point to the head positions of the intermediate tables 401 and 402 to be extracted for each feature component.
  • the start address of the intermediate tables 310 and 302 is the individual intermediate table 310.
  • 3 02 means the first address.
  • the head address of the intermediate table to be defined for each feature component is, for example,
  • access pointers P 0 to P n can be defined in the access pointer table 310.
  • the access tables 310, 420 and the like are referred to as index tables 105 in FIG.
  • the table address 1555 is a value obtained by adding the characteristic offset to the intermediate table head address calculated in step 1002.
  • the intermediate tables 301 and 401 store the address (offset) of the numerical value table and the distribution reduction information.
  • a normal distribution as shown in Fig. 13, when it deviates from the average (median) of the distribution by more than a certain value, it becomes numerically 0 (one in a logarithmic system).
  • the uncorrelated multidimensional distribution is Since it is represented by the product of the one-dimensional normal distribution, it is meaningless to calculate numerically if one distribution is far away from the center. Therefore, in such an area where no numerical data is needed, the address of the numerical table is not stored in the area corresponding to that of the intermediate table.
  • the distance data in Equation 6 is always negative. Furthermore, the value "0" is stored outside of it. When the number of quantizations for the feature component is small, it is possible to adopt a mode in which the value “0” is not stored as illustrated in FIG.
  • FIG. 15 shows an example of the arrangement of the distribution reduction information for a single Gaussian distribution.
  • the area ⁇ 1 is an area in which the numeric address of the numerical table is stored
  • ⁇ 2 is an area in which the distance information is stored
  • ⁇ 3 is an area in which the value “0” is stored. is there.
  • distribution reduction conditions 1 and 2 are determined for the distribution reduction information.
  • the value of the intermediate table accessed from the intermediate tables 30 1 and 40 1 is determined. If the value is “0”, the value of the multidimensional Gaussian distribution is regarded as “0”, and the output probability calculation for the multidimensional Gaussian distribution is performed. The processing is interrupted and the process proceeds to the next multidimensional Gaussian distribution. That is, the determination as to whether or not the value of the intermediate tables 301 and 401 is "0" is the determination of the distribution reduction condition 1. If the value of the accessed intermediate table 301, 401 is a negative number, the value of the intermediate table 301, 401 is regarded as distance information, and is integrated with the distance information of other components in the multidimensional distribution.
  • the output probability calculation for the multidimensional Gaussian distribution is interrupted and the next multiple Move on to processing related to the two-dimensional Gaussian distribution.
  • the determination as to whether or not the accumulated value of the distance information exceeds a certain value is the determination of the distribution reduction condition 2.
  • the values of the accessed intermediate tables 3 and 401 are determined, and when it is determined that the value is “0”, the multi-dimensional being processed is determined.
  • the output probability calculation for the Gaussian distribution is interrupted, and the process proceeds to the next multidimensional Gaussian distribution (step 1011). If the value of the accessed intermediate table 301, 401 is negative, the value of the intermediate template 301, 401 is regarded as distance information, and the distance information of other components in the multidimensional distribution is considered. (Step 1004). 1056 means the accumulated data on the memory.
  • the cumulative distance value is determined to be a predetermined value as a determination of distribution reduction condition 2. It is determined whether or not the value exceeds a (1005). If this exceeds a certain value, the output probability calculation for the multidimensional Gaussian distribution is interrupted and the process proceeds to the next multidimensional Gaussian distribution (10 11 1).
  • processing is performed only when the values of the intermediate tables 301 and 401 are regarded as the address of the numerical table.
  • a cache memory such as the data cache 117 is provided as shown in FIG.
  • the data specified by the values of the intermediate tables 301 and 401 from the numerical table 1052 on the external memory such as For prefetching.
  • Such data prefetching is performed appropriately when the data bus is free.
  • all or almost all the necessary data 1053 is stored in the data cache memory 117.
  • step 1007 it is determined whether there is any remaining single Gaussian component related to the multidimensional Gaussian distribution being processed, and if so, the access address calculation of the intermediate table for the single Gaussian distribution (addition operation) Returning to (Step 1002), the same processing is performed. At this time, there is no need to recalculate the table offset. As mentioned above, the feature components of the feature vector are already linearly scalar quantized.
  • the intermediate tables 301 and 401 are accessed for all the features.
  • prefetching data prefetching of numerical tables using intermediate table values.
  • the processing on the one multidimensional Gaussian distribution can be interrupted. Even in such situations, wasteful processing is kept to a minimum.
  • step 1008 immediately after step 106 without performing the branch processing of step 1007.
  • prefetching does not work effectively (generally, it takes some time to transfer data from memory to cache overnight).
  • access to the numerical table occurs, which is not preferable.
  • step 1008 the numerical value table is accessed and the (single-Gaussian) (logarithmic) value is obtained only for the distribution that needs to be calculated. This In this case, the numerical data always exists in the cache memory, and no cache penalty occurs.
  • the multidimensional Gaussian (log) value is calculated from this single Gaussian (log) value. This calculation is the product of all single Gaussian distribution values (or the sum if logarithmic). Therefore, in step 1008, the process of not only obtaining the sample value but also multiplying this by the already accumulated value (data one night 57) (adding in the logarithmic system) is performed. Do. In this case, when calculating the first component, 1 (0 in logarithmic system) is needed as the initial value of the accumulation. The cumulative value is shown as 105. In the second loop (step 1008 to step 109), when the processing of step 108 is executed for all components, the accumulated result is the value of the multidimensional Gaussian distribution.
  • step 11010 the process is basically to save the accumulated value stored in the registry into the memory. Further, if there is an unprocessed multidimensional Gaussian distribution (step 101), the process returns to the above process 102. As above, there is no need to calculate the table offset anew.
  • this multidimensional Gaussian value must mix values from multiple distributions.
  • the accumulated value of 1 0 5 7 will be mixed with the multi-dimensional accumulated data and the accumulated value of data 1 0 5 8 thereafter. Called cumulative data.
  • the output probability 2 56 is calculated in step 1 0 1 2. Basically, this mixed accumulation is output probability 2 5 6
  • the necessary constants may be added (e.g., to reduce the number of numerical tables by separating the parameters by logarithmic processing, etc.). . In this case, the necessary data may be extracted from the constant table 105 and adjusted. Finally, the output probability 2 56 is calculated.
  • one Gaussian mixture calculation is processed. This process is performed for all mixture distributions to be calculated. (In the case of a general CMHMM, output probabilities are defined for all HMM states, in which case values are calculated for all of them. Must be). Therefore, the effect of the simplified calculation in Fig. 18 extends to all of these probability calculations.
  • FIG. 19 and FIG. 20 show an example of the adaptive processing in step 203 of FIG. Fig. 19 shows an example of adapting the HMM parameter, specifically the mean and variance of the Gaussian mixture distribution, in the adaptation process called environmental adaptation.
  • FIG. 20 shows a processing procedure for determining and updating a bus table in the intermediate table for each one-dimensional Gaussian distribution from the corrected variance and average of the Gaussian distribution.
  • step 1101 the features of the noise data are analyzed in step 1102. This can be performed by, for example, FFT (Fast Fourier Transform) if a frequency spectrum is used.
  • step 1103 it is determined whether adaptation is possible based on the analysis data. This is evaluated by comparing the characteristics of the noise when the parameters are determined (corrected) with the characteristics of the current noise.
  • various approaches may be considered, for example, using the phase of the feature vector as the comparison criterion, or evaluating the cross-correlation of the frequency spectrum. available.
  • the cross-correlation is used, the cross-correlation between the current noise spectrum (data 1150) and the parameter at the time of the parameter determination (data 1151) is obtained, and the evaluation value is obtained. 1 152.
  • This cross-correlation can be illustrated as Equation 7.
  • . ⁇ is a mutual phase
  • Fig. 19 shows an example that focuses on noise characteristic fluctuations, but there is also a method of forcibly adapting at regular intervals.
  • step 1102 is unnecessary, and time information (time after updating) is stored in the evaluation value 1152, and it may be determined that the adaptive processing is to be executed after a predetermined time has elapsed.
  • step 1105 the average is corrected from the noise data as shown in equation 8, for example.
  • step 06 corrects the variance 1 as shown in equation 9, for example.
  • step 1107 the blending weight is modified, for example, as shown in equation 10.
  • Step 1 1 0 2 is not necessarily a feature analysis method used in speech recognition. However, it is natural that the features in steps 1105 to 1107 are the feature analysis parameters used in speech recognition, and therefore the feature analysis used in speech recognition in step 1102 must be performed. If (for example, speech recognition is L. If step 1102 is a frequency spectrum or the like in the cepstrum), the necessary processing is executed before steps 1105 to 11007.
  • step 1105 The processing from step 1105 to step 1107 is performed for all mixture distributions (step 11008). Then, after correcting all the mixture distributions, the analysis data 1151 of this noise is stored in the assumed characteristic 1151 (step 1109), and the processing ends in step 1110.
  • the intermediate table 301 By inserting the intermediate table 301, extra table access occurs, but as described in the processing of FIG. 18, the address of the numerical table is stored in the intermediate table 301, and the loop is executed. If the division and prefetching are performed, even if the intermediate table 301 is inserted before the numerical value table, the processing increase due to the access to the intermediate table 301 can be suppressed to a small extent. This is as described above with reference to FIG.
  • FIG. 17 shows the basic structure of the global intermediate table 400.
  • the white array element stores the address of the numerical value table (positive value)
  • the black array element stores the distance information (negative value)
  • the other elements store the value "0".
  • the number of data areas in the X direction array is larger than the number of quantized feature components. This is because the start position of the intermediate table is shifted in the X direction according to the average value of the one-dimensional Gaussian distribution, and thus it is necessary to take an extra data area in the X direction.
  • the global intermediate table 400 stores the address (offset) of the numerical table in various distributions and the distance information.
  • the pattern on the left column has the largest variance, and the variance becomes smaller toward the right.
  • the pattern of the intermediate table corresponding to the given average and variance can always appear on the global table 400. That is, the position of the global intermediate table 400 in the horizontal direction (Y direction) is determined by the desired distribution of the one-dimensional Gaussian distribution.
  • the array of columns selected by this variance is an array of address data for accessing numerical data that realizes a one-dimensional Gaussian distribution with the mean at the center ( ⁇ ).
  • the access start position for the column array data determined by the variance (and) is shifted in the vertical direction (X direction) according to the average. In other words, the arrangement of the columns determined by the variance (and) is shifted vertically.
  • the pattern of the intermediate table 401 corresponding to the distribution 1 is an array element having a variance and an average of // 0, and in FIG. Is represented by Similarly, the variance increases and the mean ⁇
  • the distribution 2 of ' is represented in FIG. 17 by an intermediate table 402 composed of array elements starting from P2.
  • the leading addresses of the intermediate tables 401 and 402 according to the distribution (hereinafter, also simply referred to as access pointers) P 1 and P 2 are previously defined as the pointer table 420 shown in FIG. It may be a table.
  • the pointer table 420 forms a part of the HMM data table.
  • the order of the feature components to be processed can be determined in advance, and the necessary first-order Gaussian distribution can be specified according to the order.
  • the intermediate table head address may be prepared in a table in advance.
  • This table is, for example, the pointer table 420 of FIG.
  • the required intermediate table is added to the feature offset calculated in step 1001 of FIG. 18 from the table 420, and the necessary intermediate table is obtained from the global table 400. Can be extracted.
  • the global intermediate table 400 can be used as a reference-only table (without rewriting the contents of the table at all). Even if 0 is used in combination with other Gaussian distribution processing (even if it is shared), there is no problem at all. Then, by regarding the access points defined on the pointer table 420 (P 1 in distribution 1 and P 2 in distribution 2) as the head address of the intermediate table, the intermediate table can be regarded as an entity. It exists but can be processed very much. Using the global intermediate table 400 does not change the processing of FIG. 18 at all.
  • the intermediate template of distribution 1 It is only necessary to change the head address pointer (access pointer) of the table from P 1 to P 2.
  • the processing may be performed on the boyne table 420 as exemplified in FIG.
  • the variance column first select the column of variance that is closest to the modified variance (the variance column), and then for the mean correction, find the mean of the standard Gaussian distribution and the corrected mean.
  • the top position of the column is moved up and down based on the difference between
  • f. (X.) Exp ⁇ -(x.- ⁇ ) /. ⁇ And x. ⁇ f.
  • f. (X.) F (x X) that satisfies the relationship) is expressed using X.
  • This formula is X when the average position is the origin. Means that the value of the position (Xo-) is also equal to the value determined by the value of the position of X (X- ⁇ ) and the value Q /, also from the origin at the average position. If the above formula is further transformed,
  • C (x) is two (X-?) (Where 5 is the same as above), the value of C (x) with arbitrary mean and variance is obtained using a simple table.
  • the head address of the intermediate table after the adaptation is determined based on the head position of the finally obtained template, which is shifted by?.
  • the leading address is P 2 of distribution 2, ie, the corrected value of the corresponding intermediate table.
  • FIG. 20 generally shows an example of a processing procedure for determining the value of the corresponding access bin for the variance and average of the Gaussian distribution modified by the adaptive processing of FIG.
  • the standard value and the variance value are calculated using the standard mean and variance value 1 2 51 and the new average value 1 153 and variance value 1 1 54 obtained by the adaptation. Is calculated (step 1222).
  • the table line (column) of the global intermediate table 400 is determined based on the threshold value (step 1203).
  • the head position of the table is determined by using the value (step 12204).
  • the address is calculated from the determined table line and the table head value (step 125). In this calculation, data indicating the table structure (index table header) 1 253 is referred to.
  • the position of the table line is T
  • the start position is S
  • the number of table elements in one line is E
  • the data length of one element is 4 bytes
  • the start address of the global intermediate table is AO. If the address is a bite address,
  • Is calculated by A becomes the value of the access pointer after adaptation.
  • the processing from step 122 to step 205 is repeated for all distributions.
  • the head address of the intermediate table used in the processing of FIG. 18 is associated with the address on the global intermediate table 400 in FIG.
  • the above-mentioned intermediate table 400 can be referred to based on the values of the mean () and the variance (Bi).
  • a boyne evening table 420 is used to store the addressless evening (access boyne evening).
  • the access components P0 to Pn are provided for each characteristic component.
  • the value of the access boyne can be calculated based on the variance and the average. Therefore, the access data can be uniquely associated with the variance and average of the corresponding distribution. Therefore, as shown in FIG. 38, a table 410 having variances and averages for each feature component is prepared, and the values of the access holes P0 to Pn are calculated each time based on this.
  • FIGS. 42 to 44 show examples of numerical tables of one-dimensional Gaussian distribution.
  • FIG. 42 includes, for each required variance, the value shown in the above equation 4, that is, the value of the equation surrounded by the rectangle R1 in FIG.
  • the value held by the numerical table is in the range from _4 to _4. This corresponds to the configuration of the intermediate table in Fig. 13 for reducing distribution.
  • the data structure of this numerical table has the commonality with the intermediate table, and has numerical data related to the variance assumed by the intermediate table. When such numerical data is adopted, the data referred to from the numerical table must be integrated. Therefore, from the viewpoint of the number of calculation digits or the calculation accuracy, the microprocessor that performs the calculation of the mixed HMM 103 It is desirable to have a floating point unit as shown in Fig. 2.
  • the numerical table shown in Fig. 43 is converted into a numerical table using logarithmic values so that the data can be used for integer operations.
  • the value of the expression enclosed by the rectangle R2 is stored in the numerical table of FIG.
  • the logarithmic value of the mixed weight surrounded by the rectangle R3 must be stored in the tuple.
  • the major difference from Fig. 42 is that integer operations can be used.
  • FIGS. 40 and 41 collectively illustrate the table access method for probability calculation using the multidimensional Gaussian distribution described above.
  • FIG. 40 in the HMM data overnight, for example, access is performed for each feature component.
  • the value of Boyne Evening is stored as Boyne Evening Table 420.
  • the value of the access feature of a certain feature component is P1. This has been changed to P2 by adaptation.
  • the value P2 of the access data is determined based on the variance and average uniquely determined from P1 and the variance and average changed by adaptation.
  • the feature offset is calculated for each feature component by the feature extraction, and the value P2 of the access point to be added to the feature offset is read, and the reference address of the intermediate table is calculated.
  • the intermediate table 400 is read with this reference address, the value of the first-order Gaussian distribution relating to the predetermined variance and average with respect to the characteristic component is read from the numerical value table by the read address.
  • obtaining the first-order Gaussian distribution according to the characteristic components in the mixed HMM operation at the time of speech recognition does not require complicated parameter overnight operation, etc. It can be performed by a simple process of adding the feature offset and the access point.
  • the access pointer may be modified, and there is no need to modify the values of the global intermediate table 400 and the numerical table 105.
  • a feature offset is obtained in advance for each feature component of the feature vector.
  • the global intermediate template 400 is accessed by the value of the access point and the feature offset for each feature component, and the numerical value of the first order Gaussian distribution is obtained.
  • the numerical value data is accessed by the address.
  • MPU 103 does not perform overnight access It can be done as appropriate at evening. Therefore, even if the global intermediate table 400 is accessed before the access to the numeric table, the acquisition of the numeric data is not delayed. If the global intermediate table 400 is stored in the high-speed RAM 106 built in the microprocessor 103, etc., the access time of the global intermediate table 400 can be substantially reduced to a negligible level. .
  • the variance and average are to be corrected by adaptation, as described above, the value of the access data indicating the head of the extracted intermediate table may be corrected.
  • FIG. 21 shows an example of the appearance of a portable information terminal device 120 to which the system for speech recognition is applied.
  • FIG. 22 shows a block diagram of the portable information terminal device 120.
  • the portable information terminal device 120 shown in the figure has the function of a small-sized convenience display device together with the voice recognition function, and further has a portable telephone function.
  • a display 108 and a keyboard 123 are arranged in the center of the casing, and microphones (microphones) 107 and 1301 and speakers 1307 and 1308 are provided at the ends.
  • the MPU 103, ROM 105, RAM 106, VIF 104, and display 108 are the same as the circuits provided in the speech recognition device described in FIG. It is commonly used for the voice recognition function, the function of the small-sized computer, and the mobile phone function.
  • a mobile phone unit PHS
  • the mobile phone unit 1303 can talk to other mobile phones and ordinary landline phones via the antenna 1309.
  • the speeds 13 07 and 1 308 are connected to the MPU 103 and the like via D / A converters 130 5 and 130 6.
  • Peripheral circuit 1302 is infrared interface Circuit and flash memory card interface.
  • the mobile information terminal device 120 is not particularly limited, but is assumed to have two microphone inputs.
  • the microphone 1301 can be connected to the MPU 103 or the PHS 1303 via the A / D converter 124.
  • the microphone 100 can be connected to the MPU 103 via the A / D converter 102. Both microphones 107 and 1301 are used for voice recognition and telephone calls, and the details of their usage will be described later.
  • the portable information terminal device 120 uses the battery 121 as an operation power supply from the viewpoint of emphasizing portability.
  • lower power consumption is strictly required as compared with a system using a commercial power supply as an always-on power supply.
  • the MPU 103 tends to adopt one with a relatively small operating speed (operating clock frequency), MIPS (Million Instruction Per Second) value, or power consumption.
  • an MPU 103 having a power consumption of about 1 W, an operating clock frequency of about 200 MHz, and a data processing capacity of about 300 MIPS can be adopted.
  • the speech recognition processing is performed using the MPU 103
  • the method of linear quantization and the method of global intermediate table are adopted for the calculation of the mixed multidimensional Gaussian distribution.
  • the speed of arithmetic processing and the speed of parameter change at the time of adaptation have been increased.
  • Speech recognition can be performed at a speed that can withstand practical use without impairing performance.
  • a speech recognition processing program that employs a linear quantization method and a global intermediate table method for calculating a mixed multidimensional Gaussian distribution is stored in, for example, R ⁇ M105.
  • OM is a computer MPU 1 0 3 is a recording medium that can be read by
  • the voice recognition processing program can be externally fetched into the ROM and executed.
  • a necessary voice recognition program can be transferred to a ROM from a CD-R ⁇ M drive device (not shown) which is interfaced with the peripheral circuit 1302.
  • the CD-ROM is an example of a recording medium in which the voice recognition processing program is stored and which can be read immediately.
  • the microphone 107 is a main microphone, and can pick up sound together with noise.
  • the other microphone 130 1 is a sub-microphone dedicated to noise, which picks up a noise component relatively larger than a signal component. For example, this is realized by selecting the directivity and arrangement of both microphones 107 and 1301.
  • Fig. 34 shows the principle of two-microphone noise adaptation.
  • noise and voice are superimposed and sampled by the main microphone (107).
  • the secondary microphone (130 1) samples noise exclusively, and the sample signal contains almost no audio signal components.
  • the above ( ⁇ ) can be determined based on signals from the main microphone (107) and the sub microphone (1301).
  • noise analysis is performed on the input from the sub microphone (1301) to calculate fs (w).
  • the characteristic of fm (j) is corrected by ( ⁇ ) ⁇ fs (w).
  • the average, variance, and mixing weights shown in FIG. 19 are corrected, and the value of the access pointer of the pointer template 420 is corrected as described in FIG.
  • FIG. 23 shows an example of a processing procedure in a case where noise adaptation is performed using two microphones in the portable information terminal device 120 in detail.
  • step 202 When the system is started in step 202, the system data is read from the ROM 250, and in step 1401, it is determined whether or not voice has been input to the microphone 107 used as the main microphone. If it is determined in step 1402 that no voice has been input, the process returns to step 1401 via step 1403. This forms a kind of infinite loop, which repeats until audio is input to the main microphone.
  • step 1403 the characteristics of the microphone 107 used as the primary microphone and the microphone 1301 used as the secondary microphone are compared and evaluated. This is to correct the difference between the characteristics of the main microphone and the sub microphone in advance in order to estimate the characteristics of noise from the main microphone in the voice section from the noise of the sub microphone.
  • step 1404 If it is determined in step 1402 that voice has been input to the main microphone, in step 1404, the secondary microphone voice data (data 1451) is analyzed by peri-microphone noise analysis (step 1404). . Then, the analysis result obtained in step 1404 is corrected using the main and sub microphone characteristics (1452) evaluated in step 1403 (step 1405). Then, based on the result of the analysis in step 1404, At 1406, it is determined whether or not to perform adaptation. When adaptation is performed, noise adaptation is performed using the result corrected in step 1405 (step 1407). The process of step 1407 is, for example, almost the same as the method of FIG. 19 (the difference in FIG. 19 is that the process related to the determination of adaptability need not be performed). ).
  • the access point table 4 20 pointing to the first address of the intermediate table is obtained.
  • a process for updating is performed (step 1448). This processing can be updated, for example, by the method shown in FIG.
  • the updated pointer table 4 20 is used in the subsequent output probability calculation 2 12 ⁇ visual search 2 14.
  • speech information obtained using a pair of stereo microphones is separated into signal component weight information and noise component weight information before It is also possible to apply a well-known technology (for example, a beamformer) that employs the ANC method.
  • a well-known technology for example, a beamformer
  • the speech recognition target is the voice from the callee (callee voice) of the mobile phone unit 1303 and the terminal device 1.
  • voice recognition in a transceiver type call can be considered as the voice recognition for the destination voice (call-based voice recognition) and the voice recognition for the terminal voice (terminal-based voice recognition). That is, as exemplified in FIG. 35, the voice can be switched to either the voice of the communication destination or the voice of the terminal, and both voices can be exclusively recognized.
  • a switching operation can be performed by a switch 1322 SW for switching between voice input from a terminal system and reception in a speech system.
  • This switch is shown in Fig. 22.
  • the switch 1322 SW is shown as a circuit included in the peripheral circuit 1322 for convenience. It is expected that the characteristics of both voices will be quite different.
  • the HMM numerical table is provided separately for the voice of the called party and for the voice of the terminal, the data becomes excessively large, and when the numerical table of the HMM is shared, the voice table of the called party is used. It is expected that a huge amount of processing for adaptation will be required every time switching between terminal and terminal voice, and real-time processing will be impossible at all. Therefore, the HMM numerical table and the global intermediate table are shared between the call destination voice and the terminal voice, and the pointer table 420 is separately used for the voice recognition for the call and the voice recognition for the terminal. To prepare.
  • a separately prepared boyne evening table is used for each input system.
  • the global intermediate table is accessed using the assigned boyne table, and in the case of terminal-based speech recognition, the global intermediate table is accessed using the pointer table assigned to it.
  • reference numeral 420-0-2 denotes a voice-related table
  • reference numeral 420_1 denotes a terminal pointer table.
  • FIG. 24 shows an example of a speech recognition processing procedure in a transceiver type call using the portable information terminal device 120.
  • step 202 the system data is read from the OM 250 and the process is started.
  • This example takes advantage of the feature that the voice from the terminal system and the voice from the speech system can be input independently, and in step 1501, whether the voice is from the speech system or the speech from the terminal system Is determined. For example, the determination is made based on the state of the switch 1322 SW for switching between reception from the communication system and transmission from the terminal system. If it is determined that the input is a transmission input from the terminal system, the terminal voice data is taken into the voice recognition target from step 1503. If it is determined that the incoming call is received from the call system, the call from the mobile phone unit 1301 will start from step 1504. The system received voice data is captured as a voice recognition target.
  • step 1505 a silent section is extracted from each input, and the nature of noise is analyzed.
  • step 1446 it is determined whether or not the adaptation is performed using the data of the silent section of the voice input here.
  • the HMM parameters such as the variance and the average are corrected in the adaptive processing step 1407, and accordingly, the Boyne table in the Boyne table 4200 is updated in the step 1408 accordingly. .
  • the rest of the process is exactly the same as in Figure 23, so a detailed description is omitted.
  • speech recognition in a separate type call can be considered. . That is, as illustrated in FIG. 36, the voice of the call destination (received voice) and the terminal voice (transmitted voice) are mixed to enable voice recognition. In this example, the switch 132 SW is unnecessary. In this case as well, the situation is the same as above.
  • the HMM numerical value table and the global intermediate table are shared between the voice of the callee and the voice of the terminal, and the pointer table of the intermediate table is used for voice recognition for speech and voice recognition for terminal. And prepare for each. However, the voice section of the terminal system and the voice section of the communication system must be detected separately. This makes it possible to cope with overlapping conversations between the telephone system and the terminal system. If the global intermediate table is not used and an intermediate table is assigned for each feature component, the intermediate table must be provided separately for the communication system and the terminal system.
  • FIG. 25 shows an example of a speech recognition processing procedure in a separate type call using the portable information terminal device 120.
  • a system that has two parameter sets that are adjusted and adapted to the communication system and the terminal system is configured.
  • the numeric template 1 0 5 2 the numeric template 1 0 5 2 —
  • the val table 400 is the same for both the communication system and the terminal system, and it is sufficient to have two sets of the bus table 430 holding the access table for the intermediate table.
  • step 202 when the processing is started in step 201, first, in step 202, the system is started. In this system, processing is performed for each system using the fact that terminal-based speech input and speech-based speech input are separate. In step 1503, voice is input from the terminal system. If adaptation is necessary, a silent section is detected in step 1505-1, and noise adaptation is performed in step 1407-1. Then, in accordance with this adaptation, the step table 408-1 of the intermediate table is updated in step 148.
  • step 1601 the overlap adjustment is performed. This adjusts when the voice of the terminal system and the voice of the speech system overlap (for example, they talked together). This is a simple example of detecting the voice section for each input voice. It can also be realized by waiting for the end of the section that has detected the section first and then performing the processing of the section that has detected the section later. In this way, if a signal in the voice section (having an attribute data or a flag for distinguishing between a terminal system and a speech system) is obtained, feature analysis is performed in step 2 12 and step 2 is performed. By performing the output probability calculation in step 13 and performing the video search in step 2 14, the recognition result with the systematic attribute (data 254-2) can be obtained.
  • the system attribute means an attribute data that distinguishes between a terminal system and a communication system.
  • FIG. 26 shows an example of the procedure of speech recognition processing in a speech recognition system that performs speaker adaptation and noise adaptation.
  • adaptive processing is performed at fixed time intervals based on time information 1 752.
  • step 202 the system is started.
  • audio data is captured in step 1701.
  • step 1702 the time information 1752 is incremented.
  • the time information may be in a clock unit or a frame unit.
  • step 1703-1-1, 1703-2-2 it is determined whether or not the time information 1 ⁇ 52 is equal to or greater than a certain value. Execute If not, go to step 2 and start speech recognition.
  • step 1704-1 When performing noise adaptation, first, input noise data in step 1704-1 and correct parameters in step 1705-1 accordingly.
  • the method may be the same as the method shown in FIG. 23 (steps 1404 to 1407).
  • step 1706-1 the access intermediate table 420 of the global intermediate table is modified in accordance with the modified variance and average 14453, and the time information 1752 is reset. (For example, set 0).
  • speech recognition processing (steps 21 to 2) is performed.
  • the adaptation is performed when the time information 1752 exceeds a certain value. However, it does not need to be the same as the noise adaptation time interval.
  • step 1704-2 a speech section is extracted, unlike in the case of noise adaptation.
  • step 1705-5 so-called unsupervised speaker adaptation is performed. Based on this modification, the Boyne Table 440 is updated.
  • the unsupervised speaker adaptation is a speaker adaptation method that does not perform prior learning for adaptation.
  • steps 2 to 14 are the same as in the example shown above.
  • Figure 27 shows another example of a speech recognition system that performs unsupervised speaker adaptation. This is an example of a system in which users who are used frequently are registered, and the voice of the speaker is switched to a boyfriend table for the speaker. If you are not a registered speaker, switch to the public boyfriend table.
  • step 202 when the process is started in step 201, first, in step 202, the system is started.
  • audio data is imported in step 1701.
  • step 1801 feature analysis for speaker identification (for example, analysis of high-frequency components) is performed. As a result, the feature data of the speaker identification can be obtained.
  • speaker identification is performed using the speaker identification feature data 1851 and identification information 1852.
  • a speaker feature can be registered in advance as identification information 1852, and a speaker can be determined by identifying whether or not a registered pattern closest to the speaker feature data 1851 exists.
  • Each processing system is provided for a speaker that can be determined by this speaker identification (step 1802) processing.
  • each processing system has the same processing (program)
  • each speaker and general speaker are provided with their own parameters such as an access table for each speaker.
  • the adaptation processing is expressed separately for each speaker.
  • the parameter set for the registered speakers and the default (standard pattern for general speakers) is used. For example, if two people are registered, three sets of parameter sets are required.
  • Each parameter set includes at least a pointer table.
  • step 212 the same recognition processing as in the above example is performed.
  • the pointer table 420 of the global intermediate table 400 used is provided for each speaker.
  • the global intermediate table 400 is common to all speakers. In this way, the memory capacity for forming various tables can be reduced.
  • Figure 28 shows yet another example of a speech recognition system that performs unsupervised speaker adaptation.
  • register users who use frequently For the speaker's voice, this is an example of a system that switches to a set of parameters for that speaker.In this example, however, the number of registered speakers is limited to a certain number, and the frequency of use is limited. The system is considered.
  • step 202 the system is started.
  • the audio data is imported.
  • step 1801 feature analysis for speaker identification (for example, analysis of high-frequency components) is performed.
  • step 1802 speaker identification is performed based on the analyzed speaker identification feature data 1851.
  • the identification information 1852 is used. For example, this can be realized by registering speaker characteristics in advance and selecting the closest registration pattern.
  • a processing system is selected. In each of these processing systems, the processing program is the same, but the boyne table used is different. However, since the judgment of adaptability differs depending on the characteristics of each speaker, in FIG. 28, it is expressed separately for each speaker. The above points are exactly the same as those in Fig. 27.
  • step 1901 the identification information is corrected.
  • a table that uses the frequency of use of each registered speaker as management information is used, and the number of registrants is limited to a certain number. After performing this processing, the same processing as the procedure described in FIG. 27 is performed.
  • FIG. 29 shows the structure of a management table (simply referred to as a speaker management table) 500 related to speaker management among the identification information 1852.
  • a management table (simply referred to as a speaker management table) 500 related to speaker management among the identification information 1852.
  • the usage frequency column 502 and the pointer (data pointer) to the pointer table 420 are shown.
  • Such a speaker management table 500 is not necessary in a single-system data set, but is required in a case of a plurality of systems. However, if the structure is fixed (when sorting is not necessary) as in the examples in Fig. 25 and Fig. 27, information such as de- What is necessary is just to have.
  • step 901 of the identification information correction in FIG. 28 in the example, the table structure must be corrected and changed by the frequency information. This will be described briefly.
  • This processing procedure is shown in FIG.
  • step 201 When step 201 is started, first, in step 2002, it is determined whether or not a speaker corresponding to the identified speaker exists in the list (speaker management table 500). I do. If not, in step 203, the lowest registered speaker is replaced with the current speaker. In the list exchange in step 203, the lowest order data is deleted, the ID of the new registered speaker (this is the registered ID in speaker recognition) is written in the registered speaker column, and the frequency information is set to 1 Set it to a larger value (for example, 5). The data bindings take over those assigned to the former, but the corresponding binding tables 420 of the global intermediate table 400 are set (initialized) to those corresponding to the standard pattern.
  • step 204 the frequency information is updated.
  • the frequency information of the registered speaker is incremented, and the frequency information of a registered speaker who does not correspond is decremented.
  • the frequency information of the speaker that is used less frequently after initialization is smaller than the initialization frequency value (5 in this example) and lower than the initialized speaker. That is, a speaker that has just been initialized and registered can be prevented from being immediately deleted from the list.
  • the order is changed to change the order associated with the above operation, and the sort is performed frequently.
  • Fig. 31 shows an example of operations on a list that has been newly replaced by initialization. In this case, bubble sorting is performed sequentially from the lowest order.
  • FIG. 32 shows an example of an operation on an existing list. In this case, bubble sorting is performed from the position where the list exists. Since the frequency information of the list other than the focused list decreases by one, the ranking of the focused list always moves in the upward direction. Therefore, there is no need to operate lists other than the focused list.
  • Fig. 33 shows the flow of this procedure.
  • the sorting process is shown.
  • a sort list is selected in step 210. This is a list of speakers of interest.
  • the frequency information is compared with the frequency information immediately above. If the order is correct, end at step 210. If the order is not correct, replace the list with the list immediately above and return to step 210. This process is repeated until the order relation becomes normal (until the frequency information becomes lower than the frequency information in the immediately above list or reaches the highest order), and the process ends in step 210.
  • the feature vector (floating point or an integer equivalent to a fixed point) is a scalar.
  • the quantization process only needs to be performed once per frame for each feature.
  • the difference between the evening and the head address of the intermediate table to which the data belongs (feature offset or table offset) is also common for each feature component. Therefore, the calculation of the single Gaussian distribution is based on the entry of the start address of the intermediate table, addition of the start address of the intermediate table and the feature offset, access of the intermediate table, access of the numerical table, Can be run with Thereby, the calculation speed of the output probability can be enhanced.
  • the adaptation does not require rewriting of the numerical table itself. If a boyfriend table is used, there is no need to rewrite the intermediate table. Only the values of the access points on the pointer template need to be modified according to the change in variance and average due to adaptation. As a result, the speed of the adaptive processing can be increased.
  • Numerical tables are generally stored in an external memory, but rather than accessing the numeric table immediately after obtaining one data address on the numeric table by accessing the intermediate table, After obtaining all data addresses in advance for each multi-dimensional Gaussian distribution, and before accessing the numeric table from the time the numerical value table is accessed, the data address of the data address is stored in the cache memory. It can be prefetched to 1 17. Therefore, access to the numeric table becomes a cache hit, and a cache miss in accessing the numeric table can be avoided.
  • the intermediate tape is uniquely associated with the variance and average of the one-dimensional Gaussian distribution.
  • the access position on the evening table 420 is designated by the access button, and the access position to the extracted intermediate table is designated by the feature offset obtained by linearly quantizing the feature component. Therefore, even if the variance or average is changed by adaptation, the intermediate table does not need to be rewritten, and the access value associated with the change can be simply rewritten on the boyne table, and the adaptation process can be made higher. Can also be realized.
  • the value of the access data has a correlation with the variance and the average, when the variance and the average are changed by adaptation, the process of changing the value of the access data is simplified.
  • the speed of speaker adaptation can be increased.
  • the data processing system is not limited to the portable information terminal device.
  • the mobile phone function may be omitted. It can also be executed on a personal computer system.
  • Data processor is a general term for microprocessors and microcomputers.
  • a data processor is a circuit that fetches an instruction, decodes the fetched instruction, and performs arithmetic control processing, and may have a CPU (central processing unit). It is more preferable to have a built-in cache memory or high-speed RAM. Global intermediate table point for high-speed internal RAM Evening tables are resident.
  • Computer-readable media storing programs for calculating output probabilities for HMM speech recognition include magnetic storage media such as floppy disks, magnetic tapes and hard disks, and optical media such as CD-ROMs and MOs. Storage medium, a semiconductor recording medium such as a memory card, or any other medium.
  • the present invention can be widely applied to speech recognition technology using an HMM.
  • the present invention is effective when applied to speech recognition realized in a microcomputer-controlled or battery-powered portable information terminal. It is about technology.
  • the output probability calculation processing program for voice recognition according to the present invention can be used by being audible to a computer such as a personal computer via a computer-readable recording medium or a communication line. It is possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

明 现 デヌタ凊理システム 技術分野
本発明は、 混合ガりス分垃を甚いた連続分垃型隠れマルコフモデル ( Continuous Mixture Hidden Markov Models H M M ) を甚いた音声 認識技術、 曎にはそのための出力確率の挔算技術に関し、 䟋えば、 音声 認識のための挔算凊理を行うデヌタプロセッサを有し電池駆動される 携垯情報端末装眮に適甚しお有効な技術に関するものである。 背景技術
隠れマルコフモデルは、 マルコフ過皋時点 t + 1の状態が時点 nの 状態によっおのみ䞎えられる確率過皋で衚珟される状態遷移モデルで ある。この隠れマルコフモデルを音声認識技術に適甚するこずができる c この音声認識技術の抂芁を解かりやすく説明する。認識察象音声を䟋え ば 1 0 m sのうような郚分区間 フレヌム に分割し、 フレヌム毎に呚 波数スぺク トルのような特城べク トルを抜出する。 このずき、 認識すベ き音の連鎖をフレヌム毎の状態の連鎖ずみなす。個々の状態に察しお特 城べク トルに近䌌した音源を割圓おられるように各状態を決定できれ ば、 音声認識が実珟されるこずになる。 そのために、 個々の状態が皮々 の音源に察しお特城べク トルに匹敵する尀床もっずもらしさ を確率 的に衚す出力確率ず、珟圚の状態が隣の状態に倉化する確率を瀺す状態 遷移確率ずを採甚し、前蚘状態毎の出力確率ず状態遷移確率ずの積の各 状態の総和が最も倧きくなる状態の連鎖を以぀お、音声認識結果ずする こずができる。前蚘特城べク トル列から想定されるパタヌン毎に、 フレ —ム単䜍で状態遷移確率ず出力確率ずを積算するための挔算量は膚倧 である。特に、 出力確率は混合倚次元ガりス分垃によっお䞎えられる。 混合倚次元ガりス分垃は、 䟋えば、 「あ」 ずいう音玠に察しお幎霢、 性 別などの個々の芁玠毎の確率的な分垃を有するこずになり、各々の確率 的な分垃は特城ベク トルの次数に応ずる倚次元ガりス分垃から成り、 倫々の倚次元ガりス分垃は 1次元のガりス分垃を耇合した確率分垃ず される。 したがっお、 混合倚次元ガりス分垃における混合数や次数が倚 いほど出力確率の挔算に時間を芁するこずになる。本発明者の詊算に䟝 れば、出力確率の蚈算負荷は音声認識凊理党䜓の 5 0〜 8 0 %のように 膚倧になるこずがある。
この出力確率の挔算を高速化するには、混合倚次元ガりス分垃に察し お、 蚈算する分垃の範囲を削枛するこずが有効である。 䟋えば、 特城べ ク トルを幟぀かの暙準的なパタヌンに察応させ べク トル量子化 、 そ のパタヌン毎に出力確率を定矩する方法が可胜である。この凊理の堎合、 特城空間を郚分領域に分割しお、その郚分領域ず蚈算する分垃ずを察応 付けるこずになるが、このような特城べク トルず郚分領域ずの察応には、 べク トル量子化を甚いるこずができる。べク トル量子化ずは、 特城空間 䞊の有限個の代衚べク トルを考え、 特城空間䞊の任意の点を、 その点に 最も近い代衚べク トルで近䌌衚珟する方法である。このようなべク トル 量子化には、 効率的な方法が幟぀か提案されおいるが、 基本的に、 距離 が最小ずなる代衚べク トルを遞択するもので、混合分垃を蚈算するのに 比べお蚈算量は僅少ではあるが、それでも蚈算負荷が小さいずはいえな い。
たた、出力確率の挔算の䞀郚をテヌブル化しお挔算速床を高速化する こずも可胜である。 この堎合にも、 そのテヌブルをべク トル量子化によ ぀お構成するこずができる。 しかし、 べク トル量子化しお出力確率を察 応させるず、 量子化誀差が倧きくなり、 認識性胜が劣化する。
そこで、 蚈算を各特城次元における蚈算に分解しお、 各特城次元を暙 準的なガりス分垃のパタヌンに分割し、各々の蚈算結果をテヌブル化す るこずが考えられる。 このような手法にスカラ量子化を採甚する。 スカ ラ量子化ずしお、 䟋えば、 単䞀ガりス分垃をテヌブル化する手法がある。 この堎合、 ベク トル量子化ずは異なり、 量子化誀差は僅少になる。
スカラ量子化ずしお、非線圢スカラ量子化を採甚するこずができる。 即ち、 特城べク トルの特城次数は数十次元におよび、 混合倚次元ガりス 分垃の各次元毎に、党おの単䞀ガりス分垃をテヌブル化するこずは効率 的でないから、デヌタテヌブルの皮類を少なく しょうずするものである。 混合ガりス分垃のスカラ量子化においお、 各次元毎の関数は、 単䞀の 1 次元正芏分垃 単䞀ガりス分垃 であり、 これを甚いれば、 出力確率の 蚈算を簡略化するこずができる。特城次数や混合毎に盞異されるであろ う 1次元正芏分垃の盞関は、倫々の分垃の平均ず分散が分かれば芏定で きる。 その盞関を決めるために、 特城次数毎にパラメ䞀倕を挔算し、 挔 算したパラメ䞀倕ず特城べク トルの特城成分ずを甚いお、代衚的に蚭け られおいる 1次元正芏分垃の数倀テヌブルをアクセスする。このような 非線圢ス力ラ量子化を甚いお数倀テヌブルをアクセスしお、混合 H M M の挔算量を枛らそうずする技術に぀いおは、 䟋えば、 "ON THE USE OF SCALAR QUANTIZATION FOR FAST HMM COMPUTATION" , ICASSP 95 pp.213-216 がある。
しかしながら、 その手法は、 テヌブルアクセスのために必ず各特城成 分毎のパラメ䞀倕挔算を行わなければならず、 たた、 テヌブルの参照に おいおも、 そのように挔算されたパラメ䞀倕を甚いるアクセスは、 テヌ ブルに察しお連続した配列のアクセスになるずは限らないので、テヌプ ルを参照するためのァドレス挔算も毎回乗算ず加算が必芁になる。 このような手間のかかるパラメ䞀倕挔算を行わずに数倀テヌブルを 参照できるようにするには、 䟋えば、 䞀般的な線圢量子化を適甚した線 圢スカラ量子化を行うようにすればよい。即ち、 特城を等間隔に量子化 するようにする。 䟋えば、 量子化し易いように、 単䞀ガりス分垃のデヌ 倕テヌブルを 2の N乗個に分割すれば、特城成分の䞊䜍 Nビッ トを抜出 するこずによっお、 簡単に量子化するこずができる。線圢スカラ量子化 では、 代衚点は固定であるから、 混合倚次元ガりス分垃に察しお、 線圢 スカラ量子化凊理は、 各フレヌム毎に 1回行えばよい。 換蚀すれば、 特 城次元毎に 1回行なえばよい。 たた、 代衚点はそのたたィンデックスに 盞圓するから、数倀テ䞀ブルにおける先頭ァドレスず所望ァドレスずの å·® 以䞋、 オフセッ ト は、 ィンデックス Xデヌタ長であり、 これも党 おの分垃に共通であるから、そのような挔算は 1 フレヌムにただ 1回実 行すれば良い。 そしお、 必芁な数倀テヌブルぞのアクセスは、 各数倀テ 䞀ブルのァドレスず、党おの特城成分に共通したオフセッ 卜の和で蚈算 できるから、 結局、 1回の加算ず、 2回のロヌド 先頭アドレスず数倀 デヌタ で実行される。
混合ガりス型 H M Mの出力確率の蚈算では、 単䞀ガりス分垃 含む察 数系 に察する蚈算量の䜎枛が重芁になる。各特城成分毎の単䞀ガりス 分垃の蚈算は、出力確率の蚈算においお最も蚈算負荷の倧きい郚分であ り、 蚈算数は、 党モデル数 X混合数 X特城次元の数で衚珟されるため、 些现な蚈算コス 卜の増倧が、 党䜓の蚈算量の増倧に盎結する。 この郚分 で、 線圢スカラ量子化は、 テヌブルのアクセス以倖、 党く蚈算が発生し ないため、 蚈算効率の芳点からは非垞に優れおいる。
しかしながら、 線圢スカラ量子化は、 蚈算効率の芳点から非垞に高速 であるが、 固定された代衚点に察しお、 各分垃毎に数倀テヌブルが必芁 になる。埓っお、 数倀テヌブルの数若しくはデヌタ量が膚倧になるずい う倧きな問題が有る。 たた、 話者適応凊理や雑音適応凊理のために、 æ·· 合ガりス分垃のパラメ䞀倕 平均 '分散 を修正するず、 それに䌎う蚈 算量も膚倧になり、数倀テヌブルを修正するにも倚倧の凊理が必芁にな る。
䞊述のように非線圢スカラ量子化を採甚した堎合には数倀テヌブル の参照に倚倧の挔算凊理を芁し、線型圢スカラ量子化を採甚した堎合に は数倀テヌブルの参照は効率化されるが膚犬な数倀テヌブルが必芁に なり、 それ故に適応凊理には倚倧な挔算時間を芁し、䜕れにおいおも、 携垯情報端末装眮や、 電池駆動されるデ䞀倕凊理システムのように、 挔 算凊理胜力が比范的䜎いデヌタ凊理システム、曎には䜎コス 卜の芁請が 厳しいデヌタ凊理システムでは、 実甚に耐えるこずができない。
本発明の目的は、 H M Mの出力確率を高速に蚈算できるず共に、 話者 適応や環境適応等のモデルの修正に柔軟に察応できるデ䞀倕凊理シス テム、そしお混合ガりス H M M出力確率挔算方法を提䟛するこずにある。 本発明の別の目的は、 携垯情報端末装眮や、 電池駆動されるデヌタ凊 理システムのように、挔算凊理胜力が比范的䜎いデヌタ凊理システム、 曎には䜎コス トの芁請が厳しいデヌタ凊理システムであっおも、出力確 率挔算の高速化ず、適応による倚次元ガりス分垃の倉曎に察する凊理の 高速化ずを実珟できるデ䞀倕凊理システムを提䟛するこずにある。
本発明の䞊蚘䞊びにその他の目的ず新芏な特城は本明现曞の以䞋の 蚘述ず添付図面から明らかにされるであろう。 発明の開瀺
《䞭間テ䞀ブルによる可倉マツピング》
混合ガりス H M Mでは、 出力確率は、 混合倚次元ガりス分垃 匏 2 ) のような関数で䞎えられる。 䟋えば、 混合倚次元ガりス分垃は、 倚次元 ガりス分垃の和になり、倚次元ガりス分垃は特城成分毎の 1次元ガりス 分垃の積になる。特城成分は認識察象音声の芳枬系である特城べク トル の成分である。特城成分毎の 1次元ガりス分垃の分散及び平均は特城成 分毎に固有である。皮々の 1次元ガりス分垃の数倀をテ䞀プル化するず き、特城成分毎に個々の 1次元ガりス分垃の数倀テヌブルを甚意するこ ずはしない。 䞭間テヌブル  3 0 1 , 4 0 1 ) を蚭ける。 即ち、 数倀テ 䞀ブル  1 0 5 2 ) には代衚的な分散及び平均を持぀耇数皮類の 1次元 ガりス分垃を基にした倫々の分垃の数倀が栌玍されおいる。特城成分に 察しおは線圢スカラ量子化を採甚し、その量子化倀をィンデックスずし お䞭間テ䞀ブル䞊の情報を参照する。䞭間テヌブルを特城成分毎に蚭け る堎合、 個々の䞭間テヌブルは、 所芁の分散及び平均に応ずる 1次元ガ りス分垃に関する数倀テヌブル䞊の数倀の所圚を瀺すァドレス情報が 栌玍されおいる。適応によっお 1次元ガりス分垃の分散や平均を倉曎す る堎合、圓該倉曎された分散や平均に応ずる 1次元ガりス分垃の数倀デ 䞀倕の所圚に埓っお䞭間テヌブルの内容を曞き換える。
各特城成分に共通のグロヌバルテヌブル  4 0 0 ) を圢成し、 このグ 口䞀バルテ䞀ブルから䞭間テヌブルを抜出しお甚いるようにするこず も可胜である。 グロヌバルテヌブルは、 第 1 7図に䟋瀺されるように、 X— Y方向にマトリクス状に蚘憶領域を有し、個々の X方向の配列は数 倀テ䞀プル䞊の察応する 1次元ガりス分垃の数倀の所圚を瀺すァドレ ス情報の配列ずされ、倫々の X方向の配列に関する 1次元ガりス分垃の 分散は盞互に盞異され、 その平均は、 䟋えば分垃の䞭倮に統䞀されおい る。グロヌバルテヌブルに察する γ方法の遞択には 1次元ガりス分垃の 分散の倀を考慮し、 X方向の先頭䜍眮の遞択には 1次元ガりス分垃の平 均の倀を考慮する。平均が倧きいほど X方向の先頭䜍眮を X方向寄りに シフ トすればよい。グロ䞀バルテヌブルの Y方向䜍眮ず X方向先頭䜍眮 ずによっお圓該 X方向先頭䜍眮から始たる䞭間テヌブルを抜出できる。 抜出された䞭間テヌブルに察するアクセスは、 前述ず同様に、 特城成分 の量子化倀を圓該先頭䜍眮からのオフセッ トずしお甚いる。適応によ぀ お 1次元ガりス分垃の分散だけを倉曎する堎合、䞭間テヌブルを抜出す るずきの Y方向䜍眮を倉えればよい。適応によっお 1次元ガりス分垃の 平均だけを倉曎する堎合、䞭間テヌブルを抜出するずきの X方向先頭䜍 眮を倉曎すればよい。特城成分毎に抜出すべき䞭間テヌブルの先頭ァド レスはアクセスポむンタ P 0〜P n ) によっお指瀺すればよい。 ァク セスボむン倕の倀は、 分散 び や平均   に応じお予め挔算しおお くこずができる。適応に際しおは、 分散や平均の修正に応じおそのァク セスボむン倕の倀を修正しおおくこずができる。特城成分毎のアクセス ポむンタは、 倚次元ガりス分垃毎にアクセスポむンタテ䞀プル  4 2 0 ) に予め纏めおおくこずができる。
以䞊のように、各特城成分毎に数倀テヌブル参照のための耇雑なパラ メ䞀倕挔算を回避し぀぀、 平均や分散の修正に察応するために、 線圢ス カラ量子化を採甚し、 たた、 線圢量子化された特城成分に応じた数倀テ 䞀ブルのアクセスのパタヌンを制埡するために、䞭間テヌブルを採甚し た。線圢量子化された特城成分ず数倀テヌブルずの間に、 マッピング関 係を可倉ずするィンデックス倉換を目的ずした䞭間テヌブルを挿入す るこずで、 適応による分散や平均の修正に察しお容易に察応できる。即 ち、 そのような適応による分散や平均の修正に察しお、 前蚘グロヌバル テヌブルを甚いる構成ではアクセスボむン倕を修正するだけで察応す るこずができる。 芋方を倉えれば、 線圢ス力ラ量子化ずむンデックス倉 換を目的ずした䞭間テヌブルを組み合わせるこずで、線圢スカラ量子化 による数倀テヌブル参照の高速化を保蚌し぀぀、非線圢スカラ量子化ず 同じようにテ䞀プルのデヌタ量削枛を実珟するこずができる。 《むンデックス倉換の類型化ず共通化による効率化》 䞊蚘の構成を単玔に実珟するず、数倀テヌブルの曞き換えは発生しな いが、 その代りに䞭間テヌブルの曞き換え等が発生する。 この問題に察 凊するために、 第 1に、 a) ィンデックス倉換の類型化による䞭間倉換 パタヌンを事前に蚈算しおおく構成を採甚する。即ち、 話者適応化ある いは環境適応化においお、適応化はガりス分垃の平均および分散の修正 倉曎によっお行われる。 この平均および分散のパタヌンを類型化し、 こ れを事前に保有するこずで、 テ䞀ブル倉曎のコス トを最小にする。第 2 に、 b ) 䞭間テヌブルの共通化による簡略化を行なう、 即ち、 䞊蚘の方 法においおは、 各々の H M M毎に、 各々の混合分垃で䞭間テヌブルを有 するこずを想定しおいたが、 これは、 党おの倉換パタヌンを網矅したテ —ブルが䞀぀あれば、 そのテ䞀プル䞊の 各 H M Mの各混合分垃の ァ クセス䜍眮を保有するこずで、 䞭間テヌブルの機胜が実珟できる。 この 堎合、 話者適応および環境適応化は、 䞊蚘のアクセス䜍眮の修正のみで 十分である。
《䞭間テヌブルによる蚈算分垃の遞択》
混合ガりス分垃の蚈算で、蚈算分垃の削枛は蚈算高速化の有効な方法 である。 本発明では、 この䞭間テヌブルに、 分垃遞択機胜を具備するこ ずで、 蚈算の簡略化を図る。 䞀般に、 倚次元ガりス分垃は、 各特城次元 における䞀次元ガりス分垃の積で衚珟されるが、この各々の䞀次元ガり ス分垃に察する評䟡を䞭間テ䞀ブル䞭に挿入するこずで、数倀テ䞀ブル の無甚な参照を枛らしお、 分垃の削枛機胜を実珟できる。
《デ䞀倕凊理システム》
本発明の䞀぀の態様であるデヌタ凊理システムは、特城ベク トルに察 しお H M M音声認識を行なうためにデヌタプロセッサ  1 0 3 )が䞭間 テヌブル  3 0 1 , 3 0 2 ) 及び数倀テヌブル  1 0 5 2 ) を参照しお 混合倚次元ガりス分垃によっお衚珟される出力確率を挔算可胜であ぀ お、 前蚘数倀テヌブル  1 0 5 2 ) は、 耇数皮類の 1次元ガりス分垃を 基にした倫々の分垃の数倀を栌玍する領域  1 0 5 2 E ) を有し、 前蚘 䞭間テヌブル  3 0 1 , 3 0 2 ) は、 前蚘特城べク トルの特城成分の倀 に察する線圢量子化倀に基づいお遞択される領域にその量子化倀に察 応する前蚘数倀テヌブルの倀の所圚を瀺すためのァドレス情報を栌玍 する領域  3 0 1 E , 3 0 2 E ) を有する。 そしお、 前蚘デヌタプロセ ッサは、 前蚘特城成分の倀を線圢量子化するず共に、 特城成分毎のァク セスボむン倕  3 1 0の P 0〜P n ) により䞭間テヌブルを遞択し、 前 蚘線圢量子化された倀を基に前蚘遞択した䞭間テヌブルよりア ドレス 情報を取埗し、取埗したァドレス情報を甚いお数倀テヌブルを参照する 凊理を行い、数倀テ䞀ブルから参照した倀に基づいお前蚘出力確率を挔 算する。
䞊蚘デヌタ凊理システムにおいお、混合倚次元ガりス分垃の倚次元ガ りス分垃毎に特城成分毎の前蚘アクセスボむン倕が配眮されるァクセ スポィン倕テヌブル  3 1 0 ) の圢成領域を有し、 デ䞀倕プロセッサは、 前蚘アクセスポむンタテ䞀プルのアクセスポむンタを甚いお䞭間テヌ ブルの遞択を行なうように構成するこずができる。
前蚘量子化に関しおは、前蚘 1次元ガりス分垃を基にした倫々の前蚘 分垃党䜓を 2の N乗個の数倀によっお衚珟するず、前蚘特城成分の量子 化倀はその倀の䞊䜍 Nビッ トになる。 これは、 単なる特城成分のシフ ト 動䜜だけで量子化できるこずを意味する。
前蚘デ䞀倕プロセッサは、前蚘数倀テ䞀ブルを参照する凊理を特城成 分毎に繰り返しお倚次元ガりス分垃の倀を挔算し、この倚次元ガりス分 垃の倀を挔算する凊理を所定回数繰り返しお混合倚次元ガりス分垃に よっお衚珟される出力確率を挔算するこずができる。 䞭間テヌブルに分垃削枛のための距離情報を入れおおくこずができ る。前蚘䞭間テヌブルは、 前蚘数倀テヌブルの基準になる 1次元ガりス 分垃の平均䜍眮を起点に分散の耇数倍の範囲に察しお前蚘ァドレス情 報を栌玍する領域 E 1 ) を有し、 その倖偎には、 前蚘平均からの距離 情報を栌玍する領域 E 2 ) を有し、 前蚘デ䞀倕プロセッサは、 倚次元 ガりス分垃の倀を挔算するために前蚘数倀テヌブルを参照する凊理を 特城成分毎に繰り返しおいく ずき、䞭間テヌブルから参照した情報が前 蚘距離情報であるずきこれを环積し、その环積倀が所定倀を越えたずき、 圓該倚次元ガりス分垃のための挔算を䞭止するようにするこずができ る。
別の分垃削枛情報ずしお、 前蚘䞭間テヌブルには、 前蚘距離情報の倖 偎に固定倀 䟋えば倀 " 0 " ) を栌玍する領域 E 3 ) を蚭け、 前蚘デ —倕プロセッサは、前蚘䞭間テ䞀ブルから前蚘固定倀を参照したずき、 珟圚凊理䞭の圓該倚次元ガりス分垃のための挔算を䞭止するようにす るこずができる。
デヌタ凊理システムは䟋えばバッテリヌ  1 2 1 ) を動䜜電源ずする 携垯情報端末装眮  1 2 0 ) 等ずしお構成するこずができる。 バッテリ 䞀駆動される装眮は䜎消費電力の芁請が厳しく、前述の出力確率の挔算 負荷を䜎枛できるこずから、前蚘デヌタプロセッサは消費電力が 1 W以 䞋のものであおも、実甚に耐える高速で音声認識凊理を行うこずができ る。
《グ口䞀バルテ䞀ブルを甚いるデ䞀倕凊理システム》
グロ䞀バルテヌブルを甚いるこずに特化したデ䞀倕凊理システムは、 特城べク トルに察しお H M M音声認識を行なうためにデ䞀倕プロセヅ サ  1 0 3 ) がグロ䞀バルテヌブル  4 0 0 ) 及び数倀テ䞀プル  1 0 5 2 )を参照しお混合倚次元ガりス分垃によっお衚珟される出力確率を 挔算可胜であっお、 前蚘数倀テヌブル  1 0 5 2 ) は、 盞互に平均が同 䞀であっお分散の異なる耇数皮類の 1次元ガりス分垃を基にした倫々 の分垃の数倀を栌玍する領域  1 0 5 2 E ) を有し、 前蚘グロ䞀バルテ 䞀プル 4 0 0 ) は、 前蚘数倀テヌブルにおける分垃毎の X方向の配列 を Y方向に耇数組栌玍する領域  4 0 0 E ) を有し、 前蚘 X方向の配列 は、前蚘特城べク トルの特城成分の倀に察する線圢量子化倀に基づいお 遞択される䜍眮にその量子化倀に察応する前蚘数倀テヌブルの倀の所 圚を瀺すためのァドレス情報を栌玍する。前蚘デ䞀倕プロセッサは、 前 蚘特城成分の倀を線圢量子化するず共に、耇数組の X方向の配列に察す る γ方向の遞択に分散が考慮され X方向の配列に察する先頭䜍眮の決 定に平均が考慮された特城成分毎のアクセスボむン倕第 3 8図の P 0 〜P n ) の倀に埓っお前蚘グロ䞀バルテ䞀ブルから䞭間テヌブル 4 0 1 , 4 0 2 ) を抜出し、 前蚘抜出した䞭間テヌブルの先頭䜍眮を起点に、 前蚘線圢量子化倀に基づいお前蚘ァドレス情報を取埗し、取埗したァド レス情報を甚いお数倀テヌブルを参照する凊理を行い、数倀テヌブルか ら参照した倀に基づいお前蚘出力確率を挔算可胜である。
デヌタプロセッサは、 アクセスポむンタテ䞀ブル  4 2 0 ) のァクセ スポィン倕 P 0〜P n ) を甚いお䞭間テヌブルの抜出を行なうこずが できる。 アクセスボむン倕テヌブルは、 混合倚次元ガりス分垃の倚次元 ガりス分垃毎に特城成分毎の前蚘アクセスボむン倕が配眮されたテヌ ブルである。
前蚘デ䞀倕プロセッサは、適応によっお混合倚次元ガりス分垃の平均 ず分散の双方又は䞀方が倉曎されるずき、これに応じお前蚘アクセスポ ィン倕テ䞀ブルのアクセスポィン倕倀を倉曎すればよい。グロ䞀バルテ 䞀プルそれ自䜓の内容を修正するに及ばない。
前蚘アクセスボむン倕テ䞀ブルを耇数セッ ト圢成しおおけば、前蚘デ 䞀倕プロセッサは、 話者を識別し、 その識別結果に応じたアクセスポィ ン倕テヌブルを甚いるこずができる。
前蚘話者の識別を話者を明瀺するスィ ツチ  1 3 0 2 S W )の状態に 基づいお行なうこずができる。䟋えば、 トランシヌバのように片方向通 話を行なうデヌタ凊理システムにおいお送話ず受話毎の切換えに連動 しお話者識別を行なうこずができる。
前蚘アクセスポむンタテヌブルず話者ずを察応付ける管理テヌブル ( 5 0 0 ) を採甚するこずができる。 このずき、 前蚘デヌタプロセッサ は、話者の特城を瀺す予め登録した識別甚特城情報ず実際の音声特城分 析結果ずの比范結果に基づいお前蚘話者の識別を行ない、この識別され た話者が、 前蚘管理テヌブルに登録されおいる話者であるずきは、 圓該 登録話者のアクセスボむン倕テヌブルを参照する。
前蚘デヌタプロセッサは、前蚘管理テヌブルに登録可胜な話者の人数 を䞀定に限定するず共に、登録話者毎の䜿甚頻床の情報を前蚘管理テヌ ブルに远加し、 音声特城分析結果が登録話者であるずき、 分析結果に䞀 臎する登録話者の䜿甚頻床をィンクリメントし、分析結果に䞍䞀臎の登 録話者の䜿甚頻床をデクリメントし、音声特城分析結果が登録話者以倖 であるずきは、最䜎䜿甚頻床の登録話者を前蚘管理テヌブルから削陀し、 これに代えお圓該登録話者以倖の話者を管理テヌブルに远加するよう に構成するこずも可胜である。
耇数の音声入力系を持ち、 個々の音声入力系毎に、 前蚘アクセスボむ ン倕テヌブルを有し、 前蚘デ䞀倕プロセッサが、 前蚘耇数の音声入力系 に察しお、 独立にアクセスボむン倕テ䞀ブルを甚いお、 䞊列的な音声認 識を行うこずも可胜である。
前蚘デヌタプロセッサは、特城べク トルの党おの特城成分に察しお、 線圢量子化を行なうず共に、前蚘量子化倀ず前蚘 X方向の配列の単䞀配 列芁玠のァドレス量ずの積に基づいお、抜出される䞭間テヌブルの先頭 䜍眮からの特長オフセッ トを算出し、 その埌、 倚次元混合ガりス分垃毎 に、前蚘アクセスボむン倕ず特城オフセッ 卜ずにより䞭間テヌブルの参 照を行っお数倀テヌブルの参照を行うこずができる。 これにより、 混合 倚次元ガりス分垃毎に特城オフセッ 卜の挔算をやり盎す必芁はない。 前蚘デヌタ凊理システムで実行される音声認識のための出力確率の 挔算制埡プログラムは、コンピュヌタ読み取り可胜な蚘録媒䜓を介しお、 デ䞀倕凊理システムに提䟛するこずはできる。 図面の簡単な説明
第 1図はマむクロコンピュヌ倕を甚いた音声認識システムの䞀䟋を 瀺すプロック図である。
第 2図はマむクロコンピュヌ倕の䞀䟋を瀺すプロック図である。
第 3図は第 1図で瀺された音声認識装眮を甚いお実行される凊理の 抂芁を党䜓的に瀺したフロヌチャヌトである。
第 4図は認識凊理の抂芁を瀺すフロヌチャヌトである。
第 5図は H M Mの䞀䟋を瀺す説明図である。
第 6図は left- to- right 型の H M Mのモデルの䞀䟋を瀺す説明図で ある。
第 7図は混合倚次元ガりス分垃の䞀䟋ずしお 3混合 2次元の混合倚 次元ガりス分垃の様子を瀺す説明図である。
第 8図は 2次元の特城空間を第 7図の断面 1で切断し暪から芋た様 子を瀺す説明図である。
第 9図は線圢スカラ量子化を行う堎合の数倀テヌブルず 1次元正芏 分垃ずの関係を瀺す説明図である。
第 1 0図は線圢スカラ量子化原理を䟋瀺した説明図である。 第 1 1図は 1次元のガりス分垃の平均、分散の䞀䟋を瀺す説明図であ る。
第 1 2図は第 1 1図に察しお平均、分散が盞異された 1次元のガりス 分垃を瀺す説明図である。
第 1 3図は分垃削枛のため䞭間テヌブルのデヌタの構成を抂略的に 瀺した説明図である。
第 1 4図は䞭間テヌブルにおける分垃削枛様の距離情報の䟋を瀺す 説明図である。
第 1 5図は単䞀ガりス分垃に察する䞭間テヌブルの分垃削枛情報の 配眮の䞀䟋を瀺す説明図である。
第 1 6図は䞭間テヌブルの倀に応じた凊理の分岐に぀いお䟋瀺的に 瀺したフロヌチャヌトである。
第 1 7図はグロヌバル䞭間テヌブルの䞀䟋を瀺す説明図である。 第 1 8図は出力確率の挔算凊理の詳现な䞀䟋を瀺すフロヌチダ䞀ト である。
第 1 9図は適応凊理においお混合ガりス分垃の平均ず分散を修正す る凊理の䞀䟋を瀺すフロヌチダ䞀トである。
第 2 0図は第 1 9図の適応凊理で修正されたガりス分垃の分散ず平 均に察しお察応する䞭間テヌブルボむン倕の倀を決定する凊理手順の —䟋を党䜓的に瀺すフロヌチャヌトである。
第 2 1図は音声認識のためのシステムを適甚した携垯情報端末装眮 の倖芳の䞀䟋を瀺す説明図である。
第 2 2図は第 2 1図に瀺される携垯情報端末装眮の䞀䟋を瀺すプロ ック図である。
第 2 3図は携垯倩報端末装眮においお 2個のマむクを甚いお雑音適 応を行う堎合の凊理手順の䞀䟋を詳现に瀺したフロヌチダ䞀トである。 第 2 4図は携垯情報端末装眮を甚いた トランシヌバ型通話における 音声認識の凊理手順の䞀䟋を瀺すフロヌチダ䞀トである。
第 2 5図は携垯情報端末装眮を甚いたセパレヌト型通話における音 声認識の凊理手順の䞀䟋を瀺すフロヌチャヌトである。
第 2 6図は話者適応及び雑音適応を行う音声認識システムにおける 音声認識凊理の手順の䞀䟋を瀺すフロヌチャヌトである。
第 2 7図は教垫なし話者適応を実行し䜿甚頻床によっお登録話者を 決める音声認識凊理手順の䞀䟋を瀺すフロヌチダ䞀トである。
第 2 8図は教垫なし話者適応を実行し䜿甚頻床によっお登録話者を 䞀定人数に保぀ようにした音声認識凊理手順の䞀䟋を瀺すフロヌチダ —トである。
第 2 9図は話者適応のための識別情報のうち話者管理に関する話者 管理テヌブルの構造の䞀䟋を瀺す説明図である。
第 3 0図は頻床情報によっお話者管理テヌブルの構造を修正及び倉 曎する凊理の䞀䟋を瀺すフロヌチャヌトである。
第 3 1図は初期化によっお話者管理テ䞀ブルに新しく入れ替えられ たリス トに察する操䜜の䞀䟋を瀺す説明図である。
第 3 2図は話者管理テヌブルに既に存圚するリス トに察する操䜜の 䞀䟋を瀺す説明図である。
第 3 3図は第 3 1図及び第 3 2図の凊理の手順を瀺したフロヌチダ
—トである。
第 3 4図は 2マむク型雑音適応の原理を瀺す説明図である。
第 3 5図はトランシ䞀バ型通話における音声認識の原理を瀺した説 明図である。
第 3 6図はセパレヌト型通話における音声認識の原理を瀺した説明 図である。 第 3 7図は雑音適応に応じおテヌブル先頭ァドレスポむンタの倀を 修正する操䜜を原理的に瀺した説明図である。
第 3 8図は H M Mパラメ䞀倕セッ 卜に含たれるグロヌバルテヌブル のためのアクセスポむンタテヌブルの構造の䞀䟋を瀺す説明図である。 第 3 9図は H M Mパラメ䞀倕セッ トに含たれる䞭間テ䞀ブルのため のアクセスポむン倕テヌブルの構造の䞀䟋を瀺す説明図である。
第 4 0図は倚次元ガりス分垃を甚いた確率挔算のためのテヌブルァ クセス手法を纏めお瀺した説明図である。
第 4 1図は䞭間テヌブルのアクセスず数倀テヌブルのアクセスずの 関係を時系列的に瀺した説明図である。
第 4 2図は浮動小数点挔算をサボ䞀トするマむクロプロセッサを甚 いる堎合に奜適な 1次元ガりス分垃の数倀テヌブルの䞀䟋を瀺す説明 図である。
第 4 3図は敎数挔算で察応可胜な 1次元ガりス分垃の数倀テヌブル の䞀䟋を瀺す説明図である。 発明を実斜するための最良の圢態
《混合ガりス H M Mを甚いた音声認識の抂芁》
先ず、混合ガりス H M Mを甚いた音声認識技術の基本的な内容に぀い お説明する。
第 5図には H M Mの䞀䟋を瀺しおある。 これにより、 H M Mは、 マル コフ過皋時点 t + 1の状態が、 時点 nの状態によっおのみ䞎えられる 確率過皋で衚珟される状態遷移モデルであるこずが理解されるであろ ラ。
音声認識では、 この状態を䞀皮の確率的な 「音源」 ず看做しおいる。 ここで、 確率的ずいう意味は、 この状態に存圚する堎合、 垞にある決た ぀た音が生成されるずは限らず、色々な音が生成される確率が䞎えられ おいる。 これを、 䞀般に出力確率ず呌ぶ。
音声認識では、 蚀葉ず音ずを、 この状態を半順序関係を䞎えお接続し たモデルで衚珟する。 具䜓的には、 第 6図のような left- to- right 型 の H M Mが甚いられるこずが倚い。
䟋えば、 「あい」 ずいう単語を left- to- right 型の H M M で衚珟す るこずを考える。 これを仮に 「Word l」 ずする。 そしお、 状態 S 1には 「あ」 、 状態 S 2には 「い」 を衚珟させる。
この時、 䟋えば、 必ず 「あ」 が 1フレヌム 䟋えば 1 0 m s ) 、 「い」 が 1フレヌム 䟋えば 1 0 m s ) であれば、 S 1 => S 2の状態遷移で衚 珟できるこずになる。 しかし、 実際は、様々な長さの「あ」の埌に、様々 な長さの 「い」 が続くこずになる。
このような時間的な 「ばら぀き」 を衚珟するため、 自分に察する状態 遷移ず隣に察する状態遷移を確率的に衚珟する。 こうするず、 「あ」 が nフレヌム継続した埌に、 「い」 が mフレヌム継続しお終了する発声パ タヌンが、 確率的に 各パタヌンの生成確率ずいう圢で 衚珟できる。 この確率が遷移確率 状態遷移確率 であり、 第 6図の Wordlにおいお al ( ll )は状態 S 1が次に同じ状態 S 1を採る状態遷移確率であり、 &1 ( 12 )は状態3 1が次に隣の状態 S 2を採る状態遷移確率である。 たた、 「あ」 ずいう発声に぀いおも、 老若男女によっお、 その音響的 性質は倧きく異なる。 そこで、 それらの統蚈的な出珟パタヌンから、 「あ」ずいう発声を衚珟する状態 S 1 における特城ベク トルの出力パ タヌンを確率的に衚珟するこずで、様々な人の発声パタヌンをモデル化 するこずができる。 この確率的な衚珟が出力確率である。第 6図におい お Word 1の状態 S 1における出力確率は bl l (y)で衚珟され、 Word 1の 状態 S 2における出力確率は bl2(y)で衚珟されおいる。 以䞊のように、 HMMは「様々な人の蚀葉の時間的あるいは音響的な ばら぀きを衚珟」するため、 人の発声過皋を確率的にモデル化したもの であり、 圓然その評䟡も確率的にならざるを埗ない。 すなわち、 ある芳 枬系列 入力音声の分析結果 が䞎えられた堎合、 各単語を衚珟するモ デルにおいお、 圓該芳枬系列が埗られる確率 尀床 を評䟡し、 最も尀 床の高いモデル 若しくはそれが意味する単語 を、 認識候補ずしお出 力する。
前述のように、 HMM音声認識では、 最も尀床の高いモデルを認識候 補ずしお出力する。 このためには、 各々のモデル毎に尀床を蚈算する必 芁があり、 それには、 状態毎に、 状態遷移確率ず出力確率ずの積を挔算 する必芁が有り、 党䜓ずしお膚倧な蚈算負荷が予想される。 そこで、 そ のような挔算には、 䟋えば、 ビ倕ビ Viterbi) の方法ず呌ばれる、 侀 皮の動的蚈画法を甚いた凊理が行なわれる。
ビ倕ビの方法は、 耇数経路存圚する状態遷移経路 パス のうち、 最 も尀床の高いパス 最適パス を遞択し、 その尀床によっお評䟡する。 この蚈算は、 匏 1のように効率的に実行できる。
, + i(i) - ax{a t ίϊ— l)· a; - i,,. · b;(y( + i) t ( ) - a '·,,+ · b .·( y r + 1) }··'匏 1 ひ】 (り二ん ( =1)
a ι(ι) = 0 ( ≠ 1) 匏 1においお a;,;は状態 jから状態 iぞの状態遷移確率である。 b; yi)は状 態 iにおいお状態 ίを出力する出力確率であり、 は特城べクトルの察応す る特城次数の倀である。 ひ は時亥 Ut、 状態 iにおける前向き確率である。 このように、 H MM音声認識では、 各フレヌム毎に状態遷移経路の党 おの状態の出力確率の倀が必芁になる。 倚くの堎合、 この出力確率は、 混合倚次元ガりス分垃によっお䞎えられる。 これを本明现曞では、 混合 ガりス HMMず呌ぶ。 混合ガりス HMMでは、 出力確率は、 匏 2の混合倚次元ガりス分垃の ような関数で䞎えられる。
(J '匏 2
Figure imgf000021_0001
混合倚次元ガりス分垃を衚す匏 2においお、䟋えば 3混合 2次元の混 合倚次元ガりス分垃は、 第 7図のように衚すこずができる。第 7図の 3 混合 2次元ガりス分垃は、 匏 3のように衚珟される。 bs(y) =
Figure imgf000021_0002
exp{ - ( 2 - jLLs び . 2
(2 aSn) }]
Figure imgf000021_0003
}] '匏 3
V( び  匏 3で衚珟される前蚘 3混合 2次元ガりス分垃を䟋えば 2次元の特 城空間 y l、 y 2に察しお衚珟した図が第 7図である。 ここで、 *Aの 山は匏 3の第 1項目、 * Bの山は匏 3の第 2項目、 *Cの山は匏 3の第 3項目によっお衚珟される。この 2次元の特城空間を第 7図の断面 1で 切断し、 暪から芋た様子が第 8図に瀺される。 前蚘匏 2においお、 kは 混合数、 は山の高さ、 各次元毎の関数
1
, exp{-(yi- j ski) / aski は 1次元正芏分垃関数である。 これに
V(2 σΜ) い }
おいお yiは特城べクトルの次元毎の特城成分である。 匏 2においお、 耇数の 山が有るのは、 同じ語でも老若男女によっお音響的な特城が盞異されるこず に基づく。
匏 2や匏 3等に瀺されるような混合ガりス分垃の挔算の高速化には、 蚈算する分垃を倧きく限定する方法ず蚈算の䞀郚をテヌブル化する方 法ずが有効である。 たた、 効率化のため、 混合倚次元ガりス分垃を察数 評䟡するこずも倚いが、敎数凊理で行う堎合も原理的には党く同じであ る。 䟋えば匏 3の挔算の高速化手法に぀お説明する。
蚈算を高速にするずいう芳点からは、 前述のように、 特城べク トルを 幟぀かの暙準的なパタヌンに察応させ べク トル量子化 、 そのパ倕䞀 ン毎に出力確率を定矩する方法が可胜である。
いた、 第 7図の混合ガりス分垃を䟋を説明する。 この䟋では、 䟋えば、 領域 1に存圚する特城べク トルに察しおは、 匏 3で定矩される倀は、 そ の第 1項目の倀ず殆等しい すなわち、 第 2項目及び第 3項目のスコア は殆 0 ) ず看做せる。 埓っお、 特城が領域 1に存圚するこずさえわかれ ば、匏 3の出力確率は、その第 1項目の蚈算すなわち分垃 * Aの蚈算 だけで取埗するこずができる。
䞊蚘の凊理の堎合、 特城空間を郚分領域に分割しお、 その郚分領域ず 蚈算する分垃を察応付けるこずになるが、特城べク トルず郚分領域ずの 察応には、 べク トル量子化が甚いられるこずが倚い。べク トル量子化ず は、 特城空間䞊の有限個の代衚べク トルを考え、 特城空間䞊の任意の点 を、 その点ず最も近い代衚べク トルで近䌌衚珟する方法である。䟋えば、 第 7図に瀺されるの特城空間を a b cの 3点で代衚するず、 領域 1 の特城べク トルは aに察応するこずになる。
このようなべク トル量子化には、効率的な方法が幟぀か提案されおい るが、 基本的に、 距離が最小ずなる代衚べク トルを遞択する。 䟋えば、 a、 b、 cのような代衚点から各特城次数の倀たでの距離蚈算を行っお、 距離が最小ずなる代衚べク トルを遞択すればよい。このべク トル量子化 は、混合倚次元ガりス分垃をそのたた蚈算するに比べれば挔算量は僅少 になるが、 それでも蚈算負荷は小さいずはいえない。
たた、出力確率の挔算の䞀郚をテヌブル化しお挔算速床を高速化する こずも可胜である。 この堎合も、 そのテ䞀ブルをべク トル量子化によ぀ お構成するこずができる。 しかし、 べク トル量子化しお出力確率を察応 させるず、 量子化誀差が倧きくなり、 認識性胜が劣化する。
そこで、 蚈算を各々特城次元における蚈算に分解しお、 各特城次元を 暙準的なパタヌンに分割し、 各々の蚈算結果をテヌブル化する、 スカラ 量子化の手法を採甚するこずができる。 䟋えば、 匏 4
, = exp{ - yi - U ski ) / (7 ski \ .··匏 4
V(2 Gski) い ,
で瀺される単䞀ガりス分垃をテヌブル化する。 即ち、 yi の倀ずこの倀 に応ずる匏 4の倀ずを察応させた数倀テヌブルを蚭ける。 これは、 察数 系か吊かで衚珟する関数も異なるが、 基本的な原理は共通である。 この 堎合、 ベク トル量子化ずは異なり、 量子化誀差は僅少になる。
スカラ量子化には前述の通り非線圢スカラ量子化、線圢ス力ラ量子化 がある。混合ガりス分垃のスカラ量子化においお、 各次元毎の関数は、 単䞀の 1次元正芏分垃であり、その分垃の特城は平均ず分散が分かれば 芏定できる。
非線圢スカラ量子化では、 数倀テヌブルの数を枛らすために、 代衚的 な平均ず分散の 1次元ガりス分垃に関する数倀テヌブルを蚭け、皮々の 平均ず分散に察しおは、 パラメ䞀倕挔算を行い、 パラメ䞀倕ず特城成分 ずから数倀テ䞀ブルを参照する。 しかしながら、 この手法は、 テヌブル アクセスのために必ず各特長成分毎のパラメ䞀倕挔算を行わなければ ならず、 たた、 テヌブルの参照においおも、 そのように挔算されたパラ メ䞀倕を甚いるアクセスは、テ䞀ブルに察しお連続した配列のアクセス になるずは限らないので、テ䞀ブルを参照するためのァドレス挔算も毎 回乗算ず加算が必芁になる。 この技術は前蚘文献 "ON THE USE OF SCALAR QUANTI ZATION FOR FAST 薩 COMPUTATION" , ICASSP 95 , pp . 13-216 に 蚘茉があり、 各特城成分毎乗算、 枛算、 型倉換あるいはシフ ト挔算を芁 するパラメ䞀倕挔算を䌎うこずになり、 たた、 テヌブルの参照においお も、そのパラメ䞀倕をむンデックスずする配列をアクセスするこずにな る。 この堎合、 連続した配列のアクセスではないので、 機械語 ァセン ブラ レベルでは、 配列のアドレスの蚈算に乗算ず加算 むンデックス Xデヌタ長 +先頭ァドレス の蚈算も必芁になる。 埓っお、 呜什レベル では、 乗算が 2回、 加枛算が 2回、 ず型倉換あるいはシフ 卜が 1回、 デ 䞀倕のロヌドが 2回必芁 先頭アドレスず数倀デヌタ になる。
この蚈算を行わずに、 数倀テヌブルの倀を埗るには、 䟋えば、 䞀般的 な線圢量子化を行えば可胜である。本明现曞では、 これを線圢スカラ量 子化ず呌ぶ。
第 9図には線圢スカラ量子化を行う堎合の数倀テヌブルず 1次元正 芏分垃ずの関係が瀺されおいる。線圢スカラ量子化の堎合、 特城を等間 隔に量子化する。量子化し易いように、 分垃党䜓を 2の N乗個に分割す れば、 線圢スカラ量子化は、 特城成分の䞊䜍 Nビッ トを抜出こずず同矩 である。 第 1 ◊図にはこの線圢スカラ量子化の内容が瀺されおいる。 線圢スカラ量子化では、 量子化の代衚点は固定であるから、 量子化凊 理は、 各フレヌム毎に、 換蚀すれば特城成分毎に、 1回行えば良い。 た た、代衚点はそのたたィンデックスに盞圓するから、 数倀テ䞀ブルにお ける先頭ァドレスず所望アドレスずの差 以䞋、 オフセッ ト は、 むン デックス Xデ䞀倕長になり、 その挔算も党おの分垃で同じであり、 1フ レヌム毎に 1回実行すればよい。 そしお、 必芁な数倀テヌブルぞのァク セスは、 各数倀テヌブルの先頭ァドレスず、 オフセヅ 卜の和で蚈算でき るから、 結局、 1回の加算ず、 2回のロヌド 先頭アドレスず数倀デヌ 倕 で実行される。
混合ガりス型 H M Mの出力確率の蚈算 匏 3 ) では、 単䞀ガりス分垃 (含む察数系 に盞圓する蚈算量を䜎枛するこずが重芁である。 このよ うな各特城成分毎の蚈算は、出力確率の蚈算においお最も蚈算負荷の倧 きい郚分であり、蚈算数は、党モデル数認識芁玠数 X left to r ight で 接続された状態数であり、 第 6図の䟋では 2 N個 X混合数 X特城次元 の数で衚珟されるため、 些现な蚈算コス トの増倧が、 党䜓の蚈算量の増 犬に盎結する。 この郚分で、 線圢スカラ量子化は、 テヌブルのアクセス 以倖、 党く蚈算が発生しないため、 蚈算効率の芳点からは非垞に優れお いる。
しかしながら、 線圢スカラ量子化では、 固定された代衚点に察しお、 各分垃毎に数倀テヌブルが必芁になるので、 前述の通り、 数倀テヌブル の数若しくはデヌタ量が膚倧になり、 たた、 話者適応凊理や雑音適応凊 理のために、 混合ガりス分垃のパラメ䞀倕 平均■分散 を修正するず、 それに䌎う蚈算量も膚倧になり、数倀テヌブルを修正するにも倚倧の凊 理が必芁になっおしたう。
以䞋詳现に説明する本発明の実斜䟋では、混合ガりス分垃を甚いる出 力確率挔算においお、その䞀郚を 1次元正芏分垃のデ䞀倕テヌブルのァ クセスに眮き換えお挔算速床の高速化を図るものであり、 このずき、 äž­ 間テヌブル若しくはグロ䞀バルテ䞀ブルを採甚し、出力確率を高速に蚈 算できる線圢スカラ量子化の特城を備え぀぀、テヌブルのデ䞀倕量を少 なくでき、 たた、 話者適応、 環境 雑音 適応等に柔軟に察応できるよ うにするものである。
《音声認識システムの抂芁》 第 1図には本発明の䞀実斜䟋に係る音声認識システムのプロック図 が瀺される。第 1図に瀺される音声認識システムは、 特に制限されない が、 音声認識ボヌド 1 0 1、 マむクロフォン 1 0 7及びモニタ デむス プレむ 1 0 8によっお構成されおいる。前蚘音声認識ボ䞀ド 1 0 1は、 1チップの L S I䞊に党お実珟するこずも可胜である。 たた、 モニタ 2 0 3は、 䟋えば、 音声入力装眮などに甚いる堎合、 必ずしも必芁ではな い。
前蚘音声認識ボヌド 1 0 1は、 A/D倉換噚 1 0 2、 マむクロプロセ ヅサ MP U) 1 0 3、 R OM (リヌド . オンリ . メモリ 1 0 5、 R AM (ランダム 'アクセス 'メモリ 1 0 6によっお構成される。 前蚘 モニタ 1 0 8が付加される堎合、 さらにビデオむン倕䞀フェヌス V I F ) 1 04が必芁である。
前蚘 A/D倉換噚 1 0 2は、マむクロフォン 1 0 7より入力されたァ ナログ音声信号を、 デゞタル信号に倉換する。前蚘 R OM 1 0 5は読み だし専甚メモリで、 本音声認識システムのプログラムや必芁なデ䞀倕 (䟋えば、 蟞曞や H MMパラメ䞀倕 が栌玍されおいる。 前蚘 RAM 1 0 6は、 読み曞き可胜メモリであり、 マむクロプロセッサ 1 0 3のヮヌ ク領域若しくはテンポラリ領域等に利甚される。
第 2図には第 1図に瀺された MPUの詳现な䞀䟋が瀺される。 MPU 1 0 3は、 バスむン倕䞀フェヌス 1 1 8を介しお、 前蚘 R OM 1 0 5、 RAM 1 0 6, A/D 1 0 2及び V I F 1 04に接続される。 MPU 1 0 3の動䜜プログラムは、呜什キダッシュ 1' 1 0を介しお呜什制埡ュニ ヅ ト 1 1 2ぞ送られおデコ䞀ドされる。 MPU 1 0 3はそのデコヌド結 果に基づいお挔算制埡動䜜を行う。必芁なデヌタは、 デ䞀倕キダッシュ 1 1 7を介しお、口䞀ドュニッ ト 1 1 4からレゞス倕ファむル 1 1 1ぞ、 或いはレゞス倕ファむル 1 1 1からス トアュニッ ト 1 1 5を介しおデ —倕キャッシュメモリ 1 1 7に送られる。レゞスタフアむノレ 1 1 1に栌 玍されたデヌタは、 必芁に応じお、 敎数挔算であれば敎数ュニッ ト 1 1 6で凊理され、浮動小数点数であれば浮動小数ュニッ ト 1 1 7で凊理さ れ、 その凊理結果は再びレゞス倕ファむル 1 1 1に戻され、 前蚘ス トァ ナニッ ト 1 1 5を介しおメモリに曞き蟌たれる。デ䞀倕アクセスにおい おデヌタキャッシュ 1 1 7がキャッシュヒッ トであれば倖郚メモリの アクセスは行なわれず、 デヌタキダッシュ 1 1 7からのリ䞀ド、 或いは デヌタキダッシュに察するキダッシュフィルが行なわれる。キダッシュ ミスの堎合には倖郚デ䞀倕メモリのアクセスが行なわれ、 曎に、 必芁な ェント リが倖郚デヌタメモリからデ䞀倕キダッシュ 1 1 7に远加され る。呜什アクセスにおいお呜什キダッシュ 1 1 0がキャッシュヒヅ 卜で あれば倖郚メモリアクセスは行なわれず、呜什キダッシュ 1 1 0から呜 什がフェッチされる。キャッシュミスの堎合には倖郚呜什メモリのァク セスが行なわれ、 曎に、 必芁なェントリが倖郚呜什メモリから呜什キダ ヅシュ 1 1 0に远加される。
第 3図には、第 1図で瀺した音声認識装眮を甚いお実行される凊理の 手順ずしお、 電源をオンにしおシステムを立ち䞊げおから、 電源をオフ にしおシステムを停止するたでの凊理の抂芁が党䜓的に瀺されおいる。 第 3図においおステップ 2 0 1は凊理の開始を瀺す。 これは、 具䜓的 には動䜜電源の投入電源オン などによっお指瀺される圓該システム の動䜜開始に盞圓する。 圓該システムの動䜜を開始するず、 ステップ 2 0 2によっお、 必芁なデ䞀倕 2 5 0を R O M 1 0 5から読み蟌み、 それ を R A M I 0 6若しくはデヌタキダッシュ 1 1 7に展開する。この堎合、 滅倚にアクセスしないデ䞀倕や、曞き換えないデ䞀倕で高速な䞍揮発メ モリを甚いおいる堎合、 R A M 1 0 6等にあえお展開しなくずも、 必芁 な時に盎接 R O M 1 0 5をアクセスしおデヌタを取埗すればよい。 ステップ 2 0 3〜 2 0 5は、 ここでは、 䞀皮の無限ルヌプであり、 そ れは䟋えば終了呜什を実行するたで繰り返される。ステップ 2 0 5で終 了が刀定されるず、 システム動䜜が終了される ステップ 2 0 6 ) 。 こ の間、 適応凊理 ステップ 2 0 3 ) ず認識凊理 ステップ 2 0 4 ) は必 芁に応じお実行される。
適応凊理ずは、必芁に応じお H M Mなどの諞パラメ䞀倕を修正する凊 理を意味する。 䟋えば、 環境適応を䟋に採れば、 䜿甚する雑音環境にお ける雑音をサンプルし、 それに応じお H M Mの出力確率を修正する。 出 力確率が前蚘匏 2で衚わされる混合ガりス H M Mでは、各混合ガりス分 垃の平均ず分散の修正を意味する。デ䞀倕 2 5 2は適応のためのデヌタ、 デ䞀倕 2 5 3は認識のためのデヌタである。
認識凊理 ステップ 2 0 4 ) は、 必芁に応じお䞊蚘の適応凊理 ステ ップ 2 0 3 ) された H M Mパラメ䞀倕 デ䞀倕 2 5 1 ) を甚いお実行さ れる。 ここでは、 マむク 1 0 7からの入力音声デ䞀倕 2 5 3に察しお音 声認識を行い、 認識された結果 2 5 4 (䟋えばテキス トデ䞀倕 を出力 する。
第 4図には前蚘認識凊理ステップ 2 0 4 )の抂芁が瀺されおいる。 ステップ 2 1 1によっお認識凊理が開始されるず、 先ず、 ステップ 2 1 2で、 サンプル音声 2 5 3の特城が分析される 特城分析 。
特城分析は、 音声波圢を、 䞀定間隔 䟋えば 1 0 m s毎 で䞀定区間 取りだし この郚分音声区間のこずをフレヌムず呌ぶ 、 このフレヌム においお、 音の性質が倉化しないのものしお 定垞性のあるものずし お 、 音の性質を分析する。 音の性質は、 䟋えば呚波数スぺク トル F F Tによっお蚈算できるや L P C係数Levinson- Durbin の再垰匏に よっお蚈算できる により分析できる。 これらは、 䞀般に耇数のパラメ 䞀倕矀によっお衚珟されるため、 特城べク トルず呌ばれる。 この特城分 析により、 音声信号 2 5 3は、 フレヌム毎の特城べク トル 2 5 5に眮き 換えられる。 尚、 n次元の特城べク トルは n皮類の呚波数成分を有する。 この特城べク トル列を芳枬べク トル列ず呌ぶ。
次のステップ 2 1 2によっお、 出力確率の蚈算が行われる。第 5図に 基づいお説明したように、 H M Mにおいお、 出力確率ずは、 各々の状態 が 「ある特城」 の音を出力する確率を意味する。 埓っお、 出力確率は、 前蚘匏 2で説明したように、 「ある特城」 を瀺す特城べク トルの関数ず しお衚珟される。
H M M音声認識には、 特城べク トルをべク トル量子化し、 その量子化 べク トルの関数ずしお出力確率を䞎える方法 離散型 H M M ) ず、 特城 べク トルの確率関数ずしお䞎える方法 連続型 H M M ) があるが、 本実 斜䟋では、 埌者のうち、 出力確率を混合ガりス分垃で定矩した方法を察 象ずしおいる。
混合ガりス型 H M Mの堎合、 出力確率は、特城べク トルの関数ずしお、 各 H M Mの状態毎に、 前蚘匏 2で䞎えられおいる。
この出力確率蚈算は、 ステップ 2 1 4の認識照合時 ビ倕ビサヌチ に䞊行しお行うこずも可胜であるが、 蚈算負荷が倧きいこずから、 重耇 した蚈算を避けるため、 照合 サヌチ 2 1 4に先だっお、 必芁な出力 確率を蚈算しおいる ステップ 2 1 3 ) 。
ステップ 2 1 4では、ステップ 2 1 2によっお埗られた芳枬べク トル 列ずステップ 2 1 3によっお蚈算された出力確率 2 5 6から、各モデル のスコアを蚈算する。 ここで、 スコアずは、 䟋えば第 6図に瀺したモデ ルが、 䞎えられた特城べク トル列のパタヌンを生成する 察数 確率で 定矩するこずができる。認識候補は、 スコアの最倧ずなるモデルずする。 各モデルにおいお最も確率が高くなる状態遷移系列のスコア 以䞋、 ビ 倕ビスコア を圓該モデルのスコアず看做しお、 ビ倕ビサヌチが行なわ れる。
《䞭間テ䞀ブルを甚いた出力確率の蚈算》
第 1 8図には本実斜䟋における出力確率の挔算凊理 ステップ 2 1 3 ) の曎に詳现が瀺される。
本発明では、 単䞀ガりス分垃の 察数 確率蚈算を、 特城成分を均等 に郚分領域分割し 線圢スカラ量子化 これに察応した蚈算結果を、 予 め数倀テヌブル化し、 蚈算負荷を䜎枛しおいる。線圢スカラ量子化を行 う利点は、 各特城に察しお、 党おの混合分垃に぀いお同䞀の点に量子化 される。 すなわち、 量子化凊理が各分垃党おに共有されるため、 1フレ —ムに 1床で枈む。 たた、 数倀テヌブルのむンデックスが、 各特城成分 で共通化されるず、 数倀テ䞀プルのオフセッ ト アクセスすべきテヌプ ルの先頭ァドレスず該圓配列芁玠のァドレスの差ニ ヌ般にむンデック スずデ䞀倕長の積で蚈算される も同䞀ずなるため、 数倀テヌブルのォ フセッ トを求める凊理も 1フレヌムに 1床で枈む。 これによ぀お、 非 線圢スカラ量子化ず異なり単䞀ガりス分垃の蚈算に必芁な凊理が、 加 算配列の先頭ァドレスずオフセッ 卜の和 ず口䞀ドス トァだけで可胜 になり、 非線圢量子化に比べお著しく短い蚈算時間で蚈算できる。
しかし、 このようなアプロヌチでは、 適応などの凊理によっお分散、 平均が修正されるず、 特城の察応関係は固定であるから 数倀テヌプ ルの倉曎が必芁になる。 この倉曎を避けるため、 数倀テ䞀ブルぞのァク セスァドレスが蚭定された䞭間的なテヌブル䞭間テヌブルを甚いお、 アクセスパタヌンを制埡する。 たた、 この䞭間テヌブルに分垃の遞択、 削枛のための情報を持たせお、 蚈算を簡略化する。 以䞋、 その内容を詳 述する。
ステップ 1 0 0 0は出力確率蚈算の前蚘ステップ 2 1 3の開始を意 味する。 ステップ 1 0 0 1では、 ステップ 2 1 2で分析された特城べク トル 敎数型 ·浮動小数型いずれでも可胜 に察し、 線圢スカラ量子化 を行い、 その倀 むンデックス 察しお、 オフセッ ト 以䞋、 特城オフ セッ ト若しくはテヌブルオフセッ トず称する を蚈算する。 この蚈算は 簡単な蚈算で行うこずができ、 䟋えば敎数系の堎合、 線圢スカラ量子化 された倀を党䜓の量子化数で割り、 それにデ䞀倕長䞀぀の配列党䜓の デヌタ長 を掛ける凊理によっお、 特城オフセッ トを蚈算できる。 線圢 量子化は第 1 0図で説明したように、量子化範囲を 2の N乗個に分割す れば特城成分の䞊䜍 Nビッ トを埗るこずによっお量子化できるのであ るから、 量子化数/デヌタ長の倀を 2の N乗の圢匏にすれば、 1回の右 シフ ト で実行できる。 匏で瀺せば、 浮動小数系の堎合、 特城成分にあ る定数 定矩域長/量子化数 Xデヌタ長 を掛けお敎数型に倉換する。 これ以降、 第 1 8図の凊理では、 前蚘特城オフセッ トを䜿甚し、 特城 べク トルは蚈算には甚いない。 この特城オフセッ トは、 デ䞀倕 1 0 5 0 で衚珟する。
ステップ 1 0 0 2では、ステップ 1 0 0 1で求めた特城ォフセッ トか ら、各状態の各分垃毎にアクセスすべき䞭間テヌブルのアクセスァドレ スを求める。 䞭間テヌブルのアクセスァドレスは、 各分垃ごずに定矩し た䞭間テ䞀プルの先頭アドレス 圓然、 各分垃ごずに党お異なる ず特 城オフセッ ト 同じ特城次元に察しお、 党お共通 を加えお求められる。
䞭間テヌブルは、 第 1 1図及び第 1 2図に䟋瀺される 3 0 1、 3 0 1、
3 0 2の 1次元ガりス分垃に 1察 1察応で配眮される圢態、 或いは、 第 1 7図に䟋瀺される 4 0 1 , 4 0 2のように耇数の特城成分に兌甚可胜 なグロヌバルテヌブル 4 0 0から抜出する圢態の䜕によっおも構成す るこずができる。埌者においお、 グロ䞀バルテ䞀ブル 4 0 0は倚数の䞭 間テ䞀ブルの集合ずしお䜍眮付けるこずができる。第 1 1図及び第 1 2 図においお 3 0 1 , 3 0 2で瀺されるものが䞭間テヌブルの䞀䟋である。 第 1 7図においお 4 0 0がグロヌバルテヌブルの䞀䟋を瀺す。第 1 Ί図 においお 4 0 1、 4 0 2はグロ䞀バルテヌブル 4 0 0から抜出された䞭 間テ䞀ブルの䞀䟋である。
䟋えば第 1 7図に瀺したグロヌバルテヌブル圢匏においお、䞭間テヌ ブル 4 0 1 , 4 0 2の先頭ァドレスは、 グロヌバルテヌブル 4 0 0から 䞭間テヌブルずしお抜出すべきデヌタ領域の先頭䜍眮、 䟋えば P 1、 P 2を瀺しおいる。この先頭䜍眮の決定手法に぀いお詳现は埌述するが、 第 3 8図に䟋瀺されるように、特城成分毎の平均及び分散の倀が栌玍さ れたテヌブル 4 1 0の倀を甚いお挔算し、或いはその挔算結果を予め蓄 えたアクセスポむンタテヌブル 4 2 0を甚いるこずができる。アクセス ボむン倕テ䞀ブル 4 2 0のポむンタ P 0〜P nが特城成分毎に抜出す べき䞭間テヌブル 4 0 1 , 4 0 2の先頭䜍眮を指しおいる。
䞀方、 第 1 1図及び第 1 2図に䟋瀺した䞭間テヌブル 3 0 1 , 3 0 2 の圢匏では、 䞭間テ䞀ブル 3 0 1 , 3 0 2の先頭ア ドレスは個々の䞭間 テヌブル 3 0 1 , 3 0 2の先頭ァドレスを意味する。特城成分毎に定矩 されるべき䞭間テヌブルの先頭ァドレスは、 䟋えば、
第 3 9図に䟋瀺されるように、 特城成分毎に、 アクセスポむンタ P 0 ~ P nずしおアクセスポむンタテ䞀ブル 3 1 0に定矩するこずができる。 前蚘アクセスボむン倕テ䞀ブル 3 1 0 , 4 2 0などは第 1 8図におい おむンデックステ䞀ブル 1 0 5 1 ず称されおいる。 尚、 第 1 8図におい おテヌブルアドレス 1 0 5 5はステップ 1 0 0 2で挔算された䞭間テ —ブル先頭ァドレスに前蚘特城オフセッ トを加算した倀である。
この䟋では、 䞭間テ䞀ブル 3 0 1 4 0 1には、 数倀テヌブルのァド レス オフセッ ト 及び分垃削枛情報が栌玍されおいる。 正芏分垃の堎 合、 第 1 3図に䟋瀺されるように、 分垃の平均 䞭倮倀 から䞀定以䞊 離れるず、 数倀的には 0 (察数系で䞀∞) ずなる。 無盞関倚次元分垃は、 䞀次元正芏分垃の積で衚珟されるから、 䞀぀の分垃でも、 䞭倮から非垞 に離れおしたうず、 数倀的に蚈算する意味がない。 埓っお、 そのような 数倀デヌタ䞍芁領域では、䞭間テ䞀ブルのそれに察応する領域には数倀 テヌブルのア ドレスを栌玍せず、 䟋えば、 匏 6
d
Figure imgf000033_0001
 匏 6
で定矩される距離デ䞀倕を栌玍しおおく。匏 6の距離デヌタは、 垞に負 の倀になる。 曎にその倖偎には倀 "0" を栌玍しおおく。 特城成分に察 する量子化数が少ない堎合には、 第 1 4図に䟋瀺されるように倀 "0" を栌玍しない態様を採甚するこずも可胜である。
䞊蚘距離デ䞀倕ず倀 " 0"が分垃削枛情報の䞀䟋になる。 第 1 5図に は単䞀ガりス分垃に察する前蚘分垃削枛情報の配眮の䞀䟋が瀺されお いる。第 1 5図においお領域 Ε 1は数倀テヌブルのデ䞀倕のマツビング アドレスが栌玍された領域、 Ε 2は前蚘距離情報が栌玍された領域、 Ε 3は前蚘倀 "0"が栌玍された領域である。 平均や分散の倀に応じた 1 次元ガりス分垃の分垃状態によっおは Ε 2 , Ε 3の領域が無い堎合もあ るのは圓然である。
第 1 6図に瀺されるように、分垃削枛情報に察しおは分垃削枛条件 1 , 2が刀定される。前蚘䞭間テヌブル 30 1 , 40 1からアクセスされた 䞭間テヌブルの倀を刀定し、 "0"の堎合、 圓該倚次元ガりス分垃の倀 を "0" ずみなし、 圓該倚次元ガりス分垃に関する出力確率挔算を䞭断 しお次の倚次元ガりス分垃に関する凊理に移る。即ち、 䞭間テヌブル 3 0 1 , 40 1の倀に察しお "0"か吊かの刀定が分垃削枛条件 1の刀定 になる。 アクセスされた䞭間テヌブル 30 1 40 1の倀が負数である ずきは、 その䞭間テヌブル 30 1 , 40 1の倀を距離情報ずみなし、 圓 該倚次元分垃䞭の他の成分の距離情報ず積算し、これが䞀定倀を越えお いれば、圓該倚次元ガりス分垃に関する出力確率挔算を䞭断しお次の倚 次元ガりス分垃に関する凊理に移る。この距離情報の环積倀が䞀定倀を 越えるか吊かの刀定が分垃削枛条件 2の刀定である。䞭間テヌブル 30 1 , 40 1の倀が正数であるずきに始めお䞭間テ䞀プル 30 1 401 の倀を数倀テヌブルのァドレスずみなし、そのァドレスのデヌタをプ ツチする。
第 18図においお分垃削枛条件 1の刀定 ステップ 1003 ) では、 アクセスされた䞭間テヌブル 3ひ 1 401の倀が刀定され、 "0"で あるず刀断されたずきは、凊理䞭の圓該倚次元ガりス分垃に関する出力 確率挔算を䞭断しお次の倚次元ガりス分垃に関する凊理に移るステツ プ 10 1 1 ) 。 アクセスされた䞭間テヌブル 30 1 40 1の倀が負数 であるずきは、 その䞭間テ䞀プル 30 1 40 1の倀を距離情報ずみな し、 圓該倚次元分垃䞭の他の成分の距離情報に环蚈する ステップ 10 04) 。 1056は环蚈されたメモリ䞊のデヌタを意味する。 たた、 ァ クセスされた䞭間テヌブル 30 1 , 401の倀が正数の堎合、 たた、 ス テツプ 1004の环蚈蚈算が終了された埌、分垃削枛条件 2の刀定ずし お、 距離の环蚈倀が所定倀 aを越えおいるか吊かの刀定が行われる  1 005 ) 。 これが、 䞀定倀を越えおいれば、 圓該倚次元ガりス分垃に関 する出力確率挔算を䞭断しお次の倚次元ガりス分垃に関する凊理に移 る  10 1 1) 。
䞭間テヌブル 301 , 40 1の倀が正数であるずきに始めお䞭間テヌ ブル 30 1 , 401の倀を数倀テ䞀ブルのァドレスずみなした凊理が行 なわれる。 䟋えば、 ステップ 1006では、 第 2図に瀺されるようにデ 䞀倕キャッシュ 1 17のようなキャッシュメモリが備えられおいる堎 合に、 圓該アドレスのデ䞀倕がキャッシュに存圚しない堎合、 RAM I 06のような倖郚メモリ䞊の数倀テ䞀ブル 1052から前蚘䞭間テ䞀 ブル 30 1 , 40 1の倀で指定されるデヌタをキダッシュメモリ 1 17 に先読み プリフェッチ させる。 このようなデヌタプリフヱツチはデ 䞀倕バスが空いおいるずき、 適宜行なわれる。 これにより、 埌で、 数倀 テ䞀ブルの倀を甚いお数倀环積するずき、必芁なデヌタ 1 0 5 3は党お 若しくは殆どデヌタキダッシュメモリ 1 1 7に栌玍されおいるこずに なる。ステップ 1 0 0 7では、 凊理䞭の倚次元ガりス分垃に関する残り の単䞀ガりス成分が有るかを刀定し、 ある堎合には、 その単䞀ガりス分 垃に関する䞭間テヌブルのアクセスアドレス蚈算 加算挔算 に戻っお (ステップ 1 0 0 2 ) 同様の凊理を行う。 このずき、 テヌブルオフセッ 卜の蚈算はやり盎す必芁ない。前述の通り、 特城べク トルの特城成分は 既に線圢スカラ量子化されおいるからである。
第 1 8図の凊理では、 第 1のルヌプステツプ 1 0 0 2〜ステツプ 1 0 0 7 ) で、 党おの特城に察しお䞭間テヌブル 3 0 1 4 0 1をァクセ スする。 こうするず、 分垃削枛時に無駄ずなる蚈算が少なくでき、 か぀ プリフェッチ䞭間テヌブルの倀を甚いた数倀テ䞀ブルのデヌタプリフ ヱツチ による遅れも生じない。 䟋えば、 䞀぀の倚次元ガりス分垃に関 する凊理を行っおいるずき、 分垃削枛条件 1の刀定で、 数倀 " 0 " を刀 定したずき、圓該䞀぀の倚次元ガりス分垃に関する凊理を䞭断できるか ら、 そのような状況に至る堎合であっおも、 無駄に成る凊理は最小限に 抑えられおいる。
ステップ 1 0 0 7の分岐凊理を行わず、 ステップ 1 0 0 6の埌に、 す ぐにステップ 1 0 0 8を行うこずも原理的には可胜である。 しかし、 こ の堎合、 プリフェッチが有効に機胜しない 䞀般に、 メモリからキダッ シュにデ䞀倕転送するには倚少時間がかかる 。 たた、 分垃の削枛時に も数倀テ䞀ブルぞのアクセスが発生し、 奜たしくない。
埓っお、 本実斜䟋では、 ステップ 1 0 0 8で、 蚈算が必芁な分垃に限 り、 数倀テヌブルぞアクセスしお単䞀ガりスの 察数 倀を求める。 こ のずき、 数倀デ䞀倕は、 垞にキャッシュメモリに存圚し、 キダヅシナミ スミスペナルティは生じない。
倚次元ガりスの 察数 倀は、 この単䞀ガりスの 察数 倀からを蚈 算する。 この蚈算は、 党おの単䞀ガりス分垃の倀の積 察数倀の堎合は 和 で蚈算される。 埓っお、 ステップ 1 0 0 8では、 単にテ䞀プル倀を 埗るだけでなく、 これを、 既に环積されおいる倀 デ䞀倕 1 0 5 7 ) に 掛け合わせる 察数系では足し合わせる 凊理を行う。 この堎合、 最初 の成分を蚈算する時には、 环積の初期倀ずしお 1 (察数系では 0 ) が初 期倀ずしお必芁になる。 その环積倀は 1 0 5 7ずしお図瀺されおいる。 第 2のルヌプ ステップ 1 0 0 8〜ステツプ 1 0 0 9 ) で、 党おの成 分に察しおステツプ 1 0 0 8の凊理が実行されるず、その环積結果は、 倚次元ガりス分垃の倀ずなる。 したがっお、 ステップ 1 0 1 0では、 原 理的には、レゞス倕に栌玍されおいる环積倀をメモリにセヌブする凊理 ずなる。 曎に未凊理の倚次元ガりス分垃が有れば ステップ 1 0 1 1 ) 䞊蚘凊理 1 0 0 2に戻る。䞊述ず同様に、 テヌブルオフセッ 卜の蚈算は 新たに行う必芁はない。
もっずも、 この倚次元ガりスの倀は、 耇数の分垃の倀を混合しなけれ ばな ら ない。 混合は党お の倀の和 察数系では ADDL0G → addlog( a, b )= log{ exp( a) , exp(b ) }) によっお混合されるので、 同挔算を 环積倀ず実行し、 それを新しい环積倀ずしおレゞス倕に栌玍する ステ ップ 1 0 1 0 ) 。
この环積倀 1 0 5 8を先の环積倀 1 0 5 7ず区別するため、これ以降、 デ䞀倕 1 0 5 7の环積倀を倚次元环積デヌタ、デヌタ 1 0 5 8の环積倀 を混合环積デヌタず呌ぶ。党おの単䞀倚次元ガりス分垃に぀いお混合环 積デヌタ 1 0 5 8が蚈算されるず、 ステップ 1 0 1 2によっお、 出力確 率 2 5 6が蚈算される。基本的には、 この混合环積が出力確率 2 5 6ず なるが、 数匏凊理の仕方によっおは、 必芁な定数デ䞀倕 1 0 5 4を付加 するこずもある察数系の凊理でパラメ䞀倕を分離するなどしお数倀テ —ブルを少なくするなど 。 この堎合、 定数テヌブル 1 0 5 4から必芁 なデ䞀倕を取りだし、 倀を敎えるこずもある。 そしお最終的に出力確率 2 5 6が蚈算される。
この第 1 8図に瀺した凊理によっお、䞀぀の混合ガりスの蚈算が凊理 されたこずになる。 この凊理は、 蚈算すべき混合分垃の党おに実行され る 䞀般的な C M H M Mの堎合、 党おの H M Mの状態に察しお、 出力確 率が定矩されおおり、 その堎合、 これら党おに倀を求めなくおはいけな い 。 したがっお、 第 1 8図による蚈算の簡略化の効果は、 これら党お の確率蚈算に及ぶこずになる。
第 1 9図及び第 2 0図には、第 3図のステツプ 2 0 3の適応凊理の䞀 䟋が瀺される。第 1 9図では、 いわゆる環境適応ず呌ばれる適応凊理に おいお、 H M Mパラメ䞀倕—、 具䜓的には混合ガりス分垃の平均ず分散 を修正する䟋が瀺しおある。第 2 0図には、 修正したガりス分垃の分散 ず平均から、各 1次元ガりス分垃毎の䞭間テヌブルのボむン倕を決定し、 曎新する凊理手順が瀺されおいる。
第 1 9図に瀺される凊理を詳现に説明する。ステップ 1 1 0 1によ぀ お凊理が開始されるず、ステップ 1 1 0 2で雑音デヌタの特城を分析す る。これは、䟋えば、呚波数スぺク トルを甚いるのであれば、 F F T (Fast Fourier Transform高速フヌリ゚倉換 などで実行できる。 ステップ 1 1 0 3では、 この分析デ䞀倕を基準に適応の可吊を刀定する。 これは、 パラメ䞀倕を決めた 修正した時の雑音の性質ず珟圚の雑音の性質ず の比范によっお評䟡する。
比范の基準は、䟋えば、特城べク トルの䜍盞を比范の基準にするずか、 呚波数スぺク トルの盞互盞関性を評䟡するずか、様々なアプロヌチが考 えられる。 盞互盞関性を甚いた堎合、 珟圚の雑音スぺク トル デ䞀倕 1 150) ずパラメ䞀倕決定時のスぺク トル デ䞀倕 1 15 1 )の盞互盞 関を求め、 評䟡倀 1 152ずする。 この盞互盞関は匏 7ずしお䟋瀺する こずができる。 max YSil · N (Ps Pn) '匏 7 䜆し、 Λ {(2 ·)/ w|である。 Νは盞互盞
Figure imgf000038_0001
関性を評䟡するための孊習デ䞀倕の数である。
第 19図では、 雑音の特性倉動に着目した䟋を瀺したが、 䞀定間隔で 匷制的に適応する方法もある。 この堎合、 ステップ 1 102は䞍芁で、 評䟡倀 1 1 52には、 時間情報 曎新しおからの時間 を栌玍し、 䞀定 時間以䞊経過で適応凊理実行ず刀定すればよい。
いずれの堎合でも、 適応の刀断は、評䟡倀 1 1 52によっお刀断する c 適応が必芁ず刀断されるず、ステップ 1 105〜 1 107の凊理が行 われる。 䟋えば、 r = 1 , 2 , 3 ,  ずするずき、 雑音の特城べク トル を、
n(T) = { m(r), "2(お 
 }ずするず、 ステップ 1 105によっお、 雑 音デ䞀倕から、 䟋えば匏 8で瀺されるように平均を修正する。
Juki '匏 8
Figure imgf000038_0002
1/2
ω'
䜆し、 KJ(T) = 、 nは孊習デ䞀 eexxppj ηι— Όι) /び z 倕である 同様に、 ステップ 06によっお、 䟋えば匏 9で瀺されるように分 散を修䞀ァ 1正する。
Ok
Figure imgf000039_0001
侀 ÎŒ.Η2 '匏 9
2 (お び
䜆し、 (お)
exp|(/j 侀 Όι)' I G ϊ' たた、 ステップ 1 1 07によっお、䟋えば匏 1 0で瀺されるように混 合重みを修正する。
(jOk =— お '匏
T 1 0 cok I J [{(1 / 2πΟ" i) | expj (ni侀 Όϊ σί' 䜆し、 Kk(r)
Σ ωίΠ [{t1 2πσί)υΐ } exp{(«' - "')' I °ΐ2 ステップ 1 1 0 2で甚いる分析は、必ずしも音声認識で甚いる特城分 析法である必芁はない。 しかし、 ステップ 1 1 0 5〜 1 1 07での特城 は、 音声認識で甚いる特城分析パラメ䞀倕であるこずは圓然である。埓 ぀お、 仮にステップ 1 1 02で音声認識で甚いる特城分析でなければ (䟋えば、音声認識が L Ρ。ケプストラムでステツプ 1 1 02が呚波数 スぺク トルなどの堎合、 ステップ 1 1 05〜ステツプ 1 1 07に先だ ぀お必芁な凊理を実行する。
ステップ 1 1 0 5〜ステップ 1 1 07の凊理は、党おの混合分垃に぀ いお行われる ステツプ 1 1 08 ) 。 そしお、 党おの混合分垃に぀いお 修正した埌、 本雑音の分析デ䞀倕 1 1 5 0を、 想定特性 1 1 5 1に栌玍 し ステップ 1 1 09 ) 、 ステップ 1 1 1 0で終了する。
《グロヌバル䞭間テヌブル》 第 1 9図の凊理によっお、混合分垃を構成する 1次元のガりス分垃の 平均 ·分散は修正される。 この様子は、 䟋えば第 1 1図及び第 1 2図に 䟋瀺される。 このように 1次元のガりス分垃の平均 '分散が修正される 時、第 9図及び第 1 0図に瀺されるような線圢スカラ量子化を行ったた た、 数倀テヌブルを曞き換えるこずなく、 数倀テヌブルを適切にァクセ スできるように、第 1 1図及び第 1 2図に䟋瀺されるような䞭間テヌプ ル 3 0 1 3 0 2のアクセスの仕方が倉曎される。
前蚘䞭間テヌブル 3 0 1を挿入するこずで、テヌブルアクセスが䜙分 に発生するが、 第 1 8図の凊理で説明したように、 䞭間テ䞀ブル 3 0 1 に数倀テヌブルのァドレスを栌玍し、 ルヌプ分割 ·プリフヱツチを行え ば、 数倀テヌブルの前に䞭間テヌブル 3 0 1が挿入されおも、 䞭間テヌ ブル 3 0 1のアクセスによる凊理増加は僅少に抑制できる。このこずは、 第 1 8図に基づいお先に瀺した通りである。
ここで着目すべきは、第 1 9図の凊理によっお分散や平均が修正され たずき、 それを䞭間テ䞀プルにどのように反映するかである。䟋えば、 䞭間テヌブルに栌玍される数倀テヌブルのァドレスを曞きかえるなら ば、 分散及び平均の倉化に応じお、 第 1 1図から第 1 2図のアクセスが できるように該圓䞭間テヌブル 3 0 1の内容を䞭間テヌブル 3 0 2の 内容に曞き換えるこずができる。第 1 1図から第 1 2図の曞換えを行う ずいうこずは、第 1 1図及び第 1 2図に瀺した䞭間テヌブル 3 0 1は、 原理的には、党おの 1次元ガりス分垃に察しお定矩されなければならな いずいうこずである。 しかし、 各 1次元ガりス分垃毎に䞭間テヌブル 3 0 1を保有すれば、 それだけで膚倧なデヌタ量になっおしたう し、 å¹³ 均 ·分散の修正に䌎うテヌブル曎新コストも同様に膚倧になる。
ここでは、 そのような問題を避けるため、 第 1 7図に瀺すグロヌバル テヌブル グロ䞀バル䞭間テヌブルずも称する 4 0 0を䞀぀だけ保有 する。 同図にはグロヌバル䞭間テヌブル 4 0 0の基本構造を瀺す。第 1 7図においお、 癜い配列芁玠は数倀テヌブルのアドレス 正の倀 、 黒 い配列芁玠は距離情報 負の倀 が栌玍され、 その他は倀 " 0 " が栌玍 されおいる。 X方向の配列のデヌタ領域の数は特城成分の量子化数より も倧きくされおいる。 これは、 1次元ガりス分垃の平均の倀に応じお䞭 間テヌブルの先頭䜍眮が X方向にずらされるため、 X方向にはデ䞀倕領 域を䜙蚈に採る必芁があるからである。
このグロヌバル䞭間テヌブル 4 0 0は、 平均 〃 が暙準テヌブルの 平均 〃 0) の堎合、 様々な分散における数倀テヌブルのアドレス ォ フセッ ト ず前蚘距離情報が栌玍されおいる。 第 1 7図の䟋は、 巊偎の 列が分散が最も倧きい堎合のパタヌンであり、右にいくほど分散は小さ くなる。
このようなグロヌバル䞭間テヌブル 4 0 0を䜜成するず、䞎えられた 平均、 分散に察応した䞭間テヌブルのパタヌンを、 グロヌバルテヌプル 4 0 0䞊に必ず出珟させるこずができる。即ち、 グロ䞀バル䞭間テヌプ ル 4 0 0の暪方向  Y方向の䜍眮は目的ずする 1次元ガりス分垃の分 散  び によっお決定する。 この分散によっお遞択されたカラムの配列 は、 䞭倮が平均 〃 ずされる䞀次元ガりス分垃を実珟する数倀デヌタ をアクセスするためのァドレスデヌタの配列になっおいる。所望の平均 ( j ) に察しおは、 分散  び によっお決定されたカラムの配列デヌタ に察するアクセス開始䜍眮を平均に応じお瞊方向 X方向 にシフ トさ せお察応する。 換蚀すれば、 分散  び によっお決定されたカラムの配 列デ䞀倕を瞊方向にシフ 卜させる。
䟋えば第 1 7図においお、分垃 1に察応する䞭間テヌブル 4 0 1のパ 倕䞀ンは、 分散がび、 平均が// 0の堎合、 第 1 7図においお P 1を先頭 アドレスずする配列芁玠で衚珟される。 同様に、 分散がび '、 平均が〃 'の分垃 2は、第 1 7図においお P 2を先頭ァドレスずする配列芁玠か ら成る䞭間テヌブル 4 0 2で衚珟される。分垃に応じた䞭間テ䞀ブル 4 0 1 4 0 2の先頭ァドレス 以䞋単にアクセスポむンタずも称する P 1 , P 2は、 第 3 8図に䟋瀺されたボむンタテヌブル 4 2 0ずしお予 めテヌブル化されおいおもよい。前蚘ポィン倕テ䞀ブル 4 2 0は H M M デ—倕の䞀郚を構成する。第 1 8図の凊理においお、 特城成分に察する ァドレス蚈算 1 0 0 2では、凊理する特城成分の順番は予め決定しおお くこずができるので、その順番に埓っお必芁な 1次ガりス分垃を特定で きるように䞭間テヌブル先頭アドレスを予めテヌブル化しお甚意しお おけばよい。このテヌブルは䟋えば第 3 8図のポむンタテヌブル 4 2 0 である。第 1 8図のステツプ 1 0 0 1で挔算された特城オフセッ トに加 算する前蚘䞭間テヌブル先頭ァドレスを、そのテヌブル 4 2 0から取り 出すこずにより、必芁な䞭間テヌブルをグロヌバルテヌブル 4 0 0から 抜出するこずができる。
ポむンタテヌブル 4 2 0を甚いるこずにより、グ口䞀バル䞭間テ䞀ブ ル 4 0 0を、 参照専甚のテヌブル テヌブルの内容を䞀切曞き換えな い ずするこずができるため、 グロヌバル䞭間テヌブル 4 0 0を他のガ りス分垃の凊理ず重耇しお利甚しうおも 共有化しおも 、 党く問題を 生じない。 そしお、 ポむンタテヌブル 4 2 0䞊で定矩されたアクセスポ むン倕 分垃 1では P 1 分垃 2では P 2 ) を䞭間テヌブルの先頭ァド レスず看做すこずで、あたかも実䜓ずしお䞭間テヌブルが存圚するがご ずく凊理できる。グロヌバル䞭間テヌブル 4 0 0を甚いおも第 1 8図の 凊理は党く倉わらない。
第 1 9図の平均、 分散の修正に察応するには、 䞭間テヌブルそれ自䜓 の曞き換えなど党く必芁ではなく、 単に、 平均、 分散に察応するァクセ スポィン倕を蚈算し、これをアクセスポむンタテヌブル 4 2 0に反映す るだけで十分である。 すなわち、 適応凊理によっお分散ず平均が倉化さ れた堎合には、 元の䞭間テ䞀ブル先頭アドレス アクセスポむンタの 倀 を、 分散ず平均の倉化に応じお倉曎するこずにより、 䞭間テヌブル の曞き換えを行わずに察凊できる。䟋えば、 適応前に盞圓する分垃 1に 察応する䞭間テヌブルのパタヌンが、第 1 7図においお P 1を先頭ァド レスずする配列芁玠で衚珟されおいるずする。 このずき、 適応埌に盞圓 する分垃 1に察応する䞭間テ䞀プルのパタヌンが、第 1 7図においお P 2を先頭ァドレスずする配列芁玠に倉曎されるべき堎合には、その分垃 1の䞭間テ䞀ブルの先頭ァドレスポむンタ アクセスポむンタ を P 1 から P 2に倉化させるだけでよい。その凊理は第 3 8図に䟋瀺されるよ うなボむン倕テヌブル 42 0に察しお行えばよい。
そのための凊理を抂説すれば、 たず、 修正された分散ず最も近い分散 の列 分散カラム を遞択し、 そしお、 平均の修正に察しおは、 暙準ガ りス分垃の平均ず修正された平均ずの差から、列の先頭䜍眮を䞊䞋方向 に移動する。
抜出すべき䞭間テヌブルの先頭ァドレスの修正に぀いお曎に詳しく 説明する。 先ず、 暙準テヌブルを甚いお、 様々な分散、 平均を持぀ 1次 元ガりス分垃をアクセスできるようにするこずを目的ずする凊理を考 える。
f。x。 = exp {-(x。-〃 。/び 。 } ずするずき、 x。→f。x。の暙準テヌブル を甚いお任意の平均、 分散を持぀ f(x) = exp {- (X- の倀を蚈算 する堎合に぀いお考える。 このずき、 f。x。 = f(x)の関係を満たす x。を Xを甚いお衚珟する。
f0(x0)二 f(x)より、
log{f0(x0)}=:log{f(x)}
log{exp {- 。-〃。/び 。 } } = log{exp {- (x- /)/び } } (x0-〃 0)/σ ΰ=(χ- ι )1 σ
.'.XQ= ( び Q/ σ)(χ- ) + J ο
ず匏の倉圢を行うこずができる。 この匏は、 平均の䜍眮を原点ずするず きの X。の䜍眮の倀Xo-〃が、 同じく平均の䜍眮を原点ずするずきの X の䜍眮の倀X-〃ず倀び Q/びずによっお決たる倀に等しいこずを意味 する。 䞊匏を曎に倉圢するず、
x0= ( び 。/ cr)(x-〃 + /z。 び/び 。
ずなる。 ここで、 ひ = び 。/び、 = -〃 。 び/び 。ず眮ず、
x0=ひ X- )ず衚珟できる。
そこで、 次に、 C(x) 二ひX- ? )ずするずき  ひ、 5は前述ず同じ 、 任意の平均及び分散を持぀ C(x)の倀を簡単なテヌブルを甚いお埗るこ ずを考える。 C(x)は本来 3次元テヌブル x ひ ) ずしお把握すベ きであるが、 第 37図に䟋瀺されるように、 xQ=ひ · Xを定矩した 2次 元テヌブルを想定し、 アクセス時に X方向に- 5ずらしお C(x)を埗るよ うにする。 適応埌の䞭間テヌブルの先頭アドレスは、 - ?ずらされお最 終的に埗られるテ䞀プルの先頭䜍眮に基づいお決定される。第 1 7図に 埓えば、 その先頭ァドレスは、 分垃 2の P 2、 即ち、 察応される䞭間テ —ブルボむン倕の修正された倀になる。
第 2 0図には第 1 9図の適応凊理で修正されたガりス分垃の分散ず 平均に察しお前蚘察応するアクセスボむン倕の倀を決定する凊理手順 の䞀䟋が党䜓的に瀺されおいる。凊理が開始されるず、暙準の平均及び 分散倀 1 2 5 1ず、適応によっお埗られた新たな平均倀 1 1 53及び分 散倀 1 1 54ずを甚いお、 前蚘ひ倀及び/?倀を蚈算するステツプ 1 2 02) 。 そしお、 前述の通り、 ひ倀に基づいおグロ䞀バル䞭間テヌブル 400のテヌブルラむン カラム を決定する ステップ 1 2 03 ) 。 曎に、 倀を甚いおテヌブル先頭䜍眮を決定する ステツプ 1 2 04 ) 。 決定されたテヌブルラむン及びテヌブル先頭倀からアドレス蚈算を行 う ステツプ 1 2 0 5 ) 。 この蚈算ではテヌブル構造を瀺すデヌタ ィ ンデックステ䞀ブルのヘッダ 1 2 5 3が参照される。䟋えば 2次元配 列のァドレス蚈算は、 テヌブルラむンの䜍眮を T、 先頭䜍眮を S、 1ラ むンのテヌブル芁玠数を E、 1芁玠のデヌタ長を 4バむ ト、 グロヌバル 䞭間テヌブルの先頭ァドレスを A O、ア ドレスをバむ トア ドレスずする ず、
A二 A 0 + 4 - { ( T侀 1 ) · E + S - 1 }
によっお挔算される。 Aが、 適応埌のアクセスポむンタの倀になる。 前蚘ステツプ 1 2 0 2〜ステップ 1 2 0 5たでの凊理は、党おの分垃 に察しお繰り返えされる。 これによ぀お、 第 1 8図の凊理で甚いる䞭間 テヌブルの先頭ァドレスは、第 1 7図のグロヌバル䞭間テヌブル 4 0 0 䞊のァドレスずしお察応付けられる。
前述の説明から明らかなように、前蚘グ口䞀バル䞭間テヌブル 4 0 0 は平均  ) ず分散 び の倀に基づいお参照できるが、 䞊蚘説明では、 抜出すべき䞭間テ䞀ブルの先頭ァドレスのボむン倕 アクセスボむン 倕 を栌玍したボむン倕テヌブル 4 2 0甚いる説明ずしおいる。その堎 合には第 3 8図に䟋瀺されるように、特城成分毎にそのアクセスボむン 倕 P 0〜P nを備えるこずになる。アクセスボむン倕の倀は前述の説明 より明らかなように、 分散ず平均に基づいお算出するこずができる。 し たがっお、そのアクセスボむン倕はそれに察応する分垃の分散ず平均に 䞀意に察応付けするこずができる。 したがっお、 第 3 8図に䟋瀺される ように特城成分毎に分散ず平均を備えたテヌブル 4 1 0を甚意し、これ に基づいおその郜床、アクセスボむン倕 P 0〜P nの倀を挔算しお求め おもよい。 䜆し、 前蚘テヌブル 4 1 0を甚いる堎合には、 適応時の凊理 は少なくなるが、䞭間テヌブル 4 0 0を参照するための挔算凊理が増え る。 逆に、 アクセスポむンタテヌブル 4 2 0を甚いる構成では、 䞭間テ 䞀ブルを参照するための挔算凊理ずデヌタ量を少なくするこずができ るが、 適応時の凊理は増える。 前蚘特城成分毎の平均及び分散、 又は特 城成分毎のアクセスボむン倕は、混合 H M Mのための挔算に必芁な状態 遷移確率などず共に H M Mデ䞀倕 第 3図の 2 5 1 ) ずしおシステムに 保持されおいる。
第 4 2図乃至第 4 4図には 1次元ガりス分垃の数倀テ䞀ブルの䟋が 瀺される。 第 4 2図は、 前蚘匏 4に瀺される倀、 即ち第 4 2図の矩圢 R 1で囲たれた匏の倀を、 所芁の分散毎に備えおいる。数倀テヌブルが保 有すす倀は、 _ 4 び〜 4 びの範囲ずされる。 これは、 分垃削枛のための 第 1 3図の䞭間テヌブルの構成に察応させたものである。この数倀テヌ ブルのデヌタ構造は䞭間テヌブルず共通性が有り、䞭間テ䞀プルが想定 する分散に関する数倀デヌタを持぀こずになる。このような数倀デ䞀倕 を採甚する堎合、数倀テヌブルから参照したデヌタを積算しなければな らないから、 挔算桁数若しくは挔算粟床ず蚀う芳点から、 混合 H M Mの 挔算を行うマむクロプロセッサ 1 0 3は第 2図に䟋瀺されるように浮 動小数点ュニッ トを備えおいるこずが望たしい。
第 4 3図に瀺される数倀テヌブルは、そのデ䞀倕を敎数挔算でも利甚 可胜なように、 察数を採った倀で数倀テヌブル化しおいる。 この堎合に は、 矩圢 R 2で囲たれた匏の倀が、 第 4 2図の数倀テヌブルに栌玍され るこずになる。曎に、矩圢 R 3で囲たれた混合重みの察数倀もテ䞀プル に保持しなければならない。第 4 2図ずの倧き 盞違点は、 敎数挔算で も察応できるず蚀う点である。
第 4 0図及び第 4 1図には以䞊説明した倚次元ガりス分垃を甚いた 確率挔算のためのテ䞀ブルアクセス手法が纏めお図瀺されおいる。 第 4 0図においお、 H M Mデ䞀倕には、 䟋えば特城成分毎にアクセス ボむン倕の倀がボむン倕テヌブル 4 2 0ずしお栌玍されおいる。䟋えば ある特城成分のアクセスボむン倕の倀は P 1である。適応によっおこれ が P 2に倉曎されおいる。 このずきの挔算では、 P 1から䞀意に決定さ れる分散及び平均ず適応によっお倉曎された分散及び平均ずに基づい おアクセスボむン倕の倀 P 2が決定される。特城抜出によっお特城成分 毎に特城ォフセッ トが挔算され、曎にこれに加算されるべきアクセスポ ィン倕の倀 P 2が読み蟌たれお、䞭間テヌブルの参照ァドレスが挔算さ れる。 この参照アドレスで䞭間テヌブル 4 0 0がリヌドされるず、 リヌ ドされたアドレスによっお、その特城成分に関する所定の分散及び平均 に係る 1次ガりス分垃の倀が数倀テヌブルから読み出される。
前述の説明から明らかなように、音声認識時の混合 H M M挔算におい お特城成分に応じた 1次ガりス分垃の取埗は、耇雑なパラメ䞀倕挔算な どを芁せず、 アクセスボむン倕の参照ず、 特城オフセッ 卜ずアクセスポ むン倕ずの加算ずいう簡単な凊理によっお行うこずができる。 たた、 適 応時は、 アクセスポむンタを修正すれば良く、 グロヌバル䞭間テ䞀ブル 4 0 0及び数倀テヌブル 1 0 5 2の倀を修正する必芁は党くない。 第 4 1図においお、 出力確率を挔算する前に、 特城べク トルの各特城 成分に察しお予め特城オフセッ トを求めおおく。 そしお、 特城成分毎に アクセスポィン倕の倀ず特城オフセッ トによっおグロ䞀バル䞭間テ䞀 プル 4 0 0をアクセスしお、 1次ガりス分垃の数倀デ䞀倕のァドレスを 取埗しおいく。 そしお、 䞀぀の倚次元ガりス分垃に含たれる 1次元ガり ス分垃の数倀デヌタのァドレスを党お取埗したずころで、そのァドレス によっお数倀デ䞀倕をアクセスする。 このずき、 それたでの間に、 その 数倀デ䞀倕アクセス甚のァドレスに察するデヌタプリフェッチを行぀ おいれば、数倀テ䞀ブルに察するアクセス時にキダッシュミスを殆ど生 じない。プリフェッチは M P U 1 0 3がデ䞀倕アクセスを行っおいない 倕む ミングで適宜行うこずができる。 したがっお、 数倀テ䞀ブルのァク セス前にグロヌバル䞭間テヌブル 400のアクセスを行っおも、数倀デ —倕の取埗が遅れるこずはない。 たた、 グロヌバル䞭間テヌブル 400 をマむクロプロセッサ 1 03内蔵の高速 R AM 1 0 6等に栌玍しおあ れば、グロヌバル䞭間テヌブル 400のアクセス時間を実質的に無芖し 埗るほど少なくするこずも可胜である。適応によっお分散及び平均を修 正する堎合には前述の通り、抜出される䞭間テヌブルの先頭を指すァク セスボむン倕の倀を修正すればよい。
《携垯情報端末装眮》
第 2 1図には前蚘音声認識のためのシステムを適甚した携垯情報端 末装眮 1 2 0の倖芳の䞀䟋が瀺される。第 2 2図には携垯情報端末装眮 1 2 0のプロック図が瀺される。同図に瀺される携垯情報端末装眮 1 2 0は、 特に制限されないが、 前蚘音声認識機胜ず共に、 小型コンビュ䞀 倕装眮の機胜を有し、 曎に携垯電話機胜を備えおいる。ケ䞀シングの䞭 倮郚郚にはディスプレむ 1 08ずキヌボヌド 1 23が配眮され、その端 にはマむク マむクロフォン 1 07、 1 30 1ず、 スピヌカ 1 307 1 308が蚭けられおいる。
第 2 2図においお、 MPU 1 03、 ROM 1 0 5、 RAM 1 06, V I F 1 04、ディスプレむ 1 08は第 1図で説明した音声認識装眮に備 えられおいる回路ず同じであり、 それらは、 前蚘音声認識機胜、 小型コ ンピュ䞀倕装眮の機胜、 及び携垯電話機胜に共通利甚される。
第 2 2図においお 1 303で瀺されるものは、 携垯電話ュニッ ト P H S)である。携垯電話ュニッ ト 1 303はアンテナ 1 309を介しお たその他の携垯電話や䞀般の有線電話ず通話するこずができる。スピ䞀 力 1 3 07 , 1 308は D/ A倉換噚 1 30 5 , 1 30 6を介しお MP U 1 03などに接続される。呚蟺回路 1 3 0 2は赀倖線ィン倕フェヌス 回路や、 フラッシュメモリヌカヌドィン倕フェヌス等を実珟しおいる。 携垯情報端末装眮 1 2 0は、 特に制限されないが、 2系統のマむク入 力を想定しおいる。マむク 1 3 0 1は A/D倉換噚 1 2 04を介しお M PU 1 0 3又は P H S 1 3 0 3に接続可胜にされる。前蚘マむク 1 0 Ί は A/D倉換噚 1 0 2を介しお MPU 1 0 3に接続可胜にされる。双方 のマむク 1 0 7 1 3 0 1は音声認識や電話に利甚されるが、 その利甚 圢態の詳现に぀いおは埌説明する。
携垯情報端末装眮 1 2 0は、携垯性重芖の芳点から動䜜電源ずしおバ ッテリ 1 2 1を甚いる。バッテリ 1 2 1による装眮の動䜜時間を延ばせ るようにするために、商甚電源を垞時動䜜電源ずしお甚いるシステムに 比べお䜎消費電力が厳しく芁請される。 これに答えるため、 MPU 1 0 3には、 動䜜速床 動䜜クロ ック呚波数 や、 M I P S (Million Instruction Per Second) 倀、 或いは消費電力が比范的小さなものが採 甚される傟向にある。 䟋えば、 消費電力が 1 W皋床、 動䜜クロック呚波 数が 2 0 0 MH z皋床、デ䞀倕凊理胜力が 3 0 0 M I P S皋床の MP U 1 0 3を採甚するこずができる。
このずき、 MPU 1 0 3を甚いお前蚘音声認識凊理を行う堎合、 混合 倚次元ガりス分垃の蚈算に、線圢量子化の手法ずグロヌバル䞭間テヌプ ルの手法を採甚しおいるので、音声認識凊理における挔算凊理の高速化、 そしお適応時におけるパラメ䞀倕倉曎の高速化が実珟されおおり、その ようなデヌタ凊理胜力の比范的䜎い MP U 1 0 3であっおも、音声認識 のリアルタむム性若しくは迅速性を阻害するこずなく、実甚に耐え埗る 皋床の速床で音声認識を行うこずができる。
混合倚次元ガりス分垃の蚈算に、線圢量子化の手法ずグロヌバル䞭間 テヌブルの手法を採甚した音声認識凊理プログラムは、䟋えば R〇 M 1 0 5に栌玍されおいる。 この: OMは、 コンピュヌタである MPU 1 0 3によっおによっお読み取り可胜な蚘録媒䜓である。前蚘 ROM 105 がフラッシュメモリなどの電気的に曞き換え可胜な䞍揮発性メモリで ある堎合に、前蚘音声認識凊理プログラムを倖郚から圓該 R 0 Mに口䞀 ドしお実行するこずも可胜である。䟋えば、 呚蟺回路 1302にむン倕 フェヌスされる図瀺を省略する CD— R〇Mドラむブ装眮から必芁な 音声認識プログラムを ROMに転送するこずができる。 このずき、 前蚘 CD— ROMは、 前蚘音声認識凊理プログラムを栌玍した、 コンビュ䞀 倕読み取り可胜な蚘録媒䜓の䞀䟋ずされる。
《2マむク型雑音適応》
認識すべき音声から雑音成分をキダンセルするために 2個のマむク を甚いる公知の技術 䟋えば AN C  Adaptive Noise Canceller) が 有る。 この技術が採甚されおいるずき、 2個のマむクを甚いお雑音適応 を行う堎合に぀いお説明する。前蚘マむク 107は䞻マむクずされ、 雑 音ず共に音声を拟うこずができる。これに察しお他方のマむク 130 1 は信号成分に比べお盞察的にノィズ性分を倧きく拟うようにされた雑 音専甚の副マむクである。 䟋えばこれは、 双方のマむク 107 , 130 1の指向性や配眮を遞ぶこずによっお実珟されおいる。
第 34図には 2マむク型雑音適応の原理が瀺される。音声区間では雑 音ず音声が重畳され、 これが䞻マむク  107) によっおサンプルされ る。 副マむク  130 1 ) は専ら雑音をサンプルし、 そのサンプル信号 には音声信号成分は殆ど含たれない。 䞻マむク  107)で埗た信号に 含たれる雑音の特城ず副マむク  1301 )で埗た雑音の特城ずは圓然 盞異される。 そこで、 無声音区間においお䞻マむク  1ひ 7 ) ず副マむ ク  130 1) の特性が評䟡されおいる。 䟋えば、 䞻マむク  107) の特性を fm(w)、 副マむク  130 1 ) の特性を fs(w)ずするず、 乗 法性の歪を考えれば、 0 )=ひ0 ) ^3(0)ず衚珟するこずができる。 無声音区間では、 䞻マむク  1 07) ず副マむク  1 30 1 ) ずからの 信号に基づいお䞊蚘ひω)を決定するこずができる。 䞻マむク  1 0 7) からの入力が所定の閟倀を越えた音声区間では、 副マむク  1 30 1 ) からの入力に察しお雑音分析を行い、 fs(w)の蚈算を行う。 そしお、 ひω) · fs(w)によっお fm( j)の特性補正を行う。 その埌に、 前蚘第 1 9図に瀺される平均、 分散、 混合重みの修正を行い、 曎に第 20図で 説明したようにポむンタテ䞀プル 42 0のアクセスポむンタの倀を修 正する。
第 23図には、前蚘携垯情報端末装眮 1 20においお 2個のマむクを 甚いお雑音適応を行う堎合の凊理手順の䞀䟋が詳现に瀺される。
ステップ 2 0 2のシステム立ち䞊げで ROM 2 5 0からシステムデ —倕を読み蟌ず、ステップ 140 1で䞻マむクずしお利甚されるマむク 1 07に音声が入力されたか吊かを刀断する。ステップ 1402で、 音 声が入力されおいないず刀断するず、 ステップ 1403を経由し、 再び ステップ 140 1の凊理に戻る。 これは、 䞀皮の無限ルヌプを構成し、 䞻マむクに音声が入力されるたで、 繰り返される。
ステップ 1 40 3では、䞻マむクに利甚されるマむク 1 07ず副マむ クずしお利甚されるマむク 1 30 1の特性を比范し評䟡する。これは、 音声区間で䞻マむクから雑音の特性を副マむクの雑音から掚定するた め、 予め䞻マむクず副マむクの特性の違いを補正するためである。
ステップ 1 40 2で䞻マむクに音声が入力されたず刀断されるず、ス テツプ 1404においお、 副マむク音声デ䞀倕 デヌタ 1 4 5 1 ) を畐リ マむク雑音分析により特城分析する ステップ 1404) 。 そしお、 ス テツプ 1403で評䟡した䞻副マむク特性  145 2 ) を甚いお、 前蚘 ステップ 1404で埗られた分析結果を補正する ステップ 1405 )。 そしお、 前蚘ステツプ 1404による分析の結果に基づいお、 ステップ 1 4 0 6で適応を行うか吊かを刀定する。適応を行う堎合には、 前蚘ス テツプ 1 4 0 5で補正された結果を甚いお、 雑音適応を行う ステツプ 1 4 0 7 ) 。 ステップ 1 4 0 7の凊理は、 䟋えば、 第 1 9図の手法ずほ が同じ手法第 1 9図においお盞違点は適応可吊の刀定に係る凊理を行 わなくおもよいず蚀う点である により実珟できる。 ここで、 修正され た H M Mパラメ䞀倕 混合ガりス分垃の平均 .分散 のデ䞀倕  1 4 5 3 ) から、 䞭間テ䞀ブルの先頭ァドレスを指すアクセスポィン倕のテヌ ブル 4 2 0を曎新する凊理が行われる ステツプ 1 4 0 8 ) 。 この凊理 は、 䟋えば第 2 0図の手法で曎新するこずができる。 ここで曎新された ポィン倕テ䞀ブル 4 2 0は、 その埌の、 出力確率蚈算 2 1 2ゃビ倕ビザ ヌチ 2 1 4に利甚される。
尚、 2マむク型の音声認識では前述の A N Cの手法の他に、 1察のス テレオマむクを甚いお埗られる音声情報を信号成分偏重の情報ずノィ ズ成分偏重の情報に分離しおから、前蚘 A N Cの手法を採甚する公知の 技術 䟋えばビヌムフォヌマ を適甚するこずも可胜である。
《トランシヌバ型通話における音声認識》
第 2 1図及び第 2 2図に䟋瀺される携垯情報端末装眮 1 2 0におい お音声認識察象は携垯電話ュニッ ト 1 3 0 3による通話先からの音声 (通話先音声 ず、 端末装眮 1 2 0のマむク 1 0 7からの入力音声 端 末偎音声 ずの 2皮類ある。 前蚘通話先音声に察する音声認識 通話系 音声認識 ず端末音声に察する音声認識 端末系音声認識 には、 第 1 に、 トランシヌバ型通話における音声認識が考えられる。即ち第 3 5図 に䟋瀺されるように、音声を通話先音声ず端末音声ずの䜕れか䞀方に切 換え可胜にしお、 双方の音声を排他的に認識可胜にする。 そのような切 換え操䜜は、端末系からの音声入力ず通話系での受話ずを切りかえるス むッチ 1 3 0 2 S Wで行うこずができる。第 2 2図においおこのスィッ チ 1 3 0 2 S Wは䟿宜䞊呚蟺回路 1 3 0 2に含たれる回路ずしお図瀺 されおいる。双方の音声の特城は盞圓異なるこずが予想される。 このず き、 H M Mの数倀テヌブルを通話先音声甚ず端末音声甚に別々に持぀な らば、 そのデヌタが膚倧になり過ぎ、 たた、 H M Mの数倀テヌブルを共 通化する堎合には、通話先音声ず端末音声ずを切換える毎に適応のため の膚倧な凊理が必芁になっお、 リアルタむム凊理が党く䞍可胜になるこ ずも予想される。 そこで、 通話先音声ず端末音声ずで H M Mの数倀テヌ ブルず、 前蚘グロ䞀バル䞭間テ䞀ブルずを共通化し、 前蚘ポむンタテ䞀 ブル 4 2 0を通話系音声認識ず端末系音声認識ずに別々に甚意する。そ しお、 別々に甚意されたボむン倕テヌブルを入力系毎に䜿い分ける。通 話系音声認識の堎合にはそれに割圓おられたボむン倕テヌブルを甚い おグロヌバル䞭間テヌブルをアクセスし、端末系音声認識の堎合にはそ れに割圓おられたポむンタテヌブルを甚いおグロ䞀バル䞭間テヌブル をアクセスする。 尚、 第 4 0図においお 4 2 0— 2は通話系のボむン倕 テヌブル、 4 2 0 _ 1は端末系のポむンタテヌブルを意味する。
第 2 4図には携垯情報端末装眮 1 2 0を甚いた トランシヌバ型通話 における音声認識の凊理手順の䞀䟋が瀺される。
ステップ 2 0 1で凊理が開始されるず、ステップ 2 0 2で: O M 2 5 0からシステムデヌタを読み蟌み、 凊理が開始される。 この䟋では、 端 末系からの音声ず通話系からの音声ずを各々独立に入力できる特城を 生かし、 ステップ 1 5 0 1で、 圓該音声が、 通話系からの音声か端末系 からの音声かを刀定する。䟋えば、 通話系からの受話ず端末系からの送 話を切換えるスィ ッチ 1 3 0 2 S Wの状態によっお刀定する。端末系か らの送話入力であるこずが刀定されるず、ステップ 1 5 0 3より端末音 声デヌタが音声認識察象に取り蟌たれる。通話系からの受話入力ず刀定 されるず、ステップ 1 5 0 4より携垯電話ュニッ ト 1 3 0 1からの通話 系受話音声デ䞀倕が音声認識察象ずしお取り蟌たれる。ステップ 1 5 0 5では、 個々の入力から、 無音区間を抜出し、 雑音の性質を分析する。 ステップ 1 4 0 6では、ここで入力された音声の無音区間のデヌタを甚 いお適応するか吊かを刀定する。適応する堎合、 適応凊理のステツプ 1 4 0 7で、 分散や平均などの H M Mパラメ䞀倕を修正し、 それに応じお、 ステヅプ 1 4 0 8でボむン倕テヌブル 4 2 0のボむン倕倀を曎新する。 これ以降は、 第 2 3図ず党く同じように凊理されるので、 その詳现な説 明は省略する。
《セパレヌト型通話における音声認識》
第 2 1図及び第 2 2図に䟋瀺される携垯情報端末装眮 1 2 0を甚い た通話系ず端末系の倫々の音声認識の手法ずしお、 第 2に、 セパレヌト 型通話における音声認識が考えられる。即ち第 3 6図に䟋瀺されるよう に、 通話先音声 受話音声 ず端末音声 送話音声 ずを混圚させお音 声認識可胜にするものである。 この䟋においおは、 前蚘スィツチ 1 3 0 2 S Wは䞍芁である。 この堎合も事情は䞊蚘同様であり、 通話先音声ず 端末音声ずで H M Mの数倀テヌブル及び前蚘グロ䞀バル䞭間テ䞀ブル を共通化し、䞭間テヌブルのポむンタテヌブルを通話系音声認識ず端末 系音声認識ずの倫々に甚意する。 䜆し、 端末系ず通話系の音声区間を 別々に怜出しなければならない。 これによ぀お、 通話系ず端末系の䌚話 が重なっおも察応できるようになる。 尚、 グロ䞀バル䞭間テヌブルを甚 いず、 特城成分毎に䞭間テヌブルを割圓おる堎合には、 䞭間テヌブルは 通話系ず端末系ずで倫々別々に持たなければならない。
第 2 5図には携垯情報端末装眮 1 2 0を甚いたセパレヌト型通話に おける音声認識の凊理手順の䞀䟋が瀺される。 この䟋では、 通話系ず端 末系各々の系に適応させ調敎したパラメ䞀倕セッ トを 2個保有するシ ステムを構成するこずになる。 この堎合、 数倀テ䞀プル 1 0 5 2やグロ —バルテヌブル 4 0 0は通話系ず端末系で同䞀であり、䞭間テヌブルの アクセスボむン倕を保有するボむン倕テヌブル 4 2 0を 2組持おばよ いこずになる。
第 2 5図においお、 ステップ 2 0 1で凊理が開始されるず、 たず最初 に、 ステヅプ 2 0 2においお、 システムの立ち䞊げを行う。 本システム では、端末系音声入力ず通話系音声入力が別にな぀おいるこずを利甚し、 各々の系統毎に凊理を行う。 ステップ 1 5 0 3では、端末系から音声を 入力する。 ここで、 適応の必芁があれば、 ステップ 1 5 0 5— 1で無音 声区間を怜出し、 ステップ 1 4 0 7— 1で雑音適応を行う。 そしお、 こ の適応に応じお、ステヅプ 1 4 0 8で䞭間テ䞀ブルのポィン倕テヌブル 4 2 0 - 1を曎新する。
これず同様の凊理は、 通話系でも行われる。本装眮のように携垯電話 ナニッ ト 1 3 0 3ず䞀䜓にな぀た装眮であれば、ステヅプ 1 5 0 4によ り通話系から認識すべき音声信号を入力する。 その埌は、 前蚘ず同様の ステップ 1 5 0 5— 2、 ステップ 1 4 0 7— 2、 ステップ 1 4 0 8— 2 を行う。
ここで泚意すべきは、音声入力系ず䞭間テヌブルのボむン倕テヌブル ずは倫々 2系統持぀必芁があるが、音声認識凊理プログラム䞊びにグロ 䞀バル䞭間テヌブル等は単䞀の 同じもの で足りる。端末系ず通話系 各々に別々の認識凊理をしおいるわけではないが、各々に別々の認識凊 理をするのず同等の性胜及び機胜を埗るこずができる。
ステップ 1 6 0 1では、 重なり調敎を行う。 これは、 端末系ず通話系 の音声が重なった 䟋えば、 䞀緒に話した 堎合に、 調敎するものであ る。 これは、 簡単な䟋ずしお、 各々の入力音声毎に音声区間怜出を行い。 先に区間を怜出した方の終了を埅っお、埌に区間を怜出した方の凊理を 行うこずでも実珟できる。 このようにしお、 音声区間の信号 ただし、 端末系か通話系かの区別 をするための属性デ䞀倕あるいはフラグを有する が埗られたら、 ステ ップ 2 1 2で特城分析、 ステップ 2 1 3で出力確率の蚈算、 ステップ 2 1 4でビ倕ビサヌチを行うこずで、 系統属性付の認識結果デヌタ 2 5 4— 2 ) が埗られる。 ここで、 系統属性ずは、 端末系か通信系かを区別 する属性デ䞀倕を意味する。
䞊蚘凊理では、 耇数系統のデヌタセッ トが必芁ずなる凊理も、 䞭間テ —ブルのポむンタテヌブル 4 2 0だけ系統毎に保有すれば枈む。すなわ ち、 この䞭間テヌブルのポむンタテヌブルだけを 2系統持ち、 グロ䞀バ ル䞭間テヌブル 4 0 0や数倀テヌブル 1 0 5 2などは端末系ず通話系 で党お共通でよい。
《話者適応をサポヌトする音声認識》
第 2 6図には話者適応及び雑音適応を行う音声認識システムにおけ る音声認識凊理の手順の䞀䟋が瀺される。 ここでは、 時間情報 1 7 5 2 に基づいお䞀定時間間隔で適応凊理が行われるものずする。
先の䟋ず同様に、 ステップ 2 0 1で凊理が開始されるず、 先ず最初に、 ステップ 2 0 2においお、 システムの立ち䞊げを行う。 システムが立ち 䞊がるず、 ステップ 1 7 0 1により、音声デヌタの取り蟌みが行われる。 そしお、ステツプ 1 7 0 2においお時間情報 1 7 5 2をむンクリメント する。 ここで、 時間情報は、 クロック単䜍でも良いし、 フレヌム単䜍で も良い。 適応を行うべきかの刀断 ステップ 1 7 0 3— 1 1 7 0 3 - 2 ) では、 時間情報 1 Ί 5 2が䞀定倀以䞊であるかを刀別し、 䞀定倀以 䞊の堎合に適応を実行する。適応しない堎合、 ステップ 2 1 2ぞ移行し、 音声認識を開始する。
雑音適応を行う堎合、 先ず、 ステップ 1 7 0 4— 1で雑音デ䞀倕を入 力し、 それに応じおステツプ 1 7 0 5— 1でパラメ䞀倕を修正する。䟋 えば、 2マむク系では、 第 2 3図の方法 ステップ 1 4 0 4〜ステップ 1 4 0 7 ) ず同じでもよい。 そしお、 ステップ 1 7 0 6— 1においお、 修正された分散、平均 1 4 5 3に応じおグロ䞀バル䞭間テヌブルのァク セスボむン倕ヌテヌブル 4 2 0を修正し、時間情報 1 7 5 2をリセッ ト (䟋えば、 0を蚭定 する。 そしお、 音声認識凊理 ステップ 2 1 2〜 ステップ 2 1 4 ) を行う。
話者適応する堎合も同様である。雑音適応の堎合ず同様に、 ステップ 1 7 0 3— 2の適応刀断では、 前蚘時間情報 1 7 5 2が、 䞀定以䞊にな ぀た堎合に適応を実行する。 ただし、 雑音適応の時間間隔ず必ずしも同 䞀でなくずも良い。 ステップ 1 7 0 4— 2では、 雑音適応の堎合ず異な り、 音声区間を抜出する。 ステップ 1 7 0 5— 2では、 所謂教垫なしの 話者適応を行う。 この修正に基づいおい、 前蚘ボむン倕テヌプル 4 2 0 を曎新する。 前蚘教垫なしの話者適応ずは、 予め、 適応のための事前孊 習を行わない話者適応方匏である。
䞊蚘雑音適応及び話者適応は、 䞀定間隔で、 いわば割り蟌みのごずく 発生する。 適応を行わない堎合には、 盎接にステップ 2 1 2ぞ飛び、 音 声認識を行う。 ここから、 ステップ 2 1 4たでは、 先に瀺した䟋ず同様 である。
第 2 7図には教垫なし話者適応を実行する音声認識システムの別の 䟋を瀺す。 ここでは、 特に頻繁に䜿甚するナヌザを登録し、 圓該話者の 音声では、圓該話者向けのボむン倕テ䞀ブルに切り替えるシステムの䟋 である。登録話者以倖の堎合には䞀般向けのボむン倕テ䞀ブルに切り替 える。
先の䟋ず同様に、 ステップ 2 0 1で凊理が開始されるず、 先ず最初に、 ステップ 2 0 2においお、 システムの立ち䞊げを行う。 システムが立ち 䞊がるず、 ステップ 1 7 0 1により、 音声デヌタの取り入れが行われる。 ステップ 1 8 0 1では、 話者識別のための特城分析 䟋えば、 高呚波の 成分の分析 を行う。 これによ぀お話者識別様の特城デ䞀倕 1 8 5 1が 取埗される。
ステップ 1 8 0 2では、前蚘話者識別甚特城デ䞀倕 1 8 5 1 ず識別情 å ± 1 8 5 2ずを甚いお話者識別が行なわれる。䟋えば、 予め話者特城を 識別情報 1 8 5 2ずしお登録しおおいお、話者特城デヌタ 1 8 5 1に最 も近い登録パタヌンが有るかを識別しお話者を刀定するこずができる。 この話者識別 ステップ 1 8 0 2 ) 凊理で刀定可胜な話者に察しおは 倫々の凊理系が蚭けられおいる。 各々の凊理系は、 凊理 プログラム は同䞀であるが、 話者毎䞊びに䞀般話者に察しお、 倫々固有のアクセス ボむン倕テヌブルなどのパラメ䞀倕が蚭けられおいる。 もっずも、 適応 可吊の刀断は、 各々の話者に応じお パラメ䞀倕に応じお 異なるこず から、 第 2 7図では、 適応凊理は話者毎に分離しお衚珟されおいる。 ここでは、 登録話者の分ずデフォルト 䞀般話者向け暙準パタヌン の分ずのパラメ䞀倕セッ トを甚いる。 䟋えば、 2人登録しおいれば、 3 系統のパラメ䞀倕セッ トが必芁になる。各パラメ䞀倕セッ トには、 少な くずも、 ポむンタテヌブルが含たれおいる。
ステップ 2 1 2以降は、先に瀺した䟋ず同様の認識凊理が行われる。 ただし、䜿甚されるグロ䞀バル䞭間テヌブル 4 0 0のポィン倕テ䞀ブル 4 2 0は各々の話者毎に䞎えられおいる。グロヌバル䞭間テヌブル 4 0 0は党おの話者に共通ずされる。 このようにすれば、 各皮テヌブルを圢 成するメモリ容量を抑制するこずができる。 尚、 グロ䞀バル䞭間テヌプ ルを話者毎に別々に蚭けるこずも可胜である力、 その堎合には、 グロ䞀 バル䞭間テ䞀ブルによるメモリ䜿甚量が膚倧になる。
第 2 8図には教垫なし話者適応を実行する音声認識システムの曎に 別の䟋を瀺す。第 2 7図ず同様に、特に頻繁に䜿甚するナヌザを登録し、 圓該話者の音声では、圓該話者向けのパラメ䞀倕セッ トに切り替えるシ ステムの䟋であるが、 特にこの䟋では、 党䜓の登録話者数を䞀定数に限 定しお、 䜿甚頻床を考慮するシステムずしおいる。
先の䟋ず同様に、 ステップ 2 0 1で凊理が開始されるず、 先ず最初に、 ステップ 2 0 2においお、 システムの立ち䞊げを行う。 システムが立ち 䞊がるず、 ステップ 1 7 0 1により、 音声デ䞀倕の取り入れが行われる。 ステップ 1 8 0 1では、 話者識別のための特城分析 䟋えば、 高呚波の 成分の分析 を行う。分析された話者識別甚特城デヌタ 1 8 5 1より、 ステップ 1 8 0 2で話者識別が行なわれる。 これには、 識別情報 1 8 5 2を甚いる。 䟋えば、 予め話者特城を登録しおおいお、 最も近い登録パ 倕䞀ンを遞択するなどにより実珟できる。この話者識別 1 8 0 2におい お、 凊理系が遞択される。 これら各々の凊理系では、 凊理プログラムは 同䞀であるが、 䜿甚するボむン倕テヌブルが異なる。 もっずも、 適応可 吊の刀断は、 各々の話者の特城に応じお異なるこずから、第 2 8図では、 話者毎に分離しお衚珟しおいる。以䞊の点は、 第 2 7図の堎合ず党く同 じである。
特に第 2 8図の䟋では、 ステップ 1 9 0 1においお、 識別情報の修正 を行う。 ここでは、 第 2 7図で甚いた情報の他に、 各登録話者の䜿甚頻 床を管理情報ずしたテヌブル 話者管理テヌブル を䜿甚し、 登録者数 を䞀定数に限定する。 この凊理を行った埌は、 第 2 7図で説明した手順 ず党く同じ凊理が行われる。
前蚘識別情報修正凊理ステップ 1 9 0 1 )の詳现を第 2 9図及び第 3 0図を甚いお説明する。 第 2 9図では、 識別情報 1 8 5 2の内、 話者 管理に関する管理テヌブル 単に話者管理テヌブルずも称する 5 0 0 の構造を瀺す。 ここでは、 登録話者の欄 5 0 1に察しお、 䜿甚頻床の欄 5 0 2 ず、 ポむンタテヌブル 4 2 0ぞのポむンタ デヌタポむンタ の 欄 5 0 3ずを有し、 これらの欄のデヌタは、 登録話者毎に䜿甚頻床順に ゜ヌト可胜にされおいる。 このような話者管理テヌブル 5 0 0は、 1ç³» 統のデ䞀倕セッ トでは䞍芁であるが、 耇数系統の堎合、 必芁になる。 た だし、 第 2 5図や第 2 7図の䟋のように構造が固定の堎合゜ヌト䞍芁 の堎合 には、 あえおテヌブル化しなくおも、 単なる参照デヌタずしお デ䞀倕ボむン倕などの情報を備えおいればよい。
第 2 8図の識別情報修正のステップ 1 9 0 1では、 䟋では、 頻床情報 によっおテヌブル構造の修正及び倉曎を行わなければならない。これに ぀いお簡単に説明する。 この凊理手順は第 3 0図に瀺される。ステップ 2 0 0 1が開始されるず、 先ず、 ステップ 2 0 0 2においお、 識別され た話者に該圓する話者がリス ト 話者管理テヌブル 5 0 0 ) に存圚する か吊かを刀定する。 もし、 リス トに無い堎合、 ステップ 2 0 0 3におい お、 最䞋䜍の登録話者ず今回の話者ずを入れ替える。ステップ 2 0 0 3 のリス 卜の入れ替えでは、 最䞋䜍のデヌタを消去し、 新しい登録話者の I D (これは、 話者認識における登録 I D ) を登録話者の欄に曞き蟌み、 頻床情報を 1より倧きな倀 䟋えば、 5 ) に蚭定する。 デヌタボむン倕 は前者に割圓おられおいるものを匕き継ぐが、該圓するグロヌバル䞭間 テヌブル 4 0 0のボむン倕テ䞀ブル 4 2 0は、暙準パタヌンに盞圓する ものに蚭定 初期化 する。
ステップ 2 0 0 4では、 頻床情報を曎新する。 これは、 話者識別によ ぀お遞ばれた話者が登録話者である堎合に圓該登録話者の頻床情報を むンクリメントし、該圓しない登録話者の頻床情報をデクリメントする。 このようにすれば、初期化しおからあたり䜿甚されな話者の頻床情報は、 初期化頻床倀 本䟋では、 5 ) より小さくなり、 初期化した話者より䞋 䜍になる。 すなわち、 初期化し登録されたばかりの話者がすぐにリス ト から削陀されないようにするこずができる。 ステップ 2 0 0 5では、 䞊蚘操䜜に䌎う順䜍の倉曎に察しお、 䜿甚頻 床で゜䞀トを行う。 ゜䞀卜の方法は色々あるが、 䟋えば、 ディクリメン トされたグルヌプの順序関係は保たれおいるから、第 3 3図に基づいお 埌で説明するようなバブル゜ヌ卜で効率的に実行できる。 すなわち、 初 期化されたリス トずむンクリメントされたリス トのみをバブル゜䞀ト で凊理すれば良い。 この様子を第 3 1図乃至第 3 3図に瀺す。
第 3 1図は、初期化で新しく入れ替えられたリス トに察する操䜜の䟋 を瀺す。 この堎合、 最䞋䜍から順にバブル゜ヌトする。 第 3 2図は、 既 に存圚するリス トに察する操䜜の䟋である。 この堎合、 リス トが存圚す る䜍眮からバブル゜ヌトする。着目したリス ト以倖のリス 卜の頻床情報 は 1づっ枛少するため、着目リストの順䜍は、 必ず䞊昇する方向に動く。 埓っお、 着目リスト以倖のリス 卜の操䜜は必芁ない。
この手順をフロヌにしたものが、 第 3 3図である。 ここでは、 ゜ヌト の凊理を瀺す。 ステップ 2 1 0 1で凊理が開始されるず、 ステップ 2 1 0 2で゜䞀トリストが遞択される。 これは、 着目しおいる話者のリスト である。 ステップ 2 1 0 3では、 盎䞊の頻床情報ず比范する。 順序関係 が正しい堎合、 ステツプ 2 1 0 5で終了する。順序関係が正しくない堎 合、 盎䞊のリストずリス トを入れ替え、 ステップ 2 1 0 3に戻る。 この 凊理は、 順序関係が正垞になるたで 盎䞊のリス トの頻床情報より小さ くなるか、 最䞊䜍に到達するたで繰り返され、 ステップ 2 1 0 5で凊 理を終了する。
䞊蚘実斜䟋によれば以䞋の䜜甚効果を埗るこずができる。
䞊蚘出力確率の挔算では、党おの混合倚次元ガりス分垃の蚈算におい お、 特城成分を同䞀スケヌルで線圢量子化しおいるから、 特城べク トル (浮動小数あるいは固定小数に盞圓する敎数倀をスカラ量子化する凊 理は、 各特城毎に 1フレヌム圓り 1回で良い。 さらに、 参照すべきデヌ 倕ずそのデヌタが属する䞭間テヌブルの先頭ァドレスずの差特城オフ セッ ト若しくはテヌブルオフセッ ト も、 特城成分毎に共通である。 し たがっお、 単䞀ガりス分垃の蚈算は、 䞭間テヌブルの先頭アドレスの口 —ド、 䞭間テ䞀ブルの先頭アドレスず特城オフセッ トの加算、 䞭間テ䞀 ブルのアクセス、 数倀テ䞀ブルのアクセス、 で実行できる。 これにより、 出力確率の挔算速床を増匷するこずができる。
適応においおは数倀テ䞀ブルそれ自䜓の曞換えが䞍芁である。ボむン 倕テヌブルを甚いる堎合には䞭間テヌブルの曞換えも必芁ない。適応に よる分散や平均の倉化に応じおポィン倕テ䞀プル䞊のアクセスボむン 倕の倀だけを修正すれば枈む。 これにより、 適応凊理も高速化するこず ができる。
数倀テヌブルは、 倖郚メモリに栌玍するこずが䞀般的であるが、 侭間 テヌブルのアクセスによっお数倀テ䞀ブル䞊のデヌタァドレスを䞀぀ 埗た埌に、 すく、に数倀テヌブルのアクセスを行うのではなく、 倚次元ガ りス分垃毎に党おのデ䞀倕ァドレスを予め求めおから、数倀テヌブルの アクセスを行うから、数倀テヌブルのアクセスを開始するたでの間に、 デ䞀倕アドレスのデ䞀倕をキャッシュメモリ 1 1 7にプリフェッチす るこずができる。 したがっお、 数倀テヌプルのァクセスではキャッシュ ヒッ トずなり、数倀テヌブルのアクセスにおけるキダッシュミスを回避 するこずができる。
以䞊のこずから、 音声認識のために出力確率を挔算するずき、 テヌプ ル参照のための䞀連のメモリアクセスにおいお、キャッシュミスの発生 なしに、 3回のデ䞀倕ロヌドず ァドレス蚈算のための 1回の加算で ガりス分垃の数倀が埗るこずができる。䞭間テヌブルのアクセス動䜜が 増えおも、 出力確率の挔算を著しく高速化するこずができる。
たた、 1次元ガりス分垃の分散ず平均に䞀意に察応させお䞭間テヌプ ル 4 0 1 , 4 0 2を抜出できるグロ䞀バル䞭間テヌブル 4 0 0を採甚し、 グロ䞀バル䞭間テヌブル 4 0 0から抜出される䞭間テヌブル 4 0 1 , 4 0 2の先頭ァドレスは、ボむン倕テヌブル 4 2 0䞊のアクセスボむン倕 で指定し、抜出された䞭間テヌブルに察するアクセス䜍眮は特城成分を 線圢量子化しお埗られる特城オフセッ 卜によっお指定する。したがっお、 適応により、 分散や平均が倉曎されおも、 䞭間テヌブルの曞き換えは発 生せず、 単に、 倉曎に係るアクセスボむン倕の倀をボむン倕テヌブル䞊 で曞き換えお察応でき、 適応凊理の高局化も実珟するこずができる。 たた、 アクセスボむン倕の倀は分散や平均ず盞関が有るから、 適応に よっお分散や平均が倉わるずき、それに応じおアクセスボむン倕の倀を 倉曎する凊理は簡単になる。
アクセスボむン倕テヌブルを耇数セッ ト蚭けおおき、話者適応などに よっおアクセスポィン倕テヌブルを切換えお䜿甚するこずにより、話者 適応の高速化を図るこずができる。
以䞊本発明者によっおなされた発明を実斜䟋に基づいお具䜓的に説 明したが本発明はそれに限定されるものではなく、その芁旚を逞脱しな い範囲においお皮々倉曎可胜である。
䟋えば、 デヌタ凊理システムは携垯情報端末装眮に限定されない。携 垯電話機胜は省略しおもよい。パヌ゜ナルコンピュヌタシステムで実行 させるこずも可胜である。
デヌタプロセッサの構成は第 2図に限定されない。デ䞀倕プロセッサ は、マむクロプロセッサやマむクロコンピュヌ倕ず称されるものを総称 する。デ䞀倕プロセッサは呜什をフェッチし、 フェッチした呜什を解読 しお挔算制埡凊理を行う回路であり、 C P U (䞭倮凊理装眮 を備えお いればよい。デ䞀倕キダッシュメモリ或いは高速 R A Mを内蔵しおいれ ば曎に奜たしい。高速内蔵 R A Mにはグロヌバル䞭間テヌブルゃポむン 倕テ䞀ブルなどを垞駐させる。
たた、 H M M音声認識のための出力確率挔算のためのプログラムが栌 玍されるコンピュヌタ読み取り可胜な媒䜓は、 フロッピ䞀ディスク、 磁 気テヌプ、 ハヌドディスク等の磁気蚘憶媒䜓、 C D— R O Mや M O等の 光孊的蚘憶媒䜓、 メモリカヌド等の半導䜓補蚘録媒䜓、 或いはそれ以倖 のどのような媒䜓であっおもよい。 産業䞊の利甚可胜性
本発明は、 H M Mを甚いた音声認識技術に広く適甚するこずができ、 䟋えば、マむクロコンピュヌ倕で制埡され若しくは電池駆動される携垯 情報端末装眮等に実珟される音声認識に適甚しお有効な技術に関する ものである。 たた、 本発明に係る音声認識のための出力確率の挔算凊理 プログラムは、これをコンピュヌタ読み取り可胜な蚘録媒䜓や通信回線 などを介しお、パヌ゜ナルコンピュヌタなどのコンピュヌタに口䞀ドし お利甚するこずも可胜である。

Claims

請 求 の 範 囲 .特城べク トルに察しお H MM音声認識を行なうためにデヌタプロセ ッサが䞭間テ䞀ブル及び数倀テヌブルを参照しお混合倚次元ガりス 分垃によっお衚珟される出力確率を挔算可胜なデ䞀倕凊理システム であっお、
前蚘数倀テヌブルは、耇数皮類の 1次元ガりス分垃を基にした倫々 の分垃の数倀を栌玍する領域を有し、
前蚘䞭間テヌブルは、前蚘特城べク トルの特城成分の倀に察する線 圢量子化倀に基づいお遞択される領域にその量子化倀に察応する前 蚘数倀テヌブルの倀の所圚を瀺すためのァドレス情報を栌玍する領
ŸŸを有し、
前蚘デヌタプロセッサは、前蚘特城成分の倀を線圢量子化するず共 に、 特城成分毎のアクセスボむン倕により䞭間テヌブルを遞択し、 前 蚘線圢量子化された倀を基に前蚘遞択した䞭間テヌブルよりァドレ ス情報を取埗し、取埗したァドレス情報を甚いお数倀テヌブルを参照 する凊理を行い、数倀テヌブルから参照した倀に基づいお前蚘出力確 率を挔算可胜であるこずを特城ずするデヌタ凊理システム。
.混合倚次元ガりス分垃の倚次元ガりス分垃毎に特城成分毎の前蚘ァ クセスボむン倕が配眮されるアクセスボむ ン倕テ䞀ブルの圢成領域 を有し、 デヌタプロセッサは、 前蚘アクセスポィン倕テヌブルのァク セスボむン倕を甚いお䞭間テヌブルの遞択を行なうものであるこず を特城ずする請求の範囲第 1項に蚘茉のデヌタ凊理システム。
.前蚘 1次元ガりス分垃を基にした倫々の前蚘分垃党䜓は 2の N乗個 の数倀によっお衚珟され、前蚘特城成分の量子化倀はその倀の䞊䜍 N ビッ トであるこずを特城ずする請求の範囲第 1項又は第 2項に蚘茉 のデヌタ凊理システム。
. 前蚘デ䞀倕プロセッサは、 前蚘数倀テヌブルを参照する凊理を特城 成分毎に繰り返しお倚次元ガりス分垃の倀を挔算し、 この倚次元ガり ス分垃の倀を挔算する凊理を所定回数繰り返しお混合倚次元ガりス 分垃によっお衚珟される出力確率を挔算するものであるこずを特城 ずする請求の範囲第 1項又は第 2項に蚘茉のデヌタ凊理システム。 . 前蚘䞭間テヌブルは、 前蚘数倀テヌブルの基準になる 1次元ガりス 分垃の平均䜍眮を起点に分散の耇数倍の範囲に察しお前蚘ァドレス 情報を栌玍する領域を有し、 その倖偎には、 前蚘平均からの距離情報 を栌玍する領域を有し、 前蚘デヌタプロセッサは、 倚次元ガりス分垃 の倀を挔算するために前蚘数倀テヌブルを参照する凊理を特城成分 毎に繰り返しおいくずき、䞭間テヌブルから参照した情報が前蚘距離 情報であるずきこれを环積し、 その环積倀が所定倀を越えたずき、 圓 該倚次元ガりス分垃のための挔算を䞭止するものであるこずを特城 ずする請求の範囲第 4項に蚘茉のデヌタ凊理システム。
. 前蚘䞭間テヌブルは、 前蚘距離情報の倖偎に固定倀を栌玍する領域 を有し、 前蚘デヌタプロセッサは、 前蚘䞭間テヌブルから前蚘固定倀 を参照したずき、珟圚凊理䞭の圓該倚次元ガりス分垃のための挔算を 䞭止するものであるこずを特城ずする請求の範囲第 5項に蚘茉のデ —倕凊理システム。
.特城べク トルに察しお H M M音声認識を行なうためにデ䞀倕プロセ ッザがグロ䞀バルテ䞀ブル及び数倀テヌブルを参照しお混合倚次元 ガりス分垃によっお衚珟される出力確率を挔算可胜なデヌタ凊理シ ステムであっお、
前蚘数倀テヌブルは、盞互に平均が同䞀であっお分散の異なる耇数 皮類の 1次元ガりス分垃を基にした倫々の分垃の数倀を栌玍する領 域を有し、
前蚘グロ䞀バルテ䞀ブルは、前蚘数倀テヌブルにおける分垃毎の X 方向の配列を Y方向に耇数組栌玍する領域有し、
前蚘 X方向の配列は、前蚘特城べク トルの特城成分の倀に察する線 圢量子化倀に基づいお遞択される䜍眮にその量子化倀に察応する前 蚘数倀テヌブルの倀の所圚を瀺すためのァドレス情報を栌玍する領 域を保有し、
前蚘デヌタプロセッサは、前蚘特城成分の倀を線圢量子化するず共 に、耇数組の X方向の配列に察する Y方向の遞択に分散が考慮され X 方向の配列に察する先頭䜍眮の決定に平均が考慮された特城成分毎 のアクセスポむンタの倀に埓っお前蚘グ口䞀バルテ䞀ブルから䞭間 テヌブルを抜出し、前蚘抜出した䞭間テヌブルの先頭䜍眮を起点に、 前蚘線圢量子化倀に基づいお前蚘ァドレス情報を取埗し、取埗したァ ドレス情報を甚いお数倀テヌブルを参照する凊理を行い、数倀テヌプ ルから参照した倀に基づいお前蚘出力確率を挔算可胜であるこずを 特城ずするデヌタ凊理システム。
.混合倚次元ガりス分垃の倚次元ガりス分垃毎に特城成分毎の前蚘ァ クセスボむン倕が配眮されたアクセスボむン倕テヌブルを圢成する 領域有し、 デ䞀倕プロセッサは、 前蚘アクセスボむン倕テヌブルのァ クセスポィン倕を甚いお䞭間テヌブルの抜出を行なうものであるこ ずを特城ずする請求の範囲第 7項に蚘茉のデヌタ凊理システム。 . 前蚘デ䞀倕プロセッサは、 適応によっお混合倚次元ガりス分垃の平 均ず分散の双方又は䞀方が倉曎されるずき、 これに応じお前蚘ァクセ スポィン倕テヌブルのアクセスポィン倕倀を倉曎するものであるこ ずを特城ずする請求の範囲第 8項に蚘茉のデヌタ凊理システム。 0 .前蚘アクセスボむン倕テヌブルを耇数セッ ト圢成可胜な領域を有 し、 前蚘デ䞀倕プロセッサは、 話者を識別し、 その識別結果に応じた アクセスポむンタテ䞀ブルを甚いるものであるこずを特城ずする請 求の範囲第 8項に蚘茉のデヌタ凊理システム。
1前蚘話者の識別は話者を明瀺するスィツチの状態に基づいお行な うものであるこずを特城ずする請求の範囲第 1 0項に蚘茉のデ䞀倕 凊理システム。
2 .前蚘アクセスボむン倕テ䞀プルず話者ずを察応付ける管理テヌプ ルの圢成領域を有し、 前蚘デヌタプロセッサは、 話者の特城を瀺す予 め登録した識別甚特城情報ず実際の音声特城分析結果ずの比范結果 に基づいお前蚘話者の識別を行ない、 この識別された話者が、 前蚘管 理テヌブルに登録されおいる話者であるずきは、圓該登録話者のァク セスボむン倕テヌブルを参照するものであるこずを特城ずする請求 の範囲第 1 0項に蚘茉のデヌタ凊理システム。
3 . 前蚘デ䞀倕プロセッサは、 前蚘管理テヌブルに登録可胜な話者の 人数を䞀定に限定するず共に、登録話者毎の䜿甚頻床の情報を前蚘管 理テヌブルに远加し、 音声特城分析結果が登録話者であるずき、 分析 結果に䞀臎する登録話者の䜿甚頻床をィンクリメントし、分析結果に 䞍䞀臎の登録話者の䜿甚頻床をデクリメントし、音声特城分析結果が 登録話者以倖であるずきは、最䜎䜿甚頻床の登録話者を前蚘管理テヌ ブルから削陀し、 これに代えお圓該登録話者以倖の話者を管理テヌプ ルに远加するものであるこずを特城ずする請求項 1 2に蚘茉のデヌ 倕凊理システム。
4 . 耇数の音声入力系を持ち、 個々の音声入力系毎に、 前蚘アクセス ボむン倕テヌブルの圢成領域を有し、 前蚘デヌタプロセッサは、 前蚘 耇数の音声入力系に察しお、独立にアクセスボむン倕テヌブルを甚い お、䞊列的な音声認識を可胜にするものであるこずを特城ずする請求 の範囲第 8項に蚘茉のデ䞀倕凊理システム。
1 5 . 前蚘デヌタプロセッサは、 特城べク トルの党おの特城成分に察し お、 線圢量子化を行なうず共に、 前蚘量子化倀ず前蚘 X方向の配列の 単䞀配列芁玠のァドレス量ずの積に基づいお、抜出される䞭間テヌプ ルの先頭䜍眮からの特長オフセッ トを算出し、 その埌、 倚次元混合ガ りス分垃毎に、前蚘アクセスボむン倕ず特城オフセッ 卜ずにより䞭間 テ䞀ブルの参照を行っお数 ^1テ䞀ブルの参照を行うものであるこず を特城ずする請求の範囲第 7項又は第 8項に蚘茉のデヌタ凊理シス テム。
1 6 .前蚘 1次元ガりス分垃を基にした倫々の前蚘分垃党䜓は 2の N乗 個の数倀によっお衚珟され、前蚘特城成分の量子化倀はその倀の䞊䜍 Nビッ トであるこずを特城ずする請求の範囲第 1 5項に蚘茉のデヌ 倕凊理システム。
1 7 . 前蚘デヌタプロセッサは、 前蚘数倀テヌブルを参照する凊理を特 城成分毎に繰り返しお倚次元ガりス分垃の倀を挔算し、 この倚次元ガ りス分垃の倀を挔算する凊理を所定回数繰り返しお混合倚次元ガり ス分垃によっお衚珟される出力確率を挔算するものであるこずを特 城ずする請求の範囲第 1 6項に蚘茉のデヌタ凊理システム。
1 8 . 前蚘 X方向の倫々の配列は、 前蚘数倀テヌブルの基準になる 1次 元ガりス分垃の平均䜍眮を起点に分散の耇数倍の範囲に察しお前蚘 アドレス情報を栌玍する領域を有し、 その倖偎には、 前蚘平均からの 距離情報を栌玍する領域を有し、 前蚘デヌタプロセッサは、 倚次元ガ りス分垃の倀を挔算するために前蚘数倀テヌブルを参照する凊理を 特城成分毎に繰り返しおいくずき、䞭間テヌブルから参照した情報が 前蚘距離情報であるずきこれを环積し、その环積倀が所定倀を越えた ずき、圓該倚次元ガりス分垃のための挔算を䞭止するものであるこず を特城ずする請求の範囲第 1 7項に蚘茉のデヌタ凊理システム。 1 9 . 前蚘 Y方向の倫々の配列は、 前蚘距離情報の倖偎に固定倀を栌玍 する領域有し、 前蚘デヌタプロセッサは、 前蚘䞭間テヌブルから前蚘 固定倀を参照したずき、珟圚凊理䞭の圓該倚次元ガりス分垃のための 挔算を䞭止するものであるこずを特城ずする請求の範囲第 1 8項に 蚘茉のデヌタ凊理システム。
0 . 特城べク トルに察しお H M M音声認識を行なうために、
耇数皮類の 1次元ガりス分垃を基にした倫々の分垃の数倀を保有 する数倀テヌブルず、
前蚘特城べク トルの特城成分の倀に察する線圢量子化倀に基づい お遞択される領域にその量子化倀に察応する前蚘数倀テヌブルの倀 の所圚を瀺すためのァドレス情報を保有する前蚘䞭間テヌブルず、 を 甚い、
前蚘特城成分の倀を線圢量子化するず共に、特城成分毎のアクセス ボむン倕により䞭間テヌブルを遞択し、前蚘線圢量子化された倀を基 に前蚘遞択した䞭間テ䞀プルよりァドレス情報を取埗し、取埗したァ ドレス情報を甚いお数倀テヌブルを参照する凊理を行い、数倀テヌプ ルから参照した倀に基づいお、混合倚次元ガりス分垃によっお衚珟さ れる出力確率を挔算するこずを特城ずする混合ガりス H M Mの出力 確率挔算方法。
2 1 . 前蚘䞭間テヌブルの遞択は、 混合倚次元ガりス分垃の倚次元ガり ス分垃毎に特城成分毎の前蚘アクセスボむン倕が配眮されたァクセ スポむンタテヌブルを甚いお行なうものであるこずを特城ずする請 求の範囲第 2 0項に蚘茉の混合ガりス H M Mの出力確率挔算方法。 2 2 . 特城ベク トルに察しお H M M音声認識を行なうために、
盞互に平均が同䞀であっお分散の異なる耇数皮類の 1次元ガりス 分垃を基にした倫々の分垃の数倀を保有する数倀テヌブルず、 前蚘数倀テヌブルにおける分垃毎の X方向の配列を Y方向に耇数 組保有し、 前蚘 X方向の配列には、 前蚘特城べク トルの特城成分の倀 に察する線圢量子化倀に基づいお遞択される䜍眮にその量子化倀に 察応する前蚘数倀テヌブルの倀の所圚を瀺すためのァドレス情報を 保有するグロ䞀バルテ䞀ブルず、 を甚い、
前蚘特城成分の倀を線圢量子化するず共に、耇数組の X方向の配列 に察する Y方向の遞択に分散が考慮され X方向の配列に察する先頭 䜍眮の決定に平均が考慮された特城成分毎のアクセスボむン倕の倀 に埓っお前蚘グロ䞀バルテ䞀ブルから䞭間テ䞀ブルを抜出し、前蚘抜 出した䞭間テヌブルの先頭䜍眮を起点に、前蚘線圢量子化倀に基づい お前蚘ァドレス情報を取埗し、取埗したァドレス情報を甚いお数倀テ 䞀ブルを参照する凊理を行い、数倀テヌブルから参照した倀に基づい お、混合倚次元ガりス分垃によっお衚珟される出力確率を挔算するこ ずを特城ずする混合ガりス H M Mの出力確率挔算方法
2 3 . 前蚘䞭間テ䞀ブルの抜出は、 混合倚次元ガりス分垃の倚次元ガり ス分垃毎に特城成分毎の前蚘アクセスボむン倕が配眮されたァクセ スポむンタテヌブルを甚いお行なうものであるこずを特城ずする請 求の範囲第 2 2項に蚘茉の混合ガりス H M Mの出力確率挔算方法。 2 4 .適応によっお混合倚次元ガりス分垃の平均ず分散の双方又は䞀方 が倉曎されるずき、 これに応じお前蚘アクセスボむン倕テヌブルのァ ドレスポむンタ倀を倉曎するものであるこずを特城ずする請求の範 囲第 2 3項に蚘茉の混合ガりス H M Mの出力確率挔算方法。
2 5 . 特城べク トルを入力しお H M M音声認識を行なうために、
耇数皮類の 1次元ガりス分垃を基にした倫々の分垃の数倀を保有 する数倀テヌブルず、 前蚘特城べク トルの特城成分の倀に察する線圢量子化倀に基づい お遞択される領域にその量子化倀に察応する前蚘数倀テヌブルの倀 の所圚を瀺すためのァドレス情報を保有する前蚘䞭間テヌブルず、 混合倚次元ガりス分垃の倚次元ガりス分垃毎に特城成分毎のァク セスポむンタが配眮されたアクセスポむンタテ䞀ブルず、 を甚い、 前蚘特城成分の倀を線圢量子化するず共に、前蚘アクセスボむン倕 テ䞀ブル䞊の特城成分毎のアクセスポィン倕により䞭間テヌブルを 遞択し、前蚘線圢量子化された倀を基に前蚘遞択した䞭間テヌブルよ りァドレス情報を取埗し、取埗したァドレス情報を甚いお数倀テ䞀ブ ルを参照する凊理を行い、数倀テヌブルから参照した倀に基づいお、 混合倚次元ガりス分垃によっお衚珟される出力確率を挔算する凊理 を、コンビュヌ倕に実行させるためのプログラムを蚘録したコンビュ 䞀倕読み取り可胜な蚘録媒䜓。
6 . 特城べク トルを入力しお H M M音声認識を行なうために、 盞互に平均が同䞀であっお分散の異なる耇数皮類の 1次元ガりス 分垃を基にした倫々の分垃の数倀を保有する数倀テヌブルず、 前蚘数倀テヌブルにおける分垃毎の X方向の配列を Y方向に耇数 組保有し、 前蚘 X方向の配列には、 前蚘特城べク トルの特城成分の倀 に察する線圢量子化倀に基づいお遞択される䜍眮にその量子化倀に 察応する前蚘数倀テヌブルの倀の所圚を瀺すためのァドレス情報を 保有するグロヌバルテヌブルず、
耇数組の X方向の配列に察する Y方向の遞択に分散が考慮され X 方向の配列に察する先頭䜍眮の決定に平均が考慮された特城成分毎 のアクセスボむン倕が混合倚次元ガりス分垃の倚次元ガりス分垃毎 に配眮されたアクセスポむンタテヌブルず、 を甚い、
前蚘特城成分の倀を線圢量子化するず共に、前蚘アクセスボむン倕 テヌブル䞊のアクセスポむンタの倀に埓っお前蚘グロ䞀バルテヌブ ルから䞭間テヌブルを抜出し、前蚘抜出した䞭間テ䞀ブルの先頭䜍眮 を起点に、前蚘線圢量子化倀に基づいお前蚘ァドレス情報を取埗し、 取埗したァドレス情報を甚いお数倀テヌブルを参照する凊理を行い、 数倀テヌブルから参照した倀に基づいお、混合倚次元ガりス分垃によ ぀お衚珟される出力確率を挔算する凊理を、コンピュヌタに実行させ るためのプログラムを蚘録したコンピュヌ倕読み取り可胜な蚘録媒 䜓。
7 . 前蚘プログラムは、 適応によっお混合倚次元ガりス分垃の平均ず 分散の双方又は䞀方が倉曎されるずき、 これに応じお前蚘アクセスポ ィン倕テ䞀ブル䞊のアクセスボむン倕の倀を倉曎するものであるこ ずを特城ずする請求の範囲第 2 3項に蚘茉のコンピュヌタ読み取り 可胜な蚘録媒䜓。
8 . 動䜜電源を䟛絊するバッテリヌを有し、 前蚘デ䞀倕プロセッサは 前蚘バッテリヌを動䜜電源ずし消費電力が 1 W以䞋であるこずを特 城ずする請求の範囲第 1項又は第 7項に蚘茉のデヌタ凊理システム。
PCT/JP1999/000493 1999-02-05 1999-02-05 Systeme de traitement de donnees WO2000046788A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
AU21865/99A AU2186599A (en) 1999-02-05 1999-02-05 Data processing system
JP2000597789A JP3796121B2 (ja) 1999-02-05 1999-02-05 デヌタ凊理システム
PCT/JP1999/000493 WO2000046788A1 (fr) 1999-02-05 1999-02-05 Systeme de traitement de donnees

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1999/000493 WO2000046788A1 (fr) 1999-02-05 1999-02-05 Systeme de traitement de donnees

Publications (1)

Publication Number Publication Date
WO2000046788A1 true WO2000046788A1 (fr) 2000-08-10

Family

ID=14234877

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/000493 WO2000046788A1 (fr) 1999-02-05 1999-02-05 Systeme de traitement de donnees

Country Status (3)

Country Link
JP (1) JP3796121B2 (ja)
AU (1) AU2186599A (ja)
WO (1) WO2000046788A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243230A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 歌声評定装眮およびプログラム
US7295978B1 (en) * 2000-09-05 2007-11-13 Verizon Corporate Services Group Inc. Systems and methods for using one-dimensional gaussian distributions to model speech
US20130185067A1 (en) * 2012-03-09 2013-07-18 International Business Machines Corporation Noise reduction method. program product and apparatus
CN112399555A (zh) * 2020-10-20 2021-02-23 北京嘀嘀无限科技发展有限公叞 䞀种䜍眮定䜍的方法、装眮、可读存傚介莚和电子讟倇

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248985A (ja) * 1995-03-13 1996-09-27 Ricoh Co Ltd 音声認識装眮及び方法
JPH08248986A (ja) * 1995-03-13 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> パタヌン認識方法
JPH096382A (ja) * 1995-06-21 1997-01-10 Canon Inc 情報凊理方法及び装眮

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248985A (ja) * 1995-03-13 1996-09-27 Ricoh Co Ltd 音声認識装眮及び方法
JPH08248986A (ja) * 1995-03-13 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> パタヌン認識方法
JPH096382A (ja) * 1995-06-21 1997-01-10 Canon Inc 情報凊理方法及び装眮

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295978B1 (en) * 2000-09-05 2007-11-13 Verizon Corporate Services Group Inc. Systems and methods for using one-dimensional gaussian distributions to model speech
JP2006243230A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 歌声評定装眮およびプログラム
JP4524634B2 (ja) * 2005-03-02 2010-08-18 株匏䌚瀟囜際電気通信基瀎技術研究所 歌声評定装眮およびプログラム
US20130185067A1 (en) * 2012-03-09 2013-07-18 International Business Machines Corporation Noise reduction method. program product and apparatus
US9087513B2 (en) * 2012-03-09 2015-07-21 International Business Machines Corporation Noise reduction method, program product, and apparatus
CN112399555A (zh) * 2020-10-20 2021-02-23 北京嘀嘀无限科技发展有限公叞 䞀种䜍眮定䜍的方法、装眮、可读存傚介莚和电子讟倇
CN112399555B (zh) * 2020-10-20 2023-07-14 北京嘀嘀无限科技发展有限公叞 䞀种䜍眮定䜍的方法、装眮、可读存傚介莚和电子讟倇

Also Published As

Publication number Publication date
AU2186599A (en) 2000-08-25
JP3796121B2 (ja) 2006-07-12

Similar Documents

Publication Publication Date Title
US20170164049A1 (en) Recommending method and device thereof
US6996525B2 (en) Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US8712779B2 (en) Information retrieval system, information retrieval method, and information retrieval program
US7716049B2 (en) Method, apparatus and computer program product for providing adaptive language model scaling
US8862478B2 (en) Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server
US7471775B2 (en) Method and apparatus for generating and updating a voice tag
US10381000B1 (en) Compressed finite state transducers for automatic speech recognition
US10049656B1 (en) Generation of predictive natural language processing models
JP2002091477A (ja) 音声認識システム、音声認識装眮、音響モデル管理サヌバ、蚀語モデル管理サヌバ、音声認識方法及び音声認識プログラムを蚘録したコンピュヌタ読み取り可胜な蚘録媒䜓
JP2004287447A (ja) モバむル通信デバむスのための分散音声認識
JP2013047809A (ja) 移動通信装眮の音声語圙を自動的に拡匵するための方法及び装眮
CN102254555A (zh) 改进䟝赖䞊䞋文的语音识别噚对环境变化的鲁棒性
US10152298B1 (en) Confidence estimation based on frequency
US6182036B1 (en) Method of extracting features in a voice recognition system
US8195455B2 (en) Apparatus and method for sound recognition in portable device
CN110164416B (zh) 䞀种语音识别方法及其装眮、讟倇和存傚介莚
US8374872B2 (en) Dynamic update of grammar for interactive voice response
US7103547B2 (en) Implementing a high accuracy continuous speech recognizer on a fixed-point processor
CN111179940A (zh) 䞀种语音识别方法、装眮及计算讟倇
CN110930969A (zh) 背景音乐的确定方法及盞关讟倇
CN113516963B (zh) 音频数据的生成方法、装眮、服务噚和智胜音箱
WO2000046788A1 (fr) Systeme de traitement de donnees
CN111508481A (zh) 语音唀醒暡型的训练方法、装眮、电子讟倇及存傚介莚
JP2002049390A (ja) 音声認識方法およびサヌバならびに音声認識システム
CN113724698B (zh) 语音识别暡型的训练方法、装眮、讟倇及存傚介莚

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AL AU BA BB BG BR CA CN CU CZ EE GD GE HR HU ID IL IN IS JP KR LC LK LR LT LV MG MK MN MX NO NZ PL RO SG SI SK SL TR TT UA US UZ VN YU

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW SD SZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref country code: JP

Ref document number: 2000 597789

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 09890703

Country of ref document: US

122 Ep: pct application non-entry in european phase