WO1993020552A1 - Speech recognition apparatus using neural network, and learning method therefor - Google Patents

Speech recognition apparatus using neural network, and learning method therefor Download PDF

Info

Publication number
WO1993020552A1
WO1993020552A1 PCT/JP1993/000373 JP9300373W WO9320552A1 WO 1993020552 A1 WO1993020552 A1 WO 1993020552A1 JP 9300373 W JP9300373 W JP 9300373W WO 9320552 A1 WO9320552 A1 WO 9320552A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
output
neural network
learning
data
Prior art date
Application number
PCT/JP1993/000373
Other languages
English (en)
French (fr)
Inventor
Mitsuhiro Inazumi
Original Assignee
Seiko Epson Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corporation filed Critical Seiko Epson Corporation
Priority to JP51729193A priority Critical patent/JP3521429B2/ja
Priority to KR1019930703580A priority patent/KR100292919B1/ko
Priority to DE69327997T priority patent/DE69327997T2/de
Priority to EP93906832A priority patent/EP0586714B1/en
Publication of WO1993020552A1 publication Critical patent/WO1993020552A1/ja
Priority to HK98115085A priority patent/HK1013879A1/xx

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Definitions

  • Speech recognition device using neural network and learning method thereof
  • the present invention relates to a speech recognition apparatus using a neural network and a learning method therefor.
  • the present invention provides a conventional method of giving the start and end of input data, Instead of processing all possible start-end combinations, the neuron-like element itself is configured to hold the past history of the input data, so that the time series of speech etc.
  • Harddo 3 Simple data processing and technology that enables high-precision processing.
  • the present invention relates to a neural network learning method for causing a neural network to perform such processing.
  • data recognition means in particular, means that are practically used as means for recognizing categories of time-series data by learning, are dynamic programming (DP) methods, hidden Markov models (DP) methods, and the like.
  • DP dynamic programming
  • DP hidden Markov models
  • HMM back propagation learning method
  • MLP multilayer perceptron-type neural network
  • a problem common to the DP method and the HMM method is that the data to be used as a teacher and the data to be recognized require a start point and an end point.
  • N the number of bits belonging to a certain category from a pattern of length N
  • the start end may be on the order of N and the end may be
  • N orders In other words, there is a possibility that the combination of the start and end may be a self-order of N. Therefore, in this case
  • recognition processing must be performed for all of such a large number of combinations. And that process takes an enormous amount of time.
  • the MLP method is basically a method for recognizing static data, and in order to make it recognize time series data, data in a certain time range is input as one input data, and the equivalent There is a problem that time information must be processed. This time range must be fixed by the configuration of the MLP.
  • the length of time series data varies greatly depending on the range and within the same range. For example, taking a phoneme in a speech as an example, the average length of a long phoneme such as a vowel is shorter than that of a short phoneme such as a plosive. Even in the same phoneme, the length in the actual voice fluctuates twice as much. Therefore, if the input range of data is set to an average length, when recognizing a short phoneme, the input data will include a lot of data outside the recognition target. When recognizing, the input data contains only part of the data to be recognized. These are all factors that reduce the cognitive ability. Even if different input lengths are set for each phoneme, the problem is the same because the length of the phoneme itself varies. This is also common in time-series information. Disclosure of the invention
  • the conventional DP and HMM methods require the beginning and end of the data to be handled.
  • the LP method requires the start and end of the input range during learning.
  • this cannot be clarified in principle, and assuming the start and end points forcibly reduces the recognition ability.
  • processing for all combinations of the start and end is required, and enormous processing is required.
  • each neuron-like element constituting the neural network includes an internal state value storage unit and an internal state value storage unit.
  • Internal state value updating means for updating the internal state value based on the internal state value recorded in the above and the input value input to the neuron-like element, and the output of the internal state value storing means is converted to an external output value
  • output value generating means that performs
  • the internal state value updating means comprises weighted integrating means for weighting and integrating the input value and the internal state value, and the internal state value storage means for integrating the value integrated by the weighted integrating means.
  • Output value generation means for converting the value obtained by the integration means into a value between a preset upper limit value and a lower limit value.
  • the internal state value of the i-th neuron-like element constituting the neural network is X i, and i is a time constant, and weighting of the neuron-like element is performed.
  • the weighted input value Z j to the i-th neuron-like element includes a value obtained by adding the weight to the output of the i-th neuron-like element itself,
  • the weighted input value Z j to the i-th neuron-like element is the value obtained by adding the weight to the output of another neuron-like element constituting the neural network.
  • the weighted input value Z j to the i-th neuron-like element includes data given from outside the neural network, 7) In the above 1) to 6), the weighted input value Z j to the i-th cell-like element includes a value obtained by adding a weight to a fixed value,
  • the output value generation means has a symmetric output range.
  • the neural network has at least two outputs, a positive output and a negative output
  • the speech recognition device S performs feature extraction of an input to be recognized and inputs the feature extracted value to the neural network, and a speech feature extraction unit, and an output of the neural network.
  • a recognition result output means for converting a value into a recognition result; and an internal state value initialization means for giving a preset initial value to the internal state value storage means of the neural cell-like element constituting the neural network.
  • the background noise input means for inputting background noise to the neural network, and an equilibrium state are detected from the output of the neural network, and based on the detection result, Equilibrium state detection means for outputting a signal for changing the internal state value to the internal state initial value setting means,
  • the learning method of the speech recognition device using the neural network according to the present invention includes:
  • the speech recognition apparatus of the above 10) or 11) has a learning unit for learning a neural network, and the learning unit stores input data for learning.
  • Input data selection means for selecting learning input data from input data storage means, output data storage means for using learning output data, and learning output data based on the selected input data and its chain;
  • Output data selecting means for selecting, and learning control means for inputting the selected learning input data to the feature extraction unit and controlling learning of the neural network, and the network, wherein the learning control means includes a neural network.
  • the input data storage means has a plurality of categories
  • the output data storage means has categories corresponding to the respective categories of the input data storage means
  • the selection means selects multiple data that you want to learn from the input data storage means.
  • the output data selection means selects the learning output data corresponding to the learning input data selected by the input data selection means
  • the learning control unit connects the plurality of data selected by the input data selection means into one.
  • the learning unit has one input data connection means and one output data connection means for connecting the output data for learning selected by the output data selection means to one, and the learning unit inputs the one connected learning input data to the speech feature extraction means. And changing the weight of the connection of the neuron-like elements based on the output of the two neural networks and the output of the output connection means.
  • the learning section superimposes noise data storage means for storing noise data and noise selected from the noise data storage means on the selected learning data.
  • noise data storage means for storing noise data and noise selected from the noise data storage means on the selected learning data.
  • Self-organization can respond to phenomena of various time scales by learning.
  • FIG. 1 is a diagram showing a nerve cell-like element constituting the neural network of the present invention.
  • FIG. 2 is a diagram in which the nerve cell-like element in FIG.
  • FIG. 3 is an example in which the configuration of FIG. 2 is replaced with an electric circuit.
  • FIG. 4 is a diagram showing a speech recognition apparatus using a neural network configured using the neural cell-like element of the present invention.
  • FIG. 5 is a diagram of the neural network of FIG. 4 having three layers.
  • FIG. 6 is a diagram in which the neural network of FIG. 5 is further multilayered.
  • FIG. 7 is a diagram in which the transmission network and the network of FIG. 6 are divided.
  • FIG. 8 is a diagram illustrating a dual neural network having an auto S regression loop.
  • FIG. 1 is a diagram showing a nerve cell-like element constituting the neural network of the present invention.
  • FIG. 2 is a diagram in which the nerve cell-like element in FIG.
  • FIG. 3 is an example in which the configuration of FIG.
  • FIG. 9 is a diagram showing a random connection neural network.
  • FIG. 10 is a diagram for explaining the noise resistance of the speech recognition device of the present invention.
  • FIG. 11 is a diagram for explaining a learning term effect of the time scale of the speech recognition device of the present invention.
  • FIG. 12 is a diagram showing a configuration of another voice recognition device using the nerve cell element of the present invention.
  • FIG. 13 is a diagram illustrating an operation procedure of the speech recognition device in FIG.
  • FIG. 14 is a diagram showing a learning method of speech recognition and instrumentation using the neural network of the present invention.
  • FIG. 15 is a diagram showing a learning procedure of the learning method of the present invention.
  • FIG. 16 is a diagram showing connection of learning data according to the present invention.
  • FIG. 17 is a diagram showing a configuration of the learning data of the present invention.
  • FIG. 18 is another diagram showing a learning method of the speech recognition device using the neural network of the present invention.
  • FIG. 19 is a diagram showing a speech word detection output by the speech recognition device of the present invention.
  • FIG. 20 is a diagram showing another speech word detection output by the speech recognition device of the present invention.
  • FIG. 21 is a diagram showing another configuration of the speech recognition device S of the present invention.
  • FIG. 22 is a diagram showing an operation procedure of the speech recognition device in FIG.
  • FIG. 23 is a diagram illustrating a learning method of the speech recognition device having the background noise superimposing means.
  • Figure 24 is a diagram showing how the noise component is added to the training data. is there.
  • FIG. 25 is a diagram showing a recognition result when an unknown word is given to the neural network trained by the learning method of the present invention.
  • FIG. 26 is a diagram showing recognition results when the same processing as in FIG. 25 is performed for an unknown speaker.
  • FIG. 27 is a diagram illustrating a recognition result obtained when the same processing as in FIG. 26 is performed with background noise.
  • FIG. 28 is a diagram showing a conventional neuron-like element.
  • FIG. 29 is a diagram in which the nerve cell-like element in FIG. 28 is replaced with a specific function.
  • FIG. 30 is a diagram in which the configuration of FIG. 29 is replaced with an electric circuit.
  • FIG. 1 schematically shows the function of a neural cell-like element (hereinafter, referred to as a “node”) constituting an NN according to the present invention.
  • reference numeral 104 denotes the entirety of one node
  • 101 denotes the internal state value storage means
  • 102 denotes the internal state value stored in 101 and the input value input to the node.
  • Internal state value updating means for updating the internal state value
  • output value generating means for converting the 10 s internal state value into an external output.
  • reference numeral 201 denotes data input means
  • 202 denotes weighted integrating means for weighting and integrating the data input values obtained by 201
  • 203 denotes integrating means for integrating the integrated data values
  • 204 denotes the integrating means.
  • Output value limiting means for converting a value obtained as a result of integration into a predetermined range of values is schematically shown.
  • FIG. 3 is an example in which the configuration of FIG. 2 is replaced by an electronic circuit.
  • reference numeral 301 denotes the data input means and the weighted integrating means of FIG. 2
  • 302 denotes the integrating means
  • 303 denotes the output value limiting means.
  • FIG. 28 schematically shows the functions of the nodes constituting the NN by the conventional MLP method.
  • reference numeral 2803 denotes an entire node
  • 2801 denotes an internal state value calculating means for calculating an internal state value of the node
  • 2802 denotes an output value generating means for converting the internal state value calculated by the 2801 to an external output.
  • FIG. 29 specifically shows the function of the conventional node shown in FIG. 28.
  • reference numeral 2901 denotes a data input means
  • 2902 weights the data input value obtained by 2901.
  • 2903 denotes an output value limiting means for converting the value of the integrated data into a value in a predetermined range.
  • FIG. 30 shows an example in which the configuration of FIG. 29 is replaced by an electronic circuit.
  • reference numeral 3001 designates the data input means and weighted integrating means of FIG. 29, and reference numeral 3002 designates the output value limiting means.
  • the node of the present invention has an integrating means not provided in the conventional node.
  • the node of the present invention is the past of the data input to the node. Is converted and held as its integral value, and it can be said that it is dynamic in the sense that the output is determined by it.
  • An NN using NN can process time-series data with the node itself, regardless of the NN structure.
  • the NN of the present invention since the context information and the like are stored as integrated values inside each element, it is not necessary to set a special structure for the NN. Therefore, for input data, the simplest input method of inputting data at each timing at each timing is sufficient, and special hardware and processing for processing time information are sufficient. Does not require any.
  • the internal state value of the node is X
  • the output value is Y
  • the current internal state value is X curr
  • the updated internal state value is X ne Xt
  • the node is updated during the update operation.
  • the input value input to the node be Z i (where i is 0 to n, and n is the number of firepower to that node).
  • Formal operation of internal state value updating means Expressing the function G, the updated internal state value Xn ext is
  • Equation (1) G (X curr, Z 0, ⁇ ', Z i, ⁇ , Z n] (1)
  • Equation (1) can be various, For example, the following equation (2) using the first-order differential equation is also possible. Where i is a time constant.
  • the input value zj is defined in more detail, (1) the output of the node itself multiplied by a certain connection weight, (2) the output of another node multiplied by a certain connection weight, and (3) equivalently A fixed output value obtained by adding a connection weight to give a bias to the internal state updating means, an external input to the node from outside the NN, and the like are considered. Therefore, let us consider updating the internal state value of the i-th node with respect to such an input value Z j.
  • the internal state value is X i
  • the output of any node is Y j
  • the coupling strength of coupling the output of the j-th node to the input of the i-th node is W ij
  • the bias value is 0 i
  • the i-th node is Assuming that the external input value to the node is D i, equation (2) can be written more specifically as follows. Wij Yj + ⁇ + Di (s)
  • the operation of the output value generating means is formally expressed by a function F, where the internal state of the node at a certain moment determined in this way is expressed as:
  • FIG. 4 shows an example of a speech recognition apparatus using ⁇ ⁇ composed of nodes according to the present invention.
  • reference numeral 401 denotes a voice feature extraction unit
  • 402 denotes a line constituted by the node of the present invention
  • 403 denotes a recognition result output unit.
  • the output extracted by the audio feature extraction means is input to two nodes. Then, this ⁇ ⁇ is a fully connected ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ where any node is connected to all other nodes. Then, from ⁇ , two outputs are output to the recognition result output means.
  • the output number can be set arbitrarily.
  • a positive output and a negative output are provided, and the recognition result can be comprehensively determined from these outputs to improve the recognition accuracy.
  • the number of inputs and outputs to ⁇ is not limited to two as shown in Fig. 4, but may be any number.
  • FIGS. 5 to 9 show other examples of the configuration of the node configured by the node of the present invention.
  • FIG. 5 shows an example in which only the configuration of # 402 in FIG. 4 is changed.
  • # 402 is composed of an input layer 501, a hidden layer 502, and an output layer 5/3.
  • This structure is apparently the same as the conventional ML method.
  • the value of the input layer is determined first as in the prior art, and the value of the hidden layer having that value as the input is then determined. It is not a feedforward network where the values of each layer up to the layer are determined sequentially.
  • feNN recognizes time-series data without the need for a context layer as in the conventional technology because the node itself can hold internal state values, and is equivalent to the conventional technology with a context layer. Can be obtained.
  • the outputs of all layers are determined at the same time, more efficient parallel processing is possible than the MLI method of the prior art.
  • Figure 10a shows the correspondence between node input and output in the conventional simple MLP method.
  • a signal in which spike-like noise is superimposed on a square-wave input is given as an input, an almost unchanged waveform appears in the output.
  • the node of the MLP method simply reflects its input in the output, and therefore has the effect of noise. I will receive it as it is.
  • the node of the present invention records a time history as an internal state value, and the next internal state value and output value are determined as a function of the internal state value and the input. Therefore, even if a spike-like noise similar to a) is superimposed on the input, the spike-like waveform is blunted as shown in Fig. 10b), and the effect is reduced, resulting in good noise resistance. Sex can be obtained.
  • the history information of some of the nodes constituting the NN is stored in an external node having a special configuration. All nodes have lower noise resistance than the case of using the node of the present invention in which all nodes hold their own history information as internal state values.
  • the following example is an example of an Hourglass-type network in which the configuration of NN in FIG. 5 is further multi-layered, and is shown in FIG.
  • 601 indicates a feature extraction (or information compression) network
  • 602 indicates a transmission network
  • 603 indicates a recognition (or information expansion) network.
  • the configuration of NN in FIG. 6 is apparently similar to the conventional MLP method. However, the operation is completely different as described above.
  • a feature extraction (or information compression) NN that incorporates time-series effects without impairing the effects of the present invention, and a recognition network [or information extension] that incorporates time-series effects.
  • FIG. 7 shows an audio compression transmission device, and if this dashed line shows a temporal distance, FIG. 7 shows, for example, an audio compression recording device.
  • the object to be compressed here is not limited to voice, but may be more general information.
  • recognition processing is information compression processing in a broad sense.
  • FIG. 7 does not impair the effects of the present invention described above. For example, due to the noise immunity described with reference to FIG.
  • the NN in Fig. 8 can handle phenomena in a wider temporal range by having an autoregressive loop.
  • the strength of the connection of the autoregressive loop in the input value Z is W, considering this autoregressive loop is equivalent to approximately replacing the time constant of the system with the following equation. Equivalent to.
  • FIG. 11 is a diagram conceptually showing this effect. Assuming that a continuous input of a square wave as shown in a) of Fig. 11 is given, if the response time constant of the system is larger than the period of this square wave, the response of the system will be the same as the output of a). The next output is added to the output, and a correct recognition result cannot be obtained.
  • the time constant of the system is optimized by learning, and its response can be modified, for example, as shown in Fig. 11 b). A good recognition rate can be obtained.
  • Fig. 9 shows an example in which the NN in Fig. 8 is a random combination NN.
  • the random combination NN 902 is composed of two sub-networks, an input network 904 and an output network 905.
  • the input network is a fully-coupled sub-network
  • the output and network are random-coupled sub-networks
  • the two sub-networks are unidirectionally connected.
  • FIG. 12 is a diagram obtained by adding an internal state initial value setting means 124 to the speech recognition apparatus of FIG. 4. The rest is the same as FIG. As shown in equation (2), the operation of N N of the present invention is described by a first-order differential equation. Therefore, an initial value is needed to determine its operation.
  • the internal state initial value setting means gives a predetermined initial value to all nodes in order for NN to operate. The operation procedure of the real voice recognition device will be described based on FIG.
  • the output value Y is calculated based on the updated X value.
  • the procedure is as follows.
  • the recognition result is given to the recognition result output means as the output of the node assigned to the output.
  • the above is the basic operation principle and the configuration of the speech recognition device based on the NN using the node of the present invention.In order for such an NN to perform desired processing, it is necessary to train the NN. . Then, the learning method of NN will be described next.
  • FIG. 14 is a configuration diagram showing a learning method of the speech recognition device of the present invention.
  • reference numeral 1410 denotes a learning unit for learning NN1402.
  • 1 4 11 1 is an input data storage means storing predetermined learning input data
  • 1 4 13 is an output data storing means storing model output data corresponding to each learning input data
  • 1 4 1 2 is input data selection means for selecting input data to be learned from the input data storage means
  • 1 4 1 4 is output data selection means for selecting output data
  • 1 4 1 5 Denotes learning control means for controlling NN learning.
  • a learning method of the speech recognition device by the learning unit will be described with reference to FIGS.
  • a preset initial state value X is set to all nodes.
  • learning input data to be learned is selected by input data selecting means.
  • the selected input data is sent to the learning control means.
  • learning output data corresponding to the selected learning input data is selected by the output data selection means.
  • the selected output data is also sent to the learning control means.
  • the selected learning input data is input to the audio feature extraction means 1401, and the special vector extracted here is input to NN as an external input.
  • the sum of the input Z is calculated for each node, and the internal state value X is updated according to the equation C2).
  • the output Y is obtained from the updated X.
  • the output value Y output from NN is a random value.
  • T the output data for learning corresponding to the selected input data for learning
  • Y the output value corresponding to the input data for learning.
  • This learning rule is applicable not only to the fully-connected neural network illustrated but also to a more general random-connected neural network including layered connections and the like as special examples. It is clear.
  • NN has two outputs, a positive output and a negative output.
  • a method of learning both the rise and fall of the output by continuously giving two voice data as shown in FIGS. 17C a) to 17 d is used.
  • negative data and positive data are input in succession to learn the rise of the positive output and the rise and fall of the negative output.
  • positive data and negative data are successively input to learn the rise and fall of the positive output and the rise of the negative output.
  • two sets of negative data are input in succession, and the learning in Fig. 17 C a) does not give NN the false recognition that next to negative data is positive data. To do.
  • Fig. 17 [d] two positive data are input in succession, and in the learning of Fig. 17 [b], NN recognizes the false recognition that the next data is positive data after negative data. Do not hold it.
  • 18 is a configuration diagram of a speech recognition device for causing the NN to learn these two continuous inputs.
  • the input data storage means described with reference to FIG. 14 is composed of two tuna ⁇ I, positive data and negative data.
  • 1801 is collected under various conditions; the positive data storage means, which is the data group of the words to be recognized, and 1802 is the word to be recognized, which is another category.
  • the negative data storage means as an example of, and 1803 and 1804 are output data storage means for storing learning output data for each category.
  • 1805 is input data selection means
  • 1806 is output data selection means
  • 1807 is input data connection means
  • 1808 is output data connection means
  • 18009 learning Control means
  • 1810 indicate NN, respectively.
  • the input data selection means selects two learning input data from the positive data storage means and the negative data storage means. The combination is as described in FIG.
  • the two selected input data become one continuous data by the input data connection means.
  • the continuous data is feature-extracted by the speech feature extraction means and input to NN.
  • NN Within NN output values are calculated in chronological order according to the processing in FIG.
  • the output of NN is sent to the learning control means, the error with the learning output data selected in advance is calculated, and the weight of the coupling of each node is corrected, so that NN repeats learning.
  • the output of the NN is a positive output node and a negative output node
  • the solid lines in 1803 and 1804 are the learning output of the positive output node corresponding to the positive data
  • the broken line is The learning output of the negative output node corresponding to the negative data. Therefore, the following shows an example in which the recognition result of a speech recognition device composed of NNs composed of nodes having such features is learned by the learning method described with reference to FIG.
  • a 20th-order LPC Cavestrum as the output of the speech feature extraction means, and configured NN with a total of 32 nodes, with 20 as input, 2 as output, and 10 as others.
  • the output of NN is a positive output corresponding to the above positive data, Two types of negative output corresponding to negative data were considered. The four outputs described in Fig. 17 were assumed as learning outputs.
  • the sigmoid function of equation (5) which has the origin at the temporal midpoint of the data and the starting end of the data is set to 110 and the ending is set to 10 in the curve portion of the learning output, Those deformed in the range of 0 to 0.9, or those obtained by inverting them, were used.
  • the speakers for learning were MAU and FSU in the Japanese speech database for research at ATR Automatic Translation and Telephone Laboratory.
  • one frame input (in this case, the 20th order LPC cepstrum) was input, and a set of positive output and negative output was obtained. Therefore, there is no need to input data of a plurality of frames as in the related art.
  • the NN of the speech recognition method according to the present invention can generate a desired output by learning several hundreds to several thousand times by learning by the above method.
  • the output for learning can be uniquely determined without any trial and error.
  • Fig. 25 shows the results of verifying the ability of NNs that have been trained in this way, including data containing unknown words that were not used in the learning.
  • the total number of word types was 216 words, of which nine were used for learning. From these 216 words, various combinations of 2-word chain data were created and used for verification. In the verification, the total number of words appearing is 1290 words per speaker.
  • the judgment of the recognition result is based on the combination of the positive output and the negative output.If the positive output is 0.75 or more and the negative output is 0.25 ° or less, the detection is performed.If the positive output is 0.25 or less and the negative output is 0.75 3 ⁇ 4 If it is above, it is not detected, otherwise it is considered as confused.
  • Fig. 26 shows the same experiment as in Fig. 25 performed on nine unknown speakers other than the speaker who used the learning.
  • a very good recognition rate can be obtained only by learning a small amount of data.
  • Fig. 19 shows an example of detecting words to be recognized from three or more consecutive words. In the figure, a solid line indicates a positive output, and a broken line indicates a negative output. As can be seen from the figure, the word “Toriazure” is recognized without giving the start and end as in the conventional example.
  • FIG. 20 shows an example in which the recognition target unit “Toriezu” is recognized from among unknown words.
  • the solid line indicates a positive output and the dashed line indicates a negative output.
  • the total length of the data given in Fig. 19 is 1049, so if the conventional start and end are given and recognized, simply add We need to find out the combination of the self-reserved orders of.
  • since data only needs to be input once each time there is no need to store data in a range that can be the start and end, as in the conventional case, a small amount of data memory is required, and the amount of calculation is small. Disappears.
  • the output does not monotonically increase or decrease as in the conventional DP method and HMM method, it has a peak value where necessary, so the output value is normalized to the length of the input data. No need. In other words, the output is always in a certain range (between 1 and 1 in this example), and the weight of the value is the same everywhere in the recognition interval. T This is the dynamic range of the value to be processed. This means that integer-type data can provide sufficient performance without using floating-point data or logarithmic data during processing.
  • the recognition is made based on the comprehensive judgment of the two outputs of the positive output and the negative output, for example, even if the positive output rises at “purchase” in Fig. 20, the negative output does not decrease
  • the accuracy of the voice recognition process can be improved without erroneous recognition.
  • the number of outputs is not limited to two, and any number may be provided as needed.
  • the accuracy of the recognition result can be further improved.
  • use more than one of them The NN that gives the optimal result can be selected.
  • the recognition target unit may be not only a word as illustrated but also a syllable or a phoneme. In this case, it is possible to recognize the entire speech of the language with a relatively small number of N N. This enables, for example, a dictation system.
  • the recognition unit may be an abstract one that does not consider the correspondence with the above-mentioned languages. Use of such a recognition unit is particularly effective when the recognition device is used for information compression.
  • FIG. 21 shows another embodiment of the present invention, in which background noise input means 210 and equilibrium state detection means 210 are added to the speech recognition apparatus shown in FIG. It is a thing. Others are the same as in FIG.
  • FIG. 22 shows the flow of processing for determining the internal state initial value in the configuration of FIG.
  • the part related to the generation of background noise data in the figure may not be provided as a means for setting an appropriate initial value, a means for generating a steady input, or a means corresponding to no input.
  • FIG. 27 shows the results of learning and recognizing this device by the learning method shown in FIG. 18, and summarizes the results corresponding to Tables 1 and 2 of Example 1. This is because the internal state value of the NN that has been in a state of equilibrium due to the input of background noise for about 3 seconds is stored as an initial value, and that value is used as the initial value of the differential equation in Equation (2) during recognition processing. It was what was.
  • the missing word error is improved as compared with the result of the first embodiment.
  • FIG. 23 shows an example in which noise data storage means and noise data superimposition means are added to the learning area of FIG.
  • the basic learning method is as described in Figure 14.
  • a feature of the embodiment is that data in which a noise component is superimposed in advance is used as learning data.
  • the weights between the NN units are adjusted by the learning control means so that recognition is performed on data from which noise components included in the learning data have been removed. That is, the NN is trained so that the noise component included in the training data can be clearly identified.
  • NN can be realized. Only the noise component can be clearly identified. As a result, NN can correctly recognize the noise portion of the voice data on which the non-stationary noise is superimposed.
  • the speech recognition device and the learning method of the present invention are very effective not only for continuous speech recognition but also for isolated speech recognition.
  • the present invention is not limited to speech recognition but is also effective in processing time-series information widely, and can process any type of time-series information as long as input data can correspond to output data.
  • Possible uses include information compression, decompression, and waveform equalization.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

明細書
ニューラルネッ ト ワークを用いた音声認識装置およびその学習方法 技術分野
本発明は、 ニューラルネッ ト ワーク を用いた音声認識装置およびその学習方法 に関するもので、 音声データ等の時系列データを処理する際、 従来の様に入力デ 一タの始端 · 終端を与えたり、 考えられる全ての始端 ' 終端の組み合わせについ て処理したり するのではなく 、 神経細胞様素子自身が入力されたデータの過去の 履歴を保持できる構成とする こ とによ り、 音声等の時系列データの処理を簡単な ハードゥ 3:ァ構成でかつ高精度の処理が可能となるよ うな技術に関する。
また、 ニューラルネヅ ト ワークにそのよう な処理を行わせるためのニューラル ネッ ト ワークの学習方法に関する。 背景技術
従来の場合、 データ認識手段、 特に時系列データの範疇を学習によ り認識する 手段と して実用的に用いられている手段は、 ダイ ナミ ッ クプログラ ミ ング 〔D P ) 法、 隠れマルコフモデル ( H M M〕 法、 およびバッ クプロパゲーショ ン学習法と 多層パーセプ トロン型ニューラルネッ ト ワークを用いた方法 〔M L P法) とがあ る。 これらの詳細については、 例えば中川聖一著 「確率モデルによる音声認識」
(電子情報通信学会) 、 中川、 鹿野、 東倉共著 「音声 · 聴覚と神経回路網モデル」
(オーム社) 等に記述されている。
この D P法、 H M M法に共通する問題は教師となるデータおよび認識対象とな るデータに始端と終端を必要とするこ とで.ある。 これらにおいて見かけ上始端終 端に依存しない処理をするためには、 可能性のある全ての始端終端についての処 理を行い、 最良の結果を与える始端終端を試行錯誤的に発見する という方法があ る。 しかし、 例えば長さ Nのパタ ンの中から、 ある範疇に属するデータの部分を 検出する場合を考えてみる と、 始端の可能性と しては Nのオーダーの可能性があ り、 また終端においても Nのオーダーの可能性がある。 つま り、 始端終端の組み 合わせと しては Nの自剰のオーダーの可能性が考えられる。 従ってこの場合にお いては、 この非常に多数の組み合わせの全てについて認識処理を行わなければな らない。 そして、 その処理には膨大な時間がかかってしまう。
また組み合わせの数と言う量的な問題以前に、 始端終端の存在という仮定自身 に、 より-本質的な問題がある。 入力データに、 ある範噠のデータが唯一つしか含 まれないという条件であれば始端終端は自明であるが、 一つ ¾上の範疇のデータ が連続する場合においては、 そのような境界は自明ではない。 特に、 音声などの 時系列情報においては、 そのような境界は明確に存在せず、 連続した 2つの範疇 のデータはその情報が重複する遷移領域を経て一方から他方へ変化する。 従って、 データの始端終端を仮定することはその正確度において非常に大きな問題がある。 従来法のも う一つの方法である M L P法の場合はこのようなデータの始端終端 を特に仮定する必要はない。 しかしそれに代わって入力のデータ範囲という意味 での新たな始端終端の問題が起こる。 つまり、 M L P法は基本的には静的なデー タを認識するための方法であり、 それに時系列データを認識させるためには、 あ る時間範囲のデータを 1つの入力データ として入力し、 等価的に時間情報を処理 しなければならないという問題がある。 この時間範囲は M L Pの構成上固定され たものでなければならない。
—方時系列データの長さは、 その範嗪により、 また同一範禱の中においても大 きく変動する。 例えば音声における音素を例にとれば、 長い音素である母音等と、 短い音素である破裂音等の平均長さは 1 0倍以上異なる。 また同一音素内におい ても実際の音声中での長さは 2倍乂上変動する。 従って、 仮にデータの入力範囲 を平均的な長さに設定したとすると、 短い音素を認識する場合はその入力データ の中には認識対象 ¾外のデータが多数含まれることになり、 また長い音素を認識 する場合はその入力データの中には認識対象のデータの一部しか含まれないこと になる。 これらはいずれも認識能力を下げる原因である。 また音素毎に異なる入 力長さを設定したとしても、 その音素自身の長さが変動するので問題は同様であ る。 また、 このようなことは時系列情報一般に見られることである。 発明の開示
従来的な D P法、 H MM法では、 取り扱うデータの始端と終端とを必要し、 M L P法では学習時に入力範囲の始端と終端と を必要とする。 しかし、 時系列情報 においてはこれは原理的に明確にはできず、 無理に始端 · 終端を仮定する こ とは 認識能力を下げるこ と になる。 また、 見かけ上これを緩和するためには全ての 始端終端の組み合わせについての処理を必要とな り、 膨大な処理が必要となる。
これに対して、 本発明の二ユーラルネッ ト ワークを用いた音声認識装置は、 1 ) ニューラルネッ ト ワーク を構成する各神経細胞様素子が、 内部状態値記憶手 段と、 内部状態値記億手段に記億された内部状態値とその神経細胞様素子に入力 される入力値とによ り 内部状態値を更新する内部状態値更新手段と、 内部状態値 記憶手段の出力を外部出力値へ変換する出力値生成手段と を有する、
2 X内部状態値更新手段は入力値および内部状態値に重みを付け積算する重み付 き積算手段からな り、 内部状態値記憶手段は前記重み付き積算手段により積算さ れた値を積分する積分手段からな り、 出力値生成手段は積分手段によ り得られた 値を予め設定された上限値と下限値の間の値へ変換する出力値制限手段とからな る、
3〕 前記 1 ) または 2 ) において、 ニューラルネッ ト ワークを構成する i 番目の 神経細胞様素子の内部状態値を X i と し、 て i を時定数と し、 神経細胞様素子へ の重み付き入力値を Z j ( j は 0から n、 nは 0 または自然数) とすると、 内部 状態値更新手段が、 τ Xi
Figure imgf000005_0001
Yj を満足する値へ内部状態値を更新する、
4 ) 前記 1 ) ないし 3 ) において、 i 番目の神経細胞様素子への重み付き入力値 Z j が、 i 番目の神経細胞様素子自身の出力に重みを剰算した値を含む、
5 ) 前記 1 ) ないし 4 ) において、 i 番目の神経細胞様素子への重み付き入力値 Z j が、 ニューラルネッ ト ワークを構成する他の神経細胞様素子の出力に重みを 剰算し た値を含む、
6 ) 前記 1 ) ないし 5 ) において、 i 番目の神経細胞様素子への重み付き入力値 Z j が、 ニューラルネッ ト ワークの外部から与えられたデータを含む、 7 ) 前記 1 ) ないし 6〕 において、 i番目の神柽細胞様素子への重み付き入力値 Z jが、 ある固定された値に重みを剰算した値を含む、
8〕 前記 1 ) ないし 7 ) において、 出力値生成手段が、 正負対称出力範囲を有す る、
9 ) 前記 1 ) ないし 8 ) において、 ニューラルネ ヅ トワークが少なく とも肯定出 力、 否定出力の 2つの出力を持つ、
1 0 ) 前記 1 ) ないし 9 ) において、 音声認識装 Sは、 認識させたい入力の特徵 抽出を行うと共に特徵抽出した値を前記ニューラルネッ トワークへ入力する音声 特徵抽出手段と、 ニューラルネッ トワークの出力値を認識結果に変換する認識結 杲出力手段と、 ニューラルネッ ト ワークを構成する神経細胞様素子の内部状態値 記億手段に予め設定された初期値を与える内部状態値初期化手段とを有する、
1 1〕 前記 1 0〕 の音声認識装 Sにおいて、 ニューラルネッ トワークに背景雑音 を入力する背景雑音入力手段と、 ニューラルネ ヅ ト ワークの出力か'ら平衡状態を 検出し、 その検出結果に基づき内部状態初期値設定手段に内部状態値を変更する 信号を出力する平衡状態検出手段とを設けたこと、
を特徴とする。
また、 本発明のニューラルネッ トワークを用いた音声認識装置の学習方法は、
1 2 ) 前記 1 0〕 または 1 1〕 の音声認識装麗が、 ニューラルネッ トワークを学 習させる学習部を有し、 その学習部が学習用入力データを記億する入力データ記 α手段と、 入力データ記億手段から学習用入力データを選択する入力データ選択 手段と、 学習用出力データを記使する出力データ記億手段と、 選択された入力デ ータとその連鎖により学習用出力データを選択する出力データ選択手段と、 選択 された学習用入力データを特徴抽出部に入力すると共にニューラルネ、) / トワーク の学習を制御する学習制御手段とを有し、 学習制御手段はニューラルネッ トヮー クの出力と出力データ選択手段の出力とに基づいて神経細胞様素子の結合の重み 付けを変更する、
1 3 ) 前記 1 2 ) において、 入力データ記億手段は複数個の範疇を有し、 出力デ 一タ記億手段は入力データ記億手段の各範禱に対応する範疇を有し、 入力データ 選択手段は入力データ記億手段の範韓から学習させたい複数個のデータを選択し. 出力データ選択手段は入力データ選択手段により選択された学習用入力データに 対応する学習用出力データを選択し、 学習制御部は入力データ選択手段が選択し た複数個のデータを 1つに連結する入力データ連結手段と出力データ選択手段が 選択した-学習用出力データを 1つに連結する出力データ連結手段とを有し、 学習 部は連結した 1つの学習用入力データを音声特徴抽出手段に入力すると共に、 二 ユーラルネッ トワークの出力と出力連結手段の出力とに基づき神経細胞様素子の 結合の重み付けを変更する、
1 4 ) 前記 1 3 ) の範嘩の数が 2であること、
1 5 ) 前記 1 2 ) ないし 1 4 ) において、 学習部は雑音データを記億する雑音デ 一タ記億手段と、 選択された学習データに雑音データ記憶手段から選択された雑 音を重畳する雑音重畳手段とを有し、 雑音重畳手段により雑音が重畳された入力 データを用いてニューラルネッ トワークを学習させる、
1 6 ) 前記 1 5〕 において、 背景雑音を重畳させる位置をずらして繰り返し学習 させる、
1 7 ) 前記 1 5 ) において、 はじめに背景雑音が重畳されていない入力データで 学習させた後に、 同じ入力データに背景雑音を重畳して学習させる、
ことを特徴とする。 '
このように、 本発明のニューラルネッ トワークを用いた音声認識装置及ぴ学習 方法によれば、
1 ) 従来例では音声入力の長さ Nの自剰に比例した処理時間が必要であつたが、 本発明ではデータを 1回のみ与えれば良く非常に高速な処理が可能である、
2 ) 入力データを記億するメモリ一が非常に少なくても良い、
3〕 結果の正規化の必要がない、
4 ) 容易に連続処理が可能である、
5〕 整数型のデータ表現でも十分な精度が得られる、 。
6 ) 肯定否定出力を組み合わせる事により、 非常に高精度の認識結果が得られる
7 ) より多出力の任意の情報を出力させる事ができる、
8 ) 対雑音性等を容易に向上させる事ができる、
9 ) 種々の時間スケールの現象への対応を学習により 自己組織的に行う事ができ る、
1 0〕 N Nの連想能力、 情報の圧縮伸長能力を、 目的に合わせて最適に配置する 構成が容易に行える、
1 1 ) 学習が極めて容易であり、 そのための試行錯誤的な部分が非常に少ない、 などの効果がある。 図面の簡単な説明
図 1は、 本発明のニューラルネッ トワークを構成する神経細胞様素子を示す図 である。 図 2は、 図 1の神経細胞様素子を具体的な機能に麗き換えた図である。 図 3は、 図 2の構成を電気回路に置き換えた例である。 図 4は、 本発明の神経細 胞様素子を用いて構成されたニューラルネッ トワークを用いた音声認識装置を示 す図である。 図 5は、 図 4のニューラルネッ トワークを 3層化した図である。 図 6は、 図 5のニューラルネッ トワークをさらに多層化した図である。 図 7は、 図 6の伝達ネ、ソ トワークを分割した図である。 図 8は、 自 S回帰ループを有する二 ユーラルネッ トワークを示す図である。 図 9は、 ランダム結合ニューラルネッ ト ワークを示す図である。 図 1 0は、 本発明の音声認識装置の耐雑音性を説明する ための図である。 図 1 1は、 本発明の音声認識装置の時間スケールの学習項効果 を説明するための図である。 図 1 2は、 本発明の神経細胞用素子を用いた別の音 声認識装置の構成を示す図である。 図 1 3は、 図 1 2の音声認識装置の動作手順 を表す図である。 図 1 4は、 本発明のニューラルネッ トワークを用いた音声認識 装還の学習方法を示す図である。 図 1 5は本発明の学習方法の学習手順を示す図 である。 図 1 6は、 本発明の学習データの連結を示す図である。 図 1 7は、 本発 明の学習データの構成を示す図である。 図 1 8は、 本発明のニューラルネッ トヮ ークを用いた音声認識装置の学習方法を示す別の図である。 図 1 9は、 本発明の 音声認識装置による音声単語検出出力を示す図である。 図 2 0は、 本発明の音声 認識装置による別の音声単語検出出力を示す図である。 図 2 1は、 本発明の音声 認識装 Sの別の構成を示す図である。 図 2 2は、 図 2 1の音声認識装置の動作手 順を示す図である。 図 2 3は、 背景雑音重畳手段を有する音声認識装置の学習方 法を示す図である。 図 2 4は、 学習データへの雑音成分の重昼させ方を示す図で ある。 図 25は、 本発明の学習方法で学習させたニューラルネッ トワークに未知 単語を与えたときの認識結果を示す図。 図 26は、 図 25を同様の処理を未知話 者に対して行った場合の認識結果を示す図。 図 27は、 図 26と同様の処理を背 景雑音を与えて行った場合の認識結果を示す図。 図 28は、 従来技術の神経細胞 様素子を示す図である。 図 29は、 図 28の神経細胞様素子を具体的な機能に置 き換えた図である。 図 30は、 図 29の構成を電気回路に置き換えた図である。 発明を実施するための最良の形態
図 1は本発明における NNを構成する神経細胞様素子 (以下 「ノード」 という) の機能を模式的に示したものである。 図中 1 04は 1つのノード全体を、 1 0 1 は内部状態値記億手段を、 1 02は 1 0 1に記億された内部状態値及ぴノ一ドに 入力される入力値に基づいて内都状態値を更新する内部状態値更新手段を、 1 0 s 内部状態値を外部出力へ変換する出力値生成手段を示す。
2は、 図 1に示したノードの機能をより具体的に示したものである。 図中 2 0 1はデータ入力手段を、 202は 20 1により得られたデータ入力値に重みを 付け積算する重み付き積算手段を、 203は積算されたデータ値を積分する積分 手段を、 204は積分の結果得られた値を予め設定されたある範囲の値へ変換す る出力値制限手段をそれぞれ模式的に示す。
図 3は図 2の構成を電子回路にした一例である。 図中 301は、 図 2のデータ 入力手段と重み付き積算手段を、 また 302は積分手段を、 303は出力値制限 手段を示す。
一方、 図 28は従来の ML P法による NNを構成するノードの機能を模式的に 示したものである。 図中 2803は 1つのノード全体を、 280 1はの内部状態 値を計算する内部状態値計算手段を、 2802は 2801により計算された内部 状態値を外部出力へ変換する出力値生成手段を示す。
同様に、 図 29は図 28に示した従来のノ一ドの機能を具体的に示したもので、 図中 2901はデータ入力手段を、 2902は 290 1により得られたデータ入 力値に重みを付け積算する重み付き積算手段を、 2903は積算されたデータの 値を予め設定されたある範囲の値へ変換する出力値制限手段を示す。 図 3 0は図 2 9の構成を電子回路にした例である。 図中 3 0 0 1は、 図 2 9の データ入力手段と重み付き積算手段を、 また 3 0 0 2は出力値制限手段を示す。 図 1〜図 3および図 2 8〜図 3 0から明かな通り、 本発明のノードは従来のノ ードにはなかった積分手段を持つ。 従って、 従来のノードにおいては、 その出力 が、 その時点での入力のみにより決定されると言う意味で静的であつたのに対し、 本発明のノードは、 そのノードへ入力されたデータの過去の履歴が、 その積分値 として変換、 保持されており、 それにより出力が決まると言う意味で動的である といえる。
つまり、 従来の静的なノードを用いた N Nで時系列データを処理しよう とすれ ば、 そのネッ トワークの構造としてデータの時間構造を取り込む必要があつたの に対し、 本発明の動的なノードを用いた N Nは、 N Nの構造等によらずにノード そのもので時系列データを処理する事ができる。
より具体的に言う と、 従来の N Nに時系列データを処理させよう とすると、 そ の時間情報を空間情報へ展開するような方法、 例えば複数のタイ ミ ングで入力さ れたデータを一つの入力データへまとめあげる等の方法が必要となる。 このため には、 このまとめあげるデータを記憶し、 管理するためのハードウエアと処理が 必要となる。 あるいは上で述べたような時間に依存する情報を記億するための、 特別なコンテキス ト素子が必要となる。 さらに、 このコンテキス トを管理するノ、 一ドウエアと処理も必要である。
それに対し、 本発明の N Nによれば、 コンテキス ト情報等は各々の素子の内部 の積.分値として記億されるため、 N Nに特別な構造を設定する必要がない。 従つ て、 入力データも、 それぞれのタイ ミングのデータをそれぞれのタイ ミ ングで入 力する、 という最も単純な入力方法で十分であり、 時間情報を処理するための特 別なハードウエアや処理は全く必要としない。
次に、 本発明のノードおよびそのノードによって構成される N Nの実際の動作 について説明する。 ノードの内部状態値を X、 出力値を Yとし、 Xと Yの時間変 化において、 現在の内部状態値を X c u r r、 更新された内部状態値を X n e X t、 またその更新動作時にノ ードに入力される入力値を Z i ( iは 0から nであ り、 nはそのノードへの火力数) とする。 内部状態値更新手段の動作を形式的に 関数 Gと表すと、 更新された内部状態値 Xn e x tは、
X n e x t = G (X c u r r、 Z 0、 · · '、 Z i、 · · ·、 Z n〕 ( 1 ) と表現できる。 式 ( 1 ) の具体的な形は様々のものが考えられるが、 例えば 1階 の微分方程式を用いた次の式 (2) のようなものも可能である。
Figure imgf000011_0001
こ こでて iはある時定数である。
ここで、 入力値 z jをも う少し詳細に定義すると、 ①ある結合重みを乗算され たそのノー ド自身の出力、 ②ある結合重みを乗算された他のノー ドの出力、 ③等 価的に内部状態更新手段へバィ ァスを与えるための結合重みを剰算された固定出 力値、 ④そのノー ドに NNの外部から入力される外部入力、 等が考えられる。 そ こで、 このよ うな入力値 Z j に対する i番目のノ 一 ドの内部状態値の更新を考え る。 内部状態値を X i、 任意のノー ドの出力を Y j、 j番目のノー ドの出力を i 番目のノー ドの入力へ結合する結合強度を W i j、 バイ アス値を 0 i、 i番目の ノー ドへの外部入力値を D i とする と、 式 (2) はよ り具体的に次の様に書ける。 Wij Yj + θί + Di 〔 s )
Figure imgf000011_0002
このよう に して決定されたある瞬間のノー ドの内部状態を と し、 出力値生成 手段の動作を形式的に関数 Fで表すと、 ノー ドの出力 Yは、
Y = P 〔X〕 (4) と表現できる。 Fの具体的な形と しては以下の式 (5) で示されるよ うな正負对 称出力のシグモイ ド 〔口ジスティ ッ ク) 関数等が考えられる。
Yi = TTexpTxT) " 1 (5) しかし、 この関数型は必須のものではなく 、 その他にも よ り単純な線形変換や. あるいはしきい値関数等も考えられる。 このような式に従い本発明における NNの出力 Yの時系列は計算される。
図 4ほ、 本発明のノードにより構成された ΝΝを使用した音声認識装置の 1例 を示すものである。 図中 40 1は音声特徵抽出手段を、 402は本発明のノード によって構成された ΝΝを、 403は認識結果の出力手段を示す。 音声特徴抽出 手段により抽出された出力が 2つのノードに入力されている。 それから、 この Ν Νは任意のノ一ドが他の全てのノードと結合している全結合型の Ν Νとなってい る。 そして、 ΝΝからは 2つの出力が認識結果出力手段に出力されている。 本発 明の ΝΝでは、 出力数ぼ任意に設定することができる。 よって、 単語認識の場合 などは、 肯定出力、 否定出力の 2つの出力を設けて、 これらの出力から総合的に 認識結果を判断して、 認識精度を高めることができる。 もちろん ΝΝへの入力数 および出力数は図 4の様に 2つに限るものではなく、 幾つでも良い。
図 5〜図 9に、 本発明のノードにより構成された Ν Νの他の構成例を示す。 まず始めは、 図 4の ΝΝ402の構成のみをかえた例を図 5に示す。 こ こでは ΝΝ402が、 入力層 501、 隠れ層 502、 出力層 5ひ 3から構成される。 こ の搆成は、 従来技術の ML Ρ法と見かけ上周一に見える。 しかし、 本発明のノー ドにより搆成された NNは、 従来技術のような先ず入力層の値が決定され、 その 後にその値を入力とする隠れ層の値が決定され、 ¾下同様に出力層に至るまでの 各層の値が逐次的に決定されていく といった、 フィードフ ォヮ一ド型ネヅ トヮー クではない。
本発明のノードを用い feNNは、 ノード自身が内部状態値を保持できるため従 来技術のようなコンテキス ト層を必要とせずに時系列データを認識し、 コ ンテキ スト層を有する従来技術と同等の結果を得る事ができる。 また、 全ての層の出力 が同時に決定されるため従来技術の MLI法よりも、 より効率の良い並列処理が 可能である。
さらに、 本発明のノードを用いた NNは、 高い耐雜音性も有する。 図 1 0の a) は従来の単純な ML P法におけるノ一ドの入力と出力の対応を示すものである。 図より明らかなように、 方形波的な入力にスパイク的なノ ィズが重畳した信号が 入力として与えられると、 ほぼそのままの波形が出力に現れるのが判る。 このよ うに ML P法のノードは、 その入力を単純に出力に反映するためノィズの影饗を そのまま受けてしまう。
しかし、 本発明のノードは内部状態値として時間的な履歴を記億しており、 そ の内部状態値と入力との関数として次の内部状態値、 そして出力値が決まる。 従 つて a〕 と同様のスパイク的なノ イズが入力に重畳しても、 図 1 0 b ) に示すよ うにスパイク的な波形はなまらされてその影響は小さ くなり、 良好な耐ノ ィズ性 が得ることができる。
このような耐雑音性はコンテキス ト層を持つ従来技術においても多少は得る事 ができるが、 N Nを構成するノー ドの一部について、 その履歴情報を特別な構成 を持った外部ノードへ保存しなければならず、 全てのノードが自分自身の履歴情 報を内部状態値と して保持する本発明におけるノードを用いた場合と比較してそ の耐ノ イズ性は劣る。
次の例は、 図 5の N Nの構成をより多層にして、 砂時計型ネッ トワークを構成 した例で、 図 6に示す。 図中 6 0 1は特徴抽出 (または情報圧縮) ネッ ト ワーク を、 6 0 2は伝達ネッ トワークを、 6 0 3は認識 (または情報伸長) ネッ トヮー クを示す。 図 6の N Nの構成も、 一見従来の M L P法と同様である。 しかし、 そ の動作は前述した通り全く異なる。 このような構成をとることにより、 本発明の 効果を損なわずに時系列的な効果を取り込んだ特徵抽出 (または情報圧縮) N N , 及び時系列的な効果を取り込んだ認識ネッ トワーク 〔または情報伸長) ネッ トヮ ーク等の機能をモジュール化した音声認識方法の構成も可能である。
その次は、 図 6の伝達ネッ トワーク 6 0 2を、 図 7に示す情報送信機能 7 0 2 と情報受信機能 7 0 3に分割した例である。 7 0 2 と 7 0 3の間の波線は、 これ らが空間的 · 時間的に離れていても良い事を示す。 この波線が伝送線などの空間 的な距離を示すとすると、 図 7は音声圧縮伝送装置を示し、 この波線が時間的な 距離を示すとすると、 図 7は例えば音声圧縮記録装置を示す。 もちろんこ こで圧 縮される対象は音声に限られるものではなく、 より一般的な情報であってもかま わない。 また認識処理は広い意味での情報圧縮処理である事は言うまでもない。 図 7においても今まで述べてきた本発明の効果は損なわれる事はない。 例えば 図 1 0で説明した対ノ イズ性により、 伝送線上での伝送誤りや雑音の混入、 ある いは記録媒体の欠陥や劣化等に対しても良好な耐性を示すものである。 次は、 図 4の構成を簡単にしたものである。 図 8の N Nは、 自己回帰ループを 持つことにより、 より広い時間的変動範囲の現象を取り扱うことができる。 つま り、 入力値 Zのなかの自己回帰ループの部分の結合の強さを Wとすると、 この自 己回帰ループを考えることは近似的に系の時定数てを以下の式に置き換えたこと に相当する。
て ÷ ( 1一 W) ( 6 ) この Wは以降に述べる学習により修正される値であるので、 学習データに合わ せて系の応答の時間スケールを最適化することができる。 従来のコンテキス ト層 を用いた方法ではこのようなことを学習により自己組被的に行う事はできず、 人 間が時間スケールに合わせたネ ヅ トワークの設定を行うことが必要となる。
図 1 1はこの効果を概念的に示した図である。 いま図 1 1の a ) に示したよう な方形波の連続入力があつたとすると、 この方形波の周期よりも系の応答時定数 が大いと系の応答は a〕 の出力のように前の出力に次の出力が加算されていき、 正しい認識結果を得る事はできない。
—方図 8のように自己回帰ループのある系では、 系の時定数は学習により最適 化されるので、 その応答は例えば図 1 1の b ) のように修正される事が可能であ り、 良い認識率を得る事ができる。
このような系の時定数の学習機能と適当な学習方法を組み合わせる事により、 図 6、 図 7のシステムの対雑音性等をさらに高める事ができる。
そして最後の N Nの構成例として、 図 8の N Nをランダム結合 N Nとした例を 図 9に示す。 ランダム結合 N N 9 0 2は、 入力ネッ トワーク 9 0 4と出力ネッ ト ワーク 9 0 5の 2つのサブネヅ トワークからなる。 本例では、 入カネヅ トワーク を全結合型のサブネッ トワークし、 出カネ、ソ トワークをランダム結合型のサブネ ヅ トワークと して、 2つのサブネッ トワークを 1方向的に接続する構成とした。 このような構成により、 先に述べてきたような効果に加えて、 全結合型 N Nに よる連想能力を用いて入力の欠陥を補う、 あるいは対雑音性をあげる等の機能、 さらに一方向の結合を用いて情報の流れをヒユーリスティ ヅ クに処理し、 情報の 圧縮、 伸長等を行う等機能を、 全体の構成の設計として最適に行う事ができる等 の効果が得られる。 以上が、 図 4に示した N Nの別の構成例であるが、 次に音声認識装置そのもの の他の構成例を見ていく。
図 1 2は、 図 4の音声認識装置に内部状態初期値設定手段 1 2 0 4を追加した もので.他は図 4と同一である。 式 ( 2 ) で示したように、 本発明の N Nの動作は 1階の微分方程式で記述される。 従って、 その動作を決定するにあたっては、 初 期値が必要となる。 内部状態初期値設定手段は、 N Nが動作をするために、 予め 決められた初期値を全てのノードに与えるものである。 図 1 3に基づいて、 本音 声認識装置の動作手順を説明すると、
1 . 内部状態初期値設定手段により、 全てのノードに適当に選択された初期内部 状態値 Xをセッ ト し、 それに対応する出力 Yをセッ トする。
2 . 処理が終了であれば終わる。
3 . 全てのノード各々において入力値 Zの和を求める。 入力値 Zは前に説明した 通りであり、 音声特徴抽出手段によって抽出された音声特徴量は、 外部入力値と してこの 部として計算される。
4 . 全てのノードそれぞれについて、 3で求めた Zの和と内部状態値 Xそのもの の値により Xの値が更新される。
5 . 更新された Xの値により出力値 Yが計算される。
6 . 処理 2へ戻る。
という手順になる。 認識結果は出力に割り当てられたノー ドの出力と して認識結 果出力手段に与えられる。
以上が、 本発明のノードを使用した N Nによる音声認識装置の基本的な動作原 理およびその構成であるが、 この様な N Nに所望の処理をさせるには N Nを学習 させることが必要となる。 そこで、 次に N Nの学習方法について説明する。
図 1 4が、 本発明の音声認識装置の学習方法を示す構成図である。 図中 1 4 1 0は、 N N 1 4 0 2を学習させるための学習部を示す。 1 4 1 1は所定の学習用 入力データが記億された入力データ記憶手段、 1 4 1 3は各学習用入力データに 対応する模範となる出力データが記億された出力データ記億手段、 1 4 1 2は入 力データ記億手段から学習させたい入力データを選択する入力データ選択手段、 同様に 1 4 1 4は出力データを選択する出力データ選択手段、 そして、 1 4 1 5 は N Nの学習を制御する学習制御手段を示す。
次に、 この学習部による音声認識装置の学習方法について図 13、 図 14を参 照しながら説明する。 まず、 全てのノードに予め設定された初期状態値 Xをセッ トする。 次に、 学習させたい学習用入力データが入力データ選択手段により選択 される。 選択された入力データは学習制御手段に送られる。 この時、 選択した学 習用入力データに対応する学習用出力データが出力データ選択手段により選択さ れる。 選択された出力データも同様に学習用制御手段に送られる。 選択された学 習用入力データぼ音声特徴抽出手段 1401に入力され、 ここで特徵抽出された 特徵べク 卜ルが N Nへ外部入力として入力される。 全てのノードについ " それぞ れ入力 Zの和を求め、 式 C2) に従って内部状態値 Xを更新する。 そして、 更新 された Xにより出力 Yを求める。
初期段階では、 NNの各ュニッ ト間の結合強度にはランダムな値が与えられて いる。 したがって、 NNから出力される出力値 Yはでたらめな値である。
以上の内容を、 入力データ時系列の終わり まで繰り返す。 このようにして得ら れた、 出力 Yの時系列に対して、 次の式 (7 ) で示される式により学習評価値 C を求める。 Ej 〔7
Figure imgf000016_0001
ここで、 Cばある学習評価値であり、 Eはある誤差評価値である。 式 〔7) に 従い、 Cの時系列は図 15に示すような処理により計算される。
この処理の具体的な例として、 選択した学習用入力データに対応する学習用出 力データを Tとし、 学習用入力データに対応する出力値を Yとして、 例えば誤差 評価関数として、 次の式 〔8〕 で示される kullback-leibler距離を用いると Eは.
E (Yi,Ti ) = Ti logg +(1 - ^logl^- C8) と書ける。 kuliback-Ieibler距離を用いると、 種々の要因により学習が高速にな るという利点がある。 また、 式 (8) と実質的に同一であるが、 出力値生成手段が対称出力である場 合は、 式 〔8〕 は次の式 (9〕 のよう に表される。
Figure imgf000017_0001
そう して、 これらを用いる事によ り、 式 〔7) のよ り具体的な例と して次の式 ( 1 0) が得られる。 Wji Cj (1 -Yf ) + (Yi-Ti) ci o)
Figure imgf000017_0002
以上を与える事によ り、 結合強度 Wの修正則は、 次の式 ( 1 1 ) で与えられる,
Figure imgf000017_0003
こ こで、 aは小さな正の定数である。 これに従い、 出力が目的とする値になるよ う に各ュニッ ト間の結合の強さを変更する。 認識させたい音声データ を繰り返し 入力し、 少しずつ各ユニッ ト間の結合の強さ を変更するこ とによ り、 ネッ ト ヮ一 クから正しい値が出力されるようになる。 出力が収束するまでの繰り返し回数は、 数千回程度である。
この学習則は、 例示した全結合型のニューラルネッ ト ワークのみではな く、 層 状結合等を特殊例と して含む、 よ り一般的なランダム結合ニューラルネッ ト ヮー クにも適用可能であるのは明かである。
次に、 2つの学習用入力データ を続けて入力し、 学習させる方法について、 N Nが肯定出力と否定出力の 2つの出力を有する場合を例にして説明する。
入力データ を 1つずつ用いた学習では、 一度ハイ レベルになつた肯定出力は口 一レベルに下げるこ とがでない。 ί¾に、 一度口一レベルになった否定出力はハイ レベルに上げるこ とができない。 つま り、 入力データ を 1つずつ用いた学習では. 図 16 (a) に示すよ うな、 認識させたい入力データ (以下、 「肯定データ」 と いう〕 を与えて肯定出力をハイ レベルに上昇させる学習 (否定出力はロー レベル のまま) 、 または図 1 6 C b ) に示すような、 認識させたくないデータ 下、 「否定データ」 という) を与えて否定出力をハイ レベルに上昇させる学習 〔肯定 出力はローレベルのまま) が行われる。 しかしながら、 この学習では、 肯定出力、 否定出.力ともに一度ハイレベルに上昇した出力値が下降することがない。
したがって、 肯定データと否定データが混在した複数の音声データが連続して 与えられた場合、 肯定データの出力で一度ハイ レベルに上がった肯定出力は、 そ の後に否定データの入力があってもローレベルに下がることはない。 これは否定 出力についても同様である。
そこで、 本実施例では、 図 1 7 C a ) 〜 ( d ) に示すような、 2つの音声デ一 タを連続して与えて、 出力の上昇と下降の両方の学習する方法を用いた。 図 1 7 C a ) では否定データと肯定データを連続して入力し、 肯定出力の上昇、 否定出 力の上昇と下降を学ばせる。 図 1 7 〔b〕 では、 肯定データと否定データを連続 して入力し、 肯定出力の上昇と下降、 否定出力の上昇を学ばせる。 図 1 7 ( C ) では、 否定データを 2つ連銃して入力し、 図 1 7 C a ) の学習で否定データの次 は肯定データであると言った誤つた認識を N Nに持たせないようにする。 同様に、 図 1 7 〔d〕 では、 肯定データを 2つ連続して入力し、 図 1 7 〔b ) の学習で、 肯定データの次は否定データであると言った誤つた認識を N Nに持たせないよう にする。
換言すればこのことは、 N Nの動作の初期値依存性の問題である。 つまり、 入 力データを一つのみ用いた学習ではその学習が特定の初期値のみから開始される ため、. その初期値においてのみ期待される能力を示すような学習結果しか得られ ない。 これをより一般的な場合に適応できるようにするためには、 様々な初期値 に対しても正確な反応が起こるように学習させなくてはならない。 しかし、 この ような様々な初期値としては全ての例を与える必要はない。 実際の認識時におい ては、 その認識対象についての種々の制約により可能な初期値の組み合わせは限 られたものとなる。 学習に 2個以上のデータの連鎖を用いることは、 このような 可能な初期値の組み合わせを近似的に与えるものであり、 この目的のためには 2 個のデータの連銃のみにおいても十分によい結果が得られる。 もちろん 3個以上 の連銃データを用いてもよい。 図 1 8は、 この 2つの連続入力を N Nへ学習させるための音声認識装置の構成 図である。 こ こでは、 図 1 4で説明した入力データ記憶手段が、 肯定データ、 否 定データという 2つの鮪《Iから構成されている。 図中 1 8 0 1は様々な条件で収 集され.た認識すべき単語のデータ群である肯定データ記億手段を、 1 8 0 2はも う一つの範疇である認識すべき単語^外の例と しての否定データ記億手段を、 1 8 0 3、 1 8 0 4はそれぞれの範疇についての学習用出力データを記億する出力 データ記億手段である。 ここでは、 各範畴に 3個のデータがあるとする。 1 8 0 5は入力データ選択手段を、 1 8 0 6は出力データ選択手段を、 1 8 0 7は入力 データ連結手段を、 1 8 0 8は出力データ連結手段を、 1 8 0 9は学習制御手段 を、 1 8 1 0は N Nをそれぞれ示す。
入力データ選択手段により、 肯定データ記億手段、 否定データ記億手段から学 習用の入力データが 2つ選択される。 その組み合わせについては、 図 1 7で説明 した通りである。 選択された 2つの入力データは入力データ連結手段で 1つの連 統データとなる。 そして、 この連続データは音声特徴抽出手段で特徴抽出され N Nへ入力される。 N N内では、 図 1 3の処理に従い出力値が時系列的に計算され る。 N Nの出力は学習制御手段に送られ、 予め選択されている学習用出力データ との誤差が計算され、 各ノードの結合の重みが修正されることにより、 N Nが学 習を重ねる。 図 1 8では、 N Nの出力を肯定出力ノードと否定出力ノー ドの 2個 とし、 1 8 0 3、 1 8 0 4中の実線が肯定データに対応する肯定出力ノードの学 習用出力、 破線が否定データに対応する否定出力ノー ドの学習用出力とした。 そこで、 この様な特徵を有するノー ドにより構成された N Nからなる音声認識 装置の認識結果を、 図 1 8で説明した学習方法により学習させた場合を例に次に 示す。 実際には、 音声特徴抽出手段の出力と して 2 0次の L P Cケブス トラムを 仮定し、 入力を 2 0、 出力を 2、 その他を 1 0として合計 3 2個のノードにより N Nを構成した。
まず学習であるが、 認識させたい単語 〔肯定データ) と しては 「と りあえず」 を、 それ以外の参照用単語 (否定データ) と しては、 「終点」 、 「腕前」 、 「拒 絶」 、 「超越」 、 「分類」 、 「ロッカー」 、 「山脈」 、 「隠れピューリ タ ン」 の 8単語を与えた。 N Nの出力としては、 上の肯定データに対応する肯定出力と、 否定データに対応する否定出力の二つを考えた。 学習用出力としては、 図 17で 説明した 4つの場合を想定した。 この学習用出力の曲線部分は、 そのデータの時 間的な中点に原点を持ち、 かつそのデータの始端を一 10、 終端を 1 0に対応さ せた式 〔5〕 のシグモイ ド関数を 0〜0. 9の範囲に変形したもの、 あるいはそ れを反転したものを用いた。 また、 学習用の話者は (株) ATR自動翻訳電話研 究所の研究用日本語音声データベースの中の MAUと FS Uで行った。
入力と出力の対応については、 1フ レーム分の入力 〔こ 場合は 20次 LP C ケプトラム) を入力し、 一組の肯定出力、 否定出力を得るものとした。 従って、 従来のように複数フレームのデータを入力するような必要はない。
また、 従来例の ML P法の変形である 「フ ィート'パック結合を持つ B Pモデル 型 NNでは、 学習を収束させるのが困難であり、 その学習用出力を試行錯誤的に 作成しなければならないという問題点があったが、 本発明の音声認識方法の N N は、 以上の方法で学習させることにより、 数 100〜数 1 000回の学習で所望 の出力を生成するようになった。 また、 学習用出力も試行錯誤的な部分は全く無 く一義的に決めることができる。
図 25は、 このような学習をさせた NNに、 学習に用いなか-つた未知の単語を 含むデータを与え、 その能力を検証した結果である。 単語の種類の合計は 216 単語であり、 そのうちの 9単語は学習に用いたものである。 これらの 21 6単語 から様々な組み合わせの 2単語連鎖のデータを作成し、 検証に用いた。 検証の際 の単語の出現総数は話者あたり 1290単語である。 認識結果の判定は、 肯定出 力と否定出力の組み合わせによる判定とし、 肯定出力が 0. 75以上かつ否定出 力が 0. 25¾下であれば検出、 肯定出力が 0. 25以下かつ否定出力が 0. 7 5 ¾上であれば非検出、 それ以外は困惑状態であるとした。 この判定条件におい て、 検出すべき単語が無い位置で検出出力が得られた場合を挿入誤り、 検出すベ き単語が有る位置において非検出出力が得られた場合を欠落誤り とした。
また、 下の図 26は図 25と同じ実験を学習に用いた話者以外の未知話者 9人 に対して行ったものである。
図 25、 図 26より明かであるように、 本発明の音声認識方法によれば、 僅か のデータを学習させるだけで非常に良い認識率を得る事ができる。 図 1 9は、 連続した 3個以上の単語の中から認識対象とする単語を検出した例 である。 図中実線は肯定出力を、 破線は否定出力を示す。 図より明かなように、 従来例のように始端、 終端を与える事無く単語 「と りあえず」 を認識しているこ とが判る。
さらに、 図 2 0は、 未知単語中から認識対象単 「と りあえず」 を認識した例で ある。 図 1 9 と同様に、 実線は肯定出力を、'破線は否定出力を示している。 この ように、 本発明の認識方法は、 十分な汎化能力を持っている *が分かる。
これらを従来例と比較すると、 図 1 9で与えたデータの長さは合計 1 0 4 9個 であるので、 従来的な始端、 終端を与えて認識させる場合は単純に言って 1 0 4 9の自剰個のオーダーの組み合わせを調べる必要がある。 しかし、 本発明は 1 0 4 9個のデータをそれぞれ 1 回ずつ入力と して与えるのみで良いので、 従来の処 理方法と比較して、 数百分の 1の時間で処理できる。 また、 データをそれぞれ 1 回だけ入力すれば良いため、 従来のように始端、 終端となり得る範囲のデータを 記億しておく必要がなく、 データメモリーも小量しか必要なく、 その計算量も少 なくなる。
また、 出力は従来例の D P法、 H M M法のように単調増加、 あるいは単調減少 するのではなく、 必要な所でピーク値を持っため、 出力値を入力データの長さに 対して正規化する必要もない。 つまり、 出力は常にある範囲 (この例の場合は一 1から 1の間) にあり、 かつその値の持つ重みは認識区間のどこでも同じである t この事は処理すべき値のダイナミ ヅ ク レンジが狭い事を意味し、 処理時に浮動小 数点データや対数データを用いなく とも、 整数型のデータで十分な性能を出せる ことを意味している。
それから、 肯定出力と否定出力の 2つの出力の総合的な判断により認識をして いるため、 例えば、 図 2 0の 「購入」 のところで肯定出力が立ち上がりかけても, 否定出力が下がらないために誤認識をするようなこともなく、 音声認識処理の精 度を向上させることができる。 もちろん、 出力数は 2に限るものではなく、 必要 に応じて幾つ設けてもよい。 例えば、 現在入力されているデータが学習に用いら れたデータ と どの程度類似しているかという ような出力を加えることにより、 さ らに認識結果の精度を高めることができる。 さらに、 それらを複数個用いること により、 最適な結果を与える N Nを選択することができる。
また、 認識対象の単位も例示したような単語のみではなく音節あるいは音素と することもできる。 この場合には、 比較的少数の N Nによりその言語音声の全体 を認識することが可能となる。 それにより、 例えばディ クテーシヨ ンシステムが 可能となる。 さらに、 認識単位としては、 上のような言語との対応を考えない抽 象的なものであってもよい。 このような認識単位を用いることは特に認識装置を 情報圧縮に用いる場合に有効である。
図 2 1は、 本発明の別の実施例を示すもので、 図 1 2に示した音声認識装置に 対して、 背景雑音入力手段 2 1 0 5および平衡状態検出手段 2 1 0 6が付加され たものである。 他は、 図 1 2 と同様である。
図 2 1の構成において、 どのように内部状態初期値を決定するかの処理の流れ を図 2 2に示す。 図中の背景雑音データの作成に関わる部分は、 適当な初期値設 定手段、 適当な定常入力作成手段、 あるいは無入力に対応するものとして無くて も良い。 図 2 7は、 この装置を図 1 8に示した学習方法で学習させて認識した結 果を表したもので、 実施例 1の表 1 と表 2に対応する結果をまとめたものである。 これは、 約 3秒の背景雑音入力により平衡状態になった N Nの内部状態値を初期 値として保存し、 認識処理の際にはその値を式 (2〕 の微分方程式の初期値とし て用いたものである。
図 2 7から明かなように、 本実施例の多く の場合で単語の欠落誤りが実施例 1 の桔果に比較して改善されている。
実際のより高機能な音声認識装置においては、 単純な音声認識機能に加えて、 - 言語的な処理を用いる事が多い。 この際、 挿入的な誤りはそのような言語的な制 約により訂正削除する事が比較的容易に可能であるが、 欠落的な誤りをそのよう な言語的な制約で推論追加する事は困難である。 従って、 本実施例に示したよう な欠落誤り率の改善は、 より高性能な音声認識装置を実現するために重要な事柄 である。
図 2 3は、 図 1 4の学習都に雑音データ記億手段と雑音データ重畳手段が付加 された例である。 基本的な学習方法については、 図 1 4に説明した通りである。 実施例の特徵は、 予め雑音成分を重畳したデータを学習用データ として用いる 点にある。 学習用データの認識処理は、 学習用データに含まれている雑音成分を 除去したデータについて認識が行われるように、 N Nの各ュニッ ト間の重みが学 習用制御手段によって調整される。 つまり、 N Nは学習用データに含まれる雑音 成分を明確に識別できるように学習させられる。
では、 どの様に学習用データへ雑音成分を重畳するかであるが、 学習データへ の雑音成分の重畳は、 図 2 4に示すように複数箇所で行われる。 図中 2 4 0 1は 学習用データを、 2 4 0 2、 2 4 0 3は雑音成分を示す。 図 2 4 ( b ) は、 図 2 4 ( a〕 の学習用データの前段部分に雑音成分 2 4 0 2を重畳した例で、 図 2 4 C c ) は、 学習用データの後段部分に雑音成分 2 4 0 3を重畳させた例である。 このように、 学習用データの複数の箇所に雑音成分を重畳させた重畳データを用 いて、 かつ学習用データに重畳された雑音成分を除去したデータを認識するよう に学習させることにより、 N Nは雑音成分だけを明確に識別できるようになる。 これによつて、 N Nは非定常雑音が重畳された音声データの雑音部分を正し く 認識できるようになる。 産業上の利用可能性
以上のように、 本発明の音声認識装置及び学習方法は、 連続音声認識のみなら ず孤立音声認識に関しても非常に有効である。
また、 本発明は音声認識に限らず、 広く時系列情報の処理においても有効であ り、 入力データと出力データの対応が取れるものであれば、 どの様な時系列情報 の処理も可能である。 利用可能性と しては、 情報の圧縮、 伸長、 波形等価、 等が 考えられる。

Claims

請 求 の 範 囲
1 . ニューラルネッ トワークを用いた音声認識装置において、
前記ニューラルネッ トワークを構成する各神経細胞様素子が、 内部状態値記億手 段と、 前記内部状態値記億手段に記億された内部状態値とその神経細胞様素子に 入力される入力値とに基づいて内部状態値を更新する内部状態値更新手段と、 前 記内部状態値記億手段の出力を外部出力値へ変換する出力値生成手段とを有する ことを特徴とするニューラルネッ トワークを用いた音声認識装置。
2 . 前記内部状態値更新手段は前記入力値および前記内部状態値に重みを付け積 算する重み付き積算手段からなり、 前記内部状態値記億手段は前記重み付き積算 手段により積算された値を積分する積分手段からなり、 前記出力値生成手段は前 記積分手段により得られた値を予め設定された上限値と下限値の間の値へ変換す る出力値制限手段とからなることを特徵とする請求 1記載のニューラルネッ トヮ —クを用いた音声認識装置。
3 . 前記ニューラルネッ トワークを構成する i番目の前記神経細胞様素子の内部 状態値を X i とし、 て iを時定数とし、 前記神経細胞様素子への前記重み付き入 力値を Z j 〔 - は から!!、 nは 0または自然数) とすると、 前記内部状態値更 新手段が、
Figure imgf000024_0001
を満足する値へ内部状態値を更新する事を特徵とする請求の範囲 1 または請求の 範囲 2に記載のニューラルネヅ トワークを用いた音声認識装置。
4 . 前記 i番目の神経細胞様素子への重み付き入力値 Z jが、 前記 i番目の神経 細胞様素子自身の出力に重みを剰算した値を含む事を特徵とする請求の範囲 1な いし請求の範囲 3に記載のニューラルネッ トワークを用いた音声認識装置。
5 . 前記 i番目の神経細胞様素子への重み付き入力値 Z jが、 前記ニューラルネ ッ トワークを構成する他の神経細胞様素子の出力に重みを剰算した値を含む事を 特徵とする請求の範囲 1ないし請求の範囲 4に記載のニューラルネッ トワークを 用いた音声認識装置。
6 . 前記 i番目の神経細胞様素子への重み付き入力値 Z j が、 前記ニューラルネ ッ トワークの外都から与えられたデータを含む事を特徴とする請求の範囲 1ない し請求.の範囲 5に記載のニューラルネッ トワークを用'いた音声認識装置。
7 . 前記 i番目の神経細胞様素子への重み付き入力値 Z j が、 ある固定された値 に重みを剰算した値を含む事を特徴とする請求の範囲 1ないし請求の範囲 βに記 載のニューラルネッ トワークを用いた音声認識装置。
8 . 前記出力値生成手段が、 正負対称出力範囲を有する事を特徴とする請求の範 囲 1ないし請求の範囲 7に記載のニューラルネツ トワークを用いた音声認識装置。
9 . 前記ニューラルネ ッ ト ワークが少なく とも肯定出力、 否定出力の 2つの出力 を持つことを特徴とする請求の範囲 1ないし請求の範囲 8に記載のニューラルネ ッ トワークを用いた音声認識装置。
1 0 . 前記音声認識装置は、 認識させたい入力の特徴抽出を行う と共に特徴抽出 した値を前記ニューラルネッ トワークへ入力する音声特徴抽出手段と、 前記ニュ 一ラルネッ トワークの出力値を認識結果に変換する認識結果出力手段と、 前記二 ユーラルネッ トワークを構成する神経細胞様素子の内部状態値記億手段に予め設 定された初期値を与える内部状態値初期化手段とを有することを特徵とする請求 の範囲 1〜請求の範囲 9記載のニューラルネッ トワークを用いた音声認識装置。
1 1 . 請求の範囲 1 0記載の音声認識装置において、 前記ニューラルネッ トヮ一 クに背景雑音を入力する背景雑音入力手段と、 前記ニューラルネ ッ ト ワークの出 力から平衡状態を検出すると共に、 前記平衡状態の検出に基づき内部状態初期値 設定手段に予め設定された内部状態初期値を変更する信号を出力する平衡状態検 出手段とを設けたことを特徴とするニューラルネッ トワークを用いた音声認識装 置。
1 2 . 請求の範囲 1 0または請求の範囲 1 1記載の音声認識装置において、 前記音声認識装置は、 前記ニューラルネッ トワークを学習させるための学習部を 有し、 前記学習部は学習用入力データを記億する入力データ記億手段と、 前記入 力データ記億手段から学習用入力データを選択する入力データ選択手段と、 学習 用出力デーダを記億する出力データ記憶手段と、 選択された入力データ とその連 鎖により学習用出力データを選択する出力データ選択手段と、 選択された学習用 入力データを前記特徴抽出部に入力すると共に前記ニューラルネ、ソ トワークの学 習を制御する学習制御手段とを有し、 前記学習制御手段は前記ニューラルネッ ト ワークの出力と前記出力データ選択手段の出力とに基づき前記神経細胞様素子の 結合の重み付けを変更することを特徵とするニューラルネッ トワークを用いた音 声認識装置の学習方法。
1 3 . 請求の範囲 1 2記載の音声認識装置の学習方法において、 前記入力データ 記億手段は複数個の範躊を有し、 前記出力データ記億手段は前記入力データ記億 手段の各範嗪に対応する範嗪を有し、 前記入力データ選択手段は前記入力データ 記億手段の範嗪から学習させたい複数個のデータを選択し、 前記出力データ選択 手段は前記入力データ選択手段により選択された学習用入力データに対応する学 習用出力データを選択し、 前記学習制御部は前記入力データ選択手段が選択した 複数個のデータを 1つに連結する入力データ連結手段と前記出力データ選択手段 が選択した学習用出力データを 1つに連結する出力データ連結手段とを有し、 前 記学習部は前記連結した 1つの学習用入力データを音声特徴抽出手段に入力する と共に、 前記ニューラルネッ トワークの出力と前記出力連結手段の出力とに基づ き前記神経細胞様素子の結合の重み付けを変更することを特徴とするニューラル ネッ トワークを用いた音声認識装置の学習方法。
1 . 前記範縛の数が 2であることを特徵とする請求の範囲 1 3記載の二ユーラ ルネッ トワークを用いた音声認識装置の学習方法。
1 5-. 請求の範囲 1 2ないし請求項 1 4に記載のニューラルネッ トワークを使用 レた音声認識装置の学習方法において、 前記学習部は雑音データを記億する雑音 データ記億手段と、 前記選択された学習.データに前記雑音データ記憶手段から選 択された雑音を重畳する雑音重畳手段とを有し、 前記雑音重畳手段により雑音が 重畳された入力データを用いて前記ニューラルネッ トワークを学習させることを 特徵とするニューラルネッ トワークを用いた音声認識装置の学習方法。
1 6 . 前記背景雑音を重畳させる位置をずらして繰り返し学習させることを特徴 とする請求の範囲 1 5に記載のニューラルネッ トワークを用いた音声認識装置の 学'習方法。
1 7 . 請求の範囲 1 5 に記載のニューラルネ ッ ト ワークの学習方法において、 は じめに背景雑音が重畳されていない入力データで学習させた後に、 同じ入力デー タに背景雑音を重畳して学習させる こ とを特徴とするニューラルネッ ト ワーク を 用いた音声認識装置の学習方法。
補正された請求の範囲
[1 9 93年 7月 9曰 (0 9 . 0 7. 93 ) 国^^務^ M;出願当初の請求の範囲 3は ¾IEされた; 請求の範囲 1、 2、 4及び 5は変 無し。 (ΐ頁)
1 . ニューラルネッ トワークを用いた音声認識装置において、
前記ニューラルネッ トワークを構成する各神経細胞様素子が、 内部状態値記億手 段と、 前記内部状態値記 ¾手段に記懔された内部状態値とその神経細胞様素子に 入力される入力値とに基づいて内部状態値を更新する内部状態値更新手段と、 前 記内部状態値記懷手段の出力を外部出力値へ変換する出力値生成手段とを有する ことを特徵とするニューラルネッ トワークを用いた音声認識装置。
2 . 前記内部状態値更新手段は前記入力値および前記内部状態値に重みを付け積 算する重み付き積算手段からなり、 前記内部状態値記億手段は前記重み付き積算 手段により »算された値を稜分する積分手段からなり、 前記出力値生成手段は前 IE (積分手段により得られた値を予め設定された上限値と下限値の間の値へ変換す る出力値制限手段とからなることを特徴とする請求 1記載のニューラルネッ トヮ ークを用いた音声認雜装置。
3 . (捕正後) 前記ニューラルネッ トワークを構成する i番目の前記神経細胞様 素子の内都状態値を X i とし、 て iを時定数とし、 前記神経細胞様素子への前記 重み付き入力値を Z j 〔jは 0から n、 nは 0または自然数) とすると、 前記内 部状態値更新手段が、
Figure imgf000028_0001
を満足する値へ内部状態値を更新する事を特徵とする請求の範囲 1または請求の 範囲 2に記載のニューラルネッ トワークを用いた音声認識装置。
4 . 前記 i番目の神柽細胞様素子への重み付き入力値 Z j が、 前記 i番目の神経 钿胞様素子自身の出力に重みを剰算した値を含む事を特徵とする請求の範囲 1な いし請求の範囲 3に記載のニューラルネッ トワークを用いた音声認識装置。
5 . 前記 i番目の神経細胞様素子への重み付き入力値 Z j が、 前記ニューラルネ V小ワークを搆成する他の神経細胞様素子の出力に重みを剰算した値を含む事を 特徴とする請求の範囲 1ないし請求の範囲 4に記載のニューラルネッ トワークを 第 1 9条に基づく説明書 請求の範囲の補正は、 誤記の訂正のためである。
請求の範囲第 3項、 数式中の Y j を Z j に補正した。 この数式は、 内部状態値 X j と重み付き入力値 Z j との関係を示したものであるが、 出願時の明細書では この Z j が Y j となっていたため補正したものである。
なお、 同様の誤記が、 明細書 3頁 1 9行目の数式、 および明細書第 9頁 5行目 の式 (2 ) にもある。 これらに付いては、 別途補正の手続きをと り、 同様の補正 を行う ものである。
以上
PCT/JP1993/000373 1992-03-30 1993-03-26 Speech recognition apparatus using neural network, and learning method therefor WO1993020552A1 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP51729193A JP3521429B2 (ja) 1992-03-30 1993-03-26 ニューラルネットワークを用いた音声認識装置およびその学習方法
KR1019930703580A KR100292919B1 (ko) 1992-03-30 1993-03-26 뉴럴 네트워크를 이용한 음성인식장치 및 그 학습방법
DE69327997T DE69327997T2 (de) 1992-03-30 1993-03-26 Gerät zur spracherkennung mit neuronalem netzwerk und lernverfahren dafür
EP93906832A EP0586714B1 (en) 1992-03-30 1993-03-26 Speech recognition apparatus using neural network, and learning method therefor
HK98115085A HK1013879A1 (en) 1992-03-30 1998-12-23 Speech recognition apparatus using neural network and learning method therefor

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
JP7381892 1992-03-30
JP4/73818 1992-03-30
JP8714692 1992-04-08
JP4/87146 1992-04-08
JP8878692 1992-04-09
JP4/88786 1992-04-09
JP4/159422 1992-06-18
JP15944192 1992-06-18
JP4/159441 1992-06-18
JP15942292 1992-06-18
JP16107592 1992-06-19
JP4/161075 1992-06-19

Publications (1)

Publication Number Publication Date
WO1993020552A1 true WO1993020552A1 (en) 1993-10-14

Family

ID=27551274

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1993/000373 WO1993020552A1 (en) 1992-03-30 1993-03-26 Speech recognition apparatus using neural network, and learning method therefor

Country Status (6)

Country Link
EP (1) EP0586714B1 (ja)
JP (2) JP3521429B2 (ja)
KR (1) KR100292919B1 (ja)
DE (1) DE69327997T2 (ja)
HK (1) HK1013879A1 (ja)
WO (1) WO1993020552A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011146147A1 (en) * 2010-05-19 2011-11-24 The Regents Of The University Of California Neural processing unit
US9082078B2 (en) 2012-07-27 2015-07-14 The Intellisis Corporation Neural processing engine and architecture using the same
US9185057B2 (en) 2012-12-05 2015-11-10 The Intellisis Corporation Smart memory
US9552327B2 (en) 2015-01-29 2017-01-24 Knuedge Incorporated Memory controller for a network on a chip device
CN108269569A (zh) * 2017-01-04 2018-07-10 三星电子株式会社 语音识别方法和设备
US10027583B2 (en) 2016-03-22 2018-07-17 Knuedge Incorporated Chained packet sequences in a network on a chip architecture
US10061531B2 (en) 2015-01-29 2018-08-28 Knuedge Incorporated Uniform system wide addressing for a computing system
US10346049B2 (en) 2016-04-29 2019-07-09 Friday Harbor Llc Distributed contiguous reads in a network on a chip architecture
JP2021006889A (ja) * 2019-06-27 2021-01-21 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ウェイクアップモデルの最適化方法、装置、デバイス及び記憶媒体
NL2029215A (en) * 2021-09-21 2021-11-01 Univ Dalian Tech Speech keyword recognition method based on gated channel transformation sandglass residual neural network

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715372A (en) * 1995-01-10 1998-02-03 Lucent Technologies Inc. Method and apparatus for characterizing an input signal
TW347503B (en) * 1995-11-15 1998-12-11 Hitachi Ltd Character recognition translation system and voice recognition translation system
KR100772373B1 (ko) 2005-02-07 2007-11-01 삼성전자주식회사 복수개의 데이터 처리 장치를 이용한 데이터 처리 장치 및그 방법과, 이를 구현하기 위한 프로그램이 기록된 기록매체
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
KR101991041B1 (ko) 2018-12-31 2019-06-19 서울대학교산학협력단 아날로그 이진인공신경망 회로에서 활성도 조절을 통한 공정변이 보상방법 및 그 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272398A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声信号用前処理装置
JPH0281160A (ja) * 1988-09-17 1990-03-22 Sony Corp 信号処理装置
JPH04295894A (ja) * 1991-03-26 1992-10-20 Sanyo Electric Co Ltd 神経回路網モデルによる音声認識方法
JPH04295897A (ja) * 1991-03-26 1992-10-20 Sanyo Electric Co Ltd 神経回路網モデルによる音声認識方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2580826B2 (ja) * 1990-03-14 1997-02-12 日本電気株式会社 フィードバック神経細胞モデル

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272398A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声信号用前処理装置
JPH0281160A (ja) * 1988-09-17 1990-03-22 Sony Corp 信号処理装置
JPH04295894A (ja) * 1991-03-26 1992-10-20 Sanyo Electric Co Ltd 神経回路網モデルによる音声認識方法
JPH04295897A (ja) * 1991-03-26 1992-10-20 Sanyo Electric Co Ltd 神経回路網モデルによる音声認識方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
See also references of EP0586714A4 *
Technical Research Report by IEICE, NC91-10, (08.05.91), YOJI FUKUDA and another, "Phoneme Recognition Using Recurrent Neural Network", p. 71-78. *
Technical Research Report by IEICE, SP92-125, (19.01.93), MITSUHIRO Inazumi and another, "Voice Recognition of Continuous Figures by Recurrent Neural Network", p. 17-24. *
Technical Research Report by IEICE, SP92-25, (30.06.92), MITSUHIRO INAZUMI and another, "Voice Recognition of Continuous Words by Recurrent Neural Network", p. 9-16. *
Technical Research Report by IEICE, SP92-80, (21.10.92), KENICHI FUNABASHI, "On Recurrent Neural Network", p. 51-58. *
Theses by IEICE, Vol. J74D-II, No. 12, (25.12.91), TATSUMI WATANABE and two others, "Examination of Recurrent Neural Network on Every Learning Rule and Shape of Learning Curvi", p. 1776-1787. *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655815B2 (en) 2010-05-19 2014-02-18 The Regents Of The University Of California Neural processing unit
WO2011146147A1 (en) * 2010-05-19 2011-11-24 The Regents Of The University Of California Neural processing unit
US9558444B2 (en) 2010-05-19 2017-01-31 The Regents Of The University Of California Neural processing unit
US10083394B1 (en) 2012-07-27 2018-09-25 The Regents Of The University Of California Neural processing engine and architecture using the same
US9082078B2 (en) 2012-07-27 2015-07-14 The Intellisis Corporation Neural processing engine and architecture using the same
US9185057B2 (en) 2012-12-05 2015-11-10 The Intellisis Corporation Smart memory
US10445015B2 (en) 2015-01-29 2019-10-15 Friday Harbor Llc Uniform system wide addressing for a computing system
US10061531B2 (en) 2015-01-29 2018-08-28 Knuedge Incorporated Uniform system wide addressing for a computing system
US9858242B2 (en) 2015-01-29 2018-01-02 Knuedge Incorporated Memory controller for a network on a chip device
US9552327B2 (en) 2015-01-29 2017-01-24 Knuedge Incorporated Memory controller for a network on a chip device
US10027583B2 (en) 2016-03-22 2018-07-17 Knuedge Incorporated Chained packet sequences in a network on a chip architecture
US10346049B2 (en) 2016-04-29 2019-07-09 Friday Harbor Llc Distributed contiguous reads in a network on a chip architecture
CN108269569A (zh) * 2017-01-04 2018-07-10 三星电子株式会社 语音识别方法和设备
CN108269569B (zh) * 2017-01-04 2023-10-27 三星电子株式会社 语音识别方法和设备
JP2021006889A (ja) * 2019-06-27 2021-01-21 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ウェイクアップモデルの最適化方法、装置、デバイス及び記憶媒体
US11189287B2 (en) 2019-06-27 2021-11-30 Baidu Online Network Technology (Beijing) Co., Ltd. Optimization method, apparatus, device for wake-up model, and storage medium
NL2029215A (en) * 2021-09-21 2021-11-01 Univ Dalian Tech Speech keyword recognition method based on gated channel transformation sandglass residual neural network

Also Published As

Publication number Publication date
JP2000298663A (ja) 2000-10-24
KR100292919B1 (ko) 2001-06-15
JP3521429B2 (ja) 2004-04-19
EP0586714B1 (en) 2000-03-08
DE69327997D1 (de) 2000-04-13
EP0586714A1 (en) 1994-03-16
HK1013879A1 (en) 1999-09-10
DE69327997T2 (de) 2000-07-27
EP0586714A4 (en) 1995-12-13

Similar Documents

Publication Publication Date Title
JP3168779B2 (ja) 音声認識装置及び方法
KR102494139B1 (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
US5212730A (en) Voice recognition of proper names using text-derived recognition models
WO1993020552A1 (en) Speech recognition apparatus using neural network, and learning method therefor
JP7070894B2 (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
US8838446B2 (en) Method and apparatus of transforming speech feature vectors using an auto-associative neural network
GB2572020A (en) A speech processing system and a method of processing a speech signal
El Choubassi et al. Arabic speech recognition using recurrent neural networks
EP0574951A2 (en) Speech recognition system
KR102406512B1 (ko) 음성인식 방법 및 그 장치
WO2016167779A1 (en) Speech recognition device and rescoring device
US20050071161A1 (en) Speech recognition method having relatively higher availability and correctiveness
US10741184B2 (en) Arithmetic operation apparatus, arithmetic operation method, and computer program product
WO2023078370A1 (zh) 对话情绪分析方法、装置和计算机可读存储介质
US5809461A (en) Speech recognition apparatus using neural network and learning method therefor
US5181256A (en) Pattern recognition device using a neural network
KR100306848B1 (ko) 신경회로망을 이용한 선택적 주의집중 방법
US20230070000A1 (en) Speech recognition method and apparatus, device, storage medium, and program product
US6151592A (en) Recognition apparatus using neural network, and learning method therefor
CN113223504B (zh) 声学模型的训练方法、装置、设备和存储介质
JPH064097A (ja) 話者認識方法
JP3467556B2 (ja) 音声認識装置
KR102159988B1 (ko) 음성 몽타주 생성 방법 및 시스템
JP2000352994A (ja) 神経細胞素子、ニューラルネットワークを用いた認識装置およびその学習方法
JPH06119476A (ja) 時系列データ処理装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 1019930703580

Country of ref document: KR

ENP Entry into the national phase

Ref document number: 1993 150170

Country of ref document: US

Date of ref document: 19931129

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1993906832

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1993906832

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1993906832

Country of ref document: EP