WO1998029864A1 - Appareil et procede de reconnaissance, et appareil et procede d'apprentissage - Google Patents

Appareil et procede de reconnaissance, et appareil et procede d'apprentissage Download PDF

Info

Publication number
WO1998029864A1
WO1998029864A1 PCT/JP1997/004755 JP9704755W WO9829864A1 WO 1998029864 A1 WO1998029864 A1 WO 1998029864A1 JP 9704755 W JP9704755 W JP 9704755W WO 9829864 A1 WO9829864 A1 WO 9829864A1
Authority
WO
WIPO (PCT)
Prior art keywords
class
input data
parameter
parameters
unit
Prior art date
Application number
PCT/JP1997/004755
Other languages
English (en)
French (fr)
Inventor
Tetsujiro Kondo
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to DE69730705T priority Critical patent/DE69730705T2/de
Priority to EP97949208A priority patent/EP0896319B1/en
Publication of WO1998029864A1 publication Critical patent/WO1998029864A1/ja
Priority to US09/125,717 priority patent/US6396954B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Definitions

  • the present invention relates to a recognition device and a recognition method, and a learning device and a learning method.
  • a recognition device and a recognition device that can improve recognition accuracy by recognizing a voice, an object, and the like using not only the voice data and the image data but also other data.
  • the present invention relates to a recognition method, a learning device, and a learning method.
  • a speech recognition device that recognizes speech analyzes (sounds) speech data output from a microphone and uses the analysis result to recognize a speech uttered by a user. It has become.
  • the voice recognition device uses a sound recognition target such as a soundproof room. It is rarely used in an environment where only voice is input to the microphone, and is often used in an environment where various other noises are present. That is, recently, for example, a navigation system equipped with a voice recognition device is being put into practical use.
  • the voice recognition device includes, in addition to a voice of a speaker to be recognized, a CD mounted on a car.
  • the conventional speech recognition device predetermined analysis processing is performed on the speech data output from the microphone to determine its characteristic parameters, and based on the distance of the characteristic parameters in the parameter space, etc. , Voice is recognized.
  • important feature parameters for recognition may vary depending on the environment in which the speech recognizer is used.
  • DISCLOSURE OF THE INVENTION The present invention has been made in view of such circumstances, and an object of the present invention is to improve the recognition performance of a recognition device that performs speech and other recognition. .
  • the recognition device integrates a first class classification unit that classifies a plurality of types of input data into a predetermined class according to a characteristic thereof, and a plurality of types of input data.
  • the integration parameters Integrated parameter configuration means to be configured; standard parameter storage means for storing a table in which predetermined standard parameters are registered for each class output by the first class classification means; first class classification means And a recognition means for recognizing the recognition target based on the integrated parameters and the standard parameters registered in the table corresponding to the class output by.
  • the recognition method performs a class classification of classifying a plurality of types of input data into a predetermined class according to a property thereof, and configures an integration parameter integrating the plurality of types of input data,
  • the recognition target is recognized based on a table in which standard parameters corresponding to the class obtained as a result of the class classification are registered, and the integrated parameters.
  • the learning device integrates a first class classifying unit that classifies a plurality of types of input data into a predetermined class according to a characteristic thereof, and a plurality of types of input data. And a classification means for classifying the integrated parameters for each class output by the first class classification means.
  • the learning method performs a class classification of classifying a plurality of types of input data into a predetermined class according to a property thereof, and configures an integration parameter integrating the plurality of types of input data, It is characterized in that the integrated parameters are classified for each class obtained as a result of the classification.
  • the first class classification means classifies a plurality of types of input data into a predetermined class according to their properties.
  • the integrated parameter composing means composes integrated parameters by integrating a plurality of types of input data.
  • the standard parameter storage means stores a table in which predetermined standard parameters are registered for each class output by the first class classification means, and the recognition means outputs the table by the first class classification means.
  • the recognition target is recognized based on the standard parameters registered in the table corresponding to the class to be performed and the integrated parameters.
  • a plurality of types of input data are classified into predetermined classes according to their properties, and an integrated parameter obtained by integrating a plurality of types of input data is obtained.
  • the recognition target is configured based on a table in which standard parameters corresponding to the classes obtained as a result of the classification are registered, and the integrated parameters.
  • the first class classification means classifies a plurality of types of input data into a predetermined class according to the nature of the input data
  • the integrated parameter configuration means An integrated parameter that integrates various types of input data is configured.
  • the classifying means classifies the integrated parameters for each class output by the first class classifying means.
  • a plurality of types of input data are classified into a predetermined class according to their properties, and an integrated parameter obtained by integrating a plurality of types of input data is obtained. It is configured to classify the integration parameters for each class obtained as a result of the classification.
  • FIG. 1 is a block diagram showing a configuration example of a navigation system to which the present invention is applied.
  • FIG. 2 is a block diagram illustrating a configuration example of a first embodiment of a speech recognition device to which the present invention has been applied.
  • FIG. 3 is a diagram for explaining the processing of the preprocessing unit 21.
  • FIG. 4 is a block diagram showing a configuration example of the first embodiment of the learning device to which the present invention is applied.
  • FIG. 5 is a diagram showing a parameter space.
  • FIG. 6 is a block diagram illustrating a configuration example of a second embodiment of the speech recognition device to which the present invention has been applied.
  • FIG. 7 is a block diagram showing a configuration example of a second embodiment of the learning device to which the present invention is applied.
  • FIG. 8 is a block diagram illustrating a configuration example of a third embodiment of the speech recognition device to which the present invention has been applied.
  • FIG. 9 is a block diagram illustrating a configuration example of a third embodiment of the learning device to which the present invention has been applied.
  • FIG. 1 shows a configuration example of a navigation system according to an embodiment of the present invention.
  • This navigation system is installed in automobiles, etc., and has a system control unit 1, a position measurement device 2, a database device 3, an input device 4, And an output device 5 for controlling the device in response to, for example, an operation of a button or the like, or an input voice uttered interactively.
  • the navigation system can be used, for example, by carrying it.
  • the system control unit 1 sends and receives information to and from each block constituting the system, and controls the operation of the entire system.
  • the position measuring device 2 receives a radio wave from a GPS (Global Positioning System) satellite or measures the current position using a measuring device such as a gyroscopic scope or a vehicle speed sensor.
  • the database device 3 records (stores), for example, digitized map information of a plurality of scales and other information necessary for navigation, from which a command from the system control unit 1 is issued. Necessary information is retrieved based on the information and supplied to the system control unit 1.
  • the input device 4 includes buttons and joysticks for causing the navigation system to perform predetermined processing, a microphone for inputting voice, a CCD (Charge Coupled Device) camera for imaging the user, and It is equipped with an acceleration sensor for measuring vehicle vibration, a sensor for measuring humidity and temperature, and various other sensors. From the input device 4, a signal corresponding to an operation of a button, a joystick, or the like is transmitted to the system control unit 1. Further, the input device 4 has a voice recognition device, performs voice recognition of the input voice, and transmits the voice recognition result to the system control unit 1.
  • a voice recognition device performs voice recognition of the input voice, and transmits the voice recognition result to the system control unit 1.
  • the output device 5 is a device for displaying images and the like, for example, a liquid crystal monitor, a CRT (cathod ray tube), a sound for outputting sounds and the like. It has a speech synthesizer that generates synthesized sounds from power and text information, and displays, for example, map information and current position information among the information sent from the system control unit 1, It outputs information. Further, when text information is transmitted from the system control unit 1, the output device 5 synthesizes and outputs a voice corresponding to the text information to a voice synthesizer.
  • the voice is recognized by a voice recognition device built in the input device 4, and the voice recognition result is transmitted to the system. Supplied to control unit 1.
  • the system control unit 1 Upon receiving the voice recognition result of the place name as the destination, the system control unit 1 recognizes the current position from the output of the position measuring device 2 and further refers to the map information stored in the database device 3 to Find a route from your current location to your destination. Then, the system control unit 1 supplies the map information representing the route to the output device 5 to display the route information, and generates a synthetic sound for guiding the route by the voice synthesizer incorporated in the output device 5. Output. Therefore, in this case, the user can easily reach the destination.
  • FIG. 2 shows a configuration example of a first embodiment of a speech recognition device incorporated in the input device 4 of FIG.
  • the input section 10 is a microphone 11, CCD camera 12, microphone 13, sensor 14, amplifier 15, AZD converter 16, amplifier 17, A / D converter 18, and 19 From which various types of input data used for recognizing the voice of the user who is the driver are output. Is done.
  • the microphone 11 has directivity, for example, and is installed facing the direction of the user who is the driver. Therefore, the user's voice is mainly input to the microphone 11.
  • the sound input to the microphone 11 is converted into an audio signal, amplified by passing through the amplifier 15, and supplied to the AD converter 18.
  • the analog audio signal supplied via the amplifier 15 is sampled according to a predetermined sampling clock, and is further quantized in a predetermined quantization step, thereby forming a digital signal. It is converted to some audio data.
  • the audio data output from the AZD converter 18 is supplied to the preprocessing unit 20.
  • the CCD camera 12 is installed so as to capture the mouth of the user.
  • the mouth of the user captured by the CCD camera 12 is used as an image signal, and is subjected to A / D conversion. Supplied to the vessel 16.
  • the AZD converter 16 converts an analog image signal into image data and supplies it to the pre-processing unit 21 as in the case of the AZD converter 18.
  • the microphone 13 is, for example, omnidirectional and mainly receives a sound other than the user's voice. That is, for example, the sound of the engine, the sound output from a radio receiver or CD player installed in a car, the sound of an air conditioner, and the external noise when the window is open are input. Is done.
  • the sound input to the microphone 13 is processed in the amplifier 17 or the AZD converter 19 in the same manner as in the amplifier 15 or the A / D converter 18 described above, and is converted into voice data. Then, it is supplied to the preprocessing section 22.
  • Sensors 14 are acceleration sensors for measuring vehicle vibration,
  • the output of a sensor for measuring humidity or temperature is supplied to the pre-processing unit 23. From the output of the acceleration sensor, for example, the degree (magnitude) of noise generated by the vibration of the vehicle can be known.
  • the output of sensors for measuring humidity and temperature can indicate, for example, whether or not it is raining, and if it is raining, the degree of the sound of that rain.
  • the data supplied to each is analyzed, and a characteristic parameter representing the characteristic is obtained.
  • the preprocessing units 20 and 22 for example, the number of zero crosses, the power for each predetermined frequency band, the linear prediction coefficient, the cepstrum coefficient, and the like are converted from the audio data into a single audio frame as a predetermined time. And is output to the class classification data forming unit 24 and the integrated parameter forming unit 26 as feature parameters.
  • the pre-processing unit 2 From the image data of the portion of the user's mouth, for example, as shown in FIG. 3, the next to the user's mouth length 1 ⁇ and the vertical length L 2 GaMotomu Merare, the ratio Li / L 2 is output to the class classification data forming unit 24 and the integrated parameter forming unit 26 as a feature parameter.
  • the preprocessing unit 21 obtains motion vectors, edges, DCT (discrete cosine transform) coefficients, and the like from image data of the user's mouth, and class classification data as feature parameters. It is output to the configuration unit 24 and the integrated parameter configuration unit 26.
  • the output of the sensor 14 is analyzed, as described above, for example, as described above, for example, the characteristic parameter reflecting the degree (loudness) of the noise generated by the vibration of the automobile, the rain sound Characteristic parameters that reflect the degree of The data is output to the data configuration unit 24 and the integrated parameter configuration unit 26.
  • the class classification data forming unit 24 outputs at least a part of the feature parameters output from the preprocessing units 20 to 24 to the class classification unit 25 as class classification data used for class classification.
  • the class classification section 25 classifies the data for class classification from the data configuration section for class classification 24 into a predetermined class according to its properties.
  • the class classification unit 25 supplies the value previously assigned to the pattern of the value of the characteristic parameter constituting the class classification data to the adaptation determination unit 27 as the class of the class classification data.
  • the adaptation determination unit 27 determines whether the class of the class classification data belongs to the class of the class classification data.
  • an A bit is assigned to represent a feature parameter
  • B pieces of such feature parameters are collected to form class classification data
  • the number of feature parameter value patterns that constitute the classification data is ( 2A ) B. Therefore, if A or B is large, the number of classes becomes enormous, and it becomes difficult to speed up the subsequent processing.
  • the data for class classification is a process to reduce the number of bits of the feature parameters that compose the data, such as ADRC (Adaptive Dynamic Range Coding). Is applied.
  • ADRC Adaptive Dynamic Range Coding
  • the ADRC process first, from the B feature parameters constituting the data for class classification, the largest one (hereinafter, appropriately referred to as the largest feature parameter) and the smallest one (hereinafter, the smallest one, as appropriate) (Called a parameter). Then, the difference DR between the maximum feature parameter value MAX and the minimum feature parameter value MIN (two MAX -MIN) is calculated, and this DR is used as the local dynamic range of the data for class classification.Based on this dynamic range DR, each feature parameter constituting the data for class classification is calculated from the original number of allocated bits A. Requantized to fewer C bits. That is, the value MIN of the minimum feature parameter is subtracted from each feature parameter constituting the data for class classification, and each subtracted value is divided by DR / 2C .
  • the number B of the characteristic parameters constituting the classification data should not be too large. However, if the number B of the feature parameters is too small, appropriate classification may not be performed. Therefore, it is desirable to determine the number B of characteristic parameters by balancing them.
  • the integrated parameter configuration unit 26 integrates (collects) at least some of the feature parameters output by the preprocessing units 20 to 24 and outputs the integrated parameters to the adaptive determination unit 27 as integrated parameters.
  • the integrated parameters may be configured by integrating the same feature parameters that constitute the class classification data, or by integrating features that are different from the feature parameters that constitute the class classification data. It may be constituted by.
  • the adaptation determination unit 27 includes the standard parameter storage unit 28 and the matching When the class or the integrated parameter is received from the classifying unit 25 or the integrated parameter forming unit 26, respectively, first, the standard parameter corresponding to the class received from the classifying unit 25 is received.
  • the standard parameter table in which is registered is selected from the standard parameter storage unit 28.
  • the standard parameter storage unit 28 stores, for each class, a standard parameter table in which standard parameters corresponding to phonemes, which are obtained by a learning process by a learning device (FIG. 4) described later, are registered.
  • the matching unit 29 selects a class corresponding to the class output from the class classification unit 25 from the standard parameter table for each class.
  • the matching unit 29 calculates, for example, a Euclidean distance between each of the standard parameters registered in the selected standard parameter table and the integrated parameter from the integrated parameter configuration unit 26. Then, a phoneme corresponding to the standard parameter that minimizes the Euclidean distance is output as a speech recognition result.
  • this voice recognition device not only the voice data mainly output from the microphone 11 to which the user's voice is input, but also the image data obtained from the CCD camera 12, for example, the user's mouth
  • the user's voice is recognized using the state, motion, and voice data output from the microphone 13 and the output of the sensor 14, for example, using the type of noise and frequency band components. Can be improved.
  • a standard parameter table is prepared for each class, and standard patterns corresponding to classes of multiple types of data output by the input unit 10 are provided. Since a table is selected, a standard pattern table that is optimal for recognizing the user's voice can be used based on a plurality of types of data output from the input unit 10, and as a result, the recognition rate Can be further improved.
  • FIG. 4 illustrates a configuration example of a learning device that performs a learning process for obtaining a standard parameter to be registered in a standard parameter table for each class and stored in the standard parameter storage unit 28 of FIG.
  • Input section 30 (microphone 31, CCD camera 32, microphone 33, sensor 34, amplifier 35, 0 converter 36, amplifier 37, AD converter 38, and 39), front
  • the processing units 40 to 43 A class classification data constituent unit 44, class classifier 45, or integrated parameter constituent unit 46 are connected to the input unit 10 (microphone 11, CCD camera 12, Microphone 13, Sensor 14, Amplifier 15, A / D converter 16, Amplifier 17, AZD converter 18, and 19), pre-processing unit 20 to 23, for class classification
  • the configuration is the same as that of the data configuration unit 24, the class classification unit 25, or the integrated parameter configuration unit 26, respectively.
  • the memory 47 has its address terminal (AD) provided with the class output from the class classification unit 45 as an address, and stores the integration parameter output from the integration parameter configuration unit 46. It is as follows.
  • learning data for performing learning is input to the input unit 30. That is, for example, a voice uttered by a certain speaker is input to the microphone 31. The speaker's mouth at that time is imaged by the CCD camera 32.
  • the microphone 33 can be used, for example, to play various types of car engine sounds or to be played on CD players. Music, rain sounds, air conditioner sounds, and other noises are input. To the sensor 34, various vibrations, and when a rain noise is input to the microphone 33, temperature, humidity, and the like in a state where the rain is falling are given.
  • Various data as learning data input to the input unit 30 are stored in the preprocessing units 40 to 43, the class classification data configuration unit 44, the class classification unit 45, or the integrated parameter configuration unit 46.
  • the processing is performed in the same manner as in the pre-processing units 20 to 23, the class classification data configuration unit 24, the class classification unit 25, or the integrated parameter configuration unit 26 in FIG.
  • the memory 47 is supplied with the classes from the class classification unit 45 and the integrated parameters from the integrated parameter configuration unit 46.
  • the memory 47 stores the integrated parameters from the integrated parameter configuration unit 46 as standard parameters in an address corresponding to the class from the class classification unit 45.
  • the above processing is performed for each phoneme spoken by many speakers by changing the noise input to the microphone 33 and the input to the sensor 34 to various types.
  • the integrated parameters belonging to the same class are stored in the memory 47 by being classified into each address.
  • the standard parameter storage unit 28 in FIG. 2 stores the integrated parameters (sets) stored in each address of the memory 47 as those registered in the standard parameter table corresponding to each class as the standard parameters. Have been.
  • the optimal standard parameter table when there is noise and the optimal standard parameter table when there is no noise Is created.
  • the same class as that of the output of the classifying unit 45 is output from the classifying unit 25. Therefore, if there is noise, the optimal standard parameter is used in that case. Even if there is no noise, the optimal standard parameter table will be selected in that case.
  • the standard parameters are classified into different classes depending on whether there is noise or not, as described above.In addition, the types and levels of noise and the phonemes spoken by the speaker It is expected that the class will be classified into different classes depending on the type and whether the speaker is male or female, but it does not matter how the standard parameters are classified. . This is because, for example, if the input to the input unit 10 of the speech recognition device is the same as the input unit 30 of the learning device, the classification result in the class classification unit 25 of the speech recognition device is The result is the same as the classification result in the classification unit 45 of the speech recognition device. Therefore, in the speech recognition apparatus, the standard parameter obtained from the same input as the input to the input unit 10, that is, the optimal standard for the input This is because speech recognition is performed using parameters.
  • the memory 47 may store a plurality of integrated parameters for a certain phoneme for each class.
  • one speaker speaks the same phoneme under various noise environments, and a large number of speakers perform such a speech.
  • multiple integrated parameters that are scattered over a certain area of the data space may be obtained.
  • FIG. 5 (A) are assumed to have an integrated parameter has three components P ,, P 2, P 3, a three-dimensional parameter space
  • P , P 2, P 3 a three-dimensional parameter space
  • the integrated parameters for the phonemes “a” and “i” obtained for a certain class are plotted in such a parameter space, the points are scattered to some extent.
  • all the points scattered in a certain range may be used as standard parameters for the phoneme, but in addition, for example, as shown in Fig. 5 (B), the center of gravity of the range is obtained. This can be used as the standard parameter of the phoneme.
  • FIG. 6 shows a configuration example of a second embodiment of the speech recognition device incorporated in the input device 4 of FIG.
  • this speech recognition apparatus is provided with standard parameter storage units 28, 28 to 28 instead of the standard parameter storage unit 28, and further includes a class classification data forming unit 51 and a class classification unit 5.
  • the configuration is basically the same as that of the speech recognition device in FIG. 2 except that the device 2 is newly provided.
  • the class classification data forming unit 51 forms class classification data from a plurality of types of data output from the input unit 10 and outputs the data to the class classification unit 52.
  • the classification unit 52 classifies the classification data output from the classification data forming unit 51, and supplies a class as a classification result to the preprocessing units 20 to 23.
  • the class classification unit 52 outputs Preprocessing corresponding to the class to be performed is performed. That is, for example, when the voice input to the microphone 11 is a voiced sound such as a vowel, the linear prediction coefficient ⁇ the cepstrum coefficient and the like input to the microphone 11 If the voice is unvoiced, the characteristics of the voice are easier to grasp than the linear prediction coefficients and cepstrum coefficients, such as the number of zero crossings, power for each frequency band, and the period of silence. Furthermore, when the level of the noise input to the microphone 13 is low, it is not necessary to consider the effect of the noise, but when the level is high, speech recognition is performed taking into account the effect of the noise. Is desirable.
  • the optimal feature parameters for recognizing speech may vary in some cases, not only for the speech to be recognized, but also for other factors. Conceivable.
  • data for class classification is constructed from the data output from the input unit 10, and the data is classified into classes to divide the data into several cases. Are obtained by the pre-processing units 20 to 23.
  • the parameter space used for calculating the distance in the adaptive determination unit 27 is determined by the classification unit It will vary according to the results of the classification in the item 5. That is, the adaptive determination unit 27 calculates the distance in the parameter space corresponding to the class output by the class classification unit 52, and outputs a speech recognition result based on the distance.
  • class classification unit 52 classifies the class classification data output from the class classification degree data configuration unit 51 into one of M classes.
  • the pre-processing units 20 to 23 output characteristic parameters of the type corresponding to the class output by the class classification unit 52, and also change the order of the same characteristic parameter.
  • characteristic parameters For example, output the 8th-order, 1st-order, and other linear prediction coefficients
  • do not output feature parameters for example, if the car is stopped in a quiet place, the microphone 1 Since it is considered unnecessary to consider the output of the sensor 3 and the sensor 14, it is also possible to prevent the pre-processing units 22 and 23 from performing any particular processing.
  • the class output from the class classification unit 52 is also supplied to the adaptive determination unit 27 in addition to the preprocessing units 20 to 23.
  • the adaptation determination unit 27 has M standard parameter storage units 28 to 28M.
  • Each of the standard parameter storage units 28i to 28M has a class classification. Standard parameters in the parameter space corresponding to each of the M classes output by the unit 52 are stored.
  • the class classification unit 25 outputs the same as in the standard parameter storage unit 28 in FIG.
  • a standard parameter table for each class is stored.
  • the standard parametric meter table standard parameter storage unit 2 8! To 2 8 M is stored is summer as determined Ri by the learning in the learning device (Fig. 7) described later.
  • the adaptive determination unit 2 7 receives the class from the classification unit 5 2, from the standard parameter memory section 2 8 i to 2 8 M, shall be associated with the class is selected (standard parameter storage unit 2 What is selected from 8 to 28 M is hereinafter appropriately referred to as a standard parameter storage unit 28 ms ).
  • the feature parameters output by the preprocessing units 20 to 23 are supplied to the class classification unit 25 via the class classification data configuration unit 24, and are classified into classes.
  • the class is supplied to the adaptation determination unit 27.
  • the feature parameters output from the preprocessing units 20 to 23 are also supplied to the integrated parameter configuration unit 26, where they are used as integrated parameters.
  • the integrated parameter configuration unit 26 uses the same parameter space as the standard parameters registered in the standard parameter table stored in the standard parameter storage unit 28 ms selected by the adaptation determination unit 27.
  • the parameters are configured as integration parameters.
  • the integrated parameters obtained by the integrated parameter configuration unit 26 are supplied to the adaptive determination unit 27.
  • a class corresponding to the class output by the class classification unit 25 is selected from the standard parameter table stored in the standard parameter storage unit 28ms.
  • the distance between each of the standard parameters registered in the table and the integrated parameter from the integrated parameter configuration unit 26 is calculated. And the target to minimize the distance
  • the phonemes corresponding to the quasi-parameters are output as speech recognition results.
  • the pre-processing corresponding to the class output by the class classification unit 52 is performed to obtain the optimal feature parameter in each case, and therefore, based on the distance in the optimal parameter space in each case. It is possible to obtain a speech recognition result with higher accuracy.
  • FIG. 7 is a configuration example of a learning device that performs a learning process for obtaining standard parameters to be stored in the standard parameter table for each class and stored in the standard parameter storage units 28 to 28 M in FIG. Is shown.
  • this learning apparatus is provided with memories 47 to 47 M instead of the memory 47, and further includes a class classification data forming unit 61, a class classification unit 62, and a selector 63.
  • the configuration is basically the same as that of the learning device in FIG.
  • the same processing as in the case of the class classification data forming unit 51 or the class classifying unit 52 in FIG. 6 is performed, and the result is obtained.
  • the class is supplied to the preprocessors 40 to 43 and the selector 63.
  • the pre-processing units 40 to 43 perform pre-processing corresponding to the classes output from the classifying unit 62, as in the pre-processing units 20 to 23 in FIG. In this case, an optimal feature parameter is output.
  • the classifying data forming unit 44, the class classifying unit 45, or the integrated parameter forming unit 46 the class classifying data forming unit 24, the class classifying unit 25, or the integrated parameter forming unit in FIG. 26
  • the same processing as in step 6 is performed, and as a result,
  • the class is output from the class part 45, and the integrated parameters are output from the integrated parameter configuration part 46, respectively.
  • the selection signal is output to any one of the chip select (CS) terminals of the memories 47! To 47M according to the class output by the class classification unit 62. That is, thereby, of the memory 4 7 Optimum 4 7 M, which classification unit 6 2 corresponding to the class output is selected.
  • the class output from the classifying unit 45 is supplied to the address (AD) terminal of each of the memories 47 to 47 M, whereby the integrated parameter output from the integrated parameter forming unit 46 is Of the memories 47 to 47M, those corresponding to the classes output by the classifying unit 62 are stored in addresses corresponding to the classes output by the classifying unit 45.
  • the standard parameter storage unit 28 to 28 in FIG. 6 stores the center of gravity of the integrated parameters scattered in a certain range as the standard parameter as described in FIG. It is possible to do so.
  • FIG. 8 shows a configuration example of a third embodiment of the speech recognition device incorporated in the input device 4 of FIG.
  • parts corresponding to the case in FIG. 6 are denoted by the same reference numerals. The description is omitted as appropriate. That is, in this speech recognition device, pre-processing units 71 to 74 are newly provided, and the outputs of the pre-processing units 71 to 74 are replaced with the integrated parameter configuration unit 2 instead of the pre-processing units 20 to 23. 6 is configured in the same manner as the speech recognition device of FIG.
  • the same inputs as the inputs to the pre-processing units 20 to 23 are provided to the pre-processing units 71 to 74. Further, the classes output from the classifying section 52 are also supplied to the preprocessing sections 71 to 74.
  • the pre-processing units 71 to 74 perform pre-processing corresponding to the classes output from the classifying unit 52, whereby the optimal feature parameters in this case are output to the integrated parameter configuration unit 26.
  • the pre-processing units 71 to 74 and the pre-processing units 20 to 23 respectively perform basically different pre-processing. That is, here, the class output from the classifying unit 25 is finally obtained from the output of the preprocessing units 20 to 23, while the output of the preprocessing unit 71 is integrated.
  • the integrated parameters output by the parameter configuration unit 26 are obtained. Therefore, in the pre-processing units 20 to 23, the optimal feature parameters for class classification in the class classification unit 25 are obtained corresponding to the classes output by the force class classification unit 52.
  • the optimal feature parameters for forming the integrated parameters optimal for use in speech recognition are obtained in accordance with the class output from the classifying section 52.
  • FIG. 9 shows the standard parameter storage unit 28! 4 shows an example of the configuration of a learning device that performs a learning process for finding standard parameters to be registered in a standard parameter table for each class and stored in the standard parameter table stored in the standard parameter table.
  • portions corresponding to those in FIG. 7 are denoted by the same reference numerals, and the description thereof will be appropriately omitted below. That is, in this learning apparatus, pre-processing units 81 to 84 are newly provided, and the outputs of the pre-processing units 81 to 84 are replaced with the integrated parameter configuration unit 4 in place of the pre-processing units 40 to 43.
  • the configuration is basically the same as that of the learning device in FIG.
  • the feature parameters optimal for performing the class classification in the class classification unit 45 are the same as those in the pre-processing units 20 to 23 in FIG. 6 is obtained for the output class.
  • the preprocessors 81 to 84 are optimal for use in speech recognition, as in the preprocessors 71 to 74 in FIG.
  • An optimal feature parameter for constructing a suitable integrated parameter is obtained corresponding to the class output by the class classifying unit 62.
  • the integrated parameter force S obtained by learning by the learning device in FIG. 9 and the standard parameter storage units 28 to 28 in FIG. 8 are stored. In this case, too, the integrated parameter power S obtained by learning is used. Instead of storing all the parameters, it is possible to store the center of gravity of the integrated parameters scattered over a certain range as standard parameters, as described in FIG.
  • the speech recognition apparatus to which the present invention is applied has been described above.
  • the present invention can be applied to a recognition apparatus other than speech, for example, for images, characters, persons, and the like.
  • the recognition is performed using the output of the CCD camera 32, the microphone 33, and the sensor 34 in addition to the voice of the user to be recognized. Is limited to these It is not specified.
  • data for class classification is constructed from the outputs of the pre-processing units 20 to 23, and the class classification unit 25 classifies the data for class classification.
  • the class classification unit 25 can also configure the classification data directly from the output of the input unit 10 and classify the data directly, for example.
  • classes are supplied to the preprocessing units 20 to 23, 40 to 43, 71 to 73, and 81 to 83, and the classes are
  • the pre-processing units 20 to 23, 40 to 43, 71 to 73, and 81 to 83 are supplied with the functions corresponding to the classes. Then, by performing the operation according to this function, it is possible to perform the preprocessing corresponding to the class.
  • the matching unit 29 obtains a speech recognition result based on the distance between the integrated parameter and the standard parameter in a certain parameter space. 29, the distance between the series of the integrated parameter and the standard parameter obtained in time series and the probability of observing such a series are calculated, and based on this, the speech recognition result is calculated. It is possible to ask them to do so. Furthermore, the matching unit 29 can perform speech recognition using a different speech recognition algorithm for each class output by the classifying units 25 and 52.
  • the learning device described in FIGS. 4, 7, and 9 can be realized not only by hardware but also by software as a microprocessor application having a CPU, a memory, and the like.
  • INDUSTRIAL APPLICABILITY According to the recognition device described in claim 1 and the recognition method described in claim 5, a class classification that classifies a plurality of types of input data into a predetermined class according to their properties is provided. At the same time, an integrated parameter that integrates multiple types of input data is configured, and the recognition target is recognized based on the table in which standard parameters corresponding to the classes obtained as a result of the classification are registered, and the integrated parameters. You. Therefore, since an appropriate table is used for each case, it is possible to improve recognition performance.
  • a class classification for classifying a plurality of types of input data into a predetermined class according to the nature of the input data is performed.
  • An integrated parameter integrating the types of input data is configured, and the integrated parameters are classified into classes obtained as a result of class classification. Therefore, in each case, it is possible to obtain the optimal parameters for use in recognition.

Description

明細書 認識装置および認識方法、 並びに学習装置および学習方法 技術分野 本発明は、 認識装置および認識方法、 並びに学習装置および学習 方法に関する。 特に、 例えば、 音声や物体などを、 その音声データ や画像データだけでなく、 他のデータをも用いて認識することによ り、 その認識精度を向上させることができるようにする認識装置お よび認識方法、 並びに学習装置および学習方法に関する。 背景技術 従来の、 例えば、 音声を認識する音声認識装置では、 マイクロフ オン (マイク) から出力される音声データを (音響) 分析し、 その 分析結果を用いて、 ユーザが発した音声を認識するようになってい る。
しかしながら、 従来の音声認識装置では、 マイクからの音声デー タの分析結果だけを用いて音声認識を行っているため、 その認識性 能は、 ある程度の限界があった。
即ち、 話者の発話の認識にあたっては、 マイクからの音声データ だけでなく、 その相手の表情や口の動きなども重要な要素であると 考えられ、 従って、 そのような種々の要素を考慮すべきである。 また、 音声認識装置は、 防音室などのように、 認識対象である音 声だけがマイクに入力されるような環境で使用されることはほとん どなく、 それ以外の様々な雑音が存在する環境下で使用されること が多い。 即ち、 最近では、 音声認識装置を備えた、 例えばナビグー シヨ ンシステムが実用化されつつあるが、 この場合、 音声認識装置 には、 認識すべき話者の音声の他、 自動車に装備された C D (Comp act Di sc) プレーヤが出力する音や、 エンジン音、 エアコンデイシ ョナの音、 その他の雑音が入力される。 そして、 このような雑音が 混ざった音声データから雑音だけを取り除くのは困難であるため、 認識性能を向上させるには、 認識対象の音声以外の音である雑音も 加味する必要がある。
さらに、 従来の音声認識装置では、 マイクから出力される音声デ ータに対して、 所定の分析処理を施して、 その特徴パラメータを求 め、 その特徴パラメータのパラメータ空間における距離などに基づ いて、 音声を認識されるようになっている。 しかしながら、 認識に あたって重要な特徴パラメータは、 音声認識装置が使用される環境 によって変化すると考えられる。 発明の開示 本発明は、 このような状況に鑑みてなされたものであり、 本発明 の目的は、 音声その他の認識を行う認識装置の認識性能を向上させ ることができるようにするものである。
請求項 1に記載の認識装置は、 複数種類の入力データを、 その性 質に応じて、 所定のクラスに分類するクラス分類を行う第 1のクラ ス分類手段と、 複数種類の入力データを統合した統合パラメータを 構成する統合パラメータ構成手段と、 第 1のクラス分類手段が出力 するクラスごとに、 所定の標準のパラメータが登録されているテー ブルを記憶している標準パラメータ記憶手段と、 第 1のクラス分類 手段が出力するクラスに対応するテーブルに登録された標準のパラ メータと、 統合パラメータとに基づいて、 認識対象を認識する認識 手段とを備えることを特徴とする。
請求項 5に記載の認識方法は、 複数種類の入力データを、 その性 質に応じて、 所定のクラスに分類するクラス分類を行うとともに、 複数種類の入力データを統合した統合パラメータを構成し、 クラス 分類の結果得られるクラスに対応する標準のパラメータが登録され たテーブルと、 統合パラメータとに基づいて、 認識対象を認識する ことを特徴とする。
請求項 6に記載の学習装置は、 複数種類の入力データを、 その性 質に応じて、 所定のクラスに分類するクラス分類を行う第 1のクラ ス分類手段と、 複数種類の入力データを統合した統合パラメータを 構成する統合パラメータ構成手段と、 統合パラメータを、 第 1のク ラス分類手段が出力するクラスごとに分類する分類手段とを備える ことを特徴とする。
請求項 9に記載の学習方法は、 複数種類の入力データを、 その性 質に応じて、 所定のクラスに分類するクラス分類を行うとともに、 複数種類の入力データを統合した統合パラメータを構成し、 統合パ ラメータを、 クラス分類の結果得られるクラスごとに分類すること を特徴とする。
請求項 1に記載の認識装置においては、 第 1のクラス分類手段は. 複数種類の入力データを、 その性質に応じて、 所定のクラスに分類 するクラス分類を行い、 統合パラメータ構成手段は、 複数種類の入 力データを統合した統合パラメータを構成するようになつている。 標準パラメータ記憶手段は、 第 1のクラス分類手段が出力するクラ スごとに、 所定の標準のパラメータが登録されているテーブルを記 憶しており、 認識手段は、 第 1のクラス分類手段が出力するクラス に対応するテーブルに登録された標準のパラメータと、 統合パラメ ータとに基づいて、 認識対象を認識するようになっている。
請求項 5に記載の認識方法においては、 複数種類の入力データを、 その性質に応じて、 所定のクラスに分類するクラス分類を行う とと もに、 複数種類の入力データを統合した統合パラメータを構成し、 クラス分類の結果得られるクラスに対応する標準のパラメータが登 録されたテーブルと、 統合パラメータとに基づいて、 認識対象を認 識するようになつている。
請求項 6に記載の学習装置においては、 第 1のクラス分類手段は、 複数種類の入力データを、 その性質に応じて、 所定のクラスに分類 するクラス分類を行い、 統合パラメータ構成手段は、 複数種類の入 力データを統合した統合パラメータを構成するようになつている。 分類手段は、 統合パラメータを、 第 1のクラス分類手段が出力する クラスごとに分類するようになつている。
請求項 9に記載の学習方法においては、 複数種類の入力データを, その性質に応じて、 所定のクラスに分類するクラス分類を行う とと もに、 複数種類の入力データを統合した統合パラメータを構成し、 統合パラメータを、 クラス分類の結果得られるクラスごとに分類す るようになっている。 図面の簡単な説明
図 1は、 本発明を適用したナビゲーションシステムの構成例を示 すブロック図である。
図 2は、 本発明を適用した音声認識装置の第 1の実施の形態の構 成例を示すブロック図である。
図 3は、 前処理部 2 1の処理を説明するための図である。
図 4は、 本発明を適用した学習装置の第 1の実施の形態の構成例 を示すプロック図である。
図 5は、 パラメータ空間を示す図である。
図 6は、 本発明を適用した音声認識装置の第 2の実施の形態の構 成例を示すブロック図である。
図 7は、 本発明を適用した学習装置の第 2の実施の形態の構成例 を示すブロック図である。
図 8は、 本発明を適用した音声認識装置の第 3の実施の形態の構 成例を示すプロック図である。
図 9は、 本発明を適用した学習装置の第 3の実施の形態の構成例 を示すブロック図である。
発明を実施するための最良の形態 図 1は、 本発明を適用したナビゲーションシステムの一実施の形 態の構成例を示している。
このナビゲーシヨ ンシステムは、 自動車などに装備され、 システ ム制御部 1、 位置測定装置 2、 データベース装置 3、 入力装置 4、 および出力装置 5を備え、 例えばボタンなどの操作による他、 対話 的に発せられる入力音声に対応して、 装置の制御が行われるように なっている。 なお、 このナビゲーシヨ ンシステムは、 例えば携帯し て用いることもできる。
システム制御部 1は、 システムを構成する各プロックとの間で情 報の送受を行い、 システム全体の動作を制御するようになっている。 位置測定装置 2は、 G P S (Global Po s i t ioning System) 衛星から の電波を受信したり、 例えばジャィ口スコープや車速センサなどの 測定装置を用いて現在地を測定するようになっている。 データべ一 ス装置 3には、 例えば複数のスケールの、 電子化された地図情報、 その他のナビゲーシヨンに必要な情報が記録 (記憶) されており、 そこからは、 システム制御部 1からの指令に基づいて必要な情報が 検索され、 システム制御部 1に供給されるようになっている。
入力装置 4には、 ナビゲーションシステムに所定の処理を行わせ るためのボタンやジョイスティック、 音声を入力するためのマイク、 ユーザを撮像するための C C D (Charge Coup l ed Devi ce) カメラ、 さらには、 自動車の振動を測定するための加速度センサや、 湿度や 温度を測定するためのセンサ、 その他の各種のセンサなどが装備さ れている。 入力装置 4からは、 ボタンやジョイスティックなどの操 作に対応した信号がシステム制御部 1に送信されるようになってい る。 さらに、 入力装置 4は、 音声認識装置を有しており、 入力され た音声を音声認識し、 その音声認識結果を、 システム制御部 1に送 信するようにもなつている。
出力装置 5は、 画像その他を表示するための、 例えば液晶モニタ や C R T ( Cathod Ray Tube) 、 音声その他を出力するためのスピー 力、 テキスト情報から合成音を生成する音声合成装置などを有して おり、 システム制御部 1から送られてくる情報のうちの、 例えば地 図情報や現在位置情報などを表示したり、 また音声情報を出力した りするようになつている。 さらに、 出力装置 5は、 システム制御部 1からテキスト情報が送信されてきた場合には、 そのテキスト情報 に対応する音声を音声合成装置に合成させて出力するようにもなつ ている。
以上のように構成されるナビゲーションシステムには、 例えば、 ユーザが目的地としての地名を発話すると、 その音声は、 入力装置 4が内蔵する音声認識装置で音声認識され、 その音声認識結果が、 システム制御部 1に供給される。 システム制御部 1は、 目的地とし ての地名の音声認識結果を受信すると、 位置測定装置 2の出力から 現在地を認識し、 さらに、 データベース装置 3に記憶された地図情 報を参照することで、 現在地から目的地までのルートを求める。 そ して、 システム制御部 1は、 そのルートを表した地図情報を、 出力 装置 5に供給して表示させるとともに、 そのルートを案内する合成 音を出力装置 5が内蔵する音声合成装置に生成させて出力させる。 従って、 この場合、 ユーザは、 容易に目的地にたどりつく ことが できる。
次に、 図 2は、 図 1の入力装置 4が内蔵する音声認識装置の第 1 の実施の形態の構成例を示している。
入力部 1 0は、 マイク 1 1、 C C Dカメラ 1 2、 マイク 1 3、 セ ンサ 1 4、 アンプ 1 5、 A Z D変換器 1 6、 アンプ 1 7、 A / D変 換器 1 8、 および 1 9から構成され、 それらからは、 運転者である ユーザの音声を認識するために用いられる各種の入力データが出力 される。
具体的には、 マイク 1 1は、 例えば指向性を有するものであり、 運転者であるユーザの方向に向けて設置されている。 従って、 マイ ク 1 1には、 主としてユーザの音声が入力される。 マイク 1 1に入 力された音声は、 音声信号に変換され、 アンプ 1 5を介することに より増幅されて、 A D変換器 1 8に供給される。 AZD変換器 1 8では、 アンプ 1 5を介して供給されるアナログの音声信号が、 所 定のサンプリングクロックにしたがってサンプリングされ、 さらに、 所定の量子化ステップで量子化されることにより、 ディジタル信号 である音声データに変換される。 AZD変換器 1 8が出力する音声 データは、 前処理部 20に供給される。
C CDカメラ 1 2は、 ュ一ザの口の部分を撮影するように設置さ れており、 この CCDカメラ 1 2で撮像されたユーザの口の部分は、 画像信号とされ、 A/D変換器 1 6に供給される。 AZD変換器 1 6は、 AZD変換器 1 8における場合と同様に、 アナログの画像信 号を、 画像データに変換して、 前処理部 2 1に供給する。
マイク 1 3は、 例えば、 無指向性のもので、 主としてユーザの音 声以外の音が入力される。 即ち、 例えば、 エンジン音や、 自動車に 装備されたラジオ受信機や CDプレーヤなどから出力される音、 ェ アコンデイショナの音、 さらに、 窓が開いている場合には、 外部の 雑音などが入力される。 マイク 1 3に入力された音は、 アンプ 1 7 または AZD変換器 1 9において、 上述のアンプ 1 5または A/D 変換器 1 8における場合とそれぞれ同様に処理され、 これにより音 声データとされて、 前処理部 22に供給される。
センサ 1 4は、 自動車の振動を測定するための加速度センサや、 湿度や温度を測定するためのセンサなどで、 その出力は、 前処理部 2 3に供給される。 なお、 加速度センサの出力からは、 例えば、 自 動車が振動することにより生じる騒音の程度 (大きさ) がわかる。 また、 湿度や温度を測定するためのセンサの出力からは、 例えば、 雨が降っているかどうかがわかり、 さらに、 雨が降っていれば、 そ の雨の音の程度がわかる。
前処理部 2 0乃至 2 3では、 それぞれに供給されるデータが分析 され、 その特徴を表す特徴パラメータが求められる。
即ち、 前処理部 2 0および 2 2では、 音声データから、 例えば、 そのゼロクロス数や、 所定の周波数帯域ごとのパワー、 線形予測係 数、 ケプス トラム係数などが、 所定の時間としての音声フレーム単 位で求められ、 特徴パラメータとして、 クラス分類用データ構成部 2 4および統合パラメータ構成部 2 6に出力される。
前処理部 2 1では、 ユーザの口の部分の画像データから、 例えば、 図 3に示すように、 ユーザの口の横の長さ 1^および縦の長さ L 2が求 められ、 その比 L i/ L 2が、 特徴パラメータとして、 クラス分類用デ ータ構成部 2 4および統合パラメータ構成部 2 6に出力される。 あ るいは、 また、 前処理部 2 1では、 ユーザの口の部分の画像データ から動きベク トルや、 エッジ、 D C T (離散コサイン変換) 係数な どが求められ、 特徴パラメータとして、 クラス分類用データ構成部 2 4および統合パラメータ構成部 2 6に出力される。
前処理部 2 3では、 センサ 1 4の出力が分析されることにより、 上述したように、 例えば、 自動車が振動することにより生じる騒音 の程度 (大きさ) を反映する特徴パラメータや、 雨の音の程度を反 映する特徴パラメータなどが求められ、 やはり、 クラス分類用デー タ構成部 2 4および統合パラメータ構成部 2 6に出力される。
クラス分類用データ構成部 2 4は、 前処理部 2 0乃至 2 4が出力 する特徴パラメータの少なく とも一部を、 クラス分類に用いるクラ ス分類用データとして、 クラス分類部 2 5に出力する。 クラス分類 部 2 5では、 クラス分類用データ構成部 2 4からのクラス分類用デ —タを、 その性質に応じて、 所定のクラスに分類するクラス分類を 行う。
即ち、 クラス分類部 2 5は、 クラス分類用データを構成する特徴 パラメータの値のパターンにあらかじめ割り当てられた値を、 その クラス分類用データのクラスとして、 適応判定部 2 7に供給する。 ここで、 特徴パラメータを表すのに、 例えば、 Aビッ トが割り当 てられている場合に、 そのような特徴パラメ一タを B個集めてクラ ス分類用データを構成すると、 そのようなクラス分類用データを構 成する特徴パラメータの値のパターン数は、 (2 A) B通り となる。 従 つて、 Aまたは Bが大きいと、 クラス数が莫大な数となり、 その後 の処理の迅速化が困難となる。
そこで、 クラス分類を行う前の前処理として、 クラス分類用デー タには、 それを構成する特徴パラメータのビッ ト数を低減するため の処理である、 例えば A D R C (Adaptive Dynami c Range Coding) 処理などが施される。
即ち、 A D R C処理では、 まず、 クラス分類用データを構成する B個の特徴パラメータから、 その値の最大のもの (以下、 適宜、 最 大特徴パラメータという) と最小のもの (以下、 適宜、 最小特徴パ ラメータという) とが検出される。 そして、 最大特徴パラメータの 値 M A Xと最小特徴パラメータの値 M I Nとの差分 D R (二 M A X - M I N ) が演算され、 この D Rをクラス分類用データの局所的な ダイナミックレンジとし、 このダイナミ ックレンジ D Rに基づいて、 クラス分類用データを構成する各特徴パラメータが、 元の割当ビッ ト数 Aより少ない Cビッ トに再量子化される。 つまり、 クラス分類 用データを構成する各特徴パラメータから最小特徴パラメータの値 M I Nが減算され、 各減算値が、 D R / 2 Cで除算される。
その結果、 クラス分類用データを構成する各特徴パラメータは C ビッ トで表現されるようになる。 従って、 例えば C = l とした場合、 B個の特徴パラメータのパターン数は、 ( 2 1) B通りになり、 A D R C処理を行わない場合に比較して、 パターン数を非常に少ないもの とすることができる。
また、 クラス分類用データを構成する特徴パラメータのパターン 数を少なくする観点からは、 クラス分類用データを構成する特徴パ ラメータの数 Bは、 あまり大きな値にしない方が望ましい。 但し、 特徴パラメータの数 Bは、 少なすぎても、 適切なクラス分類が行わ れないおそれがある。 従って、 特徴パラメ一タの数 Bは、 これらを バランスさせて決めるのが望ましい。
一方、 統合パラメータ構成部 2 6は、 前処理部 2 0乃至 2 4が出 力する特徴パラメータの少なく とも一部を統合して (集めて) 統合 パラメータとして、 適応判定部 2 7に出力する。
ここで、 統合パラメータは、 クラス分類用データを構成する特徴 パラメータと同一のものを統合して構成しても良いし、 また、 クラ ス分類用データを構成する特徴パラメータとは異なるものを統合し て構成しても良い。
適応判定部 2 7は、 標準パラメータ記憶部 2 8およびマッチング 部 2 9から構成されており、 クラス分類部 2 5または統合パラメ一 タ構成部 2 6からクラスまたは統合パラメータをそれぞれ受信する と、 まずクラス分類部 2 5から受信したクラスに対応する標準パラ メータが登録された標準パラメータテーブルを、 標準パラメータ記 憶部 2 8から選択する。
即ち、 標準パラメータ記憶部 2 8は、 後述する学習装置 (図 4 ) による学習処理によって得られる、 例えば音素に対応する標準パラ メータが登録されている標準パラメータテーブルを、 クラスごと分 けて記憶しており、 マッチング部 2 9では、 そのクラスごとの標準 パラメータテーブルの中から、 クラス分類部 2 5が出力したクラス に対応するものが選択される。
さらに、 マッチング部 2 9は、 選択された標準パラメータテープ ルに登録されている標準パラメ一タそれぞれと、 統合パラメータ構 成部 2 6からの統合パラメータとの、 例えば、 ユーク リ ッ ド距離を 算出し、 そのユーク リ ツ ド距離を最も小さくする標準パラメータに 対応する音素を、 音声認識結果として出力する。
従って、 この音声認識装置によれば、 主としてユーザの音声が入 力されるマイク 1 1から出力される音声データだけでなく、 C C D カメラ 1 2が出力する画像データから得られる、 例えばユーザの口 の状態や動き、 マイク 1 3が出力する音声データやセンサ 1 4の出 力から得られる、 例えば雑音の種類や周波数帯域成分などをも用い て、 ユーザの音声が認識されるので、 その認識率を向上させること ができる。
また、 クラスごとに、 標準パラメ一タテーブルを用意し、 入力部 1 0が出力する複数種類のデータのクラスに対応する標準パターン テーブルを選択するようにしたので、 入力部 1 0が出力する複数種 類のデータに基づいて、 ユーザの音声を認識するのに最適な標準パ ターンテーブルを用いることができ、 その結果、 認識率をさらに向 上させることが可能となる。
次に、 図 4は、 図 2の標準パラメータ記憶部 2 8に記憶させる、 クラスごとの標準パラメータテーブルに登録する標準パラメータを 求める学習処理を行う学習装置の構成例を示している。
入力部 3 0 (マイク 3 1、 C CDカメラ 3 2、 マイク 3 3、 セン サ 3 4、 アンプ 3 5、 0変換器3 6、 アンプ 3 7、 A D変換 器 3 8、 および 3 9 ) 、 前処理部 4 0乃至 4 3 Aクラス分類用データ 構成部 4 4、 クラス分類部 4 5、 または統合パラメータ構成部 4 6 は、 図 2の音声認識装置における入力部 1 0 (マイク 1 1、 CCD カメラ 1 2、 マイク 1 3、 センサ 1 4、 アンプ 1 5、 A/D変換器 1 6、 アンプ 1 7、 AZD変換器 1 8、 および 1 9) 、 前処理部 2 0乃至 2 3、 クラス分類用データ構成部 24、 クラス分類部 2 5、 または統合パラメータ構成部 2 6とそれぞれ同様に構成されている。 メモリ 4 7は、 そのア ドレス端子 (AD) に、 クラス分類部 4 5が 出力するクラスがア ドレスとして与えられるようになつており、 統 合パラメータ構成部 4 6が出力する統合パラメータを記憶するよう になっている。
以上のように構成される学習装置では、 入力部 3 0に学習を行う ための学習データが入力される。 即ち、 マイク 3 1には、 例えば、 ある話者が発話した音声が入力される。 また、 そのときの話者の口 の部分が、 C CDカメラ 3 2で撮像される。 さらに、 マイク 3 3に は、 例えば、 各種の自動車のエンジン音や、 CDプレーヤで再生さ れた曲、 雨の音、 エアコンディショナの音、 その他の雑音が入力さ れる。 センサ 3 4に対しては、 各種の振動や、 また、 マイク 3 3に 雨フ音が入力されるときには、 その雨が降っている状態における温 度、 湿度などが与えられる。
入力部 3 0に入力された学習データと しての各種のデータは、 前 処理部 4 0乃至 4 3、 クラス分類用データ構成部 4 4、 クラス分類 部 4 5、 または統合パラメータ構成部 4 6において、 図 2の前処理 部 2 0乃至 2 3、 クラス分類用データ構成部 2 4、 クラス分類部 2 5、 または統合パラメ一タ構成部 2 6における場合とそれぞれ同様 に処理され、 これにより、 メモリ 4 7には、 クラス分類部 4 5から クラスが供給されるとともに、 統合パラメータ構成部 4 6から統合 パラメータが供給される。
メモリ 4 7は、 クラス分類部 4 5からのクラスに対応するァドレ スに、 統合パラメータ構成部 4 6からの統合パラメータを、 標準パ ラメータとして記憶する。
以上の処理が、 多くの話者が発話した各音素について、 マイク 3 3に入力する雑音、 およびセンサ 3 4への入力を様々なものに変え て行われる。
その結果、 メモリ 4 7には、 同一のクラスに属する統合パラメ一 タが、 各アドレスに分類されて記憶される。
図 2の標準パラメータ記憶部 2 8には、 メモリ 4 7の各ァ ドレス に記憶された統合パラメータ (の集合) 力 標準パラメータとして、 各クラスに対応する標準パラメータテーブルに登録されたものが記 憶されている。
この学習装置によれば、 例えば、 マイク 3 3に雑音を入力しなか つた場合と、 入力した場合とでは、 クラス分類部 4 5において異な るクラスに分類され、 その結果、 雑音がある場合に最適な標準パラ メータテーブルと、 雑音がない場合に最適な標準パラメータテープ ルとが作成されることになる。 そして、 図 2の音声認識装置では、 クラス分類部 4 5の出力と同一のクラスがクラス分類部 2 5から出 力されるから、 雑音がある場合には、 その場合に最適な標準パラメ —タテ一ブルが、 また、 雑音がない場合にも、 その場合に最適な標 準パラメータテーブルが選択されることになる。
なお、 学習装置においては、 標準パラメータは、 上述のように、 雑音がある場合とない場合とで異なるクラスに分類され、 また、 雑 音の種類やレベル、 さらには、 話者が発話した音素の種類や、 話者 が男性であるか、 あるいは女性であるかなどによっても異なるクラ スに分類されることが予想されるが、 標準パラメータが、 どのよう に分類されるかは、 特に問題とならない。 これは、 例えば、 音声認 識装置の入力部 1 0への入力が、 学習装置の入力部 3 0 と同一であ れば、 音声認識装置のクラス分類部 2 5におけるクラス分類結果は、 学習装置のクラス分類部 4 5におけるクラス分類結果と同一になり、 従って、 音声認識装置では、 入力部 1 0への入力と同一の入力から 得られた標準パラメータ、 即ち、 その入力に対して最適な標準パラ メータを用いて音声認識が行われるからである。
また、 図 4の学習装置において、 メモリ 4 7には、 各クラスごと に、 ある音素についての統合パラメータが複数記憶される場合があ る。 即ち、 学習においては、 1 の話者に、 様々な雑音環境下で、 同 一の音素を発話してもらい、 さらに、 このような発話を、 多数の話 者に行ってもらうため、 あるクラスのある音素について、 パラメ一 タ空間のある程度の範囲に散らばる複数の統合パラメータが得られ る場合がある。
具体的には、 例えば、 図 5 ( A ) は、 簡単のために、 統合パラメ ータが 3つの成分 P ,, P 2, P 3を有するものと して、 3次元のパラメ ータ空間を表しているが、 このようなパラメータ空間に、 あるクラ スに対して得られた音素 「ァ」 や 「ィ」 についての統合パラメータ をプロッ トすると、 その点は、 ある程度の範囲に散らばる。
そこで、 このような、 ある程度の範囲に散らばるすべての点を、 その音素についての標準パラメータとしても良いが、 その他、 例え ば、 図 5 ( B ) に示すように、 その範囲の重心などを求め、 これを、 その音素の標準パラメータとすることなども可能である。
次に、 図 6は、 図 1の入力装置 4が内蔵する音声認識装置の第 2 の実施の形態の構成例を示している。 なお、 図中、 図 2における場 合と対応する部分については、 同一の符号を付してあり、 以下では、 その説明は、 適宜省略する。 即ち、 この音声認識装置は、 標準パラ メータ記憶部 2 8に代えて、 標準パラメータ記憶部 2 8 ,乃至 2 8 «が 設けられ、 さらに、 クラス分類用データ構成部 5 1およびクラス分 類部 5 2が新たに設けられている他は、 図 2の音声認識装置と基本 的に同様に構成されている。
クラス分類用データ構成部 5 1は、 入力部 1 0が出力する複数種 類のデータから、 クラス分類用データを構成し、 クラス分類部 5 2 に出力する。 クラス分類部 5 2は、 クラス分類用データ構成部 5 1 が出力するクラス分類用データをクラス分類し、 そのクラス分類結 果としてのクラスを、 前処理部 2 0乃至 2 3に供給する。
この場合、 前処理部 2 0乃至 2 3では、 クラス分類部 5 2が出力 するクラスに対応した前処理が行われる。 即ち、 例えば、 マイク 1 1に入力された音声が母音などの有声音である場合は、 ゼロクロス 数などよりも、 線形予測係数ゃケプス トラム係数などの方が、 また、 マイク 1 1に入力された音声が無声音である場合は、 線形予測係数 やケプス トラム係数などよりも、 ゼロクロス数や周波数帯域ごとの パワー、 無音の期間などの方が、 音声の特徴をとらえ易い。 さらに、 マイク 1 3に入力される雑音のレベルが小さい場合は、 その雑音に よる影響は考慮する必要がないが、 そのレベルが大きい場合には、 雑音による影響を考慮して音声認識を行うのが望ましい。 また、 ュ 一ザの口の動きがほとんどない場合は、 その動きべク トルは考慮す る必要がなく、 逆に、 動きがある場合には、 その動きべク トルを考 盧して音声認識を行うのが望ましい。 さらに、 自動車の振動がほと んどない場合や、 雨が降っていない場合などには、 センサ 1 4の出 力を考慮する必要はないが、 その逆の場合は、 センサ 1 4の出力を 考慮して音声認識を行うのが望ましい。
つまり、 認識の対象である音声は勿論、 その他の要因に関しても、 音声を認識するにあたって最適な特徴パラメータ (より正答率の高 い認識結果を得るための特徴パラメータ) は、 場合によって変化す ると考えられる。
そこで、 図 6の音声認識装置では、 入力部 1 0が出力するデータ からクラス分類用データを構成し、 それをクラス分類することで、 幾つかの場合に分け、 各場合について最適な特徴パラメータが、 前 処理部 2 0乃至 2 3で求められる。
従って、 図 6の実施の形態では、 適応判定部 2 7 (マッチング部 2 9 ) において距離計算する際のパラメータ空間が、 クラス分類部 5 2のクラス分類結果によって変化することになる。 即ち、 適応判 定部 2 7では、 クラス分類部 5 2が出力するクラスに対応するパラ メータ空間における距離が計算され、 その距離に基づいて、 音声認 識結果が出力される。
なお、 ここでは、 クラス分類部 5 2において、 クラス分類用度デ ータ構成部 5 1が出力するクラス分類用データが、 M個のクラスの うちのいずれかにクラス分類されるものとする。
また、 前処理部 2 0乃至 2 3には、 クラス分類部 5 2が出力する クラスに対応した種類の特徴パラメータを出力させる他、 同一の特 徴パラメータであっても、 その次数を変化させたり (例えば、 8次 や 1 2次その他の線形予測係数を出力させたり) 、 また、 特徴パラ メータを出力させないようにする (例えば、 自動車が静かな場所で 停止している場合には、 マイク 1 3およびセンサ 1 4の出力は考慮 する必要がないと考えられるので、 前処理部 2 2および 2 3には特 に処理を行わせないようにする) ことなども可能である。
クラス分類部 5 2が出力するクラスは、 前処理部2 0乃至 2 3の 他、 適応判定部 2 7にも供給される。 適応判定部 2 7は、 上述した ように、 M個の標準パラメータ記憶部 2 8 ,乃至 2 8 Mを有しており、 この標準パラメータ記憶部 2 8 i乃至 2 8 Mそれぞれには、 クラス分類 部 5 2が出力する M個のクラスそれぞれに対応するパラメータ空間 における標準パラメータが記憶されている。
さらに、 標準パラメータ記憶部 2 8„ (但し、 m = 1, 2, · · ·, M) には、 図 2の標準パラメータ記憶部 2 8における場合と同様に、 クラス分類部 2 5が出力するクラスごとの標準パラメータテーブル が記憶されている。 なお、 標準パラメータ記憶部 2 8 !乃至 2 8 Mが記憶している標準パ ラメータテーブルは、 後述する学習装置 (図 7 ) において学習によ り求められるようになつている。
適応判定部 2 7では、 クラス分類部 5 2からクラスを受信すると、 標準パラメータ記憶部 2 8 i乃至 2 8 Mの中から、 そのクラスに対応す るものが選択される (標準パラメータ記憶部 2 8 乃至 2 8 Mの中から 選択されたものを、 以下、 適宜、 標準パラメータ記憶部 2 8 msと記載 する) 。
一方、 前処理部 2 0乃至 2 3が出力する特徴パラメータは、 クラ ス分類用データ構成部 2 4を介してクラス分類部 2 5に供給される ことでクラス分類され、 そのクラス分類結果としてのクラスが、 適 応判定部 2 7に供給される。 また、 前処理部 2 0乃至 2 3が出力す る特徴パラメータは、 統合パラメータ構成部 2 6にも供給され、 そ こで、 統合パラメータとされる。 なお、 統合パラメータ構成部 2 6 では、 適応判定部 2 7で選択された標準パラメータ記憶部 2 8 msが記 憶している標準パラメータテーブルに登録されている標準パラメ一 タと同一のパラメータ空間におけるパラメータが、 統合パラメータ として構成される。
統合パラメータ構成部 2 6で得られた統合パラメータは、 適応判 定部 2 7に供給される。 適応判定部 2 7では、 標準パラメータ記憶 部 2 8 msが記憶している標準パラメータテーブルから、 クラス分類部 2 5が出力したクラスに対応するものが選択され、 マッチング部 2 9において、 その標準パラメータテーブルに登録されている標準パ ラメータそれぞれと、 統合パラメ一タ構成部 2 6からの統合パラメ ータとの距離が算出される。 そして、 その距離を最も小さくする標 準パラメータに対応する音素が、 音声認識結果として出力される。 以上のように、 クラス分類部 5 2が出力するクラスに対応した前 処理を行い、 各場合において最適な特徴パラメ一タを得るようにし たので、 各場合に最適なパラメータ空間における距離に基づいて、 より精度の高い音声認識結果を得ることが可能となる。
次に、 図 7は、 図 6の標準パラメータ記憶部 2 8 ,乃至 2 8 Mに記憶 させる、 クラスごとの標準パラメータテ一ブルに登録する標準パラ メータを求める学習処理を行う学習装置の構成例を示している。 なお、 図中、 図 4における場合と対応する部分については、 同一 の符号を付してあり、 以下では、 その説明は、 適宜省略する。 即ち、 この学習装置は、 メモリ 4 7に代えて、 メモリ 4 7 !乃至 4 7 Mが設け られ、 さらに、 クラス分類用データ構成部 6 1、 クラス分類部 6 2、 およびセレクタ 6 3が新たに設けられている他は、 図 4の学習装置 と基本的に同様に構成されている。
クラス分類用データ構成部 6 1またはクラス分類部 6 2では、 図 6のクラス分類用データ構成部 5 1またはクラス分類部 5 2におけ る場合とそれぞれ同様の処理が行われ、 その結果得られるクラスが、 前処理部 4 0乃至 4 3およびセレクタ 6 3に供給される。 前処理部 4 0乃至 4 3では、 図 6の前処理部 2 0乃至 2 3における場合と同 様に、 クラス分類部 6 2が出力するクラスに対応した前処理が行わ れ、 これにより、 いまの場合に最適な特徴パラメータが出力される。 以下、 クラス分類用データ構成部 4 4、 クラス分類部 4 5、 また は統合パラメータ構成部 4 6において、 図 6のクラス分類用データ 構成部 2 4、 クラス分類部 2 5、 または統合パラメータ構成部 2 6 における場合とそれぞれ同様の処理が行われ、 その結果、 クラス分 類部 4 5からはクラスが、 統合パラメータ構成部 4 6からは統合パ ラメータが、 それぞれ出力される。
一方、 セレクタ 6 3では、 クラス分類部 6 2が出力するクラスに したがって、 メモリ 4 7 !乃至 4 7 Mのうちのいずれかのチップセレク ト (C S ) 端子に選択信号が出力される。 即ち、 これにより、 メモ リ 4 7 至 4 7 Mのうち、 クラス分類部 6 2が出力するクラスに対応 するものが選択される。
また、 クラス分類部 4 5が出力するクラスは、 メモリ 4 7 乃至 4 7 Mのア ドレス (A D ) 端子に供給されており、 これにより、 統合パ ラメータ構成部 4 6が出力する統合パラメータは、 メモリ 4 7 乃至 4 7 Mのうちの、 クラス分類部 6 2が出力するクラスに対応するもの の、 クラス分類部 4 5が出力するクラスに対応するァ ドレスに記憶 される。
図 6の標準パラメータ記憶部 2 8 乃至 2 8 Mそれぞれには、 以上の ようにしてメモリ 4 7 ,乃至 4 7 Mそれぞれの各ァ ドレスに記憶された 統合パラメータ (の集合) 力 標準パラメータとして、 各クラス
(クラス分類部 2 5が出力するクラス) に対応する標準パラメータ テーブルに登録されたものが記憶されている。
なお、 この場合においても、 図 6の標準パラメ一タ記憶部 2 8 乃 至 2 8„それぞれには、 図 5で説明したように、 ある範囲に散らばる 統合パラメータの重心などを標準パラメータとして記憶させるよう にすることが可能である。
次に、 図 8は、 図 1の入力装置 4が内蔵する音声認識装置の第 3 の実施の形態の構成例を示している。 なお、 図中、 図 6における場 合と対応する部分については、 同一の符号を付してあり、 以下では、 その説明は、 適宜省略する。 即ち、 この音声認識装置は、 前処理部 7 1乃至 7 4が新たに設けられ、 前処理部 2 0乃至 2 3に代えて、 前処理部 7 1乃至 7 4の出力が統合パラメータ構成部 2 6に供給さ れる他は、 図 6の音声認識装置と同様に構成されている。
前処理部 7 1乃至 7 4には、 前処理部 2 0乃至 2 3に対する入力 と同一の入力が与えられるようになつている。 さらに、 前処理部 7 1乃至 7 4には、 クラス分類部 5 2が出力するクラスも供給される ようになっている。
前処理部 7 1乃至 7 4では、 クラス分類部 5 2が出力するクラス に対応した前処理が行われ、 これにより、 いまの場合に最適な特徴 パラメータが、 統合パラメータ構成部 2 6に出力される。 但し、 こ こでは、 前処理部 7 1乃至 7 4それぞれと、 前処理部 2 0乃至 2 3 それぞれとでは、 基本的に異なる前処理が行われるようになってい る。 即ち、 ここでは、 前処理部 2 0乃至 2 3の出力からは、 クラス 分類部 2 5が出力するクラスが、 最終的に得られるのに対し、 前処 理部 7 1 の出力からは、 統合パラメータ構成部 2 6が出力する統合 パラメータが得られる。 そこで、 前処理部 2 0乃至 2 3では、 クラ ス分類部 2 5においてクラス分類を行うのに最適な特徴パラメータ 力 クラス分類部 5 2が出力するクラスに対応して求められ、 他方、 前処理部 7 1乃至 7 4では、 音声認識に用いるのに最適な統合パラ メータを構成するのに最適な特徴パラメータが、 クラス分類部 5 2 が出力するクラスに対応して求められる。
次に、 図 9は、 図 8の標準パラメータ記憶部 2 8!乃至 2 8 Mに記憶 させる、 クラスごとの標準パラメータテーブルに登録する標準パラ メータを求める学習処理を行う学習装置の構成例を示している。 なお、 図中、 図 7における場合と対応する部分については、 同一 の符号を付してあり、 以下では、 その説明は、 適宜省略する。 即ち、 この学習装置は、 前処理部 8 1乃至 8 4が新たに設けられ、 前処理 部 4 0乃至 4 3に代えて、 前処理部 8 1乃至 8 4の出力が統合パラ メータ構成部 4 6に供給される他は、 図 7の学習装置と基本的に同 様に構成されている。
前処理部 4 0乃至 4 3では、 図 8の前処理部 2 0乃至 2 3におけ る場合と同様に、 クラス分類部 4 5においてクラス分類を行うのに 最適な特徴パラメータが、 クラス分類部 6 2が出力するクラスに対 応して求められ、 また、 前処理部 8 1乃至 8 4では、 図 8の前処理 部 7 1乃至 7 4における場合と同様に、 音声認識に用いるのに最適 な統合パラメータを構成するのに最適な特徴パラメータが、 クラス 分類部 6 2が出力するクラスに対応して求められる。
なお、 図 9の学習装置による学習により得られる統合パラメータ 力 S、 図 8の標準パラメ一タ記憶部 2 8 ,乃至 2 8 «に記憶されるが、 こ の場合も、 学習により得られた統合パラメ一タをすべて記憶させる のではなく、 図 5で説明したように、 ある範囲に散らばる統合パラ メータの重心などを標準パラメータとして記憶させるようにするこ とが可能である。
以上、 本発明を適用した音声認識装置について説明したが、 本発 明は、 音声以外の、 例えば、 画像や文字、 人物その他を対象と した 認識装置にも適用可能である。
なお、 本実施の形態では、 認識対象であるユーザの音声の他に、 C C Dカメラ 3 2、 マイク 3 3、 およびセンサ 3 4の出力を用いて 認識を行うようにしたが、 この認識に用いるデータは、 これらに限 定されるものではない。
また、 図 2の実施の形態では、 前処理部 2 0乃至 2 3の出力から、 クラス分類用データを構成し、 クラス分類部 2 5に、 そのクラス分 類用データをクラス分類させるようにしたが、 クラス分類部 2 5に は、 その他、 例えば、 入力部 1 0の出力から直接クラス分類用デー タを構成し、 これをクラス分類させるようにすることなども可能で ある。
さらに、 図 6乃至図 9の実施の形態においては、 前処理部 2 0乃 至 2 3, 4 0乃至 4 3, 7 1乃至 7 3, 8 1乃至 8 3に、 クラスを 供給し、 そのクラスに対応した前処理を行わせるようにしたが、 前 処理部 2 0乃至 2 3, 4 0乃至 4 3, 7 1乃至 7 3, 8 1乃至 8 3 には、 クラスに対応した関数を供給するようにし、 この関数にした がった演算を行わせることで、 そのクラスに対応した前処理を行わ せるようにすることも可能である。
また、 本実施の形態では、 説明を簡単にするため、 マッチング部 2 9において、 あるパラメータ空間における、 統合パラメータと標 準パラメータとの距離に基づいて、 音声認識結果を得るようにした 力 マッチング部 2 9には、 その他、 時系列に得られる統合パラメ ータと標準パラメータとの系列の間の距離や、 そのような系列が観 測される確率を算出させ、 これに基づいて音声認識結果を求めさせ るようにすることも可能である。 さらに、 マッチング部 2 9には、 クラス分類部 2 5や 5 2が出力するクラスごとに、 異なる音声認識 アルゴリズムを用いて、 音声認識を行わせるようにすることも可能 である。
さらに、 図 2、 図 6、 および図 8で説明した音声認識装置、 並び に図 4、 図 7、 および図 9で説明した学習装置は、 ハードウェアで 実現することは勿論、 C P Uやメモリなどを有するマイクロプロセ ッサのアプリケーショ ンとしてソフ トウェアで実現することも可能 である。 産業上の利用可能性 請求項 1に記載の認識装置および請求項 5に記載の認識方法によ れば、 複数種類の入力データを、 その性質に応じて、 所定のクラス に分類するクラス分類が行われるとともに、 複数種類の入力データ を統合した統合パラメータが構成され、 クラス分類の結果得られる クラスに対応する標準のパラメータが登録されたテーブルと、 統合 パラメータとに基づいて、 認識対象が認識される。 従って、 各場合 ごとに適切なテーブルが用いられるので、 認識性能を向上させるこ とが可能となる。
請求項 6に記載の学習装置および請求項 9に記載の学習方法によ れば、 複数種類の入力データを、 その性質に応じて、 所定のクラス に分類するクラス分類が行されるとともに、 複数種類の入力データ を統合した統合パラメータが構成され、 その統合パラメータが、 ク ラス分類の結果得られるクラスごとに分類される。 従って、 各場合 ごとに、 認識に用いるのに最適なパラメータを得ることが可能とな る。

Claims

請求の範囲
1 . 所定の認識対象を、 複数種類の入力データから認識する認識 装置であって、
前記複数種類の入力データを、 その性質に応じて、 所定のクラス に分類するクラス分類を行う第 1 のクラス分類手段と、
前記複数種類の入力データを統合した統合パラメータを構成する 統合パラメータ構成手段と、
前記第 1 のクラス分類手段が出力するクラスごとに、 所定の標準 のパラメータが登録されているテーブルを記憶している標準パラメ ータ記憶手段と、
前記第 1のクラス分類手段が出力するクラスに対応するテーブル に登録された標準のパラメータと、 前記統合パラメータとに基づい て、 前記認識対象を認識する認識手段と
を備えることを特徴とする認識装置。
2 . 前記入力データを分析し、 その特徴パラメータを求める分析 手段をさらに備え、
前記第 1のクラス分類手段は、 前記特徴パラメータに基づいて、 前記クラス分類を行う
ことを特徴とする請求の範囲第 1項記載の認識装置。
3. 前記入力データを、 前記第 1のクラス分類手段が出力するクラ スに対応して分析し、 その特徴パラメータを求める分析手段と、 前記複数種類の入力データそれぞれの前記特徴パラメータを用い て前記クラス分類を行う第 2のクラス分類手段と
をさらに備え、 前記統合パラメータ構成手段は、 前記複数種類の入力データそれ ぞれの前記特徴パラメータを統合して、 前記統合パラメータを構成 し、
前記標準パラメータ記憶手段は、 前記第 1のクラス分類手段が出 力するクラスごとであって、 前記第 2のクラス分類手段が出力する クラスごとに、 所定の標準のパラメータが登録されているテーブル を記憶しており、
前記認識手段は、 前記第 1および第 2のクラス分類手段が出力す る両方のクラスに対応するテーブルに登録された標準のパラメータ と、 前記統合パラメータとに基づいて、 前記認識対象を認識する ことを特徴とする請求の範囲第 1項記載の認識装置。
4 . 前記認識対象は、 所定の話者が発した音声であり、
前記複数種類の入力データは、 少なく とも、 その音声データと、 話者の口を撮影して得られる画像データとを含む
ことを特徴とする請求の範囲第 1項記載の認識装置。
5 . 所定の認識対象を、 複数種類の入力データから認識する認識 方法であって、
前記複数種類の入力データを、 その性質に応じて、 所定のクラス に分類するクラス分類を行う とともに、 前記複数種類の入力データ を統合した統合パラメータを構成し、
前記クラス分類の結果得られるクラスに対応する標準のパラメ一 タが登録されたテーブルと、 前記統合パラメータとに基づいて、 前
§匚^¾識対象を S^ B或 —る
ことを特徴とする認識方法。
6 . 所定の認識対象を、 複数種類の入力データから認識するのに 用いる標準のパラメータを求める学習装置であって、
前記複数種類の入力データを、 その性質に応じて、 所定のクラス に分類するクラス分類を行う第 1 のクラス分類手段と、
前記複数種類の入力データを統合した統合パラメータを構成する 統合パラメータ構成手段と、
前記統合パラメータを、 前記第 1のクラス分類手段が出力するク ラスごとに分類する分類手段と
を備えることを特徴とする学習装置。
7 . 前記入力データを分析し、 その特徴パラメータを求める分析 手段をさらに備え、
前記第 1のクラス分類手段は、 前記特徴パラメータに基づいて、 前記クラス分類を行う
ことを特徴とする請求の範囲第 6項記載の学習装置。
8 . 前記入力データを、 前記第 1 のクラス分類手段が出力するク ラスに対応して分析し、 その特徴パラメ一タを求める分析手段と、 前記複数種類の入力データそれぞれの前記特徴パラメ一タを用い て前記クラス分類を行う第 2のクラス分類手段と
をさらに備え、
前記統合パラメータ構成手段は、 前記複数種類の入力データそれ ぞれの前記特徴パラメータを統合して、 前記統合パラメータを構成 し、
前記分類手段は、 前記統合パラメ一タを、 前記第 1 のクラス分類 手段が出力するクラスごとであって、 前記第 2のクラス分類手段が 出力するクラスごとに分類する
ことを特徴とする請求の範囲第 6項記載の学習装置。
9 . 所定の認識対象を、 複数種類の入力データから認識するのに 用いる標準のパラメータを求める学習方法であって、
前記複数種類の入力データを、 その性質に応じて、 所定のクラス に分類するクラス分類を行う とともに、 前記複数種類の入力データ を統合した統合パラメ一タを構成し、
前記統合パラメータを、 前記クラス分類の結果得られるクラスご とに分類する
ことを特徴とする学習方法。
PCT/JP1997/004755 1996-12-26 1997-12-22 Appareil et procede de reconnaissance, et appareil et procede d'apprentissage WO1998029864A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE69730705T DE69730705T2 (de) 1996-12-26 1997-12-22 Vorrichtung und verfahren zur mustererkennung und zur adaption
EP97949208A EP0896319B1 (en) 1996-12-26 1997-12-22 Recognition apparatus, recognition method, learning apparatus and learning method
US09/125,717 US6396954B1 (en) 1996-12-26 1998-08-24 Apparatus and method for recognition and apparatus and method for learning

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP34731296A JP3702978B2 (ja) 1996-12-26 1996-12-26 認識装置および認識方法、並びに学習装置および学習方法
JP8/347312 1996-12-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/125,717 Continuation US6396954B1 (en) 1996-12-26 1998-08-24 Apparatus and method for recognition and apparatus and method for learning

Publications (1)

Publication Number Publication Date
WO1998029864A1 true WO1998029864A1 (fr) 1998-07-09

Family

ID=18389374

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1997/004755 WO1998029864A1 (fr) 1996-12-26 1997-12-22 Appareil et procede de reconnaissance, et appareil et procede d'apprentissage

Country Status (7)

Country Link
US (1) US6396954B1 (ja)
EP (1) EP0896319B1 (ja)
JP (1) JP3702978B2 (ja)
KR (1) KR100578260B1 (ja)
CN (1) CN1119795C (ja)
DE (1) DE69730705T2 (ja)
WO (1) WO1998029864A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000022607A1 (fr) * 1998-10-09 2000-04-20 Sony Corporation Dispositif et procede d'apprentissage, dispositif et procede de reconnaissance et support d'enregistrement

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6688888B1 (en) * 1996-03-19 2004-02-10 Chi Fai Ho Computer-aided learning system and method
US5944530A (en) * 1996-08-13 1999-08-31 Ho; Chi Fai Learning method and system that consider a student's concentration level
GB2330679B (en) * 1997-10-21 2002-04-24 911 Emergency Products Inc Warning signal light
JP3884160B2 (ja) * 1997-11-17 2007-02-21 富士通株式会社 用語付きデータを扱うデータ処理方法,データ処理装置およびプログラム記憶媒体
USRE38432E1 (en) * 1998-01-29 2004-02-24 Ho Chi Fai Computer-aided group-learning methods and systems
US9792659B2 (en) * 1999-04-13 2017-10-17 Iplearn, Llc Computer-aided methods and apparatus to access materials in a network environment
US6398556B1 (en) * 1998-07-06 2002-06-04 Chi Fai Ho Inexpensive computer-aided learning methods and apparatus for learners
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
DE19921488A1 (de) * 1999-05-08 2000-11-16 Bosch Gmbh Robert Verfahren und Vorrichtung zur Überwachung des Innenraums und des Umfeldes eines Fahrzeugs
US6547410B1 (en) * 2000-07-28 2003-04-15 911 Emergency Products, Inc. LED alley/take-down light
US7468677B2 (en) * 1999-08-04 2008-12-23 911Ep, Inc. End cap warning signal assembly
JP3895892B2 (ja) * 1999-09-22 2007-03-22 株式会社東芝 マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体
KR100447667B1 (ko) * 2000-04-12 2004-09-08 이경목 음성 인식 기능을 갖는 컴퓨터와 학습용 인형들을 이용한 상호 대화 언어 학습 시스템
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
JP4645867B2 (ja) * 2000-08-02 2011-03-09 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP2002062894A (ja) * 2000-08-17 2002-02-28 Daiichikosho Co Ltd 音声認識リモコン機能付きワイヤレスマイクロホン
US7439847B2 (en) 2002-08-23 2008-10-21 John C. Pederson Intelligent observation and identification database system
US8188878B2 (en) 2000-11-15 2012-05-29 Federal Law Enforcement Development Services, Inc. LED light communication system
US7171042B2 (en) * 2000-12-04 2007-01-30 Intel Corporation System and method for classification of images and videos
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP4080843B2 (ja) * 2002-10-30 2008-04-23 株式会社東芝 不揮発性半導体記憶装置
US7272565B2 (en) * 2002-12-17 2007-09-18 Technology Patents Llc. System and method for monitoring individuals
US7634063B2 (en) * 2003-01-02 2009-12-15 Technology Patents, Llc System and method for monitoring individuals
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
US8708702B2 (en) 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US7377233B2 (en) * 2005-01-11 2008-05-27 Pariff Llc Method and apparatus for the automatic identification of birds by their vocalizations
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
KR100808775B1 (ko) * 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법
WO2008148050A1 (en) 2007-05-24 2008-12-04 Federal Law Enforcement Development Services, Inc. Led light interior room and building communication system
US9414458B2 (en) 2007-05-24 2016-08-09 Federal Law Enforcement Development Services, Inc. LED light control assembly and system
US9258864B2 (en) 2007-05-24 2016-02-09 Federal Law Enforcement Development Services, Inc. LED light control and management system
US11265082B2 (en) 2007-05-24 2022-03-01 Federal Law Enforcement Development Services, Inc. LED light control assembly and system
US9100124B2 (en) 2007-05-24 2015-08-04 Federal Law Enforcement Development Services, Inc. LED Light Fixture
US9455783B2 (en) 2013-05-06 2016-09-27 Federal Law Enforcement Development Services, Inc. Network security and variable pulse wave form with continuous communication
US9294198B2 (en) 2007-05-24 2016-03-22 Federal Law Enforcement Development Services, Inc. Pulsed light communication key
US8077022B2 (en) * 2008-06-11 2011-12-13 Flextronics Automotive Inc. System and method for activating vehicular electromechanical systems using RF communications and voice commands received from a user positioned locally external to a vehicle
WO2010009424A2 (en) * 2008-07-17 2010-01-21 Luminex Corporation Methods, storage mediums, and systems for configuring classification regions within a classification matrix of an analysis system and for classifying particles of an assay
US8890773B1 (en) 2009-04-01 2014-11-18 Federal Law Enforcement Development Services, Inc. Visible light transceiver glasses
JP5911796B2 (ja) * 2009-04-30 2016-04-27 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
CN102063903B (zh) * 2010-09-25 2012-07-04 中国科学院深圳先进技术研究院 言语交互训练系统及方法
CA2824756C (en) 2011-01-14 2014-12-23 Federal Law Enforcement Development Services, Inc. Method of providing lumens and tracking of lumen consumption
JP5849761B2 (ja) * 2012-02-22 2016-02-03 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
US9265112B2 (en) 2013-03-13 2016-02-16 Federal Law Enforcement Development Services, Inc. LED light control and management system
JP2013164863A (ja) * 2013-04-24 2013-08-22 Sony Corp 情報処理装置、情報処理方法、およびプログラム
CN104715753B (zh) * 2013-12-12 2018-08-31 联想(北京)有限公司 一种数据处理的方法及电子设备
US20150198941A1 (en) 2014-01-15 2015-07-16 John C. Pederson Cyber Life Electronic Networking and Commerce Operating Exchange
US20170048953A1 (en) 2015-08-11 2017-02-16 Federal Law Enforcement Development Services, Inc. Programmable switch and system
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
JP7299587B2 (ja) * 2019-02-05 2023-06-28 株式会社リコー 情報処理装置、発話認識システム及び発話認識プログラム
CN111251307B (zh) * 2020-03-24 2021-11-02 北京海益同展信息科技有限公司 应用于机器人的语音采集方法和装置、一种机器人
KR102302029B1 (ko) * 2020-11-23 2021-09-15 (주)펜타유니버스 인공지능 기반 복합 입력 인지 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02262199A (ja) * 1989-04-03 1990-10-24 Toshiba Corp 環境モニタ付音声認識装置
JPH03129400A (ja) * 1989-10-13 1991-06-03 Seiko Epson Corp 音声認識装置
JPH09134193A (ja) * 1995-11-08 1997-05-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
JPS60181798A (ja) * 1984-02-28 1985-09-17 電子計算機基本技術研究組合 音声認識装置
JPS62151903A (ja) * 1985-12-25 1987-07-06 Nippon Denso Co Ltd 車両に搭載される電子制御装置
US4975969A (en) * 1987-10-22 1990-12-04 Peter Tal Method and apparatus for uniquely identifying individuals by particular physical characteristics and security system utilizing the same
US4965725B1 (en) * 1988-04-08 1996-05-07 Neuromedical Systems Inc Neural network based automated cytological specimen classification system and method
GB9201006D0 (en) * 1992-01-17 1992-03-11 Philip Electronic And Associat Classifying faces
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
JPH06301393A (ja) 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 音声区間検出装置及び音声認識装置
NO941999L (no) * 1993-06-15 1994-12-16 Ontario Hydro Automatisert intelligent overvåkingssystem
JPH0728490A (ja) 1993-06-25 1995-01-31 Canon Inc 情報処理方法及び装置
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
JPH07306692A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
JPH08187368A (ja) 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
US5749072A (en) * 1994-06-03 1998-05-05 Motorola Inc. Communications device responsive to spoken commands and methods of using same
IL111039A (en) * 1994-09-22 1998-08-16 Advanced Recognition Tech Handwriting recognition system
JP2690027B2 (ja) * 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
US5859925A (en) * 1995-08-08 1999-01-12 Apple Computer, Inc. Classifying system having a single neural network architecture for multiple input representations
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP2907079B2 (ja) * 1995-10-16 1999-06-21 ソニー株式会社 ナビゲーション装置,ナビゲート方法及び自動車
US5761329A (en) * 1995-12-15 1998-06-02 Chen; Tsuhan Method and apparatus employing audio and video data from an individual for authentication purposes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02262199A (ja) * 1989-04-03 1990-10-24 Toshiba Corp 環境モニタ付音声認識装置
JPH03129400A (ja) * 1989-10-13 1991-06-03 Seiko Epson Corp 音声認識装置
JPH09134193A (ja) * 1995-11-08 1997-05-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP0896319A4 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000022607A1 (fr) * 1998-10-09 2000-04-20 Sony Corporation Dispositif et procede d'apprentissage, dispositif et procede de reconnaissance et support d'enregistrement
EP1039446A1 (en) * 1998-10-09 2000-09-27 Sony Corporation Learning device and method, recognizing device and method, and recording medium
US6449591B1 (en) 1998-10-09 2002-09-10 Sony Corporation Learning apparatus, learning method, recognition apparatus, recognition method, and recording medium
EP1039446A4 (en) * 1998-10-09 2005-07-20 Sony Corp LEARNING DEVICE AND METHOD, DETECTION DEVICE AND METHOD, AND RECORDING MEDIUM
US7072829B2 (en) 1998-10-09 2006-07-04 Sony Corporation Speech recognition from concurrent visual and audible inputs
KR100729316B1 (ko) * 1998-10-09 2007-06-19 소니 가부시끼 가이샤 학습 장치 및 학습 방법, 인식 장치 및 인식 방법, 및기록 매체

Also Published As

Publication number Publication date
DE69730705T2 (de) 2005-09-29
EP0896319A4 (en) 2000-03-08
EP0896319A1 (en) 1999-02-10
KR100578260B1 (ko) 2006-11-07
JPH10187186A (ja) 1998-07-14
JP3702978B2 (ja) 2005-10-05
CN1119795C (zh) 2003-08-27
EP0896319B1 (en) 2004-09-15
US6396954B1 (en) 2002-05-28
CN1214141A (zh) 1999-04-14
DE69730705D1 (de) 2004-10-21
KR19990087263A (ko) 1999-12-15

Similar Documents

Publication Publication Date Title
JP3702978B2 (ja) 認識装置および認識方法、並びに学習装置および学習方法
US7272561B2 (en) Speech recognition device and speech recognition method
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP2006030447A (ja) 音声認識システムと該音声認識システムを備える移動体及び車両
US20030050783A1 (en) Terminal device, server device and speech recognition method
US9311930B2 (en) Audio based system and method for in-vehicle context classification
JP4357867B2 (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
WO2000010160A1 (fr) Dispositif et procede de reconnaissance vocale, dispositif de navigation, telephone portable et processeur d&#39;informations
CN113126951A (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
JP2001296891A (ja) 音声認識方法および装置
JP2002236497A (ja) ノイズリダクションシステム
JP3555490B2 (ja) 声質変換システム
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法
JP2003122395A (ja) 音声認識システム、端末およびプログラム、並びに音声認識方法
JP3075250B2 (ja) 話者認識方法及び装置
WO2022239142A1 (ja) 音声認識装置及び音声認識方法
JPH04324499A (ja) 音声認識装置
JP2004029299A (ja) 音声認識システム
JP4190735B2 (ja) 音声認識方法および装置とナビゲーション装置
JP2002108391A (ja) 音声入力装置
JP2006126342A (ja) 音声認識システム、この音声認識システムを備える移動体及び車両
JP2022118998A (ja) 音声認識応答装置及び方法並びに車載装置
JP2006030908A (ja) 車両用音声認識装置及び移動体
KR20230169825A (ko) 파 엔드 단말기 및 그의 음성 포커싱 방법
JP2022118999A (ja) 音声認識応答装置及び方法並びに車載装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 97193175.5

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR SG US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 09125717

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1019980706664

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 1997949208

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1997949208

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1019980706664

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1997949208

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1019980706664

Country of ref document: KR