WO2000022607A1 - Dispositif et procede d'apprentissage, dispositif et procede de reconnaissance et support d'enregistrement - Google Patents

Dispositif et procede d'apprentissage, dispositif et procede de reconnaissance et support d'enregistrement Download PDF

Info

Publication number
WO2000022607A1
WO2000022607A1 PCT/JP1999/005619 JP9905619W WO0022607A1 WO 2000022607 A1 WO2000022607 A1 WO 2000022607A1 JP 9905619 W JP9905619 W JP 9905619W WO 0022607 A1 WO0022607 A1 WO 0022607A1
Authority
WO
WIPO (PCT)
Prior art keywords
distance
input data
recognition
series
learning
Prior art date
Application number
PCT/JP1999/005619
Other languages
English (en)
French (fr)
Inventor
Tetsujiro Kondo
Norifumi Yoshiwara
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to KR1020007006263A priority Critical patent/KR100729316B1/ko
Priority to DE69943018T priority patent/DE69943018D1/de
Priority to EP99970495A priority patent/EP1039446B1/en
Publication of WO2000022607A1 publication Critical patent/WO2000022607A1/ja
Priority to US09/584,260 priority patent/US6449591B1/en
Priority to US10/167,104 priority patent/US7072829B2/en
Priority to US11/009,337 priority patent/US20050096902A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Definitions

  • the present invention relates to a learning device and a learning method, a recognition device and a recognition method, and a recording medium.
  • the present invention relates to a learning device and a learning method, a recognition device and a recognition method, and a recording medium that can recognize a signal having a non-linear time component without considering the time component.
  • the present invention particularly provides a learning device and a learning method that can improve the recognition rate of speech and the like by providing a model capable of sufficiently expressing state transition and the like, for example.
  • the present invention relates to a recognition device and a recognition method, and a recording medium.
  • the present invention in particular, for example, when performing speech recognition based on the speech and the image of the lips when the speech is made, treats the parameters of the speech and the image with the same weight.
  • the present invention relates to a learning device and a learning method, a recognizing device and a recognizing method, and a recording medium capable of improving the recognition performance by performing the recognizing process.
  • BACKGROUND ART For voice, for example, even if the same person speaks the same word, The length expands and contracts nonlinearly with each utterance. Therefore, when performing speech recognition, it is necessary to deal with the nonlinear time expansion and contraction.
  • the DP Dynamic Programming
  • DTW time normalization
  • Dynami c Time Warpin g is known as one of the methods to perform matching with the standard pattern.
  • an HM Hidden Markov Models
  • a model corresponding to the recognition target is obtained by learning in advance, and the probability that an input sequence corresponding to the input speech is observed from each model (observation probability) is given to the model.
  • State transition probability probability of transition from one state to another state (which generally includes transition to itself)
  • output probability a certain code (label) (symbol ) Is calculated based on). Then, the input speech is recognized based on the observation probability.
  • the system creator determines the number of model states and the form of state transition (for example, state transition from a certain state). / 2
  • the model of the number of states and the form of the state transition that the system creator has decided without permission does not always follow the original number of states or the form of the state transition of the recognition target. If the model determined by the creator of the system does not conform to the original number of states or the form of state transition of the recognition target, the steady state or transient state of the recognition target may be determined depending on the model. It cannot be accurately expressed, and as a result, the recognition rate may be degraded.
  • speech recognition is performed by extracting a feature parameter from the speech and comparing the feature parameter with a reference standard parameter (standard pattern).
  • the feature parameters extracted from the voice and the feature parameters extracted from the image of the lips are integrated (combined) into a so-called integrated parameter, and speech recognition is performed using the integrated parameters. Can be considered.
  • the present invention has been made in view of such circumstances, and an object of the present invention is to improve recognition rate by enabling recognition to be performed without considering a time component of a signal. It is something that can be done.
  • an object of the present invention is to enable feature parameters of different inputs such as voice and image to be treated with equal weights, thereby improving recognition performance.
  • a learning device includes a calculating unit that calculates an expected frequency of each identifier from a sequence of identifiers indicating code vectors obtained from time-series learning data. It is characterized by having.
  • the learning method according to the present invention is characterized in that an expected frequency of each identifier is calculated from a series of identifiers indicating a vector obtained from time-series learning data.
  • the recording medium stores a program having a calculation step of calculating an expected frequency of each identifier from a series of identifiers indicating a vector obtained from time-series learning data.
  • the recognition apparatus includes a vector quantization unit that vector-quantizes input data and outputs a sequence of identifiers indicating code vectors, and whether the input data corresponds to a recognition target.
  • Adequacy detection means for determining the appropriateness using the sequence of identifiers obtained from the input data and the expected frequency of the identifiers. Based on the adequacy, recognize whether the input data matches the recognition target. It is characterized by having recognition means.
  • the input data is vector-quantized, a sequence of identifiers indicating code vectors is output, and the appropriateness of whether or not the input data corresponds to the recognition target is input.
  • the recording medium includes a vector quantization step of vector-quantizing input data and outputting a sequence of identifiers indicating code vectors, and whether the input data corresponds to a recognition target.
  • the appropriateness detection step is to determine the appropriateness using the sequence of identifiers obtained from the input data and the expected frequency at which the identifiers are expected to be observed.
  • a recognition step of recognizing whether or not they match.
  • the expected frequency of each identifier is calculated from a series of identifiers obtained from time-series learning data.
  • the input data is vector-quantized, a sequence of identifiers indicating code vectors is output, and the input data corresponds to a recognition target.
  • the appropriateness of the identifier is determined using the sequence of identifiers obtained from the input data and the expected frequency at which the identifier is expected to be observed. Then, based on the appropriateness, it is recognized whether or not the input data matches the recognition target.
  • the learning apparatus is characterized in that it includes a distance calculating unit that calculates a distance between a standard sequence and a code vector and outputs a transition of the distance.
  • a learning method is characterized in that a distance between a standard sequence and a code vector is calculated, and a transition of the distance is output.
  • the recording medium according to the present invention is characterized in that a program having a distance calculating step of calculating a distance between a standard sequence and a code vector and outputting a transition of the distance is recorded. .
  • a recognition device includes a storage unit that stores a distance transition model corresponding to at least one recognition target, which represents a transition of a distance between a standard sequence and each code vector of a codebook.
  • a recognition unit configured to recognize whether or not the input data matches at least one recognition target based on the series.
  • time-series input data is subjected to vector quantization using a codebook, and an identifier of an identifier corresponding to the code vector is obtained.
  • a sequence is output, and based on a distance transition model corresponding to at least one recognition target and representing a transition of a distance between the standard sequence and the code vector, and a sequence of identifiers of the input data, the input is performed.
  • recording medium characterized in that to recognize whether the data is consistent with the one recognition target low, the input data of the time series, and solid torr quantized using a codebook, code
  • a vector quantization step that outputs a sequence of identifiers corresponding to the vector, and a distance transition model that represents the transition of the distance between the standard sequence and the code vector, and that corresponds to at least one recognition target.
  • a recognition step of recognizing whether or not the input data matches at least one recognition target based on a sequence of identifiers of the input data. And wherein the Iruko.
  • the recognition device is configured to integrate time-series first and second input data and output time-series integrated data; It is characterized by comprising recognition means for recognizing whether the first or second data matches at least one recognition target based on the transition.
  • the recognition method integrates time-series first and second input data, outputs time-series integrated data, and calculates a transition of a distance obtained from a vector based on the time-series integrated data. It is characterized in that whether or not the first or second data matches at least one recognition target is determined on the basis of the first or second data.
  • a recording medium integrates time-series first and second input data, and outputs time-series integrated data; and a distance calculating unit that obtains a distance obtained from a vector based on the time-series integrated data. Based on the transition, And a recognition step of recognizing whether the first or second data matches at least one recognition target.
  • a distance between the standard sequence and the code vector is calculated, and a transition of the distance is output.
  • time-series input data is subjected to vector quantization using a codebook, and a sequence of identifiers corresponding to the code vectors is output. Then, based on a distance transition model corresponding to at least one recognition target, which represents a transition of a distance between the standard series and the code vector, and a sequence of identifiers of the input data, an input is performed. It is recognized whether the data matches at least one recognition target.
  • the time-series first and second input data are integrated, and the time-series integrated data is output. Then, based on the transition of the distance obtained from the solid based on the time-series integrated data, it is recognized whether the first or second data matches at least one recognition target.
  • the learning apparatus includes: a feature parameter normalizing unit that normalizes each of a plurality of feature parameters based on a normalization coefficient; and a distance between a standard parameter and each of the plurality of normalized feature parameters. And a changing means for changing the normalization coefficient such that the distance for any one of the plurality of feature parameters is equal to the distance for any other one of the plurality of feature parameters. It is characterized by having.
  • the learning method according to the present invention comprises: normalizing each of a plurality of feature parameters based on a normalization coefficient; calculating a distance from each of the normalized plurality of feature parameters to a standard parameter; The normalization coefficient is changed so that the distance for any one of the two is equal to the distance for the other one.
  • the recording medium includes: a feature parameter normalizing step for normalizing each of the plurality of feature parameters based on the normalization coefficient; and a distance between each of the plurality of normalized feature parameters and a standard parameter. And a changing step of changing the normalization coefficient so that the distance for any one of the plurality of feature parameters is equal to the distance for any other one of the plurality of feature parameters. And a program having the following.
  • a recognition device includes: a normalizing unit that normalizes a feature parameter of each of a plurality of input data; an integrating unit that integrates the plurality of normalized feature parameters into an integrated parameter; and an integrated parameter. And recognizing means for recognizing whether or not at least one of the plurality of input data is for a recognition target based on
  • the recognition method normalizes feature parameters of each of a plurality of input data, integrates the plurality of normalized feature parameters into an integrated parameter, and generates a plurality of input data based on the integrated parameter. It is characterized by recognizing whether at least one of the above is for the recognition target.
  • a recording medium includes: a detecting step of detecting a characteristic parameter for each of a plurality of input data; A normalization step for normalizing each feature parameter; an integration step for integrating a plurality of normalized feature parameters into an integration parameter; and one or more of a plurality of input data based on the integration parameter.
  • a program having a recognition step of recognizing whether or not the recognition target is performed is recorded.
  • each of the plurality of feature parameters is normalized based on the normalization coefficient, and each of the plurality of normalized feature parameters is compared with a standard parameter. The distance is calculated. Then, the normalization coefficient is changed such that the distance for any one of the plurality of feature parameters is equal to the distance for the other arbitrary one.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of a speech recognition device to which the present invention is applied.
  • FIG. 2 is a flowchart for explaining the processing of the speech recognition device in FIG.
  • FIG. 3 is a block diagram showing a configuration example of an embodiment of the signal processing unit 11 of FIG.
  • FIG. 4 is a flowchart for explaining the processing of the signal processing unit 11 in FIG.
  • FIG. 5 is a diagram showing the total weight center, the upper center of gravity, the lower center of gravity, and the divided center of gravity.
  • 6A and 6B are diagrams for explaining the processing of the elliptic approximation units 48 U and 48 D in FIG.
  • FIG. 7 is a diagram for explaining the lip feature parameters output by the lip parameter output unit 49 of FIG.
  • FIG. 8 is a block diagram showing a configuration example of an embodiment of a learning device for learning a normalization coefficient used by the inter-media normalization section 21 of FIG.
  • FIG. 9 is a flowchart for explaining the processing of the learning device in FIG.
  • FIG. 10 is a block diagram showing a configuration example of an embodiment of the distance transition type matching unit 31 of FIG.
  • FIGS. 11A and 11B are diagrams for explaining the processing of the time axis normalizing unit 61 of FIG.
  • FIGS. 12A and 12B are diagrams for explaining the distance transition model stored in the distance transition model storage unit 65 of FIG.
  • FIG. 13 is a flowchart for explaining the processing of the distance transition method matching unit 31 of FIG.
  • FIG. 14 is a block diagram illustrating a configuration example of an embodiment of a learning device that performs learning for obtaining a distance transition model.
  • FIGS. 15A, 15B, and 15C are diagrams for explaining the processing of the time axis normalizing unit 71 of FIG.
  • FIG. 16 is a diagram showing a transition of the distance output by the distance calculation unit 72 of FIG.
  • FIG. 17 is a flowchart for explaining the processing of the learning device in FIG.
  • FIG. 18 is a block diagram showing a configuration example of an embodiment of the spatial distribution type matching section 32 of FIG.
  • FIG. 19 is a flowchart for explaining the processing of the spatial distribution method matching unit 32 of FIG.
  • FIG. 20 is a block diagram illustrating a configuration example of an embodiment of a learning device that performs learning for obtaining an expected frequency stored in the expected frequency storage unit 84 of FIG. 18.
  • FIG. 21 is a flowchart for explaining the processing of the learning device of FIG.
  • FIG. 22 is a block diagram illustrating a configuration example of the determination circuit 4 in FIG.
  • FIG. 23 is a flowchart for explaining the processing of the determination circuit 4 in FIG.
  • FIG. 24 is a block diagram showing a configuration example of a computer according to an embodiment of the present invention.
  • BEST MODE FOR CARRYING OUT THE INVENTION FIG. 1 shows a configuration example of an embodiment of a speech recognition apparatus to which the present invention is applied.
  • This voice recognition device includes utterance data obtained by collecting voices spoken by a user with a microphone mouth phone, as well as image data (image data) obtained by photographing the lips spoken by the user with a video camera.
  • Noise data (noise data) in the environment in which the user spoke, and other data that can be useful in recognizing the user's speech (voice) for example, If the device is provided with a button to input the location where the user is speaking, when the button is operated, the signal corresponding to the operation and the temperature at which the temperature of the environment for voice recognition is measured The output of the sensor, etc.) is input sequentially in a time series, and speech data is recognized in consideration of these data as necessary.
  • n 1, 2, ⁇ , N: N is the maximum number of types of signals that can be input to the parameterization circuit 1).
  • feature parameters representing the features of each data are extracted.
  • the feature parameters extracted by the parameterization circuit 1 are supplied to an integrated parameter generation circuit 2 .
  • the integrated parameter generation circuit 2 includes a media normalization unit 21 and an integrated It is composed of a parameter generation unit 22 and generates an integrated parameter by integrating the characteristic parameters of various signals from the parameterization circuit 1.
  • the inter-media normalization unit 21 normalizes the characteristic parameters of the various signals from the parameterization circuit 1 so that they can be handled with the same weight (scale), and outputs the result to the integrated parameter generation unit 22. It is made to do.
  • the integrated parameter generation unit 22 generates integrated parameters by integrating (joining) the normalized characteristic parameters of various signals supplied from the inter-media normalization unit 21 and matching. Output to the circuit 3.
  • the matching circuit 3 matches the integrated parameter with the standard pattern (the model to be recognized), and outputs the matching result to the decision circuit 4.
  • the matching circuit 3 includes a distance transition type matching unit 31 and a spatial distribution type matching unit 32.
  • the distance transition method matching unit 31 is configured to use a distance transition model described later to match integrated parameters according to a distance transition method described later, and to output the matching result to the determination circuit 4.
  • the spatial distribution method matching section 32 performs matching of the integrated parameters according to the spatial distribution method described later, and outputs the matching result to the determination circuit 4.
  • the judgment circuit 4 recognizes the utterance (voice) of the user based on the output of the matching circuit 3, that is, here, the matching result in the distance transition method matching unit 31 and the spatial distribution method matching unit 32. For example, a word is output as a result of the recognition.
  • the processing of the speech recognition device in FIG. 1 will be described with reference to the flowchart in FIG.
  • the parameterization circuit 1 includes image data of the speaker's gesture and image data of the movement of the throat (muscle), together with or instead of the lip image data. (Or the output of a sensor that measures the movement of the throat) can be input.
  • step S1 the parameterizing circuit 1 processes speech data, lip image data, noise data, and the like, and extracts a characteristic parameter from each data.
  • the characteristic parameter of each data is supplied to the integrated parameter generation circuit 2.
  • Integrated parameter generating circuit intermedia normalization section 2 1 of 2 in Sutetsu flop S 2, normalizes the characteristic parameters of each data from the parameterization circuit 1, a feature parameter which is the normalized, integrated parameters over To the data generator 22.
  • the integrated parameter generation unit 22 integrates the normalized feature parameters of each data from the inter-media normalization unit 21 to obtain integrated parameters.
  • the integrated parameters are supplied to the distance transition type matching unit 31 and the spatial distribution type matching unit 32 of the matching circuit 3, and the process proceeds to step S4.
  • step S4 the distance transition method matching unit 31 matches the integrated parameters from the integrated parameter generation circuit 2 using the distance transition method. Further, in step S4, the spatial distribution matching unit 32 receives the integrated parameter from the integrated parameter generation circuit 2. Is performed by the spatial distribution method. Then, the matching result by the distance transition method matching unit 31 and the spatial distribution matching unit 32 is supplied to the determination circuit 4. In step S5, the determination circuit 4 recognizes the utterance data based on the matching result from the matching circuit 3, outputs the recognition result (speech recognition result), and ends the processing.
  • the signal processing unit 11 of the parameterization circuit 1 in FIG. 1 processes the image data of the lips and extracts the characteristic parameters thereof.
  • An example of the configuration of such a signal processing unit 11 is shown.
  • the image data of the lips is supplied to the YIQ conversion unit 41, and the YIQ conversion unit 41 converts the image data of the lips into a signal represented by YIQ. That is, the image data of the lips input to the signal processing unit 11 is represented by, for example, RGB (Red, Green, Blue), and the YIQ conversion unit 41 outputs the lips represented by such RGB.
  • the image data is converted into the YIQ representation and supplied to the Q component extraction unit 42.
  • the Q component extraction unit 42 extracts pixels in the lip image data represented by YIQ from the YIQ conversion unit 41 whose Q component signal level is equal to or higher than the threshold, and extracts the pixels as lips. Are output to the total weight center calculation unit 43, the upper center / lower center calculation unit 44, the division center calculation unit 45, and the division unit 46 as pixels constituting the pixel (hereinafter, appropriately referred to as lip pixels). ing.
  • the total center of gravity calculating section 43 calculates the center of gravity of the entire lip pixel from the Q component extracting section 42 (hereinafter referred to as the total center of gravity as appropriate), and calculates the upper center of gravity and the lower center of gravity. It is supplied to the section 44 and the divided center-of-gravity calculation section 45.
  • the upper center of gravity Z and the lower center of gravity calculating section 44 are configured to obtain an upper center of gravity and a lower center of gravity, which will be described later.
  • the upper / lower center-of-gravity calculator 44 calculates the lip pixels based on the entire center of gravity from the overall center-of-gravity calculator 43, the pixels constituting the upper lip (hereinafter, appropriately referred to as upper lip pixels), Are temporarily divided into pixels constituting the image (hereinafter, appropriately referred to as lower lip pixels). Further, the upper center of gravity and the lower center of gravity calculating section 44 calculate the center of gravity of the entire upper lip pixel (hereinafter, appropriately referred to as the upper center of gravity) and the center of gravity of the entire lower lip pixel (hereinafter, appropriately referred to as the lower center of gravity). It is designed to output to section 45.
  • the division centroid calculation unit 45 calculates a reference point (hereinafter appropriately referred to as a division centroid) for dividing the lip pixel into an upper lip pixel and a lower lip pixel, as a total weight center. The calculation is performed based on the overall center of gravity from the calculating unit 43 and the upper and lower center of gravity from the upper and lower center of gravity calculating unit 44, and is output to the dividing unit 46.
  • a division centroid a reference point for dividing the lip pixel into an upper lip pixel and a lower lip pixel
  • the division unit 46 divides the lip pixels from the Q component extraction unit 42 into upper lip pixels and lower lip pixels based on the division centroid from the division centroid calculation unit 45, and the upper lip pixels generate a mirror area.
  • the lower lip pixel is output to the mirror area generator 47D, respectively.
  • the mirror region generation unit 47U configures a mirror region described later for the upper lip pixel, and supplies the mirror region to the ellipse approximation unit 48U together with the upper lip pixel.
  • the mirror area generating section 47D is configured to configure a mirror area for the lower lip pixel and supply the mirror area to the ellipse approximating section 48D together with the lower lip pixel.
  • the elliptic approximation unit 48 U is the upper lip pixel from the mirror region generation unit 47 U. An ellipse approximating the mirror area is obtained, and parameters (ellipse parameters) defining the ellipse are supplied to a lip parameter output unit 49.
  • An ellipse approximating the lower lip pixel and its mirror area from D is obtained, and an ellipse parameter defining the ellipse is supplied to a lip parameter output unit 49.
  • the lip parameter output unit 49 removes the duplicated ellipse parameters from the ellipse approximation units 48 U and 48 D, and outputs the rest as lip parameters, which are characteristic parameters representing the characteristics of the lips. It has been done.
  • the YIQ conversion section 41 converts the image data into the one expressed in YIQ using the YIQ conversion matrix in step S11. And supplies it to the Q component extraction unit 42.
  • step S12 the Q component extraction unit 4 2
  • the Q component is relatively large, and it is known that the lip pixels can be extracted with relatively high accuracy by extracting pixels having a large Q component.
  • the Q component is a red-based color component, it is also a red-based color component from an image represented by RGB. It has also been found from the research conducted by the present inventor that extracting lip pixels is relatively accurate when extracting pixels having a large Q component, rather than extracting pixels having a large R component.
  • the total body weight calculating unit 43 Upon receiving the lip pixels from the Q component extraction unit 42, the total body weight calculating unit 43 obtains the center of gravity (overall center of gravity) of the entire lip pixels as shown by the ⁇ in FIG. 5 in step S13.
  • the data is supplied to the upper / lower center-of-gravity calculator 44 and the divided center-of-gravity calculator 45, and the process proceeds to step S14.
  • the upper center of gravity and the lower center of gravity are calculated by the upper center of gravity Z and the lower center of gravity calculating section 44.
  • the upper / lower center-of-gravity calculator 44 temporarily divides the lip pixel from the Q component extractor 42 vertically into two parts by a horizontal straight line passing through the entire center of gravity as shown in FIG. .
  • the lip image data obtained by photographing the user who is speaking from the front is supplied.
  • the upper center of gravity Z and the lower center of gravity calculating unit 44 calculate the upper or lower pixel of the lip pixel, which is obtained by dividing the lip pixel into the upper and lower parts as described above, by using the pixel (upper lip pixel) or the lower lip constituting the upper lip, respectively.
  • the upper center of gravity or the lower center of gravity as shown by the X mark in Fig. 5 is obtained as the pixel (lower lip pixel) that constitutes.
  • the upper center of gravity and the lower center of gravity are supplied to the divided center of gravity calculating section 45.
  • step S15 the division center-of-gravity calculation unit 45 finds the division centroid. That is, similarly to the case of the upper / lower center-of-gravity calculating unit 44, the divided center-of-gravity calculating unit 45 vertically shifts the lip pixels from the Q component extracting unit 42 by using a horizontal straight line passing through the entire center of gravity. By dividing into two, it is divided into upper lip pixels and lower lip pixels, and the number of each pixel is counted. Further In addition, the division centroid calculation unit 45 internally divides a line segment passing through the upper and lower centroids according to the ratio of the number of upper lip pixels to the number of lower lip pixels, and divides the inner division into the division centroid And The division center of gravity is supplied to the division unit 46.
  • step S 16 the dividing unit 46 uses the lip from the Q component extracting unit 42 by the horizontal straight line passing through the dividing centroid indicated by a mark in FIG. 5 from the dividing centroid calculating unit 45.
  • the pixel is divided into the upper and lower lip pixels by dividing the pixel into upper and lower parts.
  • the upper lip pixel is sent to the mirror area generator 47 U, and the lower lip pixel is sent to the mirror area generator 47 D. Output each.
  • step S17 the mirror area generating unit 47U configures a mirror area for the upper lip pixel, and the mirror area generating unit 47D configures a mirror area for the lower lip pixel. That is, as shown in FIG. 6A, the mirror region generation unit 47 U generates a region symmetrical with respect to the upper lip pixel as a horizontal straight line passing through the division center of gravity (hereinafter, appropriately referred to as upper and lower division lines). It is generated as a mirror area and supplied to the ellipse approximation unit 48 U together with the upper lip pixel. Further, as shown in FIG.
  • the mirror region generation unit 47D generates, for the lower lip pixel, a region which is line-symmetric with the upper and lower division lines as the mirror region, and together with the lower lip pixel, the ellipse approximation unit 4 Supply 8D.
  • the ellipse approximation unit 48U determines an ellipse centered on the divided centroid, which approximates the upper lip pixel and its mirror region, for example, by the least square method, as shown in FIG. 6A. .
  • the ellipse approximation unit 48D also obtains an ellipse centered on the divided centroid, which approximates the lower lip pixel and its mirror region, by the least squares method. That is, the X or y coordinate of the divided centroid is x. Or y.
  • Equation (2) ⁇ represents the summation of the upper lip pixel and all the pixels constituting the mirror region.
  • the ellipse approximation unit 48U finds the horizontal and vertical diameters of the ellipse that approximates the upper lip pixel and its mirror region by centering on the center of gravity by solving Equation (2). It is supplied to the lip parameter output unit 49 as an ellipse parameter.
  • the ellipse approximating unit 48D also obtains the horizontal and vertical diameters of the ellipse approximating the lower lip pixel and its mirror area in the same manner as in the elliptic approximating unit 48U, and supplies it to the lip parameter output unit 49.
  • step S19 the lip parameter output unit 49 deletes a duplicate one of the elliptic parameters from the elliptical approximation unit 48U or 48D. That is, the side of the ellipse approximating the upper lip pixel and its mirror area Ideally, the diameter and the lateral diameter of the ellipse approximating the lower lip pixel and its mirror region should match as shown in FIG.
  • the lip parameter output unit 49 determines One of the diameters is deleted, and the remaining horizontal diameter, the vertical diameter of the ellipse approximating the upper lip pixel and its mirror area (hereinafter referred to as the upper vertical diameter as appropriate) and the ellipse approximating the lower lip pixel and its mirror area Output the three elliptical parameters of the vertical diameter (hereinafter, appropriately referred to as the lower vertical diameter) as the characteristic parameters of the lips, and terminate the processing.
  • the signal processing section 1 1! Repeats the above process, for example, every time one frame of lip image data is supplied.
  • the lateral diameter of the ellipse approximating the upper lip pixel and its mirror region should ideally coincide with the lateral diameter of the ellipse approximating the lower lip pixel and its mirror region, as described above.
  • the square error of the ellipse approximating the upper lip is obtained by exchanging data between the ellipse approximators 48 U and 48 D, as shown by the dotted line in FIG.
  • the square error of the ellipse approximating the lower lip, and the lateral diameter of the ellipse that minimizes the sum can be obtained.
  • the lateral diameter of the ellipse approximating the upper lip pixel and its mirror region and the lateral diameter of the ellipse approximating the lower lip pixel and its mirror region are obtained independently by the least squares method.
  • the two lateral diameters can be combined into one, so to speak, but the upper lip or lower lip can be combined.
  • the accuracy of approximation by the ellipse that is not selected deteriorates.
  • the ellipse whose lateral diameter is the average value does not always accurately approximate the upper lip and the lower lip.
  • the sum of the square error of the ellipse approximating the upper lip and the square error of the ellipse approximating the lower lip is obtained, and the ellipse that minimizes the sum is obtained. It is desirable to obtain the lateral diameter of.
  • a lip pixel is divided into an upper lip pixel and a lower lip pixel, an ellipse approximating each is obtained, and the horizontal and vertical diameters representing the ellipse are set as characteristic parameters representing the characteristics of the lip. According to this feature parameter, the movement of the lips and the like can be faithfully reproduced.
  • the characteristic parameters of the ellipse approximating the lips which are the horizontal diameter, the upper vertical diameter, and the lower vertical diameter, are linked to the visual movement of the lips when a person looks at another person or his own lips.
  • the verification efficiency can be improved.
  • the horizontal diameter, the upper vertical diameter, and the lower vertical diameter a smaller number of characteristic parameters are used, for example, compared to the case where the four upper, lower, left, and right end points of the lips are used as the characteristic parameters.
  • the lips can be expressed efficiently.
  • the image is transmitted to a receiver 7 via a transmission medium 6 such as an ATV (cable television), the Internet, a satellite line, etc., and the image of a human face is received by the receiver 7 based on the characteristic parameters of the lips.
  • a transmission medium 6 such as an ATV (cable television), the Internet, a satellite line, etc.
  • the center of gravity (total weight center) of the entire lip pixel is obtained, and the lip pixel is provisionally divided into an upper lip pixel and a lower lip pixel based on the entire center of gravity.
  • the center of gravity is obtained, the divided center of gravity is obtained, and the lip pixel is divided into the final upper lip pixel and the lower lip pixel based on the divided center of gravity. It is possible to reduce the number of cases in which the lower lip is mistakenly determined as the pixel of the lower lip, and conversely, the pixels constituting the lower lip are incorrectly determined as the upper lip pixel. That is, since the surface area of the lower lip is generally larger than the surface area of the upper lip, the center of gravity is located closer to the lower lip.
  • the lip pixel is divided into the upper lip pixel and the lower lip pixel based on the total center of gravity, the pixels constituting the lower lip are often mistakenly set as the upper lip pixels.
  • the lip pixel is temporarily divided into an upper lip pixel and a lower lip pixel based on the total center of gravity, the upper center of gravity and the lower center of gravity are obtained, and the divided center of gravity is obtained.
  • the division center of gravity is located closer to the upper center of gravity, so that the pixels constituting the lower lip are erroneously determined as the upper lip pixels. Cases can be reduced.
  • the lip of the speaker (user) is approximated by an ellipse.
  • the lip of a human face such as an eye
  • Other organs can be approximated by ellipses in the same manner as described above.
  • the lips are divided into upper lips and lower lips, but in addition, for example, only the upper lips are divided into two parts to the left and right, for a total of three divisions.
  • the inter-media normalization unit 21 in FIG. 1 normalizes the characteristic parameters of various data from the parameterization circuit 1 so that they can be treated with the same weight. This normalization is performed by multiplying each feature parameter by a normalization coefficient. Then, the normalization coefficient is obtained by performing learning, and FIG. 8 shows a configuration example of an embodiment of a learning apparatus that performs such learning.
  • the provisional normalization unit 51 includes image feature parameters P j and speech features as vector learning parameters (codebook generation data) for generating a dobook used for vector quantization.
  • the parameters Vi, j multiple sets of feature parameters P and speech feature parameters Vi.j for each phoneme to be recognized) are supplied, and the provisional normalization unit 51 Is tentatively normalized by the normalization coefficient from the normalization coefficient control unit 55 to the feature parameter P i .j and the voice feature parameter V i, j so as to be supplied to the codebook creation unit 52. It has been done. That is, in this embodiment, for example, the feature parameter V i.j of the image is used as a reference, and the weight of the feature parameter V i. i. j is multiplied by the normalization coefficient ⁇ from the normalization coefficient control unit 55. Therefore, it can be considered that the image feature parameter ⁇ is multiplied by 1 as a normalization coefficient.
  • the suffix i representing the row of the feature parameter P and Vi, j represents the time (time) at which the feature parameter P ′′ and V j were extracted
  • the suffix j representing the column is the feature parameter P i , i, V it j represent the order (dimensions) of (i.e., (P i, ,, P i. 2 , ⁇ , P i V i. V ,, 2, ⁇ , V i.)
  • the suffix (k) with a slash is added to the feature parameter P and j, and P (k) and j are shown. However, if k is different, different learning data This indicates that it is a feature parameter generated from it. The same applies to the suffix (k) of V (k) j.
  • the horizontal diameter, the upper vertical diameter, and the lower vertical diameter of the above-mentioned ellipse approximating the lip can be used as the image characteristic parameter P.
  • the characteristic parameter The order L of P is 3rd order.
  • the voice feature parameters Vi i, for example, an eighth-order line spectrum pair can be used, and in this case, the order M of the feature parameter V is 8th.
  • the codebook creation unit 52 uses the code vector learning parameters P i, ⁇ and V ⁇ ⁇ ⁇ as the tentatively normalized feature parameters, and the vector quantization in the vector quantization unit 54. Code book used for In this case, a clock is generated and supplied to the vector quantization unit 54.
  • the codebook creating section 52 is configured to create a codebook according to, for example, an LBG (Linde, Buzo, Gray) algorithm.
  • the LBG algorithm is a so-called batch-type learning algorithm.
  • the feature parameters as learning samples (learning data) and the code vectors (representative vectors) that make up the codebook (initially appropriate initial values) (Voronois) partition, which divides the feature parameter space optimally, and the centroid of each partial region of the feature parameter space obtained by Voronois partitioning.
  • the code vector in the codebook is locally converged to an optimal position.
  • a rg min n ⁇ means the vector V that minimizes the value in ⁇ .
  • the so-called clustering method based on Eq. (5) is called the k-means clustering method (k-means method).
  • the suffixes i and j representing the lines of the codebook elements S ”and“ T ”output by the codebook creation unit 52 are the code vectors corresponding to the code #i. Represents the j-th element of. Therefore, (S ij, S i. 2 , ⁇ , S ,, L,,,,,, ⁇ 2 , ⁇ , ⁇ , ⁇ ) represents the code vector corresponding to code # i. . Also, the elements of the code vector S and j are the images , And the element T i .j corresponds to speech.
  • the provisional normalization section 53 includes image feature parameters P i. As sound normalization coefficient learning parameters for learning the normalization coefficient ⁇ , and sound feature parameters V i .j (here, the code vector).
  • the tentative normalization unit 53 is provided with a normalization coefficient control unit, similar to the tentative normalization unit 51. With the normalization coefficient from 55 , the feature parameter P ifj and the voice feature parameter V i, are temporarily normalized and supplied to the vector quantization unit 54. That is, the tentative normalization unit 53 generates a speech feature parameter V,, j among the image feature parameters P i, j and the speech feature parameter V as the normalization coefficient learning parameters.
  • the normalization coefficient control unit 55 multiplies the normalization coefficient by one, and outputs the result to the vector quantization unit 54.
  • provisional normalization section 53 is supplied with a plurality of sets of normalization coefficient learning parameters, and the provisional normalization section 53 supplies each of the plurality of sets of normalization coefficient learning parameters. , And normalization is performed.
  • the vector quantization unit 54 uses the latest codebook from the codebook creation unit 52 to perform vector quantization on the normalized normalization coefficient learning parameters supplied from the temporary normalization unit 53.
  • the quantization error due to the vector quantization is supplied to a normalization coefficient control unit 55.
  • the vector quantization unit 54 calculates the distance (Euclidean distance) (Euclidean distance) between each code vector (standard parameter) of the codebook and the normalized normalization coefficient learning parameter. , The calculation is performed for each of the image and the voice, and the shortest of the distances is supplied to the normalization coefficient control unit 55 as a quantization error. That is, the distance between the feature parameter P i of the image among the normalized normalization coefficient learning parameters and the vector consisting of the element S for each image in the codebook is calculated, and the distance is calculated.
  • the normalization coefficient control unit 55 accumulates (integrates) the quantization errors of the image and voice from the vector quantization unit 54 with respect to all the normalization coefficient learning parameters.
  • the normalization coefficient ⁇ to be supplied to the temporary normalization units 51 and 53 is changed so that the cumulative values of the voices become equal.
  • the processing (normalization coefficient learning processing) performed by the learning device in FIG. 8 will be described with reference to the flowchart in FIG.
  • the code vector learning parameters are supplied to the temporary normalization unit 51
  • the normalization coefficient learning parameters are supplied to the temporary normalization unit 53.
  • the initial value of the normalization coefficient ⁇ is supplied from the control unit 55 to the temporary normalization units 51 and 53.
  • step S 21 the provisional normalization unit 51 compares the feature parameter V of the speech among the vector learning parameters. Then, it multiplies by the normalization coefficient ⁇ from the normalization coefficient control unit 55, whereby the code vector learning parameters are provisionally normalized and supplied to the code book creation unit 52.
  • the codebook creating section 52 Upon receiving the normalized vector learning parameters from the temporary normalizing section 51, the codebook creating section 52 uses the code vector learning parameters in step S22 to perform an LBG algorithm. Then, a book used by the vector quantization unit 54 to perform the vector quantization is created and supplied to the vector quantization unit 54.
  • the temporary normalization unit 53 multiplies the speech feature parameter V, of the normalization coefficient learning parameters, by the normalization coefficient ⁇ from the normalization coefficient control unit 55.
  • the normalization coefficient learning parameter is provisionally normalized and supplied to the vector quantization unit 54.
  • step S24 the quantization coefficient of the normalization coefficient from the provisional normalization section 53 is subjected to vector quantization for each of the image and the sound using the bookbook from the bookbook creation section 52, and the respective quantization is performed.
  • the normalization error is supplied to the normalization coefficient control unit 55.
  • the vector quantization section 54 generates the image feature parameter (image parameter) P i .i of the normalized normalized coefficient learning parameters and the code vector of the code vector.
  • image parameter image parameter
  • the distance from the vector consisting of the elements S, related to the image is calculated, and the shortest distance is supplied to the normalization coefficient control unit 55 as the quantization error for the image.
  • a speech feature parameter speech parameter aV i,
  • a vector consisting of the speech elements T and j of the code vector Is calculated, and the shortest of the distances is supplied to the normalization coefficient control unit 55 as the quantization error for speech.
  • the provisional normalization section 53 also supplies the provisional normalization coefficient to the provisional normalization coefficient.
  • the vector quantization unit 54 sequentially supplies a plurality of sets of learning parameters.
  • the vector quantization unit 54 sequentially calculates the quantization error for the image and the sound as described above for each of the plurality of normalized normalization coefficient learning parameters. And supplies it to the normalization coefficient control unit 55.
  • step S 24 the normalization coefficient control unit 55 further accumulates the quantization error for the image and audio supplied from the solid-state quantization unit 54 for each of the normalization coefficient learning parameters. Then, the accumulated values DP and Dv of the quantization errors are obtained. The image and the accumulated value D P and Dv quantization error about the speech, is supplied to and stored in the normalization coefficient control unit 5 5.
  • the normalization coefficient control unit 55 determines whether or not the cumulative values DP and DV of the quantization errors for the image and the sound have been obtained for all ⁇ . That is, in the present embodiment, for example, a is set to 0.001, its initial value is changed to 0.0001, and the range from 2.00 to 2.00 is changed in increments of 0.001. (In this case, increase) to determine the accumulated values D P and Dv. The normalization coefficient control unit 55 determines in step S 25 the image and sound for ⁇ in such a range. It is determined whether or not the cumulative values DP and Dv of the quantization error for the voice have been obtained.
  • step S25 If it is determined in step S25 that the accumulated values DP and Dv have not yet been obtained for all the lines, the process proceeds to step S26, where the normalization coefficient control unit 55 sets the normalization coefficient Is changed as described above and supplied to the provisional normalization units 51 and 53. Then, the process returns to step S21, and thereafter, the same processing is repeated using the changed normalization coefficient ⁇ .
  • step S25 if it is determined in step S25 that the cumulative values D ⁇ and Dv have been obtained for all ⁇ , the process proceeds to step S27, where the normalization coefficient control unit 55 executes step S2 Calculate the absolute value i DP — D v I of the difference between the quantization error DP for the image related to ⁇ of each value stored in 4 and the quantization error D v for audio. Further, the normalization coefficient control unit 55 gives the minimum value of the difference absolute value IDP—DvI with respect to ⁇ of each value. ⁇ That is, ideally, the quantization error DP for the image and the sound ⁇ is detected when the quantization error D v for is the same.
  • step S 28 the normalization coefficient control unit 55 assigns the normalization coefficient which gives the minimum absolute value i DP—D v I to the feature parameter of the image and the sound by the same weight. Output as what can be normalized so that can be handled by, and end the processing.
  • the code vector learning parameter which is an integrated parameter composed of image and audio feature parameters
  • a codepook is generated using the normalized code vector learning parameter.
  • the normalization coefficient learning parameter which is an integrated parameter consisting of image and audio feature parameters, is temporarily normalized. For each of the image or audio feature parameters among the normalized coefficient learning parameters, the quantized error is obtained by performing vector quantization using the generated codebook, and the cumulative value is calculated. Since the normalization coefficient is changed so that they are equal, it is possible to perform normalization so that feature parameters of different media such as images and sounds can be calculated with equal weight. A normalization coefficient can be obtained.
  • the feature parameters extracted from the voice and the feature parameters extracted from the image of the lips are normalized by a normalization coefficient, and then they are integrated to obtain an integrated parameter.
  • a normalization coefficient For example, the feature parameters extracted from the voice and the feature parameters extracted from the image of the lips are normalized by a normalization coefficient, and then they are integrated to obtain an integrated parameter.
  • FIG. 10 shows an example of the configuration of the distance transition type matching unit 31 of FIG.
  • the time axis normalization unit 61 has an integrated parameter generation circuit 2 (Fig. 1), for example, the integrated parameters when a word is uttered are supplied in time series, and the time axis normalizing unit 61 determines the time of the integrated parameters in the time series. Axis normalization is performed.
  • the time change of a certain element of the integrated parameter due to the utterance of the word is, for example, as shown in FIG. 11A.
  • the utterance time t varies for each utterance, even if the same person utters the same word. Therefore, the time axis normalizing unit 61 performs time axis normalization so that the utterance time t becomes the time Tc uniformly as shown in FIG. 11B.
  • the time Tc is set to a time sufficiently longer than a general utterance time when a word to be recognized is uttered. ing. Therefore, in the time axis normalization unit 61, the integrated parameters of the time series shown in FIG. 11A are changed so as to be extended in the time axis direction.
  • the method of time axis normalization is not limited to this.
  • the integrated parameters after the time axis normalization are supplied from the time axis normalization section 61 to the vector quantization section 62.
  • the vector quantizer 62 uses the codebook stored in the codebook storage 63 to perform vector quantization of the time-axis-normalized time-series integrated parameters in order, and the vector quantization
  • the code as a result of the conversion that is, the code corresponding to the code vector having the shortest distance from the integrated parameter, is sequentially supplied to the distance calculation unit 64.
  • the codebook storage unit 63 stores a codebook used by the vector quantization unit 62 for vector quantization.
  • the distance calculation unit 64 calculates a code sequence output from the vector quantization unit 62 from the distance transition model of the word to be recognized, which is stored in the distance transition model storage unit 65. The distance from the code vector is accumulated every time, and the accumulated value is supplied to the sorting unit 66.
  • the distance transition model storage unit 65 stores, for example, an integrated parameter (standard sequence) of the time series of the word to be recognized and a codebook stored in the codebook storage unit 63 as shown in FIG. 12B. It stores a distance transition model that represents the transition of the distance between the code vector and. That is, the distance transition model storage unit 65 stores a distance transition model as shown in FIG. 12B, obtained by learning described later, for each word to be recognized.
  • the codebook stored in the codebook storage unit 63 is J + 1 code vectors C.
  • Fig. 12A shows the distance transition model as a graph
  • Fig. 12B shows the distance transition model as a table.
  • Tt 2 if attention is paid to the row of the code vector C, each time t described in that row. , Tt 2, 'the distance D cj-to in, D ot ,, Dcj t 2, ⁇ ⁇ ' ⁇ ⁇ represents the transition of the distance to the code base-vector C j in the graph of FIG. 1 2 A.
  • the sorting unit 6 6 selects the Nb top N values from the smaller values of the accumulated distance values of the distance transition model of each word to be recognized, which are supplied from the distance calculation unit 64 (N b is a natural number), and is output to the judgment circuit 4 as a matching result between the integrated parameter and the distance transition model.
  • the distance transition method matching unit 31 configured as described above performs matching by the distance transition method. For the matching processing by the distance transition method, refer to the flowchart of FIG. 13. Will be explained.
  • the time axis normalizing unit 61 normalizes the time-series integrated parameters in step S31. , And output to the vector quantization unit 62.
  • the vector quantization unit 62 refers to the codebook stored in the codebook storage unit 63 to obtain the integrated parameter of the time series from the time axis normalization unit 61. Then, the vector sequence is sequentially quantized, and a sequence of codes corresponding to a code vector that minimizes the distance to the integrated parameter as a result of the vector quantization is sequentially supplied to the distance calculation unit 64.
  • the distance calculation unit 64 calculates the code output by the vector quantization unit 62 from the distance transition model of the word to be recognized, which is stored in the distance transition model storage unit 65. Accumulate the distance from the code vector when the sequence is observed.
  • the distance calculation unit 64 Is the code s output first by the vector quantization unit 62.
  • the code vector corresponding to is C.
  • the distance at time # 0 on the curve representing the change in distance from is calculated.
  • the distance calculation unit 64 calculates the distance at time # 1 from the code vector C ⁇ corresponding to the code s ′ output by the vector quantization unit 62 at the second time. Ask by referring to. Similarly, the distance calculation unit 64 calculates the distance at time #Tc from the code vector C corresponding to the code s TC output by the vector quantization unit 62 last. By referring to the distance transition model, the distance is calculated sequentially, and the cumulative value of those distances is calculated.
  • the vector quantization unit 62 generates the code s at time # 0, # 1, # 2,. , S. , S ⁇ ⁇ ⁇ ⁇ output the code s. Code vector C corresponding to. And the distance D c0t at time # 0. , Code s. Code vector C corresponding to. And the distance D c at time # 1.
  • the addition value of the distance D clT2 , ... at time # 2 between tl and the code vector C corresponding to the code s, is obtained as the accumulated value.
  • the distance calculation unit 64 calculates the accumulated value of the distance for each of all the distance transition models stored in the distance transition model storage unit 65, and stores the accumulated values of the distances in the sorting unit 66. Output and go to step S34.
  • step S34 the sorting unit 66 selects the Nb top Nb values from the distance accumulation model for the distance transition model of each word to be recognized from the distance calculation unit 64, starting from the one with the smallest value. Then, the process proceeds to step S35, and is output to the decision circuit 4 as a matching result between the integrated parameter and the distance transition model, and the process ends.
  • FIG. 14 shows a configuration of an embodiment of a learning device that performs learning for obtaining a distance transition model to be stored in the distance transition model storage unit 65 of FIG. 10.
  • the time-axis normalization unit 71 is supplied with time-series learning integrated parameters used for performing learning for finding the distance transition model.
  • the learning integration parameters are time axis normalized and supplied to the distance calculation unit 72.
  • the time axis normalization unit 7 1 is configured to supply a plurality of sets of time series learning integration parameters for obtaining a distance transition model of a word.
  • time axis normalization is performed for each of the learning integration parameters of the plurality of sets, and the results are combined into one learning integration parameter and output. That is, as shown in FIG. 15A, for example, as shown in FIG.
  • time axis normalizing unit 71 calculates the duration of the learning integration parameters as shown in Fig. 15
  • time axis normalization is performed so that the time is Tc.
  • the time-axis normalizing unit 71 calculates, for example, an average value of sample values at the same time of a plurality of learning integration parameters subjected to time-axis normalization, One learning integration parameter is generated with the average value as the sample value at each time.
  • the method of combining a plurality of learning integration parameters into one learning integration parameter is not limited to this.
  • the time axis normalizing unit 71 converts the one learning integration parameter into the time axis. Normalize and output as is It has been made to be.
  • the distance calculation unit 72 learns each code vector stored in the codebook stored in the codebook storage unit 73 and the time series supplied from the time axis normalization unit 71.
  • the distance to the integrated parameter is calculated sequentially, and the transition of the distance, that is, the transition of the learning integrated parameter from time # 0 to #Tc, normalized to the time axis, and the distance between each code vector Is supplied to the polynomial expression unit 74.
  • the codebook storage unit 73 stores the same codebook as the codebook stored in the codebook storage unit 63 of FIG.
  • the codebooks in the codebook storage units 63 and 73 may be the same as or different from those created by the codebook creation unit 52 (FIG. 8).
  • the polynomial expression unit 74 obtains a polynomial approximating the transition of the distance from the code vector supplied from the distance calculation unit 72, and outputs it as a distance transition model. That is, in the polynomial expression unit 74, the transition of the distance as shown in FIG. 16 is approximated by a curve represented by a polynomial as shown in FIG. 12A.
  • a plurality of sets of time-series learning integration parameters for obtaining a distance transition model of a word are supplied to the time axis normalization section 71, and the time axis normalization section 71 executes the process in step S41. Then, time axis normalization is performed for each of the plurality of sets of learning integration parameters, and they are combined into one learning integration parameter and output to the distance calculation unit 72.
  • the distance calculation unit 72 stores the codebook storage unit 73 as shown in FIG. 16 in step S42. The distance between each code vector of the book and the time-series learning integrated parameters supplied from the time axis normalizing unit 71 is sequentially calculated, and the transition of the distance is supplied to the polynomial expression unit 74. .
  • step S43 the polynomial representation unit 74 approximates the transition of the distance between the learning integration parameter (standard sequence) and the code vector supplied from the distance calculation unit 72, and the Nd-order
  • the polynomial is determined, for example, by the least squares method.
  • an Nd-order polynomial f i (t) that approximates the distance between the learning integration parameter at time t and the code vector C j can be expressed as follows.
  • fj (t) a, o + a ji t 1 + a J 2 t 2 -f--+ a jN dt Nd
  • the polynomial expression unit 74 converts the expression (7) into a code vector C. , C • ⁇ ⁇ ⁇ C; by solving for each of them, the approximation of the transition of the distance between the learning integration parameter and each of the code vectors C 0 , C ⁇ ⁇ ⁇ , C j Find the set A of coefficients that specify the d-th order polynomial f ”(t).
  • step S44 the polynomial representation unit 74 determines whether the transition of the distance approximated by the set A of the coefficients in the equation (8) and the actual transition as shown in FIG.
  • the cumulative value of the square error with respect to the transition of the distance for each code vector C] is obtained and stored together with the coefficient set A, and the process proceeds to step S45.
  • step S45 the polynomial expression unit 74 determines whether or not the above-described accumulated value of the square error has been obtained for all the orders Nd in the prepared range.
  • step S45 If it is determined in step S45 that the cumulative value of the square error has not yet been calculated for all the orders Nd in the range prepared in advance, the process proceeds to step S46, where the polynomial expression unit 7 4 and c to change the order N d of equation (6) polynomial fj (t) shown in, yet value not yield a cumulative value of the square error, the process returns to step S 4 3, the order of the changed Similar processing is repeated for N d.
  • step S45 if it is determined that the accumulated value of the square error has been obtained for all the orders Nd in the range prepared in advance, the process proceeds to step S47, where the polynomial expression unit 74
  • the polynomial fi which detects the minimum value of the accumulated square error of the transition of the distance for all the orders N d in the range prepared in advance and stores it together with the minimum value, is stored in S44.
  • the time axis normalization of the time series learning integrated parameters is performed, and the distance between the time axis normalized learning integrated parameters (standard series) and the code vector is calculated. Since the distance transition model representing the transition of is obtained, it is possible to obtain a model that conforms to the original number of states and the form of state transition of the recognition target. Therefore, according to such a distance transition model, the steady state and the transient state of the recognition target are accurately represented, and as a result, the recognition rate can be improved.
  • the transition of the distance is approximated by a polynomial
  • the transition of the distance can be expressed only by the coefficient defining the polynomial, that is, with a small amount of data.
  • the degree N d of the polynomial approximating the transition of distance is determined so that the cumulative value of the square error is minimized, so that the transition of distance can be expressed accurately by the polynomial. it can.
  • the integrated parameters are used as learning data in Fig. 14, when recognition is performed with a single feature parameter, Learning may be performed using the single feature parameter as learning data.
  • the above-described learning method of the distance transition model does not depend on the type or dimension of the feature parameter, and therefore can be applied regardless of the type or dimension of the feature parameter.
  • matching of the actual distance transition as shown in Fig. 16 is performed using a distance transition model approximated by a polynomial as shown in Fig. 12A.
  • matching can also be performed using the actual distance transition as shown in Fig. 16 as a distance transition model.
  • FIG. 18 shows an example of the configuration of the spatial distribution scheme matching section 32 of FIG.
  • the vector quantization unit 81 is configured to supply the integrated parameters from the integrated parameter generation circuit 2 in FIG. 1 in time series, and the vector quantization unit 81 converts the integrated parameters of the time series into and base click preparative Le quantized using a codebook storage unit 82 in the stored codebook, a sequence of code as its vector quantization result, sequential, chi-square (FIG. 2) assay portion 8 3 To be supplied.
  • the codebook storage unit 82 stores a codebook used for vector quantization in the vector quantization unit 81.
  • the chi-square test unit 83 refers to the expected frequency storage unit 84, and finds the spatial distribution of the code sequence from the vector quantization unit 81 as the code sequence obtained when the word to be recognized is spoken. The power as to whether it is similar to the spatial distribution, that is, the integrated parameter power supplied to the vector quantization unit 81 1
  • the chi-square test (Hi Square test) Test), and sort section 85 It is made to supply.
  • the expected frequency storage unit 84 is used when the integrated parameter corresponding to the word to be recognized is input for each code corresponding to the code vector of the codebook stored in the codebook storage unit 82. Observed in
  • the sorting unit 85 determines the suitability of the top Nb items based on the suitability of the input integrated parameter supplied from the chi-square test unit 83 to whether or not the integrated parameter corresponds to the word to be recognized. These words are selected and output to the decision circuit 4 (Fig. 1) as a matching result by the space distribution method.
  • the spatial distribution matching unit 32 configured as described above performs matching by the spatial distribution method.
  • the matching process by the spatial distribution method will be described with reference to the flowchart of FIG. .
  • the integrated parameters to be recognized are supplied to the vector quantization unit 81 in a time series, and the vector quantization unit 81 sequentially converts the integrated parameters of the time series into vectors in step S51. It quantizes and supplies the code sequence as a result of the quantization to the chi-square test unit 83.
  • the chi-square test unit 83 obtains the spatial distribution of the code sequence from the vector quantization unit 81 in step S52. That is, the chi-square test unit 83 counts the number of times each code is observed in the code sequence from the vector quantization unit 81 (hereinafter, appropriately referred to as an observation frequency). Then, the process proceeds to step S53, and the chi-square test unit 83 calculates The observed frequency of each code and the expected frequency stored in the expected frequency storage unit 84, which is the number of times each code is expected to be observed when the word to be recognized is uttered, are calculated.
  • the observed frequency of each code for the input integrated parameter is similar to the expected frequency of each code for the word to be recognized (hereinafter referred to as ) And supply it to the sorting unit 85. That is, the chi-square test unit 83 expresses the observed frequency of a certain code #j as F j, and the expected frequency of a certain code #j of a certain word W as f, the following equation 2 (Chi-square) is calculated, and the reciprocal thereof is supplied to the sorting unit 85 as the similarity to the word W, for example.
  • the sorting unit 85 Upon receiving the similarities for all the words to be recognized from the chi-square testing unit 83, the sorting unit 85 selects the top Nb with the highest similarity among them in step S54. Then, the process proceeds to step S55, where the matching result is output to the decision circuit 4 by the spatial distribution method. The process ends.
  • the similarity between the distribution state of the input integrated parameter and the distribution state of the integrated parameter of the word to be recognized in the integrated parameter space is determined by the chi-square test.
  • the similarity is not affected by the temporal variation of the input speech. That is, the time of the input speech (the length of the speech section) affects the observation frequency used for the chi-square test, but the observation frequency of each code increases or decreases by a value proportional to the length of the speech section.
  • the chi-square test result is not affected. Therefore, recognition can be performed without considering the time component of the voice, and as a result, the recognition rate can be improved.
  • FIG. 20 shows a configuration of an embodiment of a learning device that performs learning to obtain the expected frequency of each code for each word to be recognized stored in the expected frequency storage unit 84 of FIG.
  • the vector quantization unit 91 is supplied with a time-series learning integrated parameter for learning the expected frequency for the word to be recognized, and the vector quantization unit 91
  • the learning integrated parameters of the sequence are subjected to vector quantization using the codebook stored in the codebook storage unit 92, and the code sequence as the vector quantization result is supplied to the expected frequency calculation unit 93. Has been made.
  • the codebook storage unit 92 stores the same codebook as the codebook stored in the codebook storage unit 82 in FIG. Note that the codebooks in the codebook storage units 82 and 92 may be the same as or different from those created by the codebook creation unit 52 (FIG. 8).
  • the expected frequency calculation section 93 counts the number of times each code is observed in the sequence of codes from the beta quantization section 91.
  • the vector quantization unit 91 includes, for one word to be recognized, for example, a plurality of learning integrated parameters of a time series (obtained by uttering different speakers or uttering the same speaker multiple times).
  • step S61 a variable i force S for counting the number of the integrated parameters, for example, 1 is initialized, and the process proceeds to step S62.
  • step S62 the first learning integration parameter of the plurality of learning integration parameters is supplied to the vector quantization unit 91, and the vector quantization unit 91 converts the learning integration parameter into a vector. Quantize.
  • the sequence of codes obtained as a result of the vector quantization is supplied to the expected frequency calculation unit 93, and the process proceeds to step S63.
  • step S63 the number of times each code is observed in the sequence of codes from the vector quantization unit 91 is integrated, and the observation frequency of each code is obtained. Then, the process proceeds to step S64, and it is determined whether there is a learning integrated parameter to be processed next. If it is determined that there is, the process proceeds to step S65, where the variable i is incremented by one. You. Then, the process proceeds to step S62, and the same process is repeated for the learning integrated parameter to be processed next. That is, thereby, the observation frequency of each code observed from a plurality of learning integration parameters for a certain word is accumulated.
  • step S64 the learning integration parameters to be processed next are If it is determined that there is no data, the process proceeds to step S66, where the integrated value of the observed frequency of each code is divided by, for example, the variable i, that is, observed from a plurality of learning integration parameters for a certain word. The average value of the observed frequencies of each code is obtained, the average value of the observed frequencies of each code is output as the expected frequency of each code for the word, and the process ends. The processing in FIG. 21 is performed for each of the words to be recognized.
  • FIG. 22 shows a configuration example of the determination circuit 4 in FIG.
  • the score calculation unit 101 is supplied with the top Nb matching results of the distance transition method output from the distance transition method matching unit 31 and is supplied to the score calculation unit 102.
  • the upper Nb matching results by the spatial distribution method which are output by the spatial distribution method matching unit 32, are supplied.
  • the score calculation unit 101 assigns higher scores to the top Nb matching results by the distance transfer method in descending order, and outputs the result to the score addition unit 103. I have.
  • the score calculation unit 102 assigns a high score to the top Nb matching results by the spatial distribution method in descending order of the ranking, and outputs the result to the score addition unit 103.
  • the score addition unit 103 adds the scores of the matching results of the same word from the top N b matching results from the score calculation units 101 and 102, and calculates the added value.
  • the maximum score detection unit 104 is supplied.
  • the maximum score detection unit 104 detects the maximum value of the scores supplied from the score addition unit 103 and outputs the word giving the maximum score as the final speech recognition result. ing. Next, the processing of the determination circuit 4 of FIG. 22 will be described with reference to the flowchart of FIG.
  • the distance transition method matching unit 31 supplies the top Nb matching results by the distance transition method to the score calculation unit 101, and the spatial distribution method to the score calculation unit 102.
  • step S71 the score calculation unit 101 converts the top Nb matching results by the distance transition method into On the other hand, a higher score is assigned in the descending order of the rank, and the score is output to the score adder 103.
  • the score calculator 102 obtains the top Nb matching results by the spatial distribution method. Higher scores are assigned in the descending order of the ranks, and output to the score adder 103.
  • the score assigned to the matching result may be, for example, a value that changes linearly with respect to the ranking of the matching result, or a value that changes nonlinearly.
  • step S72 the score adding unit 103 adds the scores of matching results of the same word from among the top Nb matching results from the score calculating units 101 and 102, respectively. The sum is output to the maximum score detector 104.
  • the score adding unit 103 applies, for a word included in only one of the top Nb matching results from the score calculating units 101 and 102, a score assigned to the word. Is supplied to the maximum score detector 104 as it is.
  • the maximum score detection unit 104 detects the maximum value of the scores supplied from the score addition unit 103 in step S73, and determines the word that gives the maximum score in the final speech. Output as recognition result, The process ends.
  • FIG. 24 shows a configuration example of an embodiment of a computer on which a program for executing the above-described series of processes is installed.
  • the program can be recorded in advance on a hard disk 205 or ROM 203 as a recording medium built in the computer.
  • the program may be a removable storage medium such as a floppy disk, CD-ROM (Compact Disk Read Only Memory), MO (Magneto Optical) disk, DVD (Digital Versatile Disk), magnetic disk, or semiconductor memory. 1 can be stored temporarily or permanently.
  • a removable recording medium 211 can be provided as so-called package software.
  • the program can be installed in the computer from the removable recording medium 211 as described above, or transmitted from the download site via a satellite for digital satellite broadcasting to the computer in a wireless manner. (Local Area Network), the Internet, and the like. It can be received by the communication unit 208 and installed on the built-in hard disk 205.
  • the computer has a CPU (Central Processing Unit) 202 built-in.
  • the CPU 202 is connected to an input / output interface 120 via a bus 201, and the CPU 202 is connected to the keyboard / mouse or the like by the user via the input / output interface 120.
  • the program stored in the ROM (Read Only Memory) 203 is executed in accordance with the instruction.
  • the CPU 202 may execute a program stored on the hard disk 205, a program transferred from a satellite or a network, received by the communication unit 208 and installed on the hard disk 205, or The program read from the removable recording medium 211 mounted on the drive 209 and installed on the hard disk 205 is loaded into a RAM (Random Access Memory) 204 and executed.
  • the CPU 202 executes various processes according to the above-described flowchart. Then, the CPU 202 transmits the processing result to an output unit 2 composed of an LCD (Liquid Crystal Display), a speaker, or the like, as necessary, for example, via an input / output interface 120. 06, or transmitted from the communication unit 208, and further recorded on the hard disk 205.
  • an output unit 2 composed of an LCD (Liquid Crystal Display), a speaker, or the like, as necessary, for example, via an input / output interface 120. 06, or transmitted from the communication unit 208, and further recorded on the hard disk 205.
  • processing steps for writing a program for causing a computer to perform various kinds of processing do not necessarily need to be processed in chronological order in the order described as a flowchart, and may be performed in parallel or in parallel. Processes that are performed individually (for example, parallel processing or Object processing).
  • the program may be processed by one computer, or may be processed in a distributed manner by a plurality of computers. Further, the program may be transferred to a remote computer and executed.
  • the speech recognition apparatus to which the present invention is applied has been described above.
  • the present invention is also applicable to, for example, apparatuses for recognizing speakers, images, and the like.
  • INDUSTRIAL APPLICABILITY According to the learning apparatus, the learning method, and the recording medium according to the present invention, the expected frequency of each identifier is calculated from a series of identifiers obtained from time-series learning data. Therefore, by using the expected frequency, recognition can be performed without considering the time component of the signal.
  • a vector of identifiers indicating a code vector is output by performing vector quantization on input data, and the input data is used as a recognition target.
  • the appropriateness of the correspondence is determined using the sequence of identifiers obtained from the input data and the expected frequency of the identifiers. Then, based on the appropriateness, it is recognized whether or not the input data matches the recognition target. Therefore, recognition can be performed without considering the time component of the input data, and as a result, the recognition rate can be improved.
  • the learning device and the learning method according to the present invention and the recording medium, The distance between the standard series and the code vector is calculated, and a distance transition model representing the transition of the distance is output. Therefore, the steady state and transient state of the recognition target can be accurately represented by the distance transition model.
  • time-series input data is vector-quantized using a codebook, and a sequence of identifiers corresponding to the code vector is output. Then, based on a distance transition model representing a transition of the distance between the standard sequence and the code vector and a sequence of identifiers of the input data, whether the input data matches at least one recognition target is determined. Is recognized. Therefore, the recognition rate can be improved.
  • the recognition device, the recognition method, and the recording medium of the present invention the first and second time-series input data are integrated, and the time-series integrated data is output. Then, based on the transition of the distance obtained from the solid based on the time-series integrated data, it is recognized whether the first or second input data matches at least one recognition target. Therefore, the recognition rate can be improved.
  • each of the plurality of feature parameters is normalized based on the normalization coefficient, and the normalized plurality of feature parameters are compared with the standard parameters. Is calculated. Then, the normalization coefficient is changed such that the distance for any one of the plurality of feature parameters is equal to the distance for the other arbitrary one. Therefore, it is possible to obtain a normalization coefficient that can perform normalization so that each of the multiple feature parameters can be treated with the same weight. Become.
  • the feature parameters of each of the plurality of input data are normalized, and the normalized plurality of feature parameters are integrated into an integrated parameter ( and Based on the integrated parameters, it is recognized whether or not one or more of the plurality of input data is for the recognition target, so that the recognition can be prevented from being strongly affected by certain input data. Become.

Description

明細書 学習装置及び学習方法、 認識装置及び認識方法、 並びに記録媒体 技術分野 本発明は、 学習装置及び学習方法、 認識装置及び認識方法、 並び に記録媒体に関し、 特に、 例えば、 音声などの、 いわば非線形な時 間成分を有する信号を、 その時間成分を考慮せずに認識を行うこと ができるようにする学習装置及び学習方法、 認識装置及び認識方法、 並びに記録媒体に関する。
また、 本発明は、 特に、 例えば、 状態の遷移等を、 十分に表現可 能なモデルを提供することにより、 音声等の認識率を向上させるこ とができるようにする学習装置及び学習方法、 認識装置及び認識方 法、 並びに記録媒体に関する。
さらに、 本発明は、 特に、 例えば、 音声の認識を、 音声と、 その 発話がなされたときの口唇の画像とに基づいて行う場合に、 音声と 画像のパラメータを、 いわば同一の重みで扱うことができるように することにより、 認識性能を向上させることができるようにする学 習装置及び学習方法、 認識装置及び認識方法、 並びに記録媒体に関 する。 背景技術 例えば、 音声については、 同一人が同一単語を発話しても、 その 長さが、 発話ごとに、 非線形に伸縮する。 したがって、 音声認識を 行う場合には、 その非線形な時間の伸縮に対処する必要があり、 例 えば、 D P (Dynami c Programming) マッチング法は、 非線形な時間 軸伸縮を行うことにより時間正規化 (D T W (Dynami c Time Warpin g) ) を行いながら、 標準パターンとのマッチングを行う手法の 1つ として知られている。
しかしながら、 D Pマッチング法により時間軸伸縮を行っても、 入力された音声の音素と、 標準パターンの音素とが正しく対応する 保証はなく、 音素どう しが正しく対応しない場合には、 誤認識する ことになる。
一方、 音声の非線形な時間成分を考慮せずにマッチングを行うこ とができれば、 上述したような時間軸伸縮に起因する誤認識を防止 することができることになる。
また、 例えば、 音声を認識するアルゴリズムとしては、 従来より、 H M (Hi dden Markov Models) 法などが知られている。 離散 H M M法では、 予め学習を行うことにより、 認識対象に対応するモデル が求められ、 各モデルから、 入力された音声に対応する入力系列が 観測される確率 (観測確率) 力 そのモデルに与えられた状態遷移 確率 (ある状態から他の状態へ遷移 (自分自身への遷移も含むのが 一般的である) する確率) や出力確率 (状態が遷移するときに、 あ るコード (ラベル) (シンボル) が出力される確率) に基づいて計 算される。 そして、 その観測確率に基づいて、 入力された音声の認 識が行われる。
ところで、 H MM法における学習は、 システムの製作者が、 モデ ルの状態数や状態遷移の形態 (例えば、 ある状態からの状態の遷移 /2
は、 自分自身と自分の右隣の状態のいずれか一方にのみ限られるな どといった状態遷移の制限) を決定し、 そのようなモデルを用いて 行われる。
しかしながら、 システムの製作者が、 いわば勝手に決定した状態 数や状態遷移の形態のモデルが、 認識対象が有する本来の状態数や 状態遷移の形態に沿うものとは限らない。 そして、 システムの製作 者が決定したモデルが、 認識対象が有する本来の状態数や状態遷移 の形態に沿わないものである場合には、 そのモデルによっては、 認 識対象の定常状態や過渡状態を正確に表現することができず、 その 結果、 認識率が劣化するおそれがある。
さらに、 例えば、 音声の認識は、 その音声から、 特徴パラメータ を抽出し、 その特徴パラメータを、 基準となる標準パラメータ (標 準パターン) と比較することで行われる。
ところで、 音声の認識を、 その音声のみに基づいて行う場合には、 その認識率を向上させるのに、 ある程度の限界がある。 そこで、 音 声の認識を、 その音声の他、 発話を行っている話者の口唇を撮影し た画像などをも用いて行うことにより、 その認識率を向上させる方 法が考えられる。
そして、 この場合、 音声から抽出した特徴パラメータと、 口唇の 画像から抽出した特徴パラメータとを統合 (結合) して、 いわば統 合パラメータとし、 この統合パラメータを用いて、 音声の認識を行 うことが考えられる。
しかしながら、 音声の特徴パラメータと、 画像の特徴パラメータ とを、 単に並べて (つなぎ合わせて) 統合パラメータとし、 認識を 行う場合には、 音声又は画像のうちのいずれか一方の影響を強く受 け、 即ち、 いずれか一方の特徴パラメータの重みが大きく、 認識率 の向上の妨げになるおそれがある。
発明の開示
本発明は、 このような実情に鑑みてなされたものであり、 本発明 の目的は、 信号が有する時間成分を考慮せずに認識を行うことがで きるようにすることにより、 認識率を向上させることができるよう にするものである。
また、 本発明の目的は、 認識対象が有する本来の状態数等を、 十 分に表現可能なモデルを提供することにより、 音声等の認識率を向 上させることができるようにするものである。
さらに、 本発明の目的は、 音声や画像などの異なる入力の特徴パ ラメータを、 同等の重みで扱うことができるようにし、 これにより、 認識性能を向上させることができるようにするものである。
以上の目的を達成するために、 本発明に係る学習装置は、 時系列 の学習データから得られた、 コードべク トルを示す識別子の系列か ら、 各識別子の期待度数を算出する算出手段を備えることを特徴と する。
本発明に係る学習方法は、 時系列の学習データから得られた、 コ 一ドべク トルを示す識別子の系列から、 各識別子の期待度数を算出 することを特徴とする。
本発明に係る記録媒体は、 時系列の学習データから得られた、 コ 一ドべク トルを示す識別子の系列から、 各識別子の期待度数を算出 する算出ステップを有するプログラムが記録されていることを特徴 とする。
本発明に係る認識装置は、 入力データをベク トル量子化し、 コー ドべク トルを示す識別子の系列を出力するべク トル量子化手段と、 入力データが、 認識対象に対応するものであるかどうかの適正さを. 入力データから得られる識別子の系列及び識別子の期待度数を用い て求める適正さ検出手段と、 その適正さに基づいて、 入力データが 認識対象に一致するか否かを認識する認識手段とを備えることを特 徴とする。
本発明に係る認識方法は、 入力データをベク トル量子化し、 コー ドべク トルを示す識別子の系列を出力し、 入力データが、 認識対象 に対応するものであるかどうかの適正さを、 入力データから得られ る識別子の系列、 及び識別子が観測されることが期待される期待度 数を用いて求め、 その適正さに基づいて、 入力データが認識対象に 一致するか否かを認識することを特徴とする。
本発明に係る記録媒体は、 入力データをベク トル量子化し、 コー ドべク トルを示す識別子の系列を出力するべク トル量子化ステップ と、 入力データが、 認識対象に対応するものであるかどうかの適正 さを、 入力データから得られる識別子の系列、 及び識別子が観測さ れることが期待される期待度数を用いて求める適正さ検出ステップ と、 その適正さに基づいて、 入力データが認識対象に一致するか否 かを認識する認識ステップとを有するプログラムが記録されている ことを特徴とする。
本発明に係る学習装置及び学習方法、 並びに記録媒体においては、 時系列の学習データから得られた識別子の系列から、 各識別子の期 待度数が算出される。 本発明に係る認識装置及び認識方法、 並びに記録媒体においては. 入力データをべク トル量子化し、 コードべク トルを示す識別子の系 列が出力され、 入力データが、 認識対象に対応するものであるかど うかの適正さが、 入力データから得られる識別子の系列、 及び識別 子が観測されることが期待される期待度数を用いて求められる。 そ して、 その適正さに基づいて、 入力データが認識対象に一致するか 否かが認識される。
本発明に係る学習装置は、 標準系列と、 コードべク トルとの間の 距離を算出し、 その距離の推移を出力する距離算出手段を備えるこ とを特徴とする。
本発明に係る学習方法は、 標準系列と、 コードベク トルとの間の 距離を算出し、 その距離の推移を出力することを特徴とする。
本発明に係る記録媒体は、 標準系列と、 コードべク トルとの間の 距離を算出し、 その距離の推移を出力する距離算出ステップを有す るプログラムが記録されていることを特徴とする。
本発明に係る認識装置は、 標準系列と、 コードブックの各コード ベタ トルとの間の距離の推移を表す、 少なく とも 1つの認識对象に 対応した距離推移モデルを記憶している記憶手段と、 時系列の入力 データを、 コードブックを用いてベク トル量子化し、 コードべク ト ルに対応する識別子の系列を出力するべク トル量子化手段と、 距離 推移モデルと、 入力データについての識別子の系列とに基づいて、 入力データが少なく とも 1つの認識対象に一致するか否かを認識す る認識手段とを備えることを特徴とする。
本発明に係る認識方法は、 時系列の入力データを、 コードブック を用いてベタ トル量子化して、 コードべク トルに対応する識別子の 系列を出力し、 標準系列とコードべク トルとの間の距離の推移を表 す、 少なく とも 1つの認識対象に対応した距離推移モデルと、 入力 データについての識別子の系列とに基づいて、 入力データが少なく とも 1つの認識対象に一致するか否かを認識することを特徴とする c 本発明に係る記録媒体は、 時系列の入力データを、 コードブック を用いてベタ トル量子化して、 コードべク トルに対応する識別子の 系列を出力するべク トル量子化ステップと、 標準系列とコードべク トルとの間の距離の推移を表す、 少なく とも 1つの認識対象に対応 した距離推移モデルと、 入力データについての識別子の系列とに基 づいて、 入力データが少なく とも 1つの認識対象に一致するか否か を認識する認識ステップとを有するプログラムが記録されているこ とを特徴とする。
本発明に係る認識装置は、 時系列の第 1及び第 2の入力データを 統合し、 時系列の統合データを出力する統合手段と、 時系列の統合 データに基づくべク トルから得られる距離の推移に基づいて、 第 1 又は第 2のデータが少なく とも 1つの認識対象に一致するか否かを 認識する認識手段とを備えることを特徴とする。
本発明に係る認識方法は、 時系列の第 1及び第 2の入力データを 統合し、 時系列の統合データを出力し、 時系列の統合データに基づ くべク トルから得られる距離の推移に基づいて、 第 1又は第 2のデ ータが少なく とも 1つの認識対象に一致するか否かを認識すること を特徴とする。
本発明に係る記録媒体は、 時系列の第 1及び第 2の入力データを 統合し、 時系列の統合データを出力する統合ステップと、 時系列の 統合データに基づくべク トルから得られる距離の推移に基づいて、 第 1又は第 2のデータが少なく とも 1つの認識対象に一致するか否 かを認識する認識ステップとを有するプログラムが記録されている ことを特徴とする。
本発明に係る学習装置及び学習方法、 並びに記録媒体においては、 標準系列と、 コードベク トルとの間の距離が算出され、 その距離の 推移が出力される。
本発明に係る認識装置及び認識方法、 並びに記録媒体においては、 時系列の入力データが、 コードブックを用いてベタ トル量子化され、 コードベク トルに対応する識別子の系列が出力される。 そして、 標 準系列とコ一ドべク トルとの間の距離の推移を表す、 少なぐとも 1 つの認識対象に対応した距離推移モデルと、 入力データについての 識別子の系列とに基づいて、 入力データが少なく とも 1つの認識対 象に一致するか否かが認識される。
本発明に係る認識装置及び認識方法、 並びに記録媒体においては、 時系列の第 1及び第 2の入力データが統合され、 時系列の統合デー タが出力される。 そして、 その時系列の統合データに基づくベタ ト ルから得られる距離の推移に基づいて、 第 1又は第 2のデータが少 なく とも 1つの認識対象に一致するか否かが認識される。
本発明に係る学習装置は、 正規化係数に基づいて、 複数の特徴パ ラメ一タそれぞれを正規化する特徴パラメータ正規化手段と、 正規 化された複数の特徴パラメータそれぞれについて、 標準パラメータ との距離を算出する距離算出手段と、 複数の特徴パラメータのうち の任意の 1つについての距離と、 他の任意の 1つについての距離と が等しくなるように、 正規化係数を変更する変更手段とを備えるこ とを特徴とする。 本発明に係る学 ¾方法は、 正規化係数に基づいて、 複数の特徴パ ラメータそれぞれを正規化し、 正規化された複数の特徴パラメータ それぞれについて、 標準パラメータとの距離を算出し、 複数の特徴 パラメータのうちの任意の 1つについての距離と、 他の任意の 1つ についての距離とが等しくなるように、 正規化係数を変更すること を特徴とする。
本発明に係る記録媒体は、 正規化係数に基づいて、 複数の特徴パ ラメータそれぞれを正規化する特徴パラメータ正規化ステップと、 正規化された複数の特徴パラメータそれぞれについて、 標準パラメ ータとの距離を算出する距離算出ステップと、 複数の特徴パラメ一 タのうちの任意の 1つについての距離と、 他の任意の 1つについて の距離とが等しくなるように、 正規化係数を変更する変更ステップ とを有するプログラムが記録されていることを特徴とする。
本発明に係る認識装置は、 複数の入力データそれぞれの特徴パラ メータを正規化する正規化手段と、 正規化された複数の特徴パラメ ータを統合し、 統合パラメータとする統合手段と、 統合パラメータ に基づいて、 複数の入力データの 1以上が認識対象に対するものか 否かを認識する認識手段とを備えることを特徴とする。
本発明に係る認識方法は、 複数の入力データそれぞれの特徴パラ メータを正規化し、 正規化された複数の特徴パラメ一タを統合して 統合パラメータとし、 統合パラメータに基づいて、 複数の入力デー タの 1以上が認識対象に対するものか否かを認識することを特徴と する。
本発明に係る記録媒体は、 複数の入力データをそれぞれについて、 特徴パラメータを検出する検出ステップと、 複数の入力データそれ ぞれの特徴パラメータを正規化する正規化ステップと、 正規化され た複数の特徴パラメータを統合し、 統合パラメータとする統合ステ ップと、 統合パラメータに基づいて、 複数の入力データの 1以上が 認識対象に対するものか否かを認識する認識ステップとを有するプ 口グラムが記録されていることを特徴とする。
本発明に係る学習装置及び学習方法、 並びに記録媒体においては、 正規化係数に基づいて、 複数の特徴パラメータそれぞれが正規化さ れ、 正規化された複数の特徴パラメータそれぞれについて、 標準パ ラメータとの距離が算出される。 そして、 複数の特徴パラメータの うちの任意の 1つについての距離と、 他の任意の 1つについての距 離とが等しくなるように、 正規化係数が変更される。
本発明に係る認識装置及び認識方法、 並びに記録媒体においては、 複数の入力データそれぞれの特徴パラメータが正規化され、 正規化 された複数の特徴パラメータが統合されて統合パラメータとされる。 そして、 統合パラメータに基づいて、 複数の入力データの 1以上が 認識対象に対するものか否かが認識される。 図面の簡単な説明 図 1は、 本発明を適用した音声認識装置の一実施の形態の構成例 を示すプロック図である。
図 2は、 図 1の音声認識装置の処理を説明するためのフローチヤ 一トである。
図 3は、 図 1の信号処理部 1 1 ,の一実施の形態の構成例を示すブ ロック図である。 図 4は、 図 3の信号処理部 1 1 ,の処理を説明するためのフローチ ヤートである。
図 5は、 全体重心、 上重心、 下重心、 分割重心を示す図である。 図 6 A, 6 Bは、 図 3の楕円近似部 4 8 U及び 4 8 Dの処理を説 明するための図である。
図 7は、 図 3の口唇パラメータ出力部 4 9が出力する口唇の特徴 パラメータを説明するための図である。
図 8は、 図 1のメディァ間正規化部 2 1が用いる正規化係数の学 習を行う学習装置の一実施の形態の構成例を示すプロック図である。 図 9は、 図 8の学習装置の処理を説明するためのフローチヤ一ト である。
図 1 0は、 図 1の距離推移方式マツチング部 3 1の一実施の形態 の構成例を示すブロック図である。
図 1 1 A , 1 1 Bは、 図 1 0の時間軸正規化部 6 1の処理を説明 するための図である。
図 1 2 A, 1 2 Bは、 図 1 0の距離推移モデル記憶部 6 5に記憶 されている距離推移モデルを説明するための図である。
図 1 3は、 図 1 0の距離推移方式マッチング部 3 1の処理を説明 するためのフローチャートである。
図 1 4は、 距離推移モデルを求める学習を行う学習装置の一実施 の形態の構成例を示すプロック図である。
図 1 5 A, 1 5 B , 1 5 Cは、 図 1 4の時間軸正規化部 7 1の処 理を説明するための図である。
図 1 6は、 図 1 4の距離計算部 7 2が出力する距離の推移を示す 図である。 図 1 7は、 図 1 4の学習装置の処理を説明するためのフローチヤ ートである。
図 1 8は、 図 1の空間分布方式マッチング部 3 2の一実施の形態 の構成例を示すプロック図である。
図 1 9は、 図 1 8の空間分布方式マッチング部 3 2の処理を説明 するためのフローチヤ一トである。
図 2 0は、 図 1 8の期待度数記憶部 8 4に記憶されている期待度 数を求める学習を行う学習装置の一実施の形態の構成例を示すプロ ック図である。
図 2 1は、 図 2 0の学習装置の処理を説明するためのフローチヤ 一トである。
図 2 2は、 図 1の判定回路 4の構成例を示すプロック図である。 図 2 3は、 図 2 2の判定回路 4の処理を説明するためのフローチ ヤートである。
図 2 4は、 本発明を適用したコンピュータの一実施の形態の構成 例を示すブロック図である。 発明を実施するための最良の形態 図 1は、 本発明を適用した音声認識装置の一実施の形態の構成例 を示している。 この音声認識装置には、 ユーザが発話した音声をマ イク口フォンで集音した発話データの他、 そのユーザが発話してい る口唇をビデオカメラで撮影した画像のデータ (画像データ) 、 ュ —ザが発話した環境における雑音のデータ (雑音データ) 、 その他 のユーザの発話 (音声) を認識するのに役立ちうるデータ (例えば、 ユーザが発話を行っている場所を入力するボタンが装置に設けられ ている場合において、 そのボタンが操作されたときの、 その操作に 対応する信号や、 音声認識を行う環境の温度を計測する温度センサ の出力など) 力 時系列に、 順次入力されるようになされており、 これらのデータを必要に応じて考慮して、 発話データの認識が行わ れるようになされている。
即ち、 パラメータ化回路 1には、 上述した発話データ、 口唇の画 像データ、 雑音データ、 その他のデータ (ここでは、 いずれもディ ジタルデータとする) が入力されるようになされている。 そして、 パラメータ化回路 1は、 そこに入力される各種のデータそれぞれを 処理するための信号処理部 1 1 ,乃至 1 1 Nを有しており、 発話デー タ、 口唇の画像データ、 雑音データ、 その他のデータを、 対応する 信号処理部 1 1 n ( n = 1, 2, · · ·, N : Nは、 パラメータ化回 路 1に入力可能な信号の最大の種類数) において処理することによ り、 各データの特徴を表す特徴パラメータの抽出等を行うようにな されている。 パラメータ化回路 1で抽出された特徴パラメータは、 統合パラメータ生成回路 2に供給されるようになされている。 ここで、 図 1の実施の形態では、 信号処理部 1 1 !, 1 1 2、 又は 1 1 Nそれぞれにおいて、 口唇の画像データ、 発話データ、 又は雑音 データが処理されるようになされている。 なお、 発話データや雑音 データなどの音声 (音響) データの特徴パラメータとしては、 例え ば、 線形予測係数や、 ケプス トラム (Cepstrum) 係数、 パワー、 線 スぺク トル対 (Line Spectrum Pair) 、 ゼロクロスなどがある。 ま た、 口唇の画像データの特徴パラメータについては、 後述する。 統合パラメータ生成回路 2は、 メディア間正規化部 2 1及び統合 パラメータ生成部 2 2で構成され、 パラメータ化回路 1からの各種 の信号の特徴パラメータを統合した統合パラメータを生成するよう になされている。
即ち、 メディア間正規化部 2 1は、 パラメータ化回路 1からの各 種の信号の特徴パラメータを、 同一の重み (スケール) で扱うこと ができるように正規化し、 統合パラメータ生成部 2 2に出力するよ うになされている。 統合パラメータ生成部 2 2は、 メディア間正規 化部 2 1から供給される、 各種の信号の、 正規化された特徴パラメ —タを統合する (つなぎ合わせる) ことにより、 統合パラメータを 生成し、 マツチング回路 3に出力するようになされている。
マッチング回路 3は、 統合パラメータと、 標準パターン (認識対 象のモデル) とのマッチングを行い、 そのマッチング結果を、 判定 回路 4に出力するようになされている。 マッチング回路 3は、 距離 推移方式マッチング部 3 1及び空間分布方式マッチング部 3 2を有 している。 距離推移方式マッチング部 3 1は、 後述する距離推移モ デルを用いて、 後述する距離推移方式による統合パラメータのマッ チングを行い、 そのマッチング結果を、 判定回路 4に出力するよう になされている。 空間分布方式マッチング部 3 2は、 後述する空間 分布方式による統合パラメータのマツチングを行い、 そのマツチン グ結果を、 判定回路 4に出力するようになされている。
判定回路 4は、 マッチング回路 3の出力、 即ち、 ここでは、 距離 推移方式マッチング部 3 1及ぴ空間分布方式マッチング部 3 2にお けるマッチング結果に基づいて、 ユーザの発話 (音声) を認識し、 その認識結果としての、 例えば、 単語を出力するようになされてい る。 次に、 図 2のフローチャートを参照して、 図 1の音声認識装置の 処理について説明する。 音声認識装置では、 発話データ、 口唇の画 像データ、 雑音データ等が入力されると、 それらのデータが、 パラ メータ化回路 1に供給される。 なお、 パラメータ化回路 1には、 口 唇の画像データとともに、 あるいは口唇の画像データに替えて、 発 話者のジ スチヤを撮影した画像データや、 喉の (筋肉の) 動きを 撮影した画像データ (又は喉の動きを計測するセンサの出力) 等を 入力するようにすることも可能である。
パラメータ化回路 1は、 ステップ S 1において、 発話データ、 口 唇の画像データ、 雑音データ等を処理し、 それぞれのデータについ て、 特徴パラメータを抽出する。 各データの特徴パラメータは、 統 合パラメータ生成回路 2に供給される。
統合パラメータ生成回路 2のメディア間正規化部 2 1は、 ステツ プ S 2において、 パラメータ化回路 1からの各データの特徴パラメ ータを正規化し、 その正規化された特徴パラメータを、 統合パラメ ータ生成部 2 2に供給する。 統合パラメータ生成部 2 2は、 ステツ プ S 3において、 メディア間正規化部 2 1からの各データの正規化 された特徴パラメータを統合し、 統合パラメータとする。 この統合 パラメータは、 マッチング回路 3の距離推移方式マッチング部 3 1 及ぴ空間分布方式マッチング部 3 2に供給され、 ステップ S 4に進 む。
ステップ S 4では、 距離推移方式マッチング部 3 1が、 統合パラ メータ生成回路 2からの統合パラメータのマツチングを、 距離推移 方式によって行う。 さらに、 ステップ S 4では、 空間分布方式マツ チング部 3 2が、 統合パラメータ生成回路 2からの統合パラメータ のマッチングを、 空間分布方式によって行う。 そして、 距離推移方 式マッチング部 3 1及ぴ空間分布マッチング部 3 2によるマツチン グ結果は、 判定回路 4に供給される。 判定回路 4は、 ステップ S 5 において、 マッチング回路 3からのマッチング結果に基づき、 発話 データの認識を行い、 その認識結果 (音声認識結果) を出力して、 処理を終了する。
次に、 図 1におけるパラメータ化回路 1の信号処理部 1 1 ,は、 上 述したように、 口唇の画像データを処理し、 その特徴パラメータを 抽出するようになっているが、 図 3は、 そのような信号処理部 1 1 ,の構成例を示している。
口唇の画像データは、 Y I Q変換部 4 1に供給されるようになさ れており、 Y I Q変換部 4 1は、 口唇の画像データを、 Y I Qで表 される信号に変換するようになされている。 即ち、 信号処理部 1 1 ,に入力される口唇の画像データは、 例えば、 R G B ( Red, Green, Blue) で表現されており、 Y I Q変換部 4 1は、 そのような R G B で表現された口唇の画像データを、 Y I Qで表現されたものに変換 し、 Q成分抽出部 4 2に供給するようになされている。
Q成分抽出部 4 2は、 Y I Q変換部 4 1からの Y I Qで表現され た口唇の画像データのうちの、 Q成分の信号レベルが閾値以上とな つている画素を抽出し、 その画素を、 口唇を構成する画素 (以下、 適宜、 口唇画素という) として、 全体重心算出部 4 3、 上重心/下 重心算出部 4 4、 分割重心算出部 4 5、 及び分割部 4 6に出力する ようになされている。
全体重心算出部 4 3は、 Q成分抽出部 4 2からの口唇画素全体の 重心 (以下、 適宜、 全体重心という) を求め、 上重心 下重心算出 部 4 4及び分割重心算出部 4 5に供給するようになされている。 上重心 Z下重心算出部 4 4は、 後述する上重心及び下重心を求め るようになされている。 即ち、 上重心/下重心算出部 4 4は、 全体 重心算出部 4 3からの全体重心に基づいて、 口唇画素を、 上唇を構 成する画素 (以下、 適宜、 上唇画素という) と、 下唇を構成する画 素 (以下、 適宜、 下唇画素という) とに仮に分割するようになされ ている。 さらに、 上重心 下重心算出部 4 4は、 上唇画素全体の重 心 (以下、 適宜、 上重心という) 、 及び下唇画素全体の重心 (以下、 適宜、 下重心という) を求め、 分割重心算出部 4 5に出力するよう になされている。
分割重心算出部 4 5は、 口唇画素を、 上唇画素と下唇画素とに最 終的に分割するための、 その分割の基準となる点 (以下、 適宜、 分 割重心という) を、 全体重心算出部 4 3からの全体重心、 並びに上 重心 下重心算出部 4 4からの上重心及び下重心に基づいて求め、 分割部 4 6に出力するようになされている。
分割部 4 6は、 Q成分抽出部 4 2からの口唇画素を、 分割重心算 出部 4 5からの分割重心に基づいて、 上唇画素と下唇画素とに分割 し、 上唇画素はミラー領域生成部 4 7 Uに、 下唇画素はミラー領域 生成部 4 7 Dに、 それぞれ出力するようになされている。
ミラー領域生成部 4 7 Uは、 上唇画素について、 後述するミラー 領域を構成し、 上唇画素とともに、 楕円近似部 4 8 Uに供給するよ うになされている。 ミラー領域生成部 4 7 Dは、 下唇画素について、 ミラー領域を構成し、 下唇画素とともに、 楕円近似部 4 8 Dに供給 するようになされている。
楕円近似部 4 8 Uは、 ミラー領域生成部 4 7 Uからの上唇画素と そのミラー領域を近似する楕円を求め、 その楕円を規定するパラメ ータ (楕円パラメータ) を、 口唇パラメータ出力部 4 9に供給する ようになされている。 楕円近似部 4 8 Dは、 ミラー領域生成部 4 7
Dからの下唇画素とそのミラー領域を近似する楕円を求め、 その楕 円を規定する楕円パラメータを、 口唇パラメータ出力部 4 9に供給 するようになされている。
口唇パラメータ出力部 4 9は、 楕円近似部 4 8 U及ぴ 4 8 Dから の楕円パラメータのうち、 重複するものを削除し、 残りを、 口唇の 特徴を表す特徴パラメータである口唇パラメータとして出力するよ うになされている。
次に、 図 4のフローチャートを参照して、 図 3の信号処理部 1 1
,の処理について説明する。 Y I Q変換部 4 1は、 例えば、 R G Bで 表現された口唇の画像データを受信すると、 ステップ S 1 1におい て、 Y I Q変換行列を用いて、 その画像データを、 Y I Qで表現さ れたものに変換し、 Q成分抽出部 4 2に供給する。
Q成分抽出部 4 2は、 ステップ S 1 2において、 Y I Q変換部 4
1からの Y I Qで表現された口唇の画像データのうちの、 Q成分が 閾値以上となっている画素を抽出し、 その画素を、 口唇画素として、 全体重心算出部 4 3、 上重心 下重心算出部 4 4、 分割重心算出部 4 5、 及び分割部 4 6に出力する。
ここで、 本件発明者が行った調査によれば、 口唇を構成する画素
(口唇画素) は、 比較的、 Q成分が大きくなり、 Q成分の大きい画 素を抽出することで、 口唇画素を比較的精度良く抽出することがで きることが分かっている。 なお、 Q成分は、 赤系統の色の成分であ るが、 R G Bで表現された画像から、 同じく赤系統の色の成分であ る R成分が大きい画素を抽出するよりは、 Q成分の大きい画素を抽 出した方が口唇画素を比較的精度良く抽出することも、 本件発明者 が行った調査から分かっている。
全体重心算出部 4 3は、 Q成分抽出部 4 2から、 口唇画素を受信 すると、 ステップ S 1 3において、 図 5に◎印で示すような、 その 口唇画素全体の重心 (全体重心) を求め、 上重心/下重心算出部 4 4及び分割重心算出部 4 5に供給して、 ステップ S 1 4に進む。 ス テツプ S 1 4では、 上重心 Z下重心算出部 4 4において、 上重心及 び下重心が算出される。
即ち、 上重心/下重心算出部 4 4は、 図 5に示すような、 全体重 心を通る水平方向の直線によって、 Q成分抽出部 4 2からの口唇画 素を、 仮に上下に 2分割する。 ここで、 本実施の形態では、 口唇の 画像データとして、 発話を行っているユーザを正面から撮影して得 られるものが供給されるものとしている。
さらに、 上重心 Z下重心算出部 4 4は、 口唇画素を、 上述したよ うにして上下 2分割したものの上側又は下側の画素を、 それぞれ上 唇を構成する画素 (上唇画素) 又は下唇を構成する画素 (下唇画 素) として、 図 5に X印で示すような上重心又は下重心をそれぞれ 求める。 この上重心及び下重心は、 分割重心算出部 4 5に供給され る。
分割重心算出部 4 5は、 ステップ S 1 5において、 分割重心を求 める。 即ち、 分割重心算出部 4 5は、 上重心/下重心算出部 4 4に おける場合と同様に、 全体重心を通る水平方向の直線によって、 Q 成分抽出部 4 2からの口唇画素を、 上下に 2分割することで、 上唇 画素と下唇画素とに分け、 それぞれの画素数をカウントする。 さら に、 分割重心算出部 4 5は、 上重心と下重心とを通る線分を、 上唇 画素の画素数と下唇画素の画素数との比に従って内分し、 その内分 点を、 分割重心とする。 この分割重心は、 分割部 4 6に供給される。 分割部 4 6は、 ステップ S 1 6において、 分割重心算出部 4 5か らの、 図 5において · 印で示す分割重心を通る水平方向の直線によ つて、 Q成分抽出部 4 2からの口唇画素を、 上下に 2分割すること により、 最終的な上唇画素と下唇画素とに分け、 上唇画素はミラー 領域生成部 4 7 Uに、 下唇画素はミラー領域生成部 4 7 Dに、 それ ぞれ出力する。
そして、 ステップ S 1 7において、 ミラー領域生成部 4 7 Uは、 上唇画素について、 ミラー領域を構成し、 ミラー領域生成部 4 7 D は、 下唇画素について、 ミラー領域を構成する。 即ち、 ミラー領域 生成部 4 7 Uは、 図 6 Aに示すように、 上唇画素について、 分割重 心を通る水平方向の直線 (以下、 適宜、 上下分割線という) に線対 称な領域を、 そのミラー領域として生成し、 上唇画素とともに、 楕 円近似部 4 8 Uに供給する。 また、 ミラー領域生成部 4 7 Dは、 図 6 Bに示すように、 下唇画素について、 上下分割線に線対称な領域 を、 そのミラー領域として生成し、 下唇画素とともに、 楕円近似部 4 8 Dに供給する。
その後、 ステップ S 1 8において、 楕円近似部 4 8 Uは、 図 6 A に示すように、 上唇画素とそのミラー領域を近似する、 分割重心を 中心とする楕円を、 例えば、 最小二乗法によって求める。 楕円近似 部 4 8 Dも、 図 6 Bに示すように、 下唇画素とそのミラー領域を近 似する、 分割重心を中心とする楕円を、 最小二乗法によって求める。 即ち、 いま、 分割重心の X又は y座標を、 x。又は y。と表すと、 横径 (x軸方向 (水平方向) の半径) 又は縦径 (y軸方向 (垂直方 向) の半径) を、 それぞれ 1 / a 1/2又は 1 Z b 1/2とする楕円は、 次式で表すことができる。
a ( X — X o) 2 + b y — y o) ' = 1
• … (1 ) したがって、 上唇画素、 及びそのミラー領域を構成する画素を近 似する二乗誤差を最小にする楕円は、 次式を解く ことで求めること ができる。
I -x-xofiy-yo)2 } o)4
Figure imgf000023_0001
• · · (2) ここで、 式 (2) において、 ∑は、 上唇画素、 及びそのミラー領域 を構成する画素すべてについてのサメーションを表す。
楕円近似部 48Uは、 上唇画素とそのミラー領域を近似する、 分 割重心を中心とする楕円の横径及ぴ縦径を、 式 (2) を解くことに より求め、 上唇を近似する楕円の楕円パラメータとして、 口唇パラ メータ出力部 49に供給する。 楕円近似部 48 Dも、 楕円近似部 4 8 Uにおける場合と同様にして、 下唇画素とそのミラー領域を近似 する楕円の横径及ぴ縦径を求め、 口唇パラメータ出力部 49に供給 する。
口唇パラメータ出力部 49は、 ステップ S 1 9において、 楕円近 似部 48 U又は 48 Dからの楕円パラメータのうち、 重複するもの を削除する。 即ち、 上唇画素とそのミラー領域を近似する楕円の横 径と、 下唇画素とそのミラー領域を近似する楕円の横径は、 理想的 には、 図 7に示すように、 一致するはずであり、 口唇パラメータ出 力部 4 9は、 その一致する横径の 1つを削除し、 残りの横径、 並び に上唇画素とそのミラー領域を近似する楕円の縦径 (以下、 適宜、 上縦径という) 及び下唇画素とそのミラー領域を近似する楕円の縦 径 (以下、 適宜、 下縦径という) の 3つの楕円パラメータを、 口唇 の特徴パラメータとして出力し、 処理を終了する。
なお、 信号処理部 1 1 !は、 以上の処理を、 例えば、 1フレームの 口唇の画像データが供給されるごとに繰り返す。
ここで、 上唇画素とそのミラー領域を近似する楕円の横径と、 下 唇画素とそのミラー領域を近似する楕円の横径は、 上述したように、 理想的には、 一致するはずであるが、 楕円を、 最小二乗法によって 求める場合には、 僅かな差ではあるが、 一致しないことが多い。 そ こで、 横径についてだけは、 図 3において点線で示すように、 楕円 近似部 4 8 Uと 4 8 Dとの間でデータをやり と りすることにより、 上唇を近似する楕円の二乗誤差と、 下唇を近似する楕円の二乗誤差 との和を求め、 その和を最小にする楕円の横径を求めるようにする ことができる。
なお、 上唇画素とそのミラー領域を近似する楕円の横径と、 下唇 画素とそのミラー領域を近似する楕円の横径とを、 それぞれ独立に、 最小二乗法によって求めた後、 そのうちのいずれか一方のみを選択 したり、 また、 その 2つの横径の平均値を計算することによつても、 2つの横径を 1つに、 いわばまとめることが可能であるが、 上唇又 は下唇を最も良く近似する楕円のうちのいずれか一方の横径を選択 する場合には、 選択されなかった方の楕円による近似の精度が悪化 し、 また、 2つの横径の平均値を計算する場合には、 その平均値を 横径とする楕円が、 上唇及び下唇を精度良く近似するとは限らない ため、 楕円による上唇及び下唇の近似の精度を、 ある程度高く維持 するためには、 上述したように、 上唇を近似する楕円の二乗誤差と、 下唇を近似する楕円の二乗誤差との和を求め、 その和を最小にする 楕円の横径を求めるようにするのが望ましい。
以上のように、 口唇画素を、 上唇画素と下唇画素とに 2分割し、 それぞれを近似する楕円を求め、 その楕円を表す横径及び縦径を、 口唇の特徴を表す特徴パラメータとするようにしたので、 この特徴 パラメータによれば、 口唇の動き等を、 忠実に再現することができ る。
さらに、 口唇を楕円で近似することにより、 口唇の画像データが 多少のノイズを有していても、 そのノイズに対して、 ロバス ト性の ある特徴パラメータを得ることができる。
さらに、 口唇を近似する楕円の横径、 上縦径、 及び下縦径である 特徴パラメータは、 人が、 他人又は自身の口唇を見た場合に、 視覚 的に得る口唇の動きに連動するから、 その特徴パラメータの検証を 行う場合に、 その検証効率を向上させることができる。
また、 特徴パラメータが、 横径、 上縦径、 下縦径の 3つで済むの で、 例えば、 口唇の上下左右の 4つの端点を特徴パラメータとする 場合に比較して、 少ない数の特徴パラメータで、 口唇を、 効率良く 表現することができる。
その結果、 例えば、 図 1に示すように、 信号処理部 1 1 ,が出力す る口唇の特徴パラメータと、 信号処理部 1 1 2が出力する発話データ の特徴パラメータとを、 送信装置 5から、 例えば、 電話回線や、 C A T V (Cabl e Televi si on) 、 インターネッ ト、 衛星回線などの伝 送媒体 6を介して、 受信装置 7に伝送し、 受信装置 7において、 口 唇の特徴パラメータに基づいて、 人の顔の画像を動かしながら、 発 話データの特徴パラメータに基づいて音声を再生するような場合に おいて、 送信装置 5から受信装置 7に送信する口唇の特徴パラメ一 タのデータ量が少なくて済むようになる。
さらに、 図 3の実施の形態においては、 口唇画素全体の重心 (全 体重心) を求め、 その全体重心に基づき、 口唇画素を、 上唇画素と 下唇画素とに仮に分割し、 上重心及び下重心を求め、 さらに、 分割 重心を求め、 その分割重心に基づき、 口唇画素を、 最終的な上唇画 素と下唇画素とに分割するようにしたので、 実際には、 上唇を構成 する画素が、 誤って下唇画素とされたり、 逆に、 下唇を構成する画 素が、 誤って上唇画素とされたりするケースを少なくすることがで きる。 即ち、 一般には、 下唇の表面積が上唇の表面積より広いため、 全体重心は、 下唇寄りに位置する。 その結果、 全体重心に基づき、 口唇画素を、 上唇画素と下唇画素とに分割した場合には、 実際には、 下唇を構成する画素が、 誤って上唇画素とされるケースが多くなる。 これに対して、 全体重心に基づき、 口唇画素を、 上唇画素と下唇画 素とに仮に分割し、 上重心及び下重心を求め、 さらに、 分割重心を 求めて、 その分割重心に基づき、 口唇画素を、 最終的な上唇画素と 下唇画素とに分割する場合には、 分割重心が、 上重心寄りに位置す ることとなるため、 下唇を構成する画素が、 誤って上唇画素とされ るケースを少なくすることができる。
なお、 図 3の実施の形態では、 発話者 (ユーザ) の口唇を楕円で 近似するようにしたが、 その他、 例えば、 目などの人の顔の、 口唇 以外の器官も、 上述の場合と同様にして、 楕円で近似することが可 能である。
また、 図 3の実施の形態では、 口唇を、 上唇と下唇とに 2分割す るようにしたが、 その他、 例えば、 さらに、 上唇のみを左右に 2分 割することにより、 合計で 3分割し、 各分割部分を楕円近似したり、 上唇及び下唇の両方を左右に 2分割することにより、 合計で 4分割 し、 各分割部分を楕円近似したりすることも可能である。
次に、 図 1のメディア間正規化部 2 1は、 上述したように、 パラ メータ化回路 1からの各種のデータの特徴パラメータを、 同一の重 みで扱うことができるように正規化するが、 この正規化は、 各特徴 パラメータに、 正規化係数を乗算することで行われるようになされ ている。 そして、 その正規化係数は、 学習を行うことにより求めら れるようになされており、 図 8は、 そのような学習を行う学習装置 の一実施の形態の構成例を示している。
なお、 ここでは、 説明を簡単にするために、 異なる 2つのメディ ァである画像と音声の特徴パラメータの重みを同一にするための正 規化係数を求める学習について説明する。
仮正規化部 5 1には、 べク トル量子化に用いる ドブックを生 成するための ドべク トル学習パラメータ (コードブック生成デ ータ) としての、 画像の特徴パラメータ P j及び音声の特徴パラメ ータ V i , j (認識対象とする各音韻について、 複数セッ トの特徴パラ メータ P 及び音声の特徴パラメータ V i . j ) が供給されるように なされており、 仮正規化部 5 1は、 正規化係数制御部 5 5からの正 規化係数によって、 特徴パラメータ P i . j及び音声の特徴パラメータ V i , jを、 仮に正規化し、 コードブック作成部 5 2に供給するように なされている。 即ち、 本実施の形態では、 例えば、 画像の特徴パラ メータ Pし iの重みを基準と し、 その重みに、 音声の特徴パラメータ V i. jの重みを一致させるために、 音声の特徴パラメータ V i. jに対 して、 正規化係数制御部 5 5からの正規化係数 αが乗算される。 し たがって、 画像の特徴パラメータ Ρ 』には、 正規化係数として 1が 乗算されると考えることができる。
ここで、 特徴パラメータ P 〗及ぴ Vi, jの行を表すサフィックス i は、 その特徴パラメータ P 』 , V jが抽出された時刻 (時間) を表し、 列を表すサフィックス j は、 特徴パラメータ P i, i, V it j の次数 (次元) を表す (したがって、 (P i, ,, P i.2, · · · , P い V i. V ,, 2 , · · · , V i. ) 力 ある時刻 i における特徴 パラメータ (特徴ベク トル) である) 。 また、 図 8では、 特徴パラ メータ Pし jにカツコ付きのサフィックス (k) を付して、 P ( k ) し jと示してあるが、 これは、 kが異なれば、 異なる学習用のデータか ら生成された特徴パラメータであることを表している。 V ( k) jの サフィ ックス (k) についても、 同様である。
なお、 本実施の形態においては、 画像の特徴パラメータ P 』とし ては、 例えば、 上述した口唇を近似する楕円の横径、 上縦径、 下縦 径を用いることができ、 この場合、 特徴パラメータ Pし 』の次数 Lは 3次となる。 また、 音声の特徴パラメータ Vi, iとしては、 例えば、 8次の線スペク トル対を用いることができ、 この場合、 特徴パラメ ータ Vし 』の次数 Mは 8次となる。
コ ードブック作成部 5 2は、 仮の正規化がなされた特徴パラメ一 タとしてのコードべク トル学習パラメータ P i, 〗及ぴ V 〗を用いて、 ベタ トル量子化部 54におけるべク トル量子化に用いるコ ードブッ クを生成し、 ベタ トル量子化部 54に供給するようになされている。 ここで、 コードブック作成部 5 2は、 例えば、 L BG (Linde, B uzo, Gray) アルゴリズムに従って、 コードブックを作成するように なされている。
L B Gアルゴリズムは、 いわばバッチ型学習アルゴリズムで、 学 習サンプル (学習データ) と しての特徴パラメータと、 コードブッ クを構成するコードべク トル (代表べク トル) (最初は、 適当な初 期値が与えられる) との距離に対応して、 特徴パラメータ空間を最 適分割するポロノイス (Voronois) 分割、 及ぴボロノイス分割によ り得られる、 特徴パラメータ空間の各部分領域の重心への、 コード べク トルの更新を繰り返し行うことにより、 コードブックのコード ベタ トルを、 局所的に最適な位置に収束させるようになつている。
ここで、 学習サンプルの集合を X i ( j = 0, 1, · · ·, J - 1 ) と、 コードべタ トノレの集合を Y = { y y i, · · ·, yNa- >} と (N aはコードべク トルの数を表し、 任意に設定される) 、 そ れぞれするとき、 ポロノイス分割では、 学習サンプルの集合 X】が、 コードベク トル Yの集合によって、 N a個の部分集合 S i ( i = 0 , .1, · · ·, N a— 1 ) に分割される。 即ち、 学習サンプル χ』とコ ードベク トル y iとの間の距離を d (X j, y と表した場合、 i と 等しくない t ( t = 0 , 1, · · ·, N a— 1 ) すべてについて、 式
d ( , y■, < d ( x , y t)
• · · (3) が成り立つとき、 学習サンプル は、 部分集合 S iに属する (x』e S J とされる。 05
28 また、 ベク トノレ V 。, V ,, · · · , V M— tについてのセントロイ ド 1 心) C 、V。, V i, · · · , V M -') 、 式
M-l
argmin
Qvo, vi, ···, VM-I)= d{v,vm)
v M
• · · (4) で定義するとき、 コードベク トルの更新では、 コードベク トル が、 式
y . = C ( { S i} )
• · · (5) に従って更新される。
なお、 式 (4) の右辺 a r g m i n {} は、 {} 内の値を最小に するベク トル Vを意味する。 また、 式 (5) による、 いわゆるクラ スタリング手法は、 k平均クラスタリング法 (k-means法) と呼ばれ る。
また、 L B Gアルゴリズムについては、 例えば、 「音声 '画像ェ 学」 、 中田和男、 南敏 著、 昭晃堂、 昭和 6 2年の第 2 9ページ乃 至第 3 1ページなどに、 その詳細が記載されている。
ここで、 図 8の実施の形態において、 コードブック作成部 5 2が 出力するコードブックの要素 S 』及ぴ Tし 』の行を表すサフィック ス i, j は、 コード # iに対応するコードベク トルの j番目の要素 であることを表している。 したがって、 (S ij, S i.2, · · ·, S ,, L, Τ ,, ,, Τし 2, · · · , Τ ,, Μ) は、 コード# iに対応する コードベク トルを表す。 また、 コードベク トルの要素 Sし jは、 画像 に対応しており、 要素 T i . jは、 音声に対応している。
仮正規化部 5 3には、 正規化係数 αの学習のための正規化係数学 習パラメータとしての画像の特徴パラメータ P i . 』及び音声の特徴パ ラメータ V i . j (ここでは、 コードベク トル学習パラメータとは異な る画像、 音声から得られたものとする) が供給されるようになされ ており、 仮正規化部 5 3は、 仮正規化部 5 1 と同様に、 正規化係数 制御部 5 5からの正規化係数によって、 特徴パラメータ P i f j及び音 声の特徴パラメータ V i , 』を、 仮に正規化し、 ベク トル量子化部 5 4 に供給するようになされている。 即ち、 仮正規化部 5 3は、 正規化 係数学習パラメータと しての画像の特徴パラメータ P i , jと音声の特 徴パラメータ V 』のうちの音声の特徴パラメータ V , , jに対して、 正規化係数制御部 5 5からの正規化係数ひ を乗算し、 ベタ トル量子 化部 5 4に出力するようになされている。
なお、 仮正規化部 5 3には、 正規化係数学習パラメータが複数セ ッ ト供給されるようになされており、 仮正規化部 5 3は、 その複数 セッ トの正規化係数学習パラメータそれぞれについて、 正規化を行 うようになっている。
ベタ トル量子化部 5 4は、 コードブック作成部 5 2からの最新の コードブックを用いて、 仮正規化部 5 3から供給される正規化され た正規化係数学習パラメータをべク トル量子化し、 そのべク トル量 子化による量子化誤差を、 正規化係数制御部 5 5に供給するように なされている。
即ち、 ベク トル量子化部 5 4は、 コードブックのコードベク トル それぞれ (標準パラメータ) と、 正規化された正規化係数学習パラ メータとの距離 (ユークリ ッ ド距離) (Euc l i dean di stance) を、 画像と音声それぞれについて計算し、 その距離のうちの最も短いも のを、 量子化誤差として、 正規化係数制御部 5 5に供給するように なされている。 つまり、 正規化された正規化係数学習パラメータの うちの画像の特徴パラメータ P iと、 コードブックにおける ド べク トルそれぞれの画像に関する要素 S 』からなるベタ トルとの距 離が算出され、 その距離の最も短いものが、 画像についての量子化 誤差と して、 正規化係数制御部 5 5に供給されるとともに、 正規化 された正規化係数学習パラメータのうちの音声の特徴パラメータ α V と、 コードブックにおける ドべク トルそれぞれの音声に関 する要素 T ,からなるベタ トルとの距離が算出され、 その距離の最 も短いものが、 音声についての量子化誤差と して、 正規化係数制御 部 5 5に供給されるようになされている。
正規化係数制御部 5 5は、 ベタ トル量子化部 5 4からの画像と音 声についての量子化誤差を、 すべての正規化係数学習パラメータに 関して、 それぞれ累積 (積算) し、 その画像と音声についての累積 値が等しくなるように、 仮正規化部 5 1及び 5 3に供給する正規化 係数 αを変更するようになされている。
次に、 図 9のフローチャートを参照して、 図 8の学習装置が行う 処理 (正規化係数学習処理) について説明する。 図 8の学習装置に おいては、 まず最初に、 コードベク トル学習パラメータが仮正規化 部 5 1に供給されるとともに、 正規化係数学習パラメータが仮正規 化部 5 3に供給され、 正規化係数制御部 5 5から、 正規化係数 αの 初期値が、 仮正規化部 5 1及び 5 3に供給される。
そして、 ステップ S 2 1において、 仮正規化部 5 1は、 ドべ ク トル学習パラメータのうちの、 音声の特徴パラメータ V に対し て、 正規化係数制御部 5 5からの正規化係数 αを乗算し、 これによ り、 コードベク トル学習パラメータを仮に正規化して、 コードブッ ク作成部 5 2に供給する。
コードブック作成部 5 2は、 仮正規化部 5 1から、 正規化された ドべク トル学習パラメータを受信すると、 ステップ S 2 2にお いて、 そのコードベク トル学習パラメータを用い、 L B Gアルゴリ ズムにより、 ベタ トル量子化部 5 4がべク トル量子化を行うのに用 いる ドブックを作成し、 ベタ トル量子化部 5 4に供給する。 一方、 仮正規化部 5 3は、 ステップ S 2 3において、 正規化係数 学習パラメータのうちの音声の特徴パラメータ V ,に対して、 正規 化係数制御部 5 5からの正規化係数 αを乗算し、 これにより、 正規 化係数学習パラメータを仮に正規化して、 ベタ トル量子化部 5 4に 供給する。
ベク トル量子化部 5 4は、 コードブック作成部 5 2から、 最新の コードブックを受信するとともに、 仮正規化部 5 3から、 最新の正 規化された正規化係数学習パラメータを受信すると、 ステップ S 2 4において、 仮正規化部 5 3からの正規化係数学習パラメータを、 ドブック作成部 5 2からの ドブックを用い、 画像と音声そ れぞれについてベタ トル量子化を行い、 それぞれの量子化誤差を、 正規化係数制御部 5 5に供給する。
即ち、 ステップ S 2 4では、 ベク トル量子化部 5 4は、 正規化さ れた正規化係数学習パラメータのうちの画像の特徴パラメータ (画 像パラメータ) P i . iと、 コードベク トルのうちの画像に関する要素 S ,からなるベタ トルとの距離を算出し、 その距離の最も短いもの を、 画像についての量子化誤差として、 正規化係数制御部 5 5に供 給するとともに、 正規化された正規化係数学習パラメータのうちの 音声の特徴パラメータ (音声パラメータ) a V i, )と、 コードべク ト ルのうちの音声に関する要素 Tし jからなるベタ トルとの距離を算出 し、 その距離のうち、 最も短いものを、 音声についての量子化誤差 として、 正規化係数制御部 5 5に供給する。
ここで、 仮正規化部 5 3には、 上述したように、 複数の正規化係 数学習パラメータが供給されるため、 べク トル量子化部 5 4にも、 仮正規化された正規化係数学習パラメータが複数セッ ト供給される 力 、 ベク トル量子化部 5 4は、 その複数の正規化された正規化係数 学習パラメータそれぞれについて、 順次、 上述したような画像及び 音声についての量子化誤差を求め、 正規化係数制御部 5 5に供給す るようになっている。
ステップ S 2 4では、 さらに、 正規化係数制御部 5 5が、 ベタ ト ル量子化部 5 4から供給される画像と音声についての量子化誤差を、 すべての正規化係数学習パラメータについて、 それぞれ累積し、 そ れぞれの量子化誤差の累積値 D Pと Dvを求める。 この画像と音声に ついての量子化誤差の累積値 DPと Dvは、 正規化係数制御部 5 5に 供給されて記憶される。
そして、 ステップ S 2 5に進み、 正規化係数制御部 5 5は、 すべ ての αに関して、 画像と音声についての量子化誤差の累積値 D Pと D Vを求めたかどうかを判定する。 即ち、 本実施の形態では、 例えば、 aを、 その初期値を 0. 0 0 1 として、 0. 0 0 1力、ら 2. 0 0 0 までの範囲を、 0. 0 0 1刻みに変更 (ここでは、 増加) して、 累 積値 DPと Dvを求めることとしており、 正規化係数制御部 5 5は、 ステップ S 2 5において、 そのような範囲の αに関して、 画像と音 声についての量子化誤差の累積値 D Pと D vを求めたかどうかを判定 する。
ステップ S 2 5において、 すべてのひに関して、 まだ、 累積値 D Pと D vが求められていないと判定された場合、 ステップ S 2 6に進 み、 正規化係数制御部 5 5は、 正規化係数ひを上述したように変更 し、 仮正規化部 5 1及ぴ 5 3に供給する。 そして、 ステップ S 2 1 に戻り、 以下、 変更後の正規化係数 αを用いて、 同様の処理が繰り 返される。
—方、 ステップ S 2 5において、 すべての αに関して、 累積値 D Ρと D vが求められたと判定された場合、 ステップ S 2 7に進み、 正 規化係数制御部 5 5は、 ステップ S 2 4で記憶した各値の αに関す る画像についての量子化誤差 D Pと、 音声についての量子化誤差 D v との差分の絶対値 i D P— D v I を計算する。 さらに、 正規化係数制 御部 5 5は、 各値の αに関する差分絶対値 I D P— D v I の最小値を 与える《、 即ち、 理想的には、 画像についての量子化誤差 D Pと、 音 声についての量子化誤差 D vとが同一になる場合の αを検出する。 そ して、 ステップ S 2 8に進み、 正規化係数制御部 5 5は、 その最小 の絶対値 i D P— D v I を与える正規化係数ひを、 画像と音声の特徴 パラメータを、 同一の重みで扱うことができるように正規化するこ とのできるものとして出力し、 処理を終了する。
以上のように、 画像と音声の特徴パラメータからなる統合パラメ ータであるコードべク トル学習パラメータを正規化し、 その正規化 されたコードべク トル学習パラメータを用いて、 コードプックを生 成する一方、 画像と音声の特徴パラメータからなる統合パラメータ である正規化係数学習パラメータを仮に正規化し、 その正規化され た正規化係数学習パラメータのうちの画像又は音声の特徴パラメ一 タそれぞれについて、 生成されたコードブックを用いてベタ トル量 子化を行うことにより、 量子化誤差の累積値を求め、 その累積値ど う しが等しくなるように、 正規化係数を変更するようにしたので、 画像と音声などといった異なるメディアの特徴パラメータを、 同等 の重みで极ぅことができるように正規化を行うことができる正規化 係数を求めることができる。
その結果、 例えば、 音声から抽出した特徴パラメータと、 口唇の 画像から抽出した特徴パラメータとを、 正規化係数によつて正規化 し、 さらに、 それらを統合して、 統合パラメータとし、 この統合パ ラメータを用いて、 音声の認識を行う場合においては、 音声又は画 像のうちのいずれか一方の影響を強く受けることにより、 認識率の 向上の妨げられることを防止することが可能となる。
さらに、 統合パラメータを構成する各メディアの特徴パラメータ が、 認識率に与える影響の検証を、 容易に行うことが可能となる。 なお、 図 8の実施の形態では、 画像と音声の 2種類の特徴パラメ ータの重みを同一にするための正規化係数ひを求める学習について 説明したが、 3種類以上の特徴パラメータ、 あるいは、 画像や音声 の他のメディァの特徴パラメータの重みを同一にするための正規化 係数を求める学習も、 同様に行うことが可能である。
また、 上述した正規化係数の学習方法は、 特徴パラメータの種類 や次元に依存するものではないため、 特徴パラメータの種類や次元 に関係なく適用可能である。
次に、 図 1 0は、 図 1の距離推移方式マッチング部 3 1の構成例 を示している。 時間軸正規化部 6 1には、 統合パラメータ生成回路 2 (図 1 ) から、 例えば、 ある単語が発話されたときの統合パラメ ータが時系列に供給されるようになされており、 時間軸正規化部 6 1は、 その時系列の統合パラメータの時間軸正規化を行うようにな されている。
即ち、 ある単語が発話されたときの発話時間を t とすると、 その 単語の発話による統合パラメータのある要素の時間変化は、 例えば、 図 1 1 Aに示すようになるが、 図 1 1 Aにおける発話時間 tは、 同 一人による同一単語の発話であっても、 発話ごとに変動する。 そこ で、 時間軸正規化部 6 1は、 発話時間 tが、 図 1 1 Bに示すように、 一律に、 時間 T cとなるように、 時間軸正規化を行うようになされて いる。 なお、 例えば、 いま、 図 1の音声認識装置において、 単語認 識を行うものとすると、 時間 T cは、 認識対象の単語を発話したとき の一般的な発話時間よりも十分長い時間に設定されている。 したが つて、 時間軸正規化部 6 1では、 図 1 1 Aに示した時系列の統合パ ラメータが、 いわば時間軸方向に間延びしたように変更される。 な お、 時間軸正規化の手法は、 これに限定されるものではない。
時間軸正規化後の統合パラメータは、 時間軸正規化部 6 1からべ ク トル量子化部 6 2に供給されるようになされている。 ベタ トル量 子化部 6 2は、 コードブック記憶部 6 3に記憶されたコードブック を用いて、 時間軸正規化された時系列の統合パラメータを、 順次、 ベク トル量子化し、 そのベク トル量子化結果としてのコード、 即ち、 統合パラメータとの距離が最も近いコードべク トルに対応するコー ドを、 順次、 距離計算部 6 4に供給するようになされている。
コードブック記憶部 6 3は、 ベタ トル量子化部 6 2がベク トル量 子化に用いるコードブックを記憶している。 距離計算部 64は、 距離推移モデル記憶部 6 5に記憶されている、 認識対象の単語の距離推移モデルから、 ベタ トル量子化部 6 2が出 力するコードの系列が観測されるときの、 コードべク トルとの距離 を、 時間ごとに累積し、 その累積値を、 ソート部 6 6に供給するよ うになされている。
距離推移モデル記憶部 6 5は、 例えば、 図 1 2 Bに示すような、 認識対象の単語の時系列の統合パラメータ (標準系列) と、 コード ブック記憶部 6 3に記憶されたコードブックの各コードべク トルと の間の距離の推移を表す距離推移モデルを記憶している。 即ち、 距 離推移モデル記憶部 6 5は、 後述する学習により得られる、 図 1 2 Bに示したような距離推移モデルを、 認識対象とされている単語そ れぞれについて記憶している。
なお、 図 1 2 Bの実施の形態では、 コードブック記憶部 6 3に記 憶されたコードブックが、 J + 1個のコードべク トル C。乃至 C jを 有するものとしてある。 また、 図 1 2 Aは、 距離推移モデルをダラ フで、 図 1 2 Bは、 距離推移モデルを表で、 それぞれ表している。 ここで、 図 1 2 Bの表において、 コードベク トル C ,の行に注目すれ ば、 その行に記載した各時刻 t。, t t 2, · · ' における距離 D c j to, D o t ,, Dcj t 2, · · ' が図 1 2 Aのグラフにおけるコード べク トル C jに対する距離の推移を表す。
ソート部 6 6は、 距離計算部 64から供給される、 認識対象の各 単語の距離推移モデルについての距離の累積値のうち、 その値が小 さいものから、 上位 N b個を選択し (N bは自然数) 、 統合パラメ ータと距離推移モデルとのマッチング結果として、 判定回路 4に出 力するようになされている。 以上のように構成される距離推移方式マッチング部 3 1では、 距 離推移方式によるマッチングが行われるようになされており、 この 距離推移方式によるマッチング処理について、 図 1 3のフローチヤ ートを参照して説明する。
時間軸正規化部 6 1は、 統合パラメータ生成回路 2から、 ある単 語の発話に対応する時系列の統合パラメータを受信すると、 ステツ プ S 3 1において、 その時系列の統合パラメータを時間軸正規化し、 ベタ トル量子化部 6 2に出力する。 ベタ トル量子化部 6 2は、 ステ ップ S 3 2において、 コードブック記憶部 6 3に記憶されたコード ブックを参照することで、 時間軸正規化部 6 1からの時系列の統合 パラメータを、 順次、 ベタ トル量子化し、 そのべク トル量子化結果 としての、 統合パラメータとの距離を最も短くするコードべク トル に対応するコードの系列を、 順次、 距離計算部 6 4に供給する。 距離計算部 6 4は、 ステップ S 3 3において、 距離推移モデル記 憶部 6 5に記憶されている、 認識対象の単語の距離推移モデルから、 べク トル量子化部 6 2が出力するコードの系列が観測されるときの、 コードべク トルとの距離を累積する。
即ち、 ベク トル量子化部 6 2が出力するコードの系列のうち、 時 刻 tのコードを S t ( t = 0 , 1, · · ·, T c) と表すと、 距離計 算部 6 4は、 ベタ トル量子化部 6 2が最初に出力するコード s。に対 応するコードベク トル C』 ( j = 0 , 1, · · ·, J ) についての、 時刻 # 0における距離を、 距離推移モデルを参照することで求める。 具体的には、 例えば、 コード s。に対応するコードベク トルが C。で ある場合には、 図 1 2 Aにおいて、 コードベク トル C。からの距離の 推移を表している曲線上の、 時刻 # 0における距離が求められる。 さらに、 距離計算部 64は、 べク トル量子化部 6 2が 2番目に出 力するコード s 'に対応するコードべク トノレ C〗との、 時刻 # 1にお ける距離を、 距離推移モデルを参照することで求める。 以下、 同様 にして、 距離計算部 64は、 ベク トル量子化部 6 2が最後に出力す るコード s TCに対応するコードべク トル C』との、 時刻 # Tcにおけ る距離までを、 距離推移モデルを参照することで、 順次求めていき、 それらの距離の累積値を計算する。
したがって、 ベク トル量子化部 6 2が、 時刻 # 0, # 1, # 2, • · ' において、 例えば、 コード s。, s。, s · · · を出力する 場合には、 コード s。に対応するコードベク トル C。との、 時刻 # 0 における距離 Dc0t。、 コード s。に対応するコードべク トル C。との、 時刻 # 1における距離 Dct l、 コード s ,に対応するコードべク トル C ,との、 時刻 # 2における距離 Dc lT2, · · ·の加算値が、 累積値 として求められる。
そして、 距離計算部 64は、 距離推移モデル記憶部 6 5に記憶さ れたすべての距離推移モデルそれぞれについて、 距離の累積値を計 算すると、 それらの距離の累積値を、 ソート部 6 6に出力し、 ステ ップ S 34に進む。
ステップ S 34では、 ソート部 6 6において、 距離計算部 64か らの、 認識対象の各単語の距離推移モデルについての距離の累積値 のうち、 その値が小さいものから、 上位 N b個が選択され、 ステツ プ S 3 5に進み、 統合パラメータと距離推移モデルとのマッチング 結果として、 判定回路 4に出力され、 処理を終了する。
次に、 図 1 4は、 図 1 0の距離推移モデル記憶部 6 5に記憶させ る距離推移モデルを求める学習を行う学習装置の一実施の形態の構 成例を示している。 時間軸正規化部 7 1には、 距離推移モデルを求 める学習を行うのに用いる時系列の学習統合パラメータが供給され るようになされており、 時間軸正規化部 7 1は、 図 1 0の時間軸正 規化部 6 1 と同様に、 学習統合パラメータを時間軸正規化し、 距離 計算部 7 2に供給するようになされている。
ここで、 時間軸正規化部 7 1には、 例えば、 ある単語の距離推移 モデルを求めるための時系列の学習統合パラメータが複数セット供 給されるようになされており、 時間軸正規化部 7 1は、 その複数セ ッ トの学習統合パラメータそれぞれについて時間軸正規化を行い、 それらを 1の学習統合パラメータにまとめて出力するようになされ ている。 即ち、 時間軸正規化部 7 1には、 例えば、 図 1 5 Aに示す ように、 ある単語について、 継続時間が必ずしも同一でない複数
(図 1 5 Aにおいては、 N c個) の学習統合パラメータが供給され るようになされており、 時間軸正規化部 7 1は、 その複数の学習統 合パラメータの継続時間が、 図 1 5 Bに示すように、 いずれも時間 T cとなるように時間軸正規化を行う。 そして、 時間軸正規化部 7 1 は、 図 1 5 Cに示すように、 時間軸正規化を行った複数の学習統合 パラメータの、 同一時刻のサンプル値どうしの、 例えば、 平均値を 計算し、 その平均値を、 各時刻におけるサンプル値とする 1つの学 習統合パラメータを生成する。
なお、 複数の学習統合パラメータを、 1つの学習統合パラメータ にまとめる方法は、 これに限定されるものではない。 また、 ある単 語の距離推移モデルを求めるための時系列の学習統合パラメータが 1つだけしか用意されていない場合には、 時間軸正規化部 7 1は、 その 1つの学習統合パラメータを時間軸正規化して、 そのまま出力 するようになされている。
距離計算部 7 2は、 図 1 6に示すように、 コードブック記憶部 7 3に記憶されたコードブックの各コードべク トノレと、 時間軸正規化 部 7 1から供給される時系列の学習統合パラメータとの距離を、 順 次計算し、 その距離の推移、 即ち、 時間軸正規化された、 時刻 # 0 乃至 # T cまでの学習統合パラメータと、 各コードべク トルとの距離 の推移を、 多項式表現化部 7 4に供給するようになされている。 コードブック記憶部 7 3は、 図 1 0のコードブック記憶部 6 3に 記憶されているコードブックと同一のコードブックを記憶している。 なお、 コードブック記憶部 6 3及ぴ 7 3におけるコードブックは、 コードブック作成部 5 2 (図 8 ) が作成したものと同一のものであ つても良いし、 異なるものであっても良い。
多項式表現化部 7 4は、 距離計算部 7 2から供給されるコードべ ク トルとの間の距離の推移を近似する多項式を求め、 距離推移モデ ルとして出力するようになされている。 即ち、 多項式表現化部 7 4 では、 図 1 6に示したような距離の推移が、 図 1 2 Aに示したよう な多項式で表される曲線で近似されるようになされている。
次に、 図 1 7のフローチヤ一トを参照して、 図 1 4の学習装置の 処理について説明する。 時間軸正規化部 7 1に対しては、 ある単語 の距離推移モデルを求めるための時系列の学習統合パラメータが複 数セッ ト供給され、 時間軸正規化部 7 1は、 ステップ S 4 1におい て、 その複数セットの学習統合パラメータそれぞれについて時間軸 正規化を行い、 それらを 1の学習統合パラメータにまとめて、 距離 計算部 7 2に出力する。 距離計算部 7 2は、 ステップ S 4 2におい て、 図 1 6に示したような、 コードブック記憶部 7 3に記憶された ドブックの各コードべク トルと、 時間軸正規化部 7 1から供給 される時系列の学習統合パラメータとの距離を、 順次計算し、 その 距離の推移を、 多項式表現化部 7 4に供給する。
多項式表現化部 7 4では、 ステップ S 4 3において、 距離計算部 7 2から供給される、 学習統合パラメータ (標準系列) とコードべ ク トルとの間の距離の推移を近似する N d次の多項式が、 例えば、 最小二乗法により求められる。
即ち、 時刻 tにおける学習統合パラメータと、 コードベク トル C jとの間の距離を近似する N d次の多項式 f i ( t ) は、 次のように 表すことができる。
f j ( t ) = a ,o+ a ji t 1+ a J 2 t 2-f - · - + a jNd t Nd
• · · (6 ) したがって、 距離計算部 7 2において求められた、 時刻 tにおけ る学習統合パラメータと、 コードべク トル C )との間の距離 f j ( t ) を用いて、 次式を解く ことで、 最小二乗法により、 式 (6 ) a j 2, · a j N dを求める さる,
Figure imgf000043_0001
( 7 ) 多項式表現化部 7 4は、 式 ( 7 ) を、 コードべク トル C。, C • · · , C;それぞれについて解くことで、 次式に示すような、 学習 統合パラメータと、 コードベク トル C 0, C · · . , C jそれぞれ との間の距離の推移を近似する N d次の多項式 f 』 ( t ) を規定する 係数のセッ ト Aを求める。
。00 αο ι ao2 ίϊ0Νί/-1 «ΟΝί
a\ o a\ l a
Oyo。ゾ. l Qji
• · · ( 8 ) その後、 ステップ S 4 4に進み、 多項式表現化部 7 4は、 式 ( 8 ) の係数のセット Aで近似される距離の推移と、 図 1 6に示し たような実際の距離の推移との二乗誤差の、 各コードべク トノレ C】に ついての累積値を求め、 係数のセット Aとともに記憶して、 ステツ プ S 4 5に進む。 ステップ S 4 5では、 多項式表現化部 7 4は、 予 め用意された範囲のすべての次数 N dについて、 上述したような二 乗誤差の累積値を求めたかどうかを判定する。 ステップ S 4 5にお いて、 予め用意された範囲のすべての次数 N dについて、 まだ、 二 乗誤差の累積値を求めていないと判定された場合、 ステップ S 4 6 に進み、 多項式表現化部 7 4は、 式 (6 ) に示した多項式 f j ( t ) の次数 N dを、 まだ二乗誤差の累積値を求めていない値に変更する c そして、 ステップ S 4 3に戻り、 変更後の次数 N dについて、 以下、 同様の処理が繰り返される。 また、 ステップ S 4 5において、 予め用意された範囲のすべての 次数 N dについて、 二乗誤差の累積値を求めたと判定され £場合、 ステップ S 4 7に進み、 多項式表現化部 7 4は、 ステップ S 4 4で 記憶した、 予め用意された範囲のすべての次数 N dについての距離 の推移の二乗誤差の累積値のうちの最小値を検出し、 その最小値と ともに記憶している、 多項式 f i ( t ) を規定する係数のセット Aを. 単語の距離推移モデルとして出力して、 処理を終了する。
なお、 以上の処理は、 認識対象の各単語についてそれぞれ行われ る。
以上のように、 時系列の学習統合パラメータについて、 時間軸の 正規化を行い、 その時間軸正規化された学習統合パラメータ (標準 系列) と、 コードベク トルとの間の距離を算出し、 その距離の推移 を表す距離推移モデルを求めるようにしたので、 認識対象が有する 本来の状態数や状態遷移の形態に沿うモデルを得ることができる。 したがって、 そのような距離推移モデルによれば、 認識対象の定常 状態や過渡状態が正確に表現され、 その結果、 認識率を向上させる ことができる。
また、 距離の推移を、 多項式で近似するようにしたので、 その多 項式を規定する係数だけで、 即ち、 少ないデータ量で、 距離の推移 を表現することができる。
ざらに、 距離の推移を近似する多項式の次数 N dを、 二乗誤差の 累積値が最小になるように決定するようにしたので、 その多項式に より、 精度良く、 距離の推移を表現することができる。
なお、 図 1 4では、 統合パラメータを、 学習用のデータとして用 いるようにしたが、 単一の特徴パラメータで認識を行う場合には、 その単一の特徴パラメータを、 学習用のデータとして用いて、 学習 を行えば良い。
また、 上述した距離推移モデルの学習方法は、 特徴パラメータの 種類や次元に依存するものではないため、 特徴パラメータの種類や 次元に関係なく適用可能である。
さらに、 上述の場合には、 図 1 6に示したような実際の距離の推 移を、 図 1 2 Aに示したように多項式で近似された距離推移モデル を用いてマッチングを行うようにしたが、 マッチングは、 図 1 6に 示したような実際の距離の推移をそのまま距離推移モデルとして用 いて行うことも可能である。
次に、 図 1 8は、 図 1の空間分布方式マッチング部 3 2の構成例 を示している。 ベク トル量子化部 8 1には、 図 1の統合パラメータ 生成回路 2から統合パラメータが時系列に供給されるようになされ ており、 ベタ トル量子化部 8 1は、 その時系列の統合パラメータを、 コードブック記憶部 8 2に記憶されたコードブックを用いてべク ト ル量子化し、 そのベク トル量子化結果と してのコードの系列を、 順 次、 カイ二乗 (ズ 2) 検定部 8 3に供給するようになされている。 コードブック記憶部 8 2は、 ベタ トル量子化部 8 1におけるべク トル量子化に用いられるコードブックを記憶している。
カイ二乗検定部 8 3は、 期待度数記憶部 8 4を参照し、 ベタ トル 量子化部 8 1からのコード系列の空間分布が、 認識対象の単語が発 話されたときに得られるコード系列の空間分布に類似しているかど う力 即ち、 ベク トル量子化部 8 1に供給された統合パラメータ力 認識対象の単語に対応するものであるかどうかの適正さを、 カイ二 乗検定 (Hi Square Test) を行うことにより求め、 ソート部 8 5に 供給するようになされている。
期待度数記憶部 8 4は、 コードブック記憶部 8 2に記憶されたコ 一ドブックのコ一ドべク トルに対応する各コードについて、 認識対 象の単語に対応する統合パラメータが入力されたときに観測される
(ベタ トル量子化部 8 1に供給されたときに、 そこから出力され る) 期待度数を記憶している。
ソート部 8 5は、 カイ二乗検定部 8 3から供給される、 入力され た統合パラメータが認識対象の単語に対応するものであるかどうか の適正さに基づいて、 適正さが上位 N b個となる単語を選択し、 空 間分布方式によるマッチング結果として、 判定回路 4 (図 1 ) に出 力するようになされている。
以上のように構成される空間分布マッチング部 3 2では、 空間分 布方式によるマッチングが行われるようになされており、 この空間 分布方式によるマッチング処理について、 図 1 9のフローチャート を参照して説明する。
認識すべき統合パラメータは、 時系列に、 べク トル量子化部 8 1 に供給され、 べク トル量子化部 8 1は、 ステップ S 5 1において、 時系列の統合パラメータを、 順次べク トル量子化し、 そのべク トル 量子化結果としてのコードの系列を、 カイ二乗検定部 8 3に供給す る。
カイ二乗検定部 8 3は、 ステップ S 5 2において、 べク トル量子 化部 8 1からのコード系列の空間分布を求める。 即ち、 カイ二乗検 定部 8 3は、 ベク トル量子化部 8 1からのコード系列において、 各 コードが観測される回数 (以下、 適宜、 観測度数という) をカウン トする。 そして、 ステップ S 5 3に進み、 カイ二乗検定部 8 3は、 各コードの観測度数と、 期待度数記憶部 8 4に記憶された、 認識対 象の単語の発話がなされたときに観測されることが期待される各コ 一ドの回数である期待度数とを用いてカイ二乗検定を行うことによ り、 入力された統合パラメータについての各コードの観測度数が、 認識対象の単語についての各コードの期待度数に類似している度合 い (以下、 適宜、 類似度という) を求め、 ソート部 8 5に供給する。 即ち、 カイ二乗検定部 8 3は、 あるコード # j の観測度数を F jと 表すとともに、 ある単語 Wのあるコ ード# j の期待度数を f ,と表す と、 次式に示すズ 2 (カイ二乗) を計算し、 例えば、 その逆数を、 単 語 Wに対する類似度として、 ソート部 8 5に供給する。
Figure imgf000048_0001
• · · ( 9 ) なお、 式 (9 ) に示したズ 2は、 入力された統合パラメータについ ての各コードの観測度数が、 認識対象の単語についての各コードの 期待度数に類似しているほど小さくなる。 したがって、 その逆数で ある類似度は、 入力された統合パラメータについての各コードの観 測度数が、 認識対象の単語についての各コードの期待度数に類似し ているほど大きくなる。
ソート部 8 5は、 カイ二乗検定部 8 3から、 認識対象の単語すベ てに いての類似度を受信すると、 ステップ S 5 4において、 その うちの類似度の高い上位 N b個を選択し、 ステップ S 5 5に進み、 空間分布方式によるマッチング結果として、 判定回路 4に出力して、 処理を終了する。
以上のような空間分布方式によるマッチングによれば、 統合パラ メータ空間における、 入力された統合パラメータの分布状態と、 認 識対象の単語の統合パラメータの分布状態との類似性が、 カイ二乗 検定により求められるため、 その類似性は、 入力された音声の時間 的変動に影響を受けない。 即ち、 入力された音声の時間 (音声区間 の長さ) は、 カイ二乗検定に用いる観測度数に影響するが、 各コー ドの観測度数それぞれが、 音声区間の長さに比例した値だけ増減す ると予測されるため、 カイ二乗検定結果は影響を受けない。 したが つて、 音声が有する時間成分を考慮せずに認識を行うことができ、 その結果、 認識率を向上させることが可能となる。
次に、 図 2 0は、 図 1 8の期待度数記憶部 8 4に記憶されている 認識対象の各単語についての各コードの期待度数を求める学習を行 う学習装置の一実施の形態の構成例を示している。 ベタ トル量子化 部 9 1には、 認識対象の単語について、 期待度数の学習を行うため の時系列の学習統合パラメータが供給されるようになされており、 ベク トル量子化部 9 1は、 時系列の学習統合パラメータを、 コード ブック記憶部 9 2に記憶されたコードブックを用いてベタ トル量子 化し、 そのベク トル量子化結果としてのコードの系列を、 期待度数 算出部 9 3に供給するようになされている。
コードブック記憶部 9 2は、 図 1 8のコードブック記憶部 8 2が 記憶しているコードブックと同一のコードブックを記憶している。 なお、 コードブック記憶部 8 2及ぴ 9 2におけるコードブックは、 コードブック作成部 5 2 (図 8 ) が作成したものと同一のものであ つても良いし、 異なるものであっても良い。 期待度数算出部 9 3は、 ベタ トル量子化部 9 1からのコードの系 列において、 各コードが観測される回数をカウントするようになさ れている。
次に、 図 2 1のフローチャートを参照して、 図 2 0の学習装置の 処理について説明する。 ベタ トル量子化部 9 1には、 認識対象の 1 の単語について、 例えば、 複数の時系列の学習統合パラメータ (異 なる話者が発話したり、 同一の話者が複数回発話して得られたも の) が供給されるようになされており、 ステップ S 6 1では、 その 統合パラメータの数をカウントするための変数 i力 S、 例えば、 1に 初期化され、 ステップ S 6 2に進む。
ステップ S 6 2では、 複数の学習統合パラメータのうちの最初の 学習統合パラメータが、 ベタ トル量子化部 9 1に供給され、 ベタ ト ル量子化部 9 1は、 その学習統合パラメータをべク トル量子化する。 そのべク トル量子化の結果得られるコードの系列は、 期待度数算出 部 9 3に供給され、 ステップ S 6 3に進む。
ステップ S 6 3では、 ベタ トル量子化部 9 1からのコードの系列 において、 各コードが観測される回数が積算され、 これにより各コ ードの観測度数が求められる。 そして、 ステップ S 6 4に進み、 ま だ、 次に処理すべき学習統合パラメータがあるかどうかが判定され、 あると判定された場合、 ステップ S 6 5に進み、 変数 iが 1だけィ ンクリメントされる。 そして、 ステップ S 6 2に進み、 その次に処 理すべき学習統合パラメータを対象に、 同様の処理が繰り返される。 即ち、 これにより、 ある単語についての複数の学習統合パラメータ から観測される各コードの観測度数が積算されていく。
一方、 ステップ S 6 4において、 次に処理すべき学習統合パラメ ータがないと判定された場合、 ステップ S 6 6に進み、 各コードの 観測度数の積算値が、 例えば、 変数 iで除算され、 即ち、 ある単語 についての複数の学習統合パラメータから観測される各コードの観 測度数の平均値が求められ、 その各コードの観測度数の平均値が、 その単語についての各コードの期待度数として出力されて、 処理を 終了する。 なお、 図 2 1の処理は、 認識対象の単語それぞれについ て行われる。
次に、 図 2 2は、 図 1 の判定回路 4の構成例を示している。 スコ ァ算出部 1 0 1には、 距離推移方式マッチング部 3 1が出力する、 距離推移方式による上位 N b個のマツチング結果が供給されるよう になっており、 スコア算出部 1 0 2には、 空間分布方式マッチング 部 3 2が出力する、 空間分布方式による上位 N b個のマッチング結 果が供給されるようになっている。 スコア算出部 1 0 1は、 距離推 移方式による上位 N b個のマツチング結果に対して、 その順位の高 い順に、 高いスコアを付し、 スコア加算部 1 0 3に出力するように なっている。 スコア算出部 1 0 2は、 空間分布方式による上位 N b 個のマッチング結果に対して、 その順位の高い順に、 高いスコアを 付し、 スコア加算部 1 0 3に出力するようになっている。
スコァ加算部 1 0 3は、 スコア算出部 1 0 1 と 1 0 2それぞれか らの上位 N b個のマッチング結果の中から、 同一単語のマッチング 結果どうしのスコアを加算し、 その加算値を、 最大スコア検出部 1 0 4に供給するようになっている。
最大スコア検出部 1 0 4は、 スコア加算部 1 0 3から供給される スコアのうちの最大値を検出し、 その最大のスコアを与える単語を、 最終的な音声認識結果として出力するようになつている。 次に、 図 2 3のフローチャートを参照して、 図 2 2の判定回路 4 の処理について説明する。 スコア算出部 1 0 1に対して、 距離推移 方式マッチング部 3 1から、 距離推移方式による上位 N b個のマツ チング結果が供給されるとともに、 スコア算出部 1 0 2に対して、 空間分布方式マッチング部 3 2から、 空間分布方式による上位 N b 個のマッチング結果が供給されると、 ステップ S 7 1において、 ス コア算出部 1 0 1は、 距離推移方式による上位 N b個のマッチング 結果に対して、 その順位の高い順に、 高いスコアを付し、 スコア加 算部 1 0 3に出力するとともに、 スコア算出部 1 0 2は、 空間分布 方式による上位 N b個のマツチング結果に対して、 その順位の高い 順に、 高いスコアを付し、 スコア加算部 1 0 3に出力する。
ここで、 マッチング結果に対して付すスコアは、 例えば、 マッチ ング結果の順位に対して線形に変化する値であっても良いし、 非線 形に変化する値であっても良い。
スコア加算部 1 0 3は、 ステップ S 7 2において、 スコア算出部 1 0 1 と 1 0 2それぞれからの上位 N b個のマッチング結果の中か ら、 同一単語のマッチング結果どうしのスコアを加算し、 その加算 値を、 最大スコア検出部 1 0 4に出力する。 なお、 スコア加算部 1 0 3は、 スコア算出部 1 0 1 と 1 0 2それぞれからの上位 N b個の マツチング結果のいずれか一方にしか含まれない単語については、 その単語に付されたスコアを、 そのまま最大スコア検出部 1 0 4に 供給する。
最大スコア検出部 1 0 4は、 ステップ S 7 3において、 スコア加 算部 1 0 3から供給されるスコアのうちの最大値を検出し、 その最 大のスコアを与える単語を、 最終的な音声認識結果として出力して、 処理を終了する。
次に、 上述した一連の処理を行う、 各ブロック図で表される装置 は、 専用のハードウェアにより実現することもできるし、 ソフ トゥ エアにより実現することもできる。 ソフ トウェアによって実現する 場合には (この場合、 上述した各ブロック図は、 機能ブロックを表 している図であるということができる) 、 そのソフトウェアを構成 するプログラムが、 汎用のコンピュータ等にインス トールされる。 そこで、 図 2 4は、 上述した一連の処理を実行するプログラムが ィンス トールされるコンピュータの一実施の形態の構成例を示して いる。 プログラムは、 コンピュータに内蔵されている記録媒体とし てのハードディスク 2 0 5や R O M 2 0 3に予め記録しておく こと ができる。
あるいはまた、 プログラムは、 フロッピーディスク、 C D— R O M (Compact Di sc Read Only Memory) 、 M O (Magneto Optical) ディスク、 D V D (Digital Versati le Di sc) 、 磁気ディスク、 半 導体メモリなどのリムーバブル記録媒体 2 1 1に、 一時的あるいは 永続的に格納 (記録) しておく ことができる。 このようなリムーバ ブル記録媒体 2 1 1は、 いわゆるパッケージソフ トウェアとして提 供することができる。
なお、 プログラムは、 上述したようなリムーバブル記録媒体 2 1 1からコンピュータにインス トールする他、 ダウンロー ドサイ ト力 ら、 ディジタル衛星放送用の人工衛星を介して、 コンピュータに無 線で転送したり、 L A N (Local Area Network) 、 インターネッ ト といったネッ トワークを介して、 コンピュータに有線で転送し、 コ ンピュータでは、 そのようにして転送されてくるプログラムを、 通 信部 2 0 8で受信し、 内蔵するハードディスク 2 0 5にインス ト一 ルすることができる。
コンピュータは、 C PU (Central Processing Unit) 2 0 2を内 蔵している。 C PU 2 0 2には、 バス 20 1を介して、 入出力イン タフエース 1 20が接続されており、 C PU 2 02は、 入出力イン タフエース 1 20を介して、 ユーザによって、 キーボードゃマウス 等で構成される入力部 2 0 7が操作されることにより指令が入力さ れると、 それに従って、 ROM (Read Only Memory) 2 0 3に格納 されているプログラムを実行する。 あるいは、 また、 C PU 2 0 2 は、 ハードディスク 20 5に格納されているプログラム、 衛星若し くはネットワークから転送され、 通信部 208で受信されてハード ディスク 2 0 5にィンストールされたプログラム、 又はドライブ 2 09に装着されたリムーバブル記録媒体 2 1 1から読み出されてハ ードディスク 20 5にィンストールされたプログラムを、 RAM (Random Access Memory) 2 04にロードして実行する。 これによ り、 C PU 2 02は、 上述したフローチャートに従った各種の処理 を実行する。 そして、 C PU 2 0 2は、 その処理結果を、 必要に応 じて、 例えば、 入出力インタフェース 1 2 0を介して、 L CD (Li quid Crystal Display) やスピーカ等で構成される出力部 2 06か ら出力、 あるいは、 通信部 20 8から送信、 さらには、 ハードディ スク 2 05に記録等させる。
ここで、 本明細書において、 コンピュータに各種の処理を行わせ るためのプログラムを記述する処理ステップは、 必ずしもフローチ ヤートとして記載された順序に沿って時系列に処理する必要はなく、 並列的あるいは個別に実行される処理 (例えば、 並列処理あるいは オブジェク トによる処理) も含むものである。
また、 プログラムは、 1のコンピュータにより処理されるもので あっても良いし、 複数のコンピュータによって分散処理されるもの であっても良い。 さらに、 プログラムは、 遠方のコンピュータに転 送されて実行されるものであっても良い。
以上、 本発明を適用した音声認識装置について説明したが、 本発 明は、 その他、 例えば、 話者や、 画像その他を認識する装置などに も適用可能である。 産業上の利用可能性 本発明に係る学習装置及び学習方法、 並びに記録媒体によれば、 時系列の学習データから得られた識別子の系列から、 各識別子の期 待度数が算出される。 したがって、 その期待度数を用いることによ り、 信号が有する時間成分を考慮せずに認識を行うことが可能とな る。
本発明に係る認識装置及び認識方法、 並びに記録媒体によれば、 入力データをべク トル量子化することにより、 コードべク トルを示 す識別子の系列が出力され、 入力データが、 認識対象に対応するも のであるかどうかの適正さが、 入力データから得られる識別子の系 列及び識別子の期待度数を用いて求められる。 そして、 その適正さ に基づいて、 入力データが認識対象に一致するか否かが認識される。 したがって、 入力データが有する時間成分を考慮せずに認識を行う ことができ、 その結果、 認識率を向上させることが可能となる。 本発明に係る学習装置及び学習方法、 並びに記録媒体によれば、 標準系列と、 コードベク トルとの間の距離が算出され、 その距離の 推移を表す距離推移モデルが出力される。 したがって、 その距離推 移モデルにより、 認識対象の定常状態や過渡状態が正確に表現され るようになる。
本発明に係る認識装置及び認識方法、 並びに記録媒体によれば、 時系列の入力データが、 コードブックを用いてベク トル量子化され、 コードベク トルに対応する識別子の系列が出力される。 そして、 標 準系列とコードべク トルとの間の距離の推移を表す距離推移モデル と、 入力データについての識別子の系列とに基づいて、 入力データ が少なく とも 1つの認識対象に一致するか否かが認識される。 した がって、 認識率を向上させることが可能となる。
本発明に係る認識装置及び認識方法、 並びに記録媒体によれば、 時系列の第 1及び第 2の入力データが統合され、 時系列の統合デー タが出力される。 そして、 その時系列の統合データに基づくベタ ト ルから得られる距離の推移に基づいて、 第 1又は第 2の入力データ が少なく とも 1つの認識対象に一致するか否かが認識される。 した がって、 認識率を向上させることが可能となる。
本発明に係る学習装置及び学習方法、 並びに記録媒体によれば、 正規化係数に基づいて、 複数の特徴パラメータそれぞれが正規化さ れ、 正規化された複数の特徴パラメータそれぞれについて、 標準パ ラメータとの距離が算出される。 そして、 複数の特徴パラメータの うちの任意の 1つについての距離と、 他の任意の 1つについての距 離とが等しくなるように、 正規化係数が変更される。 したがって、 複数の特徴パラメータそれぞれを、 同等の重みで扱うことができる ように正規化を行うことができる正規化係数を求めることが可能と なる。
本発明に係る認識装置及び認識方法、 並びに記録媒体によれば、 複数の入力データそれぞれの特徴パラメータが正規化され、 正規化 された複数の特徴パラメータが統合されて統合パラメータとされる ( そして、 統合パラメータに基づいて、 複数の入力データの 1以上が 認識対象に対するものか否かが認識される。 したがって、 認識に当 たり、 ある入力データの影響を強く受けることを防止することが可 能となる。

Claims

請求の範囲
1 . 入力系列をベク トル量子化し、 そのベク トル量子化結果に基 づいて、 上記入力系列が認識対象に一致するか否かを認識するため に用いる、 上記べク トル量子化結果が観測されることが期待される 期待度数を求めるための学習を行う学習装置であって、
時系列の学習データをべク トル量子化し、 コードべク トルを示す 識別子の系列を出力するべク トル量子化手段と、
上記時系列の学習データから得られた上記識別子の系列から、 各 識別子の期待度数を算出する算出手段とを備える学習装置。
2 . 上記ベク トル量子化手段は、 時系列の学習データそれぞれに ついて、 その学習データとの距離が最も近いコードべク トルの識別 子を出力することを特徴とする請求の範囲第 1項に記載の学習装置。
3 . 上記算出手段は、 同一の認識対象の認識のための学習に用い られる複数の学習データそれぞれについての識別子の期待度数の平 均値を、 その識別子の最終的な期待度数として求めることを特徴と する請求の範囲第 1項に記載の学習装置。
4 . 入力系列をべク トル量子化し、 そのべク トル量子化結果に基 づいて、 上記入力系列が認識対象に一致するか否かを認識するため に用いる、 上記べク トル量子化結果が観測されることが期待される 期待度数を求めるための学習を行う学習方法であって、
時系列の学習データをべク トル量子化し、 コードべク トルを示す 識別子の系列を出力し、
上記時系列の学習データから得られた上記識別子の系列から、 各 識別子の期待度数を算出する学習方法。
5 . 入力系列をべク トル量子化し、 そのべク トル量子化結果に基 づいて、 上記入力系列が認識対象に一致するか否かを認識するため に用いる、 上記べク トル量子化結果が観測されることが期待される 期待度数を求めるための学習を、 コンピュータに行わせるプログラ ムが記録されている記録媒体であって、
時系列の学習データをべク トル量子化し、 コードべク トルを示す 識別子の系列を出力するべク トル量子化ステップと、
上記時系列の学習データから得られた上記識別子の系列から、 各 識別子の期待度数を算出する算出ステップとを有するプログラムが 記録されている記録媒体。
6 . 時系列の入力データが認識対象に一致するか否かを認識する 認識装置であって、
べク トル量子化に用いられるコードブックのコードべク トルに対 応する各識別子について、 上記入力データが入力されたときに観測 されることが期待される期待度数を記憶している記憶手段と、 上記入力データをべク トル量子化し、 コードべク トルを示す識別 子の系列を出力するべク トル量子化手段と、
上記入力データが、 認識対象に対応するものであるかどうかの適 正さを、 上記入力データから得られる上記識別子の系列、 及び上記 識別子の期待度数を用いて求める適正さ検出手段と、
上記適正さに基づいて、 上記入力データが認識対象に一致するか 否かを認識する認識手段とを備える認識装置。
7 . 上記ベク トル量子化手段は、 時系列の入力データそれぞれに ついて、 その入力データとの距離が最も近いコードべク トルの識別 子を出力することを特徴とする請求の範囲第 6項に記載の認識装置。
8 . 上記適正さ検出手段は、 上記適正さを、 カイ二乗検定を行う ことにより求めることを特徴とする請求の範囲第 6項に記載の認識
9 . 上記時系列の入力データは、 音声の特徴パラメータと、 その 音声の発話がなされているときの口唇の画像の特徴パラメータとを 統合した統合パラメータであることを特徴とする請求の範囲第 6項 に記載の認識装置。
1 0 . 時系列の入力データが認識対象に一致するか否かを認識す るを行う認識方法であって、
上記入力データをべク トル量子化することにより、 コードべク ト ルを示す識別子の系列を出力し、
上記入力データが、 認識対象に対応するものであるかどうかの適 正さを、 上記入力データから得られる上記識別子の系列、 及び上記 識別子が観測されることが期待される期待度数を用いて求め、 その適正さに基づいて、 上記入力データが認識対象に一致するか 否かを認識する認識方法。
1 1 . 時系列の入力データが認識対象に一致するか否かを認識す る認識処理を、 コンピュータに行わせるプログラムが記録されてい る記録媒体であって、
上記入力データをべク トル量子化し、 コードべク トルを示す識別 子の系列を出力するべク トル量子化ステップと、
上記入力データが、 認識対象に対応するものであるかどうかの適 正さを、 上記入力データから得られる上記識別子の系列、 及び上記 識別子が観測されることが期待される期待度数を用いて求める適正 さ検出ステップと、 その適正さに基づいて、 上記入力データが認識対象に一致するか 否かを認識する認識ステップとを有するプログラムが記録されてい る記録媒体。
1 2 . 標準系列と、 ベタ トル量子化に用いられるコードべク トル との間の距離の推移を表す距離推移モデルを求めるための学習を行 う学習装置であって、
時系列の学習データについて、 時間軸の正規化を行い、 上記標準 系列を出力する正規化手段と、
上記標準系列と、 上記コードベク トルとの間の距離を算出し、 そ の距離の推移を出力する距離算出手段とを備える学習装置。
1 3 . 上記距離の推移を多項式で近似する近似手段をさらに備え る請求の範囲第 1 2項に記載の学習装置。
1 4 . 上記近似手段は、 上記コードブックのコードベク トルのう ち、 上記標準系列との距離を最小にするものとの距離の累積値が最 小となるように、 上記多項式の次数を決定することを特徴とする請 求の範囲第 1 3項に記載の学習装置。
1 5 . 標準系列と、 ベク トル量子化に用いられるコードベク トル との間の距離の推移を表す距離推移モデルを求めるための学習を行 う学習方法であって、
時系列の学習データについて、 時間軸の正規化を行い、 上記標準 系列を出力し、
上記標準系列と、 上記コードベク トルとの間の距離を算出し、 そ の距離の推移を出力する学習方法。
1 6 . 標準系列と、 ベク トル量子化に用いられるコードベク トル との間の距離の推移を表す距離推移モデルを求めるための学習を、 コンピュータに行わせるプログラムが記録されている記録媒体であ つて、
時系列の学習データについて、 時間軸の正規化を行い、 上記標準 系列を出力する正規化ステップと、
上記標準系列と、 上記コードベク トルとの間の距離を算出し、 そ の距離の推移を出力する距離算出ステップとを有するプログラムが 記録されている記録媒体。
1 7 . 時系列の入力データが少なく とも 1つの認識対象に一致す るか否かを認識する認識装置であって、
複数のコードべク トノレと、 各コードべク トルを示す識別子とから なるコードブックを記憶しているコードブック記憶手段と、 標準系列と、 上記コードブックの各コードべク トルとの間の距離 の推移を表す、 少なくとも 1つの認識対象に対応した距離推移モデ ルを記憶しているモデル記憶手段と、
上記時系列の入力データを、 上記コードブックを用いてべク トル 量子化し、 上記識別子の系列を出力するべク トル量子化手段と、 上記距離推移モデルと、 上記入力データについての識別子の系列 とに基づいて、 上記入力データが少なく とも 1つの認識対象に一致 するか否かを認識する認識手段とを備える認識装置。
1 8 . 上記記憶手段は、 上記標準系列とコードベク トルとの間の 距離の推移を多項式で近似したものを、 上記距離推移モデルとして 記憶していることを特徴とする請求の範囲第 1 7項に記載の認識装 置。
1 9 . 上記時系列の入力データについて、 時間軸の正規化を行う 正規化手段をさらに備え、 上記べク トル量子化手段は、 正規化された上記入力データをべク トル量子化することを特徴とする請求の範囲第 1 7項に記載の認識
2 0 . 上記時系列の入力データは、 音声の特徴パラメータと、 そ の音声の発話がなされているときの口唇の画像の特徴パラメータと を統合した統合パラメータであることを特徴とする請求の範囲第 1 7項に記載の認識装置。
2 1 . 上記認識手段は、 上記識別子の系列と上記距離推移モデル とに基づいて、 上記識別子ごとの距離を累積し、 その累積された距 離に基づいて、 上記入力データが少なく とも 1つの認識対象に一致 するか否かを認識することを特徴とする請求の範囲第 1 7項に記載 の認識装置。
2 2 . 上記べク トル量子化手段は、 上記入力データとの間の距離 が最も近い上記コードべク トルの識別子を出力することを特徴とす る請求の範囲第 1 7項に記載の認識装置。
2 3 . 上記モデル記憶手段は、 複数の上記距離推移モデルを記憶 していることを特徴とする請求の範囲第 1 7項に記載の認識装置。
2 4 . 時系列の入力データが少なく とも 1つの認識対象に一致す るか否かを認識する認識方法であって、
上記時系列の入力データを、 複数のコードベク トルと、 各コード ベタ トルを示す識別子とからなるコードブックを用いてベタ トル量 子化し、 上記識別子の系列を出力し、
標準系列と上記コードべク トルとの間の距離の推移を表す、 少な くとも 1つの認識対象に対応した距離推移モデルと、 上記入力デー タについての識別子の系列とに基づいて、 上記入力データが少なく とも 1つの認識対象に一致するか否かを認識する認識方法。
2 5 . 時系列の入力データが少なくとも 1つの認識対象に一致す るか否かを認識する認識処理を、 コンピュータに行わせるプロダラ ムが記録されている記録媒体であって、
上記時系列の入力データを、 複数のコードベク トルと、 各コード べク トルを示す識別子とからなるコードブックを用いてべク トル量 子化し、 上記識別子の系列を出力するべク トル量子化ステップと、 標準系列と上記コードべク トルとの間の距離の推移を表す、 少な く とも 1つの認識対象に対応した距離推移モデルと、 上記入力デー タについての識別子の系列とに基づいて、 上記入力データが少なく とも 1つの認識対象に一致するか否かを認識する認識ステップとを 有するプログラムが記録されている記録媒体。
2 6 . 時系列の入力データが少なくとも 1つの認識対象に一致す るか否かを認識する認識装置であって、
時系列の第 1及び第 2の入力データを統合し、 時系列の統合デー タを出力する統合手段と、
上記時系列の統合データに基づくベタ トルから得られる距離の推 移に基づいて、 上記第 1又は第 2の入力データが少なく とも 1つの 認識対象に一致するか否かを認識する認識手段とを備える認識装置。
2 7 . 上記認識手段は、 上記時系列の統合データに基づくベタ ト ルから得られる距離の推移に基づいて行われる第 1のマツチング処 理、 及ぴ上記時系列の統合データに基づくベタ トルから得られる空 間分布に基づいて行われる第 2のマツチング処理を行い、 上記第 1 及び第 2のマッチング処理の結果に基づいて、 上記第 1又は第 2の 入力データが少なく とも 1つの認識対象に一致するか否かを認識す ることを特徴とする請求の範囲第 2 6項に記載の認識装置。
2 8 . 上記認識手段は、 ベク トル量子化に用いられるコードブッ クのコ一ドべク トルと、 標準系列との間の距離の推移を表す距離推 移モデルから、 上記統合データに基づくベタ トルを、 上記コードブ ックを用いてベタ トル量子化したべク トル量子化結果が観測される ときの上記距離を累積し、 その累積結果に基づいて、 上記第 1又は 第 2のデータが少なく とも 1つの認識対象に一致するか否かを認識 することを特徴とする請求の範囲第 2 6項に記載の認識装置。
2 9 . 時系列の入力データが少なくとも 1つの認識対象に一致す るか否かを認識する認識方法であって、
時系列の第 1及び第 2の入力データを統合し、 時系列の統合デー タを出力し、
上記時系列の統合データに基づくベタ トルから得られる距離の推 移に基づいて、 上記第 1又は第 2の入力データが少なく とも 1つの 認識対象に一致するか否かを認識する認識方法。
3 0 . 時系列の入力データが少なく とも 1つの認識対象に一致す るか否かを認識する認識処理を、 コンピュータに行わせるプログラ ムが記録されている記録媒体であって、
時系列の第 1及び第 2の入力データを統合し、 時系列の統合デー タを出力する統合ステップと、
上記時系列の統合データに基づくべク トルから得られる距離の推 移に基づいて、 上記第 1又は第 2の入力データが少なく とも 1つの 認識対象に一致するか否かを認識する認識ステップとを有するプロ グラムが記録されている記録媒体。
3 1 . 複数の入力データについて、 それぞれの特徴を表す特徴パ ラメータの正規化に用いる正規化係数を求めるための学習を行う学 習装置であって、
上記正規化係数に基づいて、 複数の特徴パラメータそれぞれを正 規化する特徴パラメータ正規化手段と、
正規化された上記複数の特徴パラメータそれぞれについて、 標準 パラメータとの距離を算出する距離算出手段と、
上記複数の特徴パラメータのうちの任意の 1つについての距離と、 他の任意の 1つについての距離とが等しくなるように、 上記正規化 係数を変更する変更手段とを備える学習装置。
3 2 . ベタ トル量子化に用いるコードブックを生成するためのコ 一ドブック生成データを、 上記正規化係数に基づいて正規化するコ 一ドブック生成データ正規化手段と、
正規化された上記コードブック生成データを用いて、 上記コ一ド ブックを生成するコードブック生成手段とをさらに備え、
上記距離算出手段は、 上記コードブックにおけるコードべク トル のうち、 上記特徴パラメータに最も近いものを、 上記標準パラメ一 タとして、 その特徴パラメータとの距離を算出することを特徵とす る請求の範囲第 3 1項に記載の学習装置。
3 3 . 上記複数の入力データは、 少なく とも画像と音声のデータ を含むことを特徴とする請求の範囲第 3 1項に記載の学習装置。
3 4 . 複数の入力データについて、 それぞれの特徴を表す特徴パ ラメータの正規化に用いる正規化係数を求めるための学習を行う学 習方法であって、
上記正規化係数に基づいて、 複数の特徴パラメータそれぞれを正 規化し、 正規化された上記複数の特徴パラメータそれぞれについて、 標準 パラメータとの距離を算出し、
上記複数の特徴パラメータのうちの任意の 1つについての距離と, 他の任意の 1つについての距離とが等しくなるように、 上記正規化 係数を変更する学習方法。
3 5 . 複数の入力データについて、 それぞれの特徴を表す特徴パ ラメータの正規化に用いる正規化係数を求めるための学習を、 コン ピュータに行わせるプログラムが記録されている記録媒体であつて、 上記正規化係数に基づいて、 複数の特徴パラメータそれぞれを正 規化する特徴パラメータ正規化ステップと、
正規化された上記複数の特徴パラメータそれぞれについて、 標準 パラメータとの距離を算出する距離算出ステップと、
上記複数の特徴パラメータのうちの任意の 1つについての距離と、 他の任意の 1つについての距離とが等しくなるように、 上記正規化 係数を変更する変更ステップとを有するプログラムが記録されてい る記録媒体。
3 6 . 複数の入力データそれぞれについて、 特徴パラメータを検 出する検出手段と、
上記複数の入力データそれぞれの特徴パラメータを正規化する正 規化手段と、
正規化された複数の特徴パラメータを統合し、 統合パラメータと する統合手段と、
上記統合パラメータに基づいて、 上記複数の入力データの 1以上 が認識対象に対するものか否かを認識する認識手段とを備える認識
3 7 . 上記正規化手段は、 上記特徴パラメータを、 正規化係数に 基づいて正規化することを特徴とする請求の範囲第 3 6項に記載の
3 8 . 上記正規化係数は、 上記正規化係数に基づいて、 複数の特 徴パラメータそれぞれを正規化し、
正規化された上記複数の特徴パラメータそれぞれについて、 標準 パラメータとの距離を算出し、
上記複数の特徴パラメータのうちの任意の 1つについての距離と、 他の任意の 1つについての距離とが等しくなるように、 上記正規化 係数を変更することにより得られたものであることを特徴とする請 求の範囲第 3 7項に記載の認識装置。
3 9 . 上記正規化係数は、 ベタ トル量子化に用いるコードブック を生成するためのコ ードブック生成データを、 上記正規化係数に基 づいて正規化し、 その正規化された上記コードブック生成データを 用いて、 上記コードブックを生成し、 上記コードブックにおけるコ ードベク トルのうち、 上記特徴パラメータに最も近いものを、 上記 標準パラメ一タとして、 その特徴パラメータとの距離を算出し、 上 記複数の特徴パラメータのうちの任意の 1つについての距離と、 他 の任意の 1つについての距離とが等しくなるように、 上記正規化係 数を変更することにより得られたものであることを特徴とする請求 の範囲第 3 7項に記載の認識装置。
4 0 . 上記複数の入力データは、 少なくとも画像と音声のデータ を含むことを特徴とする請求の範囲第 3 6項に記載の認識装置。
4 1 . 上記認識手段は、 上記音声を認識することを特徴とする請 求の範囲第 4 0項に記載の認識装置。
4 2 . 上記統合パラメータを時間軸方向に正規化する時間軸正規 化手段をさらに備えることを特徴とする請求の範 ffl第 3 6項に記载 の認識装置。
4 3 . 複数の入力データそれぞれについて、 特徴パラメータを出 力し、
上記複数の入力データそれぞれの特徴パラメータを正規化し、 正規化された複数の特徴パラメータを統合して統合パラメータと し、
上記統合パラメータに基づいて、 上記複数の入力データの 1以上 が認識対象に対するものか否かを認識する認識方法。
4 4 . コンピュータに実行させるプログラムが記録されている記 録媒体であって、
複数の入力データをそれぞれについて、 特徴パラメータを検出す る検出ステップと、
上記複数の入力データそれぞれの特徴パラメ一タを正規化する正 規化ステップと、
正規化された複数の特徴パラメータを統合し、 統合パラメ一タと する統合ステップと、
上記統合パラメータに基づいて、 上記複数の入力データの 1以上 が認識対象に対するものか否かを認識する認識ステップとを有する プログラムが記録されている記録媒体。
PCT/JP1999/005619 1998-10-09 1999-10-12 Dispositif et procede d'apprentissage, dispositif et procede de reconnaissance et support d'enregistrement WO2000022607A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020007006263A KR100729316B1 (ko) 1998-10-09 1999-10-12 학습 장치 및 학습 방법, 인식 장치 및 인식 방법, 및기록 매체
DE69943018T DE69943018D1 (de) 1998-10-09 1999-10-12 Lernvorrichtung und -verfahren, erkennungsvorrichtung und verfahren, und aufnahme-medium
EP99970495A EP1039446B1 (en) 1998-10-09 1999-10-12 Learning device and method, recognizing device and method, and recording medium
US09/584,260 US6449591B1 (en) 1998-10-09 2000-05-31 Learning apparatus, learning method, recognition apparatus, recognition method, and recording medium
US10/167,104 US7072829B2 (en) 1998-10-09 2002-06-10 Speech recognition from concurrent visual and audible inputs
US11/009,337 US20050096902A1 (en) 1998-10-09 2004-12-09 Speech recognition from concurrent visual and audible inputs

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP10/288038 1998-10-09
JP28803898 1998-10-09

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/584,260 Continuation US6449591B1 (en) 1998-10-09 2000-05-31 Learning apparatus, learning method, recognition apparatus, recognition method, and recording medium

Publications (1)

Publication Number Publication Date
WO2000022607A1 true WO2000022607A1 (fr) 2000-04-20

Family

ID=17725033

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/005619 WO2000022607A1 (fr) 1998-10-09 1999-10-12 Dispositif et procede d'apprentissage, dispositif et procede de reconnaissance et support d'enregistrement

Country Status (5)

Country Link
US (3) US6449591B1 (ja)
EP (4) EP1039446B1 (ja)
KR (1) KR100729316B1 (ja)
DE (3) DE69941499D1 (ja)
WO (1) WO2000022607A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1039446B1 (en) * 1998-10-09 2010-12-08 Sony Corporation Learning device and method, recognizing device and method, and recording medium
US7065338B2 (en) * 2000-11-27 2006-06-20 Nippon Telegraph And Telephone Corporation Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
US7640164B2 (en) * 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
JP4639784B2 (ja) * 2004-12-06 2011-02-23 ソニー株式会社 学習装置および学習方法、並びにプログラム
JP2006285899A (ja) * 2005-04-05 2006-10-19 Sony Corp 学習装置および学習方法、生成装置および生成方法、並びにプログラム
CN102301395B (zh) * 2009-01-29 2014-08-06 日本电气株式会社 特征选择设备
CN101950376B (zh) * 2009-07-09 2014-10-29 索尼公司 隐马尔可夫模型学习设备和方法
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
WO2011082332A1 (en) 2009-12-31 2011-07-07 Digimarc Corporation Methods and arrangements employing sensor-equipped smart phones
GB2477324A (en) * 2010-02-01 2011-08-03 Rolls Royce Plc Device monitoring
JP2011223287A (ja) * 2010-04-09 2011-11-04 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US8490056B2 (en) * 2010-04-28 2013-07-16 International Business Machines Corporation Automatic identification of subroutines from test scripts
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
JP6828741B2 (ja) * 2016-05-16 2021-02-10 ソニー株式会社 情報処理装置
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
WO2019123544A1 (ja) * 2017-12-19 2019-06-27 オリンパス株式会社 データ処理方法およびデータ処理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58143396A (ja) * 1982-02-19 1983-08-25 日本電気株式会社 音声認識装置
JP2709386B2 (ja) * 1987-06-24 1998-02-04 株式会社 エイ・ティ・ア−ル自動翻訳電話研究所 スペクトログラムの正規化方法
US5732393A (en) * 1995-02-07 1998-03-24 Toyota Jidosha Kabushiki Kaisha Voice recognition device using linear predictive coding
WO1998029864A1 (fr) * 1996-12-26 1998-07-09 Sony Corporation Appareil et procede de reconnaissance, et appareil et procede d'apprentissage

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4608708A (en) 1981-12-24 1986-08-26 Nippon Electric Co., Ltd. Pattern matching system
US5054085A (en) * 1983-05-18 1991-10-01 Speech Systems, Inc. Preprocessing system for speech recognition
US4817158A (en) * 1984-10-19 1989-03-28 International Business Machines Corporation Normalization of speech signals
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
JP2979711B2 (ja) * 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
US5263097A (en) * 1991-07-24 1993-11-16 Texas Instruments Incorporated Parameter normalized features for classification procedures, systems and methods
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JPH064093A (ja) * 1992-06-18 1994-01-14 Matsushita Electric Ind Co Ltd Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5692100A (en) * 1994-02-02 1997-11-25 Matsushita Electric Industrial Co., Ltd. Vector quantizer
JP2775140B2 (ja) * 1994-03-18 1998-07-16 株式会社エイ・ティ・アール人間情報通信研究所 パターン認識方法、音声認識方法および音声認識装置
JP3533696B2 (ja) * 1994-03-22 2004-05-31 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
WO1995034884A1 (fr) * 1994-06-13 1995-12-21 Matsushita Electric Industrial Co., Ltd. Analyseur de signaux
JPH08123462A (ja) * 1994-10-27 1996-05-17 Sony Corp 音声認識装置
JP3627299B2 (ja) * 1995-07-19 2005-03-09 ソニー株式会社 音声認識方法及び装置
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
JPH10288038A (ja) * 1997-04-15 1998-10-27 Nissan Motor Co Ltd 直接噴射式ディーゼルエンジン
KR20000001476U (ko) * 1998-06-20 2000-01-25 조병호 특정문장 화자인식에 의한 도어록 장치 고안
US6185529B1 (en) * 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
JP4345156B2 (ja) * 1998-10-09 2009-10-14 ソニー株式会社 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
EP1039446B1 (en) * 1998-10-09 2010-12-08 Sony Corporation Learning device and method, recognizing device and method, and recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58143396A (ja) * 1982-02-19 1983-08-25 日本電気株式会社 音声認識装置
JP2709386B2 (ja) * 1987-06-24 1998-02-04 株式会社 エイ・ティ・ア−ル自動翻訳電話研究所 スペクトログラムの正規化方法
US5732393A (en) * 1995-02-07 1998-03-24 Toyota Jidosha Kabushiki Kaisha Voice recognition device using linear predictive coding
WO1998029864A1 (fr) * 1996-12-26 1998-07-09 Sony Corporation Appareil et procede de reconnaissance, et appareil et procede d'apprentissage

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
K SANO ET AL.: "Examination of Word Pre-Selection Method in Consideration of Speaker Adaptation", IEICE TECHNICAL REPORT (VOICE),, vol. 87, no. 298, SP87-92, 17 December 1987 (1987-12-17), pages 39 - 44, XP002935522 *
K. SHIRAI ET AL.: "Speaker Identification Based on Frequency Distribution of vector-Quantized Spectra", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS,, vol. J70-D, no. 6, June 1987 (1987-06-01), pages 1181 - 1188, XP002935521 *
See also references of EP1039446A4 *
T. MIYAZAKI ET AL.: "Auditory and Visual Approach for Speech Recognition in Noisy Environment", RESEARCH AND DEVELOPMENT BY OKI ELECTRIC INDUSTRY CO., LTD.,, vol. 64, no. 2, April 1997 (1997-04-01), pages 45 - 50, XP002935524 *
T. MIYAZAKI ET AL.: "Lip-reading for Speech Recognition in Noisy Environment", IPSJ SIG NOTES (SPOKEN LANGUAGE PROCESSING),, vol. 96, no. 74, 96-SLP-12-18, 27 July 1996 (1996-07-27), pages 97 - 102, XP002935523 *

Also Published As

Publication number Publication date
EP1039446A1 (en) 2000-09-27
EP1863014B1 (en) 2009-09-30
EP2056290B1 (en) 2010-02-03
EP1039446B1 (en) 2010-12-08
US7072829B2 (en) 2006-07-04
US20050096902A1 (en) 2005-05-05
EP1863014A2 (en) 2007-12-05
EP1039446A4 (en) 2005-07-20
US6449591B1 (en) 2002-09-10
EP1863013A2 (en) 2007-12-05
DE69941499D1 (de) 2009-11-12
EP2056290A1 (en) 2009-05-06
US20020184011A1 (en) 2002-12-05
EP1863013B1 (en) 2013-01-02
EP1863014A3 (en) 2008-08-06
KR100729316B1 (ko) 2007-06-19
DE69941999D1 (de) 2010-03-25
EP1863013A3 (en) 2008-08-06
DE69943018D1 (de) 2011-01-20
KR20010032920A (ko) 2001-04-25

Similar Documents

Publication Publication Date Title
WO2000022607A1 (fr) Dispositif et procede d&#39;apprentissage, dispositif et procede de reconnaissance et support d&#39;enregistrement
AU2006343470B2 (en) Intersession variability compensation for automatic extraction of information from voice
KR102410914B1 (ko) 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법
CN111292764A (zh) 辨识系统及辨识方法
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JPWO2009133719A1 (ja) 音響モデル学習装置および音声認識装置
JP2005062866A (ja) コンパクトな音響モデルを作成するためのバブル分割方法
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
US6718299B1 (en) Information processing apparatus for integrating a plurality of feature parameters
JP4345156B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
Benkhellat et al. Genetic algorithms in speech recognition systems
JP4340939B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP2000181481A (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法
JP2000122677A (ja) パラメータ抽出装置およびパラメータ抽出方法
Nijhawan et al. Real time speaker recognition system for hindi words
JPH11122114A (ja) コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法
JP6054004B1 (ja) 音声認識装置
Singh et al. Speech recognition using probabilistic and statistical models
JPH04298795A (ja) 標準パタン作成装置
JP2005091709A (ja) 音声認識装置
JPH05273994A (ja) 隠れマルコフモデルの学習方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 09584260

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1999970495

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020007006263

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1999970495

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020007006263

Country of ref document: KR

WWR Wipo information: refused in national office

Ref document number: 1020007006263

Country of ref document: KR