WO2004047076A1 - 標準モデル作成装置及び標準モデル作成方法 - Google Patents

標準モデル作成装置及び標準モデル作成方法 Download PDF

Info

Publication number
WO2004047076A1
WO2004047076A1 PCT/JP2003/014626 JP0314626W WO2004047076A1 WO 2004047076 A1 WO2004047076 A1 WO 2004047076A1 JP 0314626 W JP0314626 W JP 0314626W WO 2004047076 A1 WO2004047076 A1 WO 2004047076A1
Authority
WO
WIPO (PCT)
Prior art keywords
standard model
model
standard
unit
reference model
Prior art date
Application number
PCT/JP2003/014626
Other languages
English (en)
French (fr)
Inventor
Shinichi Yoshizawa
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to AU2003302063A priority Critical patent/AU2003302063A1/en
Priority to JP2004570337A priority patent/JP3667332B2/ja
Priority to US10/534,869 priority patent/US7603276B2/en
Priority to EP03811527A priority patent/EP1564721A1/en
Publication of WO2004047076A1 publication Critical patent/WO2004047076A1/ja
Priority to US12/499,302 priority patent/US20090271201A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Definitions

  • the present invention relates to speech recognition using a probability model such as a Hidden Markov Model, Bayesian theory, or linear discriminant analysis, pattern recognition such as character recognition or image recognition, intent understanding (probability recognition) using a probabilistic model such as Bayesian Net, and probability.
  • a probability model such as a Hidden Markov Model, Bayesian theory, or linear discriminant analysis
  • pattern recognition such as character recognition or image recognition
  • intent understanding probability recognition
  • Bayesian Net a probabilistic model
  • Model-based data mining recognition of data characteristics
  • probabilistic model human detection fingerprint authentication, face authentication, iris authentication (recognize objects to determine whether they are specific objects), stock price forecasts, weather forecasts
  • a standard model creation device used for prediction e.g., recognizing and judging situations
  • synthesizing multiple speaker voices synthesizing multiple face images, etc. (humans recognize and enjoy the synthesized model)
  • Background art e.g., recognizing and judging situations
  • recognition models are being used in a wide range of devices with different specifications such as CPU power and memory capacity, such as personal computers, TV remote controls, mobile phones, and car navigation systems. I have.
  • applications that require recognition accuracy such as security
  • applications that require a fast time to output recognition results such as operation on a TV remote control. It is being used by applications.
  • recognition technology is being used in many environments with different recognition targets.
  • speech recognition it is used in many environments, such as recognizing children's voices, adult voices, and elderly voices, as well as voices in cars and mobile phones.
  • HMMs hidden Markov models
  • GMMs Gaussian mixture models
  • a method of using a probabilistic model as a standard model representing intention, knowledge, taste, and the like has attracted attention in recent years, and Bayesian nets and the like have been widely used.
  • a method using a probabilistic model as a representative model of each category to classify data has attracted attention, and GMM and the like are widely used.
  • Equation 2 f (x; fim)) a f 2 (m) ) (2 1,2, .. "M,) represents a Gaussian distribution
  • Bayesian estimation methods see, for example, Norio Shigemasu, "Introduction to Bayesian Statistics", ⁇ ⁇ .42-53, published by The University of Tokyo Press, published April 30, 1985. The way suggested Have been.
  • the learning algorithm of the Baum. Welch re-estimation method, the EM algorithm, and the Bayesian estimation method use the parameters (statistics) of the standard model to maximize or maximize the probability (likelihood) for the training data. ) Is calculated to create a standard model. In these learning methods, a mathematical optimization that maximizes or maximizes the probability (likelihood) is realized.
  • a model prepared as a reference for creating a standard model is referred to as a “reference model”.
  • the reference model is a probability distribution model that expresses a large amount of learning data with the parameters (mean, variance, etc.) of the probability distribution, and is a collection of features of many learning data with a small number of parameters (parameters).
  • the model is represented by a Gaussian distribution.
  • a reference model is represented by a GMM, and a standard model is created by combining GMMs of a plurality of reference models with weights. No. 9).
  • a standard model is created by maximizing or maximizing the probability (likelihood) of the learning data and learning the linearly combined mixed weight.
  • the average value of the standard model is represented by a linear combination of the average value of the reference model, and the probability (likelihood) for the input data is maximized or maximized to learn the linear combination coefficient.
  • speech data of a specific speaker is used as training data, and a standard model is used as a speaker adaptation model for speech recognition (see, for example, M.J.F. A daptiveraining F or Speech R ecognition ", 1989, ICSLP 98 Proceedings, pp. 1783--17786).
  • the reference model is represented by a single Gaussian distribution.
  • Gaussian distributions belonging to the same class are integrated by clustering. are creating a standard model (e.g., JP-a-9 - 8 1 1 7 8 No. technologies disclosed in Japanese) 0
  • a plurality of reference models are represented by a Gaussian mixture distribution having the same number of mixtures, and each Gaussian distribution is assigned a serial number corresponding to one-to-one.
  • the standard model is created by combining Gaussian distributions with the same serial number.
  • the multiple reference models to be synthesized are models created by speakers that are acoustically close to the user, and the standard model to be created is a speaker adaptation model (for example, Yoshizawa, et al., 6). Unsupervised Learning Method of Phonological Model Using Speaker Distance ", March 1, 2002, IEICE, Vo, J85-D-I-, ⁇ 3, pp. 3 8 2— 3 8 9).
  • the number of mixed standard models increases with the number of reference models to be synthesized, and the storage capacity and the recognition processing amount for the standard models increase, which is not practical. Also, the number of mixed standard models cannot be controlled according to the specifications. Also, since the standard model is a simple mixed sum of the reference models and the parameters to be learned are limited to the mixture weights, a high-precision standard model cannot be created. In addition, in creating a standard model, learning is performed using a large amount of training data, and it takes a long learning time. These issues are expected to become more pronounced as the number of reference models to be synthesized increases.
  • a high-accuracy standard model cannot be created because the parameters to be learned are limited to the linear coupling coefficient of the average value of the reference model.
  • learning is performed using a large amount of training data, so it takes a long learning time.
  • a standard model is created by synthesizing Gaussian distributions having the same serial number.However, in order to create an optimal standard model, a Gaussian model to be synthesized is generally used. Since the distribution does not always correspond one-to-one, the recognition accuracy decreases. Also, multiple reference models have different numbers of Cannot create a standard model. In general, serial numbers are not assigned to the Gaussian distribution in the reference model, and in this case, a standard model cannot be created. Also, the number of mixed standard models cannot be controlled according to the specifications. Disclosure of the invention
  • the present invention has been made in view of such problems, and includes pattern recognition such as speech recognition, character recognition, and image recognition using stochastic models such as Hidden Markov Model, Bayesian theory, and linear discriminant analysis.
  • pattern recognition such as speech recognition, character recognition, and image recognition using stochastic models such as Hidden Markov Model, Bayesian theory, and linear discriminant analysis.
  • probabilistic models such as Bayesian Net (recognition of intentions), data mining using probabilistic models (recognizing data characteristics), forecasting stock prices, forecasting weather, etc. (recognizing and judging conditions)
  • Another object of the present invention is to provide a standard model creation device and the like that can easily create a standard model without requiring learning data or teacher data.
  • the present invention can create a standard model suitable for a recognition target using a standard model, and can create a standard model suitable for the specifications and environment of a device that executes recognition processing using the standard model. It is also an object of the present invention to provide a standard model creation device with excellent versatility and flexibility.
  • the term “recognition” used in the present invention means not only recognition in a narrow sense, such as speech recognition, but also anything that uses a standard model represented by a probability, such as pattern matching, identification, authentication, paise estimation or prediction. Means
  • a standard model creating apparatus is an apparatus for creating a standard model that is a recognition model defined by a set of events and an output probability of an event or a transition between events.
  • a particular object Reference model storage means for storing one or more reference models which are models created in advance for recognition; and maximizing the probability or likelihood of the standard model with respect to the one or more reference models stored in the reference model storage means.
  • Standard model creation means for creating a standard model by calculating statistics of the standard model so as to maximize or maximize it.
  • a standard model generator for speech recognition a standard model for speech recognition showing features of speech having specific attributes is used, using a probabilistic model that expresses frequency parameters indicating features of speech by output probabilities.
  • An apparatus for creating a model comprising: a reference model storage means for storing one or more reference models which are probabilistic models indicating characteristics of speech having a certain attribute; and one or more reference models stored in the reference model storage means.
  • Standard model creation means for creating a standard model by calculating the statistics of the standard model using the statistics of the reference model, wherein the standard model creation means defines the structure of the standard model to be created.
  • a standard model structure deciding unit that determines the standard model, an initial standard model creator that determines the initial value of the statistic that specifies the standard model whose structure is determined, and a standard model that determines the initial model. And a statistic estimator for estimating and calculating statistics of the standard model so as to maximize or maximize the probability or likelihood of the reference model of Dell.
  • the statistics of the standard model are calculated so as to maximize or maximize the probability or likelihood of the standard model with respect to one or more reference models, and the standard model is created.
  • a standard model can be easily created without the need for data or teacher data, and a highly accurate standard model can be created that comprehensively considers multiple reference models that have already been created.
  • the standard model creation device further obtains a reference model from the outside and stores it in the reference model storage means; and
  • a reference model preparing means for performing at least one of creating and storing in the reference model storing means may be provided.
  • a standard model for speech recognition showing features of speech having a specific attribute is used, using a probability model that expresses the frequency parameters indicating the features of speech by output probabilities.
  • An initial value is prepared, and a maximum value or a maximum value of the probability or likelihood of the standard model with respect to one or more reference models stored in the reference model storage means is set.
  • the standard model creation device is further stored in the reference model storage unit based on the created use information, and a use information creating unit that creates use information that is information on a recognition target.
  • Reference model selection means for selecting one or more reference models from the reference models, wherein the standard model creation means determines the probability or likelihood of the standard model with respect to the reference model selected by the reference model selection means.
  • the statistics of the standard model may be calculated to maximize or maximize.
  • the standard model creation device further calculates a similarity between the usage information and information on the selected reference model, and determines whether the similarity is equal to or greater than a predetermined threshold. And a similarity determination unit for generating a determination signal.
  • a terminal device is connected to the standard model creation device via a communication path, and the standard model creation device further includes usage information receiving means for receiving, from the terminal device, usage information that is information on a recognition target. And a reference model selection means for selecting one or more reference models from the reference models stored in the reference model storage means based on the received usage information, wherein the standard model creation means The statistic of the standard model may be calculated so as to maximize or maximize the probability or likelihood of the standard model with respect to the reference model selected by the reference model selecting unit.
  • a standard model is created based on the usage information transmitted via the communication channel, so that a standard model can be generated by remote control and a recognition system based on a communication system can be created. Construction is realized.
  • the standard model creation device further includes a specification information creation unit that creates specification information that is information on the specifications of the standard model to be created, and the standard model creation unit is created by the specification information creation unit.
  • the statistic of the standard model may be calculated so as to maximize or maximize the probability or likelihood of the standard model with respect to the reference model.
  • the specification information may be, for example, information indicating a specification associated with a type of an application program using a standard model.
  • the standard model creation device further includes specification information holding means for holding, as the specification information, an application specification correspondence database indicating correspondence between an application program using the standard model and the specifications of the standard model.
  • the standard model creation unit reads a specification corresponding to an application program to be started from an application specification correspondence database held in the specification information holding unit, and based on the read specification, the standard for the reference model.
  • the statistics of the standard model may be calculated to maximize or maximize the probability or likelihood of the model.
  • a standard model is created according to the specifications associated with each application, so that an optimal standard model is created for each application, and a recognition system using the standard model is created. Etc., the recognition accuracy is improved.
  • a terminal device is connected to the standard model creation device via a communication path, and the standard model creation device further includes a specification for receiving specification information, which is information on the specification of the standard model to be created, from the terminal device.
  • Information receiving means wherein the standard model creating means receives the specification information receiving means.
  • the statistic of the standard model may be calculated based on the specified information so as to maximize or maximize the probability or the likelihood of the standard model with respect to the reference model.
  • a standard model is created based on the specification information transmitted via the communication channel, so that a standard model can be generated by remote control and a recognition system based on a communication system can be created. Construction is realized.
  • the reference model and the standard model are represented using one or more Gaussian distributions
  • the standard model creation means determines the number of mixture distributions (the number of Gaussian distributions) of the standard model based on the specification information. ) May be determined.
  • the number of mixture distributions of the Gaussian distribution included in the created standard model is dynamically determined, and the structure of the standard model is changed according to the environment in which the recognition process is executed and the required specifications. Can be controlled. For example, if the recognition device using the standard model has a low CPU power, a small storage capacity, or a short recognition processing time, the number of distributions of the standard model is set to a small number and the specifications are met. On the other hand, if the required recognition accuracy is high, the number of mixture distributions can be set to a large value to increase the recognition accuracy.
  • reference model preparation means is not always necessary. For example, based on a user's request or irrespective of a user's request, a standard model creation device is shipped with a reference model stored in advance in a standard model creation device, and usage information and specification information are stored. This is because it is possible to create a standard model using it.
  • the reference model and the standard model have one or more Gaussian distributions.
  • the reference model storage means stores reference models in which the number of mixture distributions (the number of Gaussian distributions) of at least one pair of reference models is different, and the standard model creation means includes at least one pair of reference models.
  • the statistic of the standard model may be calculated so as to maximize or maximize the probability or likelihood of the standard model with respect to reference models having different mixture distribution numbers (the number of Gaussian distributions) of the reference model.
  • the standard model is created based on the reference models having different numbers of mixture distributions, so that it is possible to create the standard model based on the reference models having various structures prepared in advance.
  • the creation of a highly accurate standard model suitable for the target is realized.
  • the standard model creation device may further include a standard model storage unit that stores the standard model created by the standard model creation unit.
  • the created standard model is temporarily buffered and immediately output in response to a transmission request, serving as a data server for other devices. «— Becomes possible
  • a terminal device is connected to the standard model creation device via a communication path, and the standard model creation device further includes a standard model transmission unit that transmits the standard model created by the standard model creation unit to the terminal device. May be provided.
  • the created standard model is transmitted to an external device that is spatially separated, so that the standard model creation device can be used independently as a standard model creation engine, or the standard model creation device can communicate with it. It can function as a server in the system.
  • a terminal device is connected to the standard model creation device via a communication path, and the standard model creation device further includes reference model receiving means for receiving a reference model transmitted from the terminal device, Standard model work The generating means may calculate the statistic of the standard model so as to maximize or maximize the probability or likelihood of the standard model with respect to the reference model received by the reference model receiving means.
  • a reference model suitable for the use environment held by the terminal device can be transmitted through a communication channel, and a standard model can be created using the transmitted reference model. Creation of a high standard model is realized. As an example, if reference model A used by user A in environment A is stored in the terminal device and user A wants to use it in environment B, a standard model is created using reference model A. By doing so, a highly accurate standard model that reflects the characteristics of user A can be created.
  • the reference model preparation means may further perform at least one of updating and adding the reference model stored in the reference model storage means.
  • a terminal device is connected to the standard model creation device via a communication path, and the standard model creation device further includes a reference model receiving unit that receives a reference model transmitted from the terminal device.
  • the reference model preparation unit may perform at least one of updating and adding of the reference model stored in the reference model storage unit using the reference model received by the reference model reception unit.
  • reference models to be prepared are added and updated, so that various models for recognition targets can be added as reference models or replaced with reference models with higher accuracy. It becomes possible to regenerate the standard model using the updated reference model, and to perform learning by feedback, such as creating a standard model again using the generated standard model as a reference model.
  • the standard model creating means determines a standard model structure determining unit that determines the structure of the standard model to be created, and specifies the standard model whose structure has been determined.
  • An initial standard model creation unit that determines an initial value of a statistic to be calculated, and estimates and calculates a statistic of the standard model so as to maximize or maximize the probability or likelihood of the standard model with respect to the reference model. You may comprise so that it may have a statistic estimation part.
  • the initial standard model creation unit uses an initial value of a statistic specifying the standard model using one or more reference models, which is used by the statistic estimation unit to calculate a statistic of the standard model. You may decide.
  • the initial standard model creation unit may determine the initial value based on a class ID that identifies the type of the standard model. Specifically, the initial standard model creation unit holds a correspondence table indicating a correspondence between the class ID, the initial value, and the reference model, and determines the initial value according to the correspondence table. Is also good.
  • the initial standard model that has the same properties as the final required standard model can be used. As a result, a highly accurate standard model is created.
  • speech recognition using stochastic models such as Hidden Markov Model, Bayes' Theory, and Linear Discriminant Analysis, pattern recognition such as character recognition and image recognition, and intent understanding using probabilistic models such as Bayesian Net Figure recognition
  • data mining using stochastic models recognition of data characteristics
  • human detection using stochastic models fingerprint authentication, face authentication, iris authentication (recognizing an object and determining whether it is a specific object), stock price prediction
  • a high-precision standard model used for forecasts such as weather forecasts (recognizing and judging conditions) is provided, and its practical value is extremely high.
  • the present invention can be realized not only as such a standard model creation device, but also as a standard model creation method in which characteristic components of the standard model creation device are used as steps. Those steps As a program that causes a computer to execute the program. It goes without saying that the program can be distributed via a recording medium such as a CD-ROM or a transmission medium such as the Internet. BRIEF DESCRIPTION OF THE FIGURES
  • FIG. 1 is a block diagram showing an overall configuration of a server relating to a standard model creation device according to a first embodiment of the present invention.
  • FIG. 2 is a flowchart showing the operation procedure of the server.
  • FIG. 3 is a diagram showing an example of a reference model stored in the reference model storage unit in FIG.
  • FIG. 4 is a flowchart showing a detailed procedure of step S101 (creation of a standard model) in FIG.
  • FIG. 5 is a diagram illustrating an approximation calculation by the first approximation unit 104 e in FIG.
  • FIG. 6 is a diagram illustrating a screen display example when a reference model is selected.
  • Figure 7 (a) shows a screen display example when specifying the structure (mixture distribution number) of the standard model to be created
  • Figure 7 (b) shows a screen display example when selecting specification information. is there.
  • FIG. 8 is a diagram showing an example of a screen display showing a progress situation when a standard model is being created.
  • FIG. 9 is a block diagram showing an entire configuration of an STB according to the standard model creation device according to the second embodiment of the present invention.
  • FIG. 10 is a flowchart showing the operation procedure of the STB.
  • FIG. 11 is a diagram showing an example of the reference model stored in the reference model memory tone! 5 in FIG.
  • FIG. 12 is a diagram illustrating an approximation calculation by the second approximation unit in FIG. 10.
  • FIG. 13 is a block diagram showing the overall configuration of a PDA according to the standard model creation device according to the third embodiment of the present invention.
  • FIG. 14 is a flowchart showing the operation procedure of the PDA.
  • FIG. 15 is a diagram illustrating an example of a reference model stored in the reference model storage unit in FIG.
  • FIG. 16 shows an example of the PDA selection screen.
  • FIG. 17 is a conceptual diagram showing a procedure for estimating statistics by the statistics estimator in FIG.
  • FIG. 19 is a block diagram illustrating an overall configuration of a server according to the standard model creation device according to the fourth embodiment of the present invention.
  • FIG. 20 is a flowchart showing the operation procedure of the server.
  • FIG. 21 is a diagram showing an example of a reference model and a standard model for explaining the operation procedure of the server.
  • FIG. 22 is a diagram showing a screen display example when personal information as usage information is input.
  • FIG. 23 is a block diagram illustrating an overall configuration of a server according to the standard model creation device according to the fifth embodiment of the present invention.
  • FIG. 24 is a flowchart showing the operation procedure of the server.
  • FIG. 25 is a diagram showing an example of a reference model and a standard model for explaining the operation procedure of the server.
  • FIG. 26 is a block diagram illustrating an overall configuration of a server according to the standard model creation device according to the sixth embodiment of the present invention.
  • Figure 27 is a flowchart showing the operation procedure of the server.
  • FIG. 28 is a diagram illustrating an example of a reference model and a standard model for explaining the operation procedure of the server.
  • FIG. 29 is a block diagram illustrating an overall configuration of a server according to the standard model creation device according to the seventh embodiment of the present invention.
  • FIG. 30 is a flowchart showing the operation procedure of the server.
  • FIG. 31 is a diagram showing an example of a reference model and a standard model for explaining the operation procedure of the server.
  • FIG. 32 is a block diagram showing the overall configuration of the standard model creation device according to the eighth embodiment of the present invention.
  • FIG. 33 is a flowchart showing the operation procedure of the mobile phone 901.
  • FIG. 34 is a diagram illustrating an example of the reference model stored in the reference model storage unit.
  • FIG. 35 is a diagram illustrating an example of a reference model newly stored in the reference model storage unit.
  • FIG. 36 is a diagram illustrating an example of a screen display when creating usage information.
  • FIG. 37 is a diagram showing a screen display example when a reference model is prepared.
  • FIG. 38 is a graph showing the results of a recognition experiment using a standard model created using the third approximation unit.
  • FIG. 39 is a graph illustrating a result of a recognition experiment using a standard model created by the second approximation unit according to the third embodiment.
  • FIG. 40 is a block diagram showing the overall configuration of the standard model creation device according to the ninth embodiment of the present invention.
  • Figure 41 is a diagram showing an example of data in the application specification information correspondence database.
  • FIG. 42 is a flowchart showing the operation procedure of PDA 1001.
  • FIG. 43 is a diagram illustrating an example of the reference model stored in the reference model storage unit.
  • FIG. 44 is a flowchart showing a method of determining an initial value by clustering by the initial standard model creation unit.
  • FIG. 45 is a diagram showing a specific example of step S1004 in FIG.
  • FIG. 46 is a diagram showing a specific example of step S1005 in FIG.
  • FIG. 47 is a diagram showing a specific example of step S106 in FIG.
  • FIG. 48 is a diagram showing a specific example of step S1008 in FIG.
  • FIG. 49 is a block diagram showing an overall configuration of a server according to the standard model creation device in the tenth embodiment of the present invention.
  • FIG. 50 is a flowchart showing the operation procedure of the server.
  • FIG. 51 is a diagram showing an example of a system to which the standard model creation device according to the present invention is specifically applied.
  • Figure 52 is a diagram showing an example of a class ID ⁇ initial standard model ⁇ reference model correspondence table.
  • FIG. 53 is a diagram showing an example of reference models 8 AA to AZ in the class ID ⁇ initial standard model ′ reference model correspondence table of FIG.
  • FIG. 54 is a diagram showing an example of reference models 64 ZA to ZZ in the class ID ⁇ initial standard model 'reference model correspondence table of FIG.
  • Fig. 55 is a diagram showing an example of the initial standard models 8A to 64Z in the class I D 'initial standard model ⁇ reference model correspondence table of Fig. 52.
  • Figure 56 shows the class ID ⁇ Initial standard model '' How to create a reference model correspondence table It is a flowchart showing a method.
  • FIG. 57 is a diagram showing a specific example of step SI 100 in FIG.
  • FIG. 58 is a diagram showing a specific example of step SI 102 in FIG.
  • FIG. 59 is a diagram showing a specific example of step S1103 in FIG.
  • FIG. 60 is a diagram showing a specific example of step S1104 in FIG. 56.
  • FIG. 61 is a diagram showing a class ID obtained when a terminal communicates with a server.
  • FIG. 6 is a diagram showing a procedure for completing the above.
  • Figure 62 is a flowchart showing how to determine the initial standard model using the class I ⁇ initial standard model-reference model correspondence table.
  • FIG. 63 is a diagram showing a specific example of step S1105 in FIG.
  • FIG. 64 is a graph showing the results of a recognition experiment using a standard model created using the third approximation unit.
  • Figures 65 (a) to () ') show examples of the relationship between the attributes of the speech recognition target and the structure of the standard model (the number of Gaussian mixture).
  • FIG. 1 shows the entirety of the standard model creation device according to the first embodiment of the present invention. It is a block diagram which shows a body structure.
  • the standard model creation device according to the present invention is incorporated in a server 101 in a computer system.
  • a case will be described as an example in which a standard model for speech recognition indicating features of speech having a specific attribute is created.
  • the server 101 is a computer device or the like in a communication system.
  • the Dell creation device includes a reading unit 111, a reference model preparation unit 102, a reference model storage unit 103, a standard model creation unit 104, and a writing unit 112.
  • the reading unit 111 reads a child reference model, an adult reference model, and an elderly reference model written on a storage device such as a CD-ROM.
  • the reference model preparation unit 102 transmits the read reference model 122 to the reference model storage unit 103.
  • the reference model storage unit 103 stores three reference models 1 2 1.
  • the reference model is a model created in advance that is referred to when a standard model is created (here, a model for voice recognition, that is, a stochastic model showing features of speech having certain attributes). It is.
  • a processing unit that creates 1 2 2 a standard model structure determination unit 1 04 a that determines the structure of the standard model (such as the number of Gaussian mixtures), and initial values of statistics for calculating the standard model
  • the initial standard model creation unit 104 which creates an initial standard model by determining the values, a statistic storage unit 104c, which stores the determined initial standard model, and a statistic storage unit 104c,
  • the statistics are parameters for specifying the standard model, and here,
  • the writing unit 112 writes the standard model 122 created by the standard model creating unit 104 to a storage device such as a CD-ROM.
  • FIG. 2 is a flowchart showing the operation procedure of the server 101.
  • a reference model serving as a reference is prepared (step S100). That is, the reading unit 111 reads the child reference model, the adult reference model, and the elderly reference model written on a storage device such as a CD-ROM, and the reference model preparation unit 102 reads the reference model.
  • the reference model storage unit 103 transmits the reference model 1221 to the reference model storage unit 103, and the reference model storage unit 103 stores the three reference models 1221.
  • the reference model 1 2 1 is composed of HMM for each phoneme.
  • Figure 3 shows an example of the reference model 122.
  • the image diagrams of the child reference model, the adult reference model, and the elderly reference model are shown (note that the illustration of the elderly reference model is omitted in this figure).
  • All of these three reference models have three states, and each state has a mixed Gaussian distribution with three mixture distributions.
  • the standard model creation unit 104 sets the standard model 122 so as to maximize or maximize the probability or likelihood of the three reference models 121 stored in the reference model storage unit 103. Is created (step S101). Lastly, the writing unit 112 writes the standard model 122 created by the standard model creating unit 104 to a storage device such as a CD-ROM (step S102).
  • the standard model written on a storage device such as a CD-ROM is used as a standard model for speech recognition considering children, adults, and the elderly.
  • FIG. 4 is a flowchart showing a detailed procedure of step S101 (creation of a standard model) in FIG.
  • the standard model structure determination unit 104a determines the structure of the standard model (step S102a).
  • the structure of the standard model is composed of HMM for each phoneme, and has three states.
  • the initial standard model creation unit 104b determines an initial value of a statistic for calculating the standard model (step S102b).
  • the three reference models stored in the reference model storage unit 103 are integrated into one Gaussian distribution using statistical processing calculations, and the initial values of the statistics are set as the initial values of the statistics. It is stored in the statistic storage unit 104c as a standard model.
  • Mf the number of Gaussian mixture in the equation is 3.
  • Equation 14 Represents a Gaussian distribution
  • the statistic estimating unit 104 d uses the three reference models 122 stored in the reference model storing unit 103 to generate the standard model stored in the statistic storing unit 104 c. Is estimated (step SI 0 2 c).
  • ⁇ ⁇ ( ⁇ ; giiJ) ,) 1, 2,, .., N g )
  • the first approximating unit 104 e of the statistic estimating unit 104 d uses the approximate expression shown in the following Expression 29.
  • ⁇ ⁇ ) ⁇ Represents a single Gaussian distribution with ⁇ as the variance.
  • the first approximation unit 104 e calculates the weight (Equation 31) average value (Equation 32) and variance value (Equation 33) of the single Gaussian distribution shown in the above Expression 30 by The calculation is performed according to the equations shown in Equations 34, 35 and 36. (Equation 3 4)
  • FIG. 5 is a diagram illustrating an approximation calculation by the first approximation unit 104e.
  • the first approximation unit 104 e converts the single Gaussian distribution (equation 30) in the approximation equation shown in equation 29 above into all the mixed Gaussian components constituting the standard model. Determined using distribution.
  • the calculation formula in the statistic estimation unit 104 d is as follows. That is, the statistic estimating unit 104 d calculates the mixing weight coefficient, the average value, and the variance value according to the following Expression 37, Expression 38, and Expression 39, respectively. Store it in c. Then, the estimation of the statistics and the storage in the statistics storage unit 104c are repeated R ( ⁇ 1) times. The statistic obtained as a result is output as the statistic of the standard model 122 finally generated.
  • the user mounts a CD-ROM containing a plurality of acoustic models as reference models in a CD-ROM drive (reading unit 111) of a PC (server 101).
  • the CD-ROM contains, for example, "infant”, "child: man”, “child: woman”, “adult: man”, “adult: woman”, “elderly: man”, “elderly: woman” Are stored.
  • the user uses the display connected to the PC (server 101) to configure the family (using voice recognition).
  • a sound model suitable for the person who performs the task In Fig. 6, the acoustic models stored in the CD-ROM are displayed in the box labeled "CD-ROM", and the acoustic model selected from those acoustic models is displayed as "User”.
  • a copy is shown in the written frame.
  • the family structure of the user is a boy of 10 years old, a father of 50 years old, and a mother of 40 years old.
  • the reference model preparation unit 10 The reference model is prepared by the method 2. That is, the three reference models are read by the reading unit 111 and stored in the reference model storage unit 103 via the reference model preparing unit 102. .
  • the user creates the screen as shown in the screen display example shown in Fig. 7 (a).
  • Specify the structure of the standard model to be used (number of mixture distributions).
  • Fig. 7 (a) “3”, “10”, and “20” are displayed as the “number of mixture distributions”, and the user selects the desired number from among these numbers. select.
  • the structure of the standard model to be created is determined by the standard model structure determination unit 104a.
  • the determination of the number of mixture distributions is not limited to such a direct specification.
  • the number of mixture distributions is determined based on specification information selected by a user. The number of distributions may be determined.
  • three types of "devices”, namely, "for TV”, “for car navigation", and “for mobile phone” are used as target devices for performing voice recognition using the standard model. "Shows how to select a device to use.
  • the correspondence table stored in advance for example, if “for TV” is selected, the number of mixture distributions is determined to be three, and if “for car navigation” is selected, the number of mixture distributions is set to two. If the number is determined to be 0 and “for mobile phone” is selected, the number of mixture distributions may be determined to be 10.
  • an initial standard model is created by the initial standard model creation unit 104b, and then iterative calculation (learning) is performed by the statistic estimation unit 104d. Is created.
  • the progress of the learning is displayed by the standard model structure determination unit 104a.
  • the user can know the progress of learning and the time when learning is completed, and can wait with confidence until the standard model is completed.
  • Fig. 8 (a) There is a bar display of the degree of learning as shown in Fig. 8, a display of the number of times of learning as shown in Fig. 8 (b), and a display of the likelihood criteria.
  • a general face image may be displayed when not learning, and the progress display may be changed to a user's face image as learning is completed.
  • the progress display may be such that the baby is displayed when not learning, and the hermit is displayed as the learning is completed.
  • the created standard model is recorded on the memory card (writing unit 112) by the standard model creation unit 104.
  • the user removes the memory card from the PC (the writing unit 112 of the server 101) and inserts it into a device used, for example, a memory card slot of a television.
  • the created standard model is moved from the PC (server 101) to the device (television).
  • the TV uses the standard model recorded on the attached memory card to perform speech recognition for the user (here, the family using the TV). For example, by recognizing audio input to a microphone attached to a TV, a command for operating the TV is determined, and the command (for example, switching channels, searching for a program using an EPG, etc.) is determined. Execute. In this way, audio TV operation using the standard model created by the standard model creation device according to the present embodiment is realized.
  • the standard model is calculated by calculating statistics of the standard model so as to maximize or maximize the probability or likelihood with respect to the reference model prepared in advance.
  • a standard model can be created easily without the need for learning data or teacher data, and a highly accurate standard model that comprehensively considers multiple reference models that have already been created Is created.
  • the standard model 1 2 2 is not limited to configuring an HMM for each phoneme, It may be composed of a context-dependent HMM.
  • the standard model creating unit 104 may create a model for the output probabilities of some phonemes in some states.
  • the HMM that constitutes the standard model 122 may be composed of different numbers of states for each element, or may be composed of a mixed Gaussian distribution having a different number of distributions for each state.
  • the reference model 122 may be composed of different numbers of states in the child reference model, the adult reference model, and the elderly reference model, or may be composed of a mixed Gaussian distribution with a different mixture number. May be.
  • the voice sit may be performed in the server 101 using the standard model 122.
  • the server 101 may create the reference model 122 from the audio data.
  • reference model preparation section “! 02” can be replaced by CD-ROM, DV
  • D A new reference model read from a storage device such as RAM is added to the reference model storage unit 103.
  • It may be updated. That is, the reference model preparation unit 102 not only stores a new reference model in the reference model storage unit 103, but also stores a reference model for the same recognition target in the reference model storage unit 103. If the reference model is stored, the reference model may be updated by replacing the reference model, or an unnecessary reference model stored in the reference model storage unit 103 may be deleted.
  • the reference model preparation unit 102 adds a new reference model to the reference model storage unit 103 via a communication channel as needed. After the standard model is created, learning may be further performed using audio data. Further, the standard model structure determination unit may determine the structure of the HMM such as a monophone, a triphone, and a state-sharing type, and the number of states.
  • FIG. 9 is a block diagram showing the overall configuration of the standard model creation device according to the second embodiment of the present invention.
  • the standard model creation device according to the present invention is incorporated in a set-top box 201 (hereinafter referred to as STB).
  • STB set-top box
  • a standard model speech recognition function
  • an SPG voice recognition function is used to search for an EPG on a TV, switch programs, and reserve a recording.
  • STB 201 is a digital broadcast receiver that recognizes user utterances and automatically switches TV programs, etc., and speech recognition defined by a set of events and the output probability of events or transitions between events.
  • Microphone 211, audio data storage unit 212, reference model preparation unit 202, reference model storage unit 203, and usage information as standard model creation devices for creating standard models for It comprises a creating unit 204, a reference model selecting unit 205, a standard model creating unit 206, and a speech recognition unit 213.
  • the audio data collected by the microphone 211 is stored in the audio data storage unit 212.
  • the reference model preparation unit 202 creates a reference model 221 for each speaker using the speech data accumulated by the speech data accumulation unit 212, and stores it in the reference model storage unit 203.
  • the usage information creating unit 204 collects the user's voice as the usage information 222 by using the microphone 211.
  • the usage information is information on a target (person's object) to be recognized (recognition, identification, authentication, and the like in a narrow sense), and here, is a user's voice to be subjected to voice recognition.
  • the reference model selection unit 205 receives the reference model based on the usage information 222 created by the usage information creation unit 204.
  • the reference model 2 23 that is acoustically close to the user's voice indicated by the usage information 2 24 is selected from the reference models 2 2 1 stored in the file storage unit 203.
  • the standard model creation unit 206 creates the standard model 222 so as to maximize or maximize the probability or likelihood of the speaker selected by the reference model selection unit 205 with respect to the reference model 222.
  • the standard model structure determination unit 206 a that determines the structure of the standard model (such as the number of Gaussian mixture distributions) and the initial values of the statistics used to calculate the standard model.
  • An initial standard model creation unit 206 b for creating a standard model, a statistic storage unit 206 c for storing the determined initial standard model, and an initial standard stored in the statistic storage unit 206 c Maximize or maximize the probability or likelihood for the reference model 223 selected by the reference model selection unit 205 by using approximation calculation etc. by the general approximation unit 206 e for the model Calculate such statistics (generate the final standard model Statistic estimation unit 2 0 6 d Toka Ranaru.
  • the speech recognition unit 2 13 recognizes the user's speech by using the standard model 222 created by the standard model creating unit 206.
  • FIG. 10 is a flowchart showing the operation procedure of the STB 200 "I.
  • a reference model serving as a reference is prepared (step S200).
  • the voice data of Z is collected from Mr. A by 1 and stored in the voice data storage unit 2 1 2.
  • multiple microphones installed indoors, microphones built into the remote control of a TV, telephones, etc. Is connected to the audio data storage unit 212 of the STB 201, and stores audio data input from a microphone or telephone in the audio data storage unit 212.
  • brother, sister, dad Voices of, mom, grandpa, neighbors and friends are stored.
  • the reference model preparation unit 202 creates a reference model 22 "I" for each speaker by using a method of re-estimating the Baum- ⁇ I multi using the voice data stored in the voice data storage unit 212. This is done before the creation of a standard model is required.
  • the reference model storage unit 203 stores the reference model 222 created by the reference model preparation unit 202.
  • the reference model 222 is composed of HMM for each phoneme.
  • Fig. 11 shows an example of the reference model 2 2 1.
  • all the reference models from Mr. A to Mr. Z have three states, and each state has a Gaussian mixture distribution with five mixture distributions.
  • the creation of a standard model is required.
  • the “confirm user” button there are a method of selecting by displaying it on the TV screen and a method of attaching the “user confirmation” switch to the TV remote control.
  • the timing for pressing the button may be the timing when the TV is started, or the timing when the user wants a standard model suitable for the user when performing command operations using voice recognition.
  • the usage information creation unit 204 collects the user's voice, which is the usage information 222, by the microphone 211 (step S201). For example, when you are asked to create a standard model, the screen displays "Please enter name.” The user inputs the name (user's voice) using the microphone built into the remote control of the TV. This user's voice is the usage information. The input voice is not limited to the name. For example, “Please say adaptation” may be displayed, and the user may say “adaptation”.
  • the reference model selection unit 205 selects the reference model acoustically close to the user's voice.
  • the standard model creation unit 206 acquires the standard model 222 so as to maximize or maximize the probability or likelihood of the 10 reference models 222 selected by the reference model selection unit 205.
  • Create (step S203).
  • the progress of the learning may be displayed as in the first embodiment. By doing so, the user can judge the progress of the learning, the end time of the learning, etc., and can create a standard model with confidence. Further, a progress status non-display section for hiding the progress of learning may be provided. This function allows you to use the screen effectively. In addition, hiding it from people who are used to it can avoid annoying feelings.
  • the voice recognition unit 2 13 receives the user's voice transmitted from the microphone 2 11 as an input, and uses the standard model 2 22 created by the standard model creation unit 206.
  • voice recognition For example, a 25-dimensional mel-cepstral coefficient is calculated by performing acoustic analysis on the voice uttered by the user, and is input to the standard model for each phoneme. To identify. Then, the sequence of the phonemes is compared with the program name in the electronic program data received in advance, and when a certain likelihood is detected, the program is switched to the program when the likelihood is detected.
  • step S203 creation of a standard model in FIG. 10 will be described. The flow of the procedure is the same as the flowchart shown in Fig. 4. However, the structure of the standard model to be adopted and the specific approximate calculation are different.
  • the standard model structure determination unit 206a determines the structure of the standard model. (Step S102a in FIG. 4).
  • the initial standard model creation unit 206b determines an initial value of a statistic for calculating the standard model (step S102b in FIG. 4).
  • the 10 reference models 2 23 selected by the reference model selection unit 205 are integrated into one Gaussian distribution using statistical processing calculations, and the initial values of the statistics are set as the initial values of the statistics.
  • a standard model (speaker adaptation model) with a highly accurate mixture distribution number of 16 (16 mixtures) is created using a reference model with a mixture distribution number of 5 learned for each speaker.
  • the statistic estimation unit 206 d uses the 10 reference models 223 selected by the reference model selection unit 205 to store the standard values stored in the statistic storage unit 206 c.
  • the mixing weight coefficient, the average value and the variance value of the standard model are calculated, respectively.
  • the general approximation unit 206 e is different from the first embodiment in that the output distribution shown in the denominator of the approximation of the above equation 29 is different from that of the first embodiment.
  • Fig. 12 is a diagram illustrating the approximation calculation by the general approximation unit 206e.
  • the general approximation unit 206 e converts the single Gaussian distribution (equation 30) in the approximation equation shown in equation 29 above into the M f mixed Gaussian constructing the standard model.
  • the distribution is determined using only a part (Ph (m)) of Gaussian mixture that is close to the Gaussian mixture to be calculated. Therefore, the amount of calculation in the approximation calculation is reduced as compared with the first embodiment using all (M f) Gaussian mixture distributions.
  • the calculation formula in the statistic estimation unit 206 d is as follows.
  • the statistics estimator 206 d calculates a mixing weight coefficient, an average value, and a variance value according to the following equations 48, 49, and 50, respectively, and stores them in the statistic storage unit 206c.
  • the estimation of the statistics and the storage in the statistics storage unit 206c are repeated R ( ⁇ 1) times.
  • the statistic obtained as a result is output as the statistic of the standard model 222 that is finally generated.
  • the statistics of the standard model are set so as to maximize or maximize the probability or likelihood for a plurality of reference models selected based on the usage information. Is calculated to create a standard model, which provides a high-accuracy standard model that is more suitable for use.
  • STB 201 is further provided with a user change determination unit that automatically determines whether a user has been changed.
  • the user change determination unit uses the recognition voice input to the remote control of the TV to determine whether the user has been changed, that is, the same as the user that the current user had recognized immediately before. It is determined whether the person is a person. If the user determines that the information has been changed, a standard model is created using the sound as usage information. As a result, speech recognition using a standard model appropriate for the user is performed without the user's awareness.
  • the standard model 222 is not limited to configuring an HMM for each phoneme, but may be configured with a context-dependent HMM.
  • the standard model creation unit 206 may create a model for the output probabilities of events in some states of some phonemes.
  • the HMM constituting the standard model 222 may be constituted by a different number of states for each phoneme, or may be constituted by a mixed Gaussian distribution having a different number of distributions for each state.
  • reference model 222 may be configured with different numbers of states or different Gaussian mixture distributions with different numbers of HMM for each speaker.
  • reference model 222 is not limited to the HMM for each speaker, but may be created for each speaker ⁇ noise ⁇ voice tone.
  • the standard model 222 may be recorded on a storage device such as a CD-ROM, a hard disk, or a DVD-RAM.
  • the reference model 222 may be read from a storage device such as CD-ROM, DVDM-RAM.
  • the reference model selection unit 205 selects the user based on the usage information 224. The number of reference models selected for each case may be changed.
  • the reference model preparation unit 202 creates a new reference model as needed and adds it to the reference model storage unit 203. ⁇ It may be updated or stored in the reference model storage unit 203. Unnecessary reference models may be deleted. In addition, the reference model preparation unit 202 adds a new reference model to the reference model storage unit 203 via a communication channel as needed. Further, the number of output distributions P Mm) selected in the above approximation calculation may be different depending on the target event or the output distribution of the standard model, or may be determined based on the distance between the distributions.
  • learning may be further performed using audio data.
  • the standard model structure determination unit may determine the structure of the HMM such as a monophone, a triphone, and a state-sharing type, and the number of states.
  • the number of mixture distributions may be set to a predetermined value when the STB according to the present embodiment is shipped, or the specification such as CPU power of a device considering network cooperation and start-up.
  • the number of mixture distributions may be determined based on the specifications of the application to be used.
  • FIG. 13 is a block diagram showing the overall configuration of the standard model creation device according to the third embodiment of the present invention.
  • an example is shown which is incorporated in the standard model creation device power PDA (PersonatalDigitaltalAssistant) 301 according to the present invention.
  • PDA Personal DigitaltalAssistant
  • FIG. 13 a case where a standard model (noise model) for noise identification is created will be described as an example.
  • PDA 301 is a portable information terminal, and is a standard model creation device that creates a standard model for noise identification defined by the output probability of an event.
  • the reading unit 311 stores the reference model of passenger car A, the reference model of passenger car B, the reference model of bus A, the reference model of light rain, the reference model of heavy rain, etc. written on a storage device such as a CD-ROM. Load the noise reference model.
  • the reference model preparation unit 302 transmits the read reference model 3 2 1 to the reference model storage unit 303.
  • the reference model storage unit 303 stores the reference model 3 2 1.
  • the usage information creation unit 304 creates the type of noise, which is the usage information 324, using the screen and keys of the PDA 301.
  • the reference model selection unit 3 05 selects a reference model acoustically similar to the type of noise that is the usage information 3 2 4 from the reference models 3 2 1 stored in the reference model storage unit 3 0 3. I do.
  • the specification information creation section 307 creates the specification information 325 based on the specifications of the PDA 301.
  • the specification information is information on the specifications of the standard model to be created.
  • it is information on the processing capability of the CPU provided in the PDA 301.
  • the standard model creation unit 306 determines the probability or likelihood of the noise selected by the reference model selection unit 305 with respect to the reference model 323.
  • This is a processing unit that creates a standard model 3 2 2 so as to maximize or maximize the degree, and a standard model structure determination unit 3 06 a that determines the structure of the standard model (such as the number of Gaussian distributions).
  • An initial standard model creation section that creates an initial standard model by determining the initial values of the statistics for calculating the standard model, and a statistics storage section that stores the determined initial standard model 0 6 c and stored in the statistics storage section 3 0 6 c
  • the reference model 3 By using the approximation calculation and the like by the second approximation unit 300 e with respect to the initial standard model thus obtained, the reference model 3
  • a statistic estimating unit 306 d that calculates a statistic that maximizes or maximizes the probability or likelihood for 23 (generates a final standard model).
  • the noise identification unit 313 identifies the type of noise input from the microphone 312, using the standard model 3222 created by the standard model creation unit 303.
  • FIG. 14 is a flowchart showing the operation procedure of the PDA 301.
  • a reference model serving as a reference is prepared (step S300). That is, the reading unit 311 reads the noise reference model written to the storage device, and reads the reference model preparation unit.
  • the reference model 3 2 1 is composed of GMM.
  • Fig. 15 shows an example of the reference model 3 2 1.
  • each noise model is composed of three GMMs with three distributions.
  • the usage information creating unit 304 creates usage information 324, which is the type of noise to be identified (step S301).
  • Fig. 16 shows an example of the PDA 301 selection screen.
  • the car noise is selected.
  • the reference model selection section 300 stores the reference model of the car A and the reference model of the car B, which are reference models acoustically close to the noise of the car, which is the selected usage information 324, and stores the reference model in the reference model storage section 30. Select from among the reference models 3 2 1 stored in 3 (step S 3 0 2).
  • the specification information creating unit 307 specifies the specification based on the specification of the PDA 301. Create state information 3 25 (step S 3 0 3). Here, based on the specifications of the CPU of the PDA 301, the specification information 325 that the CPU power is small is created.
  • the standard model creation unit 303 maximizes or maximizes the probability or likelihood for the reference model 323 selected by the reference model selection unit 305 based on the created specification information 325. Then, a standard model 3 2 2 is created (step S 304).
  • the noise discriminating unit 313 discriminates the noise input by the user from the microphone 312 using the standard model 3222 (step S305).
  • step S304 creation of a standard model in FIG. 14
  • the flow of the procedure is the same as the flow chart shown in Fig. 4.
  • the structure of the standard model to be adopted and the specific approximate calculation are different.
  • the standard model structure determination unit 300a determines the structure of the standard model (step S102a in FIG. 4).
  • the initial standard model creation unit 300b determines the initial value of the statistic for calculating the standard model (step S102b in FIG. 4).
  • the selected reference model 3 2 3 is integrated into a single Gaussian distribution model using the three mixed models of passenger car A using statistical processing calculation, and the statistics storage unit is used as the initial value of the statistics. Store it in 3 06 c.
  • the initial standard model creating section 303b generates the output distribution shown in the above equation (13).
  • Equation 51 in the output distribution shown in the above Equation 13 X ⁇ ((1), (2), e R
  • the statistic estimation unit 300d uses the two reference models 323 selected by the reference model selection unit 305 to calculate the standard model stored in the statistic storage unit 306c. Estimate the statistics (step S102c in Fig. 4).
  • Equation 52 in the output distribution shown in Equation 19 above Is 3 (the number of mixture distributions in each reference model).
  • the mixing weight coefficient, the average value and the variance value of the standard model are calculated, respectively.
  • the second approximation unit 306 e of the statistic estimation unit 306 d uses the following approximation formula, assuming that each Gaussian distribution of the standard model does not affect each other.
  • X is Qg (m, i) whose distribution distances such as the Euclidean distance, Mahalanobis distance, and Kullback's Leylor (KL) distance are close to the average value with the output distribution shown in Equation 54.
  • the output distribution of the standard model is It is approximated that it is the output distribution of a certain reference vector.
  • FIG. 17 is a conceptual diagram showing a procedure for estimating a statistic by the statistic estimating unit 360d.
  • the estimation of statistics is performed using the Gaussian distribution in which the closest inter-distribution distance such as the Euclidean distance and Mahalanobis distance of the mean is the Gaussian distribution m of the standard model. It is shown to do.
  • FIG. 18 is a diagram for explaining the approximation calculation by the second approximation unit 360 e.
  • the second approximation unit 300 e determines the Gaussian distribution m of the standard model whose distance is the closest to each of the Gaussian distributions of each reference model. Is used.
  • the calculation formula in the statistic estimation unit 306 d is as follows. That is, the statistic estimating unit 300d calculates the mixing weight coefficient, the average value, and the variance value according to the following Expressions 59, 60, and 61, respectively, and is specified by those parameters. Generate a standard model as the final standard model. (Equation 5 9)
  • the sum of the denominator and the numerator is the Gaussian distribution m of the standard model with the closest inter-distribution distance such as the Euclidean distance and Mahalanobis distance of the average value for each Gaussian distribution of each reference model. It means the sum related to a certain Gaussian distribution.
  • the sum of the denominator and the numerator is the Gaussian distribution of the standard model when the distance between distributions such as the average grid distance and Mahalanobis distance is the closest to the Gaussian distribution of each reference model. It means the sum of the Gaussian distribution that is the distribution m.
  • the value of the mixing weight coefficient is set to zero, and the average value and the variance are set to predetermined values.
  • the value of the mixing weighting factor is set to a predetermined value, and the average value and the variance value are set to the average value and the variance value when the output distribution is represented as one distribution using the standard model.
  • the method used may be different for each of the number of repetitions R, HMM, and HMM.
  • the first method is used.
  • the statistic estimation unit 300d stores the statistic of the standard model estimated in this way in the statistic storage unit 306c. Then, such estimation of the statistic and storage in the statistic storage unit 300 c are repeated R ( ⁇ 1) times. The statistic obtained as a result is output as the statistic of the standard model 322 finally generated.
  • the reference model preparation unit 302 reads a reference model necessary for identifying environmental sounds from the CD-ROM.
  • the user selects the environmental sound to be identified from the screen in consideration of the environment (usage / information) for identification. For example, select “Passenger Car” and then select “Alarm Sound”, “Baby Voice”, “Train Sound”, etc. select.
  • the reference model selection unit 305 selects a corresponding reference model from the reference models stored in the reference model storage unit 303.
  • the standard model creation unit 310 creates a standard model for each. Subsequently, the user starts an application program called “easy information provision” (information provision based on environmental sound based on situation judgment) on PDA301.
  • This application is a program that makes situation judgments based on environmental sounds and provides appropriate information to users.
  • the display screen of the PDA 301 displays “Accurate Judgment” and “Quick J.” On the other hand, the user selects one of them.
  • the specification information creating section 307 creates specification information based on the selection result. For example, if “Determine accurately” is selected, create specification information that sets the number of mixture distribution to 10 to increase the accuracy. On the other hand, if “quick decision” is selected, create specification information with one mixed distribution for fast processing. In the case where a plurality of PDAs can be processed in cooperation, for example, the currently available CPU power may be determined, and the specification information may be created based on the CPU power.
  • a standard model of a mixture of “passenger car”, “alarm sound”, “baby voice”, “train sound”, etc. is created.
  • the PDA 301 identifies the environment based on the created standard model, and displays various information on the PDA screen based on the identification result. For example, if "passenger car” is identified as being nearby, a road map is displayed, and if "baby voice" is identified, an advertisement for a toy store is displayed. In this manner, information provision based on environmental sound identification using the standard model created by the standard model creation device in the present embodiment is realized.
  • the complexity of the standard model can be adjusted according to the application specifications. it can.
  • the statistics of the standard model are set so as to maximize or maximize the probability or likelihood for the plurality of reference models selected based on the usage information. Is calculated to create a standard model, which provides a high-accuracy standard model that is more suitable for use.
  • the number of repetitions of the processing by the statistic estimating unit 300d may be the number of times until the magnitude of the likelihood shown in the above equation 25 becomes equal to or greater than a certain threshold. .
  • the GMM constituting the standard model 3222 may be constituted by a Gaussian mixture distribution having a different number of mixture distributions for each type of noise.
  • the identification model is not limited to the noise model, and may identify a speaker or an age.
  • the standard model 3222 may be recorded on a storage device such as a CD-ROM, a DVDM-RAM, or a hard disk.
  • the PDA301 may create the reference model 3221 from the noise data.
  • the reference model preparation unit 302 adds a new reference model read from a storage device such as a CD-ROM to the reference model storage unit 303 as necessary.
  • unnecessary reference models stored in the reference model storage unit 303 may be deleted.
  • the reference model preparation unit 302 adds a new reference model to the reference model storage unit 303 via a communication channel as needed. After the standard model is created, it may be learned further using data.
  • the standard model structure determination unit may determine the structure of the standard model, the number of states, and the like.
  • neighborhood indicating parameter G may be different depending on the target event or the output distribution of the standard model, or may be changed depending on the number of repetitions R.
  • FIG. 19 is a block diagram showing the overall configuration of the standard model creation device according to the fourth embodiment of the present invention.
  • the standard model creation device according to the present invention is incorporated in a server 401 in a computer system.
  • a case where a standard model for face recognition is created will be described as an example.
  • the server 410 is a computer device or the like in a communication system.
  • the server 410 is a standard model creation device for creating a standard model for face recognition defined by the output probability of an event.
  • the face image data is collected by the camera 411, and the face image data is stored in the image data storage section 412.
  • the reference model preparation unit 402 creates a reference model 421 for each speaker using the face image data stored by the image data storage unit 412, and stores it in the reference model storage unit 403.
  • the usage information receiving unit 404 receives information on the age and gender of the human being who is the target of face recognition desired by the user as the usage information 424 by telephone 414.
  • the reference model selection unit 405 receives the usage information reception unit 404 From the reference models 4 2 1 stored in the reference model storage section 4 3 based on the usage information 4 2 4, reference models corresponding to speakers of the age and gender indicated by the usage information 4 2 4 Select 4 2 3
  • the standard model creation unit 406 creates the standard model 422 so as to maximize or maximize the probability or likelihood of the face image of the speaker selected by the reference model selection unit 405 with respect to the reference model 423.
  • This is a processing unit that has the same function as the standard model creation unit 206 in the second embodiment, and has the same function as the first approximation unit 104 e in the first embodiment. It has the function of the second approximation unit 306 e in the form of In other words, calculations are performed by combining the three types of approximation calculations shown in the first to third embodiments.
  • the writing unit 4 13 writes the standard model 4 2 2 created by the standard model creating unit 4 6 6 into a storage device such as a CD-ROM.
  • FIG. 20 is a flowchart showing an operation procedure of the server 401.
  • FIG. 21 is a diagram illustrating an example of a reference model and a standard model for explaining the operation procedure of the server 401.
  • a reference model as a reference is prepared (step S400 in FIG. 20). That is, the face image data of A to Z is collected by the camera 4 11 and stored in the image data storage section 4 12.
  • the reference model preparation unit 402 creates a reference model 4 21 for each speaker by using the EM algorithm using the face image data stored in the image data storage unit 4 12.
  • the reference model 4 2 1 is composed of GMM.
  • the reference model storage unit 403 stores the reference model 421 created by the reference model preparation unit 402.
  • the usage information receiving unit 404 receives the age and gender information, which is the usage information 424, via the telephone 414 (step S401 in FIG. 20).
  • the usage information 4 2 4 is a man aged 11 to 15 years and a woman aged 22 to 26 years.
  • the reference model selection unit 4 05 converts the reference model 4 2 1 stored in the reference model storage unit 4 3 from the reference model 4 corresponding to the usage information 4 2 4 Select 23 (Step S402 in Fig. 20).
  • Step S402 in Fig. 20 Specifically, as shown in Figure 21's “Selected Reference Model 4 2 3”, here we set the reference model for 11- to 15-year-old men and 22- to 26-year-old women. Select
  • the standard model creation unit 406 creates the standard model 422 so as to maximize or maximize the probability or likelihood of the speaker selected by the reference model selection unit 405 with respect to the reference model 423.
  • Step S403 in FIG. 20 each of the two standard models 422 is composed of GMMs having three mixture distribution numbers.
  • the method of creating the standard model 422 is basically performed in the same manner as in the second embodiment.
  • the approximate calculation in estimating the statistics of the standard model 422 is specifically performed as follows.
  • the standard model creation unit 406 uses the same approximate calculation as the approximate calculation by the first approximation unit 104 e in the first embodiment by using a built-in storage unit and the like.
  • an approximation calculation similar to the approximation calculation by the general approximation unit 206 e in the second embodiment is performed, and the result is used as the initial value in the third embodiment.
  • An approximation calculation similar to the approximation calculation by the second approximation unit 300 e is performed.
  • the writing unit 4 13 writes the two standard models 4 2 2 created by the standard model creation unit 4 06 to a storage device such as a CD-ROM (Fig. Step 20 4 S 4 0 4).
  • This information providing system is composed of a car navigation device and an information providing server device connected via a communication network.
  • the force navigation device uses the standard model created in advance by the standard model creating device 401 in the present embodiment as the behavior prediction model, and thereby, the behavior of a person (that is, the destination by car) is used. Etc.) and provide information related to the behavior (eg, information on restaurants such as restaurants located near the destination).
  • the user uses the car navigation device to request the server 401 connected to the telephone line 414 to create his / her own behavior prediction model.
  • the user presses the “easy recommendation function” button on the item selection screen displayed by the car navigation system. Then, a screen for entering the user's address (use place), age, gender, hobbies, etc. is displayed.
  • the users are father and mother.
  • the father's personal information is input while interacting with the screen of the force navigation device. Addresses are automatically converted by entering a phone number.
  • the current location is displayed on the car navigation device, by pressing the “use location” button, the current location is input as the use location.
  • the address information is assumed to be address A. For age and gender, select and enter "50s" and "male". As for hobbies, there are check items that are displayed in advance, so the user checks the relevant items. This Here, the information of the father's hobby is referred to as hobby information A.
  • the car navigation device transfers the personal information created in this way as use information to the server 410, which is an information providing server device, using the attached telephone line 414. .
  • the server 401 creates two behavior prediction models for the father and the mother based on the transferred personal information (usage information).
  • the behavior prediction model is represented by a probability model, the input of which is the day of the week, the time, the current location, etc., and the output is the probability of presenting information of shop A, the probability of presenting information of shop B, and the like.
  • the plurality of reference models stored in the reference model storage unit 403 of the server 401 are behavior prediction models created based on age, gender, representative addresses and hobbies.
  • various personal information (information on the above input and output) is input in advance using the input button of the force navigation device instead of the camera 411 to store image data.
  • the reference model preparation section 4 02 refers to the personal information stored in the image data storage section 4 12 by referring to multiple types of typical users.
  • the model 4 21 is created and stored in the reference model storage unit 4 03.
  • the reference model selection unit 405 selects a reference model suitable for the personal information using the personal information (use information). For example, select a reference model in the same town that has the same age and gender and has at least 80% of the hobby check items.
  • the standard model creation unit 4 06 of the server 4 0 1 Create a standard model that integrates The created standard model is stored in the memory card by the writing unit 4 13. Here, two standard models, Dad and Mom, are remembered. The memory card is delivered to the user by mail.
  • the user sets the user by inserting the received memory card into the car navigation system and selecting “Dad” and “Mom” displayed on the screen.
  • the car navigation device uses the standard model stored in the attached memory force as the behavior prediction model, and determines the necessary information based on the current day of the week, time, location, and the like. Present shop information at the right time.
  • the standard model created by the standard model creating apparatus as an action prediction model, the action of a person (that is, the destination by car) is predicted, and the action related to the action is predicted.
  • An information providing system for providing the information is realized.
  • the statistics of the standard model are set so as to maximize or maximize the probability or likelihood for the plurality of reference models selected based on the usage information. Since the standard model is created by calculating, a high-precision standard model suitable for the usage situation is provided.
  • the GMM that constitutes the standard model 422 may be composed of a Gaussian mixture with a different number of distributions for each speaker.
  • the reference model preparation unit 402 may create a new reference model as needed and add it to the reference model storage unit 400 3 ′, update it, or store it in the reference model storage unit 400 3 Unnecessary reference models may be deleted. After the standard model is created, learning may be further performed using data.
  • the standard model structure determination unit determines the structure of the standard model and the number of states. You may decide.
  • FIG. 23 is a block diagram showing the overall configuration of the standard model creation device according to the fifth embodiment of the present invention.
  • the standard model creation device according to the present invention is incorporated in a server 501 in a computer system.
  • a standard model (adaptive model) for speech recognition is created will be described as an example.
  • the server 501 is a computer device or the like in a communication system, and is a standard model creation device that creates a standard model for voice recognition defined by a set of events and an output probability of an event or a transition between events.
  • Reading unit 511 audio data storage unit 512, reference model preparation unit 502, reference model storage unit 503, usage information receiving unit 504, reference model selection unit 50 5, a standard model creating section 506, a specification information receiving section 507, and a writing section 513.
  • the reading unit 511 reads the child, adult, and elderly voice data written in a storage device such as a CD-ROM, and stores the voice data in the voice data storage unit 512.
  • the reference model preparation unit 502 creates a reference model 5 21 for each speaker using the voice data stored by the voice data storage unit 5 12.
  • the reference model storage unit 503 stores the reference model 521 created by the reference model preparation unit 502.
  • the specification information receiving section 507 receives the specification information 525.
  • the usage information receiving unit 504 receives the user's voice as the usage information 524.
  • the reference model selection unit 505 stores the reference model of the speaker acoustically similar to the user's voice, which is the usage information 524, in the reference model storage unit 503. Select from 1.
  • the standard model creation section 506 generates the reference model based on the specification information 525.
  • the writing unit 5 13 writes the standard model 5 2 2 created by the standard model creating unit 5 6 6 into a storage device such as a CD-ROM.
  • FIG. 24 is a flowchart showing the operation procedure of the server 501.
  • FIG. 25 is a diagram showing an example of a reference model and a standard model for explaining the operation procedure of the server 501.
  • a reference model serving as a reference is prepared (step S500 in FIG. 24). That is, the reading unit 511 reads the audio data written in the storage device such as the CD-ROM, and stores it in the audio data storage unit 512.
  • the reference model preparation unit 502 creates a reference model 52 1 for each speaker by the method of Baum 'Welch's re-estimation using the voice data stored by the voice data storage unit 5 12.
  • the reference model storage unit 503 stores the reference model 521 created by the reference model preparation unit 502.
  • the reference model 5 2 1 is composed of HMMs for each phoneme.
  • the reference model of each child speaker has three states, and each state has a mixture Gaussian distribution with three mixture distributions.
  • the output distribution is constructed, the reference model of each adult speaker is composed of 3 states, and each state is composed of 64 mixed Gaussian distributions.
  • the usage information receiving unit 504 receives the user's voice as the usage information 524 from the terminal device 514 (Step S501 in FIG. 24).
  • the specification information receiving section 507 receives the specification information 525 from the terminal device 514 based on the user's request (step S503 in FIG. 24).
  • the specification information 525 of fast recognition processing is received.
  • the standard model creation unit 506 Based on the specification information 525 received by the specification information receiving unit 507, the standard model creation unit 506 generates a probability that the speaker selected by the reference model selecting unit 505 will correspond to the reference model 523.
  • a standard model 522 is created so as to maximize or maximize the likelihood (step S504 in FIG. 24).
  • H M M is configured for each phoneme.
  • the method of creating the standard model 522 is performed in the same manner as in the first embodiment.
  • the writing unit 513 writes the standard model 522 created by the standard model creation unit 506 to a storage device such as a CD-ROM (step S505 in FIG. 24).
  • the server 501 has a speech recognition unit that performs speech recognition using the created standard model.
  • the terminal device 514 is a PDA. These are communication networks. Connected by a network.
  • the reading unit 511, the audio data storage unit 512, and the reference model preparation unit 502 sequentially prepare the reference model at the timing when the audio data is obtained from a CD, a DVD, or the like. .
  • the user starts a game program using voice recognition, here, an “action game”, on the PDA (terminal device 514). Then, “Please say“ action ”” is displayed, and the user says “action”.
  • the voice is transmitted as usage information from the PDA (terminal device 514) to the server 501, and the usage information receiving unit 504 of the server 501 and the reference model selection unit 505 transmit the voice.
  • a reference model suitable for the user is selected from a plurality of reference models stored in the reference model storage unit 503.
  • the user since the user wants a quick reaction, the user sets “high-speed recognition” on the setting screen of the PDA (terminal device 514).
  • the setting contents are transmitted from the PDA (terminal device 514) to the server 501 as specification information, and the server 501 based on the specification information and the selected reference model.
  • the standard model creation unit 506 creates a two-mix standard model.
  • the user utters commands such as “move right” and “move left” to the PDA microphone in the action game.
  • the input speech is sent to the server and speech recognition is performed using the standard model that has already been created.
  • the recognition result is transmitted from the server 501 to the PDA (terminal device 514), and the action game character moves on the PDA (terminal device 514) based on the transmitted recognition result. .
  • the present embodiment can be applied to another application, for example, a translation system using a communication network. For example, a user starts an application program called “speech translation” on a PDA (terminal device 514).
  • the user utters “translation”.
  • the voice is transmitted from the PDA (terminal device 514) to the server 501 as usage information.
  • the user wants to be recognized correctly, and instructs the user to “recognize accurately” in the application.
  • the instruction is transmitted from the PDA (terminal device 514) to the server 501 as specification information.
  • the server 501 creates, for example, a 100-mix standard model in accordance with the transmitted usage information and specification information.
  • the user speaks “Good morning” into the microphone of the PDA (terminal device 5 14).
  • the input voice is transmitted from the PDA (terminal device 5 14) to the server 501, and after the server 501 recognizes “Good morning”, the recognition result is displayed on the PDA (terminal device 514). Will be replied to.
  • the PDA (terminal device 514) translates the recognition result received from the server 501 into English, and displays “GOODMORNINING” on the screen. In this way, by using the standard model created by the standard model creation device in the present embodiment for speech recognition, a speech translation device is realized.
  • the statistics of the standard model are set so as to maximize or maximize the probability or likelihood for a plurality of reference models selected based on the usage information. Is calculated and a standard model is created, so a highly accurate standard model suitable for the usage situation is provided.
  • a standard model is created based on the specification information.
  • a standard model suitable for the device using is prepared.
  • a high-precision reference model of the mixture distribution number suitable for the number of data can be prepared for each reference model, and a standard model can be created using the high-precision reference model. This makes it possible to use highly accurate standard models.
  • standard model 522 is not limited to configuring HMM for each phoneme, but may be configured with context-dependent HMM.
  • the HMM constituting the standard model 522 may be constituted by a Gaussian mixture distribution having a different distribution number for each state.
  • server 501 may perform speech recognition using the standard model 522.
  • the reference model preparation unit 502 creates a new reference model as needed and adds it to the reference model storage unit 503. ⁇ It may be updated or stored in the reference model storage unit 503. Unnecessary reference models may be deleted. After the standard model is created, learning may be further performed using data.
  • the standard model structure determination unit may determine the structure of the standard model, the number of states, and the like.
  • FIG. 26 is a block diagram showing the overall configuration of the standard model creation device according to the sixth embodiment of the present invention.
  • the standard model creation device according to the present invention is incorporated in a server 601 in a computer system.
  • a standard model (preference model) for understanding the intention will be described as an example.
  • the server 600 is a computer device or the like in a communication system, and creates a standard model for understanding intentions defined by the output probability of an event.
  • a standard model creation device a reading unit 611, a reference model preparation unit 602, a reference model storage unit 603, a usage information receiving unit 604, and a reference model selection unit 605 And a standard model creation unit 606 and a specification information creation unit 607.
  • the reading unit 611 reads the preference model of speaker A from speaker A by age written on a storage device such as a CD-ROM, and the reference model preparation unit 6
  • the reference model 6 21 is transmitted to the reference model storage section 6 3, and the reference model storage section 6 3 stores the reference model 6 2 1.
  • the specification information creation unit 607 creates the specification information 625 according to the CPU power of a computer that is widely used.
  • the usage information receiving unit 604 receives the usage information 624 from the terminal device 614.
  • the standard model creation unit 606 determines the probability or likelihood for the reference model 623 selected by the reference model selection unit 605 based on the specification information 625 created by the specification information creation unit 607.
  • a processing unit that creates the standard model 622 so as to maximize or maximize it has the same function as the standard model creation unit 206 in the second embodiment, and has the third embodiment. It has the function of the second approximation part 306 e in. That is, the calculation is performed by combining the two types of approximation calculations shown in the second and third embodiments.
  • FIG. 27 is a flowchart showing the operation procedure of the server 600.
  • FIG. 28 is a diagram illustrating an example of a reference model and a standard model for explaining the operation procedure of the server 601.
  • the reading unit 6 11 1 reads the preference model of speaker Z from speaker A by age written on a storage device such as a CD-ROM, and the reference model preparation unit 6 02
  • the read reference model 6 2 1 is transmitted to the reference model storage section 6 03, and the reference model storage section 6 3 stores the reference model 6 2 1.
  • the reference model 62 1 is composed of GMM.
  • the number of mixture distributions is composed of three GMMs.
  • the usage information receiving unit 604 receives the usage information 624, which is the age group for which a preference model is to be created (step S601 in FIG. 27).
  • the usage information 624 that uses preference models by age in the 20s, 30s, and 40s.
  • the reference model selection section 6 05 is a story about the age indicated by the usage information 6 24 received by the usage information receiving section 6 4 4.
  • the user's preference model is selected from the reference model 6 2 1 stored in the reference model storage section 6 3 (step S 6 02 in FIG. 27).
  • the specification information creation unit 607 creates the specification information 625 based on the CPU power, the storage capacity, and the like of the widespread computer (Step S603 in FIG. 27).
  • the specification information 6 25 for the normal speed recognition processing is created.
  • the standard model creation unit 606 determines the probability of the speaker selected by the reference model selection unit 605 with respect to the reference model 623. Or, use a standard model to maximize or maximize the likelihood. Create Dell 62 (Step S640 in Figure 27).
  • the method for creating the standard model 62 2 is basically performed in the same manner as in the second embodiment.
  • the approximate calculation in estimating the statistics of the standard model 62 2 is specifically performed as follows.
  • the standard model creation unit 606 performs the same approximate calculation as the approximate calculation by the general approximation unit 206 e in the second embodiment by using a built-in storage unit and the like. Using the result as an initial value, an approximation calculation similar to the approximation calculation by the second approximation unit 306 e in the third embodiment is performed.
  • the reference model is such that the input is the search keyword and the output is the probability of using search rule A, search rule B, and so on. If you use different search rules, the displayed search results will be different.
  • the reference model prepared in the reference model storage unit 603 of the server 601 is a speaker model having typical characteristics.
  • a user inputs usage information using a remote control (terminal device 6 14) attached to the server 61.
  • Usage information includes age, personality, gender, and hobbies. Further, the information may identify a predetermined group such as “child”, “actor”, and “high school student”.
  • the specification information creation unit 607 of the server 600 creates specification information based on the CPU power and storage capacity of the device to be used. Here, it is assumed that “for TV” is selected, and the specification information 6 25 that the CPU power and the storage capacity are small is created. Based on the specification information 625, the standard model creator 606 creates a three-mix standard model that operates even with a small CPU power. The created standard model is written on a memory card, and the memory card is inserted into the television by the user.
  • the user enters a search keyword to search for a recommended program on the EPG displayed on the TV.
  • the TV uses the standard model recorded on the memory card to determine a search rule that matches the search keyword, searches for programs in accordance with the search rules, and searches for programs that match the user's preferences.
  • a convenient search device using the standard model created by the standard model creation device in the present embodiment is realized.
  • the statistics of the standard model are set so as to maximize or maximize the probability or likelihood for the plurality of reference models selected based on the usage information. Is calculated to create a standard model, which provides a high-accuracy standard model that is more suitable for use.
  • GMM constituting the standard model 62 2 may be constituted by a Gaussian mixture distribution having a different number of distributions for each speaker.
  • the reference model preparation unit 602 may add a new reference model read from a storage device such as a CD_ROM to the reference model storage unit 603 as needed, and may update the reference model. Unnecessary reference models stored in the reference model storage unit 603 may be deleted.
  • the GMMs of the reference model and the standard model may represent a part of the Bayesian network. After the standard model is created, learning may be further performed using data.
  • the standard model structure determination unit may determine the structure of the HMM such as a monophone, a triphone, and a state-sharing type, and the number of states.
  • FIG. 29 is a block diagram illustrating an overall configuration of a standard model creation device according to the seventh embodiment of the present invention.
  • the standard model creation device according to the present invention is incorporated in a server 701 in a computer system.
  • a standard model (adaptive model) for speech recognition is created will be described as an example.
  • the server 701 is a computer device or the like in a communication system, and is a standard model creation device that creates a standard model for voice recognition defined by a set of events and an output probability of transition between events or events. , Reading unit 711, reference model preparation unit 720, reference model storage unit 703, usage information receiving unit 704, reference model selection unit 705, and standard model creation unit 70 6, a specification information receiving unit 707, a standard model storage unit 708, and a standard model transmitting unit 709.
  • the reference model preparation unit 720 is a speaker ⁇ ⁇ noise that is read by the reading unit 711 and is written to a storage device such as a CD-ROM.
  • ⁇ Voice tone Reference model storage unit for each voice recognition reference model The reference model is transmitted to the reference model 703, and the reference model storage unit 703 stores the transmitted reference model ⁇ 21.
  • the specification information receiving unit 707 receives the specification information 725 from the terminal device 712.
  • the usage information receiving unit 704 receives the user's voice uttered under the noise, which is the usage information 724, from the terminal device 712.
  • the reference model selection unit 705 stores the reference model 723 of the speaker's noise-tone which is acoustically similar to the user's voice, which is the usage information 724, in the reference model storage unit 703. ing Select from the reference models 7 2 1.
  • the standard model creation unit 706 determines the probability or likelihood for the reference model 23 selected by the reference model selecting unit 705. This is a processing unit that creates the standard model 722 so as to maximize or maximize it, and has the same function as the standard model creation unit 206 in the second embodiment.
  • the standard model storage unit 708 stores one or a plurality of standard models based on the specification information 725. When receiving the specification information and the standard model request signal from the user's terminal device 7 12, the standard model transmitting unit 7 09 transmits a standard model suitable for the specification information to the terminal device 7 12.
  • FIG. 30 is a flowchart showing the operation procedure of the server 70 1.
  • FIG. 31 is a diagram illustrating an example of a reference model and a standard model for describing an operation procedure of the server 70 1.
  • a reference model serving as a reference is prepared (step S700 in FIG. 30).
  • the reference model preparation unit 702 refers to the reference model for speech recognition, which is read by the reading unit 711 and written into a storage device such as a CD-ROM ⁇ noise ⁇ voice tone.
  • the reference model is transmitted to the reference model storage unit 703, and the reference model storage unit 703 stores the transmitted reference model 721.
  • the reference model 7 21 is composed of HMM for each phoneme for each tone of the speaker 'noise' voice.
  • the usage information receiving unit 704 transmits the voice of the user A under the noise to the terminal device. It is received as usage information 724 from the device 712 (step S701 in FIG. 30).
  • the specification information receiving section 707 receives the specification information 725 from the terminal device 712 based on the request of the user A (step S703 in FIG. 30).
  • the specification information 725 of high recognition accuracy is received.
  • the standard model creation unit 706 uses the standard model to maximize or maximize the probability or likelihood of the reference model 723 selected by the reference model selection unit 705 based on the specification information 725.
  • 7 22 is created (step S 704 in FIG. 30).
  • the method of creating the standard model 722 is performed in the same manner as in the second embodiment.
  • the standard model storage unit 708 stores one or a plurality of standard models 722 based on the specification information 725.
  • the HMM of 16 mixtures of user B which is the standard model created before, is already stored, and the HMM of 64 mixtures of user A is newly stored.
  • User A transmits the user A, which is the specification information, the type of noise, and the standard model request signal from the terminal device 712 to the standard model transmitting section 709 of the server 701 (FIG. 30).
  • Step S706 When the standard model transmitting unit 709 receives the specification information transmitted by the user A and the standard model request signal, A standard model suitable for the specification is transmitted to the terminal device 712 (step S707 in FIG. 30).
  • the standard model 7 22 of the user A created earlier is transmitted to the terminal device 7 12.
  • User A performs speech recognition using the standard model 722 received by the terminal device 712 (step S 708 in FIG. 30).
  • the present embodiment is applied to a speech recognition system including a car navigation device (terminal device 71 2) and a server device (server 70 1; standard model creation device) connected by a communication network.
  • a speech recognition system including a car navigation device (terminal device 71 2) and a server device (server 70 1; standard model creation device) connected by a communication network.
  • server 70 1 standard model creation device
  • the user selects a button for “acquiring his own voice model” on the screen of the car navigation device (terminal device 7 12). Then, "Enter your name” is displayed. Enter your name by button operation. Next, (“Speak“ voice ”” is displayed, and the user speaks “voice” into the microphone attached to the car navigation device. The sound under noisy conditions) is transmitted from the car navigation device (terminal device 7 12) to the server 70 1 as usage information.
  • the user selects the button of “high-accuracy speech recognition” on the screen of the car navigation device (terminal device 7 12). Then, the selection information is transmitted as specification information from the force navigation device (terminal device 7 12) to the server 70 1.
  • the server 70 1 creates a standard model for speech recognition suitable for the user based on the usage information and the specification information, and associates the created standard model with the name of the user to store the standard model storage unit 70 0. Stored in 8.
  • the terminal device 712 which downloaded the standard model corresponding to the name (user) from the server 701, performs voice recognition for the user using the standard model, and sets the destination by voice. .
  • the standard model created by the standard model creation device in the present embodiment for speech recognition it is possible to operate the power navigation device by speech.
  • the statistics of the standard model are set so as to maximize or maximize the probability or likelihood for the plurality of reference models selected based on the usage information. Is calculated and a standard model is created, so a highly accurate standard model suitable for the usage situation is provided.
  • the standard model storage unit 708 can store a plurality of standard models, the standard models are immediately provided as needed.
  • the terminal device 7 1 2 and the server 7 0 1 are installed in a spatially separated place.
  • the terminal device 712 can easily use the standard model created by the server 701.
  • standard model 722 is not limited to configuring HMM for each phoneme, but may be configured with context-dependent HMM.
  • the HMM constituting the standard model 7222 may be constituted by a Gaussian mixture distribution having a different number of mixtures for each state.
  • the reference model preparation unit 702 creates a new reference model as needed and adds it to the reference model storage unit 703. ⁇ It may be updated or stored in the reference model storage unit 703. Unnecessary reference models may be deleted. In addition, the reference model preparation unit 702 adds a new reference model to the reference model storage unit 703 via a communication channel as needed. After the standard model is created, learning may be further performed using data.
  • the standard model structure determination unit may determine the structure of the HMM such as a monophone, a triphone, and a state-sharing type, and the number of states.
  • FIG. 32 is a block diagram showing the entire configuration of the standard model creation device according to the eighth embodiment of the present invention.
  • the mobile phone 901 is a portable information terminal, and a standard model creation device that creates a standard model for speech recognition defined by a hidden Markov model represented by a set of events and an output probability of an event or a transition between events.
  • the reference model receiving unit 909, the reference model preparing unit 902, the reference model storage unit 903, the use information creating unit 904, and the reference model selecting unit 905 are similar.
  • a degree information creation unit 908, a standard model creation unit 906, a specification information creation unit 907, a microphone 912, and a speech recognition unit 913 are provided.
  • the usage information creating unit 904 creates the usage information 924 using the screen and keys of the mobile phone 901.
  • the specification information creation unit 907 creates the specification information 925 based on the specifications of the mobile phone 901.
  • the specification information is the specification of the standard model to be created.
  • it is information relating to the processing capability of the CPU included in the mobile phone 901.
  • the similarity information creation unit 908 creates similarity information 926 based on the usage information 924, the specification information 925, and the reference model 921 stored in the reference model storage unit 903. And sends it to the reference model preparation unit.
  • the reference model preparation unit 92 determines whether or not to prepare a reference model based on the similarity information 926.
  • the reference model preparation unit 902 transmits the usage information 924 and the specification information 925 to the reference model reception unit 909 when it is determined that the reference model is prepared.
  • the reference model receiving unit 909 receives the reference model corresponding to the usage information 924 and the specification information 925 from the server device 910 and transmits the reference model to the reference model preparing unit 9102.
  • the reference model preparation unit 902 stores the reference model transmitted by the reference model reception unit 909 in the reference model storage unit 903.
  • the reference model selection unit 905 selects a reference model 923 corresponding to the usage information 922 from the reference models 921 stored in the reference model storage unit 903.
  • the standard model creation unit 9606 calculates the probability or likelihood for the reference model 923 selected by the reference model selection unit 905. This is a processing unit that creates the standard model 922 so as to maximize or maximize it.
  • the standard model structure determination unit 906a that determines the structure of the standard model (such as the number of Gaussian distributions) and the standard model
  • the initial standard model creation unit 900b that creates the initial standard model by determining the initial value of the statistic for calculating the statistic
  • the statistics storage unit 906c that stores the determined initial standard model Using the approximation calculation and the like by the third approximation unit 906 e for the initial standard model stored in the statistic storage unit 906 c
  • a statistic that maximizes or maximizes the probability or likelihood of the reference model 923 selected by the reference model selection unit 905 is calculated (to generate a final standard model). It consists of a quantity estimator 9 06 d.
  • the voice recognition unit 913 recognizes the user's voice input from the microphone 912 using the standard model 922 created by the standard model creation unit 906.
  • FIG. 33 is a flowchart showing the operation procedure of the mobile phone 901.
  • the reference model 9 21 is composed of HMM for each phoneme.
  • Figure 34 shows an example of the reference model 9221.
  • the output distribution of HMM is composed of a mixture of Gaussian distributions with three states and each state having 16 distributions.
  • J 25
  • FIG. 36 is a diagram showing an example of creating the usage information 9 24.
  • FIG. 36 (a) shows an example of the selection screen of the mobile phone 901. Here, it is selected that this mobile phone 901 is used for adult women and adult men by pressing the button of "4: Adult". Another example is shown in Figure 36 (b). Here, the voice is input while pressing the “Menu” button. The user's voice is converted into a feature quantity, thereby creating “user's voice data” that is usage information 9 24.
  • the specification information creation unit 907 is based on the specifications of Create information 925 (step S9001).
  • the specification information 925 is created.
  • the similarity information generation unit 908 stores the similarity information 92 6 is created (step S902), and the similarity information 926 is transmitted to the reference model preparation unit 902.
  • the reference model 9 21 existing in the reference model storage unit 9 03 is only a child model with a mixture distribution number of 3 (see FIG. 34), and the usage information 9 24 “adult” ( Since there is no reference model corresponding to “Number of mixture distributions 16” (corresponding to Fig. 36 (a)) and specification information 925 in reference model storage section 903, “Similar reference model exists”. Is generated, and the similarity information 926 is transmitted to the reference model preparation unit 902.
  • the usage information 9224 is "user's voice data" (corresponding to Fig. 36 (b)), and the reference model storage section 903 stores the user's voice data.
  • similarity information 926 indicating that "similar reference model does not exist” is created, and the similarity information is added to reference model preparation unit 902. Send.
  • the reference model preparation unit 902 determines whether to prepare a reference model based on the similarity information 926 (step S903).
  • the user is prompted to prepare the reference model as shown in the screen display example of the mobile phone 901 in FIG.
  • the reference model preparation unit 92 decides to prepare the reference model, and uses the usage information 92 4 and the specification information. 9 25 is transmitted to the reference model receiving unit 9 09.
  • the reference model The reserve unit 902 decides to automatically prepare the reference model, and transmits the usage information 924 and the specification information 925 to the reference model receiving unit 909.
  • An example of the screen of the mobile phone 901 in this case is shown in Fig. 37 (b).
  • the reference model receiving unit 909 receives the reference model corresponding to the usage information 924 and the specification information 925 from the server device 910 and sends it to the reference model preparing unit 9102. Send.
  • the reference model receiving unit 909 corresponds to “adult” (corresponding to FIG. 36 (a)), which is usage information 924, and “mixed distribution number 16”, which is specification information 925.
  • the reference model preparation unit 902 prepares the reference model by storing the reference model transmitted by the reference model reception unit 909 in the reference model storage unit 903 (step S 904).
  • Figure 35 shows an example of the reference model. Here, image diagrams of reference models for adult men, adult women, and children are shown.
  • the reference model selection unit 905 determines the usage information 922 4 of “adult female model with 16 mixed distributions belonging to the same category corresponding to adult j” and “ The two reference models of the "adult male model” are selected from the reference models 921 stored in the reference model storage unit 903 (step S905).
  • the reference The model selection unit 955 is acoustically similar to the user information “user's voice data” (has a large likelihood).
  • the “mixed distribution number 16 adult female model” and the “mixed distribution number” Two reference models of “16 adult male models” are selected from the reference models 9 21 stored in the reference model storage unit 9 03.
  • the standard model creation unit 906 generates a reference model 923 for the reference model 923 selected by the reference model selection unit 905.
  • a standard model 922 is created so as to maximize or maximize the probability or likelihood (step S906).
  • the voice recognition unit 913 recognizes the user's voice input from the microphone 912 according to the standard model 922 created by the standard model creation unit 906 (step S 907). ).
  • step S906 creation of a standard model
  • the flow of the procedure is the same as the flow chart shown in Fig. 4. However, the structure of the standard model to be adopted and the specific approximate calculation are different.
  • the standard model structure determination unit 906a determines the structure of the standard model (step S102 in FIG. 4).
  • the initial standard model creation unit 906b determines an initial value of a statistic for calculating the standard model (step S102b in FIG. 4).
  • the selected reference model 923 “the adult female model with a mixture distribution number of 16” is stored in the statistics storage unit 906c as the initial value of the statistics.
  • the selected reference model 923 “adult male female model with a mixture distribution number of 16” is stored as an initial value of the statistic in the statistic storage unit 906c. More specifically, the initial standard model creation unit 906b generates the output distribution shown in the above equation (13).
  • the statistic estimating unit 906 d uses the two reference models 923 selected by the reference model selecting unit 905 to calculate the standard model stored in the statistic storage unit 906 c.
  • Equation 21 in the output distribution shown in Equation 19 above is 16 (the number of mixture distributions of each reference model).
  • the mixing weight coefficient, the average value and the variance value of the standard model are calculated, respectively.
  • the third approximation unit 906 e of the statistic estimation unit 906 d uses the approximation formula of Expression 53, assuming that the Gaussian distributions of the standard model do not affect each other.
  • Equation 55 near the Gaussian distribution of the standard model shown in Equation 54 is the Mahalanobis distance to the output distribution shown in Equation 54
  • the calculation formula in the statistic estimation unit 906 d is as follows.
  • the statistic estimating unit 906 d calculates the mixing weight coefficient, the average value, and the variance value according to Equations 59, 60, and 61, respectively, and calculates the standard model specified by those parameters. Is generated as the final standard model 9 22.
  • a second method in the third embodiment that is, a method in which the value of the mixing weight coefficient is set to zero, the average value is set to zero, and the variance value is set to one is used.
  • the value of the neighborhood indication parameter G differs according to the number of repetitions. Note that the above method may be determined to be one of the first to third methods in the third embodiment depending on the value of the proximity indication parameter G.
  • the statistic estimation unit 906 d stores the statistic of the standard model estimated in this way in the statistic storage unit 906 c. Then, the estimation of the statistics and the storage in the statistics storage unit 906c are repeated R ( ⁇ 1) times. The statistic obtained as a result is output as the statistic of the standard model 922 finally generated.
  • FIG. 38 shows the results of a recognition experiment using the standard model 922 created using the third approximation unit 906e.
  • the vertical axis shows the recognition rate (%) of adults (male and female), and the horizontal axis shows the number of repetitions R.
  • the number of repetitions R-0 is the result of re-recognition by the initial model created by the initial standard model creation unit 906b before learning.
  • the graph “Data” shows the results when learning from audio data over several days.
  • the graph “Women” and the graph “Male” show the results when the initial model is an adult female and an adult male, respectively.
  • the result is shown.
  • the learning time according to the present invention using the reference model was on the order of tens of seconds.
  • the experimental results show that a high-accuracy standard model was created in a short time.
  • FIG. 39 shows the recognition rate based on the standard model created by the second approximation unit 300 e in the third embodiment.
  • the reference model is prepared based on the similarity information, the reference model suitable for the usage information and the specification information is provided at a necessary timing. Can be prepared.
  • the neighborhood indicating parameter G according to the number of repetitions R, a highly accurate standard model can be provided regardless of the initial model.
  • the number of repetitions of the processing by the statistic estimating unit 906 d may be the number of times until the magnitude of the likelihood shown in the above equation 25 becomes equal to or greater than a certain threshold.
  • standard model 9222 is not limited to configuring HMM for each phoneme, but may be configured with context-dependent HMM.
  • the standard model creation unit 906 may create a model for the output probabilities of events in some states of some phonemes.
  • the HMM constituting the standard model 922 may be constituted by a different number of states for each phoneme, or may be constituted by a Gaussian mixture having a different number of distributions for each state.
  • learning may be further performed using audio data.
  • the standard model structure determination unit may determine the structure of the HMM such as a monophone, a triphone, and a state-sharing type, and the number of states.
  • FIG. 40 shows a standard model creating apparatus according to the ninth embodiment of the present invention.
  • FIG. 2 is a block diagram showing the entire configuration.
  • PDA Personal Digital Assistant
  • PDA 1001 is a portable information terminal, a standard model creation device that creates a standard model for speech recognition defined by a hidden Markov model expressed by a set of events and the output probabilities of transitions between events or events.
  • the standard model creation unit 106 includes a standard model structure determination unit “I006a”, an initial standard model creation unit 106b, a statistic storage unit 306c, and a statistic estimation unit 3 0 6 d.
  • the standard model creation unit 1006 uses the application's specification information correspondence database 1004 Get the specification information 102 5.
  • FIG. 41 shows an example of data in the specification information correspondence database 1004.
  • specification information here, the number of mixture distributions
  • the application ID number and name
  • the standard model creation unit 1006 calculates the probability or likelihood for one reference model 1002 1 stored in the reference model storage unit 1003.
  • a processing unit that creates the standard model 1022 so as to maximize or maximize it, and has the function of the second approximation unit 300e in the third embodiment.
  • the speech recognition unit 101 uses the standard model 102 created by the standard model creation unit 106 to generate the user's speech input from the microphone 102. Recognize.
  • FIG. 42 is a flowchart showing the operation procedure of PDA 1001.
  • the reference model 102 2 is composed of HMMs for each phoneme.
  • An example of the reference model 1021 is shown in Figure 43.
  • the output distribution of HMM is composed of a Gaussian mixture of three states and each state having a distribution number of 300.
  • step S100 the user activates, for example, an application called “stock trading” (step S100).
  • the standard model creation unit 106 receives the specification information 102 (Step S1001), and creates a standard model based on the specification information 125 (Step S100). 1 0 2).
  • the speech recognition unit 101 is input from the microphone 102 according to the standard model 102 created by the standard model creating unit 106.
  • the user's voice is recognized (step S1003).
  • step S1002 creation of a standard model
  • the flow of the procedure is the same as the flow chart shown in Figure 4. However, the structure of the standard model to be adopted and the specific approximate calculation are different.
  • the initial standard model creation unit 106 b generates an initial value of a statistic for calculating the standard model based on the structure of the standard model determined by the standard model structure determination unit 106 a. Determine (Step S102b in Fig. 4)
  • the clustering described below is performed using the k-means method and the Mahalanobis generalized distance, and the initial value of the statistic is calculated. Then, it is stored in the statistic storage section 303c.
  • the statistic estimation unit 300d uses the reference model 1021 stored in the reference model storage unit 103 to generate the standard model stored in the statistic storage unit 303c. Is estimated (step S102c in Fig. 4). Note that the estimation processing by the statistic estimation unit 303d is the same as that in the third embodiment.
  • Figure 44 shows a flowchart of clustering.
  • Figures 45 to 48 show the images of clustering.
  • step S104 of FIG. 44 126 representative points, which are the number of mixture distributions of the standard model, are prepared (FIG. 45).
  • 126 output distributions are selected from among the 300 output distributions of the reference model, and the average value of the selected distributions is used as a representative point.
  • step S105 of FIG. 44 the output vector of the reference model whose Mahalanobis general distance is close to each representative point is determined (FIG. 46). Then, in step S106 of FIG. 44, the close distribution determined in step S105 is represented by one Gaussian distribution, and the average value is set as a new representative point (FIG. 47).
  • step S107 of FIG. 44 it is determined whether to stop the clustering operation.
  • stop when the rate of change of the Mahalanobis general distance between each representative point and the distribution of the reference vector (difference from the distance from the previous representative point) becomes equal to or smaller than the threshold. If the stop condition is not satisfied, the flow returns to step S1005 in FIG. 44, and a similar distribution is determined and the same operation is repeated.
  • step S108 in FIG. 44 the initial value of the statistic is determined and stored in the statistic storage unit 306c. In this way, the initial value is determined by clustering.
  • HMM may be configured for each phoneme.
  • the standard model creation unit 106 may create a model for the output probabilities of events in some states of some phonemes.
  • the HMMs that make up the standard model 1022 may be configured with different numbers of states for each phoneme, or a Gaussian mixture with a different number of distributions for each state. It may be composed of cloth.
  • learning may be further performed using audio data.
  • the standard model structure determination unit may determine the structure of the HMM such as a monophone, a triphone, and a state-sharing type, and the number of states.
  • FIG. 49 is a block diagram showing the entire configuration of the standard model creation device according to the tenth embodiment of the present invention.
  • the standard model creation device according to the present invention is incorporated in a server 801 in a computer system.
  • a standard model (adaptive model) for speech recognition is created will be described as an example.
  • the server 801 is a computer device or the like in a communication system, and is a standard model creation device that creates a standard model for voice recognition defined by a set of events and an output probability of an event or a transition between events.
  • the reference model preparation unit 702 stores the speaker read by the reading unit 711 and written to a storage device such as a CD-ROM ⁇ Noise ⁇ Voice tone Reference model storage for different reference models for speech recognition Transmit it to the unit 703.
  • the reference model storage unit 703 stores the transmitted reference model 721. Further, the reference model preparing unit 702 transmits the reference model for speech recognition received by the reference model receiving unit 810 to the reference model storing unit 703 in response to the transmission from the terminal device 712.
  • the reference model storage unit 703 stores the transmitted reference model 721.
  • the specification information receiving unit 707 receives the specification information 725 from the terminal device 712.
  • the usage information receiving unit 704 receives the user's voice uttered under the noise, which is the usage information 724, from the terminal device 712.
  • the reference model selection unit 705 is a speaker that is acoustically similar to the user's voice as the usage information 724 received by the usage information receiving unit 704.
  • the reference model is selected from the reference models 7 2 1 stored in
  • the standard model creation unit 706 sets the standard model 7 so as to maximize or maximize the probability or likelihood for the reference model 723 selected by the reference model selection unit 705.
  • 22 is a processing unit that creates the same as the standard model creating unit 206 in the second embodiment.
  • the standard model storage unit 708 stores one or more standard models based on the specification information 725.
  • the standard model transmission unit 709 Upon receiving the specification information 725 and the standard model request signal from the user's terminal device 712, the standard model transmission unit 709 sends the standard model suitable for the specification to the terminal device 712. Send
  • FIG. 50 is a flowchart showing the operation procedure of server 801.
  • An example of a reference model and a standard model for explaining the operation procedure of the server 801 is the same as that of FIG. 31 in the seventh embodiment.
  • a reference model as a reference is prepared (steps S800, S810 in FIG. 50).
  • the reference model preparation unit 702 reads the speaker model read by the reading unit 711, written on a storage device such as a CD_ROM ⁇ noise ⁇ the reference model for speech recognition by tone of voice
  • the reference model is transmitted to the reference model storage unit 703, and the reference model storage unit 703 stores the transmitted reference model 721 (step S800 in FIG. 50).
  • the reference model 7 21 is composed of HMMs for each phoneme for each tone of the speaker 'noise' voice.
  • the reference model preparation unit 720 A reference model for speech recognition suitable for the user and the terminal device 7 12 transmitted by the terminal device 7 12 and received by the reference model receiving portion 8 10 is transmitted to the reference model storage portion 7 03, and the reference model The storage unit 703 stores the transmitted reference model 721 (step S810 in FIG. 50).
  • step S820 to S809 in FIG. 50 the creation of the standard model 722 using these reference models 721 and transmission to the terminal device 712 (steps S820 to S809 in FIG. 50) are as follows. This is the same as the procedure (steps S701 to S708 in FIG. 30) in the seventh embodiment.
  • the personal model stored in the terminal device 712 can be uploaded to the server and used as a material for creating a standard model.
  • the upload is performed. It is possible to create a high-precision standard model with a larger number of mixtures by integrating the reference model that has been created with other reference models already stored, and download and use it on the terminal device 7 12 It becomes. Therefore, a simple adaptation function is attached to the terminal device 7 12, and a model that is simply adapted can be uploaded to create a more accurate standard model.
  • FIG. 51 is a diagram illustrating an example of a system to which the standard model creation device according to the present embodiment is specifically applied.
  • a server 701 and a terminal device 712 (a mobile phone 712 a and a navigation device 712 b) communicating with each other via the Internet or wireless communication are shown. Have been.
  • the mobile phone 712 a uses the voice of the user as the usage information, and specifies that the mobile phone is used on a mobile phone (the CPU has low processing power). Then, a sample model stored in advance is used as a reference model, and the use information, the specification information, and the reference model are transmitted to the server 701, thereby requesting the creation of a standard model.
  • a standard model is created in response to the request in the server 701, the mobile phone 712a downloads the standard model and recognizes the user's voice using the standard model. For example, if the user's voice matches the name in the internal address book, an automatic call is made to the telephone number corresponding to that name.
  • the car navigation device 712 b uses the user's voice as usage information, and uses the car navigation device as the specification information (that the CPU processing capacity is normal).
  • a sample model stored in advance is used as a reference model, and the use information, the specification information, and the reference model are transmitted to the server 701, thereby requesting the creation of a standard model.
  • the car navigation device 712b downloads the standard model and recognizes the user's voice using the standard model. For example, if the user's voice matches a place name stored inside, a map showing the route from the local point with the place name as the target point is automatically displayed on the screen.
  • the mobile phone 7 12 a and the force navigation device 7 12 b can request the server 70 1 to create a standard model suitable for their own device, so that the This eliminates the need to implement circuits and processing programs in the device itself, and allows obtaining standard models for various recognition targets at the required timing.
  • a standard model can be created by using the reference model received by the reference model receiving unit 810, so that a highly accurate standard model can be created. Is provided. In other words, by adding a reference model by uploading from the terminal device 7 12, the server 8 0 1 The number of variations of the reference model held by the side increases, and a more accurate standard model can be provided when used by others.
  • the reference model receiving unit 8110 may receive the reference model from another terminal device different from the terminal device 712.
  • the application example shown in FIG. 51 is not limited to the present embodiment, but can be applied to other embodiments.
  • the standard models created in the first to ninth embodiments to various electronic devices via various recording media and communication, such electronic devices can provide high-precision speech recognition and image processing. Recognition, understanding of intention, etc. can be performed.
  • the standard model creation device in the above embodiment into various electronic devices, it is possible to realize a stand-alone electronic device having a recognition / authentication function such as voice recognition, image recognition, and understanding of intention. .
  • the approximation calculation of the statistic of the standard model in the first to tenth embodiments is not limited to the approximation calculation in each embodiment, and a total of four types in the first to fourth embodiments may be used. At least one approximation calculation may be used. That is, any of the four types of approximation calculations may be used, or a combination of two or more types of approximation calculations may be used.
  • the general approximation unit 206 e of the statistic estimation unit 206 d calculates the mixing weight coefficient, the average value, and the variance value of the standard model by using Equation 45 and Equation 4, respectively. Calculated in accordance with the approximations shown in Equations 6 and 47, but instead of these approximations, the approximations shown in Equations 63, 64 and 65 below are used. It may be calculated using an equation.
  • a class ID as shown in Fig. 52 ⁇ Initial standard model ⁇ Reference model correspondence table is prepared in advance, and the initial standard model is created according to this table. You may decide. The following describes how to determine the initial standard model using such a class ID ⁇ initial standard model 'reference model correspondence table.
  • the class ID is an ID for identifying a type of a recognition target using a standard model, and corresponds to the type of the standard model.
  • the class ID ⁇ initial standard model 'reference model correspondence table shown in Fig. 52 maps multiple reference models with certain common properties to one class ID that identifies them, and refers to them. This is a table that associates pre-created initial standard models with the same properties as the models.
  • the class ID and the initial standard model 8 A are associated with the reference models 8 AA to 8 AZ
  • the class ID and the initial standard model 64 Z are associated with the reference models 64 ZA to ZZ. It is attached.
  • the standard model creation unit can generate a highly accurate standard model by using the initial standard model that is common to the properties of the reference model used.
  • the subscript symbols 8A for the class ID, the initial standard model and the reference model, the first symbol such as ⁇ 8 '' in 8AA means the number of mixture distribution
  • the type of noise environment A for household noise, B for train noise, etc.
  • the third symbol “A” etc. means a minor classification, for example, the attribute of the person to be subjected to speech recognition (A for elementary school students in lower grades, B for elementary school students in higher grades, etc.). Therefore, the class ID in Fig. 52 'Initial standard model' ⁇ Reference model Reference models 8 AA to AZ in the correspondence table are models with the number of mixture distributions 8 as shown in Fig.
  • FIG. 56 is a flowchart showing the procedure
  • FIGS. 57 to 60 are diagrams showing specific examples in each step. This section describes the procedure for creating a new table including not only tables but also class IDs, initial standard models, and reference models, using voice recognition in a noisy environment as an example.
  • speech data is classified into acoustically close groups (step S110 in FIG. 56).
  • audio data is classified according to the noise environment, which is usage information.
  • Environment A voice data under household noise
  • Voice data are classified to include voices of lower grades of elementary school, higher grades of elementary school, and voices of adult women recorded on the train. Even if the information is classified by the speaker's gender, age group, laughter, voice characteristics such as angry voice, read-out tone, voice tone such as conversational tone, English language, Chinese language, etc. Good.
  • one or more model structures of the reference model to be prepared are determined based on the specification information and the like (step S111 in FIG. 56).
  • the determination of the model structure is not limited to the determination of the number of mixture distributions, but also the number of states of the HMM, the type of HMM such as monophonic life on, and the like. Is also good.
  • an initial standard model is created (Step S1102 in FIG. 56).
  • the initial standard for each model structure determined in step S1101 Create a model.
  • the initial standard model is 8A
  • the initial mixed model of 8 mixes the audio data (elementary school children, lower school children, It is created by learning using the voice data of an adult man, an adult woman, etc.) using the Baum-Welch algorithm.
  • a reference model is created (step S1103 in FIG. 56). That is, a reference model is created using the initial standard model created in step S111. Specifically, the reference model is learned using an initial standard model having the same mixture distribution number, which was learned in the same noise environment as the noise environment of the speech data for which the reference model was learned.
  • the reference model 8 AA is a model that learns from voice data in the lower grades of elementary school children under domestic noise with a mixed distribution number of 8, and is used as an initial value for learning.
  • a class ID is assigned (step S1104 in FIG. 56). For example, by assigning one class ID for each noise environment, the class ID shown in Fig. 60 ⁇ Initial standard model ⁇ Reference model correspondence table, that is, “Initial standard model with class ID” and “Class ID” Reference model with ID "is created.
  • Such a class ID / initial standard model / reference model correspondence table must be held in the terminal (standard model creation device) in advance as a completed table. No need.
  • the terminal may complete the table by communicating with another device (server) as shown in Figure 61.
  • the standard model creation device terminal
  • the terminal does not necessarily need to acquire the “Initial standard model with class ID” and “Reference model with class ID”, and may store it in advance and ship it.
  • the terminal can acquire "Initial standard model with class ID” and "Reference model with class ID” by the following methods.
  • the terminal stores the “initial standard model with class ID” (for example, one that complies with the method of assigning a class ID defined in advance by a standardization consortium). is there.
  • the terminal downloads a "reference model with class ID” (for example, a model that conforms to the class ID pre-defined by the standardization consortium) from one or more servers.
  • the terminal may store the “reference model with class ID” at the time of shipment.
  • the terminal does not store the “initial standard model with class ID”.
  • the terminal downloads “Initial standard model with class ID” from the server (server 1 in Figure 61).
  • the terminal downloads the "reference model with class ID” from one or more servers (server 2 in Fig. 61).
  • Class I definitions can be added or changed as needed. It also saves terminal memory.
  • the terminal stores a "class ID" that specifies the correspondence between class 1D and the initial standard model-reference model. It is a case.
  • the terminal uploads the "correspondence table” to a server that does not store the "correspondence table” (server 3 in Fig. 61). I do.
  • the server prepares the "reference model with class ID” based on the transmitted "correspondence table”.
  • the terminal downloads the prepared "reference model with class ID”.
  • Figure 62 is a flowchart showing the procedure.
  • FIG. 63 and FIG. 64 are diagrams showing specific examples in each step.
  • the class ID is extracted from the reference model used to create the standard model (step S1105 in FIG. 62).
  • the corresponding class ID is extracted from the selected reference model according to the table shown in FIG.
  • the extracted class ID is one 8 A, three 16 A, one 16 B force, and one 64 B force ⁇ 1.
  • an initial standard model to be used for creating a standard model is determined using the extracted class ID (step S1106 in FIG. 62). Specifically, the initial standard model is determined according to the following procedure.
  • the initial standard model corresponding to the class ID extracted most is determined as the final initial standard model. For example, if the structure of the standard model is 16 mixture, three 16 A and one 16 B are extracted as class IDs for 16 mixture, so the class ID is 16 A Adopt the initial standard model.
  • the initial value may be determined not by focusing on the specification information (such as the number of mixture distributions) of the standard model created first but by focusing on the usage information (such as the type of noise).
  • Figure 64 shows the results of a recognition experiment using a standard model with 64 mixture distributions created using the third approximation.
  • the vertical axis shows the recognition rate (%) of adults (male and female), and the horizontal axis shows the number of repetitions R.
  • the neighborhood indication parameter G 1.
  • the graph “Data” shows the results when learning from audio data over several days
  • the graph “Women” and the graph “Male” are when the initial model is an adult female and an adult male, respectively. Represents the result.
  • the learning time according to the invention with the reference model was of the order of minutes. According to the experimental results, when the reference model of an adult woman was determined as the initial standard model, a standard model with higher accuracy than the result learned from the voice data could be created. You can see that.
  • the recognition experiment in the case where the number of mixture distributions of the standard model is 16, the method according to the present invention does not exceed the recognition rate of the standard model learned from the speech data. This is thought to be due to the lack of information on the audio data when the audio data was converted to a 16-mix reference model. If a reference model is created in a mixture of 64 and the characteristics of the audio data are sufficiently retained, a standard model with higher accuracy can be created. Thus, in the ninth embodiment, the number of mixture distributions in the reference model is set to be as large as 300.
  • the recognition experiments shown in Fig. 39 and Fig. 64 show the effect of the initial standard model on recognition accuracy, and demonstrate the importance of the method for determining the initial standard model (Fig. 64 However, it has been shown that when an adult female reference model is used as the initial standard model, a higher-precision standard model can be created than when an adult male reference model is used).
  • a high-precision standard model can be created by using an initial standard model having the same properties as the reference model according to the class ID and the initial standard model ⁇ reference model correspondence table.
  • the determination of the initial standard model using the class ID, the initial standard model, and the reference model correspondence table can be adopted in any of the first to tenth embodiments.
  • Equation 25 is used as the likelihood of the standard model with respect to the reference model.
  • the present invention employs such a likelihood function.
  • the likelihood function shown in the following equation 66 may be used.
  • (i) is a weight indicating the importance corresponding to each reference model i to be integrated.
  • the importance is determined by the closeness of the user's speech and the speech that created the integrated model.
  • (i) is set to a large value (heavily weighted).
  • the closeness between the integrated model and the user's voice may be determined based on the likelihood when the user's voice is input to the integrated model.
  • the standard model structure determination unit in each embodiment determines the structure of the standard model based on various factors such as usage information and specification information.
  • the present invention is not limited to these factors.
  • the structure of the standard model may be determined depending on various attributes such as complexity. Specifically, as shown in Figs. 65 (a) to (j), the number of Gaussian distributions (the number of mixtures) constituting the standard model increases as the age of the person to be subjected to speech recognition increases. (Fig.
  • Fig. 65 (a) or if the target of speech recognition is male, use a larger mixture number than that of female (Fig. 65 (b)), and As the sound quality of a person becomes “husky” more than “normal” and “wrinkled”, the number of mixtures is increased (Fig. 65 (c)). The number of mixtures increases as the anger becomes more angry and the voice crys and laughs than the normal voice (Fig. 65 (d)), and as the speech speed of the person targeted for speech recognition becomes faster and Z becomes slower. If the number of mixtures is increased (Fig. 65 (e)), the politeness of the utterance of the person who is the target of speech recognition is higher than that of “reading tone”.
  • the dialect of the person who is the target of speech recognition is “Osaka dialect” rather than “Standard language”, and the number of mixtures is increased so that it becomes “speech style” and “speech style” (Fig. 65 (f)).
  • the number of mixtures increases as the number becomes “Kagoshima dialect” (Fig. 65 (g)), and decreases as the background noise in speech recognition increases (Fig. 65 (h)).
  • the number of mixtures may be increased as the microphone performance increases (Fig. 65 (i)), or the number of mixtures may be increased as the number of vocabularies to be recognized increases (Fig. 65 (j)).
  • the number of mixtures is determined from the viewpoint of increasing the number of mixtures and ensuring accuracy as the variation in the speech to be recognized is larger. Industrial potential
  • the standard model creation device can be used as a device for recognizing an object such as a voice, a character, or an image using a probabilistic model or the like. For example, various processes are executed by voice.
  • Television receiver ⁇ Car navigation system, translator for translating voices into other languages, games operated by voice Device, search device to search for information using search keywords by voice, person detection '' Fingerprint authentication ⁇ Use as an authentication device to perform face authentication, iris authentication, etc. be able to.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解、確率モデルによるデータマイニングなどに用いる高精度な標準モデルを提供する標準モデル作成装置であって、1以上の参照モデルを準備する参照モデル準備部(102)と、参照モデル準備部(102)が準備した参照モデル(121)を記憶する参照モデル記憶部(103)と、参照モデル記憶部(103)が記憶している1以上の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデル(122)を作成する標準モデル作成部(104)とを備える。

Description

明 細 書
標準モデル作成装置及び標準モデル作成方法 · 技術分野
本発明は、 隠れマルコフモデル、 ベイズ理論、 線形判別分析などの確 率モデルによる音声認識、 文字認識、 画像認識などのパターン認識、 ベ イジアンネッ トなどの確率モデルによる意図理解 (意図の認識)、確率モ デルによるデ一タマイニング (データ特性の認識)、確率モデルによる人 物検出、 指紋認証、 顔認証、 虹彩認証 (対象を認識して特定の対象かど うかを判断する)、 株価予測、 天気予測などの予測 (状況を認識して判断 する)、 複数の話者音声の合成、 複数の顔画像などの合成 (合成したモデ ルを人が認識して楽しむ) などに用いられる標準モデルの作成装置及び その方法に関する。 背景技術
近年、 インターネッ トなどの普及により、 ネッ トワークの大容量化、 通信コス トの低価格化が進んでいる。 このため、 ネッ トワークを利用す ることで、 多くの認識用モデル (参照モデル) を収集することが可能と なってきている。 例えば、 音声認識において、 様々な研究機関で配布し ている多くの音声認識用モデル (子供用モデル、 成人用モデル、 高齢者 用モデル、 自動車内用モデル、 携帯電話用モデルなど) をインターネッ トによりダウンロードすることが可能となってきている。 また、 ネッ ト ワークによる機器連携により、 カーナビゲーシヨンシステムなどで利用 する音声認識用モデルをテレビやパソコンなどにダウンロー ドできるよ うになつてきている。 また、 意図理解において、 各地の様々な人の経験 を学習した認識用モデルを、 ネッ トワークを通して収集することが可能 となってきている。
また、 認識技術の発展により、 認識用モデルは、 パソコン、 テレビの リモコン、携帯電話、カーナビゲーショ ンシステムなど、 C P Uパワー、 メモ リ量などの仕様の異なる幅広い機器に利用されるようになってきて いる。 また、 セキュリティーなどの認識精度が要求されるアプリケーシ ヨンや、 テレビのリモコ ンでの操作のように認識結果が出力されるまで の時間の速さが要求されるアプリケーションなど、 要求仕様の異なる幅 広いアプリケーションに利用されるようになってきている。
また、 認識技術は、 認識対象の異なる多くの環境で利用されるように なってきている。 例えば、 音声認識において、 子供の声、 成人の声、 高 齢者の声を認識したり、 自動車内での声、 携帯電話での声を認識するな ど、 多くの環境で利用される。
これらの社会環境の変化を鑑みると、 多くの認識用モデル (参照モデ ル) を有効に活用することで、 機器やアプリケーションの仕様、 利用環 境に適した精度の高い認識用モデル (標準モデル) を短時間に作成して 利用者に提供することが望まれると考えられる。
音声認識などのパターン認識の分野では、 認識用の標準モデルと して 確率モデルを用いる方法が近年注目されており、 特に、 隠れマルコフモ デル (以下 H M Mと呼ぶ) や混合ガウス分布モデル (以下 G M Mと呼ぶ) が広く用いられている。 また、 意図理解において、 意図、 知識、 嗜好な どを表す標準モデルと して確率モデルを用いる方法が近年注目されてお リ、 特に、 ベイジアンネッ トなどが広く用いられている。 また、 データ マイニングの分野で、 データを分類するために各カテゴリの代表モデル と して確率モデルを用いる方法が注目されており、 G M Mなどが広く用 いられている。 また、 音声認証、 指紋認証、 顔認証、 虹彩認証などの認 証の分野で、 認証用の標準モデルと して確率モデルを用いる方法が注目 されており、 G M Mなどが用いられている。 H M Mにより表現される標 準モデルの学習アルゴリズムと してバウム ■ ウエルチ ( B a u m— W e
I c h ) の再推定の方法が広く用いられている (例えば、 今井聖著、 " 音声認識"、 P P .1 5 0 - 1 5 2、 共立出版株式会社、 1 9 9 5年 "! 1 月 2 5日発行参照)。 また、 G M Mにより表現される標準モデルの学習ァ ノレゴリ スムと して E M ( E x p e c t a t i o n — M a x i m i z a t i o n ) アルゴリズムが広く用いられている (例えば、 古井貞▲ひろ▼ 著、 "音声情報処理 "、 P P . 1 0 0 — 1 0 4、 森北出版株式会社、 1 9
9 8年 6月 3 0 曰発行参照)。 E Mアルゴリズムでは、 標準モデル (式 1 )
Mf
2J ωί、》ί)ί、Χ f(m),び/ (m)ノ
m-\
(こ こで、
(式 2 ) f(x; fim))af 2 (m)) ( 二 1,2,.."M,) はガウス分布を表し、
(式 3 ) 二、 (1) , (2),…, X(J) ) ^ Λ は J (≥ 1 ) 次元の入力データを表す) における統計量である混合重 み係数
(式 4 )
^f(m) (w = l)2,..., /) 、 J (≥ 1 ) 次元の平均値
(式 5 )
^f(m) = り,i"/(w,2),…, /(«!,·/)) S Λ
及び J (≥ 1 ) 次元の分散値 (共分散行列の J個の対角成分) (式 6 ) び/ W = (び /( ,び/ (m,2),'",び/ (OT, )
(m = l,2,...,Mf,j=l,2^J) を、
N個の学習データ
(式 7 )
Figure imgf000006_0001
を用いて、 学習データに対する尤度
(式 8 )
Figure imgf000006_0002
を最大化もしくは極大化するように、
(式 9 )
Figure imgf000007_0001
(/« = 1,2,...,M,)
(式 1 o )
Figure imgf000007_0002
(w = l,25..., ?7 = l,2,...5J)
(式 1 1 )
Figure imgf000007_0003
(w = l,2.., /,y = l,2..,^)
(ここで、
(式 1 2 )
(»ϊ = 1,2,.·,,Μ,)
Figure imgf000007_0004
である) を利用 して 1 以上繰り返して計算して学習を行う。 また、 ベ ィズ推定法 (例えば、 繁桝算男著、 "ベイズ統計入門"、 ρ ρ .4 2— 5 3、 東京大学出版会、 1 9 8 5年 4月 3 0 日発行参照) などの方法も提案さ れている。 バウム . ウエルチの再推定の方法、 E Mアルゴリズム、 べィ ズ推定法のいずれの学習アルゴリズムも、 学習データに対する確率 (尤 度) を最大化も しくは極大化するように標準モデルのパラメータ (統計 量) を計算して標準モデルを作成する。 これらの学習方法では、確率 (尤 度) を最大化も しくは極大化するという数学的な最適化が実現されてい る。
上記の学習方法を音声認識の標準モデルの作成に用いた場合、 多様な 話者や雑音などの音響的特徴量の変動に対応するために多数の音声デー タで標準モデルを学習することが望ましい。 また、 意図理解に用いた場 合、 多様な話者や状況などの変動に対応するために多数のデータで標準 モデルを学習することが望ましい。 また、 虹彩認証に用いた場合、 太陽 光、 カメラ位置 , 回転などの変動に対応するために多数の虹彩画像デ一 タで標準モデルを学習することが望ましい。 しかしながら、 このような 多量のデータを取り扱う場合、 学習に膨大な時間がかかるため、 利用者 に標準モデルを短時間に提供できない。 また、 多量のデータを蓄積する ためのコス トが膨大となる。 また、 ネッ トワークを利用してデータを収 集した場合、 通信コス トが膨大となる。
一方、 複数のモデル (以下、 標準モデルの作成のために参照用と'して 準備されるモデルを 「参照モデル」 と呼ぶ。) を合成することで標準モデ ルを作成する方法が提案されている。 参照モデルは、 多くの学習データ を確率分布の母数(平均、分散など)で表現した確率分布モデルであり、 多くの学習データの特徴を少数のパラメータ (母数) で集約したもので ある。以下に示す従来技術では、モデルはガウス分布で表現されている。 第 1 の従来方法では、 参照モデルは G M Mで表現されており、 複数の 参照モデルの G M Mを重み付きで合成することで標準モデルを作成して いる (例えば、 特開平 4一 1 2 5 5 9 9号公報に開示された技術)。 また、 第 2の従来方法では、 第 1 の従来方式に加えて、 学習データに 対する確率 (尤度) を最大化あるいは極大化して線形結合された混合重 みを学習することで標準モデルを作成している (例えば、 特開平 1 0— 2 6 8 8 9 3号公報に開示された技術)。
また、 第 3の従来方法では、 標準モデルの平均値を参照モデルの平均 値の線形結合で表現し、 入力データに対する確率 (尤度) を最大化ある いは極大化して線形結合係数を学習することで標準モデルを作成してい る。 こ こでは学習データと して特定話者の音声データを用いており標準 モデルを音声認識用の話者適応モデルと して用いている (例えば、 M. J . F . G a l e s 、 " C l u s t e r A d a p t i v e r a i n i n g F o r S p e e c h R e c o g n i t i o n "、 , 9 9 8年、 I C S L P 9 8予稿集、 p p . 1 7 8 3 — 1 7 8 6 )。
また、 第 4の従来方法では、 参照モデルは単一ガウス分布で表現され ており、 複数の参照モデルのガウス分布を合成したのちに、 クラスタ リ ングにより同一クラスに属するガウス分布を統合することで標準モデル を作成している (例えば、 特開平 9 — 8 1 1 7 8号公報に開示された技 術)0
また、 第 5の従来方法では、 複数の参照モデルは同数の混合数の混合 ガウス分布で表現され、 各ガウス分布には 1 対 1 に対応した通し番号が 付与されている。 標準モデルは、 同一の通し番号をもつガウス分布を合 成することにより作成される。 合成する複数の参照モデルは利用者に音 響的に近い話者で作成されたモデルであり、 作成させる標準モデルは話 者適応モデルである (例えば、 芳澤、 外 6名、 "十分統計量と話者距離を 用いた音韻モデルの教師なし学習法"、 2 0 0 2年 3月 1 日、 電子情報通 信学会、 V o に J 8 5 - D - I Ι 、 Ν ο · 3、 p p . 3 8 2— 3 8 9 )。
しかしながら、 第 1 の従来方法では、 合成する参照モデル数の増加と ともに標準モデルの混合数が増加して、 標準モデルのための記憶容量、 認識処理量が膨大となり実用的でない。 また、 仕様に応じて標準モデル の混合数を制御することができない。 この課題は、 合成する参照モデル の数の増加に伴い顕著になってく ると考えられる。
第 2の従来方法では、 合成する参照モデル数の増加とともに標準モデ ルの混合数が増加して、 標準モデルのための記憶容量、 認識処理量が膨 大となり実用的でない。 また、 仕様に応じて標準モデルの混合数を制御 することができない。 また、 標準モデルは、 参照モデルの単純な混合和 であり学習するパラメータが混合重みに限定されているため、 高精度の 標準モデルが作成できない。 また、 標準モデルの作成において、 多くの 学習データを用いて学習を行っているため学習時間がかかる。 これらの 課題は、 合成する参照モデルの数の増加に伴い顕著になってく ると考え られる。
第 3の従来方法では、 学習するパラメータが参照モデルの平均値の線 形結合係数に限定されているため高精度の標準モデルが作成できない。 また、 標準モデルの作成において、 多くの学習データを用いて学習を行 つているため学習時間がかかる。
第 4の従来方法では、 クラスタ リ ングをヒューリスティ ックに行うた め高精度の標準モデルを作成することが困難である。 また、 参照モデル は単一のガウス分布であるため精度が低く、 それらを統合した標準モデ ルの精度は低い。 認識精度に関する課題は、 合成する参照モデルの数の 増加に伴い顕著になってく ると考えられる。
第 5の従来方法では、 標準モデルは、 同一の通し番号をもつガウス分 布を合成することにより作成されるが、 最適な標準モデルを作成するた めには、 一般的には合成するガウ.ス分布は 1 対 1 に対応するとは限らな いため、 認識精度が低下する。 また、 複数の参照モデルが異なる混合数 をもつ場合に標準モデルを作成することができない。また、一般的には、 参照モデルにおけるガウス分布に通し番号が付与されておらず、 この場 合に標準モデルを作成することができない。 また、 仕様に応じて標準モ デルの混合数を制御することができない。 発明の開示
そこで、 本発明は、 このような問題点に鑑みてなされたものであり、 隠れマルコフモデル、 ベイズ理論、 線形判別分析などの確率モデルによ る音声認識、 文字認識、 画像認識などのパターン認識、 ベイジアンネッ トなどの確率モデルによる意図理解 (意図の認識)、確率モデルによるデ 一タマイニング(データ特性の認識)、株価予測、天気予測などの予測(状 況を認識して判断する) などに用いられる高精度な標準モデルを作成す る標準モデル作成装置等を提供することを目的とする。
また、 本発明は、 学習のためのデータや教師データを必要とすること なく 、 簡易に標準モデルを作成することが可能な標準モデル作成装置等 を提供することをも目的とする。
さらに、 本発明は、 標準モデルを利用する認識の対象にふさわしい標 準モデルを作成したり、 標準モデルを用いて認識処理を実行する装置の 仕様や環境に適した標準モデルを作成することが可能な汎用性及び柔軟 性に優れた標準モデル作成装置等を提供することをも目的とする。 本発明で用いる 「認識」 とは、 音声認識などの狭義の意味での認識だ けではなく、パターンマッチング、識別、認証、 ペイズ推定や予測など、 確率で表現された標準モデルを利用するもの全般を意味する。
上記目的を達成するために、 本発明に係る標準モデル作成装置は、 事 象の集合と事象または事象間の遷移の出力確率とによって定義される認 識用のモデルである標準モデルを作成する装置であって、 特定の対象を 認識するために予め作成されたモデルである 1 以上の参照モデルを記憶 する参照モデル記憶手段と、 前記参照モデル記憶手段に記憶された 1 以 上の参照モデルに対する標準モデルの確率または尤度を最大化または極 大化するように当該標準モデルの統計量を計算することによって標準モ デルを作成する標準モデル作成手段とを備えることを特徴とする。
たとえば、 音声認識用の標準モデル作成装置と して、 音声の特徴を示 す周波数のパラメータを出力確率で表現する確率モデルを用いて、 特定 の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装 置であって、 一定の属性を有する音声の特徴を示す確率モデルである 1 以上の参照モデルを記憶する参照モデル記憶手段と、 前記参照モデル記 憶手段に格納された 1 以上の参照モデルの統計量を用いて前記標準モデ ルの統計量を計算することによって標準モデルを作成する標準モデル作 成手段とを備え、 前記標準モデル作成手段は、 作成する標準モデルの構 造を決定する標準モデル構造決定部と、 構造が決定された標準モデルを 特定する統計量の初期値を決定する初期標準モデル作成部と、 初期値が 決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化 又は極大化するように前記標準モデルの統計量を推定して計算する統計 量推定部とを有することを特徴とする。
これによつて、 1 以上の参照モデルに対する標準モデルの確率又は尤 ' 度を最大化又は極大化するように標準モデルの統計量が計算され、 標準 モデルが作成されるので、 音声データ等の学習データや教師データを必 要とすることなく簡易に標準モデルが作成されるとともに、 既に作成さ れた複数の参照モデルを総合的に勘案した高精度な標準モデルが作成さ れる。
ここで、 前記標準モデル作成装置は、 さらに、 外部から参照モデルを 取得して前記参照モデル記憶手 ¾に格納すること、 及び、 参照モデルを 作成して前記参照モデル記憶手段に格納することの少なく とも一方を行 う参照モデル準備手段を備えてもよい。 例えば、 音声認識用に適用した 場合であれば、 音声の特徴を示す周波数のパラメータを出力確率で表現 する確率モデルを用いて、 特定の属性を有する音声の特徴を示す音声認 識用の標準モデルを作成する装置であって、 一定の属性を有する音声の 特徴を示す確率モデルである 1 以上の参照モデルを記憶するための参照 モデル記憶手段と、 外部から参照モデルを取得して前記参照モデル記憶 手段に格納すること、 及び、 新たな参照モデルを作成して前記参照モデ ル記憶手段に格納することの少なく とも一方を行う参照モデル準備手段 と、 所定の構造をもつ当該標準モデルの統計量の初期値を準備し、 前記 参照モデル記憶手段に格納された 1 以上の参照モデルに対する標準モデ ルの確率又は尤度を最大化又は極大化するように、 前記参照モデルの統 計量を用いて当該標準モデルの統計量を計算することによって標準モデ ルを作成する標準モデル作成手段とを備えることを特徴とする。
これによつて、 標準モデル作成装置の外部から新たな参照モデルを取 リ込み、 取り込んだ参照モデルに基づいた標準モデルの作成が可能とな るので、 様々な認識対象に対応した汎用性の高い標準モデル作成装置が 実現される。
また、 前記標準モデル作成装置は、 さらに、 認識の対象に関する情報 である利用情報を作成する利用情報作成手段と、 作成された前記利用情 報に基づいて、 前記参照モデル記憶手段に記憶されている参照モデルの 中から 1 以上の参照モデルを選択する参照モデル選択手段とを備え、 前 記標準モデル作成手段は、 前記参照モデル選択手段が選択した参照モデ ルに対する前記標準モデルの確率又は尤度を最大化又は極大化するよう に前記標準モデルの統計量を計算してもよい。
これによつて、 利用者の特徴、 利用者の年齢、 性別、 利用環境などの 利用情報に基づいて、 準備された複数の参照モデルの中から認識対象に 適した参照モデルだけが選択され、 それら参照モデルを統合した標準モ デルが作成されるので、 認識対象によリ特化した精度の高い標準モデル が作成される。
ここで、 前記標準モデル作成装置は、 さらに、 前記利用情報と選択さ れた参照モデルに関する情報との類似度を算出して、 前記類似度が所定 のしきい値以上であるか否かを判定して判定信号を作成する類似度判定 手段を備えてもよい。
これによつて、 利用情報にふさわしい (近い) 参照モデルが参照モデ ル記憶手段に存在しない場合に、 参照モデルの準備の要求を行うことが できる。
また、 前記標準モデル作成装置には、 通信路を介して端末装置が接続 され、 前記標準モデル作成装置は、 さらに、 認識の対象に関する情報で ある利用情報を前記端末装置から受信する利用情報受信手段と、 受信さ れた前記利用情報に基づいて、 前記参照モデル記憶手段に記憶されてい る参照モデルの中から 1 以上の参照モデルを選択する参照モデル選択手 段とを備え、 前記標準モデル作成手段は、 前記参照モデル選択手段が選 択した参照モデルに対する前記標準モデルの確率又は尤度を最大化又は 極大化するように前記標準モデルの統計量を計算してもよい。
これによつて、 通信路を介して送信されてきた利用情報に基づいて標 準モデルが作成されるので、 遠隔制御による標準モデルの生成が可能に なるとともに、 通信システムを基盤とする認識システムの構築が実現さ れる。
また、 前記標準モデル作成装置は、 さらに、 作成する標準モデルの仕 様に関する情報である仕様情報を作成する仕様情報作成手段を備え、 前 記標準モデル作成手段は、 前記仕様情報作成手段が作成した仕様情報に 基づいて、 前記参照モデルに対する前記標準モデルの確率又は尤度を最 大化又は極大化するように前記標準モデルの統計量を計算してもよい。
これによつて、標準モデルを使用する装置の C P Uパワー、記憶容量、 要求される認識精度、 要求される認識処理時間などの仕様情報に基づい て標準モデルが作成されるので、 特定の仕様条件を満たす標準モデルの 生成が可能となリ、 計算エンジン等の認識処理に必要なリソース環境に 適した標準モデルの生成が実現される。
ここで、 前記仕様情報は、 例えば、 標準モデルを使用するアプリケー シヨンプログラムの種類に対応づけられた仕様を示すような情報であつ てもよい。 そして、 前記標準モデル作成装置は、 さらに、 標準モデルを 使用するアプリケーションプログラムと標準モデルの仕様との対応を示 すアプリケーショ ン仕様対応データベースを前記仕様情報と して保持す る仕様情報保持手段を備え、 前記標準モデル作成手段は、 前記仕様情報 保持手段に保持されたアプリケーション仕様対応データベースから、 起 動されるアプリケーションプログラムに対応する仕様を読み出し、 読み 出した仕様に基づいて、 前記参照モデルに対する前記標準モデルの確率 又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算 してもよい。
これによつて、 各アプリケ一ショ ンごとに対応づけられた仕様に沿つ て標準モデルが作成されるので、 アプリケーショ ンごとに最適な標準モ デルが作成され、 標準モデルが使用される認識システム等における認識 精度が向上される。
また、 前記標準モデル作成装置には、 通信路を介して端末装置が接続 され、 前記標準モデル作成装置は、 さらに、 作成する標準モデルの仕様 に関する情報である仕様情報を前記端末装置から受信する仕様情報受信 手段を備え、 前記標準モデル作成手段は、 前記仕様情報受信手段が受信 した仕様情報に基づいて、 前記參照モデルに対する前記標準モデルの確 率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計 算してもよい。
これによつて、 通信路を介して送信されてきた仕様情報に基づいて標 準モデルが作成されるので、 遠隔制御による標準モデルの生成が可能に なるとともに、 通信システムを基盤とする認識システムの構築が実現さ れる。
たとえば、 前記参照モデル及び前記標準モデルは、 1 以上のガウス分 布を用いて表現され、 前記標準モデル作成手段は、 前記仕様情報に基づ いて、 前記標準モデルの混合分布数 (ガウス分布の数) を決定してもよ い。
これによつて、 作成される標準モデルに含まれるガウス分布の混合分 布数が動的に決定されることとなリ、 認識処理が実行される環境や要求 仕様等に応じて標準モデルの構造を制御することが可能となる。 例と し て、 標準モデルを使用する認識装置の C P Uパワーが小さい場合、 記憶 容量が小さい場合、 要求される認識処理時間が短い場合などは標準モデ ルの混合分布数を少なく設定して仕様に合わせることができ、 一方、 要 求される認識精度が高い場合などは混合分布数を多く設定して認識精度 を高くすることができる。
なお、 上記利用情報あるいは仕様情報を用いて標準モデルを作成する 場合において、参照モデル準備手段は必ずしも必要ではない。たとえば、 利用者の要求に基づいて、 あるいは、 利用者の要求とは無関係に、 予め 参照モデルを標準モデル作成装置内に記憶させた状態で標準モデル作成 装置を出荷し、 利用情報や仕様情報を用いて標準モデルを作成すること が可能だからである。
また、 前記参照モデル及び前記標準モデルは、 1 以上のガウス分布を 用いて表現され、 前記参照モデル記憶手段は、 少なく とも 1 対の参照モ デルの混合分布数 (ガウス分布の数) が異なる参照モデルを記憶し、 前 記標準モデル作成手段は、少なく とも 1 対の参照モデルの混合分布数(ガ ウス分布の数) が異なる参照モデルに対する前記標準モデルの確率又は 尤度を最大化又は極大化するように前記標準モデルの統計量を計算して もよい。
これによつて、 混合分布数が異なる参照モデルに基づいて標準モデル が作成されるので、 予め準備された多種多様な構造の参照モデルに基づ く標準モデルの作成が可能となリ、 よ 認識対象に適した精度の高い標 準モデルの作成が実現される。
また、 前記標準モデル作成装置は、 さらに、 前記標準モデル作成手段 が作成した標準モデルを記憶する標準モデル記憶手段を備えてもよい。
これによつて、 作成された標準モデルを一時的にバッファ リングして おき、 送信要求に対してすぐに出力したリ、 他の装置に提供するデータ サーバと しての役割を果たしたりする «—とが可能となる
また、 前記標準モデル作成装置には 通信路を介して 末装置が接続 され、 前記標準モデル作成装置は、 さらに、 前記標準モデル作成手段が 作成した標準モデルを前記端末装置に送信する標準モデル送信手段を備 えてもよい。
これによつて、 作成された標準モデルは空間的に離れた場所に置かれ た外部装置に送信されるので、 本標準モデル作成装置を標準モデル作成 エンジンとして独立させたり、 標準モデル作成装置を通信システムにお けるサーバと して機能させたりすることが可能になる。
また、 前記標準モデル作成装置には、 通信路を介して端末装置が接続 され、 前記標準モデル作成装置は、 さらに、 前記端末装置から送信され る参照モデルを受信する参照モデル受信手段を備え、 前記標準モデル作 成手段は、 少なく とも前記参照モデル受信手段が受信した参照モデルに 対する前記標準モデルの確率又は尤度を最大化又は極大化するよ うに前 記標準モデルの統計量を計算してもよい。
これによつて、 端末装置が保持した利用環境にふさわしい参照モデル を、 通信路を介して送信して、 送信した参照モデルを用いて標準モデル を作成できるため、 よ り認識対象に適した精度の高い標準モデルの作成 が実現される。 例と して、 利用者 Aが環境 Aで利用していた参照モデル Aが端末装置に保持されており利用者 Aは環境 Bで利用 したい場合、 参 照モデル Aを利用 して標準モデルを作成することによ り 、 利用者 Aの特 徴を反映した精度の高い標準モデルを作成することができる。
また、 前記参照モデル準備手段は、 さらに、 前記参照モデル記憶手段 が記憶する参照モデルの更新及び追加の少なく とも一方を行ってもよし、。 たとえば、 前記標準モデル作成装置には、 通信路を介して端末装置が接 続され、 前記標準モデル作成装置は、 さ らに、 前記端末装置から送信さ れる参照モデルを受信する参照モデル受信手段を備え、 前記参照モデル 準備手段は、 前記参照モデル受信手段が受信した参照モデルを用いて前 記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なく と も一方を行ってもよい。
これによつて、準備される参照モデルの追加、更新等が行われるので、 様々な認識対象用のモデルを参照モデルと して追加したり、 よ り精度の 高い参照モデルに置き換えたりすることが可能となり、 更新した参照モ デルによる標準モデルの再生成や、 生成された標準モデルを参照モデル と して再び標準モデルを作成するという フィ一 ドバックによる学習等が 可能となる。
また、 前記標準モデル作成手段は、 作成する標準モデルの構造を決定 する標準モデル構造決定部と、 構造が決定された前記標準モデルを特定 する統計量の初期値を決定する初期標準モデル作成部と、 前記参照モデ ルに対する前記標準モデルの確率又は尤度を最大化又は極大化するよう に前記標準モデルの統計量を推定して計算する統計量推定部とを有する ように構成してもよい。 このとき、 前記初期標準モデル作成部は、 前記 統計量推定部が標準モデルの統計量を計算するために用いる、 1 以上の 前記參照モデルを用いて前記標準モデルを特定する統計量の初期値を決 定してもよい。 たとえば、 前記初期標準モデル作成部は、 標準モデルの 種類を識別するクラス I Dに基づいて、 前記初期値を決定してもよい。 具体的には、 前記初期標準モデル作成部は、 前記クラス I Dと前記初期 値と前記参照モデルとの対応を示す対応表を保持し、 前記対応表に従つ て、 前記初期値を決定してもよい。
これによつて、 標準モデルが使用される認識の対象の種類ごとにクラ ス I Dを付与しておく ことで、 最終的に必要とされる標準モデルと共通 の性質をもつ初期標準モデルを使用することができるので、 精度の高い 標準モデルが作成される。
以上のように、 本発明により、 隠れマルコフモデル、 ベイズ理論、 線 形判別分析などの確率モデルによる音声認識、 文字認識、 画像認識など のパターン認識、ベイジアンネッ トなどの確率モデルによる意図理解(意 図の認識)、 確率モデルによるデータマイニング (データ特性の認識)、 確率モデルによる人物検出、 指紋認証、 顔認証、 虹彩認証 (対象を認識 して特定の対象かどうかを判断する)、株価予測、天気予測などの予測(状 況を認識して判断する) などに用いる高精度な標準モデルが提供され、 その実用的価値は極めて高い。
なお、 本発明は、 このような標準モデル作成装置と して実現すること ができるだけでなく、 標準モデル作成装置が備える特徴的な構成要素を ステップとする標準モデル作成方法と して実現したり、 それらのステツ プをコンピュータに実行させるプログラムと して実現したりすることが できる。 そして、 そのプログラムを C D— R O M等の記録媒体やインタ 一ネッ ト等の伝送媒体を介して配信することができるのは言うまでもな い。 図面の簡単な説明
図 1 は、 本発明の第 1 の実施の形態における標準モデル作成装置に係 るサーバの全体構成を示すブロック図である。
図 2は、 同サーバの動作手順を示すフローチヤ一トである。
図 3は、 図 1 における参照モデル記憶部に記憶されている参照モデル の例を示す図である。
図 4は、 図 2におけるステップ S 1 0 1 (標準モデルの作成) の詳細 な手順を示すフローチャー トである。
図 5は、 図 1 における第 1 近似部 1 0 4 eによる近似計算を説明する 図である。
図 6は、 参照モデルを選択する際の画面表示例を示す図である。 図 7 ( a ) は、 作成する標準モデルの構造 (混合分布数) を指定する 際の画面表示例を示し、 図 7 ( b ) は、 仕様情報を選択する際の画面表 示例を示す図である。
図 8は、 標準モデルを作成しているときの進渉状況を示す画面表示例 を示す図である。
図 9は、 本発明の第 2の実施の形態における標準モデル作成装置に係 る S T Bの全体構成を示すブロック図である。
図 1 0は、 同 S T Bの動作手順を示すフローチャー トである。
図 1 1 は、 図 1 0における参照モデル記憶音 !5に記憶されている参照モ デルの例を示す図である。 図 1 2は、 図 1 0における第 2近似部による近似計算を説明する図で
¾ ' ϊ
図 1 3は、 本発明の第 3の実施の形態における標準モデル作成装置に 係る P D Aの全体構成を示すブロック図である。
図 1 4は、 同 P D Aの動作手順を示すフローチャー トである。
図 1 5は、 図 1 3における参照モデル記憶部に記憶されている参照モ デルの例を示す図である。
図 1 6は、 同 P D Aの選択画面の一例を示す。
図 1 7は、 図 1 3における統計量推定部による統計量の推定手順を示 す概念図である。
図 1 8は、 図 1 3における第 3近似部による近似計算を説明する図で あ 0
図 1 9は、 本発明の第 4の実施の形態における標準モデル作成装置に 係るサーバの全体構成を示すブロック図である。
図 2 0は、 同サーバの動作手順を示すフローチャー トである。
図 2 1 は、 同サーバの動作手順を説明するための参照モデル及び標準 モデルの一例を示す図である。
図 2 2は、 利用情報と しての個人情報を入力する際の画面表示例を示 す図である。
図 2 3は、 本発明の第 5の実施の形態における標準モデル作成装置に 係るサーバの全体構成を示すプロック図である。
図 2 4は、 同サーバの動作手順を示すフローチヤ一トである。
図 2 5は、 同サーバの動作手順を説明するための参照モデル及び標準 モデルの一例を示す図である。
図 2 6は、 本発明の第 6の実施の形態における標準モデル作成装置に 係るサーバの全体構成を示すブロック図である。 図 2 7は、 同サーバの動作手順を示すフローチャー トである。
図 2 8は、 同サーバの動作手順を説明するための参照モデル及び標準 モデルの一例を示す図である。
図 2 9は、 本発明の第 7の実施の形態における標準モデル作成装置に 係るサーバの全体構成を示すブロック図である。
図 3 0は、 同サーバの動作手順を示すフローチヤ一トである。
図 3 1 は、 同サーバの動作手順を説明するための参照モデル及び標準 モデルの一例を示す図である。
図 3 2は、 本発明の第 8の実施の形態における標準モデル作成装置の 全体構成を示すブロック図である。
図 3 3は、 携帯電話 9 0 1 の動作手順を示すフローチヤ一トである。 図 3 4は、 参照モデル記憶部に格納されている参照モデルの一例を示 す図である。
図 3 5は、 新たたに参照モデル記憶部に格納された参照モデルの一例 を示す図である。
図 3 6は、 利用情報を作成するときの画面表示例を示す図である。 図 3 7は、 参照モデルを準備す ときの画面表示例を示す図である。 図 3 8は、 第 3近似部を用いて作成した標準モデルを用いた認識実験 の結果を示すグラフである。
図 3 9は、 第 3の実施の形態における第 2近似部により作成された標 準モデルによる認識実験の結果を示すグラフである。
図 4 0は、 本発明の第 9の実施の形態における標準モデル作成装置の 全体構成を示すプロック図である。
図 4 1 は、 アプリ ' 仕様情報対応データベースのデータ例を示す図で ある。
図 4 2は、 P D A 1 0 0 1 の動作手順を示すフローチャー トである。 図 4 3は、 参照モデル記憶部に格納されている参照モデルの一例を示 す図である。
図 44は、 初期標準モデル作成部によるクラスタ リングによる初期値 の決定方法を示すフローチヤ一トである。
図 4 5は、 図 4 4におけるステップ S 1 0 0 4の具体例を示す図であ る。
図 4 6は、 図 4 4におけるステップ S 1 0 0 5の具体例を示す図であ る。
図 4 7は、 図 4 4におけるステップ S 1 0 0 6の具体例を示す図であ る。
図 4 8は、 図 44におけるステップ S 1 0 0 8の具体例を示す図であ る。
図 4 9は、 本発明の第 1 0の実施の形態における標準モデル作成装置 に係るサーバの全体構成を示すブロック図である。
図 5 0は、 同サーバの動作手順を示すフローチャー トである。
図 5 1 は、 本発明に係る標準モデル作成装置を具体的に適用したシス 亍ム例を示す図である。
図 5 2は、 クラス I D ■ 初期標準モデル ■ 参照モデル対応表の例を示 す図である。
図 5 3は、 図 5 2のクラス I D ■ 初期標準モデル ' 参照モデル対応表 における参照モデル 8 A A〜 A Zの例を示す図である。
図 54は、 図 5 2のクラス I D ■ 初期標準モデル ' 参照モデル対応表 における参照モデル 6 4 Z A ~ Z Zの例を示す図である。
図 5 5は、 図 5 2のクラス I D ' 初期標準モデル ■ 参照モデル対応表 における初期標準モデル 8 A〜 6 4 Zの例を示す図である。
図 5 6は、 クラス I D ■ 初期標準モデル ' 参照モデル対応表の作成方 法を示すフローチヤ一トである。
図 5 7は、 図 5 6におけるステップ S I 1 0 0の具体例を示す図であ る。
図 5 8は、 図 5 6におけるステップ S I 1 0 2の具体例を示す図であ る。
図 5 9は、 図 5 6におけるステップ S 1 1 0 3の具体例を示す図であ る。
図 6 0は、 図 5 6におけるステップ S 1 1 0 4の具体例を示す図であ 図 6 1 は 、 端末がサーバと通信することによつてクラス I D ■ 初期標 準モデル • 参照モデル対応表を完成させる手順を示す図である。
図 6 2は 、 クラス I D ■ 初期標準モデル - 参照モデル対応表を用いた 初期標準モデルの決定方法を示すフローチヤ —— 卜である。
図 6 3は 、 図 6 2におけるステップ S 1 1 0 5の具体例を示す図であ る。
図 6 4は、 第 3近似部を用いて作成した標準モデルを用いた認識実験 の結果を示すグラフである。
図 6 5 ( a ) 〜 ( 』' ) は、 音声認識の対象についての属性と標準モデ ルの構造 (ガウス分布の混合数) との関係例を示す図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態について図面を参照しながら詳しく説明す る。 なお、 図中同一又は相当部分には同一符号を付し、 その説明は繰り 返さない。
(第 1 の実施の形態)
図 1 は、 本発明の第 1 の実施の形態における標準モデル作成装置の全 体構成を示すブロック図である。 ここでは、 本発明に係る標準モデル作 成装置がコンピュータシステムにおけるサーバ 1 0 1 に組み込まれた例 が示されている。 本実施の形態では特定の属性を有する音声の特徴を示 す音声認識用の標準モデルを作成する場合を例にして説明する。
サーバ 1 0 1 は、 通信システムにおけるコンピュータ装置等であり、 事象の集合と事象又は事象間の遷移の出力確率で表現された隠れマルコ フモデルによって定義される音声認識用の標準モデルを作成する標準モ デル作成装置と して、読み込み部 1 1 1 と、参照モデル準備部 1 0 2と、 参照モデル記憶部 1 0 3 と、 標準モデル作成部 1 0 4と、 書き込み部 1 1 2とを備える。
読み込み部 1 1 1 は、 C D— R O Mなどのス トレージデバイスに書き 込まれた子供用参照モデル、 成人用参照モデル、 高齢者用参照モデルを 読み込む。 参照モデル準備部 1 0 2は、 読み込まれた参照モデル 1 2 1 を参照モデル記憶部 1 0 3へ送信する。 参照モデル記憶部 1 0 3は、 3 個の参照モデル 1 2 1 を記憶する。 ここで、 参照モデルとは、 標準モデ ルを作成するに際して参照される予め作成されたモデル (こ こでは、 音 声認識用のモデル、 つまり、 一定の属性を有する音声の特徴を示す確率 モデル) である。
標準モデル作成部 1 0 4は、 参照モデル記憶部 1 0 3が記憶した 3個 ( N g = 3 ) の参照モデル 1 2 1 に対する確率又は尤度を最大化又は極 大化するように標準モデル 1 2 2を作成する処理部であリ、 標準モデル の構造 (ガウス分布の混合数など) を決定する標準モデル構造決定部 1 0 4 a と、 標準モデルを計算するための統計量の初期値を決定すること で初期標準モデルを作成する初期標準モデル作成部 1 0 4 と、 決定さ れた初期標準モデルを記憶する統計量記憶部 1 0 4 c と、 統計量記憶部 1 0 4 c に記憶された初期標準モデルに対して、 第 1 近似部 1 0 4 e に よる近似計算等を用いることにより、 参照モデル記憶部 1 0 3に記憶さ れている 3個 ( N g= 3 ) の参照モデル 1 2 1 に対する確率又は尤度を 最大化又は極大化するような統計量を算出する (最終的な標準モデルを 生成する) 統計量推定部 1 0 4 d とからなる。 なお、 統計量とは、 標準 モデルを特定するパラメータであり、 ここでは、混合重み係数、平均値、 分散値である。
書き込み部 1 1 2は、 標準モデル作成部 1 0 4が作成した標準モデル 1 2 2を C D— R O Mなどのス トレ一ジデバイスに書き込む。
次に、以上のように構成されたサーバ 1 0 1 の動作について説明する。 図 2は、 サーバ 1 0 1 の動作手順を示すフローチャー トである。
まず、 標準モデルの作成に先立ち、 その基準となる参照モデルを準備 する (ステップ S 1 0 0 )。 つまり、 読み込み部 1 1 1 は、 C D— R O M などのス トレージデバイスに書き込まれた子供用参照モデル、 成人用参 照モデル、高齢者用参照モデルを読み込み、参照モデル準備部 1 0 2は、 読み込まれた参照モデル 1 2 1 を参照モデル記憶部 1 0 3へ送信し、 参 照モデル記憶部 1 0 3は、 3個の参照モデル 1 2 1 を記憶する。
参照モデル 1 2 1 は、 音素ごとの H M Mにより構成される。 参照モデ ル 1 2 1 の一例を図 3に示す。 ここでは、 子供用参照モデル、 成人用参 照モデル、 高齢者用参照モデルのイメージ図が示されている (なお、 本 図では、高齢者用参照モデルのイメージ図は省略されている)。 これら 3 個の参照モデルの全てが、 状態数 3個、 各状態は混合分布数が 3個の混 合ガウス分布によリ H M Mの出力分布が構成される。 特徴量と して 1 2 次元 ( J = 1 2 ) のケプス トラム係数が用いられる。
次に、 標準モデル作成部 1 0 4は、 参照モデル記憶部 1 0 3が記憶し た 3個の参照モデル 1 2 1 に対する確率又は尤度を最大化又は極大化す るように標準モデル 1 2 2を作成する (ステップ S 1 0 1 )。 最後に、 書き込み部 1 1 2は、 標準モデル作成部 1 0 4が作成した標 準モデル 1 2 2を C D— R O Mなどのス ト レージデバイスに書き込む (ステップ S 1 0 2 )。 C D— R O Mなどのス トレージデバイスに書き込 まれた標準モデルは、 子供、 成人、 高齢者を考慮した音声認識用の標準 モデルと して利用される。
図 4は、 図 2におけるステップ S 1 0 1 (標準モデルの作成) の詳細 な手順を示すフローチヤ一トである。
まず、 標準モデル構造決定部 1 0 4 aは、 標準モデルの構造を決定す る (ステップ S 1 0 2 a )。 ここでは、 標準モデルの構造と して、 音素ご との H M Mにより構成され、 3状態であり、 各状態における出力分布の 混合数を 3個 (Mf= 3 ) と決定する。
次に、 初期標準モデル作成部 1 0 4 bは、 標準モデルを計算するため の統計量の初期値を決定する (ステップ S 1 0 2 b )。 こ こでは、 参照モ デル記憶部 1 0 3に記憶された 3つの参照モデルを、 統計処理計算を用 いて 1 つのガウス分布に統合したものを統計量の初期値と し、 その初期 値を初期標準モデルと して統計量記憶部 1 0 4 cに記憶する。
具体的には、初期標準モデル作成部 1 0 4 bは、上記 3つの状態 I ( I = 1、 2、 3 ) それぞれについて、 以下の式 1 3に示される出力分布を 生成する。 なお、 式中の Mf (ガウス分布の混合数) は、 ここでは、 3で ある。
(式 1 3 )
Figure imgf000027_0001
ここで、
(式 1 4 )
Figure imgf000028_0001
は、 ガウス分布を表し、
(式 1 5 )
X ~ ( (1), (2),'", (</)) e R
は、 1 2次元 ( J = 1 2 ) の L P Cケプス トラム係数を表し、 (式 1 6 )
は、 各ガウス分布の混合重み係数を表し、
(式 1 7 ) Am) = ( /( , "/ (m,2),"', Am,j})≡ irn = ,…,ル は、 各ガウス分布の平均値を表し、
(式 1 8 ) び) (m) = (び) ( ,び , 2),…,び )ら (m = 1,2,..·, Μ,) は、 各ガウス分布の分散値を表す。
そして、 統計量推定部 1 0 4 dは、 参照モデル記憶部 1 0 3に記憶さ れた 3つの参照モデル 1 2 1 を用いて、 統計量記憶部 1 0 4 cに記憶さ れた標準モデルの統計量を推定する (ステップ S I 0 2 c )。
具体的には、 3つ ( N g = 3 ) の参照モデル 1 2 1 の各状態 I ( I = 1 、 2、 3 ) における出力分布、 即ち、 以下の式 1 9に示される出力分 布に対する標準モデルの確率又は尤度 (以下の式 2 5に示される尤度 logP ) を極大化も し く は最大化するよ うな標準モデルの統計量 (上記式 1 6に示される混合重み係数、 上記式 1 7に示される平均値、 及び、 上 記式 1 8に示される分散値) を推定する。
(式 1 9 )
LgO)
∑ひ (ぶ; giiJ), ) = 1,2,,.., Ng )
1=1 こ こで、
(式 20 ) g ( ;〃 ) ,び (")) (i = 1,2,..., Ng = 1,2,..., L(i)) はガウス分布を表し、
(式 2 1 ) υ) ( =1,2,.." ) は各参照モデルの混合分布数 (ここでは、 3 ) を表し、
(式 2 2 ) ug(U) ( = ,..„ Lg(i)) は各ガウス分布の混合重み係数を表し、
(式 2 3 ) g(i ) = ,…, は各ガウス分布の平均値を表し、
(式 24 ) ag(U) ( = l,2"", g (り) は各ガウス分布の分散値を表す。
(式 2 5 )
Figure imgf000030_0001
そして、 以下の式 2 6、 式 2 7及び式 2 8に従って、 それぞれ、 標準 モデルの混合重み係数、 平均値及び分散値を算出する。
(式 2 6 )
Figure imgf000030_0002
(m = l,2,...,Mf)
(式 2 7 )
Figure imgf000030_0003
(式 2 8 ) g(')
σ /=1
j ^ {∑ひ ) g ( ; ( ), ") )
;=1 1=1
このとき、 統計量推定部 1 0 4 dの第 1 近似部 1 0 4 eにより、 以下 の式 2 9に示される近似式が用いられる。
(式 2 9 ) y
9
Figure imgf000031_0001
=1
ここで、
(式 3 0 )
¾ ( ;; ¾ ,び )) (m = 1,2,… ) は、
(式 3 U h{m) (m = 1 ,. (式 3 2 ) h(m) =、 h(m,Vf, Αλ(/η,2),♦♦·, A¾(m,J)ノ G ^ を平均値と し、
(式 3 3 )
2 一 >J
σΗ{ηι)一
Figure imgf000032_0001
Λ を分散値とする単一のガウス分布を表す。
また、 第 1 近似部 1 04 eは、 上記式 3 0に示された単一ガウス分布 の重み (式 3 1 ) 平均値 (式 3 2 ) 及び分散値 (式 3 3 ) を、 それぞれ、 以下の式 3 4、 式 3 5及び式 3 6に示された式に従って算出する。 (式 3 4 )
u m) =∑ω ,,Ρ) =∑ω/(Ρ) =1·° ( = 1,2,.., Mf)
(式 3 5 )
m,j)
Figure imgf000032_0002
{m = \ ...,Mf = \,2,...,J)
(式 3 6 )
Figure imgf000033_0001
( ニ ^…, ゾ ,…, ) 図 5は、 第 1 近似部 1 0 4 eによる近似計算を説明する図である。 第 1近似部 1 0 4 eは、 本図に示されるように、 上記式 2 9に示された近 似式における単一ガウス分布 (式 3 0 ) を、 標準モデルを構成する全て の混合ガウス分布を用いて決定している。
以上の第 1 近似部 1 0 4 eによる近似式を考慮してまとめると、 統計 量推定部 1 0 4 dでの計算式は次の通りになる。 つまり、 統計量推定部 1 0 4 dは、 以下の式 3 7、 式 3 8及び式 3 9に従って、 それぞれ、 混 合重み係数、 平均値及び分散値を算出し、 統計量記憶部 1 0 4 cに記憶 する。 そして、 このような統計量の推定と統計量記憶部 1 0 4 cへの記 憶を R (≥ 1 ) 回、 繰り返す。 その結果得られた統計量を最終的に生成 する標準モデル 1 2 2の統計量と して出力する。
(式 3 7 )
Figure imgf000034_0001
( 6 ε
Figure imgf000034_0002
1=/ 1=/ =·'
= ( w) /y
\=l 1=1
)S7 SN
( 8 ε )
Figure imgf000034_0003
1=/ \=f 1=^ \=!
ω t=/ [= " [=;
r asi Z9M0/C00Zdf/X3d 9ム0ム請 00Z OAV なお、 状態遷移確率については、 H M Mの対応する状態遷移確率を参 照モデル 1 2 1 に対して全て加えあわせた全体が 1 になるように正規化 したものを用いる。
次に、 本実施の形態をパーソナルコンピュータによる音声認識に適用 した具体例を説明する。ここでは、サーバ 1 0 1 と してパソコン( P C)、 読み込み部 1 1 1 と して C D— R O M ドライブ装置を用いるものと し、 標準モデルの具体的な使い方を中心に説明する。
まず、 利用者は、 P C (サーバ 1 0 1 ) の C D— R O M ドライブ装置 (読み込み部 1 1 1 ) に、 参照モデルと しての複数の音響モデルが格納 された 1 枚の C D— R O Mを装着する。その C D— R O Mには、例えば、 「幼児」、 「子供 : 男」、 「子供 : 女」、 「大人 : 男」、 「大人 : 女」、 「高齢者 : 男」、 「高齢者 : 女」 の各音響モデルが記憶されている。
次に、 利用者は、 図 6 ( a ) 及び ( b ) に示される画面表示例のよう に、 P C (サーバ 1 0 1 ) に接続されたディスプレイを用いて、 家族構 成(音声認識を利用する人)にあった音響モデルを選択する。図 6には、 C D— R O Mに記憶されている音響モデルが 「 C D— R O M」 と書かれ た枠内に表示され、 それらの音響モデルの中から選択された音響モデル 力《 「利用者」 と書かれた枠内にコピーされる様子が示されている。 ここ では、 利用者の家族構成が、 1 0歳の男の子と、 5 0歳のお父さんと、 4 0歳のお母さんの 3人であると し、 利用者 (お父さん) によって、 「子 供 : 男」、 「大人 : 男」、 「大人 : 女」 の 3個のモデルが 「利用者 J と書か れた枠内に ドラッグして移動されている。 このような操作によって、 参 照モデル準備部 1 0 2による参照モデルの準備が行われる。 つまり、 3 個の参照モデルが読み込み部 1 1 1 で読み出され、 参照モデル準備部 1 0 2を介して、 参照モデル記憶部 1 0 3に格納される。
続いて、 利用者は、 図 7 ( a ) に示される画面表示例のように、 作成 する標準モデルの構造 (混合分布数) を指定する。 図 7 ( a ) では、 「混 合分布数」 と して Γ 3個」、 「 1 0個」、 「 2 0個」 が表示され、 利用者は、 これらの個数の中から希望するものを選択する。 この操作によって、 標 準モデル構造決定部 1 0 4 aによ り、 これから作成する標準モデルの構 造が決定される。
なお、 混合分布数の決定については、 このような直接的な指定に限ら れず、 例えば、 図 7 ( b ) に示される画面表示例のように、 利用者が選 択した仕様情報に基づいて混合分布数を決定してもよい。 図 7 ( b ) で は、 標準モデルを使用して音声認識を実行させる対象機器と して、 3種 類の 「利用機器」、 つまり、 Γテレビ用」、 「カーナビ用」、 「携帯電話用」 の中から利用機器を選択する様子が示されている。 このとき、 予め記憶 された対応表に従って、 例えば、 「テレビ用」 が選択された場合には混合 分布数を 3個と決定し、「カーナビ用」が選択された場合には混合分布数 を 2 0個と決定し、「携帯電話用」が選択された場合には混合分布数を 1 0個と決定してもよい。
その他、 混合分布数の決定については、 認識速度や精度、 つまり、 「素 早く認識」、 「通常」、 「高精度に認識」 の中から選択することで、 それぞ れの選択項目に対応した値 (「素早く認識」 = 3個、 「通常」 = 1 0個、 「高精度に認識」 = 2 0個) を混合分布数と して決定してもよい。
このような入力操作が終了すると、 初期標準モデル作成部 1 0 4 bに よつて初期標準モデルが作成された後に、 統計量推定部 1 0 4 dによる 繰り返し計算 (学習) が行われ、 標準モデルが作成される。 このとき、 図 8の画面表示例に示されるように、 標準モデル構造決定部 1 0 4 aに よって、 学習の進埗状況が表示される。 利用者は、 学習の進涉状況、 学 習終了時期などを知ることができ、 標準モデルが完成されるまで安心し て待つことができる。 なお、 進涉状況の表示と して、 例えば、 図 8 ( a ) に示されるような学習度合いのバー表示、 図 8 ( b ) に示されるような 学習回数の表示、 その他、 尤度基準の表示等がある。 また、 未学習時は 一般的な顏画像を表示し、 学習の完了に近づく にしたがって利用者の顔 画像に変更していく ような進涉表示であってもよい。 同様に、 未学習時 には赤ちゃんを表示し、 学習の完了に近づくにしたがって仙人を表示す るような進埗表示であってもよい。
このようにして標準モデルの作成が完了すると、 作成された標準モデ ルは、 標準モデル作成部 1 0 4によってメモリカード (書き込み部 1 1 2 ) に記録される。 利用者は、 そのメモリカードを P C (サーバ 1 0 1 の書き込み部 1 1 2 ) から抜き出し、 利用機器、 例えば、 テレビのメモ リカー ド用スロッ トに挿入する。 これによつて、 作成された標準モデル が P C (サーバ 1 0 1 ) から利用機器 (テレビ) に移動される。 テレビ は、 装着されたメモリカードに記録された標準モデルを用いて、 利用者 (ここでは、 テレビを利用する家族) を対象と した音声認識を行う。 た とえば、 テレビに付属したマイクに入力された音声を認識することによ つて、 テレビ操作用のコマン ドを判別し、 そのコマン ド (例えば、 チヤ ンネルの切り替え、 E P Gなどによる番組検索) を実行する。 このよ う にして、 本実施の形態における標準モデル作成装置によって作成された 標準モデルを用いた、 音声によるテレビ操作が実現される。
以上説明したように、 本発明の第 1 の実施の形態によれば、 予め準備 された参照モデルに対する確率又は尤度を最大化又は極大化するように 標準モデルの統計量を計算して標準モデルが作成されるので、 学習のた めのデータや教師データを必要とすることなく簡易に標準モデルが作成 されるとともに、 既に作成された複数の参照モデルを総合的に勘案した 精度の高い標準モデルが作成される。
なお、 標準モデル 1 2 2は、 音素ごとに H M Mを構成するに限らず、 文脈依存の H M Mで構成してもよい。
また、 標準モデル作成部 1 0 4は、 一部の音素の 、 一部の状態におけ る事象の出力確率に対してモデル作成を行ってもよい。
また、 標準モデル 1 2 2 を構成する H M Mは、 曰素ごとに異なる状態 数によ り構成してもよいし 、 状態ごとに異なる分布数の混合ガウス分布 によ り構成してもよい。
また、 参照モデル 1 2 1 は、 子供用参照モデル 、 成人用参照モデル、 高齢者用参照モデルにおいて、 異なる状態数によ 構成してもよいし、 異なる混合数の混合ガウス分布によ り構成してもよい。
また、 標準モデル 1 2 2 を用いて、 サーバ 1 0 1 において音声 Sit 行ってもよい。
また、 参照モデル 1 2 1 を C D— R O M、 D V D一 R A Mなどのス ト レ一ジデバイスから読み込む代わリに、 サーバ 1 0 1 において音声デー タから参照モデル 1 2 1 を作成してもよい。
また、 参照モデル準備部 "! 0 2は、 必要に応じて C D— R O M 、 D V
D— R A Mなどのス ト レージデバイスから読み込まれた新たな参照モデ ルを参照モデル記憶部 1 0 3 に追加 ■ 更新してもよい。 つま り、 参照モ デル準備部 1 0 2は、 新たな参照モデルを参照モデル記憶部 1 0 3 に格 納するだけでなく 、 同一の認識対象についての参照モデルが参照モデル 記憶部 1 0 3に格納されている場合には、 その参照モデルと置き換える ことによって参照モデルを更新した り、 参照モデル記憶部 1 0 3 に格納 されている不要な参照モデルを削除してもよい。
また、 参照モデル準備部 1 0 2は、 必要に応じて、 通信路を介して新 たな参照モデルを参照モデル記憶部 1 0 3に追加 ■ 更新してもよい。 また、 標準モデルを作成したのちに、 さ らに音声データによ り学習し てもよい。 また、 標準モデル構造決定部は、 モノ フォン、 トライフォン、 状態共 有型などの H M Mの構造や、 状態数などを決定してもよい。
(第 2の実施の形態)
図 9は、 本発明の第 2の実施の形態における標準モデル作成装置の全 体構成を示すブロック図である。 ここでは、 本発明に係る標準モデル作 成装置がセッ ト トップボックス 2 0 1 (以下、 S T Bと呼ぶ) に組み込 まれた例が示されている。本実施の形態では音声認識用の標準モデル(話 者適応モデル) を作成する場合を例にして説明する。 具体的には、 S T Bによる音声認識機能により、 テレビの E P G検索や番組切替、 録画予 約などを行う場合を例にして説明する。
S T B 2 0 1 は、 ユーザの発話を認識して T V番組の自動切替等を行 うデジタル放送用受信機であり、 事象の集合と事象又は事象間の遷移の 出力確率とによって定義される音声認識用の標準モデルを作成する標準 モデル作成装置と して、 マイク 2 1 1 と、 音声データ蓄積部 2 1 2と、 参照モデル準備部 2 0 2と、 参照モデル記憶部 2 0 3 と、 利用情報作成 部 2 0 4と、 参照モデル選択部 2 0 5と、 標準モデル作成部 2 0 6 と、 音声認識部 2 1 3とを備える。
マイク 2 1 1 に収集された音声データは、 音声データ蓄積部 2 1 2に 蓄積される。 参照モデル準備部 2 0 2は、 音声データ蓄積部 2 1 2が蓄 積した音声データを用いて話者ごとに参照モデル 2 2 1 を作成し、 参照 モデル記憶部 2 0 3に記憶する。
利用情報作成部 2 0 4は、 利用情報 2 2 4である利用者の音声をマイ ク 2 1 1 によリ収集する。 ここで、利用情報とは、認識(狭義での認識、 識別、 認証など) の対象 (人 ' 物) に関する情報であり、 ここでは、 音 声認識の対象となる利用者の音声である。 参照モデル選択部 2 0 5は、 利用情報作成部 2 0 4が作成した利用情報 2 2 4に基づいて、 参照モデ ル記憶部 2 0 3が記憶している参照モデル 2 2 1 の中から、 利用情報 2 2 4が示す利用者の音声に音響的に近い参照モデル 2 2 3を選択する。 標準モデル作成部 2 0 6は、 参照モデル選択部 2 0 5が選択した話者 の参照モデル 2 2 3に対する確率又は尤度を最大化又は極大化するよう に標準モデル 2 2 2を作成する処理部であり、 標準モデルの構造 (ガウ ス分布の混合分布数など)を決定する標準モデル構造決定部 2 0 6 a と、 標準モデルを計算するための統計量の初期値を決定することで初期標準 モデルを作成する初期標準モデル作成部 2 0 6 bと、 決定された初期標 準モデルを記憶する統計量記憶部 2 0 6 c と、 統計量記憶部 2 0 6 cに 記憶された初期標準モデルに対して、 一般近似部 2 0 6 eによる近似計 算等を用いることにより、 参照モデル選択部 2 0 5が選択した参照モデ ル 2 2 3に対する確率又は尤度を最大化又は極大化するような統計量を 算出する (最終的な標準モデルを生成する) 統計量推定部 2 0 6 d とか らなる。
音声認識部 2 1 3は、 標準モデル作成部 2 0 6によつて作成された標 準モデル 2 2 2を用いて利用者の音声を認識する。
次に、以上のように構成された S T B 2 0 1 の動作について説明する。 図 1 0は、 S T B 2 0 "I の動作手順を示すフローチャートである。 まず、 標準モデルの作成に先立ち、 その基準となる参照モデルを準備 する (ステップ S 2 0 0 )。 つまり、 マイク 2 1 1 により Aさんから Zさ んの音声データを収集して音声データ蓄積部 2 1 2に蓄積する。 たとえ ば、 屋内に設置された複数のマイク、 テレビのリモコンに内蔵されたマ イク、 電話機などが、 S T B 2 0 1 の音声データ蓄積部 2 1 2と接続さ れており、 マイクや電話機から入力された音声データを音声データ蓄積 部 2 1 2に蓄積する。 たとえば、 お兄ちゃん、 妹、 お父さん、 お母さん、 おじいちゃん、 近所のひと、 友達の音声が蓄積される。 参照モデル準備部 2 0 2は、 音声データ蓄積部 2 1 2が蓄積した音声 データを用いて話者ごとに参照モデル 2 2 "I をバウム · ゥ Iルチの再推 定の方法により作成する。 この処理は、 標準モデルの作成が要求される 以前に行われる。
参照モデル記憶部 2 0 3は、 参照モデル準備部 2 0 2が作成した参照 モデル 2 2 1 を記憶する。 参照モデル 2 2 1 は、 音素ごとの H M Mによ リ構成される。 参照モデル 2 2 1 の一例を図 1 1 に示す。 ここでは、 A さんから Zさんの全ての参照モデルが、 状態数 3個、 各状態は混合分布 数が 5個の混合ガウス分布により H M Mの出力分布が構成される。 特徴 量と して 2 5次元 ( J .= 2 5 ) のメルケプス トラム係数が用いられる。
ここで、 標準モデルの作成が要求される。 たとえば、 利用者が 「利用 者の確認」 のポタンを押すことによって、 標準モデルの作成が要求され る。 「利用者確認」 のポタンについては、 テレビ画面に表示させて選択す る方法や、 テレビのリモコンに 「利用者の確認」 スィッチをつけて選択 する方法が考えられる。 ボタンを押すタイ ミングと しては、 テレビを起 動したタイ ミング、 音声認識を用いてコマン ド操作を行っているときに 利用者にふさわしい標準モデルがほしいと感じたタイ ミングなどが考え られる。
次に、 利用情報作成部 2 0 4は、 利用情報 2 2 4である利用者の音声 をマイク 2 1 1 により収集する (ステップ S 2 0 1 )。 たとえば、 標準モ デルの作成が要求されると、 画面上で 「名前を入力してください」 と表 示される。 利用者は、 テレビのリモコ ンに内蔵されたマイクにより名前 (利用者の音声) を入力する。 この利用者の音声が利用情報である。 な お、 入力する音声は名前に限定されない。 例えば 「適応と発声してくだ さい」 と表示して、 利用者は 「適応」 と発声してもよい。
参照モデル選択部 2 0 5は、 その利用者の音声に音響的に近い参照モ デル 2 2 3を、 参照モデル記憶部 2 0 3が記憶している参照モデル 2 2 1 の中から選択する (ステップ S 2 0 2 )。 具体的には、 利用者の音声を Aさんから Zさんの参照モデルに入力して発声単語に対する尤度が大き い 1 0人 (N g = 1 0 ) の話者の参照モデルを選択する。
そして、 標準モデル作成部 2 0 6は、 参照モデル選択部 2 0 5が選択 した 1 0個の参照モデル 2 2 3に対する確率又は尤度を最大化又は極大 化するように標準モデル 2 2 2を作成する (ステップ S 2 0 3 )。 このと き、 第 1 の実施の形態のように、 学習の進埗状況を表示してもよい。 そ うすることで、利用者は学習の進涉状況、学習終了時期などが判断でき、 安心して標準モデルを作成することができる。 また、 学習の進涉状況を 非表示にする進渉状況非表示部を.設けてもよい。 この機能により、 画面 を有効に使うことができる。 また、 慣れた人に対して非表示にすること で、 うっとう しく感じることが回避される。
最後に、 音声認識部 2 1 3は、 マイク 2 1 1 から介して送られてく る 利用者の音声を入力と し、 標準モデル作成部 2 0 6で作成された標準モ デル 2 2 2を用いて音声認識を行う ( S 2 0 4 )。 たとえば、 利用者が発 話した音声を音響解析等を行うことで 2 5次元のメルケプス トラム係数 を算出し、 音素ごとの標準モデル 2 2 2に入力することで、 高い尤度を 有する音素の連なりを特定する。 そして、 その音素の連なり と予め受信 している電子番組データ中の番組名とを比較し、 一定以上の尤度が検出 された場合に、その番組に切り替えるという自動番組切替の制御を行う。 次に、 図 1 0におけるステップ S 2 0 3 (標準モデルの作成) の詳細 な手順を説明する。 手順の流れは、 図 4に示されたフロ一チャー トと同 様である。 ただし、 採用する標準モデルの構造や具体的な近似計算等が 異なる。
まず、 標準モデル構造決定部 2 0 6 aは、 標準モデルの構造を決定す る (図 4のステップ S 1 0 2 a )。 ここでは、 標準モデルの構造と して、 音素ごとの H M Mにより構成され、 3状態であり、 各状態における出力 分布の混合分布数が 1 6個 (Mf= 1 6 ) と決定する。
次に、 初期標準モデル作成部 2 0 6 bは、 標準モデルを計算するため の統計量の初期値を決定する (図 4のステップ S 1 0 2 b )。 ここでは、 参照モデル選択部 2 0 5が選択した 1 0個の参照モデル 2 2 3を、 統計 処理計算を用いて 1 つのガウス分布に統合したものを統計量の初期値と し、 その初期値を初期標準モデルと して統計量記憶部 2 0 6 cに記憶す る。 ここでは、 話者ごとに学習した混合分布数が 5の参照モデルを用い て精度の高い混合分布数が 1 6 ( 1 6混合) の標準モデル (話者適応モ デル) を作成する。
具体的には、初期標準モデル作成部 2 0 6 bは、上記 3つの状態 I ( I = 1 、 2、 3 ) それぞれについて、 上記式 1 3に示される出力分布を生 成する。
ただし、 本実施の形態では、 上記式 1 3に示された出力分布における (式 4 0 )
X ~
Figure imgf000043_0001
Λ
は、 2 5次元 ( J = 2 5 ) のメルケプス トラム係数を表す。
そして、 統計量推定部 2 0 6 dは、 参照モデル選択部 2 0 5が選択し た 1 0個の参照モデル 2 2 3を用いて、 統計量記憶部 2 0 6 cに記憶さ れた標準モデルの統計量を推定する (図 4のステップ S 1 0 2 c )。 つまり、 1 0個 ( N g= 1 0 ) の参照モデル 2 2 3の各状態 I ( 1 = 1 、 2、 3 ) における出力分布、 即ち、 上記式 1 9に示される出力分布 に対する標準モデルの確率 (ここでは、 上記式 2 5に示される尤度 log P ) を極大化も しく は最大化する.ような標準モデルの統計量 (上記式 1 6に示される混合重み係数、 上記式 1 7に示される平均値、 及び、 上記 式 1 8に示される分散値) を推定する。
ただし、 本実施の形態では、 上記式 1 9に示された出力分布における (式 4 1 ) (0 ( 1,2,.", ) は、 5 (各参照モデルの混合分布数) である。
具体的には、 上記式 2 6、 式 2 7及び式 2 8に従って、 それぞれ、 標 準モデルの混合重み係数、 平均値及び分散値を算出する。
このとき、 統計量推定部 2 0 6 dの一般近似部 2 0 6 eにより、 上記 式 2 9に示される近似式が用いられる。
ここで、 一般近似部 2 0 6 eは、 第 1 の実施の形態と異なり、 上記式 2 9の近似式の分母に示された出力分布
(式 4 2 ) / ( /( ; /( ,び) (り) (k = 2,-,Mf) の中から、 上記式 2 9の近似式の分子に示された出力分布
(式 4 3 )
Figure imgf000044_0001
/(m), af{m) ) に距離的に近い 3個 ( P h(m)= 3 ) の出力分布
(式 4 4 ) /( / 〃/( )) O = H"M p = 1,2,.."尸 ))
.
を選択し、 選択した 3個の出力分布を用いて、 上記式 3 0に示された 単一ガウス分布の重み (式 3 1 )、 平均値 (式 3 2 ) 及び分散値 (式 3 3 ) を、 それぞれ、 以下の式 4 5、 式 4 6及び式 4 7に示された式に従って 算出する。
(式 4 5 )
uh{m)
Figure imgf000045_0001
f{m,p) (m = 1,2,,,., ΜΛ
1
(式 4 6 )
,2,..., )
Figure imgf000045_0002
(式 4 7 )
Figure imgf000045_0003
0 = 1,2,..., 1^, = 1,2,··., ) 図 1 2は、 一般近似部 2 0 6 eによる近似計算を説明する図である。 一般近似部 2 0 6 eは、 本図に示されるように、 上記式 2 9に示された 近似式における単一ガウス分布 (式 3 0 ) を、 標準モデルを構成する M f 個の混合ガウス分布の中から、 計算対象となる混合ガウス分布に近い一 部 ( Ph(m)個) の混合ガウス分布だけを用いて決定している。 したがつ て、 全部 ( M f 個) の混合ガウス分布を用いる第 1 の実施の形態と比較 し、 近似計算における計算量が削減される。
以上の一般近似部 2 0 6 eによる近似式を考慮してまとめると、 統計 量推定部 2 0 6 dでの計算式は次の通りになる。 つまり、 統計量推定部 2 0 6 dは、 以下の式 4 8、 式 4 9及び式 5 0に従って、 それぞれ、 混 合重み係数、 平均値及び分散値を算出し、 統計量記憶部 2 0 6 cに記憶 する。 そして、 このような統計量の推定と統計量記憶部 2 0 6 cへの記 憶を R (≥ 1 ) 回、 繰り返す。 その結果得られた統計量を最終的に生成 する標準モデル 2 2 2の統計量と して出力する。 なお、 繰り返し計算に おいては、 その回数に対応させて、 上記近似計算における出力分布の選 択個数 Ph(m)を小さ く し、 最終的に Ph(m)= 1 とする計算を行う。 (式 4 8 )
Figure imgf000046_0001
^mj^mj) + ' Λ 一ひ/ W) ,")
Figure imgf000046_0002
(式 4 9 ) ,..., J)
Figure imgf000047_0001
(式 5 0 )
Ng ½_'>
L L · - -'、
び/ (w,ゾ) = ~Ng L~ (/??::! ,…,^^,ゾニ;! ,…,ゾ)
i=l l=\
? )一
Figure imgf000047_0002
+ i 2 2 2 2 2 }
ひ j)°Kmj)ャひ g ij ひ Ρ 一ひ/ ( )°g ('ソ 'ゾ) ノ なお、 状態遷移確率については、 H M Mの対応する状態遷移確率を参 照モデル 2 2 3に対して全て加えあわせた全体が 1 になるように正規化 したものを用いる。
以上説明したように、 本発明の第 2の実施の形態によれば、 利用情報 に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化 又は極大化するように標準モデルの統計量を計算して標準モデルが作成 されるので、 利用状況によりふさわしい精度の高い標準モデルが提供さ れる。
なお、 標準モデルを作成するタイ ミングと しては、 本実施の形態のよ うな利用者による明示的な指示だけに限られず、 他のタイ ミングで標準 モデルを作成してもよい。 たとえば、 S T B 2 0 1 にさらに、 利用者が 変更されたかどうかを自動的に判断する利用者変更判断部を設ける。 そ の利用者変更判断部は、 テレビのリモコンに入力された認識用の音声を 用いて、 利用者が変更されたか否か、 つまり、 現在の利用者が直前まで 認識していた利用者と同一人物であるか否かを判断する。 利用者が変更 されたと判断した場合に、 その音声を利用情報と して標準モデルを作成 する。 これにより、 利用者が意識することなく、 利用者にふさわしい標 準モデルを用いた音声認識が行われる。
なお、 標準モデル 2 2 2は、 音素ごとに H MMを構成するに限らず、 文脈依存の H MMで構成してもよい。
また、 標準モデル作成部 2 0 6は、 一部の音素の、 一部の状態におけ る事象の出力確率に対してモデル作成を行ってもよい。
また、 標準モデル 2 2 2を構成する H MMは、 音素ごとに異なる状態 数により構成してもよいし、 状態ごとに異なる分布数の混合ガウス分布 により構成してもよい。
また、 参照モデル 2 2 1 は、 話者ごと H M Mにおいて、 異なる状態数 により構成してもよいし、 異なる混合数の混合ガウス分布により構成し てもよい。
また、 参照モデル 2 2 1 は、 話者ごと H MMに限らず、 話者 ■ 雑音 ■ 声の調子ごとに作成してもよい。
また、 標準モデル 2 2 2を C D— R O M、 ハー ドディスク、 D V D— R A Mなどのス トレージデバイスに記録してもよい。
また、 参照モデル 2 2 1 を作成する代わりに、 C D— R O M、 D V D 一 R A Mなどのス トレージデバイスから読み込んでもよい。
また、 参照モデル選択部 2 0 5は、 利用情報 2 24に基づいて利用者 ごとに選択する参照モデルの数を変えてもよい。
また、 参照モデル準備部 2 0 2は、 必要に応じて新たな参照モデルを 作成して参照モデル記憶部 2 0 3に追加 ■ 更新してもよいし、 参照モデ ル記憶部 2 0 3に格納されている不要な参照モデルを削除してもよい。 また、 参照モデル準備部 2 0 2は、 必要に応じて、 通信路を介して新 たな参照モデルを参照モデル記憶部 2 0 3に追加 ■ 更新してもよい。 また、 上記近似計算において選択する出力分布の個数 P Mm)は、 対象 とする事象や標準モデルの出力分布によつて異なってもよいし、 分布間 距離に基づいて決定してもよい。
また、 標準モデルを作成したのちに、 さらに音声データにより学習し てもよい。
また、 標準モデル構造決定部は、 モノ フォン、 トライフォン、 状態共 有型などの H M Mの構造や、 状態数などを決定してもよい。
また、 混合分布数については、 本実施の形態における S T Bを出荷す るときに、 所定の値に設定しておいてもよいし、 ネッ トワーク連携を考 慮した機器の C P Uパワーなどの仕様、 起動するアプリケーショ ンの仕 様などに基づいて混合分布数を決定してもよい。
(第 3の実施の形態)
図 1 3は、 本発明の第 3の実施の形態における標準モデル作成装置の 全体構成を示すブロック図である。 こ こでは、 本発明に係る標準モデル 作成装置力 P D A ( P e r s o n a l D i g i t a l A s s i s t a n t ) 3 0 1 に組み込まれた例が示されている。 本実施の形態では雑 音識別用の標準モデル (雑音モデル) を作成する場合を例にして説明す る。
P D A 3 0 1 は、 携帯情報端末であり、 事象の出力確率によって定義 される雑音識別用の標準モデルを作成する標準モデル作成装置と して、 読み込み部 3 1 1 と、 参照モデル準備部 3 0 2 と、 参照モデル記憶部 3 0 3 と、 利用情報作成部 3 0 4 と、 参照モデル選択部 3 0 5 と、 標準モ デル作成部 3 0 6 と、 仕様情報作成部 3 0 7 と、 マイク 3 1 2 と、 雑音 識別部 3 1 3 とを備える。
読み込み部 3 1 1 は、 C D— R O Mなどのス ト レージデバイスに書き 込まれた乗用車 Aの参照モデル、 乗用車 Bの参照モデル、 バス Aの参照 モデル、 小雨の参照モデル、 大雨の参照モデルなどの雑音の参照モデル を読み込む。 参照モデル準備部 3 0 2は、 読み込まれた参照モデル 3 2 1 を参照モデル記憶部 3 0 3へ送信する。 参照モデル記憶部 3 0 3は、 参照モデル 3 2 1 を記憶する。
利用情報作成部 3 0 4は、 利用情報 3 2 4である雑音の種類を P D A 3 0 1 の画面とキーを利用して作成する。 参照モデル選択部 3 0 5は、 利用情報 3 2 4である雑音の種類に音響的に近い参照モデルを、 參照モ デル記憶部 3 0 3が記憶している参照モデル 3 2 1 の中から選択する。 仕様情報作成部 3 0 7は、 P D A 3 0 1 の仕様に基づき仕様情報 3 2 5 を作成する。 こ こで、 仕様情報とは、 作成する標準モデルの仕様に関す る情報であり、 ここでは、 P D A 3 0 1 が備える C P Uの処理能力に関 する情報である。
標準モデル作成部 3 0 6は、 仕様情報作成部 3 0 7 で作成された仕様 情報 3 2 5に基づいて、 参照モデル選択部 3 0 5が選択した雑音の参照 モデル 3 2 3に対する確率又は尤度を最大化又は極大化するように標準 モデル 3 2 2 を作成する処理部であり、 標準モデルの構造 (ガウス分布 の混合分布数など) を決定する標準モデル構造決定部 3 0 6 a と、 標準 モデルを計算するための統計量の初期値を決定することで初期標準モデ ルを作成する初期標準モデル作成部 3 0 6 b と、 決定された初期標準モ デルを記憶する統計量記憶部 3 0 6 c と、 統計量記憶部 3 0 6 c に記憶 された初期標準モデルに対して、 第 2近似部 3 0 6 eによる近似計算等 を用いることにより、 参照モデル選択部 3 0 5が選択した参照モデル 3
2 3に対する確率又は尤度を最大化又は極大化するような統計量を算出 する (最終的な標準モデルを生成する) 統計量推定部 3 0 6 d とからな る。
雑音識別部 3 1 3は、 標準モデル作成部 3 0 6で作成された標準モデ ル 3 2 2を用いて、マイク 3 1 2から入力された雑音の種類を識別する。 次に、以上のように構成された P D A 3 0 1 の動作について説明する。 図 1 4は、 P D A 3 0 1 の動作手順を示すフローチヤ一トである。 まず、 標準モデルの作成に先立ち、 その基準となる参照モデルを準備 する (ステップ S 3 0 0 )。 つまり、 読み込み部 3 1 1 は、 ス トレージデ バイスに書き込まれた雑音の参照モデルを読み込み、 参照モデル準備部
3 0 2は、 読み込まれた参照モデル 3 2 1 を参照モデル記憶部 3 0 3へ 送信し、 参照モデル記憶部 3 0 3は、 参照モデル 3 2 1 を記憶する。 参照モデル 3 2 1 は、 G M Mより構成される。 参照モデル 3 2 1 の一 例を図 1 5に示す。 こ こでは、 各雑音モデルは混合分布数が 3個の G M Mによリ構成される。 特徴量と して 5次元 ( J = 5 ) の L P Cケプス ト ラム係数が用いられる。
次に、 利用情報作成部 3 0 4は、 識別したい雑音の種類である利用情 報 3 2 4を作成する (ステップ S 3 0 1 )。図 1 6に P D A 3 0 1 の選択 画面の一例を示す。 ここでは、 乗用車の雑音が選択される。 参照モデル 選択部 3 0 5は、 選択された利用情報 3 24である乗用車の雑音に音響 的に近い参照モデルである乗用車 Aの参照モデルと乗用車 Bの参照モデ ルを、 参照モデル記憶部 3 0 3が記憶している参照モデル 3 2 1 の中か ら選択する (ステップ S 3 0 2 )。
そして、 仕様情報作成部 3 0 7は、 P D A 3 0 1 の仕様に基づき、 仕 様情報 3 2 5を作成する (ステップ S 3 0 3 )。 ここでは、 P D A 3 0 1 の C P Uの仕様に基づき C P Uパワーが小さいという仕様情報 3 2 5を 作成する。 標準モデル作成部 3 0 6は、 作成された仕様情報 3 2 5に基 づいて、 参照モデル選択部 3 0 5が選択した参照モデル 3 2 3に対する 確率又は尤度を最大化又は極大化するように標準モデル 3 2 2を作成す る (ステップ S 3 0 4 )。
最後に、 雑音識別部 3 1 3は、 利用者によってマイク 3 1 2から入力 された雑音に対して、標準モデル 3 2 2を用いて、雑音の識別を行う (ス テツプ S 3 0 5 )。
次に、 図 1 4におけるステップ S 3 0 4 (標準モデルの作成) の詳細 な手順を説明する。 手順の流れは、 図 4に示されたフローチャー トと同 様である。 ただし、 採用する標準モデルの構造や具体的な近似計算等が 異なる。
まず、 標準モデル構造決定部 3 0 6 aは、 標準モデルの構造を決定す る (図 4のステップ S 1 0 2 a )。 ここでは、 標準モデルの構造と して、 仕様情報 3 2 5である C P Uパワーが小さいという情報に基づいて 1 混 合 (Mf= 1 ) の G M Mにより標準モデル 3 2 2を構成すると決定する。 次に、 初期標準モデル作成部 3 0 6 bは、 標準モデルを計算するため の統計量の初期値を決定する (図 4のステップ S 1 0 2 b )。 ここでは、 選択された参照モデル 3 2 3である乗用車 Aの 3混合の参照モデルを、 統計処理計算を用いて 1 つのガウス分布に統合したものを統計量の初期 値と して統計量記憶部 3 0 6 cに記憶する。
具体的には、 初期標準モデル作成部 3 0 6 bは、 上記式 1 3に示され る出力分布を生成する。
ただし、 本実施の形態では、 上記式 1 3に示された出力分布における (式 5 1 ) X ~ ( (1), (2),··.,
Figure imgf000053_0001
e R
は、 5次元 ( J = 5 ) の L P Cケプス トラム係数を表す。
そして、 統計量推定部 3 0 6 dは、 参照モデル選択部 3 0 5が選択し た 2個の参照モデル 3 2 3を用いて、 統計量記憶部 3 0 6 cに記憶され た標準モデルの統計量を推定する (図 4のステップ S 1 0 2 c )。
つまり、 2個 ( N g= 2 ) の参照モデル 3 2 3における出力分布、 即 ち、 上記式 1 9に示される出力分布に対する標準モデルの確率 (ここで は、 上記式 2 5に示される尤度 logP ) を極大化もしくは最大化するよ うな標準モデルの統計量 (上記式 1 6に示される混合重み係数、 上記式 1 7に示される平均値、 及び、 上記式 1 8に示される分散値) を推定す る。
ただし、 本実施の形態では、 上記式 1 9に示された出力分布における (式 5 2 )
Figure imgf000053_0002
は、 3 (各参照モデルの混合分布数) である。
具体的には、 上記式 2 6、 式 2 7及び式 2 8に従って、 それぞれ、 標 準モデルの混合重み係数、 平均値及び分散値を算出する。
このとき、 統計量推定部 3 0 6 dの第 2近似部 3 0 6 eは、 標準モデ ルの各ガウス分布はお互いに影響を与えないと仮定して、 以下の近似式 を用いる。
(式 5 3 ) y m) (m) (X' , ) 1.0
(m = 1,2,.,"M,)
また、 標準モデルのガウス分布
(式 5 4 ) / )/ ; ),び O = 2,..,Mf,p = 1,2,…,尸 )) の近傍の
(式 5 5 )
X とは、 前記式 5 4が示す出力分布との平均値のユーク リ ッ ド距離、 マ ハラノ ビス距離、 カルバック ' ライブラー ( K L ) 距離などの分布間距 離が近い Qg(m,i)個の参照モデル 3 2 3のガウス分布
(式 5 6 ) g(x^giU)9ag-(U)) (i = 1,2,..., Ng,l = 1,2,..., L(i)) が存在する空間であって、
(式 5 7 )
U 、χ', , P)) {m = 1,2,.··, Mf9p = 1,2,.." Ph(m)) との分布間距離が近い Qg(m,i)個 ( 1 ≤ Qg(m,i)≤し g(i)) の前記参照 べク トルの出力分布とは、 前記参照モデルの出力分布
(式 5 8 ) ひ g (リ) g (ぶ;
Figure imgf000055_0001
U"", Ng = 1,2,..., Lg(i)) のうち分布間距離が 1 番近い (近傍指示パラメータ G = 1 ) 前記標準 モデルの出力分布が前記式 5 7である前記参照べク トルの出力分布であ ると近似する。
図 1 7は、 この統計量推定部 3 0 6 dによる統計量の推定手順を示す 概念図である。 各参照モデルの各ガウス分布に対して、 平均値のユーク リツ ド距離、 マハラノ ビス距離などの分布間距離が最も近いものが標準 モデルのガウス分布 m であるガウス分布を用いて統計量の推定を行う ことが示されている。
図 1 8は、 第 2近似部 3 0 6 eによる近似計算を説明する図である。 第 2近似部 3 0 6 eは、 本図に示されるように、 各参照モデルの各ガウ ス分布に対して、距離が最も近い標準モデルのガウス分布 mを決定する ことで、 上記式 5 3に示された近似式を用いている。
以上の第 2近似部 3 0 6 eによる近似式を考慮してまとめると、 統計 量推定部 3 0 6 dでの計算式は次の通りになる。 つまり、 統計量推定部 3 0 6 dは、 以下の式 5 9、 式 6 0及び式 6 1 に従って、 それぞれ、 混 合重み係数、 平均値及び分散値を算出し、 それらのパラメータによって 特定される標準モデルを最終的な標準 ΐデル 3 2 2と して生成する。 (式 5 9 )
Ng ¾<
乙 Σひ )
m 一 '=1 /=1
H ΖΛ('·,り
(w = l,2,..., /) (ここで、分母、 分子の和は、各参照モデルの各ガウス分布に対して、 平均値のユークリ ッ ド距離、 マハラノ ビス距離などの分布間距離が最も 近いものが標準モデルのガウス分布 m であるガウス分布に関する和を 意味する。)
(式 6 0 )
Figure imgf000056_0001
― 」=1
(w = 1,2,..., M,,ゾ = 1,2,.··,·/)
(ここで、分母、 分子の和は、各参照モデルの各ガウス分布に対して、 平均値のュ一ク リ ッ ド距離、 マハラノ ビス距離などの分布間距離が最も 近いものが標準モデルのガウス分布 m であるガウス分布に関する和を 意味する。)
(式 6 1 )
Figure imgf000056_0002
(ここで、分母、 分子の和は、各参照モデルの各ガウス分布に対して、 平均値のユーク リ ッ ド距離、 マハラノ ビス距離などの分布間距離が最も 近いものが標準モデルのガウス分布 m であるガウス分布に関する和を 意味する。) ただし、
(式 6 2 )
Figure imgf000057_0001
l,2,.." M,) の場合において、
(第 1 の方法) 混合重み係数、 平均値、 分散値を更新しない。
(第 2の方法) 混合重み係数の値をゼロにして、 平均値、 分散値を所定 の値にする。
(第 3の方法) 混合重み係数の値を所定の値にして、 平均値、 分散値を 標準モデルめ出力分布を 1 個の分布に表現したときの平均値、 分散値に する。
のいずれかを利用して統計量の値を決定する。なお、利用する方法は、 繰り返し回数 R、 H M M、 H M Mの状態ごとに異なっていてもよい。 こ こでは、 第 1 の方法を用いる。
統計量推定部 3 0 6 dは、 このように推定した標準モデルの統計量を 統計量記憶部 3 0 6 cに記憶する。 そして、 このような統計量の推定と 統計量記憶部 3 0 6 cへの記憶を R (≥ 1 ) 回、 繰り返す。 その結果得 られた統計量を最終的に生成する標準モデル 3 2 2の統計量と して出力 する。
次に、 本実施の形態を P D Aによる環境音識別に適用した具体例を説 明する。
まず、 参照モデル準備部 3 0 2は、 C D— R O Mから環境音の識別に 必要な参照モデルを読み出す。 利用者は、 識別を行う環境 (利用.情報) を考慮して、 識別したい環境音を画面上から選択する。 たとえば、 「乗用 車」 を選択し、 続いて、 「警報音」、 「赤ちゃんの声」、 「電車の音」 などを 選択する。 この選択に基づいて、 参照モデル選択部 3 0 5は、 参照モデ ル記憶部 3 0 3に記憶されている参照モデルの中から対応する参照モデ ルを選択する。 そして、 選択した参照モデル 3 2 3を 1 つずつ用いて、 標準モデル作成部 3 0 6は、 それぞれに対して標準モデルを作成する。 続いて、 利用者は、 P D A 3 0 1 において、 「らく らく情報提供」 (環 境音に基づく状況判断による情報提供) というアプリケーションプログ ラムを起動する。 このアプリケーションは、 環境音に基づいて状況判断 を行い、 利用者に適切な情報を提供するプログラムである。 起動される と、 P D A 3 0 1 の表示画面に 「正確に判断」、 「素早く判断 J という表 示がされる。 これに対して、 利用者はどちらかを選択する。
そして、 仕様情報作成部 3 0 7は、 その選択結果に基づいて、 仕様情 報を作成する。 たとえば、 「正確に判断」 が選択された場合には、 精度を 高くするために、混合分布数を 1 0個とする仕様情報を作成する。一方、 「素早く判断」 が選択された場合には、 高速に処理するために、 混合分 布数を 1個とする仕様情報を作成する。 なお、 複数の P D Aが連携して 処理できる場合などには、 現在利用できる C P Uパワーを判断し、 その C P Uパワーに基づいて仕様情報.を作成してもよい。
このような仕様情報にしたがって、 「乗用車」、 「警報音」、 「赤ちゃんの 声」、 「電車の音」 などの 1 混合の標準モデルが作成される。 そして、 P D A 3 0 1 は、 作成された標準モデルにより環境識別を行い、 その識別 結果に基づき、 各種情報を P D Aの画面に表示する。 例えば、 「乗用車」 が近く にあると識別した場合は、道路地図を表示したり、「赤ちゃんの声」 を識別した場合は、 おもちゃ屋さんの広告を表示したりする。 このよう にして、 本実施の形態における標準モデル作成装置によって作成された 標準モデルを用いた、環境音識別に基づく情報提供が実現される。なお、 アプリケ一ションの仕様に応じて標準モデルの複雑さを調節することが できる。
以上説明したように、 本発明の第 3の実施の形態によれば、 利用情報 に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化 又は極大化するように標準モデルの統計量を計算して標準モデルが作成 されるので、 利用状況によりふさわしい精度の高い標準モデルが提供さ れる。
また、 仕様情報に基づいて標準モデルが作成されるため、 標準モデル を利用する機器にふさわしい標準モデルが準備される。
なお、 統計量推定部 3 0 6 dによる処理の繰リ返し回数は、 上記式 2 5に示された尤度の大きさがある一定のしきい値以上になるまでの回数 と してもよい。
また、 標準モデル 3 2 2を構成する G M Mは、 雑音の種類ごとに異な る混合分布数の混合ガウス分布により構成してもよい。
また、識別モデルは、雑音モデルに限らず、話者を識別してもよいし、 年齢などを識別してもよい。
また、 標準モデル 3 2 2を C D— R O M、 D V D— R A M、 ハー ドデ イスクなどのス トレージデバイスに記録してもよい。
また、 参照モデル 3 2 1 を C D— R O Mなどのス トレージデバイスか ら読み込む代わりに、 P D A 3 0 1 において雑音データから参照モデル 3 2 1 を作成してもよい。
また、 参照モデル準備部 3 0 2は、 必要に応じて C D— R O Mなどの ス トレージデバイスから読み込まれた新たな参照モデルを参照モデル記 憶部 3 0 3に追加 ■ 更新しても'よいし、 参照モデル記憶部 3 0 3に格納 されている不要な参照モデルを削除してもよい。
また、 参照モデル準備部 3 0 2は、 必要に応じて、 通信路を介して新 たな参照モデルを参照モデル記憶部 3 0 3に追加 ■ 更新してもよい。 また、 標準モデルを作成したのちに、 さ らにデータ によ り学習 しても よい。
また、 標準モデル構造決定部は、 標準モデルの構造や、 状態数などを 決定してもよい。
また、 近傍指示パラメータ Gは、 対象とする事象や標準モデルの出力 分布によって異なってもよいし、 繰り返し回数 Rによって変化させても よい。
(第 4の実施の形態)
図 1 9 は、 本発明の第 4の実施の形態における標準モデル作成装置の 全体構成を示すブロ ック図である。 ここでは、 本発明に係る標準モデル 作成装置がコ ンピュータ システムにおけるサーバ 4 0 1 に組み込まれた 例が示されている。 本実施の形態では顏認識用の標準モデルを作成する 場合を例にして説明する。
サーバ 4 0 1 は、 通信システムにおけるコ ンピュータ装置等であり 、 事象の出力確率によって定義される顔認識用の標準モデルを作成する標 準モデル作成装置と して、カメ ラ 4 1 1 と、画像データ蓄積部 4 1 2 と、 参照モデル準備部 4 0 2 と、 参照モデル記憶部 4 0 3 と、 利用情報受信 部 4 0 4 と、 参照モデル選択部 4 0 5 と、 標準モデル作成部 4 0 6 と、 書き込み部 4 1 3 とを備える。
カメ ラ 4 1 1 によ り、 顔の画像データが収集され、 画像データ蓄積部 4 1 2に顔画像データが蓄積される。 参照モデル準備部 4 0 2は、 画像 データ蓄積部 4 1 2が蓄積した顔画像データ を用いて話者ごとに参照モ デル 4 2 1 を作成し、 参照モデル記憶部 4 0 3 に記憶する。
利用情報受信部 4 0 4は、 利用者が希望する顔認識の対象となる人間 の年齢の年代と性別の情報を利用情報 4 2 4 と して電話 4 1 4によ リ受 信する。 参照モデル選択部 4 0 5は、 利用情報受信部 4 0 4が受信した 利用情報 4 2 4に基づいて、 参照モデル記憶部 4 0 3が記憶している参 照モデル 4 2 1 の中から、 利用情報 4 2 4が示す年代と性別の話者に対 応する参照モデル 4 2 3を選択する。
標準モデル作成部 4 0 6は、 参照モデル選択部 4 0 5が選択した話者 の顏画像の参照モデル 4 2 3に対する確率又は尤度を最大化又は極大化 するように標準モデル 4 2 2を作成する処理部であり、 第 2の実施の形 態における標準モデル作成部 2 0 6と同一の機能を有するとともに、 第 1 の実施の形態における第 1 近似部 1 0 4 e と第 3の実施の形態におけ る第 2近似部 3 0 6 eの機能を有する。 つまり、 第 1 〜第 3の実施の形 態で示された 3種類の近似計算を組み合わせた計算を行う。
書き込み部 4 1 3は、 標準モデル作成部 4 0 6が作成した標準モデル 4 2 2を C D— R O Mなどのス トレージデバイスに書き込む。
次に、以上のように構成されたサーバ 4 0 1 の動作について説明する。 図 2 0は、 サーバ 4 0 1 の動作手順を示すフローチャー トである。 図 2 1 は、 サーバ 4 0 1 の動作手順を説明するための参照モデル及び標準 モデルの一例を示す図である。
まず、 標準モデルの作成に先立ち、 その基準となる参照モデルを準備 する (図 2 0のステップ S 4 0 0 )。 つまり、 カメラ 4 1 1 により Aさん から Zさんの顔画像データを収集して画像データ蓄積部 4 1 2に蓄積す る。 參照モデル準備部 4 0 2は、 画像データ蓄積部 4 1 2が蓄積した顔 画像データを用いて、 話者ごとの参照モデル 4 2 1 を E Mアルゴリズム によリ作成する。 ここでは参照モデル 4 2 1 は G MMで構成される。 参照モデル記憶部 4 0 3は、 参照モデル準備部 4 0 2が作成した参照 モデル 4 2 1 を記憶する。 ここでは、 図 2 1 の参照モデル 4 2 1 に示さ れるように、 Aさんから Zさんの全ての参照モデルが、 混合分布数が 5 個の G M Mにより構成される。 特徴量と して 1 0 0次元 ( J = 1 0 0 ) の画素の濃度値を用いる。
次に、 利用情報受信部 4 0 4は、 利用情報 4 2 4である年代と性別の 情報を電話 4 1 4により受信する (図 2 0のステップ S 4 0 1 )。 ここで は、 利用情報 4 2 4と して、 1 1 歳から 1 5歳の男性と 2 2歳から 2 6 歳の女性である。 参照モデル選択部 4 0 5は、 その利用情報 4 2 4に基 づいて、参照モデル記憶部 4 0 3が記憶している参照モデル 4 2 1 から、 利用情報 4 2 4に対応する参照モデル 4 2 3を選択する (図 2 0のステ ップ S 4 0 2 )。 具体的には、 図 2 1 の 「選択された参照モデル 4 2 3」 に示されるように、 ここでは、 1 1 歳から 1 5歳の男性及び 2 2歳から 2 6歳の女性の参照モデルを選択する。
そして、 標準モデル作成部 4 0 6は、 参照モデル選択部 4 0 5が選択 した話者の参照モデル 4 2 3に対する確率又は尤度を最大化又は極大化 するように標準モデル 4 2 2を作成する (図 2 0のステップ S 4 0 3 )。 ここでは、 図 2 1 の標準モデル 4 2 2に示されるように、 2つの標準モ デル 4 2 2それぞれを、 混合分布数が 3個の G M Mにより構成する。 標準モデル 4 2 2の作成方法は、 基本的には、 第 2の実施の形態と同 様に行われる。 ただし、 標準モデル 4 2 2の統計量の推定における近似 計算については、 具体体には、 以下のようにして行われる。 つまり、 標 準モデル作成部 4 0 6は、 内蔵の記憶部等を介することで、 第 1 の実施 の形態における第 1 近似部 1 0 4 eによる近似計算と同様の近似計算よ つて作成したモデルを初期値と して、 第 2の実施の形態における一般近 似部 2 0 6 eによる近似計算と同様の近似計算による計算を行い、 その 結果を初期値と して第 3の実施の形態における第 2近似部 3 0 6 eによ る近似計算と同様の近似計算を行う。
書き込み部 4 1 3は、 標準モデル作成部 4 0 6が作成した 2つの標準 モデル 4 2 2を C D— R O Mなどのス トレージデバイスに書き込む (図 2 0のステップ S 4 0 4 )。
利用者は、 1 1 歳から 1 5歳の男性の標準モデルと 2 2歳から 2 6歳 の女性の標準モデルが書き込まれたス トレージデバイスを郵送で受け取 る。
次に、 本実施の形態を、 行動予測に基づいてお店などを紹介する情報 提供システムに適用した具体例を説明する。 この情報提供システムは、 通信ネッ トワークで接続されたカーナピゲーション装置と情報提供サ一 バ装置から構成される。 力一ナビゲーシヨ ン装置は、 本実施の形態にお ける標準モデル作成装置 4 0 1 によって予め作成された標準モデルを行 動予測モデルと して利用することで、 人の行動 (つまり、 車による行先 等) を予測し、 その行動に関連した情報 (行先の近く に位置するレス ト ランなどのお店の情報など) を提供する機能を備える。
まず、 利用者は、 カーナビゲーシヨン装置を用いて、 電話回線 4 1 4 で接続されたサーバ 4 0 1 に対して、 自分用の行動予測モデルの作成を 依頼する。
具体的には、 利用者は、 カーナビゲ一シヨ ン装置が表示する項目選択 画面で、「らく らく推薦機能」のボタンを押す。すると、利用者の住所(利 用場所)、 年齢、 性別、 趣味などを入力する画面になる。
ここでは、 利用者はお父さんとお母さんとする。 まず、 お父さんの個 人情報を力一ナビゲ一シヨン装置の画面と対話しながら入力する。 住所 については、 電話番号を入力することにより 自動的に変換される。 ある いは、 カーナビゲーシヨン装置において現在位置が表示されているとき に 「利用場所」 のボタンを押すことで、 その現在位置が利用場所と して 入力される。 ここでは住所の情報を住所 Aとする。 年齢と性別について は、 「 5 0代」、 「男」 を選択して入力する。 趣味については、 予め表示さ れたチェック項目があるので、 利用者は、 該当箇所をチェックする。 こ こではお父さんの趣味の情報を趣味情報 Aとする。
続いて、 お母さんの個人情報についても同様に入力する。 住所 B、 4 0代、 女、 趣味情報 Bからなる個人情報が作成される。 このような入力 の結果は、 図 2 2の画面表示例に示されるとおりである。
最後に、 カーナビゲーシヨン装置は、 このようにして作成された個人 情報を利用情報と して、 付属の電話回線 4 1 4を用いて、 情報提供サー バ装置であるサーバ 4 0 1 に転送する。
次に、 サーバ 4 0 1 は、 転送されてきた個人情報 (利用情報) に基づ いて、お父さんとお母さんの 2個の行動予測モデルを作成する。ここで、 行動予測モデルは、 確率モデルで表現され、 その入力は、 曜日、 時刻、 現在地などで、 出力は、 お店 Aの情報を提示する確率、 お店 Bの情報を 提示する確率、 お店 Cの情報を提示する確率、 駐車場の情報を提示する 確率などである。
サーバ 4 0 1 の參照モデル記憶部 4 0 3に記憶されている複数の参照 モデルは、 年代、 性別、 代表的な住所と趣味の傾向で作成した行動予測 モデルである。 サーバ 4 0 1 では、 予め、 カメラ 4 1 1 に代えて、 力一 ナビゲーシヨ ン装置の入力ボタン等を用いて各種個人情報 (上記入力及 ぴ出力についての情報) を入力することで、 画像データ蓄積部 4 1 2に 各種個人情報を蓄積したうえで、 参照モデル準備部 4 0 2によって、 画 像データ蓄積部 4 1 2に蓄積された個人情報から、 複数種類の典型的な 利用者ごとの参照モデル 4 2 1 が作成され、 参照モデル記憶部 4 0 3に 格納されている。
参照モデル選択部 4 0 5は、 個人情報 (利用情報) を用いて、 個人情 報にふさわしい参照モデルを選択する。 例えば、 同じ町の、 年代と性別 が同じで、 趣味のチェック項目が 8割以上一致した参照モデルを選択す る。 サーバ 4 0 1 の標準モデル作成部 4 0 6は、 選択された参照モデル を統合した標準モデルを作成する。 作成された標準モデルは書き込み部 4 1 3によ り、 メモリ カー ドに記憶される。 ここでは、 お父さんとお母 さんの 2人の標準モデルが記憶される。 メモリ カー ドは、 郵送で利用者 に届けられる。
利用者は、 受け取ったメモリ カー ドをカーナビゲ一シヨ ン装置に挿入 し、 画面に表示された 「お父さん」 と 「お母さん」 を選択するこ とで、 利用者を設定する。 これによつて、 カーナビゲーシヨ ン装置は、 装着さ れたメモリ 力一 ドに記憶された標準モデルを行動予測モデルと して使用 することで、 現在の曜日、 時刻、 場所などから、 必要なタイ ミングでお 店の情報などを提示する。 このよ うにして、 本実施の形態における標準 モデル作成装置によって作成された標準モデルを行動予測モデルと して 用いることで、 人の行動 (つまり、 車による行先) を予測し、 その行動 に関連した情報を提供する情報提供システムが実現される。
以上説明したように、 本発明の第 4の実施の形態によれば、 利用情報 に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化 又は極大化するように標準モデルの統計量を計算して標準モデルが作成 されるので、 利用状況によ リふさわしい高精度な標準モデルが提供され る。
なお、 標準モデル 4 2 2 を構成する G M Mは、 話者ごとに異なる分布 数の混合ガウス分布によ り構成してもよい。
また、 参照モデル準備部 4 0 2は、 必要に応じて新たな参照モデルを 作成して参照モデル記憶部 4 0 3 に追加 ' 更新してもよいし、 参照モデ ル記憶部 4 0 3に格納されている不要な参照モデルを削除してもよい。 また、 標準モデルを作成したのちに、 さ らにデータによ り学習しても よい。
また、 標準モデル構造決定部は、 標準モデルの構造や、 状態数などを 決定してもよい。
(第 5の実施の形態)
図 2 3は、 本発明の第 5の実施の形態における標準モデル作成装置の 全体構成を示すブロック図である。 ここでは、 本発明に係る標準モデル 作成装置がコンピュータシステムにおけるサーバ 5 0 1 に組み込まれた 例が示されている。 本実施の形態では音声認識用の標準モデル (適応モ デル) を作成する場合を例にして説明する。
サーバ 5 0 1 は、 通信システムにおけるコンピュータ装置等であり、 事象の集合と事象又は事象間の遷移の出力確率とによって定義される音 声認識用の標準モデルを作成する標準モデル作成装置と して、 読み込み 部 5 1 1 と、 音声データ蓄積部 5 1 2と、 参照モデル準備部 5 0 2と、 参照モデル記憶部 5 0 3と、 利用情報受信部 5 0 4と、 参照モデル選択 部 5 0 5と、 標準モデル作成部 5 0 6と、 仕様情報受信部 5 0 7 と、 書 き込み部 5 1 3とを備える。
読み込み部 5 1 1 は、 C D— R O Mなどのス ト レージデバイスに書き 込まれた子供、 成人、 高齢者の音声データを読み込み、 音声データ蓄積 部 5 1 2に蓄積する。 参照モデル準備部 5 0 2は、 音声データ蓄積部 5 1 2が蓄積した音声データを用いて話者ごとに参照モデル 5 2 1 を作成 する。 参照モデル記憶部 5 0 3は、 参照モデル準備部 5 0 2が作成した 参照モデル 5 2 1 を記憶する。
仕様情報受信部 5 0 7は、 仕様情報 5 2 5を受信する。 利用情報受信 部 5 0 4は、 利用情報 5 2 4である利用者の音声を受信する。 参照モデ ル選択部 5 0 5は、 利用情報 5 2 4である利用者の音声に音響的に近い 話者の参照モデルを、 参照モデル記憶部 5 0 3が記憶している参照モデ ル 5 2 1 から選択する。
標準モデル作成部 5 0 6は、 仕様情報 5 2 5に基づいて、 参照モデル 選択部 5 0 5が選択した話者の参照モデル 5 2 3に対する確率又は尤度 を最大化又は極大化するように標準モデル 5 2 2を作成する処理部であ リ、 第 1 の実施の形態における標準モデル作成部 1 0 4と同一の機能を 有する。 書き込み部 5 1 3は、 標準モデル作成部 5 0 6が作成した標準 モデル 5 2 2を C D— R O Mなどのス トレージデバイスに書き込む。 次に、以上のように構成されたサーバ 5 0 1 の動作について説明する。 図 2 4は、 サーバ 5 0 1 の動作手順を示すフローチャー トである。 図 2 5は、 サーバ 5 0 1 の動作手順を説明するための参照モデル及び標準 モデルの一例を示す図である。
まず、 標準モデルの作成に先立ち、 その基準となる参照モデルを準備 する (図 2 4のステップ S 5 0 0 )。 つまり、 読み込み部 5 1 1 は、 C D — R O Mなどのス トレ一ジデバイスに書き込まれた音声データを読み込 み、 音声データ蓄積部 5 1 2に蓄積する。 参照モデル準備部 5 0 2は、 音声データ蓄積部 5 1 2が蓄積した音声データを用いて話者ごとに参照 モデル 5 2 1 をバウム ' ウエルチの再推定の方法により作成する。 参照 モデル記憶部 5 0 3は、 参照モデル準備部 5 0 2が作成した参照モデル 5 2 1 を記憶する。
参照モデル 5 2 1 は、音素ごとの H M Mにより構成される。ここでは、 図 2 5の参照モデル 5 2 1 に示されるように、 子供の各話者の参照モデ ルは、 状態数 3個、 各状態は混合分布数が 3個の混合ガウス分布により H M Mの出力分布が構成され、 成人の各話者の参照モデルが、 状態数 3 個、 各状態は混合分布数が 6 4個の混合ガウス分布により H M Mの出力 分布が構成され、 高齢者の各話者の参照モデルは、 状態数 3個、 各状態 は混合分布数が 1 6個の混合ガウス分布によ り H M Mの出力分布が構成 される。 これは、 子供の音声データが比較的少なく、 成人の音声データ が多いためである。 特徴量と して 2 5次元 ( J = 2 5 ) のメルケプス ト ラム係数が用いられる。
次に、 利用情報受信部 5 0 4は、 利用者の音声を、 端末装置 5 1 4か ら、 利用情報 5 2 4 と して受信する (図 2 4のステップ S 5 0 1 )。 参照 モデル選択部 5 0 5は、 利用情報 5 2 4である利用者の音声に音響的に 近い参照モデル 5 2 3を、 参照モデル記憶部 5 0 3が記憶している参照 モデル 5 2 1 から選択する (図 2 4のステップ S 5 0 2 )。 具体的には、 図 2 5の「選択された参照モデル 5 2 3」に示されるように、ここでは、 近い話者 1 0人 ( N g= 1 0 ) の参照モデルが選択される
そして、 仕様情報受信部 5 0 7は、 利用者の要求に基づき仕様情報 5 2 5を端末装置 5 1 4から受信する (図 2 4のステップ S 5 0 3 )。 ここ では、 速い認識処理という仕様情報 5 2 5を受信する。 標準モデル作成 部 5 0 6は、 仕様情報受信部 5 0 7が受信した仕様情報 5 2 5に基づい て、 参照モデル選択部 5 0 5が選択した話者の参照モデル 5 2 3に対す る確率又は尤度を最大化又は極大化するように標準モデル 5 2 2を作成 する (図 2 4のステップ S 5 0 4 )。 具体的には、 標準モデル 5 2 2は、 図 2 5の標準モデル 5 2 2に示されるように、 仕様情報 5 2 5である速 い認識処理という情報に基づいて、 2混合 (Mf= 2 ) で、 3状態の H M Mより構成する。 H M Mは音素ごとに構成する。
標準モデル 5 2 2の作成方法は、第 1 の実施の形態と同様に行われる。 書き込み部 5 1 3は、 標準モデル作成部 5 0 6が作成した標準モデル 5 2 2を C D— R O Mなどのス トレージデバイスに書き込む (図 2 4の ステップ S 5 0 5 )。
次に、 本実施の形態を、 通信ネッ トワークを用いた音声認識によるゲ ームに適用した具体例を説明する。 ここでは、 サーバ 5 0 1 は、 作成し た標準モデルを用いて音声認識を行う音声認識部を備えるものとする。 また、 端末装置 5 1 4と して、 P D Aとする。 これらは、 通信ネッ トヮ ークで接続されている。
サーバ 5 0 1 では、 読み込み部 5 1 1 、 音声データ蓄積部 5 1 2及び 参照モデル準備部 5 0 2により、 音声データを C Dや D V Dなどで入手 したタイ ミングで参照モデルを逐次準備している。
利用者は、 P D A (端末装置 5 1 4 ) において、 音声認識を利用した ゲームプログラム、 ここでは、 「アクションゲーム」 を立ち上げる。 する と、「『アクショ ン』 と発声してください」 と表示されるので、利用者は、 「アクション」 と発声する。 その音声は、 利用情報と して、 P D A (端 末装置 5 1 4 ) からサーバ 5 0 1 に送信され、 サーバ 5 0 1 の利用情報 受信部 5 0 4及び参照モデル選択部 5 0 5により、 参照モデル記憶部 5 0 3に記憶された複数の参照モデルの中から利用者に合った参照モデル を選択する。
また、 利用者は、 速く リアクションしてほしいので、 P D A (端末装 置 5 1 4 ) の設定画面において 「高速に認識する」 と設定する。 その設 定内容は、 仕様情報と して、 P D A (端末装置 5 1 4 ) からサーバ 5 0 1 に送信され、 サーバ 5 0 1 においては、 このような仕様情報及び選択 された参照モデルに基づいて、 標準モデル作成部 5 0 6により、 2混合 の標準モデルが作成される。
利用者は、アクショ ンゲームにおいて、 P D Aのマイクに「右に移動」、 「左に移動」 などのコマン ドを発声する。 入力された音声は、 サーバへ 送信され、 既に作成された標準モデルを利用した音声認識が行われる。 その認識結果は、 サーバ 5 0 1 から P D A (端末装置 5 1 4 ) に送信さ れ、 P D A (端末装置 5 1 4 ) において、 送信されてきた認識結果に基 づいて、 アクションゲームのキャラクタが動く。 このようにして、 本実 施の形態における標準モデル作成装置によって作成された標準モデルを 音声認識に用いることで、 音声によるアクショ ンゲームが実現される。 また、 同様にして、 本実施の形態を別のアプリケーショ ン、 例えば、 通信ネッ トワークを用いた翻訳システムに適用することもできる。 たと えば、 利用者は、 P D A (端末装置 5 1 4 ) において、 「音声翻訳」 とい うアプリケーションプログラムを立ち上げる。 すると、 「『翻訳』 と発声 してください」 と表示される。 利用者は、 「翻訳」 と発声する。 その音声 は、 利用情報と して、 P D A (端末装置 5 1 4 ) からサーバ 5 0 1 に送 信される。 また、 利用者は、 正確に認識してほしいので、 そのアプリケ ーシヨンにおいて、「正確に認識してほしい」旨を指示する。その指示は、 仕様情報と して、 P D A (端末装置 5 1 4 ) からサーバ 5 0 1 に送信さ れる。 サーバ 5 0 1 では、 送信されてきた利用情報及び仕様情報に従つ て、 たとえば、 1 0 0混合の標準モデルが作成される。
利用者は、 P D A (端末装置 5 1 4 ) のマイクに向かって 「おはよう ございます」 と発声する。 入力された音声は P D A (端末装置 5 1 4 ) からサーバ 5 0 1 に送信され、 サーバ 5 0 1 で 「おはようございます」 と認識された後に、 その認識結果が P D A (端末装置 5 1 4 ) に返信さ れる。 P D A (端末装置 5 1 4 ) は、 サーバ 5 0 1 から受信した認識結 果を英語に翻訳し、 その結果 「G O O D M O R N I N G」 を画面に表 示する。 このようにして、 本実施の形態における標準モデル作成装置に よって作成された標準モデルを音声認識に用いることで、 音声による翻 訳装置が実現される。
以上説明したように、 本発明の第 5の実施の形態によれば、 利用情報 に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化 又は極大化するように標準モデルの統計量を計算して標準モデルが作成 されるので、 利用状況によリふさわしい精度の高い標準モデルが提供さ れる。
また、 仕様情報に基づいて標準モデルが作成されるため、 標準モデル を利用する機器にふさわしい標準モデルが準備される。
また、 参照モデル準備部 5 0 2において、 参照モデルごとにデータ数 に適した混合分布数の精度の高い参照モデルを準備でき、 精度の高い参 照モデルを用いて標準モデルを作成できる。 このため精度の高い標準モ デルの利用が可能となる。
なお、 標準モデル 5 2 2は、 音素ごとに H M Mを構成するに限らず、 文脈依存の H M Mで構成してもよい。
また、 標準モデル 5 2 2を構成する H M Mは、 状態ごとに異なる分布 数の混合ガウス分布により構成してもよい。
また、 標準モデル 5 2 2を用いて、 サーバ 5 0 1 において音声認識を 行ってもよい。
また、 参照モデル準備部 5 0 2は、 必要に応じて新たな参照モデルを 作成して参照モデル記憶部 5 0 3に追加 ■ 更新してもよいし、 参照モデ ル記憶部 5 0 3に格納されている不要な参照モデルを削除してもよい。 また、 標準モデルを作成したのちに、 さらにデータにより学習しても よい。
また、 標準モデル構造決定部は、 標準モデルの構造や、 状態数などを 決定してもよい。
(第 6の実施の形態)
図 2 6は、 本発明の第 6の実施の形態における標準モデル作成装置の 全体構成を示すブロック図である。 ここでは、 本発明に係る標準モデル 作成装置がコンピュータシステムにおけるサーバ 6 0 1 に組み込まれた 例が示されている。 本実施の形態では意図理解のための標準モデル (嗜 好モデル) を作成する場合を例にして説明する。
サーバ 6 0 1 は、 通信システムにおけるコンピュータ装置等であり、 事象の出力確率によって定義される意図理解用の標準モデルを作成する 標準モデル作成装置と して、 読み込み部 6 1 1 と、 参照モデル準備部 6 0 2と、 参照モデル記憶部 6 0 3 と、 利用情報受信部 6 0 4と、 參照モ デル選択部 6 0 5と、 標準モデル作成部 6 0 6 と、 仕様情報作成部 6 0 7 とを備える。
読み込み部 6 1 1 は、 C D— R O Mなどのス トレージデバイスに書き 込まれた年齢別の話者 Aさんから話者 Zさんの嗜好モデルを読み込み、 参照モデル準備部 6 0 2は、 読み込まれた参照モデル 6 2 1 を参照モデ ル記憶部 6 0 3へ送信し、 参照モデル記憶部 6 0 3は、 参照モデル 6 2 1 を記憶する。
仕様情報作成部 6 0 7は、 普及しているコンピュータの C P Uパワー に合わせて仕様情報 6 2 5を作成する。 利用情報受信部 6 0 4は、 端末 装置 6 1 4から利用情報 6 2 4を受信する。参照モデル選択部 6 0 5は、 利用情報受信部 6 0 4が受信した利用情報 6 2 4に基づいて、 参照モデ ル記憶部 6 0 3が記憶している参照モデル 6 2 "I からの中から、 利用情 報 6 2 4に対応した参照モデル 6 2 3を選択する。
標準モデル作成部 6 0 6は、 仕様情報作成部 6 0 7が作成した仕様情 報 6 2 5に基づいて、 参照モデル選択部 6 0 5が選択した参照モデル 6 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 6 2 2を作成する処理部であり、 第 2の実施の形態における標準モデル作 成部 2 0 6と同一の機能を有するとともに、 第 3の実施の形態における 第 2近似部 3 0 6 eの機能を有する。 つまり、 第 2及び第 3の実施の形 態で示された 2種類の近似計算を組み合わせた計算を行う。
次に、以上のように構成されたサーバ 6 0 1 の動作について説明する。 図 2 7は、 サーバ 6 0 1 の動作手順を示すフローチャー トである。 図 2 8は、 サーバ 6 0 1 の動作手順を説明するための参照モデル及び標準 モデルの一例を示す図である。 まず、 標準モデルの作成に先立ち、 その基準となる参照モデルを準備 する (図 2 7のステップ S 6 0 0 )。 つまり、 読み込み部 6 1 1 は、 C D 一 R O Mなどのス トレ一ジデバイスに書き込まれた年齢別の話者 Aさん から話者 Zさんの嗜好モデルを読み込み、 参照モデル準備部 6 0 2は、 読み込まれた参照モデル 6 2 1 を参照モデル記憶部 6 0 3へ送信し、 参 照モデル記憶部 6 0 3は、 参照モデル 6 2 1 を記憶する。
参照モデル 6 2 1 は、 G M Mより構成される。 ここでは、 図 2 8の参 照モデル 6 2 1 に示されるように、 混合分布数が 3個の G M Mにより構 成される。 学習データと して、 趣味、 性格などを数値化した 5次元 ( J = 5 ) の特徴量を用いる。 参照モデルの準備は、 標準モデルの作成が要 求される以前に行う。
次に、 利用情報受信部 6 0 4は、 嗜好モデルを作成したい年齢層であ る利用情報 6 2 4を受信する (図 2 7のステップ S 6 0 1 )。 こ こでは、 2 0代、 3 0代、 4 0代の年代別の嗜好モデルを利用するという利用情 報 6 2 4である。 参照モデル選択部 6 0 5は、 図 2 8の 「選択された参 照モデル 6 2 3」 に示されるように、 利用情報受信部 6 0 4が受信した 利用情報 6 2 4が示す年代の話者の嗜好モデルを、 参照モデル記憶部 6 0 3が記憶している参照モデル 6 2 1 から選択する (図 2 7のステップ S 6 0 2 )。
そして、 仕様情報作成部 6 0 7は、 普及しているコンピュータの C P Uパワー、 記憶容量などに基づき仕様情報 6 2 5を作成する (図 2 7の ステップ S 6 0 3 )。 ここでは、通常速度の認識処理という仕様情報 6 2 5を作成する。
標準モデル作成部 6 0 6は、 仕様情報作成部 6 0 7が作成した仕様情 報 6 2 5に基づいて、 参照モデル選択部 6 0 5が選択した話者の参照モ デル 6 2 3に対する確率又は尤度を最大化又は極大化するように標準モ デル 6 2 2を作成する (図 2 7のステップ S 6 0 4 )。 こ こでは、 標準モ デル 6 2 2は、 図 2 8の標準モデル 6 2 2に示されるように、 仕様情報 6 2 5である通常速度の認識処理という情報に基づいて 3混合 ( M f = 3 ) の G M Mより構成する。
標準モデル 6 2 2の作成方法は、 基本的には、 第 2の実施の形態と同 様に行われる。 ただし、 標準モデル 6 2 2の統計量の推定における近似 計算については、 具体体には、 以下のようにして行われる。 つまり、 標 準モデル作成部 6 0 6は、 内蔵の記憶部等を介することで、 第 2の実施 の形態における一般近似部 2 0 6 eによる近似計算と同様の近似計算に よる計算を行い、 その結果を初期値と して第 3の実施の形態における第 2近似部 3 0 6 eによる近似計算と同様の近似計算を行う。
次に、 本実施の形態を情報検索装置に適用した具体例を説明する。 こ こでは、 参照モデルは、 入力が検索キーワー ドであり、 出力が検索ルー ル A、 検索ルール Bなどを利用する確率である。 異なる検索ルールを用 いると、 表示される検索結果が異なってく る。 また、 サーバ 6 0 1 の参 照モデル記憶部 6 0 3に準備される参照モデルは、 代表的な特徴をもつ 話者のモデルとする。
まず、 利用者は、 サーバ 6 0 1 に付属しているリモコ ン (端末装置 6 1 4 ) を用いて利用情報を入力する。 利用情報は、 年齢、 性格、 性別、 趣味などでである。 また、 「子供」、 「俳優」、 「高校生」 などの所定のグル ープを識別する情報であってもよい。
続いて、 利用者は、 選択画面で、 「カーナビゲーシヨン装置用」、 「携帯 電話用」、 「パソコン用」、 「テレビ用」 などから 1 つの利用機器を選択す る。サーバ 6 0 1 の仕様情報作成部 6 0 7は、利用機器の C P Uパワー、 記憶容量に基づいて仕様情報を作成する。 ここでは、 「テレビ用」 が選択 されたと し、 C P Uパワーと記憶容量が小さい旨の仕様情報 6 2 5が作 成され、 その仕様情報 6 2 5に基づいて、 標準モデル作成部 6 0 6によ つて、 小さい C P Uパワーでも動作する 3混合の標準モデルが作成され る。 作成された標準モデルはメモリカー ドに書き込まれ、 そのメモリ力 ードは利用者によってテレビに挿入される。
利用者は、 テレビに表示された E P Gなどで、 おすすめ番組を検索す るために検索キーワードを入力する。 すると、 テレビは、 メモリカー ド に記録された標準モデルを用いて、 検索キーヮー ドに合った検索ルール を決定し、 その検索ルールに沿って番組を検索し、 利用者の嗜好にあつ た番組と して表示する。 このようにして、 本実施の形態における標準モ デル作成装置によって作成された標準モデルを用いた便利な検索装置が 実現される。
以上説明したように、 本発明の第 6の実施の形態によれば、 利用情報 に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化 又は極大化するように標準モデルの統計量を計算して標準モデルが作成 されるので、 利用状況によりふさわしい精度の高い標準モデルが提供さ れる。
また、 仕様情報に基づいて標準モデルが作成されるため、 標準モデル を利用する機器にふさわしい標準モデルが準備される。
なお、 標準モデル 6 2 2を構成する G M Mは、 話者ごとに異なる分布 数の混合ガウス分布により構成してもよい。
また、 参照モデル準備部 6 0 2は、 必要に応じて C D _ R O Mなどの ス トレージデバイスから読み込まれた新たな参照モデルを参照モデル記 憶部 6 0 3に追加 ' 更新してもよいし、 参照モデル記憶部 6 0 3に格納 されている不要な参照モデルを削除してもよい。
また、 参照モデル及び標準モデルの G M Mはベイジアンネッ トの一部 を表現するものでもよい。 また、 標準モデルを作成したのちに、 さらにデータにより学習しても よい。
また、 標準モデル構造決定部は、 モノ フォン、 トライフォン、 状態共 有型などの H M Mの構造や、 状態数などを決定してもよい。
(第 7の実施の形態)
図 2 9は、 本発明の第 7の実施の形態における標準モデル作成装置の 全体構成を示すブロック図である。 ここでは、 本発明に係る標準モデル 作成装置がコンピュータシステムにおけるサーバ 7 0 1 に組み込まれた 例が示されている。 本実施の形態では音声認識用の標準モデル (適応モ デル) を作成する場合を例にして説明する。
サーバ 7 0 1 は、 通信システムにおけるコンピュータ装置等であり、 事象の集合と事象又は事象間の遷移の出力確率とによって定義される音 声認識用の標準モデルを作成する標準モデル作成装置と して、 読み込み 部 7 1 1 と、 参照モデル準備部 7 0 2と、 参照モデル記憶部 7 0 3 と、 利用情報受信部 7 0 4と、 参照モデル選択部 7 0 5と、 標準モデル作成 部 7 0 6と、 仕様情報受信部 7 0 7 と、 標準モデル記憶部 7 0 8 と、 標 準モデル送信部 7 0 9とを備える。
参照モデル準備部 7 0 2は、 読み込み部 7 1 1 が読み込んだ、 C D— R O Mなどのス トレージデバイスに書き込まれた話者 ' 雑音 ■ 声の調子 別の音声認識用参照モデルを参照モデル記憶部 7 0 3へ送信し、 参照モ デル記憶部 7 0 3は、 送信された参照モデル Ί 2 1 を記憶する。
仕様情報受信部 7 0 7は、 端末装置 7 1 2から仕様情報 7 2 5を受信 する。 利用情報受信部 7 0 4は、 端末装置 7 1 2から利用情報 7 2 4で ある雑音下で発声した利用者の音声を受信する。 参照モデル選択部 7 0 5は、 利用情報 7 2 4である利用者の音声に音響的に近い話者 ' 雑音 - 声調子の参照モデル 7 2 3を、 参照モデル記憶部 7 0 3が記憶している 参照モデル 7 2 1 の中から選択する。
標準モデル作成部 7 0 6は、 仕様情報受信部 7 0 7が受信した仕様情 報 7 2 5に基づいて、 参照モデル選択部 7 0 5が選択した参照モデル, 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 7 2 2を作成する処理部であり、 第 2の実施の形態における標準モデル作 成部 2 0 6と同一の機能を有する。 標準モデル記憶部 7 0 8は、 仕様情 報 7 2 5に基づいた 1 もしくは複数の標準モデルを記憶する。 標準モデ ル送信部 7 0 9は、 利用者の端末装置 7 1 2から仕様情報と標準モデル の要求信号を受信すると、 その仕様情報に適した標準モデルを端末装置 7 1 2へ送信する。
次に、以上のように構成されたサーバ 7 0 1 の動作について説明する。 図 3 0は、 サーバ 7 0 1 の動作手順を示すフローチヤ一トである。 図 3 1 は、 サーバ 7 0 1 の動作手順を説明するための参照モデル及び標準 モデルの一例を示す図である。
まず、 標準モデルの作成に先立ち、 その基準となる参照モデルを準備 する(図 3 0のステップ S 7 0 0 )。つまり、参照モデル準備部 7 0 2は、 読み込み部 7 1 1 が読み込んだ、 C D— R O Mなどのス トレージデバイ スに書き込まれた話者 ■ 雑音 ■ 声の調子別の音声認識用参照モデルを参 照モデル記憶部 7 0 3へ送信し、 参照モデル記憶部 7 0 3は、 送信され た参照モデル 7 2 1 を記憶する。 こ こでは、参照モデル 7 2 1 は、話者 ' 雑音 ' 声の調子ごとに、 音素ごとの H M Mにより構成される。 また、 各 参照モデルは、 図 3 1 の参照モデル 7 2 1 に示されるように、 状態数 3 個、 各状態は混合分布数が 1 2 8個の混合ガウス分布により H M Mの出 力分布が構成される。 特徴量と して 2 5次元 ( J = 2 5 ) のメルケプス トラム係数が用いられる。
次に、 利用情報受信部 7 0 4は、 利用者 Aの雑音下での音声を端末装 置 7 1 2から利用情報 7 2 4と して受信する (図 3 0のステップ S 7 0 1 )。参照モデル選択部 7 0 5は、利用情報 7 2 4である利用者 Aの音声 に音響的に近い参照モデル 7 2 3を、 参照モデル記憶部 7 0 3が記憶し ている参照モデル 7 2 1 の中から選択する(図 3 0のステップ S 7 0 2 )。 具体的には、 図 3 1 の 「選択された参照モデル 7 2 3」 に示されるよう に、 こ こでは、 近い話者 1 0 0人 ( N g= 1 0 0 ) の参照モデルが選択 される
そして、 仕様情報受信部 7 0 7.は、 利用者 Aの要求に基づき仕様情報 7 2 5を端末装置 7 1 2から受信する (図 3 0のステップ S 7 0 3 )。 こ こでは、 高い認識精度という仕様情報 7 2 5を受信する。 標準モデル作 成部 7 0 6は、 仕様情報 7 2 5に基づいて、 参照モデル選択部 7 0 5が 選択した参照モデル 7 2 3に対する確率又は尤度を最大化又は極大化す るように標準モデル 7 2 2を作成する (図 3 0のステップ S 7 0 4 )。具 体的には、 標準モデル 7 2 2は、 図 3 1 の標準モデル 7 2 2に示される ように、 仕様情報 7 2 5である高い認識精度という情報に基づいて、 6 4混合 ( M f = 6 4 ) で、 3状態の H M Mより構成する。 H M Mは音素ご とに構成する。
標準モデル 7 2 2の作成方法は、第 2の実施の形態と同様に行われる。 標準モデル記憶部 7 0 8は、 仕様情報 7 2 5に基づいた 1 もしくは複 数の標準モデル 7 2 2を記憶する。 ここでは、 以前に作成した標準モデ ルである利用者 Bの 1 6混合の H M Mがすでに記憶されており、 新たに 利用者 Aの 6 4混合の H M Mが記憶される。
利用者 Aは、 端末装置 7 1 2からサーバ 7 0 1 の標準モデル送信部 7 0 9へ、 仕様情報である利用者 Aと雑音の種類と標準モデルの要求信号 とを送信する(図 3 0のステップ S 7 0 6 )。標準モデル送信部 7 0 9は、 利用者 Aが送信した仕様情報と標準モデルの要求信号とを受信すると、 その端末装置 7 1 2へ、 仕様に適した標準モデルを端末装置 7 1 2へ送 信する (図 3 0のステップ S 7 0 7 )。 ここでは、 先ほど作成した利用者 Aの標準モデル 7 2 2を端末装置 7 1 2へ送信する。
利用者 Aは端末装置 7 1 2において受信した標準モデル 7 2 2を用い て音声認識を行う (図 3 0のステップ S 7 0 8 )。
次に、 本実施の形態を、 通信ネッ トワークで接続されたカーナビゲ一 シヨン装置 (端末装置 7 1 2 ) とサーバ装置 (サーバ 7 0 1 ; 標準モデ ル作成装置) から構成される音声認識システムに適用した具体例を説明 する。
まず、 利用者は、 カーナビゲーシヨ ン装置 (端末装置 7 1 2 ) の画面 にて 「自分の音声モデルを獲得」 する旨のポタンを選択する。 すると、 「名前を入力」 と表示されるので、 ボタン操作により 自分の名前を入力 する。 次に、 ("『音声』 と発声してください」 と表示されるので、 利用者 は、 カーナビゲ一シヨン装置付属のマイクに向かって 「音声」 と発声す る。 これらの情報 (利用者の名前、 雑音下での音声) は、 利用情報と し て、 カーナビゲーシヨン装置 (端末装置 7 1 2 ) からサーバ 7 0 1 に送 信される。
同様にして、 利用者は、 カーナビゲーシヨン装置 (端末装置 7 1 2 ) の画面にて 「高精度の音声認識」 のボタンを選択する。 すると、 その選 択情報は、 仕様情報と して、 力一ナビゲーション装置 (端末装置 7 1 2 ) からサーバ 7 0 1 に送信される。
サーバ 7 0 1 は、 それらの利用情報及び仕様情報に基づいて、 利用者 にふさわしい音声認識用の標準モデルを作成し、 作成した標準モデルを 利用者の名前と対応づけて標準モデル記憶部 7 0 8に格納しておく。 次回にカーナビゲーシヨ ン装置 (端末装置 7 1 2 ) を起動すると、 「名 前を入力」 と表示されるので、 利用者は、 名前を入力する。 すると、 そ の名前がサーバ 7 0 1 に送信され、 標準モデル 7 2 2に格納された対応 する標準モデルが標準モデル送信部 7 0 9によってサーバ 7 0 1 から端 末装置 7 1 2に送信される。 名前 (利用者) に対応した標準モデルをサ ーバ 7 0 1 からダウンロードした端末装置 7 1 2は、 その標準モデルを 用いて、 利用者に対する音声認識を行い、 音声による目的地設定などを 行う。 このようにして、 本実施の形態における標準モデル作成装置によ つて作成された標準モデルを音声認識に用いることで、 音声によって力 ーナビゲーショ ン装置を操作することが可能となる。
以上説明したように、 本発明の第 7の実施の形態によれば、 利用情報 に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化 又は極大化するように標準モデルの統計量を計算して標準モデルが作成 されるので、 利用状況によリふさわしい精度の高い標準モデルが提供さ れる。
また、 仕様情報に基づいて標準モデルが作成されるため、 標準モデル を利用する機器にふさわしい標準モデルが準備される。
また、 標準モデル記憶部 7 0 8は、 複数の標準モデルを記憶すること ができるため、 必要に応じてすぐに標準モデルが提供される。
また、 標準モデル送信部 7 0 9により、 標準モデルが端末装置 7 1 2 へ送信されるので、 端末装置 7 1 2とサーバ 7 0 1 が空間的に離れた場 所に設置してある場合に、 端末装置 7 1 2は、 容易にサーバ 7 0 1 が作 成した標準モデルを利用することできる。
なお、 標準モデル 7 2 2は、 音素ごとに H M Mを構成するに限らず、 文脈依存の H M Mで構成してもよい。
また、 標準モデル 7 2 2を構成する H M Mは、 状態ごとに異なる混合 数の混合ガウス分布により構成してもよい。
また、 標準モデル 7 2 2を用いて、 サーバ 7 0 1 において音声認識を 行い、 認識結果を端末装置 7 1 2へ送信してもよい。
また、 参照モデル準備部 7 0 2は、 必要に応じて新たな参照モデルを 作成して参照モデル記憶部 7 0 3に追加 ■ 更新してもよいし、 參照モデ ル記憶部 7 0 3 に格納されている不要な参照モデルを削除してもよい。 また、 参照モデル準備部 7 0 2は、 必要に応じて、 通信路を介して新 たな参照モデルを参照モデル記憶部 7 0 3に追加 ■ 更新してもよい。 また、 標準モデルを作成したのちに、 さ らにデータによ り学習しても よい。
また、 標準モデル構造決定部は、 モノ フォン、 トライ フォン、 状態共 有型などの H M Mの構造や、 状態数などを決定してもよい。
(第 8の実施の形態)
図 3 2は、 本発明の第 8の実施の形態における標準モデル作成装置の 全体構成を示すブロ ック図である。 ここでは、 本発明に係る標準モデル 作成装置が携帯電話 9 0 1 に組み込まれた例が示されている。 本実施の 形態では音声認識用の標準モデルを作成する場合を例に して説明する。 携帯電話 9 0 1 は、 携帯情報端末であり、 事象の集合と事象又は事象 間の遷移の出力確率で表現された隠れマルコ フモデルによって定義され る音声認識用の標準モデルを作成する標準モデル作成装置と して、 参照 モデル受信部 9 0 9 と、 参照モデル準備部 9 0 2 と、 参照モデル記憶部 9 0 3 と、 利用情報作成部 9 0 4 と、 参照モデル選択部 9 0 5 と、 類似 度情報作成部 9 0 8 と、 標準モデル作成部 9 0 6 と、 仕様情報作成部 9 0 7 と、 マイク 9 1 2 と、 音声認識部 9 1 3 とを備える。
利用情報作成部 9 0 4は、 利用情報 9 2 4を携帯電話 9 0 1 の画面と キーを利用して作成する。
仕様情報作成部 9 0 7 は、 携帯電話 9 0 1 の仕様に基づき仕様情報 9 2 5 を作成する。 ここで、 仕様情報とは、 作成する標準モデルの仕様に 関する情報であり 、 ここでは、 携帯電話 9 0 1 が備える C P Uの処理能 力に関する情報である。
類似度情報作成部 9 0 8 は、 利用情報 9 2 4 と仕様情報 9 2 5 と参照 モデル記憶部 9 0 3が記憶した参照モデル 9 2 1 に基づいて、 類似度情 報 9 2 6 を作成して参照モデル準備部に送信する。
参照モデル準備部 9 0 2は、 類似度情報 9 2 6に基づいて、 参照モデ ルを準備するか否かを決定する。 参照モデル準備部 9 0 2は、 参照モデ ルを準備すると決定した場合に、 利用情報 9 2 4 と仕様情報 9 2 5 を参 照モデル受信部 9 0 9に送信する。
参照モデル受信部 9 0 9は、 利用情報 9 2 4 と仕様情報 9 2 5に対応 した参照モデルを、 サーバ装置 9 1 0から受信して参照モデル準備部 9 0 2に送信する。
参照モデル準備部 9 0 2は、 参照モデル受信部 9 0 9が送信した參照 モデルを参照モデル記憶部 9 0 3に記憶する。
参照モデル選択部 9 0 5は、 利用情報 9 2 4に対応した参照モデル 9 2 3 を、 参照モデル記憶部 9 0 3が記憶している参照モデル 9 2 1 の中 から選択する。
標準モデル作成部 9 0 6は、 仕様情報作成部 9 0 7で作成された仕様 情報 9 2 5に基づいて、 参照モデル選択部 9 0 5が選択した参照モデル 9 2 3 に対する確率又は尤度を最大化又は極大化するように標準モデル 9 2 2 を作成する処理部であり、 標準モデルの構造 (ガウス分布の混合 分布数など) を決定する標準モデル構造決定部 9 0 6 a と、 標準モデル を計算するための統計量の初期値を決定することで初期標準モデルを作 成する初期標準モデル作成部 9 0 6 b と、 決定された初期標準モデルを 記憶する統計量記憶部 9 0 6 c と、 統計量記憶部 9 0 6 c に記憶された 初期標準モデルに対して、 第 3近似部 9 0 6 e による近似計算等を用い ることにより、 参照モデル選択部 9 0 5が選択した参照モデル 9 2 3に 対する確率又は尤度を最大化又は極大化するような統計量を算出する (最終的な標準モデルを生成する) 統計量推定部 9 0 6 d とからなる。 音声認識部 9 1 3は、 標準モデル作成部 9 0 6で作成された標準モデ ル 9 2 2を用いて、 マイク 9 1 2から入力された利用者の音声を認識す る。
次に、 以上のように構成された携帯電話 9 0 1 の動作について説明す る。
図 3 3は、 携帯電話 9 0 1 の動作手順を示すフローチヤ一トである。 いま、 参照モデル記憶部 9 0 3には、 あらかじめ参照モデル 9 2 1 と して子供用モデルが記憶されているとする。 その参照モデル 9 2 1 は、 音素ごとの H M Mにより構成される。 参照モデル 9 2 1 の一例を図 3 4 に示す。 ここでは、 子供用参照モデルのイメージ図が示されている。 こ れらの参照モデルは、 状態数 3個、 各状態は分布数が 1 6個の混合ガウ ス分布により H M Mの出力分布が構成される。 特徴量と して、 1 2次元 のメルケプス トラム係数、 1 2次元のデルタメルケプス トラム係数、 デ ルタパワーの合計 2 5次元 ( J = 2 5 ) の特徴量が用いられる。
まず、 利用情報作成部 9 0 4は、 利用者の属するカテゴリである利用 情報 9 2 4を作成する (ステップ S 9 0 0 )。 図 3 6は、 利用情報 9 2 4 の作成例を示す図である。 図 3 6 ( a ) に携帯電話 9 0 1 の選択画面の 一例を示す。 ここでは、 「 4 : 成人」 のポタンを押すことにより、 この携 帯電話 9 0 1 が成人女性と成人男性に利用されることが選択されている。 別の一例を図 3 6 ( b ) に示す。 ここでは、 「メニュー」 ポタンを押しな がら音声を入力している。 その利用者の音声は、 特徴量に変換されるこ とで、 利用情報 9 2 4である "利用者の音声データ "が作成される。
一方、 仕様情報作成部 9 0 7は、 携帯電話 9. 0 1 の仕様に基づき、 仕 様情報 9 2 5 を作成する (ステップ S 9 0 1 )。 ここでは、 携帯電話 9 0 1 のメモリ容量の大きさに基づいて 「混合分布数 1 6」 という仕様情報 9 2 5 を作成する。
次に、 類似度情報作成部 9 0 8 は、 利用情報 9 2 4 と仕様情報 9 2 5 と参照モデル記憶部 9 0 3が記憶した参照モデル 9 2 1 に基づいて、 類 似度情報 9 2 6を作成して (ステップ S 9 0 2 )、 類似度情報 9 2 6 を参 照モデル準備部 9 0 2に送信する。 ここでは、 参照モデル記憶部 9 0 3 に存在する参照モデル 9 2 1 は、 混合分布数 3の子供用モデル (図 3 4 を参照) のみであり、 利用情報 9 2 4である 「成人」 (図 3 6 ( a ) に対 応) と仕様情報 9 2 5である 「混合分布数 1 6」 に対応する参照モデル が参照モデル記憶部 9 0 3 に存在しないため、「類似した参照モデルが存 在しない」 という類似度情報 9 2 6 を作成して、 類似度情報 9 2 6 を参 照モデル準備部 9 0 2に送信する。 別の一例では、 利用情報 9 2 4は" 利用者の音声データ " (図 3 6 ( b ) に対応) であり、 利用者の音声デー タを参照モデル記憶部 9 0 3が記憶している子供用モデルに入力 して類 似度情報 9 2 6 を作成する。 ここでは、 子供用モデルに対する尤度が所 定のしきい値以下であるため、 「類似した参照モデルが存在しない」 とい う類似度情報 9 2 6 を作成して参照モデル準備部 9 0 2に送信する。 続いて、 参照モデル準備部 9 0 2は、 類似度情報 9 2 6 に基づいて、 参照モデルを準備するか否かを決定する(ステップ S 9 0 3 )。ここでは、 「類似した参照モデルが存在しない」 ため、 図 3 7 ( a ) の携帯電話 9 0 1 の画面表示例に示すように利用者に参照モデルの準備を促す。 ここ で、 利用者が 「メモ j ボタ ンを押して参照モデルの準備を要求した場合 に、 参照モデル準備部 9 0 2 は、 参照モデルを準備すると決定して、 利 用情報 9 2 4 と仕様情報 9 2 5 を参照モデル受信部 9 0 9 に送信する。 別の一例では、 「類似した參照モデルが存在しない」 ため、 参照モデル準 備部 9 0 2は、 自動的に参照モデルを準備すると決定して、 利用情報 9 2 4 と仕様情報 9 2 5 を参照モデル受信部 9 0 9に送信する。 この場合 の携帯電話 9 0 1 の画面の一例を図 3 7 ( b ) に示す。
これに対して、 参照モデル受信部 9 0 9は、 利用情報 9 2 4 と仕様情 報 9 2 5 に対応した参照モデルをサーバ装置 9 1 0から受信して参照モ デル準備部 9 0 2に送信する。 こ こでは、 参照モデル受信部 9 0 9は、 利用情報 9 2 4である 「成人」 (図 3 6 ( a ) に対応) と仕様情報 9 2 5 である 「混合分布数 1 6」 に対応する参照モデルである、 "混合分布数 1 6の成人女性用モデル"と "混合分布数 1 6の成人男性用モデル"の 2個 の参照モデルをサーバ装置 9 1 0から受信する。
そして、 参照モデル準備部 9 0 2は、 参照モデル受信部 9 0 9が送信 した参照モデルを参照モデル記憶部 9 0 3に記憶することによつて参照 モデルを準備する (ステップ S 9 0 4 )。 図 3 5 にその参照モデルの一例 を示す。 ここでは、 成人男性用、 成人女性用、 子供用の参照モデルのィ メージ図が示されている。
次に、 参照モデル選択部 9 0 5は、 利用情報 9 2 4である 「成人 j に 対応した同 じカテゴリ に属する"混合分布数 1 6の成人女性用モデル"と "混合分布数 1 6の成人男性用モデル"の 2個の参照モデルを参照モデル 記憶部 9 0 3が記憶している参照モデル 9 2 1 の中から選択する (ステ ップ S 9 0 5 )。 別の一例では、 参照モデル選択部 9 0 5は、 利用情報 9 2 4である"利用者の音声データ "と音響的に近い (尤度が大きい) "混合 分布数 1 6の成人女性用モデル"と "混合分布数 1 6の成人男性用モデル "の 2個の参照モデルを参照モデル記憶部 9 0 3が記憶している参照モ デル 9 2 1 の中から選択する。
続いて、 標準モデル作成部 9 0 6は、 作成された仕様情報 9 2 5 に基 づいて、 参照モデル選択部 9 0 5が選択した参照モデル 9 2 3 に対する 確率又は尤度を最大化又は極大化するように標準モデル 9 2 2を作成す る (ステップ S 9 0 6 )。
最後に、 音声認識部 9 1 3は、 標準モデル作成部 9 0 6によって作成 された標準モデル 9 2 2に従って、 マイク 9 1 2から入力された利用者 の音声を認識する (ステップ S 9 0 7 )。
次に、 図 3 3におけるステップ S 9 0 6 (標準モデルの作成) の詳細 な手順を説明する。 手順の流れは、 図 4に示されたフローチャー トと同 様である。 ただし、 採用する標準モデルの構造や具体的な近似計算等が 異なる。
まず、 標準モデル構造決定部 9 0 6 aは、 標準モデルの構造を決定す る (図 4のステップ S 1 0 2 )。 ここでは、 標準モデルの構造と して、 仕 様情報 9 2 5である 「混合分布数 1 6」 に基づいて、 音素ごとの H M M により構成し、 状態数を 3 と し、 各状態における出力分布の混合分布数 を 1 6個 ( M f = 1 6 ) と決定する。
次に、 初期標準モデル作成部 9 0 6 bは、 標準モデルを計算するため の統計量の初期値を決定する (図 4のステップ S 1 0 2 b )。 ここでは、 選択された参照モデル 9 2 3である"混合分布数 1 6の成人女性用モデ ル"を統計量の初期値と して統計量記憶部 9 0 6 cに記憶する。別の一例 では、選択された参照モデル 9 2 3である"混合分布数 1 6の成人男性女 モデル''を統計量の初期値と して統計量記憶部 9 0 6 cに記憶する。具体 的には、 初期標準モデル作成部 9 0 6 bは、 上記式 1 3に示される出力 分布を生成する。
そして、 統計量推定部 9 0 6 dは、 参照モデル選択部 9 0 5が選択し た 2個の参照モデル 9 2 3を用いて、 統計量記憶部 9 0 6 cに記憶され た標準モデルの統計量を推定する(図 4のステツプ S 1 0 2 c )。つまり、 2個 ( N g = 2 ) の参照モデル 9 2 3における出力分布、 即ち、 上記式 1 9に示される出力分布に対する標準モデルの確率 (ここでは、 上記式 2 5に示される尤度 log P ) を極大化もしくは最大化するような標準モ デルの統計量 (上記式 1 6に示される混合重み係数、 上記式 1 7に示さ れる平均値、及び、上記式 1 8に示される分散値) を推定する。ただし、 本実施の形態では、 上記式 1 9に示された出力分布における式 2 1 は、 1 6 (各参照モデルの混合分布数) である。
具体的には、 上記式 2 6、 式 2 7及び式 2 8に従って、 それぞれ、 標 準モデルの混合重み係数、 平均値及び分散値を算出する。
このとき、 統計量推定部 9 0 6 dの第 3近似部 9 0 6 eは、 標準モデ ルの各ガウス分布はお互いに影響を与えないと仮定して、 式 5 3の近似 式を用いる。 また、 繰り返し回数 Rが 1 回目の場合には、 式 5 4に示さ れる標準モデルのガウス分布の近傍の式 5 5 とは、 式 5 4が示す出力分 布とのマハラノ ビス距離、 力ルバック ' ライブラー ( K L ) 距離などの 分布間距離が最も近いものと 2番目に近いものの 2個 (近傍指示パラメ ータ G = 2 ) の式 5 6に示される参照モデル 9 2 3のガウス分布が存在 する空間であると近似する。 一方、 繰り返し回数 Rが 2回目以上の場合 には、 式 5 4に示される標準モデルのガウス分布の近傍の式 5 5とは、 式 5 4が示す出力分布とのマハラノ ビス距離、 カルバック ■ ライブラー ( K L ) 距離などの分布間距離が最も近いもの 1 個 (近傍指示パラメ一 タ G = 1 ) の式 5 6に示される参照モデル 9 2 3のガウス分布が存在す る空間であると近似する。
以上の第 3近似部 9 0 6 eによる近似式を考慮してまとめると、 統計 量推定部 9 0 6 dでの計算式は、 次の通りになる。 つまり、 統計量推定 部 9 0 6 dは、 式 5 9、 式 6 0及び式 6 1 に従って、 それぞれ、 混合重 み係数、 平均値及び分散値を算出し、 それらのパラメータによって特定 される標準モデルを最終的な標準モデル 9 2 2と して生成する。ただし、 第 3の実施の形態における第 2の方法である、 混合重み係数の値をゼロ にして、 平均値をゼロ、 分散値を 1 にする方法を用いる。 また、 繰り返 し回数に対応して近傍指示パラメータ Gの値は異なる。 なお、 近傍指示 パラメータ Gの値に依存して、 上記の方法を、 第 3の実施の形態におけ る第 1 から第 3の方法のいずれかに決定してもよい。
統計量推定部 9 0 6 dは、 このように推定した標準モデルの統計量を 統計量記憶部 9 0 6 cに記憶する。 そして、 このような統計量の推定と 統計量記憶部 9 0 6 cへの記憶を R (≥ 1 ) 回、 繰リ返す。 その結果得 られた統計量を最終的に生成する標準モデル 9 2 2の統計量と して出力 する。
図 3 8に、 第 3近似部 9 0 6 eを用いて作成した標準モデル 9 2 2を 用いた認識実験の結果を示す。縦軸に成人(男性と女性)の認識率(% )、 横軸に繰り返し回数 Rを示す。 繰り返し回数 R - 0とは、 学習を行う前 での初期標準モデル作成部 9 0 6 bが作成した初期モデルによリ認識し た結果である。 また、 繰り返し回数 R = 1 のときは、 近傍指示パラメ一 タ G - 2と し、 繰り返し回数 R = 2〜5のときは、 近傍指示パラメータ G = 1 と した。
グラフ 「データ」 は、 数日間かけて音声データより学習した場合の結 果を表しており、 グラフ 「女性」、 グラフ 「男性」 は、 それぞれ、 初期モ デルを成人女性、 成人男性と したときの結果を表している。 参照モデル による本発明による学習時間は数十秒のオーダ一であった。 実験結果よ リ、 短時間に高い精度の標準モデルが作成できていることがわかる。 ここで、 参考のために、 図 3 9に、 第 3の実施の形態における第 2近 似部 3 0 6 eにより作成された標準モデルによる認識率を示す。 本実施 の形態における第 3近似部 9 0 6 e と異なるのは、 繰り返し回数 Rによ らず近傍指示パラメータ G = 1 であるという ことである。実験結果より、 初期モデルと して成人女性を選択すると良好な結果が得られることがわ かる。 また、 初期モデルと して成人男性を選択すると、 精度が少し劣化 していることがわかる。 図 3 8の結果とあわせると、 第 3近似部 9 0 6 eによる標準モデルは初期モデルに依存せずに高い精度の標準モデルが 作成できていることがわかる。
以上説明したように、 本発明の第 8の実施の形態によれば、 類似度情 報に基づいて参照モデルを準備するため、 利用情報及び仕様情報にふさ わしい参照モデルを必要なタイ ミングで準備することができる。 また、 近傍指示パラメータ Gを繰り返し回数 Rによって変化させることで、 初 期モデルにかかわらず精度の高い標準モデルを提供することができる。 なお、 統計量推定部 9 0 6 dによる処理の繰り返し回数は、 上記式 2 5に示された尤度の大きさがある一定のしきい値以上になるまでの回数 と してもよい。
また、 標準モデル 9 2 2は、 音素ごとに H M Mを構成するに限らず、 文脈依存の H M Mで構成してもよい。
また、 標準モデル作成部 9 0 6は、 一部の音素の、 一部の状態におけ る事象の出力確率に対してモデル作成を行ってもよい。
また、 標準モデル 9 2 2を構成する H M Mは、 音素ごとに異なる状態 数により構成してもよいし、 状態ごとに異なる分布数の混合ガウス分布 により構成してもよい。
また、 標準モデルを作成したのちに、 さらに音声データにより学習し てもよい。
また、 標準モデル構造決定部は、 モノ フォン、 トライ フォン、 状態共 有型などの H M Mの構造や、 状態数などを決定してもよい。
(第 9の実施の形態)
図 4 0は、 本発明の第 9の実施の形態における標準モデル作成装置の 全体構成を示すブロ ック図である。 ここでは、 本発明に係る標準モデル 作成装置力 P D A ( P e r s o n a l D i g i t a l A s s i s t a n t ) 1 0 0 1 に組み込まれた例が示されている。 以下、 本実施の形 態では音声認識用の標準モデルを作成する場合を例にして説明する。
P D A 1 0 0 1 は、 携帯情報端末であり、 事象の集合と事象又は事象 間の遷移の出力確率で表現された隠れマルコ フモデルによって定義され る音声認識用の標準モデルを作成する標準モデル作成装置と して、 参照 モデル記憶部 1 0 0 3 と、 標準モデル作成部 1 0 0 6 と、 アプリ ' 仕様 情報対応データベース 1 0 1 4 と、 マイク 1 0 1 2 と、 音声認識部 1 0 1 3 とを備える。 標準モデル作成部 1 0 0 6は、 標準モデル構造決定部 "I 0 0 6 a と、 初期標準モデル作成部 1 0 0 6 b と、 統計量記憶部 3 0 6 c と、 統計量推定部 3 0 6 d とを備える。
標準モデル作成部 1 0 0 6は、送信されたアプリ起動情報 1 0 2 7 (こ こでは、 起動したアプリケーショ ンの I D番号) に基づいて、 アプリ ' 仕様情報対応データベース 1 0 1 4 を用いて、 仕様情報 1 0 2 5 を取得 する。図 4 1 は、仕様情報対応データベース 1 0 1 4のデータ例を示す。 仕様情報対応データベース 1 0 1 4には、 アプリケーショ ン ( I D番号 及び名前) に対応する仕様情報 (ここでは、 混合分布数) が登録されて いる。
標準モデル作成部 1 0 0 6は、取得した仕様情報 1 0 2 5に基づいて、 參照モデル記憶部 1 0 0 3が記憶した 1 個の参照モデル 1 0 2 1 に対す る確率又は尤度を最大化又は極大化するように標準モデル 1 0 2 2 を作 成する処理部であリ、 第 3の実施の形態における第 2近似部 3 0 6 eの 機能を有する。
音声認識部 1 0 1 3は、 標準モデル作成部 1 0 0 6で作成された標準 モデル 1 0 2 2 を用いて、 マイク 1 0 1 2から入力された利用者の音声 を認識する。
次に、 以上のように構成された P D A 1 0 0 1 の動作について説明す る。
図 4 2は、 P D A 1 0 0 1 の動作手順を示すフローチャー トである。 ここで、 参照モデル記憶部 1 0 0 3には、 あらかじめ多く の混合分布 数をもつ利用者用モデルが参照モデル 1 0 2 1 と して 1 個、 記憶されて いるとする。 参照モデル 1 0 2 † は、 音素ごとの H MMによ り構成され る。 参照モデル 1 0 2 1 の一例を図 4 3 に示す。 この参照モデルは、 状 態数 3個、 各状態は分布数が 3 0 0個の混合ガウス分布によ リ H M Mの 出力分布が構成される。 特徴量と して、 1 2次元のメルケプス トラム係 数、 1 2次元のデルタメルケプス トラム係数、 デルタパワーの合計 2 5 次元 ( J = 2 5 ) の特徴量が用いられる。
まず、 利用者は、 例えば 「株取引」 というアプリケーショ ンを起動す る (ステップ S 1 0 0 0 )。
これに対して、 標準モデル作成部 1 0 0 6は、 アプリ起動情報と して 起動されたアプリケーショ ンの I D 「 3」 を受信する (ステップ S 1 0 0 1 )。 そして、 アプリ ' 仕様情報対応データベース 1 0 1 4を用いて I D 「 3」 に対応する仕様情報 1 0 2 5である 「混合分布数 1 2 6」 に基 づいて、 標準モデル 1 0 2 2 を作成する (ステップ S 1 0 0 2 )。 具体的 には、標準モデル 1 0 2 2 と して、混合分布数 1 2 6 ( Mf= 1 2 6 ) で、 3状態の文脈依存型の H M Mによ り構成する。
次に、標準モデル作成部 1 0 0 6は、仕様情報 1 0 2 5 を受信して (ス テツプ S 1 0 0 1 )、仕様情報 1 0 2 5に基づいて標準モデルを作成する (ステップ S 1 0 0 2 )。
最後に、 音声認識部 1 0 1 3は、 標準モデル作成部 1 0 0 6によって 作成された標準モデル 1 0 2 2に従って、 マイク 1 0 1 2から入力され た利用者の音声を認識する (ステップ S 1 0 0 3 )。
次に、 図 4 2におけるス亍ップ S 1 0 0 2 (標準モデルの作成) の詳 細な手順を説明する。 手順の流れは、 図 4に示されたフローチャー トと 同様である。 ただし、 採用する標準モデルの構造や具体的な近似計算等 が異なる。
まず、 標準モデル構造決定部 1 0 0 6 a は、 アプリ起動情報 1 0 2 7 と してアプリケーショ ン I D Γ 3」 を受信した後に、 アプリ ' 仕様情報 対応データベース 1 0 1 4 を用いて I D 「 3」 に対応した仕様情報 1 0 2 5 (「混合分布数 1 2 6 J) を参照することによ り、 標準モデルの構造 を混合分布数 1 2 6 ( Mf= 1 2 6 ) で、 3状態の文脈依存型の H M Mと 決定する (図 4のステップ S 1 0 2 a )。
そ して、 初期標準モデル作成部 1 0 0 6 b は、 標準モデル構造決定部 1 0 0 6 aが決定した標準モデルの構造に基づいて、 標準モデルを計算 するための統計量の初期値を決定する (図 4のステップ S 1 0 2 b ) こ こでは、 k-means法とマハラノ ビス汎距離を用いた方法によ り、 後述す るクラスタ リ ングを行ったものを統計量の初期値と して統計量記憶部 3 0 6 cに記憶する。
そ して、 統計量推定部 3 0 6 d は、 参照モデル記憶部 1 0 0 3 に格納 された参照モデル 1 0 2 1 を用いて、 統計量記憶部 3 0 6 c に記憶され た標準モデルの統計量を推定する (図 4のステップ S 1 0 2 c )。 なお、 この統計量推定部 3 0 6 d による推定処理は、 第 3の実施の形態と同様 である。
次に、 初期標準モデル作成部 1 0 0 6 bによる初期値の決定方法、 つ まり 、 k-means法とマハラノ ビス汎距離を用いた方法によるクラスタ リ ングについて説明する。 図 4 4にクラスタ リ ングのフローチャー トを示 す。 また、 図 4 5〜図 4 8 にクラスタ リ ングのイ メージ図を示す。 まず、 図 4 4のステップ S 1 0 0 4において、 標準モデルの混合分布 数である 1 2 6個の代表点を準備する (図 4 5 )。 ここでは、 参照モデル の 3 0 0個の出力分布の中から 1 2 6個の出力分布を選択して、 選択さ れた分布の平均値を代表点とする。
次に、 図 4 4のステップ S 1 0 0 5において、 各代表点にマハラノ ビ ス汎距離が近い参照モデルの出力べク トルを決定する(図 4 6 )。そして、 図 4 4のステップ S 1 0 0 6において、 ステップ S 1 0 0 5で決定した 近い分布を 1 つのガウス分布で表現して平均値を新しい代表点とする (図 4 7 )。
続いて、 図 4 4のステップ S 1 0 0 7において、 クラスタ リング操作 を停止するかどうかを決定する。 ここでは、 各代表点と参照ベク トルの 分布とのマハラノ ビス汎距離の変化率 ( 1 回前の代表点との距離との差 分) がしきい値以下になった場合に停止とする。 停止条件を満たさない 場合、 図 4 4のステップ S 1 0 0 5に戻り、 近い分布を決定して同様の 操作を繰り返す。
一方、 停止条件を満たす場合には、 図 4 4のステップ S 1 0 0 8に進 み、 統計量の初期値を決定して統計量記憶部 3 0 6 cに記憶する。 この ようにして、 クラスタ リングによる初期値の決定が行われる。
以上説明したように、 本発明の第 9の実施の形態によれば、 アプリケ ーシヨ ンに連動して自動的に仕様情報にふさわしい標準モデルを獲得す ることができる。
なお、 標準モデル 1 0 2 2は、 音素ごとに H M Mを構成してもよい。 また、 標準モデル作成部 1 0 0 6は、 一部の音素の、 一部の状態にお ける事象の出力確率に対してモデル作成を行ってもよい。
また、 標準モデル 1 0 2 2を構成する H M Mは、 音素ごとに異なる状 態数により構成してもよいし、 状態ごとに異なる分布数の混合ガウス分 布によ り構成してもよい。
また、 標準モデルを作成したのちに、 さ らに音声データによ り学習し てもよい。
また、 標準モデル構造決定部は、 モノ フォン、 トライ フォン、 状態共 有型などの H M Mの構造や、 状態数などを決定してもよい。
(第 1 0の実施の形態)
図 4 9は、 本発明の第 1 0の実施の形態における標準モデル作成装置 の全体構成を示すブロ ック図である。 ここでは、 本発明に係る標準モデ ル作成装置がコンピュータ システムにおけるサーバ 8 0 1 に組み込まれ た例が示されている。 本実施の形態では音声認識用の標準モデル (適応 モデル) を作成する場合を例にして説明する。
サーバ 8 0 1 は、 通信システムにおけるコンピュータ装置等であり、 事象の集合と事象又は事象間の遷移の出力確率とによって定義される音 声認識用の標準モデルを作成する標準モデル作成装置と して、 読み込み 部 7 1 1 と、 参照モデル準備部 7 0 2 と、 参照モデル記憶部 7 0 3 と、 利用情報受信部 7 0 4 と、 参照モデル選択部 7 0 5 と、 標準モデル作成 部 7 0 6 と、 仕様情報受信部 7 0 7 と、 標準モデル記憶部 7 0 8 と、 標 準モデル送信部 7 0 9 と、 参照モデル受信部 8 1 0 とを備える。
参照モデル準備部 7 0 2は、 読み込み部 7 1 1 が読み込んだ、 C D— R O Mなどのス ト レージデバイスに書き込まれた話者 ■ 雑音 ■ 声の調子 別の音声認識用参照モデルを参照モデル記憶部 7 0 3へ送信する。 参照 モデル記憶部 7 0 3は、送信された参照モデル 7 2 1 を記憶する。また、 参照モデル準備部 7 0 2は、 端末装置 7 1 2からの送信に対して参照モ デル受信部 8 1 0が受信した音声認識用参照モデルを参照モデル記憶部 7 0 3へ送信する。 参照モデル記憶部 7 0 3は、 送信された参照モデル 7 2 1 を記憶する。 仕様情報受信部 7 0 7は、 端末装置 7 1 2から仕様情報 7 2 5を受信 する。 利用情報受信部 7 0 4は、 端末装置 7 1 2から利用情報 7 2 4で ある雑音下で発声した利用者の音声を受信する。 参照モデル選択部 7 0 5は、 利用情報受信部 7 0 4が受信した利用情報 7 2 4である利用者の 音声に音響的に近い話者 ■ 雑音 ' 声調子の参照モデル 7 2 3を、 参照モ デル記憶部 7 0 3が記憶している参照モデル 7 2 1 から選択する。
標準モデル作成部 7 0 6は、 仕様情報 7 2 5に基づいて、 参照モデル 選択部 7 0 5が選択した参照モデル 7 2 3に対する確率又は尤度を最大 化又は極大化するように標準モデル 7 2 2を作成する処理部であり、 第 2の実施の形態における標準モデル作成部 2 0 6と同一の機能を有する。 標準モデル記憶部 7 0 8は、 仕様情報 7 2 5に基づいた 1 もしくは複数 の標準モデルを記憶する。 標準モデル送信部 7 0 9は、 利用者の端末装 置 7 1 2から、仕様情報 7 2 5と標準モデルの要求信号とを受信すると、 その端末装置 7 1 2 へ、 仕様に適した標準モデルを送信する。
次に、以上のように構成されたサーバ 8 0 1 の動作について説明する。 図 5 0は、 サーバ 8 0 1 の動作手順を示すフローチャー トである。 な お、 このサーバ 8 0 1 の動作手順を説明するための参照モデル及び標準 モデルの一例は、 第 7に実施の形態における図 3 1 と同様である。
まず、 標準モデルの作成に先立ち、 その基準となる参照モデルを準備 する (図 5 0のステップ S 8 0 0 、 S 8 0 1 )。 つまり、 参照モデル準備 部 7 0 2は、 読み込み部 7 1 1 が読み込んだ、 C D _ R O Mなどのス ト レージデバイスに書き込まれた話者 ■ 雑音 ■ 声の調子別の音声認識用参 照モデルを参照モデル記憶部 7 0 3へ送信し、 参照モデル記憶部 7 0 3 は、 送信された参照モデル 7 2 1 を記憶する (図 5 0のステップ S 8 0 0 )。 ここでは、 参照モデル 7 2 1 は、 話者 '雑音 ' 声の調子ごとに、 音 素ごとの H M Mにより構成される。 また、 参照モデル準備部 7 0 2は、 端末装置 7 1 2が送信して参照モデル受信部 8 1 0が受信した、 利用者 と端末装置 7 1 2 に適した音声認識用参照モデルを参照モデル記憶部 7 0 3へ送信し、 参照モデル記憶部 7 0 3は、 送信された参照モデル 7 2 1 を記憶する(図 5 0のステップ S 8 0 1 )。ここでは、各参照モデルは、 図 3 1 の参照モデル 7 2 1 に示されるように、 状態数 3個、 各状態は混 合分布数が 1 2 8個の混合ガウス分布によ リ H M Mの出力分布が構成さ れる。 特徴量と して 2 5次元 ( J = 2 5 ) のメルケプス トラム係数が用 し、られる。
以下、 これらの参照モデル 7 2 1 を用いた標準モデル 7 2 2の作成及 び端末装置 7 1 2への送信(図 5 0のス亍ップ S 8 0 2〜 S 8 0 9 )は、 第 7の実施の形態における手順(図 3 0のステップ S 7 0 1 〜 S 7 0 8 ) と同様である。
このように して、 端末装置 7 1 2に記憶された自分用モデルをサーバ にアップロー ドして標準モデル作成の材料にすることができるので、 例 えば、 サーバ 8 0 1 において、 アップロー ドされてきた参照モデルと既 に保持している他の参照モデルとを統合して更に混合数の多い高精度の 標準モデルを作成し、 端末装置 7 1 2にダウンロー ドして利用すること が可能となる。 したがって、 端末装置 7 1 2に簡易的な適応機能が付属 され、 簡易的に適応したモデルをアップロー ドして、 さ らに高精度な標 準モデルを作成することもできる。
図 5 1 は、 本実施の形態における標準モデル作成装置を具体的に適用 したシステム例を示す図である。 ここには、 イ ンタ一ネッ トや無線通信 等を介して通信し合うサーバ 7 0 1 と端末装置 7 1 2 (携帯電話機 7 1 2 a 、 力一ナビゲーシヨ ン装置 7 1 2 b ) とが示されている。
たとえば、 携帯電話機 7 1 2 a は、 利用者の音声を利用情報と し、 携 帯電話機での利用である旨 ( C P Uの処理能力が低いこ と) を仕様情報 と し、 予め記憶しているサンプルモデルを参照モデルと し、 それら利用 情報、 仕様情報及び参照モデルをサーバ 7 0 1 に送信することで、 標準 モデルの作成を要求する。 その要求に対してサーバ 7 0 1 で標準モデル が作成されると、 携帯電話機 7 1 2 aは、 その標準モデルをダウンロー ドし、 その標準モデルを用いて利用者の音声を認識する。 例えば、 利用 者の音声が、 内部に保持するア ドレス帳の名前と一致した場合には、 そ の名前に対応する電話番号に自動発呼する。
また、 カーナビゲーシヨン装置 7 1 2 bは、 利用者の音声を利用情報 と し、 カーナビゲーシヨ ン装置での利用である旨 ( C P Uの処理能力が 通常であること) を仕様情報と し、 予め記憶しているサンプルモデルを 参照モデルと し、 それら利用情報、 仕様情報及び参照モデルをサーバ 7 0 1 に送信することで、 標準モデルの作成を要求する。 その要求に対し てサーバ 7 0 1 で標準モデルが作成されると、 カーナビゲ一シヨン装置 7 1 2 bは、 その標準モデルをダウンロードし、 その標準モデルを用い て利用者の音声を認識する。 例えば、 利用者の音声が、 内部に保持する 地名と一致した場合には、 その地名を目標点とする現地点からの道順を 示す地図を画面に自動表示する。
このようにして、 携帯電話機 7 1 2 a及び力一ナビゲーシヨン装置 7 1 2 bは、 自装置に適した標準モデルの作成をサーバ 7 0 1 に依頼する ことで、 標準モデルの作成に必要な回路や処理プログラムを自装置内に 実装する必要がなく なるとともに、 様々な認識対象の標準モデルを必要 なタイ ミングで獲得することができる。
以上説明したように、 本発明の第 1 0の実施の形態によれば、 参照モ デル受信部 8 1 0が受信した参照モデルを利用して標準モデルを作成で きるため、 精度の高い標準モデルが提供される。 つまり、 端末装置 7 1 2からのアップロー ドにより参照モデルを追加することでサーバ 8 0 1 側で保持する参照モデルのバリェ一ショ ンが増加し、 他の人が利用した ときにさらに高精度の標準モデルを提供することができる。
また、 仕様情報に基づいて標準モデルが作成されるため、 標準モデル を利用する機器にふさわしい標準モデルが準備される。
なお、 參照モデル受信部 8 1 0は、 端末装置 7 1 2とは異なる他の端 末装置から参照モデルを受信してもよい。
また、 図 5 1 に示された応用例は、 本実施の形態に限られるものでは なく、 他の実施の形態にも適用することができる。 つまり、 第 1 〜第 9 の実施の形態で作成された標準モデルを各種記録媒体や通信を介して 様々な電子機器に配信することで、 それらの電子機器において、 制度の 高いな音声認識、 画像認識、 意図理解等を行うことが可能となる。 さら に、 上記実施の形態における標準モデル作成装置を各種電子機器に内蔵 させることで、 音声認識、 画像認識、 意図理解等の認識 · 認証機能を備 えるスタンドアローンの電子機器を実現することもできる。
以上、 本発明に係る標準モデル作成装置について、 実施の形態に基づ いて説明したが、 本発明は、 これらの実施の形態に限定されるものでは ない。
たとえば、 第 1 〜第 1 0の実施の形態における標準モデルの統計量の 近似計算については、 各実施の形態における近似計算だけに限られず、 第 1 〜第 4の実施の形態における合計 4種類の近似計算の少なく とも 1 つを用いてもよい。 つまり、 4種類の近似計算のいずれであってもよい し、 2以上の種類の近似計算の組み合わせであってもよい。
また、 第 2の実施の形態では、 統計量推定部 2 0 6 dの一般近似部 2 0 6 eは、標準モデルの混合重み係数、平均値及び分散値を、それぞれ、 式 4 5、 式 4 6及び式 4 7に示される近似式に従って算出したが、 これ らの近似式に替えて、 以下の式 6 3、 式 6 4及び式 6 5に示される近似 式を用いて算出してもよし、。
(式 6 3 )
Figure imgf000099_0001
(m=l,2,...,Mf)
(式 6 4 )
Figure imgf000099_0002
(m = \,2,...,Mf,j = ],2,:.,J)
(式 6 5 )
∑ L( ) -^))2{∑ "β(^/)^Η(,ν) ^^(,7)5σ¾,ν))}^
び/ ( )〜 Ns
(=1 /=1
{m=\X...,Mf,j = \,2,..., J) このような近似式を用いて作成した標準モデルによれば、 高い認識性 能が得られることが発明者らによって確認されている。 たとえば、 参照 モデルと標準モデルそれぞれの混合数を 1 6と した場合の認識結果は、 適応前では 8 2 . 2 %であったものが、 上記非特許文献 2に示された十 分統計量による方法では、 8 5 . 0 %、上記近似式による方法では 8 5 . 5 %に改善された。 つまり、 十分統計量による方法と比べ、 高い認識性 能が獲得できていることがわかる。 また、 参照モデルの混合数を 6 4、 標準モデルの混合数を 1 6と した場合についての認識結果は、 上記近似 式による方法では、 8 5 . 7 %と高い認識率が獲得できている。
また、初期標準モデル作成部による初期標準モデルの作成においては、 図 5 2に示されるようなクラス I D ■ 初期標準モデル · 参照モデル対応 表を予め準備しておき、 この表に従って、 初期標準モデルを決定しても よい。 以下、 このようなクラス I D ■ 初期標準モデル ' 参照モデル対応 表を用いた初期標準モデルの決定方法について説明する。 なお、 クラス I Dとは、 標準モデルを用いた認識対象の種別を識別する I Dであり、 標準モデルの種類に対応する。
図 5 2に示されたクラス I D■初期標準モデル'参照モデル対応表は、 一定の共通する性質を有する複数の參照モデルに対して、 それらを識別 する 1 つのクラス I Dを対応づけるとともに、 それら参照モデルと共通 する性質を持つ予め作成された初期標準モデルを対応づけた表である。 この表では、 参照モデル 8 A A〜 8 A Zに対して、 クラス I D及び初期 標準モデル 8 Aが対応づけられ、 参照モデル 6 4 Z A〜 Z Zに対して、 クラス I D及び初期標準モデル 6 4 Zが対応づけられている。 標準モデ ル作成部は、 使用する参照モデルの性質と共通する初期標準モデルを使 用することによって、 精度の高い標準モデルを生成することができる。
ここで、 クラス I D、 初期標準モデル及び参照モデルの添え字記号 8 A、 8 A Aにおける最初の記号 「 8」 等は、 混合分布数を意味し、 2番 目の記号 「A J 等は大分類、 例えば、 騒音下における音声認識の場合で あれば、 騒音環境の種類 (家庭内騒音下を A、 電車内騒音下を Bなど) を意味し、 3番目の記号 「A」 等は小分類、 例えば、 音声認識の対象と なる人の属性 (低学年の小学生を A、 高学年の小学生を Bなど) を意味 する。 したがって、 図 5 2のクラス I D ' 初期標準モデル ■ 参照モデル 対応表における参照モデル 8 A A〜 A Zは、 図 5 3に示されるような混 合分布数 8のモデルであり、 参照モデル 6 4 Z A ~ Z Zは、 図 5 4に示 されるような混合分布数 6 4のモデルであリ、 初期標準モデル 8 A〜 6 4 Zは、 図 5 5に示されるような混合分布数 8〜 1 6のモデルである。 次に、 このようなクラス I D ■ 初期標準モデル ■ 参照モデル対応表の 作成方法を説明する。図 5 6は、その手順を示すフローチヤ一トであり、 図 5 7〜図 6 0は、 各ステップでの具体例を示す図である。 ここでは、 騒音環境下での音声認識を例と し、 表だけでなく、 クラス I D、 初期標 準モデル及び参照モデルも含めて新規に作成する場合の手順を説明する。 まず、 音声データを音響的に近いグループに分類する (図 5 6のステ ップ S 1 1 0 0 )。 たとえば、 図 5 7に示されるように、 音声データを利 用情報である雑音環境で分類する。 環境 A (家庭内騒音下での音声デー タ) には、 家庭内騒音下で収録した小学生低学年の音声、 小学生高学年 の音声、 成人女性の音声などが含まれ、 環境 B (電車内での音声データ) には、 電車内で収録した小学生低学年の音声、 小学生高学年の音声、 成 人女性の音声などが含まれるように分類する。 なお、 利用情報である話 者の性別、 年齢層、 笑い声 ■ 怒った声などの声の性質、 読み上げ調 ' 会 話調などの声の調子、 英語 · 中国語などの言語などで分類してもよい。 次に、 仕様情報等に基づいて、 準備する参照モデルの 1 以上のモデル 構造を決定する (図 5 6のステップ S 1 1 0 1 )。 たとえば、 8混合、 1 6混合、 3 2混合及び 6 4混合を対象とすることを決定する。 なお、 モ デル構造の決定においては、 混合分布数を決定するに限らず、 H M Mの 状態数、 モノ フォン ' 卜ライフオンなどの H M Mの種類などを決定して もよい。
続いて、 初期標準モデルを作成する (図 5 6のステップ S 1 1 0 2 )。 つまり、 上記音声データの分類 (ステップ S 1 1 0 0 ) において決定し た分類 (環境 A、 環境 B、 ■■· ) ごとに、 ステップ S 1 1 0 1 において決 定したモデル構造ごとの初期標準モデルを作成する。 例えば、 図 5 8に 示されるように、 初期標準モデル 8 Aであれば、 8混合の初期標準モデ ルを、 家庭内騒音下 (環境 A ) における音声データ (低学年の小学生、 高学年の小学生、 成人男、 成人女等の音声データ) を用いて、 バウム ウェルチアルゴリズムなどにより学習して作成する。
次に、参照モデルを作成する(図 5 6のステップ S 1 1 0 3 )。つまり、 上記ステツプ S 1 1 0 2において作成した初期標準モデルを用いて参照 モデルを作成する。 具体的には、 参照モデルを学習する音声データの雑 音環境と同じ雑音環境で学習した、 同じ混合分布数をもつ初期標準モデ ルを用いて参照モデルを学習する。 例えば、 図 5 9に示されるように、 参照モデル 8 A Aは、 混合分布数 8の家庭内騒音下での小学生低学年の 音声データで学習するモデルであり、 学習を行う際の初期値と して、 同 じ環境である家庭内騒音下での音声データ (小学生低学年、 小学生高学 年、 成人女性、 成人男性の音声を含む) で学習した初期標準モデルを用 いる。 学習方法と して、 バウム ■ ウエルチアルゴリズムを用いる。
最後に、 クラス I Dを付与する (図 5 6のステップ S 1 1 0 4 )。 たと えば、 騒音環境下ごとに 1 つのクラス I Dを付与することによって、 図 6 0に示されるクラス I D ■ 初期標準モデル ■ 参照モデル対応表、 つま リ、 "クラス I D付き初期標準モデル"及び"クラス I D付き参照モデル" が作成される。
なお、 このようなクラス I D■初期標準モデル'参照モデル対応表は、 完成された表と して予め端末 (標準モデル作成装置) が保持している必 要はない。 端末 (標準モデル作成装置) は、 図 6 1 に示されるように、 他の装置 (サーバ) と通信することによって表を完成させてもよい。 つ まり、 標準モデル作成装置 (端末) は、 通信網などを介して、 "クラス I D付き初期標準モデル", "クラス I D付き参照モデル"を取得することが 可能である。 もっとも、 端末は必ずしも"クラス I D付き初期標準モデル "、 "クラス I D付参照モデル"を取得する必要はなく事前に記憶させて出 荷してもよい。
図 6 1 に示されるように、 端末は、 以下のよ うな方法によって、 "クラ ス I D付き初期標準モデル"、 "クラス I D付き参照モデル"を取得するこ とができる。 第 1 の方法と して、 端末は、 "クラス I D付き初期標準モデ ル"(例えば規格化コ ンソーシアムなどで事前に定義されたクラス I Dの つけ方に遵守したもの) を記憶しているケースである。 このとき、 端末 は、 1 以上のサーバから "クラス I D付き参照モデル" (例えば規格化コ ンソーシアムなどで事前に定義されたクラス I Dのつけ方に遵守したも の) をダウンロー ドする。 なお、 端末に、 "ク ラス I D付き参照モデル" を出荷時に記憶させておいてもよい。
また、 第 2の方法と して、 端末は、 "クラス I D付き初期標準モデル" を記憶していないケースである。 このと き、 端末は、 サーバ (図 6 1 の サーバ 1 ) から "クラス I D付き初期標準モデル"をダウンロー ドする。 次に、 端末は、 1 以上のサーバ (図 6 1 のサーバ 2 ) から"クラス I D付 き参照モデル"をダウンロー ドする。必要に応じて逐次的にクラス I の 定義の追加、 変更が可能である。 また、 端末のメモリの節約にもなる。 さ らに、 第 3の方法と して、 端末は、 クラス 1 Dと初期標準モデル - 参照モデルの対応関係を明記した"クラス I D ■初期標準モデル '参照モ デル対応表"を記憶しているケースである。 このとき、 端末は、 "対応表" 記憶していないサーバ (図 6 1 のサーバ 3 ) に"対応表"をアップロー ド する。 サーバは、 送信された"対応表"に基づき"クラス I D付き参照モデ ル"を準備する。 端末は、 準備された"クラス I D付き参照モデル"をダウ ンロー ドする。
次に、 このようなクラス I D ■ 初期標準モデル · 参照モデル対応表を 用いた初期標準モデル作成部による初期標準モデルの決定方法について 説明する。 図 6 2は、 その手順を示すフローチャー トである。 図 6 3及 び図 6 4は、 各ステップでの具体例を示す図である。
まず、 標準モデルの作成に用いる参照モデルからクラス I Dを抽出す る (図 6 2のステップ S 1 1 0 5 )。 たとえば、 図 6 3に示される亍一ブ ルに従って、 選択された参照モデルから、 対応するクラス I Dを抽出す る。 ここでは、 抽出 したクラス I D と して、 8 Aが 1 個、 1 6 Aが 3個、 1 6 B力 1 個、 6 4 B力《 1 個とする。
次に、 抽出 したクラス I Dを用いて標準モデル作成に用いる初期標準 モデルを決定する (図 6 2のステップ S 1 1 0 6 )。 具体的には、 以下の 手順に従つて初期標準モデルを決定する。
( 1 ) 作成する標準モデルの混合分布数 ( 1 6混合) と同じクラス I D ( 1 6 * ) をもつ参照モデルから抽出 したクラス I D ( 1 6 A、 1 6 B ) に着目 し、 その中から一番多く抽出されたクラス I Dに対応する初期標 準モデルを最終的な初期標準モデルと決定する。 たとえば、 標準モデル の構造が 1 6混合の場合には、 1 6混合に関するクラス I D と して、 1 6 Aが 3個、 1 6 Bが 1 個抽出されているので、 クラス I Dが 1 6 Aの 初期標準モデルを採用する。
( 2 ) 作成する標準モデルの混合分布数 ( 8混合) と同じクラス I D ( 8 * ) をもつ参照モデルから抽出 したクラス I D ( 8 A ) に着目 し、 同じ クラス I Dをもつ初期標準モデルを最終的な初期標準モデルと決定する。 たとえば、 標準モデルの構造が 8混合の場合には、 8混合に関するクラ ス I D と して、 8 Aが 1 個抽出されているので、 クラス I Dが 8 Aの初 期標準モデルを採用する。
( 3 ) 作成する標準モデルの混合分布数 ( 3 2混合) と同 じクラス I D ( 3 2 * ) をもつ参照モデルから抽出 したクラス I Dに着目 し、 存在し ない場合、 仕様情報に着目 してその中から一番多く抽出されたクラス I D ( * A ) をもつ初期標準モデル ( 8 A、 1 6 A ) を用いてクラスタ リ ングによ り 3 2混合にして最終的な初期標準モデルとする (図 4 4 を参 照)。 たとえば、 標準モデルの構造が 3 2混合の場合には、 3 2混合に関 するクラス I Dが抽出されていないので、 一番多く抽出されたクラス I D ( 1 6 A ) を用いてクラスタ リ ングによ り 3 2混合にして初期標準モ デルとする。
なお、 はじめに作成する標準モデルの仕様情報 (混合分布数など) に 着目せず、 利用情報 (雑音の種類など) に着目 して初期値を決定しても よい。
図 6 4に、 第 3近似部を用いて作成した混合分布数が 6 4の標準モデ ルを用いた認識実験の結果を示す。 縦軸に成人 (男性と女性) の認識率 ( % )、 横軸に繰り返し回数 Rを示す。 繰り返し回数 R = 0 とは、 学習を 行う前での初期標準モデル作成部が作成した初期モデルによ り認識した 結果である。 また、 繰り返し回数 R = 1 〜 5 において、 近傍指示パラメ —タ G = 1 と した。
グラフ 「データ」 は、 数日間かけて音声データ よ り学習した場合の結 果を表しており 、 グラフ 「女性」、 グラフ 「男性」 は、 それぞれ、 初期モ デルを成人女性、 成人男性と したときの結果を表している。 参照モデル による本発明による学習時間は数分のオーダーであった。 この実験結果 よ り、 成人女性の参照モデルを初期標準モデルと決定した場合には、 音 声データで学習 した結果よ り も高い精度の標準モデルが作成できている ことが分かる。
このことは、 音声データを分割し、 分割した音声データをそれぞれの 参照モデルと して厳密に学習したのちに統合したほうが、 音声データに よる学習の課題である局所解に陥るという問題を解決できる可能性を示 している (音声データによる学習との認識精度での比較)。
また、 音声データの収録が困難な子供の音声データに対しては、 デー タ数に適切である混合分布数の少ない参照モデルで厳密に学習して、 多 くの音声データの収録が可能な成人の音声データに対しては、 混合分布 数の多い参照モデルで厳密に学習して、 そのあとで本発明により統合し て標準モデルを作成すれば、 極めて精度の高い標準モデルが作成できる ことが期待できる。
なお、 標準モデルの混合分布数が 1 6の場合における認識実験 (図 3 9 ) では、 本発明による方法は、 音声データで学習した標準モデルの認 識率を超えていない。 このことは、 音声データを 1 6混合の参照モデル の形にしたときに音声データの情報が欠如したためだと考えられる。 参 照モデルを 6 4混合で作成して音声データの特徴を十分保持しておけば より高い精度の標準モデルが作成,できる。 このことより、 第 9の実施の 形態では、 参照モデルの混合分布数を 3 0 0と大きめに設定している。 また、 図 3 9及び図 6 4に示 れる認識実験より、 初期標準モデルが 認識精度に与える影響が示されており、 初期標準モデルの決定方法の重 要性を物語っている (図 6 4において、 成人女性の參照モデルを初期標 準モデルと して利用した場合、 成人男性の参照モデルを利用する場合よ り高い精度の標準モデルが作成できることが示されている)。
以上のように、 クラス I D , 初期標準モデル ■ 参照モデル対応表に従 つて、 参照モデルと共通する性質の初期標準モデルを用いることで、 精 度の高い標準モデルを作成することができる。 なお、 このようなクラス I D ■ 初期標準モデル ■ 参照モデル対応表を 用いた初期標準モデルの決定は、 上記実施の形態 1 〜 1 0のいずれにお いても採用することができる。
また、 上記実施の形態では、 標準モデルの統計量を推定する際に、 参 照モデルに対する標準モデルの尤度と して式 2 5が用いられたが、 本発 明はこのような尤度関数に限られず、 例えば、 以下の式 6 6に示される 尤度関数を用いてもよい。
(式 6 6 )
Figure imgf000107_0001
ここで、 (i)は、 統合する各参照モデル i に対応した重要度を示す重 み付けである。 たとえば、 音声認識における話者適用であれば、 重要度 は、利用者の音声と統合モデルを作成した音声の近さにより決定される。 つまり、 参照モデルが利用者の音声に近い (重要度が大きい) 場合に、 (i)は大きな値に設定される (大きく重み付けされる)。 統合モデルと 利用者の音声との近さは、 利用者の音声を統合モデルに入力したときの 尤度の大きさにより決定すればよい。 これによつて、 複数の参照モデル を統合して標準モデルを作成する際に、 利用者の音声に近い参照モデル ほど大きな重み付けで標準モデルの統計量に影響を与えることとなり、 より利用者の特性を反映した精度の高い標準モデルが作成される。
また、 各実施の形態における標準モデル構造決定部は、 利用情報や仕 様情報などの各種要因に基づいて標準モデルの構造を決定したが、 本発 明は、これらの要因だけに限られず、例えば、音声認識の場合であれば、 認識の対象となる人の年齢、 性別、 声質の話者性、 感情又は健康状態に 基づく声の調子、 発話速度、 発話の丁寧さ、 方言、 背景雑音の種類、 背 景雑音の大きさ、 音声と背景雑音との SN比、 マイク特性及び認識語彙 の複雑さなどの各種属性に依存して標準モデルの構造を決定してもよし、。 具体的には、 図 6 5 ( a ) 〜 ( j ) に示されるように、 音声認識の対 象となる人の年齢が高いほど標準モデルを構成するガウス分布の数 (混 合数) を大きく したり (図 6 5 ( a ) )、 音声認識の対象となる人が男性 の場合には女性の場合よりも大きな混合数にしたり (図 6 5 ( b ) )、 音 声認識の対象となる人の音質が 「通常」 よりも 「ハスキー」、 さらに 「し わがれ声」 となるほど混合数を大きく したり (図 6 5 ( c ) )、 音声認識 の対象となる声の感情による調子が「通常」よりも 「怒り声」、 さらに「泣 き 笑いながらの声」となるほど混合数を大きく したり (図 6 5 ( d ) )、 音声認識の対象となる人の発話速度が速く Z遅くなるほど混合数を大き く したり (図 6 5 ( e ) )、音声認識の対象となる人の発話の丁寧さが「朗 読調」 よりも 「講演調」、 さらに 「会話調」 となるほど混合数を大きく し たり (図 6 5 ( f ) )、 音声認識の対象となる人の方言が 「標準語」 より も 「大阪弁」、 さらに 「鹿児島弁」 となるほど混合数を大きく したり (図 6 5 ( g ) )、 音声認識における背景雑音が大きくなるほど混合数を小さ く したり (図 6 5 ( h ) )、 音声認識に使用するマイクの性能が高くなる ほど混合数を大きく したり (図 6 5 ( i ) )、 音声認識の対象となる語彙 が増加するほど混合数を大きく したり (図 6 5 ( j ) ) すればよい。 これ らの例の多くは、 認識対象の音声のばらつきが大きいほど、 混合数を大 きく して精度を確保するという観点から混合数が決定される。 産業上の利用の可能性
本発明に係る標準モデル作成装置は、 確率モデル等を用いた音声、 文 字、 画像等の対象物を認識する装置等と して利用することができ、 例え ば、 音声によって各種処理を実行するテレビ受信装置 ■ カーナビゲーシ ヨ ン装置、 音声を他の言語に翻訳する翻訳装置、 音声で操作するゲーム 装置、音声による検索キーワードで情報を検索する検索装置、人物検出 ' 指紋認証 ■ 顏認証 · 虹彩認証等を行う認証装置、 株価予測、 天気予測な どの予測を行う情報処理装置等と して利用することができる。

Claims

請 求 の 範 囲
1 . 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モ デルを用いて、 特定の属性を有する音声の特徴を示す音声認識用の標準 モデルを作成する装置であって、
一定の属性を有する音声の特徴を示す確率モデルである 1 以上の参照 モデルを記憶する参照モデル記憶手段と、
前記参照モデル記憶手段に格納された 1 以上の参照モデルの統計量を 用いて前記標準モデルの統計量を計算することによって標準モデルを作 成する標準モデル作成手段とを備え、
前記標準モデル作成手段は、
作成する標準モデルの構造を決定する標準モデル構造決定部と、 構造が決定された標準モデルを特定する統計量の初期値を決定する初 期標準モデル作成部と、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤 度を最大化又は極大化するように前記標準モデルの統計量を推定して計 算する統計量推定部とを有する
ことを特徴とする標準モデル作成装置。
2 . 前記標準モデル作成装置はさらに、
音声認識の対象となる属性に関する情報である利用情報に基づいて、 前記参照モデル記憶手段に記憶されている参照モデルの中から 1 以上の 参照モデルを選択する参照モデル選択手段を備え、
前記標準モデル作成手段は、 前記参照モデル選択手段が選択した参照 モデルの統計量を用いて標準モデルを作成する
ことを特徴とする請求の範囲 1 記載の標準モデル作成装置。
3 . 前記標準モデル作成装置はさらに、
前記利用情報を作成する利用情報作成手段を備え、
前記参照モデル選択手段は、 作成された利用情報に基づいて、 前記参 照モデル記憶手段に記憶されている参照モデルの中から 1 以上の参照モ デルを選択する
ことを特徴とする請求の範囲 2記載の標準モデル作成装置。
4 . 前記標準モデル作成装置には通信路を介して端末装置が接続され、 前記標準モデル作成装置はさらに
前記端末装置から前記利用情報を受信する利用情報受信手段を備 7L 前記参照モデル選択手段は、 受信された利用情報に基づいて、 前記 照モデル記憶手段に記憶されている参照モデルの中から 1 以上の参照 デルを選択する
ことを特徴とする請求の範囲 2記載の標準モデル作成装置
5 . 前記標準モデル構造決定部は、 作成する標準モデルの仕様に関する 情報である仕様情報、 及び、 音声認識の対象となる属性に関する情報で ある利用情報の少なく とも一方に基づいて、 前記標準モデルの構造を決 定する
ことを特徴とする請求の範囲 1 記載の音声認識用の標準モデル作成装
6 . 前記仕様情報とは、 標準モデルを使用するアプリケーショ ンプログ ラムの種類、 及び、 標準モデルを使用する機器の仕様の少なく とも一方 の仕様を示す
ことを特徴とする請求の範囲 5記載の音声認識用の標準モデル作成装 置
7 . 前記属性とは、 年齢、 性別、 声質の話者性、 感情又は健康状態に基 づく声の調子、 発話速度、 発話の丁寧さ、 方言、 背景雑音の種類、 背景 雑音の大きさ、 音声と背景雑音との SN比、 マイク特性及び認識語彙の 複雑さの少なく とも 1 つに関する.情報を含む
ことを特徴とする請求の範囲 5記載の音声認識用の標準モデル作成装 置。 8 . 前記標準モデル作成装置はさらに、
標準モデルを使用するアプリケーショ ンプログラムと標準モデルの仕 様との対応を示すアプリケーショ ン仕様対応データベースを前記仕様情 報と して保持する仕様情報保持手段を備え、
前記標準モデル構造決定部は、 前記仕様情報保持手段に保持されたァ プリケーシヨ ン仕様対応データベースから、 起動されるアプリケーショ ンプログラムに対応する仕様を読み出し、 読み出した仕様に基づいて、 前記標準モデルの構造を決定する
ことを特徴とする請求の範囲 5記載の標準モデル作成装置。 9 . 前記標準モデル作成装置はさらに、
前記仕様情報を作成する仕様情報作成手段を備え、
前記標準モデル構造決定部は、 作成された仕様情報に基づいて、 前記 標準モデルの構造を決定する
ことを特徴とする請求の範囲 5記載の標準モデル作成装置。
1 0 .前記標準モデル作成装置には通信路を介して端末装置が接続され、 前記標準モデル作成装置はさらに、
前記端末装置から前記仕様情報を受信する仕様情報受信手段を備え、 前記標準モデル構造決定部は、 受.信された仕様情報に基づいて、 前記 標準モデルの構造を決定する ·
ことを特徴とする請求の範囲 5記載の標準モデル作成装置。
1 1 . 前記参照モデル及び前記標準モデルは、 1 以上のガウス分布を用 いて表現され、
前記標準モデル構造決定部は、 前記標準モデルの構造と して、 少なく ともガウス分布の混合数を決定する
ことを特徴とする請求の範囲 5記載の標準モデル作成装置。
1 2 . 前記標準モデル作成装置には、 通信路を介して端末装置が接続さ れ、
前記標準モデル作成装置はさらに、
前記標準モデル作成手段が作成した標準モデルを前記端末装置に送信 する標準モデル送信手段を備える
ことを特徴とする請求の範囲 1 記載の標準モデル作成装置。 1 3 . 前記参照モデル及び前記標準モデルは、 1 以上のガウス分布を用 いて表現され、
前記参照モデル記憶手段は、 少なく ともガウス分布の混合数が異なる 1 対の参照モデルを記憶し、
前記統計量推定部は、 前記 1 対の参照モデルに対する前記標準モデル の確率又は尤度を最大化又は極大化するように前記標準モデルの統計量 を計算する ことを特徴とする請求の範囲 1 記載の標準モデル作成装置。
1 4 . 前記標準モデル作成手段はさ に、
外部から参照モデルを取得して前記参照モデル記憶手段に格納するこ と、 及び、 新たな参照モデルを作成して前記参照モデル記憶手段に格納 することの少なく とも一方を行う参照モデル準備手段を備える
ことを特徴とする請求の範囲 1 記載の標準モデル作成装置。
1 5 . 前記参照モデル準備手段は、 さらに、 前記参照モデル記憶手段が 記憶する参照モデルの更新及び追加の少なく とも一方を行う
ことを特徴とする請求の範囲 1 4記載の標準モデル作成装置。
1 6 . 前記参照モデル準備手段は、 認識の対象に関する情報である利用 情報、 及び作成する標準モデルの仕様に関する情報である仕様情報の少 なく とも一方に基づいて、 前記参照モデル記憶手段が記憶する参照モデ ルの更新及び追加の少なく とも一方を行う
ことを特徴とする請求の範囲 1 5記載の標準モデル作成装置。
1 7 . 前記標準モデル作成装置は、 さらに、 作成する標準モデルの仕様 に関する情報である仕様情報、 及び、 音声認識の対象となる属性に関す る情報である利用情報の少なく とも一方と、 前記参照モデル記憶手段に 記憶された参照モデルとに基づいて、 前記利用情報及び前記仕様情報の 少なく とも一方と前記参照モデルとの類似度を示す類似度情報を作成す る類似度情報作成手段を備え、
前記参照モデル準備手段は、 前記類似度情報作成手段が作成した類似 度情報に基づいて、 前記参照モデル記憶手段が記憶する参照モデルの更 新及び追加の少なく とも一方を行うか否かを決定する ことを特徴とする請求の範囲 1 5記載の標準モデル作成装置。
1 8 . 前記初期標準モデル作成部は、 前記統計量推定部が標準モデルの 統計量を計算するために用いる、 1 以上の前記参照モデルを用いて前記 標準モデルを特定する統計量の初期値を決定する
ことを特徴とする請求の範囲 1 記載の標準モデル作成装置。
1 9 . 前記初期標準モデル作成部は、 標準モデルの種類を識別するクラ ス I Dに基づいて、 前記初期値を決定する
ことを特徴とする請求の範囲 1 記載の標準モデル作成装置。
2 0 . 前記初期標準モデル作成部は、 前記参照モデルから前記クラス I Dを特定し、 特定したクラス I Dに対応づけられた初期値を前記初期値 と決定する
ことを特徴とする請求の範囲 1 9記載の標準モデル作成装置。
2 1 . 前記初期標準モデル作成部は、 前記クラス I Dと前記初期値と前 記参照モデルとの対応を示す対応表を保持し、 前記対応表に従って、 前 記初期値を決定する
ことを特徴とする請求の範囲 2 0記載の標準モデル作成装置。
2 2 . 前記初期標準モデル作成部は、 前記クラス I Dが対応づけられた 初期値であるクラス I D付き初期標準モデル、 又は、 前記クラス I りが 対応づけられた参照モデルであるクラス I D付き参照モデルを作成又は 外部から取得することによって、 前記対応表を生成する ことを特徴とする請求の範囲 2 1 記載の標準モデル作成装置。
2 3 . 前記参照モデル記憶手段は、 複数の参照モデルを記憶し、 前記統計量推定部は、 前記参照モデル記憶手段に記憶された複数の参 照モデルに対して重み付けられた前記確率又は尤度を最大化又は極大化 するように前記統計量を計算する
ことを特徴とする請求の範囲 1記載の標準モデル作成装置。
2 4 . 音声の特徴を示す周波数のパラメータを出力確率で表現する確率 モデルを用いて、 特定の属性を有する音声の特徴を示す音声認識用の標 準モデルを作成する方法であって、
一定の属性を有する音声の特徴を示す確率モデルである 1 以上の参照 モデルを記憶する参照モデル記憶手段から 1 以上の参照モデルを読み出 す参照モデル読み出しステップと、
読み出された参照モデルの統計量を用いて前記標準モデルの統計量を 計算することによって標準モデルを作成する標準モデル作成ステップと を含み、
前記標準モデル作成ステツプは、
作成する標準モデルの構造を決定する標準モデル構造決定サブステツ プと、
構造が決定された標準モデルを特定する統計量の初期値を決定する初 期標準モデル作成サブステップと、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤 度を最大化又は極大化するように前記標準モデルの統計量を推定して計 算する統計量推定サブステップとを有する
ことを特徴とする標準モデル作成方法。
2 5 . 音声の特徴を示す周波数のパラメータを出力確率で表現する確率 モデルを用いて、 特定の属性を有する音声の特徴を示す音声認識用の標 準モデルを作成する装置のためのプログラムであって、
一定の属性を有する音声の特徴を示す確率モデルである 1 以上の参照 モデルを記憶する参照モデル記憶手段から 1 以上の参照モデルを読み出 す参照モデル読み出しステップと、
読み出された参照モデルの統計量を用いて前記標準モデルの統計量を 計算することによって標準モデルを作成する標準モデル作成ステップと を含み、
前記標準モデル作成ステツプは、
作成する標準モデルの構造を決定する標準モデル構造決定サブステツ プと、
構造が決定された標準モデルを特定する統計量の初期値を決定する初 期標準モデル作成サブステップと、
初期値が決定された標準モデルの前記参照モデルに対する確率又は尤 度を最大化又は極大化するように前記標準モデルの統計量を推定して計 算する統計量推定サブステップとを有する
ことを特徴とするプログラム。
PCT/JP2003/014626 2002-11-21 2003-11-18 標準モデル作成装置及び標準モデル作成方法 WO2004047076A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
AU2003302063A AU2003302063A1 (en) 2002-11-21 2003-11-18 Standard model creating device and standard model creating method
JP2004570337A JP3667332B2 (ja) 2002-11-21 2003-11-18 標準モデル作成装置及び標準モデル作成方法
US10/534,869 US7603276B2 (en) 2002-11-21 2003-11-18 Standard-model generation for speech recognition using a reference model
EP03811527A EP1564721A1 (en) 2002-11-21 2003-11-18 Standard model creating device and standard model creating method
US12/499,302 US20090271201A1 (en) 2002-11-21 2009-07-08 Standard-model generation for speech recognition using a reference model

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2002-338652 2002-11-21
JP2002338652 2002-11-21
JP2003-89179 2003-03-27
JP2003089179 2003-03-27
JP2003-284489 2003-07-31
JP2003284489 2003-07-31

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/499,302 Division US20090271201A1 (en) 2002-11-21 2009-07-08 Standard-model generation for speech recognition using a reference model

Publications (1)

Publication Number Publication Date
WO2004047076A1 true WO2004047076A1 (ja) 2004-06-03

Family

ID=32329651

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/014626 WO2004047076A1 (ja) 2002-11-21 2003-11-18 標準モデル作成装置及び標準モデル作成方法

Country Status (5)

Country Link
US (2) US7603276B2 (ja)
EP (1) EP1564721A1 (ja)
JP (1) JP3667332B2 (ja)
AU (1) AU2003302063A1 (ja)
WO (1) WO2004047076A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010036025A (ja) * 2008-07-11 2010-02-18 Tokyo Univ Of Science 不確実性下における人間の行動を判別する方法及びその装置
CN109903375A (zh) * 2019-02-21 2019-06-18 Oppo广东移动通信有限公司 模型生成方法、装置、存储介质及电子设备
JP2019185062A (ja) * 2018-09-10 2019-10-24 百度在線網絡技術(北京)有限公司 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8938390B2 (en) 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
DE602006010505D1 (de) * 2005-12-12 2009-12-31 Gregory John Gadbois Mehrstimmige Spracherkennung
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
CA2676380C (en) 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8005812B1 (en) 2007-03-16 2011-08-23 The Mathworks, Inc. Collaborative modeling environment
US9729843B1 (en) 2007-03-16 2017-08-08 The Mathworks, Inc. Enriched video for a technical computing environment
JP5418223B2 (ja) * 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム
KR100876786B1 (ko) * 2007-05-09 2009-01-09 삼성전자주식회사 조명 마스크를 이용하는 사용자 얼굴 검증 시스템 및 방법
US20090006085A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automated call classification and prioritization
CN101339765B (zh) * 2007-07-04 2011-04-13 黎自奋 一种国语单音辨认方法
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
JP2009086581A (ja) * 2007-10-03 2009-04-23 Toshiba Corp 音声認識の話者モデルを作成する装置およびプログラム
US7962313B2 (en) * 2007-12-14 2011-06-14 Palo Alto Research Center Incorporated Method and apparatus for using mobile code for distributed data fusion in networked sensing systems
CN101281746A (zh) * 2008-03-17 2008-10-08 黎自奋 一个百分之百辨认率的国语单音与句子辨认方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
TWI352970B (en) * 2008-04-30 2011-11-21 Delta Electronics Inc Voice input system and voice input method
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US20100124335A1 (en) * 2008-11-19 2010-05-20 All Media Guide, Llc Scoring a match of two audio tracks sets using track time probability distribution
EP2192575B1 (en) * 2008-11-27 2014-04-30 Nuance Communications, Inc. Speech recognition based on a multilingual acoustic model
KR101217524B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US20100198577A1 (en) * 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20110050412A1 (en) * 2009-08-18 2011-03-03 Cynthia Wittman Voice activated finding device
KR101289081B1 (ko) * 2009-09-10 2013-07-22 한국전자통신연구원 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법
US8869195B2 (en) * 2009-12-10 2014-10-21 At&T Intellectual Property I, L.P. Apparatus and method for managing voice communications
US8935737B2 (en) 2009-12-10 2015-01-13 At&T Intellectual Property I, Lp Apparatus and method for managing voice communications
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9652999B2 (en) * 2010-04-29 2017-05-16 Educational Testing Service Computer-implemented systems and methods for estimating word accuracy for automatic speech recognition
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US8639516B2 (en) * 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
KR20120045582A (ko) * 2010-10-29 2012-05-09 한국전자통신연구원 음향 모델 생성 장치 및 방법
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US9224388B2 (en) * 2011-03-04 2015-12-29 Qualcomm Incorporated Sound recognition method and system
US9679561B2 (en) * 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8983844B1 (en) * 2012-07-31 2015-03-17 Amazon Technologies, Inc. Transmission of noise parameters for improving automatic speech recognition
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP2014106247A (ja) * 2012-11-22 2014-06-09 Fujitsu Ltd 信号処理装置、信号処理方法および信号処理プログラム
US9495955B1 (en) * 2013-01-02 2016-11-15 Amazon Technologies, Inc. Acoustic model training
US9275638B2 (en) * 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US20140330741A1 (en) * 2013-05-03 2014-11-06 Iwona Bialynicka-Birula Delivery estimate prediction and visualization system
JP6234060B2 (ja) * 2013-05-09 2017-11-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US9437208B2 (en) * 2013-06-03 2016-09-06 Adobe Systems Incorporated General sound decomposition models
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9786296B2 (en) 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US9008427B2 (en) 2013-09-13 2015-04-14 At&T Intellectual Property I, Lp Method and apparatus for generating quality estimators
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US9177549B2 (en) * 2013-11-01 2015-11-03 Google Inc. Method and system for cross-lingual voice conversion
US9904851B2 (en) 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
KR102601848B1 (ko) * 2015-11-25 2023-11-13 삼성전자주식회사 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
EP3474276A4 (en) * 2016-06-15 2019-07-31 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN107016212B (zh) * 2017-04-21 2020-03-17 中国电子科技集团公司第五十四研究所 基于动态贝叶斯网络的意图分析方法
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US11011162B2 (en) 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
JP6910987B2 (ja) * 2018-06-07 2021-07-28 株式会社東芝 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム
US11232782B2 (en) * 2019-08-30 2022-01-25 Microsoft Technology Licensing, Llc Speaker adaptation for attention-based encoder-decoder
CN112241806B (zh) * 2020-07-31 2021-06-22 深圳市综合交通运行指挥中心 道路破损概率预测方法、装置终端设备及可读存储介质
WO2023152877A1 (ja) * 2022-02-10 2023-08-17 日本電信電話株式会社 通信品質予測装置、通信品質予測システム、通信品質予測方法、及び通信品質予測プログラム
WO2023152879A1 (ja) * 2022-02-10 2023-08-17 日本電信電話株式会社 モデル設定装置、モデル設定システム、モデル設定方法、及びモデル設定プログラム
CN114822005B (zh) * 2022-06-28 2022-09-20 深圳市矽昊智能科技有限公司 基于人工智能的遥控意图预测方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143486A (ja) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
JP3251005B2 (ja) * 1990-09-17 2002-01-28 日本電気株式会社 標準パターン作成方法
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP7069711B2 (ja) * 2017-12-27 2022-05-18 大日本印刷株式会社 配線基板、および配線基板を有する半導体装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US5450523A (en) * 1990-11-15 1995-09-12 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems
US6101468A (en) * 1992-11-13 2000-08-08 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
JP3283346B2 (ja) 1993-07-20 2002-05-20 堺化学工業株式会社 押出成形用坏土組成物
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
US5825978A (en) * 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US5684924A (en) * 1995-05-19 1997-11-04 Kurzweil Applied Intelligence, Inc. User adaptable speech recognition system
JP2852210B2 (ja) 1995-09-19 1999-01-27 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル作成装置及び音声認識装置
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
JP3144341B2 (ja) 1997-03-26 2001-03-12 日本電気株式会社 音声認識装置
US6163596A (en) * 1997-05-23 2000-12-19 Hotas Holdings Ltd. Phonebook
WO1999018556A2 (en) * 1997-10-08 1999-04-15 Koninklijke Philips Electronics N.V. Vocabulary and/or language model training
US6038535A (en) * 1998-03-23 2000-03-14 Motorola, Inc. Speech classifier and method using delay elements
US6263309B1 (en) * 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6725195B2 (en) * 1998-08-25 2004-04-20 Sri International Method and apparatus for probabilistic recognition using small number of state clusters
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
WO2000058942A2 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6526379B1 (en) * 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US20020077823A1 (en) * 2000-10-13 2002-06-20 Andrew Fox Software development systems and methods
DE60111329T2 (de) * 2000-11-14 2006-03-16 International Business Machines Corp. Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
US7209880B1 (en) * 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US7031530B2 (en) * 2001-11-27 2006-04-18 Lockheed Martin Corporation Compound classifier for pattern recognition applications
US20030171931A1 (en) * 2002-03-11 2003-09-11 Chang Eric I-Chao System for creating user-dependent recognition models and for making those models accessible by a user
EP1505573B1 (en) * 2002-05-10 2008-09-03 Asahi Kasei Kabushiki Kaisha Speech recognition device
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
US7366352B2 (en) * 2003-03-20 2008-04-29 International Business Machines Corporation Method and apparatus for performing fast closest match in pattern recognition
US7480617B2 (en) * 2004-09-21 2009-01-20 International Business Machines Corporation Method for likelihood computation in multi-stream HMM based speech recognition
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3251005B2 (ja) * 1990-09-17 2002-01-28 日本電気株式会社 標準パターン作成方法
JPH11143486A (ja) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP7069711B2 (ja) * 2017-12-27 2022-05-18 大日本印刷株式会社 配線基板、および配線基板を有する半導体装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YOSHIZAWA ET AL.: "Unsupervised speaker adaptation based on sufficient HMM statistics of selected speakers", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP'01), vol. 1, 7 May 2001 (2001-05-07), pages 341 - 344, XP002979125 *
YOSHIZAWA KANO: "Saiyu suitei ni motozuku model togo gakushuho", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) GAKKI 2003 NEN SHUKI KENKYU HAPPYOKAI KOEN RONBUNSHU I, vol. 3-6-2, 17 September 2003 (2003-09-17), pages 105 - 106, XP002979124 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010036025A (ja) * 2008-07-11 2010-02-18 Tokyo Univ Of Science 不確実性下における人間の行動を判別する方法及びその装置
JP2019185062A (ja) * 2018-09-10 2019-10-24 百度在線網絡技術(北京)有限公司 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体
US11176938B2 (en) 2018-09-10 2021-11-16 Baidu Online Network Technology (Beijing) Co., Ltd. Method, device and storage medium for controlling game execution using voice intelligent interactive system
CN109903375A (zh) * 2019-02-21 2019-06-18 Oppo广东移动通信有限公司 模型生成方法、装置、存储介质及电子设备
CN109903375B (zh) * 2019-02-21 2023-06-06 Oppo广东移动通信有限公司 模型生成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
JP3667332B2 (ja) 2005-07-06
AU2003302063A1 (en) 2004-06-15
EP1564721A1 (en) 2005-08-17
US20060053014A1 (en) 2006-03-09
US20090271201A1 (en) 2009-10-29
JPWO2004047076A1 (ja) 2006-03-23
US7603276B2 (en) 2009-10-13

Similar Documents

Publication Publication Date Title
JP3667332B2 (ja) 標準モデル作成装置及び標準モデル作成方法
US9318103B2 (en) System and method for recognizing a user voice command in noisy environment
US10878807B2 (en) System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
US10573304B2 (en) Speech recognition system and method using an adaptive incremental learning approach
JP6550068B2 (ja) 音声認識における発音予測
JP2005227794A (ja) 標準モデル作成装置及び標準モデル作成方法
JP4590692B2 (ja) 音響モデル作成装置及びその方法
US7457745B2 (en) Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US9640175B2 (en) Pronunciation learning from user correction
US10650802B2 (en) Voice recognition method, recording medium, voice recognition device, and robot
CN111583909A (zh) 一种语音识别方法、装置、设备及存储介质
JP5149107B2 (ja) 音響処理装置およびプログラム
CN117198270A (zh) 定制声学模型
WO2020044543A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP2021026050A (ja) 音声認識システム、情報処理装置、音声認識方法、プログラム
Furui Steps toward natural human-machine communication in the 21st century
JP2004294916A (ja) 標準モデル作成装置および標準モデル作成方法
JP2024502588A (ja) 仮想アシスタントが開始したリストおよびリマインダでの元の音声クリップへのドリルバック
JP2005107550A (ja) 端末装置、サーバ装置および音声認識方法
CN117524238A (zh) 一种适用于高噪音环境的语音交互系统
JP5626558B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム
Kalantari et al. Cross database audio visual speech adaptation for phonetic spoken term detection

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2004570337

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2003811527

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2006053014

Country of ref document: US

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 10534869

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 20038A3867X

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2003811527

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2003811527

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10534869

Country of ref document: US