WO2014188940A1 - ディープ・ニューラルネットワークの学習方法及び学習装置、並びにカテゴリー独立なサブネットワークの学習装置 - Google Patents

ディープ・ニューラルネットワークの学習方法及び学習装置、並びにカテゴリー独立なサブネットワークの学習装置 Download PDF

Info

Publication number
WO2014188940A1
WO2014188940A1 PCT/JP2014/062911 JP2014062911W WO2014188940A1 WO 2014188940 A1 WO2014188940 A1 WO 2014188940A1 JP 2014062911 W JP2014062911 W JP 2014062911W WO 2014188940 A1 WO2014188940 A1 WO 2014188940A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
sub
network
subnetwork
category
Prior art date
Application number
PCT/JP2014/062911
Other languages
English (en)
French (fr)
Inventor
繁樹 松田
ルー・シュガン
堀 智織
秀紀 柏岡
Original Assignee
独立行政法人情報通信研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 独立行政法人情報通信研究機構 filed Critical 独立行政法人情報通信研究機構
Priority to EP14801131.5A priority Critical patent/EP3001358B1/en
Priority to CN201480029326.5A priority patent/CN105229676B/zh
Priority to US14/787,903 priority patent/US9691020B2/en
Publication of WO2014188940A1 publication Critical patent/WO2014188940A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Definitions

  • the present invention relates to a deep neural network (hereinafter referred to as “DNN” for the sake of brevity) used in recognition techniques such as speech recognition and image recognition, and in particular, speeds up the learning of a specific-use DNN.
  • DNN deep neural network
  • DNN is attracting attention as a method of machine learning.
  • DNN is applied to image recognition, voice recognition, and the like, and it has been reported in the following documents that it exhibits excellent performance, such as an error rate being reduced by 20 to 30%.
  • DNN 30 can be said to be a neural network having more layers than before.
  • DNN 30 includes an input layer 40, an output layer 44, and a plurality of hidden layers 42 provided between input layer 40 and output layer 44.
  • the input layer 40 has a plurality of input nodes (neurons).
  • the output layer 44 has as many neurons as the number of identification targets.
  • the hidden layer 42 has a plurality of hidden layers (7 layers, 9 layers, 11 layers, etc.). Each hidden layer has multiple neurons.
  • DNN30 not only the number of layers but also the number of neurons in each layer is large. Therefore, the amount of calculation for learning may become enormous. In the past, it was almost impossible to perform such calculations, but it is also possible to learn DNN due to the high functionality of the computer itself, the development of distributed / parallel processing technology and the development of computational theory. . However, when a large amount of data is used for learning, it still takes a long time for learning. For example, in one experiment, 10 million images of 200 pixels x 200 pixels were used as learning data, and it took 3 days to learn DNN using 1,000 16-core computers (Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeff Dean Andrew Y. Ng, “Building High-level Features Using Large Scale Unsupervised Learning,” Proc.
  • DNN when DNN is applied to speech recognition, the phoneme configuration differs depending on the target language, so that DNN must be prepared separately and learned separately.
  • FIG. 2 when DNN for speech recognition in Japanese and English is used, Japanese DNN 60 and English DNN 62 are separately prepared and learning is performed using different learning data. . That is, it is necessary to learn two DNNs.
  • voice recognition of a new language is necessary, a new DNN is prepared and learning is newly performed. That is, when DNN learning is performed for a total of N languages, it takes about seven times as long as when one DNN is performed. If such a long time is required for learning the DNN, it takes an enormous amount of time for system development, which is not preferable.
  • Such a problem is a problem that occurs not only during DNN learning for speech recognition by language but also when preparing DNN for image recognition by category, for example.
  • an object of the present invention is to provide a DNN learning apparatus and method capable of shortening the DNN learning time using learning data belonging to a certain category, and an object recognition apparatus using such a DNN. With the goal.
  • the DNN learning method allows a DNN to be identified for an object classified into a plurality of categories to be learned using a computer for a category-independent subnetwork commonly used for the plurality of categories. It is a learning method.
  • the computer stores the first, second, and third sub-networks in the storage medium, and the computer uses the learning data belonging to the first and second categories among the plurality of categories. And a sub-network learning step of learning the first, second, and third sub-networks.
  • the computer causes the first DNN formed by connecting the second sub-network to the subsequent stage of the first sub-network to be learned with the learning data belonging to the first category, Learning of the DNN that learns the first and second DNNs by learning the second DNN formed by connecting the third sub-network after the sub-network with the learning data belonging to the second category
  • the computer separates the first sub-network from the other sub-networks and stores it in the storage medium as a category-independent sub-network.
  • each of the first, second and third sub-networks includes an input layer, a hidden layer and an output layer.
  • the learning step of the DNN includes a step in which the computer initializes the first, second and third sub-networks; a computer in which the neurons in the output layer of the first sub-network and the input layer in the second sub-network A first learning step of connecting the neurons to form a first DNN and learning the first DNN with learning data belonging to the first category, and a computer comprising: A second learning step of connecting a neuron and a neuron of an input layer of the third subnetwork to form a second DNN, and learning the second DNN with learning data belonging to the second category; and a computer Includes alternately executing the first and second learning steps until the end condition is satisfied.
  • the learning method further includes a category in which the computer separates the second sub-network from the other sub-networks after completion of the sub-network learning step and is used for objects of the first category. Storing in a storage medium as a dependent subnetwork.
  • the learning method according to the second aspect of the present invention is a DNN learning method in which, in a DNN that identifies an object classified into a plurality of categories, a category-dependent subnetwork used for a specific category is learned using a computer. is there.
  • the method includes the steps of a computer storing a category-independent subnetwork commonly used for a plurality of categories, a computer storing a subnetwork for a specific category, and a computer storing a subnetwork for a specific category.
  • Initializing the network forming a DNN by connecting a neuron of an output layer of a category-independent subnetwork and an input layer of a subnetwork for a specific category; and And learning the sub-network for a specific category by using the learning data belonging to and fixing the parameters of the category-independent sub-network.
  • the storage medium according to the third aspect of the present invention is a storage medium storing DNN subnetwork parameters learned by any of the methods described above.
  • the computer program according to the fourth aspect of the present invention causes a computer to execute a DNN learning method.
  • This learning method is a method for learning a category-independent subnetwork commonly used for a plurality of categories in a DNN that identifies an object classified into a plurality of categories.
  • the computer stores the first, second, and third sub-networks in the storage medium, and the computer uses the learning data belonging to the first and second categories among the plurality of categories.
  • a sub-network learning step of learning the first, second, and third sub-networks is a method for learning a category-independent subnetwork commonly used for a plurality of categories in a DNN that identifies an object classified into a plurality of categories.
  • the computer stores the first, second, and third sub-networks in the storage medium, and the computer uses the learning data belonging to the first and second categories among the plurality of categories.
  • a sub-network learning step of learning the first, second, and third sub-networks are examples of learning the first
  • the computer causes the first DNN formed by connecting the second sub-network to the subsequent stage of the first sub-network to be learned with the learning data belonging to the first category, Of the DNN that learns the first and second DNNs by learning the second DNN formed by connecting the third sub-network after the sub-network with the learning data belonging to the second category.
  • a learning step, and after the completion of the DNN learning step, the computer separates the first sub-network from the other sub-networks and stores the first sub-network on the storage medium as a category-independent sub-network.
  • a learning apparatus for a category-independent subnetwork learns a category-independent subnetwork commonly used for a plurality of categories in a deep neural network that identifies objects classified into a plurality of categories. It is a device to do.
  • This apparatus includes a storage device that stores first, second, and third sub-networks, and learning data that belongs to the first and second categories among a plurality of categories, and includes first, second, and third sub-networks. And a sub-network learning device for learning.
  • the learning device of the subnetwork learns the first deep neural network formed by connecting the second subnetwork downstream of the first subnetwork with the learning data belonging to the first category, By learning the second deep neural network formed by connecting the third sub-network after the sub-network with the learning data belonging to the second category, the first and second deep neural networks
  • a deep neural network learning device learns a category-dependent subnetwork used for a specific category in a deep neural network that identifies objects classified into a plurality of categories.
  • This device stores a category-independent subnetwork commonly used for multiple categories, a device that stores a subnetwork for a specific category, an initialization device that initializes a subnetwork for a specific category, and a category-independent device.
  • a deep neural network forming apparatus that forms a deep neural network by connecting an output layer of a sub-network and an input layer of a sub-network for a specific category, using learning data belonging to a specific category, and a category A learning device that learns a subnetwork for a specific category by fixing parameters of independent subnetworks.
  • DNN typically. It is a schematic diagram for demonstrating the case where DNN is learned separately about Japanese and English. It is a schematic diagram of the internal structure of DNN explaining the idea regarding the learning of DNN leading to the present invention. It is a schematic diagram of the internal structure of DNN explaining the idea regarding the learning of DNN leading to the present invention. It is a schematic diagram explaining the fundamental structure of DNN which concerns on each embodiment of this invention.
  • an independent subnetwork 120 and dependent subnetworks 122 and 124 are prepared.
  • the independent subnetwork 120 includes an input layer 160, a hidden layer 162 and an output layer 164.
  • Dependent sub-networks 122 and 124 similarly include input layers 180 and 200, hidden layers 182 and 202, and output layers 184 and 204.
  • the number of neurons in the output layer 164 of the independent subnetwork 120 is matched with the number of neurons in the input layers 180 and 200 of the dependent subnetworks 122 and 124.
  • each neuron of output layer 164 of independent subnetwork 120 and a corresponding neuron of input layer 180 of dependent subnetwork 122 are connected to each other. Connected to each other as neuron pairs 220, 222,. Therefore, the number of neurons in the output layer 164 and the number of neurons in the input layer 180 need to match.
  • an output x i LI of a neuron on the independent subnetwork 120 side is set as an input y i LD to a neuron on the input layer 180 side.
  • i represents a neuron index
  • LI is an abbreviation of “Language Independent”, indicating that it is independent of the language
  • LD is an abbreviation of “Language Dependent”, which is dependent on the language. Show. The same applies to the following description.
  • the error signal e i LI of each neuron in the output layer 164 of the independent subnetwork 120 is derived from the error signal e j LD of each neuron in the second hidden layer of the dependent subnetwork 122 or 124. Calculate with the following formula. Where j is the index of the neuron.
  • w ij is a weight given to the connection between the i-th neuron in the input layer in the dependent sub-network 122 or 124 and the j-th neuron in the second layer.
  • the independent subnetwork 120, the dependent subnetwork 122, and the dependent subnetwork 124 as shown in FIGS. 6 and 7 are learned simultaneously. Specifically, as will be described later with reference to the flowcharts of FIGS. 9 and 10, a process of learning using Japanese learning data with a DNN that connects the independent subnetwork 120 and the dependent subnetwork 122, and the independent subnetwork
  • the process of learning using English learning data by the DNN connecting 120 and the dependent sub-network 124 is repeated alternately while changing the learning data.
  • neurons that perform language-independent processing common to both Japanese and English languages are in the independent subnetwork 120, and neurons that perform Japanese-specific processing in the dependent subnetwork 122 perform neurons-specific processing.
  • These sub-networks are considered to learn so that each concentrates on the dependent sub-network 124.
  • the same independent subnetwork 232 as the independent subnetwork 120 is already at hand of the user.
  • This user can construct a DNN for Japanese speech recognition by obtaining the Japanese dependent subnetwork 122 and connecting it to the subsequent stage of the independent subnetwork 232. If another user has the same independent subnetwork 230 as the independent subnetwork 120, the user obtains the English dependent subnetwork 124 and connects it to the subsequent stage of the independent subnetwork 230, thereby enabling the English voice.
  • a DNN for recognition can be constructed.
  • the independent subnetwork 120 should learn so that it can be used regardless of what language it is. Therefore, a DNN of a new language can be learned in a short time using the independent subnetwork 120 as follows. That is, the independent subnetwork 120 is fixed (all the parameters of the independent subnetwork 120 are unchanged), and an unlearned dependent subnetwork (dependent subnetwork for Chinese) 234 for a new language (for example, Chinese) It connects to the subsequent stage of the independent subnetwork 120. Then, the independent subnetwork 120 is fixed, and learning of the DNN including the independent subnetwork 120 and the dependent subnetwork 234 is performed using Chinese learning data.
  • the independent subnetwork 120 is fixed (all the parameters of the independent subnetwork 120 are unchanged), and an unlearned dependent subnetwork (dependent subnetwork for Chinese) 234 for a new language (for example, Chinese) It connects to the subsequent stage of the independent subnetwork 120. Then, the independent subnetwork 120 is fixed, and learning of the DNN including the independent subnetwork 120
  • the dependent sub-network 234 learns to have parameter values that are suitable for Chinese, and a DNN for Chinese speech recognition is constructed by connecting the dependent sub-network 234 to the subsequent stage of the independent sub-network 120. it can.
  • this dependent sub-network 234 can be distributed as a set with the independent sub-network 120 or separately.
  • the user can construct a new Chinese DNN in combination with the independent subnetwork 236 by obtaining only the dependent subnetwork 234.
  • the number of layers of the dependent subnetwork 234 is smaller than that of a DNN that combines the independent subnetwork 120 and the dependent subnetwork 234. Therefore, learning of the dependent sub-network 234 is much less than when learning the entire DNN. As a result, even when it becomes necessary to construct a DNN for a new language, the necessary DNN can be prepared in a shorter period of time than before.
  • FIG. 9 shows a flowchart of a program for realizing the process of learning the independent subnetwork 120, the Japanese dependency subnetwork 122, and the English dependency subnetwork 124, and FIG. 10 additionally learns the Chinese dependency subnetwork 234.
  • achieves a process is shown.
  • the program for simultaneously learning the independent subnetwork and the dependent subnetwork (a plurality, two in this example) initializes independent subnetwork 120, and initializes dependent subnetwork 122.
  • the initialization of the independent subnetwork 120 is performed by RBM (Restricted Boltzman Machine) as in the case of normal DNN.
  • the dependent sub-networks 122 and 124 are initialized by using the RBM as in the case of the independent sub-network 120 by using the output of the independent sub-network 120 as an input. Note that the dependent subnetworks 122 and 124 may be initialized by the RBM independently of the independent subnetwork 120 without using the output of the independent subnetwork 120.
  • the learning data consists of both Japanese and English speech data and phoneme recognition results, and the learning data for both Japanese and English are divided into a plurality of sets.
  • the learning part of the program includes step 246 for executing the following processing 248 on each set of learning data, the independent subnetwork 120 obtained as a result of learning, the Japanese dependent subnetwork 122, and the English A step 250 for separately outputting the parameters of the dependent sub-network 124 and storing the parameters in a storage medium (not shown) to end the processing.
  • the process 248 includes a step 270 of connecting the dependent Japanese network 122 after the independent subnetwork 120, and the independent subnetwork 120 depending on each Japanese learning data in the learning set to be processed.
  • a step 272 for executing learning of DNN obtained by connecting the subnetwork 122, a step 276 for connecting the English dependent subnetwork 124 to the subsequent stage of the independent subnetwork 120, and a learning data set to be processed Step 278 of learning the DNN obtained by connecting the independent subnetwork 120 and the dependent subnetwork 124 until the learning data is completed.
  • FIG. 10 is a flowchart showing a control structure of a program for learning a dependent subnetwork (dependent subnetwork 234 shown in FIG. 8) of a new language (for example, Chinese) after the independent subnetwork 120 has already been obtained. It shows with.
  • this program connects the dependent subnetwork 234 to the subsequent stage of the independent subnetwork 120 to obtain a new DNN, and initializes the DNN including the independent subnetwork 120 + the dependent subnetwork 234.
  • Step 302 executed by a known method
  • FIG. 11 shows the external appearance of the computer system 330
  • FIG. 12 shows the internal configuration of the computer system 330.
  • the computer system 330 includes a computer 340 having a memory port 352 and a DVD (Digital Versatile Disc) drive 350, a keyboard 346, a mouse 348, and a monitor 342.
  • DVD Digital Versatile Disc
  • the computer 340 boots up a CPU (Central Processing Unit) 356, a bus 366 connected to the CPU 356, the memory port 352, and the DVD drive 350, and A read only memory (ROM) 358 that stores programs and the like, and a random access memory (RAM) 360 that is connected to the bus 366 and stores program instructions, system programs, work data, and the like.
  • the computer system 330 further includes a network interface (I / F) 344 that provides a connection to a network that enables communication with other terminals.
  • I / F network interface
  • a computer program for causing the computer system 330 to function as each functional unit of the system according to each of the above-described embodiments is stored in the DVD drive 350 or the DVD 362 or the removable memory 364 attached to the memory port 352, and further transferred to the hard disk 354. Is done.
  • the program may be transmitted to the computer 340 through a network (not shown) and stored in the hard disk 354.
  • the program is loaded into the RAM 360 when executed.
  • the program may be loaded directly into the RAM 360 from the DVD 362, the removable memory 364, or via a network.
  • This program includes an instruction sequence including a plurality of instructions for causing the computer 340 to function as each functional unit of the system according to the above embodiment. Some of the basic functions required to perform this operation are provided by an operating system or third party program running on the computer 340, or various programming toolkits or program libraries installed on the computer 340. Therefore, this program itself does not necessarily include all functions necessary for realizing the system and method of this embodiment.
  • This program includes only instructions that realize the functions of the system described above by calling appropriate functions or appropriate program tools in a programming tool kit in a controlled manner so as to obtain a desired result. Should be included. Of course, all necessary functions may be provided only by the program.
  • learning data, parameters of each subnetwork, and the like are stored in the RAM 360 or the hard disk 354. Further, the parameters of the subnetwork may be stored in a removable memory 364 such as a USB memory, or may be transmitted to another computer via a communication medium such as a network.
  • the effectiveness of the system based on the above assumption was verified by experiments.
  • the experiment was performed on the phoneme discrimination performance at the frame level for Japanese, English and Chinese speech data.
  • the voice data is obtained by accumulating data transmitted to a voice translation server from a voice translation application already used in a smartphone or the like.
  • the acoustic parameters are MFCC coefficients up to the 12th order, logarithmic voice power, and ⁇ (delta) and ⁇ between those frames. That is, 39-dimensional feature values are used per frame.
  • the frame length is 20 milliseconds, and the frame shift amount is 10 milliseconds.
  • a 429-dimensional feature quantity vector composed of feature quantities of a total of 11 frames, that is, a frame to be processed and five frames before and after that, was used as an input to DNN.
  • the number of phonemes in Japanese, English, and Chinese is 26, 39, and 30, respectively.
  • the number of neurons in the DNN output layer for each language was matched to the number of these phonemes.
  • the learning data is 40,000 utterances for each language, and is voice data for about 25 hours.
  • the number of data for evaluation was 1,000.
  • a terminal number is assigned to each utterance, but the terminal number of the evaluation data is not included in the learning data.
  • the learning rate of RBM parameter estimation at the pre-learning stage was fixed at 0.005.
  • the number of learning repetitions (epoch number) was 100.
  • the learning rate started from 0.001, and when the error rate for the development data increased, the learning rate was changed to half.
  • the number of development data is 2,000.
  • the terminal number in the development data was not included in the learning data or the evaluation data.
  • Base line The phoneme discrimination performance by DNN learned for each language by a conventional method was used as a baseline for DNN evaluation according to the present invention.
  • the number of DNN layers was evaluated for 2 layers, 4 layers, and 6 layers apart from the input layer.
  • the number of neurons in each hidden layer is 512 in all cases.
  • DNN of each language was initialized separately with Japanese, English and Chinese speech data.
  • a sigmoid function was used as the output function. Table 1 shows the phoneme identification rate of the obtained DNN.
  • the learning data in Japanese and English is used to simultaneously learn the independent subnetwork and the dependent subnetwork for Japanese and the dependent subnetwork for English. It was.
  • these are called LI Jp, En , LD Jp, and LD En .
  • Japanese DNN (LI Jp, En ⁇ LD Jp )
  • English DNN (LI Jp, En ⁇ LD En )
  • independent sub-networks LI Jp, Ch , LD Jp, and LD Ch were obtained by learning using Japanese and Chinese learning data.
  • a sigmoid function was used as an output function for the neurons in the hidden layer and the output layer of the LI and the neurons in the hidden layer of the LD.
  • a softmax function was used as a neuron in the output layer of the LD.
  • the number of neurons in each hidden layer is 512, which is the same as that of the baseline.
  • the number of DNN layers is six.
  • the phoneme recognition accuracy by two DNNs (LL Jp, En ⁇ LD Jp and LL Jp, En ⁇ LD En ) is shown in Table 2, and other DNNs (LI JP, Ch ⁇ LD Jp and LI Jp, Ch ⁇ LD ch ).
  • Table 3 shows the phoneme recognition accuracy according to.
  • the above-described embodiments and experiments are related to language phoneme identification.
  • the number of neurons in the DNN output layer is matched with the number of phonemes in each language.
  • a hidden Markov model (HMM) is often used as an acoustic model for speech recognition.
  • a DNN can be used instead of such an HMM.
  • the hidden state is estimated by DNN, the number of neurons in the output layer of DNN is the same as the number of assumed hidden states.
  • the embodiment described above relates to audio processing.
  • the present invention is not applicable only to voice processing.
  • image recognition In the case of speech, there is a clear distinction between languages, and conventionally DNN learning has been performed for each language. Therefore, as in the embodiment, if only an independent part of the language is extracted and an independent subnetwork is used, there is an advantage that it can be used in common for multiple languages.
  • image recognition if there are categories that can clearly distinguish objects, it is possible to efficiently learn DNN for image recognition using the present invention for each category instead of the above language.
  • learning includes preparing images including objects belonging to a plurality of categories in advance, and preparing individual dependent sub-networks and independent sub-networks for them. Then, dependent subnetworks for each category are connected to the independent subnetwork, and DNN learning is performed for images belonging to the category. When a certain amount of learning is completed, the dependent sub-network for the category is replaced with that for another category, and DNN learning is performed with images belonging to that category. By repeating such learning, an independent subnetwork independent of the image category and a dependent subnetwork for each category of image are obtained. As in the case of the above-described embodiment, it is possible to learn a subnetwork for an image of a category not used for learning by fixing the parameters of the independent network. Less learning time is required.
  • the present invention can be effectively applied to DNN learning for object identification processing in an image.
  • the present invention is not effective only for voice or image identification processing. It can be applied to any data as long as multiple categories can be assumed in the same kind of data and the data can be classified into the category.
  • the present invention can be used in all industries involving work for classifying data into any of a plurality of categories.
  • DNN Deep Neural Network
  • JNN Deep Neural Network
  • English DNN 80, 82, 100, 102 Neurons 120, 230, 232, 236
  • Independent subnetwork 122
  • Japanese dependent subnetwork 124
  • Hidden layer 164, 184, 204 Output layer 220, 222, 224 Neuron pair 234

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

複数カテゴリーに属するデータでDNNを学習する時間を短くできるDNNの学習方法を提供する。 この方法は、日英の学習データで言語独立なサブネットワーク120、言語依存なサブネットワーク122及び124を学習するステップを含む。このステップは、サブネットワーク120出力層のニューロンと、サブネットワーク122の入力層のニューロンとを接続したDNNを、日本語データで学習する第1のステップと、サブネットワーク122に代えてサブネットワーク124をサブネットワーク120に接続したDNNを形成し、英語データで学習するステップと、これらステップを、学習データが終了するまで交互に実行するステップと、完了後に、第1のサブネットワーク120を他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む。

Description

ディープ・ニューラルネットワークの学習方法及び学習装置、並びにカテゴリー独立なサブネットワークの学習装置
 この発明は、音声認識及び画像認識等の認識技術に用いられるディープ・ニューラルネットワーク(以下、記載を簡略にするために「DNN」と呼ぶ。)に関し、特に、特定用途のDNNの学習を高速化する技術に関する。
 機械学習の1手法としてDNNが注目されている。DNNは例えば、画像認識及び音声認識等に適用されており、誤り率が以前より20~30%も低下する等、優れた性能を発揮していることが以下の文献に報告されている。
 Y. Bengio, “Learning deep architectures for AI,” Foundations and Trends in Machine Learning, Vol. 2, No. 1, pp. 1-127, 2009.
 G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, “Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups,” IEEE Signal Processing Magazine, Vol. 29, No. 6, pp. 82-97, 2012.
 A. Mohamed, G. Dahl, and G. Hinton, “Acoustic Modeling using Deep Belief Networks,” IEEE Transactions on Audio, Speech, and Language Processing, Vol. 20, No. 1, pp. 14-22, 2012.
 DNNとは、従来よりも多くの層を持つニューラルネットワークということができる。具体的には、図1を参照して、DNN30は、入力層40と、出力層44と、入力層40と出力層44との間に設けられた複数の隠れ層42とを含む。入力層40は複数個の入力ノード(ニューロン)を持つ。出力層44は、識別対象の数だけのニューロンを持つ。隠れ層42は複数の隠れ層(7層、9層、11層等)を持つ。各隠れ層はそれぞれ複数個のニューロンを持つ。
 DNN30では、層の数だけではなく、各層内のニューロン数も多い。そのために学習のための計算量が膨大な量になることがある。以前はそのような計算を行なうことはほとんど不可能だったが、コンピュータ自体の高機能化、分散・並列処理技術の発達及び計算理論の発展により、DNNの学習を行なうことも可能となっている。しかし、学習のために大量のデータを使用する場合、依然として学習のために長時間を要することになる。例えばある実験では、学習データとして200ピクセル×200ピクセルの画像1千万個を用い、1,000台の16コアのコンピュータを用いたDNNの学習に3日間を要したという(Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeff Dean Andrew Y. Ng, "Building High-level Features Using Large Scale Unsupervised Learning," Proc. ICML, 2012.)。
 例えば音声認識にDNNを適用する場合、対象とする言語により音素構成が異なるために、DNNを個別に用意し、別々に学習を行なわなければならない。例えば、図2を参照して、日本語と英語との音声認識用のDNNを用いる場合には、日本語DNN60と英語DNN62とを個別に準備し、それぞれ別々の学習データを用いて学習を行なう。すなわち、2個のDNNの学習を行なう必要がある。新たな言語の音声認識が必要となった場合には、新たなDNNを用意し、新たに学習を行なう。すなわち、全部でN個の言語についてDNNの学習を行なう場合には、1個のDNNを行なう場合と比較して約7倍の時間が必要となる。DNNの学習にそのような長時間を要していては、システムの開発に膨大な時間を要することとなり、好ましくない。
 こうした問題は、言語別の音声認識を行なうためのDNN学習のときだけでなく、たとえばカテゴリー別に画像認識用のDNNを準備したりする場合にも生ずる問題である。
 それゆえに本発明の目的は、対象があるカテゴリーに属する学習データを用いてDNNの学習を行なう際の時間を短くできるDNNの学習装置及び方法並びにそうしたDNNを用いた対象の認識装置を提供することを目的とする。
 本発明の第1の局面に係るDNNの学習方法は、複数カテゴリーに分類される対象について識別するDNNを、複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークをコンピュータを用いて学習させる、DNNの学習方法である。この方法は、コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、コンピュータが、複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含む。サブネットワークの学習ステップは、コンピュータが、第1のサブネットワークの後段に第2のサブネットワークを接続して形成された第1のDNNを、第1のカテゴリーに属する学習データで学習させ、第1のサブネットワークの後段に第3のサブネットワークを接続して形成した第2のDNNを、第2のカテゴリーに属する学習データで学習させることにより、第1及び第2のDNNを学習させるDNNの学習ステップと、コンピュータが、DNNの学習ステップの完了後に、第1のサブネットワークを他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む。
 好ましくは、第1、第2及び第3のサブネットワークは、いずれも入力層、隠れ層及び出力層を含む。DNNの学習ステップは、コンピュータが、第1、第2及び第3のサブネットワークを初期化するステップと、コンピュータが、第1のサブネットワークの出力層のニューロンと、第2のサブネットワークの入力層のニューロンとを接続して第1のDNNを形成し、第1のカテゴリーに属する学習データで第1のDNNを学習させる第1の学習ステップと、コンピュータが、第1のサブネットワークの出力層のニューロンと、第3のサブネットワークの入力層のニューロンとを接続して第2のDNNを形成し、第2のカテゴリーに属する学習データで第2のDNNを学習させる第2の学習ステップと、コンピュータが、第1及び第2の学習ステップを、終了条件が成立するまで交互に実行するステップとを含む。
 より好ましくは、この学習方法はさらに、コンピュータが、サブネットワークの学習ステップの完了後に、第2のサブネットワークを他のサブネットワークから分離して、第1のカテゴリーの対象に対して使用されるカテゴリー依存のサブネットワークとして記憶媒体に記憶させるステップを含む。
 本発明の第2の局面に係る学習方法は、複数カテゴリーに分類される対象について識別するDNNにおいて、特定カテゴリーに使用されるカテゴリー依存のサブネットワークをコンピュータを用いて学習させる、DNNの学習方法である。この方法は、コンピュータが、複数カテゴリーに共通して使用されるカテゴリー独立なサブネットワークを記憶するステップと、コンピュータが、特定カテゴリー用のサブネットワークを記憶するステップと、コンピュータが、特定カテゴリー用のサブネットワークを初期化するステップと、コンピュータが、カテゴリー独立なサブネットワークの出力層のニューロンと、特定カテゴリー用のサブネットワークの入力層とを接続することによりDNNを形成するステップと、コンピュータが、特定カテゴリーに属する学習データを用いて、かつカテゴリー独立なサブネットワークのパラメータを固定して、特定カテゴリー用のサブネットワークを学習させるステップとを含む。
 本発明の第3の局面に係る記憶媒体は、上記したいずれかの方法により学習した、DNNのサブネットワークのパラメータを記憶した記憶媒体である。
 本発明の第4の局面に係るコンピュータプログラムは、DNNの学習方法をコンピュータに実行させる。この学習方法は、複数カテゴリーに分類される対象について識別するDNNにおいて、複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークを学習させる方法である。当該方法は、コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、コンピュータが、複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含む。
 サブネットワークの学習ステップは、コンピュータが、第1のサブネットワークの後段に第2のサブネットワークを接続して形成された第1のDNNを、第1のカテゴリーに属する学習データで学習させ、第1のサブネットワークの後段に第3のサブネットワークを接続して形成した第2のDNNを、第2のカテゴリーに属する学習データで学習させることにより、第1及び第2のDNNの学習を行なうDNNの学習ステップと、コンピュータが、DNNの学習ステップの完了後に、第1のサブネットワークを他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む。
 この発明の他の局面にかかるカテゴリー独立なサブネットワークの学習装置は、複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、前記複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークを学習する装置である。この装置は、第1、第2及び第3のサブネットワークを記憶する記憶装置と、複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで第1、第2及び第3のサブネットワークを学習するサブネットワークの学習装置とを含む。サブネットワークの学習装置は、第1のサブネットワークの後段に第2のサブネットワークを接続して形成された第1のディープ・ニューラルネットワークを、第1のカテゴリーに属する学習データで学習し、第1のサブネットワークの後段に第3のサブネットワークを接続して形成した第2のディープ・ニューラルネットワークを、第2のカテゴリーに属する学習データで学習することにより、第1及び第2のディープ・ニューラルネットワークの学習を行なうディープ・ニューラルネットワークの学習装置と、ディープ・ニューラルネットワークの学習装置による学習の完了後に、第1のサブネットワークを他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるサブネットワークの分離装置とを含む。
 この発明のさらに他の局面にかかるディープ・ニューラルネットワークの学習装置は、複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、特定カテゴリーに使用されるカテゴリー依存のサブネットワークを学習する。この装置は、複数カテゴリーに共通して使用されるカテゴリー独立なサブネットワークと、特定カテゴリー用のサブネットワークとを記憶する装置と、特定カテゴリー用のサブネットワークを初期化する初期化装置と、カテゴリー独立なサブネットワークの出力層と、特定カテゴリー用のサブネットワークの入力層とを接続することによりディープ・ニューラルネットワークを形成するディープ・ニューラルネットワーク形成装置と、特定カテゴリーに属する学習データを用いて、かつカテゴリー独立なサブネットワークのパラメータを固定して、特定カテゴリー用のサブネットワークを学習する学習装置とを含む。
DNNの構成を模式的に示す図である。 日本語と英語について個別にDNNの学習を行なう場合を説明するための模式図である。 本発明に至るDNNの学習に関する着想を説明するDNNの内部構成の模式図である。 本発明に至るDNNの学習に関する着想を説明するDNNの内部構成の模式図である。 本発明の各実施の形態に係るDNNの基本的な構成を説明する模式図である。 本発明の各実施の形態における言語に依存しない独立なサブネットワーク(以下、「独立サブネットワーク」と呼ぶ。)と言語に依存したサブネットワーク(以下、「依存サブネットワーク」と呼ぶ。)との接続形態を示すブロック図である。 本発明の各実施の形態における独立サブネットワークと依存サブネットワークとの接続の具体的構成を示すブロック図である。 独立サブネットワークと依存サブネットワークとの流通形態及び接続形態を示す模式図である。 本発明の実施の形態に係るDNNにおける独立サブネットワークと依存サブネットワークとの同時学習を実現するプログラムのフローチャートである。 本発明の実施の形態に係るDNNにおける独立サブネットワークを固定して依存サブネットワークの学習を行なう処理を実現するプログラムのフローチャートである。 実施の形態に係るDNNの学習処理を実行するコンピュータシステムの外観図である。 図11に示すコンピュータの内部構成を示すブロック図である。
 以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の実施の形態は主に音声認識に関する例についてのものであるが、本発明はそのような実施の形態には限定されない。例えば画像認識にも適用できる。
 [基本的な考え方]
 上記したように、多言語音声についてDNNの学習を行なう場合には、個別のDNNをそれぞれの言語で別々に学習させる必要がある。しかしそのためには長時間を要するという問題がある。こうした問題を解決するために、以下のような仮定をおいて多言語音声のDNNの学習を行なった。実験によれば、この仮定には十分な根拠があると思われる。
 (1)別々の言語といっても、対象とするのは同じ音声である。したがって、多言語に共通な特徴、言い換えれば言語から独立した特徴は、DNNのどこか同じ場所で処理されているはずである。例えば母音、子音、破裂音及び摩擦音等の音素属性の検出等がこれにあたる。これらの処理は、いずれも入力に近い層で行なわれるものと仮定する。すなわち、図3に示すように、日本語DNN60及び英語DNN62のいずれにおいても、上記したような音素属性を処理するニューロン80及び82等は入力層に近い位置にあると仮定する。
 (2)一方、図4を参照して、言語に依存した処理は出力層に近い層内のニューロン(例えばニューロン100及び102等)で処理されると仮定する。例えば、音素属性から音素へのマッピング等の処理がこれにあたる。
 (3)以上を踏まえると、図4の日本語DNN60及び英語DNN62の共通部分(ニューロン80及び82が集中している層)をそれ以後の層と分割することにより、図5に示すように、言語に依存しない独立サブネットワーク120が得られることになる。日本語DNN60及び英語DNN62のうち、残りの部分がそれぞれの言語に依存した依存サブネットワーク(たとえば日本語の依存サブネットワーク122及び英語の依存サブネットワーク124)となる。
 このような仮定に基づくと、予め学習済みの独立サブネットワーク120を準備すれば、特定の言語に依存した依存サブネットワークのみの学習を行なって独立サブネットワーク120に接続するだけで、その言語を認識するためのDNNを得ることができる。DNN全体の学習を行なう場合と比較して、依存サブネットワークの層の数は小さくなるので、学習に要する時間が短くなることが期待できる。
 具体的には、以下のような構成が考えられる。図6を参照して、独立サブネットワーク120と、依存サブネットワーク122及び124とを準備する。独立サブネットワーク120は、入力層160、隠れ層162及び出力層164を含む。依存サブネットワーク122及び124も同様、入力層180及び200、隠れ層182及び202、並びに出力層184及び204を含む。独立サブネットワーク120の出力層164のニューロン数と、依存サブネットワーク122及び124の入力層180及び200のニューロン数とは一致させる。
 図7を参照して、例えば独立サブネットワーク120と依存サブネットワーク122との接続では、独立サブネットワーク120の出力層164の各ニューロンと、依存サブネットワーク122の入力層180の対応するニューロンとを互いに接続してニューロン対220,222,…,224とする。したがって、出力層164のニューロン数と入力層180のニューロン数とは一致させる必要がある。
 学習時の学習データのフォワードプロパゲーションでは、独立サブネットワーク120側のニューロンの出力x LIをその入力層180側のニューロンへの入力y LDとする。なおここでiはニューロンのインデックスを表し、「LI」は「Language Independent」の略で言語から独立したものであることを示し、「LD」は「Language Dependent」の略で言語に依存することを示す。以下の説明でも同様である。
 バックプロパゲーションでは、独立サブネットワーク120の出力層164内の各ニューロンの誤差信号e LIは、依存サブネットワーク122又は124の第2層目の隠れ層内の各ニューロンの誤差信号e LDから次の式により計算する。ただしjはニューロンのインデックスである。
Figure JPOXMLDOC01-appb-M000001
ただしこの式でwijは依存サブネットワーク122又は124内の入力層内のi番目のニューロンと、第2層目のj番目のニューロンとの接続に与えられた重みである。
 本実施の形態に係るシステムでは、図6及び図7に示すような独立サブネットワーク120及び依存サブネットワーク122並びに依存サブネットワーク124を同時に学習させる。具体的には図9及び図10のフローチャートを参照して後述するが、独立サブネットワーク120と依存サブネットワーク122とを接続したDNNで日本語の学習データを用いて学習させる処理と、独立サブネットワーク120と依存サブネットワーク124とを接続したDNNで英語の学習データを用いて学習させる処理とを、学習データを変更しながら交互に繰返す。この処理により、日英の両言語に共通した、言語に依存しない処理を行なうニューロンが独立サブネットワーク120に、日本語特有の処理を行なうニューロンが依存サブネットワーク122に、英語特有の処理を行なうニューロンが依存サブネットワーク124に、それぞれ集中するように、これらのサブネットワークが学習すると考えられる。
 [効果]
 上記したように独立サブネットワーク120と依存サブネットワーク122及び124とが得られることにより以下のような効果が得られる。図8を参照して、上記したように日本語の独立サブネットワーク120、英語の依存サブネットワーク122及び124の学習が終了すると、依存サブネットワーク122及び124を独立サブネットワーク120とセットにして流通させることもできるし、別々に流通させることもできる。
 例えば独立サブネットワーク120と全く同じ独立サブネットワーク232が既にユーザの手元にあるものとする。このユーザは日本語の依存サブネットワーク122を入手して独立サブネットワーク232の後段に接続することにより、日本語の音声認識用のDNNを構築できる。別のユーザが独立サブネットワーク120と全く同じ独立サブネットワーク230を保持していれば、このユーザは英語の依存サブネットワーク124を入手して独立サブネットワーク230の後段に接続することで、英語の音声認識用のDNNを構築できる。
 さらにまた、上記仮定からすると、独立サブネットワーク120は、言語がどのようなものであるかにかかわらず使用できるように学習するはずである。したがって、新たな言語のDNNをこの独立サブネットワーク120を使用して以下のように短時間で学習できる。すなわち、独立サブネットワーク120を固定し(独立サブネットワーク120のパラメータをすべて不変として)、新たな言語(たとえば中国語)のための未学習の依存サブネットワーク(中国語用の依存サブネットワーク)234を独立サブネットワーク120の後段に接続する。そして、独立サブネットワーク120を固定して、中国語の学習データを用いて独立サブネットワーク120及び依存サブネットワーク234からなるDNNの学習を行なう。この際、独立サブネットワーク120のパラメータは変化させず、依存サブネットワーク234の学習のみを行なう。こうした処理で、依存サブネットワーク234は中国語に適合したパラメータの値を持つように学習し、独立サブネットワーク120の後段に依存サブネットワーク234を接続することにより中国語の音声認識用のDNNを構築できる。もちろん、この依存サブネットワーク234についても、独立サブネットワーク120とセットで流通させることも、別に流通させることもできる。あるユーザが独立サブネットワーク120と同じ独立サブネットワーク236を持っている場合、このユーザは依存サブネットワーク234のみを入手することで、独立サブネットワーク236と組合せ新たな中国語用のDNNを構築できる。
 依存サブネットワーク234の層の数は、独立サブネットワーク120と依存サブネットワーク234とを組合せたDNNと比較して少ない。したがって依存サブネットワーク234の学習は、DNN全体の学習を行なう場合と比較してはるかに少なくなる。その結果、新たな言語についてのDNNを構築する必要が生じたときにも従来よりも短期間で必要なDNNを準備できる。
 [プログラム構成]
 上記したシステムはコンピュータのハードウェアと、そのハードウェア上で実行されるコンピュータプログラムとにより実現可能である。図9に独立サブネットワーク120、日本語の依存サブネットワーク122及び英語の依存サブネットワーク124を学習させる処理を実現するプログラムのフローチャートを示し、図10に追加で中国語の依存サブネットワーク234を学習させる処理を実現するプログラムのフローチャートを示す。
 図9を参照して、独立サブネットワークと依存サブネットワーク(複数。この例では2つ)とを同時に学習させるプログラムは、独立サブネットワーク120を初期化するステップ240、依存サブネットワーク122を初期化するステップ242及び依存サブネットワーク124を初期化するステップ244とを含む。独立サブネットワーク120の初期化は、通常のDNNと同じく、RBM(Restricted Boltzman Machine)により行なう。依存サブネットワーク122及び124の初期化は、独立サブネットワーク120の出力を入力として、独立サブネットワーク120と同様、RBMを用いて行なう。なお、独立サブネットワーク120の出力を用いず、依存サブネットワーク122及び124をそれぞれ独立サブネットワーク120と独立にRBMにより初期化してもよい。
 続いて、学習データを用いて独立サブネットワーク120並びに依存サブネットワーク122及び124の学習を同時に行なう。この例では、学習データは日本語と英語との双方の音声データ及び音素認識結果からなり、かつ日英の学習データはいずれも複数のセットに分割しておく。
 このプログラムの、学習を行なう部分は、学習データの各セットに対して以下の処理248を実行するステップ246と、学習の結果得られた独立サブネットワーク120、日本語の依存サブネットワーク122及び英語の依存サブネットワーク124のパラメータを別々に出力し、図示しない記憶媒体にそれぞれ記憶させて処理を終了するステップ250とを含む。
 処理248は、独立サブネットワーク120の後段に日本語の依存サブネットワーク122を接続するステップ270と、処理対象となっている学習セット内の日本語の各学習データに対して独立サブネットワーク120と依存サブネットワーク122とを接続して得られたDNNの学習を実行するステップ272と、独立サブネットワーク120の後段に英語の依存サブネットワーク124を接続するステップ276と、処理対象となっている学習データセット内の英語の各学習データを用い、この学習データが終了するまで、独立サブネットワーク120と依存サブネットワーク124とを接続して得られたDNNの学習を行なうステップ278とを含む。
 図9のプログラムを実行することにより、図6に示すように、独立サブネットワーク120+依存サブネットワーク122と、独立サブネットワーク120+依存サブネットワーク124との2つのDNNの学習がそれぞれ日本語と英語とのデータを用いて交互に実行される。この際、独立サブネットワーク120は日本語と英語の双方のデータを用いて学習し、日本語の依存サブネットワーク122は日本語のデータを用いて学習し、英語の依存サブネットワーク124は英語のデータを用いて学習する。その結果、図5に示すように、日本語に特有の処理に関連するニューロンは日本語用の依存サブネットワーク122に、英語に特有の処理に関連するニューロンは英語用の依存サブネットワーク122に、言語に独立したニューロンは独立サブネットワーク120に、それぞれ集中することになる。
 図10に、既に独立サブネットワーク120が得られた後に、新たな言語(たとえば中国語)の依存サブネットワーク(図8に示す依存サブネットワーク234)の学習を行なうためのプログラムの制御構造をフローチャート形式で示す。
 図10を参照して、このプログラムは、独立サブネットワーク120の後段に依存サブネットワーク234を接続して新たなDNNを得るステップ300と、独立サブネットワーク120+依存サブネットワーク234からなるDNNの初期化を公知の方法で実行するステップ302と、中国語の各学習データを用いて、独立サブネットワーク120のパラメータを固定してDNNの学習を行なうステップ304と、学習の終了後に、依存サブネットワーク234を独立サブネットワーク120と別に出力し、図示しない記憶媒体に記憶させるステップ308とを含む。
 このプログラムを実行することにより、独立サブネットワーク120に中国語用の依存サブネットワーク234を接続したDNNの学習を行なうことができる。独立サブネットワーク120についてはパラメータが固定されているので、実質的にはこの学習は依存サブネットワーク234のみが対象である。後述する実験では、このようにして学習した依存サブネットワーク234を独立サブネットワーク120の後段に接続しても、最初から中国語用の学習を行なったDNNと同等の性能が得られた。詳細については後述の実験結果で述べる。
 [ハードウェア構成]
 上記実施の形態に係るシステムは、コンピュータハードウェアと、そのコンピュータハードウェア上で実行される上記したコンピュータプログラムとにより実現できる。図11はこのコンピュータシステム330の外観を示し、図12はコンピュータシステム330の内部構成を示す。
 図11を参照して、このコンピュータシステム330は、メモリポート352及びDVD(Digital Versatile Disc)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
 図12を参照して、コンピュータ340は、メモリポート352及びDVDドライブ350に加えて、CPU(中央処理装置)356と、CPU356、メモリポート352及びDVDドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)344を含む。
 コンピュータシステム330を上記した各実施の形態のシステムの各機能部として機能させるためのコンピュータプログラムは、DVDドライブ350又はメモリポート352に装着されるDVD362又はリムーバブルメモリ364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。DVD362から、リムーバブルメモリ364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
 このプログラムは、コンピュータ340を、上記実施の形態に係るシステムの各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム若しくはサードパーティのプログラム、又は、コンピュータ340にインストールされる各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能をすべて提供するようにしてもよい。
 図5~図9に示す本実施の形態では、学習データ及び各サブネットワークのパラメータ等は、RAM360又はハードディスク354に記憶される。サブネットワークのパラメータはさらに、USBメモリ等のリムーバブルメモリ364に記憶されてもよいし、ネットワーク等の通信媒体を介して他のコンピュータに送信されてもよい。
 コンピュータプログラムを実行する際のコンピュータシステム330の動作は周知である。したがってここではその詳細については繰返さない。
 [実験]
 上記仮定に基づいたシステムの有効性について、実験により検証した。実験は、日本語、英語及び中国語の音声データに対してフレームレベルでの音素の識別性能について行なった。音声データは、既にスマートフォン等で利用されている音声翻訳アプリケーションから音声翻訳サーバに送信されてくるデータを蓄積したものである。
 音響パラメータとしては12次までのMFCC係数、対数音声パワー並びにそれらのフレーム間でのΔ(デルタ)及びΔΔである。すなわち、1フレームあたり39次元の特徴量を用いた。フレーム長は20ミリ秒、フレームシフト量は10ミリ秒である。1フレームあたり、処理対象のフレームと、その前後5フレームずつ、合計11フレームの特徴量からなる429次元の特徴量ベクトルをDNNへの入力として用いた。
 日本語、英語及び中国語の音素数はそれぞれ26、39及び30である。各言語に対するDNNの出力層のニューロン数はこれら音素数に合わせた。
 学習データは各言語について40,000発話であり、約25時間にわたる音声データである。評価のためのデータは1,000個とした。各発話には端末番号が付されているが、評価データの端末番号は、学習データには含まれていなかった。
 プレ・学習段階でのRBMパラメータ推定の学習率を0.005に固定した。学習の繰返し数(エポック数)は100とした。ファイン・チューニング段階では、学習率を0.001からスタートし、開発データに対する誤り率が増加すると学習率を半分に変更した。開発データ数は2,000である。開発データ内の端末番号は、学習データにも評価データにも含まれなかった。RBMとDNNは128のミニ・バッチサイズで学習した。
  ベースライン:
 従来の手法で言語ごとに学習したDNNによる音素識別性能を、本願発明によるDNNの評価のためのベースラインとした。DNNの層数は、いずれの場合も入力層を別として2層、4層、6層の場合を評価した。各隠れ層内のニューロン数はいずれの場合も512である。プレ・学習段階で、各言語のDNNを日本語、英語及び中国語の発話データで別々に初期化した。各ニューロンについては、いずれも出力関数としてシグモイド関数を用いた。得られたDNNの音素識別率をテーブル1に示す。
Figure JPOXMLDOC01-appb-T000002
 テーブル1から、層の数を多くすると言語を問わず識別率が向上することが分かる。
 さらに、上記実施の形態について説明したDNNの学習方法にしたがって日本語及び英語の学習データを用い、独立サブネットワークと、日本語用の依存サブネットワーク及び英語用の依存サブネットワークとの学習を同時に行なった。ここではこれらをLIJp,En、LDJp及びLDEnと呼ぶ。この結果、日本語用のDNN(LIJp,En→LDJp)と英語用のDNN(LIJp,En→LDEn)とが得られたことになる。同様の方法で、日本語と中国語の学習データを用いた学習で、独立サブネットワークLIJp,Ch、LDJp及びLDChを得た。実験では、LIの隠れ層及び出力層のニューロンと、LDの隠れ層のニューロンとについては、出力関数としてシグモイド関数を用いた。LDの出力層のニューロンとしてはソフトマックス関数を用いた。各隠れ層内のニューロン数は512であり、これはベースラインのものと同じである。DNNの層数は6である。
 2つのDNN(LLJp,En→LDJp及びLLJp,En→LDEn)による音素認識精度をテーブル2に示し、他のDNN(LIJP,Ch→LDJp及びLIJp,Ch→LDch)による音素認識精度をテーブル3に示す。
Figure JPOXMLDOC01-appb-T000003
Figure JPOXMLDOC01-appb-T000004
 テーブル2及びテーブル3から、依存サブネットワークに2層以上を割り当てた場合には、ベースラインとほぼ同じ性能が得られたことが分かる。最もすぐれた性能を示したのは、LIとLDとに同じ数の層を割り当てたときであったが、その差はわずかなものであった。以上から、一般的にいって、上記実施の形態にしたがってDNNを独立サブネットワークと依存サブネットワークとに分けて複数個の言語について同時に学習したときには、最初から各言語について個別のDNNの学習を行なった場合よりよい性能を得られると考えられる。
 最後に、独立サブネットワークに、その独立サブネットワークの学習に使用されなかった言語の依存サブネットワークを接続し、独立サブネットワークのパラメータを固定して学習して得られたDNNの音素識別性能を調べた。具体的には、DNN(LIJp,En→LDCh)と、DNN(LIJp,Ch→LDEn)との2つのDNNについてそれぞれ中国語と英語の音素識別性能を調べた。結果をテーブル4に示す。
Figure JPOXMLDOC01-appb-T000005
 テーブル4から分かるように、上記DNNで実質的には中国語の依存サブネットワークと英語の依存サブネットワークとしか学習がされなかったにもかかわらず、得られたDNNの音素識別性能は、LDが1層しかない場合を除き、ベースラインの性能と遜色ないものである。
 以上の実験から、本発明での仮定は実際に正しい可能性が大であることが分かる。すなわち、複数の言語の学習データを用いて独立サブネットワークと各言語の依存サブネットワークとを同時に学習させることで、独立サブネットワークには、言語に依存しない処理に関連するニューロンが集中すること及び各言語の依存サブネットワークには、その言語の音声処理に特に関連するニューロンが集中するということができる。したがって、この独立サブネットワークを、学習に用いられなかった言語の依存サブネットワークと組合せてDNNを構成した場合にも、十分な識別性能が得られると考えられる。すなわち、独立サブネットワークが得られれば、新たな言語については依存サブネットワークの学習のみを行なって、得られた依存サブネットワークを独立サブネットワークの後段に接続すれば、最初からDNNの学習を行なったものとほぼ同程度の識別性能を得ることができる。依存サブネットワークの層数はDNN全体の層の数より小さくできるので、その学習に要する時間は、DNN全体を学習させるよりもはるかに短くできる。
 なお、上記実施の形態及び実験は、言語の音素識別に関するものである。この場合、DNNの出力層のニューロン数は、各言語の音素数と一致させる。しかし本発明は、そのような実施の形態には限定されない。音声認識のための音響モデルとして、隠れマルコフモデル(HMM)がよく使用されている。そのようなHMMに代えてDNNを使用することもできる。その場合には、DNNにより隠れ状態を推定することになるため、DNNの出力層のニューロンの数は、想定される隠れ状態の数と同じ数とする。
 <変形例>
 上記した実施の形態は音声処理に関するものであった。しかし、本発明は音声処理のみに適用可能なわけではない。例えば、画像認識についても同様に適用できる。音声の場合には、言語という明確な区別があり、従来は言語ごとにDNNの学習を行なってきた。したがって実施の形態のように、言語に依存しない部分のみを抽出して独立サブネットワークとすると、多言語について共通に使用できるという有利な点がある。これに対して画像認識の場合にも、明確に対象を区別できるカテゴリーがあれば、上記言語に代えてそれらカテゴリーごとに、本願発明を用いて画像認識のためのDNNの学習を効率的に行なえる。
 例えば、画像認識の基礎となるエッジの抽出等、画像の基本的な特徴の検出は、対象の性質にかかわらず共通に行なわれる。一方、画像内の具体的なオブジェクトの識別は、より上位の特徴に基づいて行なわれると考えられる。したがって、画像内のオブジェクトの識別のためのDNNについても、画像のカテゴリーから独立したサブネットワーク(独立サブネットワーク)と、画像のカテゴリーごとに準備される、カテゴリーに依存したサブネットワーク(依存サブネットワーク)とから構築できると考えられる。
 この場合の学習は、予め複数のカテゴリーに属するオブジェクトが含まれる画像を準備し、それらのための個別の依存サブネットワークと、独立サブネットワークとを準備する。そして、独立サブネットワークに、各カテゴリー用の依存サブネットワークを接続してそのカテゴリーに属する画像についてのDNNの学習を行なう。一定量の学習が終了したら、カテゴリー用の依存サブネットワークを別のカテゴリー用のものに代え、そのカテゴリーに属する画像でDNNの学習を行なう。こうした学習を繰返し行なうことで、画像のカテゴリーから独立した独立サブネットワークと、各カテゴリーの画像のための依存サブネットワークとが得られる。独立ネットワークのパラメータを固定することで、学習に使用されなかったカテゴリーの画像に対するサブネットワークの学習が可能であることも上記実施の形態の場合と同様である。そのための学習時間も少なくて済む。
 したがって本発明は、画像内のオブジェクトの識別処理のためのDNNの学習にも有効に適用できる。
 さらに、本発明は音声又は画像の識別処理に対してのみ有効なわけではない。同種のデータ内に複数のカテゴリーが想定でき、それらデータがそのカテゴリーに分類できるようなものであれば、どのようなデータにも適用できる。
 今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
産業上の利用の可能性
 本発明は、データを複数カテゴリーのいずれかに分類する作業を伴う産業全般に利用できる。
30 ディープ・ニューラルネットワーク(DNN)
60 日本語DNN
62 英語DNN
80,82,100,102 ニューロン
120,230,232,236 独立サブネットワーク
122 日本語の依存サブネットワーク
124 英語の依存サブネットワーク
160,180,200 入力層
162,182,184 隠れ層
164,184,204 出力層
220,222,224 ニューロン対
234 中国語の依存サブネットワーク

Claims (6)

  1. 複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、前記複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークをコンピュータを用いて学習させる、ディープ・ニューラルネットワークの学習方法であって、
     コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、
     コンピュータが、前記複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで前記第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含み、
     前記サブネットワークの学習ステップは、
     コンピュータが、前記第1のサブネットワークの後段に前記第2のサブネットワークを接続して形成された第1のディープ・ニューラルネットワークを、前記第1のカテゴリーに属する学習データで学習させ、前記第1のサブネットワークの後段に前記第3のサブネットワークを接続して形成した第2のディープ・ニューラルネットワークを、前記第2のカテゴリーに属する学習データで学習させることにより、前記第1及び第2のディープ・ニューラルネットワークの学習を行なうディープ・ニューラルネットワークの学習ステップと、
     コンピュータが、前記ディープ・ニューラルネットワークの学習ステップの完了後に、前記第1のサブネットワークを他のサブネットワークから分離して、前記カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む、ディープ・ニューラルネットワークの学習方法。
  2.  前記第1、第2及び第3のサブネットワークは、いずれも入力層、隠れ層及び出力層を含み、
     前記ディープ・ニューラルネットワークの学習ステップは、
     コンピュータが、前記第1、第2及び第3のサブネットワークを初期化するステップと、
     コンピュータが、前記第1のサブネットワークの前記出力層のニューロンと、前記第2のサブネットワークの前記入力層のニューロンとを接続して第1のディープ・ニューラルネットワークを形成し、前記第1のカテゴリーに属する学習データで前記第1のディープ・ニューラルネットワークを学習させる第1の学習ステップと、
     コンピュータが、前記第1のサブネットワークの前記出力層のニューロンと、前記第3のサブネットワークの前記入力層のニューロンとを接続して第2のディープ・ニューラルネットワークを形成し、前記第2のカテゴリーに属する学習データで前記第2のディープ・ニューラルネットワークを学習させる第2のトレーニングステップと、
     コンピュータが、前記第1及び第2の学習ステップを、終了条件が成立するまで交互に実行するステップとを含む、請求項1に記載の学習方法。
  3. さらに、コンピュータが、前記サブネットワークの学習ステップの完了後に、前記第2のサブネットワークを他のサブネットワークから分離して、前記第1のカテゴリーの対象に対して使用されるカテゴリー依存のサブネットワークとして記憶媒体に記憶させるステップを含む、請求項1又は請求項2に記載のディープ・ニューラルネットワークの学習方法。
  4. 複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、特定カテゴリーに使用されるカテゴリー依存のサブネットワークをコンピュータを用いて学習させる、ディープ・ニューラルネットワークの学習方法であって、
     コンピュータが、前記複数カテゴリーに共通して使用されるカテゴリー独立なサブネットワークを記憶するステップと、
     コンピュータが、前記特定カテゴリー用のサブネットワークを記憶するステップと、
     コンピュータが、前記特定カテゴリー用のサブネットワークを初期化するステップと、
     コンピュータが、前記カテゴリー独立なサブネットワークの出力層のニューロンと、前記特定カテゴリー用のサブネットワークの入力層とを接続することによりディープ・ニューラルネットワークを形成するステップと、
     コンピュータが、前記特定カテゴリーに属する学習データを用いて、かつ前記カテゴリー独立なサブネットワークのパラメータを固定して、前記特定カテゴリー用のサブネットワークを学習させるステップとを含む、ディープ・ニューラルネットワークの学習方法。
  5.  複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、前記複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークを学習するカテゴリー独立なサブネットワークの学習装置であり、
     当該装置は、
     第1、第2及び第3のサブネットワークを記憶する記憶装置と、
     前記複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで前記第1、第2及び第3のサブネットワークを学習するサブネットワークの学習装置とを含み、
     前記サブネットワークの学習装置は、
     前記第1のサブネットワークの後段に前記第2のサブネットワークを接続して形成された第1のディープ・ニューラルネットワークを、前記第1のカテゴリーに属する学習データで学習し、前記第1のサブネットワークの後段に前記第3のサブネットワークを接続して形成した第2のディープ・ニューラルネットワークを、前記第2のカテゴリーに属する学習データで学習することにより、前記第1及び第2のディープ・ニューラルネットワークの学習を行なうディープ・ニューラルネットワークの学習装置と、
     前記ディープ・ニューラルネットワークの学習装置による学習の完了後に、前記第1のサブネットワークを他のサブネットワークから分離して、前記カテゴリー独立なサブネットワークとして記憶媒体に記憶させるサブネットワークの分離装置とを含む。
  6. 複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、特定カテゴリーに使用されるカテゴリー依存のサブネットワークを学習させる、ディープ・ニューラルネットワークの学習装置であって、
     前記複数カテゴリーに共通して使用されるカテゴリー独立なサブネットワークと、前記特定カテゴリー用のサブネットワークとを記憶する記憶装置と、
     前記特定カテゴリー用のサブネットワークを初期化する初期化装置と、
     前記カテゴリー独立なサブネットワークの出力層と、前記特定カテゴリー用のサブネットワークの入力層とを接続することによりディープ・ニューラルネットワークを形成するディープ・ニューラルネットワーク形成装置と、
     前記特定カテゴリーに属する学習データを用いて、かつ前記カテゴリー独立なサブネットワークのパラメータを固定して、前記特定カテゴリー用のサブネットワークを学習する学習装置とを含む。
PCT/JP2014/062911 2013-05-23 2014-05-15 ディープ・ニューラルネットワークの学習方法及び学習装置、並びにカテゴリー独立なサブネットワークの学習装置 WO2014188940A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP14801131.5A EP3001358B1 (en) 2013-05-23 2014-05-15 Method and device for learning deep neural network, and device for learning category-independent sub-network
CN201480029326.5A CN105229676B (zh) 2013-05-23 2014-05-15 深层神经网络的学习方法及学习装置
US14/787,903 US9691020B2 (en) 2013-05-23 2014-05-15 Deep neural network learning method and apparatus, and category-independent sub-network learning apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013109061A JP6164639B2 (ja) 2013-05-23 2013-05-23 ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム
JP2013-109061 2013-05-23

Publications (1)

Publication Number Publication Date
WO2014188940A1 true WO2014188940A1 (ja) 2014-11-27

Family

ID=51933500

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/062911 WO2014188940A1 (ja) 2013-05-23 2014-05-15 ディープ・ニューラルネットワークの学習方法及び学習装置、並びにカテゴリー独立なサブネットワークの学習装置

Country Status (5)

Country Link
US (1) US9691020B2 (ja)
EP (1) EP3001358B1 (ja)
JP (1) JP6164639B2 (ja)
CN (1) CN105229676B (ja)
WO (1) WO2014188940A1 (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6235938B2 (ja) * 2013-08-13 2017-11-22 日本電信電話株式会社 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
CN105224984B (zh) * 2014-05-31 2018-03-13 华为技术有限公司 一种基于深度神经网络的数据类别识别方法及装置
US10354184B1 (en) * 2014-06-24 2019-07-16 Amazon Technologies, Inc. Joint modeling of user behavior
JP6389776B2 (ja) * 2015-02-23 2018-09-12 日本電信電話株式会社 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム
CN106203460A (zh) * 2015-05-05 2016-12-07 杜比实验室特许公司 训练信号处理模型以用于信号处理系统中的部件替换
CN108351986B (zh) 2015-10-30 2022-03-29 株式会社摩如富 学习系统及装置和方法、训练数据生成装置及生成方法
CN113559492A (zh) 2015-11-19 2021-10-29 天使集团股份有限公司 桌面游戏的管理系统及游艺用代用货币
JP6652478B2 (ja) * 2015-11-19 2020-02-26 エンゼルプレイングカード株式会社 チップの計測システム
EP4406628A2 (en) 2016-02-01 2024-07-31 Angel Playing Cards Co., Ltd. Game token management system
US10235994B2 (en) * 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
JP6750854B2 (ja) 2016-05-25 2020-09-02 キヤノン株式会社 情報処理装置および情報処理方法
GB201615051D0 (en) * 2016-09-05 2016-10-19 Kheiron Medical Tech Ltd Multi-modal medical image procesing
US10664722B1 (en) * 2016-10-05 2020-05-26 Digimarc Corporation Image processing arrangements
KR101917006B1 (ko) * 2016-11-30 2018-11-08 에스케이 주식회사 머신 러닝 기반 반도체 제조 수율 예측 시스템 및 방법
JP6784162B2 (ja) 2016-12-13 2020-11-11 富士通株式会社 情報処理装置、プログラム及び情報処理方法
US11798064B1 (en) 2017-01-12 2023-10-24 Digimarc Corporation Sensor-based maximum-likelihood estimation of item assignments
JP6699945B2 (ja) * 2017-04-17 2020-05-27 日本電信電話株式会社 音響モデル学習装置、その方法、及びプログラム
US10572773B2 (en) * 2017-05-05 2020-02-25 Intel Corporation On the fly deep learning in machine learning for autonomous machines
WO2018216648A1 (ja) * 2017-05-22 2018-11-29 日本電気株式会社 群衆状態認識装置、学習方法および学習プログラム
JP6703964B2 (ja) * 2017-06-28 2020-06-03 日本電信電話株式会社 学習装置、テキスト生成装置、方法、及びプログラム
US11392827B1 (en) * 2017-07-19 2022-07-19 United States Of America As Represented By The Secretary Of The Navy Deeper learning from the real-time transformative correction of and reasoning from neural network outputs
JP6729516B2 (ja) 2017-07-27 2020-07-22 トヨタ自動車株式会社 識別装置
WO2019074185A1 (en) * 2017-10-12 2019-04-18 Samsung Electronics Co., Ltd. ELECTRONIC APPARATUS AND CONTROL METHOD THEREOF
JP6955155B2 (ja) * 2017-10-17 2021-10-27 富士通株式会社 学習装置、学習方法及び学習プログラム
WO2019084559A1 (en) * 2017-10-27 2019-05-02 Apostle, Inc. SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS
US11681912B2 (en) * 2017-11-16 2023-06-20 Samsung Electronics Co., Ltd. Neural network training method and device
JP7008081B2 (ja) * 2017-11-21 2022-01-25 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
US11836610B2 (en) * 2017-12-13 2023-12-05 Advanced Micro Devices, Inc. Concurrent training of functional subnetworks of a neural network
JP7000834B2 (ja) * 2017-12-14 2022-01-19 株式会社アイシン 機械学習のモデルパラメータの学習装置
WO2019152308A1 (en) * 2018-01-30 2019-08-08 D5Ai Llc Self-organizing partially ordered networks
KR20210020934A (ko) 2018-06-15 2021-02-24 가부시키가이샤 한도오따이 에네루기 켄큐쇼 반도체 장치
US10720151B2 (en) * 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
US11922314B1 (en) * 2018-11-30 2024-03-05 Ansys, Inc. Systems and methods for building dynamic reduced order physical models
WO2020122985A1 (en) * 2018-12-10 2020-06-18 Interactive-Al, Llc Neural modulation codes for multilingual and style dependent speech and language processing
JP7261022B2 (ja) 2019-01-30 2023-04-19 キヤノン株式会社 情報処理システム、端末装置及びその制御方法、プログラム、記憶媒体
US20220197691A1 (en) * 2019-04-09 2022-06-23 Sony Group Corporation Information processing apparatus, information processing method, and program
WO2020210351A1 (en) * 2019-04-12 2020-10-15 Ohio State Innovation Foundation Computing system and method for determining mimicked generalization through topologic analysis for advanced machine learning
KR20200126675A (ko) * 2019-04-30 2020-11-09 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11468244B2 (en) * 2019-05-28 2022-10-11 Google Llc Large-scale multilingual speech recognition with a streaming end-to-end model
JP7385900B2 (ja) * 2019-09-09 2023-11-24 国立研究開発法人情報通信研究機構 推論器、推論プログラムおよび学習方法
JP7071423B2 (ja) * 2020-03-03 2022-05-18 エンゼルグループ株式会社 テーブルゲームの管理システム、遊技用代用貨幣、及び検査装置
CN111477220B (zh) * 2020-04-15 2023-04-25 南京邮电大学 一种面向家居口语环境的神经网络语音识别方法及系统
CN114531355B (zh) * 2020-11-23 2023-07-18 维沃移动通信有限公司 通信方法、装置及通信设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309293A (ja) * 1993-04-26 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 多層構造型ニューラルネットワークの構成方法
JPH1063632A (ja) * 1996-08-14 1998-03-06 Mitsubishi Electric Corp 大規模ニューラルネットワーク構築方法及び大規模ニューラルネットワーク構築装置及びニューラルネットワーク装置
JP2002520719A (ja) * 1998-07-08 2002-07-09 シーメンス アクチエンゲゼルシヤフト ニューラルネット及びニューラルネットのトレーニング方法及び装置
US20090204558A1 (en) * 2008-02-07 2009-08-13 Nec Laboratories America, Inc. Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2756073B1 (fr) * 1996-11-18 1999-01-15 Commissariat Energie Atomique Procede d'apprentissage generant des reseaux de neurones de petites tailles pour la classification de donnees
EP2221805B1 (en) 2009-02-20 2014-06-25 Nuance Communications, Inc. Method for automated training of a plurality of artificial neural networks
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
CN103117060B (zh) * 2013-01-18 2015-10-28 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309293A (ja) * 1993-04-26 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 多層構造型ニューラルネットワークの構成方法
JPH1063632A (ja) * 1996-08-14 1998-03-06 Mitsubishi Electric Corp 大規模ニューラルネットワーク構築方法及び大規模ニューラルネットワーク構築装置及びニューラルネットワーク装置
JP2002520719A (ja) * 1998-07-08 2002-07-09 シーメンス アクチエンゲゼルシヤフト ニューラルネット及びニューラルネットのトレーニング方法及び装置
US20090204558A1 (en) * 2008-02-07 2009-08-13 Nec Laboratories America, Inc. Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A. MOHAMED; G. DAHL; G. HINTON: "Acoustic Modeling using Deep Belief Networks", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 20, no. 1, 2012, pages 14 - 22
G. HINTON; L. DENG; D. YU; G. DAHL; A. MOHAMED; N. JAITLY; A. SENIOR; V. VANHOUCKE; P. NGUYEN; T. SAINATH: "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups", IEEE SIGNAL PROCESSING MAGAZINE, vol. 29, no. 6, 2012, pages 82 - 97
QUOC V. LE; MARC'AURELIO RANZATO; RAJAT MONGA; MATTHIEU DEVIN; KAI CHEN; GREG S. CORRADO; JEFF DEAN ANDREW Y. NG: "Building High-level Features Using Large Scale Unsupervised Learning", PROC. ICML, 2012
See also references of EP3001358A4
Y. BENGIO: "Learning deep architectures for AI", FOUNDATIONS AND TRENDS IN MACHINE LEARNING, vol. 2, no. 1, 2009, pages 1 - 127

Also Published As

Publication number Publication date
EP3001358A4 (en) 2017-07-26
JP6164639B2 (ja) 2017-07-19
JP2014229124A (ja) 2014-12-08
US20160110642A1 (en) 2016-04-21
EP3001358A1 (en) 2016-03-30
CN105229676B (zh) 2018-11-23
US9691020B2 (en) 2017-06-27
EP3001358B1 (en) 2020-09-09
CN105229676A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
JP6164639B2 (ja) ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム
US10629185B2 (en) Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
Lee et al. High-level feature representation using recurrent neural network for speech emotion recognition
Gehring et al. Extracting deep bottleneck features using stacked auto-encoders
Zen et al. Statistical parametric speech synthesis using deep neural networks
Sainath et al. Optimization techniques to improve training speed of deep neural networks for large speech tasks
US9460711B1 (en) Multilingual, acoustic deep neural networks
JP2018513405A (ja) 音声言語理解システム
JP6506074B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム
Tóth et al. A comparison of deep neural network training methods for large vocabulary speech recognition
Schuller et al. Evolutionary feature generation in speech emotion recognition
Dua et al. Discriminatively trained continuous Hindi speech recognition system using interpolated recurrent neural network language modeling
Guo et al. Deep neural network based i-vector mapping for speaker verification using short utterances
Huang et al. Beyond cross-entropy: towards better frame-level objective functions for deep neural network training in automatic speech recognition.
Saurav et al. Bangla speech recognition for voice search
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
Nguyen et al. Improving acoustic model for English ASR System using deep neural network
Gehring et al. DNN acoustic modeling with modular multi-lingual feature extraction networks
AbdAlmisreb et al. Maxout based deep neural networks for Arabic phonemes recognition
Joy et al. DNNs for unsupervised extraction of pseudo speaker-normalized features without explicit adaptation data
Saleem et al. A discriminative unsupervised method for speaker recognition using deep learning
JP2022147397A (ja) 感情分類器の訓練装置及び訓練方法
Abraham et al. Transfer Learning and Distillation Techniques to Improve the Acoustic Modeling of Low Resource Languages.
Pentari et al. Graph-based representations of speech signals: A novel approach for emotion recognition
Tran et al. Feedback connection for deep neural network-based acoustic modeling

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201480029326.5

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14801131

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2014801131

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14787903

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE