WO2020059084A1 - 学習装置およびパターン認識装置 - Google Patents

学習装置およびパターン認識装置 Download PDF

Info

Publication number
WO2020059084A1
WO2020059084A1 PCT/JP2018/034848 JP2018034848W WO2020059084A1 WO 2020059084 A1 WO2020059084 A1 WO 2020059084A1 JP 2018034848 W JP2018034848 W JP 2018034848W WO 2020059084 A1 WO2020059084 A1 WO 2020059084A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic
acoustic feature
layer
feature extraction
label
Prior art date
Application number
PCT/JP2018/034848
Other languages
English (en)
French (fr)
Inventor
達也 小松
玲史 近藤
咲子 美島
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2018/034848 priority Critical patent/WO2020059084A1/ja
Priority to US17/276,192 priority patent/US11948554B2/en
Priority to JP2020547549A priority patent/JP7040628B2/ja
Publication of WO2020059084A1 publication Critical patent/WO2020059084A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Definitions

  • the present invention provides a learning device, a learning method, and a learning program for learning a parameter for extracting an acoustic feature from an acoustic pattern obtained as a result of processing on an acoustic signal, and an acoustic signal based on a given acoustic pattern.
  • the present invention relates to a pattern recognition device, a pattern recognition method, and a pattern recognition program for identifying a source.
  • Non-Patent Document 1 describes a device that classifies received acoustic signals into predefined acoustic events and outputs a classification result, and a learning method of a classifier for classifying acoustic signals into acoustic events. ing.
  • the “acoustic signal” is a signal of a sound recorded by a device (for example, a microphone or the like).
  • ⁇ The“ sound event ” is the attribute of the source of the sound signal.
  • Non-Patent Document 1 classifies an audio signal into one of two types of audio events, “scream” and “cheers”. "Scream” and “cheers” are different acoustic events. However, both the sound signal obtained from the scream and the sound signal obtained from the cheers are sound signals obtained from a loud human voice, and are similar sound signals.
  • the acoustic feature value extracted from the acoustic signal obtained from the scream and the acoustic feature value extracted from the acoustic signal obtained from the cheer become similar.
  • the accuracy (identification) of the acoustic event corresponding to the audio signal obtained from the scream or the audio signal obtained from the cheers decreases.
  • the present invention can learn a parameter that is used when a pattern recognition device that identifies an acoustic event from given information to extract an acoustic feature, and that can improve the identification accuracy of the acoustic event. It is an object of the present invention to provide a learning device, a learning method, and a learning program that can be used.
  • Another object of the present invention is to provide a pattern recognition device, a pattern recognition method, and a pattern recognition program that can identify an acoustic event from given information with high accuracy.
  • the learning apparatus includes an acoustic feature extraction unit for extracting an acoustic feature from an acoustic pattern obtained as a result of processing on an acoustic signal using a predetermined parameter, and a label indicating an attribute of a source of the acoustic signal.
  • a label associated with the acoustic pattern is provided, a language vector calculating means for calculating a language vector from the label, a similarity calculating means for calculating a similarity between the acoustic feature and the language vector, Parameter updating means for learning parameters and updating a given parameter to a parameter obtained by learning.
  • a pattern recognition apparatus for extracting an acoustic feature from an acoustic pattern, which is learned based on a set of an acoustic pattern obtained as a result of processing on an acoustic signal and a label indicating an attribute of a source of the acoustic signal.
  • An acoustic feature extraction unit configured to extract an acoustic feature from the acoustic pattern by using a parameter; and an identification unit configured to identify a label indicating an attribute of a source of an acoustic signal based on the acoustic pattern based on the acoustic feature. It is characterized by the following.
  • a computer performs an acoustic feature extraction process of extracting an acoustic feature from an acoustic pattern obtained as a result of a process on an acoustic signal using a predetermined parameter, and a label indicating an attribute of a source of the acoustic signal.
  • a label associated with the acoustic pattern is given, a language vector calculation process of calculating a language vector from the label, a similarity calculation process of calculating a similarity between the acoustic feature and the language vector, and a similarity Is characterized by performing a parameter updating process of learning a parameter and updating a parameter given in advance to a parameter obtained by the learning so that is increased.
  • a computer extracts an acoustic feature from an acoustic pattern learned based on a set of an acoustic pattern obtained as a result of processing on an acoustic signal and a label indicating an attribute of a source of the acoustic signal.
  • Feature extraction processing for extracting an acoustic feature from an acoustic pattern using parameters for performing the processing, and identification for identifying a label indicating an attribute of a source of an acoustic signal based on the acoustic pattern based on the acoustic feature. Processing is performed.
  • a learning program provides a computer with a sound feature extraction process for extracting a sound feature from a sound pattern obtained as a result of a process on a sound signal using a parameter given in advance, and a label indicating an attribute of a source of the sound signal.
  • a label associated with the acoustic pattern is given, a language vector calculation process of calculating a language vector from the label, a similarity calculation process of calculating a similarity between the acoustic feature and the language vector, and a similarity
  • the parameter learning is performed so that the parameter is increased, and a parameter updating process of updating a parameter given in advance to a parameter obtained by learning is performed.
  • a pattern recognition program allows a computer to extract an acoustic feature from an acoustic pattern learned based on a set of an acoustic pattern obtained as a result of processing on an acoustic signal and a label indicating an attribute of a source of the acoustic signal.
  • Feature extraction processing for extracting an acoustic feature from an acoustic pattern using parameters for performing the processing, and identification for identifying a label indicating an attribute of a source of an acoustic signal based on the acoustic pattern based on the acoustic feature. The process is executed.
  • the present invention it is possible to learn a parameter that is used when a pattern recognition device that identifies an acoustic event from given information to extract an acoustic feature, and that can improve the identification accuracy of the acoustic event. it can.
  • an acoustic event can be identified with high accuracy from given information.
  • FIG. 1 is a block diagram illustrating a configuration example of a pattern recognition system according to a first embodiment.
  • FIG. 4 is a block diagram illustrating a configuration example of a learning unit. It is a flowchart which shows the example of the process progress at the time of a learning part learning a parameter. 35 is a flowchart illustrating an example of processing progress when identifying a label of an acoustic event corresponding to an acoustic pattern X_ * ⁇ . It is a block diagram showing an example in the case where the learning device of the present invention is configured as a device different from the pattern recognition device. It is a block diagram showing an example in the case where the pattern recognition device of the present invention is configured as a device different from the learning device.
  • FIG. 13 is a flowchart illustrating an example of processing progress of an element corresponding to a layer in the learning unit when focusing on one layer.
  • FIG. 13 is a block diagram illustrating an example in which the learning device is configured as a device different from the pattern recognition device in the second embodiment.
  • FIG. 14 is a block diagram illustrating an example in which the pattern recognition device is configured as a device different from the learning device in the second embodiment.
  • FIG. 2 is a schematic block diagram illustrating a configuration example of a computer according to a pattern recognition system in each embodiment. It is a block diagram showing the outline of the learning device of the present invention. It is a block diagram showing the outline of the pattern recognition device of the present invention.
  • Embodiment 1 FIG.
  • a learning device of the present invention a learning device for learning a parameter for extracting an acoustic feature from given information
  • a pattern recognition device of the present invention an acoustic event corresponding to given information
  • a pattern recognition system including a pattern recognition device that performs the above will be described as an example.
  • the learning device of the present invention and the pattern recognition device of the present invention may be independent devices.
  • the “given information” means an “acoustic pattern” described later.
  • pattern recognition means identifying an acoustic event corresponding to an acoustic pattern
  • the pattern recognition device can also be referred to as an identification device.
  • FIG. 1 is a block diagram illustrating a configuration example of a pattern recognition system according to the first embodiment.
  • the pattern recognition system 100 according to the first embodiment includes a learning unit 101, a language vector model storage unit 102, a parameter storage unit 103, an acoustic feature vector extraction unit 104, a similarity calculation unit 105, and an identification unit 106. Is provided.
  • the part including the learning unit 101, the language vector model storage unit 102, and the parameter storage unit 103 corresponds to a learning device. Further, a portion including the language vector model storage unit 102, the parameter storage unit 103, the acoustic feature vector extraction unit 104, the similarity calculation unit 105, and the identification unit 106 corresponds to a pattern recognition device.
  • the example illustrated in FIG. 1 illustrates a case where the learning device and the pattern recognition device share the language vector model storage unit 102 and the parameter storage unit 103 in the pattern recognition system 100.
  • a set of the acoustic pattern X_n and the label L_n associated with the acoustic pattern X_n is input to the ⁇ training unit 101 ⁇ .
  • the acoustic pattern will be described. “Acoustic pattern” is information obtained as a result of processing on an acoustic signal.
  • a digital signal sequence [x (1),..., X (T)] obtained by performing AD conversion (Analog to Digital Conversion) of an analog acoustic signal recorded by an acoustic sensor such as a microphone, and the digital signal thereof
  • the sequence [x (1),..., X (T)] may be used as an acoustic pattern as a two-dimensional array obtained as a result of frequency analysis performed by short-time Fourier transform, Constant-Q transform, or the like.
  • T is a predetermined time width (for example, about 1 to 10 seconds), and a value corresponding to the time width of the acoustic event to be detected may be set as T.
  • the acoustic pattern may be a vector (one-dimensional array) or a two-dimensional or more array.
  • the acoustic pattern can be said to be the result of processing the acoustic signal so that the acoustic signal is a finite vector or a two-dimensional or more array.
  • the label L_n ⁇ associated with the ⁇ sound pattern X_n ⁇ is a label indicating the sound event of the sound signal on which the sound pattern X_n ⁇ is based, and is represented by a character string.
  • the acoustic event is an attribute of the source of the acoustic signal, as described above.
  • the pair ⁇ X_n, ⁇ L_n ⁇ of ⁇ Acoustic pattern X_n ⁇ and label L_n ⁇ is assumed to be derived in advance based on an acoustic signal whose acoustic event is known.
  • a pair ⁇ X_n, ⁇ L_n ⁇ of a sound pattern X_n ⁇ and a label L_n ⁇ is input to the ⁇ training unit 101 ⁇ , and the learning unit 101 learns a parameter ⁇ for extracting a sound feature vector from the sound pattern.
  • “n” is an index number of a learning data set (a pair of an acoustic pattern and a label). Assuming that the number of input learning data sets is N, n is an integer from 1 to N.
  • the parameter storage unit 103 is a storage device that stores a parameter for extracting an acoustic feature vector from an acoustic pattern. In the initial state, the parameter storage unit 103 stores an initial value of a predetermined parameter ⁇ .
  • the learning unit 101 learns the parameter ⁇ using the set ⁇ X_n, ⁇ L_n ⁇ of the input acoustic pattern X_n and the label L_n, and replaces the parameter stored in the parameter storage unit 103 with the parameter ⁇ obtained by the learning. Update to
  • FIG. 2 is a block diagram illustrating a configuration example of the learning unit 101.
  • FIG. 2 also shows a language vector model storage unit 102 and a parameter storage unit 103 together with the learning unit 101.
  • the learning unit 101 includes an acoustic feature vector extraction unit 111, a language vector calculation unit 112, a similarity calculation unit 113, and a parameter update unit 114.
  • the acoustic feature vector extracting unit 111 in the learning unit 101 is included in a portion corresponding to the learning device, and therefore is distinguished from the acoustic feature vector extracting unit 104 (see FIG. 1) included in the portion corresponding to the pattern recognition device.
  • the similarity calculation unit 113 in the learning unit 101 is included in a part corresponding to the learning device, it is distinguished from the similarity calculation unit 105 (see FIG. 1) included in the part corresponding to the pattern recognition device. , As shown in FIG.
  • the acoustic feature vector extraction unit 111 receives the acoustic pattern X_n as an input, extracts the acoustic feature vector z_n from the acoustic pattern X_n using the parameter ⁇ stored in the parameter storage unit 103, and outputs the acoustic feature vector z_n. I do.
  • the parameter ⁇ for extracting the acoustic feature vector from the acoustic pattern is, for example, a parameter of a neural network, but may be another parameter.
  • the acoustic feature vector extraction unit 111 may be configured to extract an acoustic feature vector from a sound pattern represented by a vector or an array of two or more dimensions using the parameter ⁇ .
  • the method for extracting the acoustic feature vector may be the method described in Non-Patent Document 1, or another method.
  • the language vector model storage unit 102 is a storage device that stores a model (hereinafter, referred to as a language vector model) for calculating a vector from a label represented by a character string.
  • a language vector model a model for calculating a vector from a label represented by a character string.
  • a vector calculated from a label based on a language vector model is called a language vector.
  • ⁇ Language vector calculation section 112 calculates language vector w_n ⁇ based on a language vector model from label L_n ⁇ indicating the acoustic event of the acoustic signal that is the basis of acoustic pattern X_n, and outputs the language vector w_n ⁇ .
  • the language vector is calculated from the label such that the distance between the language vectors obtained from is larger.
  • techniques such as “word2vec”, “skip @ gram”, and “GloVe” may be used.
  • the meanings of the label “scream” and the label “scream” are close. Therefore, the distance between the language vector calculated from the label “scream” by the language vector calculation unit 112 and the language vector calculated from the label “scream” by the language vector calculation unit 112 is reduced. Further, for example, the meanings of the label “scream” and the label “cheers” are far away. Therefore, the distance between the language vector calculated by the language vector calculation unit 112 from the label “scream” and the language vector calculated by the language vector calculation unit 112 from the label “cheers” increases.
  • the number of dimensions of the acoustic feature vector z_n ⁇ extracted by the acoustic feature vector extraction unit 111 and the number of dimensions of the language vector w_n ⁇ calculated by the language vector calculation unit 112 need to be equal. That is, the acoustic feature vector z_n is a vector having the same number of dimensions as the language vector w_n.
  • ⁇ Similarity calculation section 113 calculates similarity d (z_n, w_n) between acoustic feature vector z_n ⁇ and language vector w_n, and outputs the similarity.
  • d (,) is a similarity function for calculating the similarity.
  • the similarity function for example, an arbitrary error function such as a cosine similarity, a mean square error (MSE: MeanquarSquared Error) or an average absolute value error (MAE: Mean Absolute Error) is used.
  • MSE MeanquarSquared Error
  • MAE Mean Absolute Error
  • ⁇ Parameter updating section 114 learns a parameter ⁇ for extracting an acoustic feature vector from an acoustic pattern, using the error function.
  • the initial value of the ⁇ parameter stored in the parameter storage unit 103 in the initial state ⁇ is, for example, a parameter learned in advance from random numbers or other data.
  • the parameter updating unit 114 learns the parameter ⁇ by a neural network learning method such as a stochastic gradient descent method based on the above error function. At this time, the parameter updating unit 114 increases the similarity d (z_n, w_n) between the acoustic feature vector z_n extracted from the acoustic pattern X_n and the language vector w_n calculated from the label paired with the acoustic pattern X_n. Thus, the parameter ⁇ for extracting the acoustic feature vector from the acoustic pattern is learned.
  • the parameter updating unit 114 learns the parameter ⁇
  • the parameter updating unit 114 updates the parameter stored in the parameter storage unit 103 to the newly learned parameter ⁇ .
  • the acoustic feature vector extraction unit 111 extracts the acoustic feature vector z_n again using the updated parameters.
  • the parameter ⁇ has been learned so that the similarity d (z_n, w_n) increases.
  • the acoustic feature vector extracted using these parameters is extracted as a vector in the same space as a vector from which the meaningful distance of the label can be calculated.
  • the acoustic feature vector is a vector reflecting a semantic distance from the label used at the time of learning.
  • a process in which the acoustic feature vector extraction unit 111 extracts the acoustic feature vector z_n using the parameters stored in the parameter storage unit 103, a process in which the similarity calculation unit 113 calculates the similarity d (z_n, w_n), and a parameter update The process of the unit 114 learning the parameter ⁇ and updating the parameter stored in the parameter storage unit 103 to the newly learned parameter ⁇ is repeated until a predetermined convergence condition is satisfied.
  • the convergence condition for example, a condition that the number of repetitions of the above processing has reached a predetermined number, a condition that the similarity d (z_n, w_n) has become a predetermined value or more, and the like can be used.
  • ⁇ Acoustic pattern X_ * ⁇ for which the label of the corresponding acoustic event is unknown is input to ⁇ acoustic feature vector extracting section 104 ⁇ . It is assumed that the acoustic pattern X_ * input to the acoustic feature vector extraction unit 104 is derived in advance based on an acoustic signal whose acoustic event is unknown. An example of a method for obtaining an acoustic pattern based on an acoustic signal has already been described, and a description thereof will not be repeated.
  • ⁇ Acoustic feature vector extraction section 104 extracts acoustic feature vector z_ * ⁇ from acoustic pattern X_ * ⁇ using parameter ⁇ stored in parameter storage section 103.
  • the acoustic feature vector extracting unit 104 extracts an acoustic feature vector from an acoustic pattern using the parameter ⁇
  • the acoustic feature vector extracting unit 111 extracts an acoustic feature vector from the acoustic pattern using the parameter ⁇ . The operation is the same.
  • Similarity calculating section 105 previously holds a plurality of labels of acoustic events that are predetermined as candidates for identification results.
  • the similarity calculation unit 105 calculates a language vector from the label for each label based on the language vector model stored in the language vector model storage unit 102.
  • the similarity calculation unit 105 further calculates, for each label, the similarity between the calculated language vector and the acoustic feature vector z_ * ⁇ ⁇ extracted by the acoustic feature vector extraction unit 104.
  • the operation in which the similarity calculation unit 105 calculates the similarity between the language vector and the acoustic feature vector is the same as the operation in which the similarity calculation unit 113 (see FIG. 2) calculates the similarity between the language vector and the acoustic feature vector.
  • the index number of the label of the acoustic event predetermined as a candidate for the identification result is represented by m. Assuming that the total number of acoustic event labels predetermined as identification result candidates is M, m is an integer from 1 to M.
  • the language vector calculated from the m ⁇ th label by the similarity calculation unit 105 is referred to as w (m).
  • the acoustic feature vector z_ * is a vector having the same number of dimensions as each language vector calculated by the similarity calculation unit 105 for each label.
  • the ⁇ similarity calculation unit 105 generates a vector R_ * (hereinafter, referred to as a similarity vector R_ * ⁇ ) having the similarity d (z_ *, w (m)) calculated for each label as an element.
  • the labels of the acoustic events predetermined as candidates for the identification result are three, “music”, “voice”, and “gunshot”.
  • w (1), w (2), and w (3) are a language vector calculated from “music”, a language vector calculated from “voice”, and a language vector calculated from “gunshot”, respectively.
  • the similarity vector R_ * is a vector [d (z_ *, w (1)), d (z_ *, w (2)), d (z_ *, w (3))] having three elements. Is expressed.
  • ⁇ Similarity calculation section 105 sends similarity vector R_ * ⁇ to identification section 106.
  • ⁇ Identification section 106 identifies a label of an acoustic event corresponding to acoustic pattern X_ * ⁇ based on similarity vector R_ * ⁇ .
  • the identification unit 106 may, for example, assign a label corresponding to the largest element among the elements of the similarity vector R_ * among the labels of the acoustic events predetermined as candidates for the identification result to an acoustic pattern corresponding to the acoustic pattern X_ *. It may be determined as an event label L_ *.
  • the identification unit 106 sorts the individual labels corresponding to the individual elements of the similarity vector R_ * in descending order of the values of the elements of the similarity vector R _ * _. And the labels sorted in descending order of the values of the elements of the similarity vector R_ * may be output as the identification results.
  • the identification unit 106 may identify the label L_ * ⁇ of the acoustic event according to the acoustic pattern X_ * by applying the similarity vector R_ * to a classifier such as a support vector machine or a neural network.
  • the discriminator may be learned in advance by machine learning using a combination of the acoustic pattern X_n ⁇ ⁇ ⁇ and the label L_n or the like.
  • the learning unit 101 including the acoustic feature vector extraction unit 111, the language vector calculation unit 112, the similarity calculation unit 113, and the parameter update unit 114 is implemented by, for example, a CPU (Central Processing Unit) of a computer that operates according to a learning program. Is achieved.
  • the CPU reads a learning program from a program recording medium such as a program storage device of a computer, and according to the learning program, an acoustic feature vector extraction unit 111, a language vector calculation unit 112, a similarity calculation unit 113, What is necessary is just to operate as the learning unit 101 including the parameter updating unit 114.
  • the acoustic feature vector extraction unit 104, the similarity calculation unit 105, and the identification unit 106 are realized by, for example, a CPU of a computer that operates according to a pattern recognition program.
  • the CPU reads a pattern recognition program from a program recording medium such as a program storage device of a computer, and operates as the acoustic feature vector extraction unit 104, the similarity calculation unit 105, and the identification unit 106 according to the pattern recognition program. Good.
  • the parameter storage unit 103 and the language vector model storage unit 102 are realized by, for example, a storage device included in a computer.
  • FIG. 3 is a flowchart illustrating an example of a process when the learning unit 101 learns the parameter ⁇ . Detailed description of the already described items will be omitted. It is assumed that the parameter storage unit 103 stores an initial value of a predetermined parameter ⁇ .
  • a set of an acoustic pattern X_n ⁇ and a label L_n ⁇ associated with the acoustic pattern X_n ⁇ is input to the learning unit 101.
  • the language vector calculation unit 112 calculates a language vector w_n from the label L_n based on the language vector model (step S1).
  • ⁇ Acoustic feature vector extraction section 111 extracts acoustic feature vector z_n ⁇ from input acoustic pattern X_n using parameter ⁇ stored in parameter storage section 103 (step S2).
  • the similarity calculation unit 113 calculates the similarity d (z_n, w_n) between the acoustic feature vector z_n extracted in step S2 and the language vector w_n ⁇ calculated in step S1 (step S3).
  • the parameter updating unit 114 learns the parameter ⁇ such that the similarity d (z_n, w_n) calculated by the similarity calculating unit 113 increases, and learns the parameter ⁇ stored in the parameter storage unit 103. Update to parameter No. (step S4).
  • the parameter updating unit 114 determines whether the convergence condition is satisfied (step S5). If the convergence condition is not satisfied (No in step S5), the learning unit 101 repeats the processing in steps S2 to S5. When the convergence condition is satisfied (Yes in step S5), the learning unit 101 ends the learning of the parameter ⁇ .
  • the convergence condition a condition that the number of repetitions of steps S2 to S5 has reached a predetermined number, a condition that the similarity d (z_n, w_n) calculated in step S3 has become a predetermined value or more, and the like are used. Can be.
  • FIG. 4 shows an example of processing progress when identifying a label of an acoustic event corresponding to the acoustic pattern X_ * when an acoustic pattern X_ * whose label of the corresponding acoustic event is unknown is input. It is a flowchart. Detailed description of the already described items will be omitted. It is assumed that the parameter storage unit 103 stores the parameter ⁇ updated by the learning unit 101.
  • the acoustic pattern X_ * whose label of the corresponding acoustic event is unknown is input to the acoustic feature vector extraction unit 104.
  • the acoustic feature vector extraction unit 104 extracts the acoustic feature vector z_ * from the input acoustic pattern X_ * using the parameter ⁇ stored in the parameter storage unit 103 (step S11).
  • the similarity calculation unit 105 calculates a language vector w (m) from a label for each acoustic event label predetermined as a candidate for the identification result. Then, the similarity calculating unit 105 calculates the similarity between the acoustic feature vector z_ * and the language vector w (m) for each label (step S12).
  • ⁇ Similarity calculation section 105 generates similarity vector R_ * ⁇ having the similarity calculated for each label in step S12 as an element (step S13).
  • the ⁇ identification unit 106 identifies the label of the acoustic event corresponding to the inputted acoustic pattern X_ * ⁇ based on the similarity vector R_ * ⁇ (step S14).
  • the parameter updating unit 114 learns the parameter ⁇ such that the similarity d (z_n, w_n) between the acoustic feature vector z_n and the language vector w_n increases, and the parameter ⁇ is stored in the parameter storage unit 103. Parameter is updated to the learned parameter ⁇ . Then, the acoustic feature vector extracted from the acoustic pattern using the parameter is a vector reflecting the meaningful distance from the label.
  • the acoustic feature vector extraction unit 104 (see FIG. 1) in the present embodiment can extract such an acoustic feature vector.
  • the acoustic feature vector extracted from one acoustic pattern is a vector having a small meaningful distance from the label of acoustic event A
  • the acoustic event vector extracted from the other acoustic pattern is the acoustic event vector of acoustic event A.
  • the vector has a large semantic distance from the label.
  • the present embodiment it is possible to learn a parameter that can improve the identification accuracy when identifying an acoustic event from a given acoustic pattern. Then, the acoustic event can be identified with high accuracy from the given acoustic pattern.
  • the configuration in which the portion corresponding to the pattern recognition device in the pattern recognition system 100 includes the similarity calculation unit 105 (see FIG. 1).
  • the pattern recognition system 100 may not include the similarity calculation unit 105.
  • the similarity vector R_ * need not be generated.
  • the identification unit 106 applies the acoustic feature vector z_ * extracted from the acoustic pattern X_ * by the acoustic feature vector extraction unit 104 to the discriminator, and thereby the label L_ of the acoustic event corresponding to the acoustic pattern X_ * * May be identified.
  • This discriminator may be learned in advance by machine learning using a set of the acoustic pattern X_n and the label L_n or the like. The other points are the same as in the first embodiment.
  • the pattern recognition system 100 including the learning device of the present invention and the pattern recognition device of the present invention has been described.
  • the learning device of the present invention and the pattern recognition device of the present invention may be independent devices.
  • FIG. 5 is a block diagram showing an example in which the learning device of the present invention is configured as a device different from the pattern recognition device. Elements that are the same as the elements shown in FIG. 1 are given the same reference numerals as in FIG. 1, and descriptions thereof are omitted.
  • the learning device 150 includes a learning unit 101, a language vector model storage unit 102, and a parameter storage unit 103.
  • the learning unit 101 includes an acoustic feature vector extraction unit 111, a language vector calculation unit 112, a similarity calculation unit 113, and a parameter update unit 114, as shown in FIG. These components are the same as those described in the first embodiment, and a description thereof will not be repeated.
  • the learning device 150 illustrated in FIG. 5 can also learn the parameter ⁇ that can improve the identification accuracy when identifying an acoustic event from a given acoustic pattern.
  • FIG. 6 is a block diagram showing an example in which the pattern recognition device of the present invention is configured as a device different from a learning device. Elements that are the same as the elements shown in FIG. 1 are given the same reference numerals as in FIG. 1, and descriptions thereof are omitted.
  • the pattern recognition device 160 includes an acoustic feature vector extraction unit 104, a similarity calculation unit 105, an identification unit 106, a parameter storage unit 103S, and a language vector model storage unit 102.
  • the parameter storage unit 103S is a storage device that stores the parameter ⁇ learned by the learning device. For example, the parameters learned by the learning device 150 illustrated in FIG. 5 and stored in the parameter storage unit 103 illustrated in FIG. 5 may be copied to the parameter storage unit 103S of the pattern recognition device 160.
  • the acoustic event can be identified with high accuracy from the given acoustic pattern also by the pattern recognition device 160 shown in FIG.
  • the label given for learning the parameter is a label defined for each hierarchy of the category of the acoustic event.
  • a description will be given of a label defined for each hierarchy of the category of the acoustic event, with a specific example shown.
  • categories can be hierarchized according to their meaning. The broader the meaning of the category, the higher the hierarchy, and the narrower the category, the lower the hierarchy. Then, a character string serving as a label can be determined for each category hierarchy. Therefore, a label determined for each layer of the category of the acoustic event can be used as a label used for learning.
  • labels having such a hierarchical structure are used for learning.
  • the label obtained as the identification result also has a hierarchical structure.
  • the number of layers is “3”, but the number of layers may be determined at an arbitrary granularity.
  • a character string corresponding to the hierarchy may be determined for each hierarchy.
  • the number of hierarchical levels of the category is determined equally for each label.
  • FIG. 7 is a block diagram illustrating a configuration example of a pattern recognition system according to the second embodiment.
  • the pattern recognition system 200 according to the second embodiment includes a learning unit 201, a language vector model storage unit 202, parameter storage units 203a, 203b, 203c, a feature extraction unit 204, a similarity calculation unit 205, and an identification unit. 206.
  • the part including the learning unit 201, the language vector model storage unit 202, and the parameter storage units 203a, 203b, and 203c corresponds to a learning device.
  • a part including the language vector model storage unit 202, the parameter storage units 203a, 203b, and 203c, the feature extraction unit 204, the similarity calculation unit 205, and the identification unit 206 corresponds to a pattern recognition device.
  • the example illustrated in FIG. 7 illustrates a case where the learning device and the pattern recognition device share the language vector model storage unit 202 and the parameter storage units 203a, 203b, and 203c in the pattern recognition system 200.
  • the set of the acoustic pattern X_n and the label L_n associated with the acoustic pattern X_n is input to the ⁇ learning unit 201 ⁇ .
  • L_n1 is the label of the highest hierarchy
  • L_n2 is the label of the second hierarchy
  • L_n3 is the label of the third hierarchy.
  • the meaning of the label is wider in the higher hierarchy, and the meaning of the label is narrower in the lower hierarchy.
  • the learning unit 201 learns parameters for each category hierarchy. Details of the learning unit 201 will be described later.
  • the parameter storage unit 203a is a storage device that stores parameters corresponding to the highest hierarchy.
  • the parameter storage unit 203b is a storage device that stores parameters corresponding to the second hierarchy.
  • the parameter storage unit 203c is a storage device that stores parameters corresponding to the third hierarchy. As described above, in the second embodiment, the parameter storage units 203a, 203b, and 203c are provided for each category hierarchy.
  • the language vector model storage unit 202 is a storage device that stores a language vector model.
  • the language vector model storage unit 202 is the same as the language vector model storage unit 102 according to the first embodiment.
  • ⁇ Sound pattern X_ * ⁇ for which the label of the corresponding sound event is unknown is input to ⁇ feature extraction unit 204 ⁇ . Then, the feature extracting unit 204 extracts the acoustic feature vectors z_ * 1, z_ * 2, and z_ * 3 for each layer. Details of the feature extracting unit 204 will be described later.
  • the similarity calculation unit 205 generates a similarity vector for each layer based on the acoustic feature vectors z_ * 1, z_ * 2, z_ * 3 extracted for each layer.
  • the similarity calculation unit 205 previously stores a plurality of labels of acoustic events that are predetermined as identification result candidates for each layer. Then, the similarity calculation unit 205 calculates a language vector from the label for each of the held labels for each layer based on the language vector model stored in the language vector model storage unit 202.
  • the similarity calculation unit 205 calculates the similarity between each language vector calculated for each label and the acoustic feature vector for each layer. Then, the similarity calculation unit 205 generates a similarity vector having the calculated similarity as an element for each layer. For example, the similarity calculation unit 205 calculates the similarity between each language vector calculated from each label predetermined for the highest hierarchy and the acoustic feature vector z_ * 1 corresponding to the highest hierarchy. , A similarity vector having the similarity as an element is generated. The similarity calculation unit 205 similarly generates a similarity vector for each of the other layers.
  • the identification unit 206 identifies a label for each layer based on each similarity vector generated for each layer.
  • a method of identifying a label based on the similarity vector may be the same as the method described in the first embodiment.
  • the identification unit 206 may perform the process of specifying the label corresponding to the largest element among the elements of the similarity vector for each layer.
  • the identification unit 206 sorts the individual labels corresponding to the individual elements of the similarity vector in the descending order of the values of the elements of the similarity vector, and sorts the labels in the descending order of the values of the elements of the similarity vector.
  • the process of determining the label as the identification result may be performed for each layer.
  • the identification unit 206 may perform the process of specifying the label by applying the similarity vector to the classifier for each layer.
  • the classifier may be learned in advance for each layer.
  • FIG. 8 is a block diagram illustrating a configuration example of the learning unit 201 according to the second embodiment.
  • FIG. 8 also shows the language vector model storage unit 202 and the parameter storage units 203a, 203b, and 203c together with the learning unit 201.
  • the learning unit 201 includes an acoustic feature vector extraction unit 211, a language vector calculation unit 212, a similarity calculation unit 213, and a parameter update unit 214 for each hierarchy.
  • each element (the acoustic feature vector extraction unit 211, the language vector calculation unit 212, the similarity calculation unit 213, and the parameter update unit 214) corresponding to the highest hierarchy is represented by adding a suffix “a” to each code.
  • each element corresponding to the second layer is represented by adding a suffix “b” to each code
  • each element corresponding to the third layer is represented by a suffix “c”.
  • the acoustic feature vector extraction unit 211 of each layer obtains the acoustic feature in its own layer from the given acoustic pattern X_n or the acoustic feature vector extracted by the acoustic feature vector extraction unit of the next higher hierarchy. Extract the vector.
  • the acoustic feature vector extraction unit 211a of the highest hierarchy uses the parameters of the highest hierarchy (the parameters stored in the parameter storage unit 203a) to convert the given acoustic pattern X_n into the acoustic feature vector z_n1. Is extracted.
  • the acoustic feature vector z_n1 is an acoustic feature vector in the highest hierarchy.
  • the acoustic feature vector extracting unit 211a sends the acoustic feature vector z_n1 to the similarity calculating unit 213a in the hierarchy (the highest hierarchy) of the acoustic feature vector extracting unit 211a, and sends it to the acoustic feature vector extracting unit 211b in the next lower hierarchy. send.
  • the acoustic feature vector extraction unit 211 of each layer other than the highest layer provides parameters (parameter storage) in the layer of the acoustic feature vector extraction unit 211b.
  • parameters parameters (parameter storage) in the layer of the acoustic feature vector extraction unit 211b.
  • the acoustic feature vector z_n2 in the hierarchy is extracted.
  • the acoustic feature vector extracting unit 211b sends the acoustic feature vector z_n2 to the similarity calculating unit 213b in the hierarchy of the acoustic feature vector extracting unit 211b, and sends it to the acoustic feature vector extracting unit 211c in the next lower hierarchy.
  • the acoustic feature vector extracting unit 211b has been described as an example of the acoustic feature vector extracting unit 211 other than the uppermost layer, but the operation of the acoustic feature vector extracting unit 211c is the same. However, when there is no acoustic feature vector extraction unit 211 of the next lower hierarchy, the acoustic feature vector need not be sent to the acoustic feature vector extraction unit 211 of the next lower hierarchy.
  • the acoustic feature vector extraction units 211a, 211b, and 211c of each layer are configured to extract an acoustic feature vector from information represented by a vector or a two-dimensional or more array.
  • the language vector calculation unit 212 of each hierarchical level among the labels L_n1, L_n2, L_n3 in the given L_n, has its own language vector calculation unit 212.
  • a linguistic vector is calculated from the label corresponding to the hierarchy.
  • the language vector calculation unit 212 sends the language vector to the similarity calculation unit 213 in the hierarchy of the language vector calculation unit 212.
  • the operation of the language vector calculation units 212b and 212c of the other layers is the same.
  • the operation in which the language vector calculation unit 212 of each layer calculates the language vector from the label based on the language vector model is the same as the operation in which the language vector calculation unit 112 calculates the language vector in the first embodiment.
  • the similarity calculation unit 213 of each layer calculates the similarity between the acoustic feature vector and the language vector sent from the acoustic feature vector extraction unit 211 and the language vector calculation unit 212 of the hierarchy of the similarity calculation unit 213.
  • the highest-level similarity calculating unit 213a calculates the similarity between the acoustic feature vector z_n1 sent from the acoustic feature vector extracting unit 211a and the language vector sent from the language vector calculating unit 212a.
  • the operations of the similarity calculation units 213b and 213c of other layers are the same. Note that the operation in which the similarity calculating unit 213 of each layer calculates the similarity between the acoustic feature vector and the language vector is performed by the similarity calculating unit 113 in the first embodiment calculating the similarity between the acoustic feature vector and the language vector. The operation is the same.
  • the parameter updating unit 214 of each layer increases the parameter (audio level) of the layer so that the similarity (similarity between the acoustic feature vector and the language vector) calculated by the similarity calculating unit 213 of the layer of the parameter updating unit 214 itself increases. (Parameters for extracting a feature vector). Then, the parameter updating unit 214 updates the parameter stored in the parameter storage unit 203 of the hierarchy to the learned parameter.
  • the parameter updating unit 214a of the top hierarchy learns the parameters of the top hierarchy so that the similarity calculated by the similarity calculation unit 213a increases, and learns the parameters stored in the parameter storage unit 203a. Update to the set parameters.
  • the operation of the parameter updating units 214b and 214b of the other layers is the same.
  • the operation of learning the parameters by the parameter updating unit 214 of each layer is the same as the operation of learning the parameters by the parameter updating unit 214 in the first embodiment.
  • FIG. 9 is a block diagram showing a configuration example of the feature extraction unit 204.
  • FIG. 9 also shows the parameter storage units 203a, 203b, 203c and the similarity calculation unit 205 together with the feature extraction unit 204.
  • the feature extracting unit 204 includes an acoustic feature vector extracting unit 251 for each layer.
  • the acoustic feature vector extraction unit 251 corresponding to the highest hierarchical level is represented by adding a suffix “a” to a code “251”.
  • the acoustic feature vector extraction unit 251 corresponding to the second hierarchy represents the code “251” with a suffix “b” added thereto
  • the acoustic feature vector extraction unit 251 corresponding to the third hierarchy has the code “251” is represented by adding a subscript “c”.
  • the sound feature vector extraction unit 251 of each layer obtains the sound in the layer of the sound feature vector extraction unit 251 itself from the given sound pattern X_ * or the sound feature vector extracted by the sound feature vector extraction unit of the next higher layer. Extract the feature vector.
  • the acoustic feature vector extraction unit 251a of the highest hierarchy uses the parameters of the highest hierarchy (the parameters stored in the parameter storage unit 203a) to convert the given acoustic pattern X_ * into an acoustic feature vector. Extract z_ * 1.
  • the sound pattern X_ * is a sound pattern in which the label of the corresponding sound event is unknown.
  • the acoustic feature vector z_ * 1 is an acoustic feature vector in the highest hierarchy.
  • the acoustic feature vector extracting unit 251a sends the acoustic feature vector z_ * 1 to the similarity calculating unit 205 and sends it to the acoustic feature vector extracting unit 251b of the next lower hierarchy.
  • the acoustic feature vector extraction unit 251 of each layer other than the highest layer provides parameters (parameter storage) in the layer of the acoustic feature vector extraction unit 251b.
  • parameters parameters stored in the unit 203b
  • extracting the acoustic feature vector from the acoustic feature vector z_ * 1 extracted by the acoustic feature vector extractor 251a in the next higher hierarchy of the acoustic feature vector extractor 251b The sound feature vector z_ * 2 in the hierarchy of the unit 251b is extracted.
  • the acoustic feature vector extracting unit 251b sends the acoustic feature vector z_ * 2 to the similarity calculating unit 205 and sends it to the acoustic feature vector extracting unit 251c of the next lower hierarchy.
  • the acoustic feature vector extracting unit 251b has been described as an example of the acoustic feature vector extracting unit 251 other than the highest hierarchical layer, but the operation of the acoustic feature vector extracting unit 251c is the same. However, when there is no acoustic feature vector extraction unit 251 of the next lower hierarchy, the acoustic feature vector need not be sent to the acoustic feature vector extraction unit 251 of the next lower hierarchy.
  • the learning unit 201 including the acoustic feature vector extraction units 211a, 211b, 211c, the language vector calculation units 212a, 212b, 212c, the similarity calculation units 213a, 213b, 213c, and the parameter update units 214a, 214b, 214c,
  • the CPU reads a learning program from a program recording medium such as a program storage device of a computer, and in accordance with the learning program, outputs the acoustic feature vector extracting units 211a, 211b, 211c and the language vector calculating units 212a, 212b, 212c.
  • the operation may be performed as the learning unit 201 including the similarity calculation units 213a, 213b, 213c and the parameter update units 214a, 214b, 214c.
  • the feature extraction unit 204 including the acoustic feature vector extraction units 251a, 251b, and 251c, the similarity calculation unit 205, and the identification unit 206 are realized by, for example, a CPU of a computer that operates according to a pattern recognition program.
  • the CPU may read the pattern recognition program from a program recording medium such as a program storage device of a computer, and operate as the feature extraction unit 204, the similarity calculation unit 205, and the identification unit 206 according to the pattern recognition program.
  • the parameter storage units 203a, 203b, and 203c and the language vector model storage unit 102 are realized by, for example, a storage device included in a computer.
  • FIG. 10 is a flowchart illustrating an example of the processing progress of an element corresponding to a layer in the learning unit 201 when focusing on one layer.
  • FIG. 10 shows an example in which attention is paid to the highest hierarchy. Detailed description of the already described items will be omitted. It is assumed that each of the parameter storage units 203a, 203b, and 203b stores predetermined parameter initial values.
  • the language vector calculation unit 212a calculates a language vector from the label L_n1 corresponding to the highest hierarchy based on the language vector model (step S21).
  • the acoustic feature vector extraction unit 211a extracts the acoustic feature vector z_n1 from the input acoustic pattern X_n ⁇ using the parameter corresponding to the highest hierarchy (the parameter stored in the parameter storage unit 203a) (step S22). ).
  • the similarity calculation unit 213a calculates the similarity between the acoustic feature vector z_n1 extracted in step S22 and the language vector calculated in step S21 (step S23).
  • the parameter updating unit 214a learns the parameters so that the similarity calculated by the similarity calculating unit 213a increases, and updates the parameters stored in the parameter storage unit 203a to the learned parameters (step S24). .
  • the parameter updating unit 214a determines whether the convergence condition is satisfied (Step S25). If the convergence condition is not satisfied (No in step S25), the processes in steps S22 to S25 are repeated. If the convergence condition is satisfied (Yes in step S25), the acoustic feature vector extraction unit 211a sends the acoustic feature vector z_n1 extracted in the latest step S22 to the acoustic feature vector extraction unit 211b in the next lower hierarchy ( Step S26), the process ends.
  • steps S21 to S26 are performed in each layer other than the highest layer.
  • the acoustic feature vector extraction unit 211 uses the parameter corresponding to the layer of the acoustic feature vector extraction unit 211 to perform one process from the layer.
  • An audio feature vector is extracted from the audio feature vector extracted in the higher hierarchy.
  • Other points are the same as steps S21 to S26.
  • each of the parameter storage units 203a, 203b, and 203c stores the parameter updated by the learning unit 201.
  • the acoustic feature vector extracting unit 251a corresponding to the highest hierarchy uses the parameter corresponding to the highest hierarchy (the parameter stored in the parameter storage unit 203a). Then, an acoustic feature vector z_ * 1 is extracted from the acoustic pattern X_ *.
  • the acoustic feature vector extraction unit 251a sends the acoustic feature vector z_ * 1 to the acoustic feature vector extraction unit 251b of the next lower hierarchy and also to the similarity calculation unit 205.
  • the acoustic feature vector extraction unit 251b of the second hierarchy uses the parameters corresponding to the hierarchy (the parameters stored in the parameter storage unit 203b) to extract the acoustic feature vector z_ * 1 extracted in the next higher hierarchy. , An acoustic feature vector z_ * 2 is extracted.
  • the acoustic feature vector extracting unit 251b sends the acoustic feature vector z_ * 2 to the acoustic feature vector extracting unit 251c of the next lower hierarchy and also to the similarity calculating unit 205.
  • the acoustic feature vector extraction unit 251 of the third and subsequent layers performs the same processing. If the acoustic feature vector extraction unit 251 of the next lower hierarchy does not exist, the acoustic feature vector may be sent to the similarity calculation unit 205. In the example illustrated in FIG. 9, the acoustic feature vector extraction unit 251c may send the acoustic feature vector z_ * 3 extracted from the acoustic feature vector z_ * 2 to the similarity calculation unit 205.
  • the similarity calculation unit 205 obtains the acoustic feature vectors z_ * 1, z_ * 2, z_ * 3 extracted in each layer. Thereafter, the similarity calculation unit 205 and the identification unit 206 (see FIG. 7) may execute the same processing as in steps S12 to S14 (see FIG. 4) in the first embodiment for each layer. Steps S12 to S14 have been described in the first embodiment, and a description thereof will be omitted here. Further, when the same processing as in steps S12 to S14 in the first embodiment is executed for each layer, the similarity calculation unit 205 and the identification unit 206 may execute the processing for each layer in parallel.
  • the acoustic feature vector z_n1 extracted by the acoustic feature vector extracting unit 211a of the highest hierarchy is, for example, a semantic difference from “human voice” or “music” in the above-described example.
  • This is an acoustic feature vector that captures
  • the acoustic feature vector z_n2 extracted from the acoustic feature vector z_n1 is, for example, an acoustic feature vector that captures a semantic difference from “male” or “female” in the above-described example. ing.
  • the acoustic feature vectors extracted in each layer make the semantic differences of different labels more prominent. This is the same for the acoustic feature vector extracted in each layer in the feature extracting unit 204. Therefore, in the second embodiment, it is possible to learn parameters that can further improve the identification accuracy of acoustic events for each layer. Then, it is possible to identify the acoustic event from the given acoustic pattern for each layer with higher accuracy.
  • the pattern recognition system 200 may not include the similarity calculation unit 205.
  • the similarity calculation unit 205 since the similarity calculation unit 205 is not provided, a similarity vector of each layer is not generated.
  • the identification unit 206 may identify the label of the acoustic event by applying the acoustic feature vector to the classifier for each layer. For example, the identification unit 206 may identify the label of the highest hierarchy by applying the acoustic feature vector z_ * 1 of the highest hierarchy to the classifier. The identification unit 206 may similarly identify the label for each of the other layers. In addition, the discriminator may be learned in advance by machine learning for each layer. The other points are the same as in the second embodiment.
  • the learning device and the pattern recognition device may be independent devices.
  • FIG. 11 is a block diagram showing an example in which the learning device is configured as a device different from the pattern recognition device in the second embodiment. Elements that are the same as the elements shown in FIG. 7 are given the same reference numerals as in FIG. 7, and descriptions thereof will be omitted.
  • the learning device 250 includes a learning unit 201, a language vector model storage unit 202, and parameter storage units 203a, 203b, and 203c. As illustrated in FIG. 8, the learning unit 201 includes an acoustic feature vector extraction unit 211, a language vector calculation unit 212, a similarity calculation unit 213, and a parameter update unit 214 for each hierarchy. These components are the same as the components described in the above-described second embodiment, and description thereof will be omitted.
  • the learning device 250 can also learn parameters that can further improve the identification accuracy of acoustic events for each layer.
  • FIG. 12 is a block diagram showing an example in which the pattern recognition device is configured as a device different from the learning device in the second embodiment. Elements that are the same as the elements shown in FIG. 7 are given the same reference numerals as in FIG. 7, and descriptions thereof will be omitted.
  • the pattern recognition device 260 includes a feature extraction unit 204, a similarity calculation unit 205, and an identification unit 206, including a parameter storage unit 203Sa, 203Sb, 203Sc, and a language vector model storage unit 202.
  • the parameter storage units 203Sa, 203Sb, and 203Sc are storage devices that store parameters learned by the learning device. For example, the parameters learned by the learning device 250 (see FIG.
  • the feature extracting unit 204 includes an acoustic feature vector extracting unit 251 for each layer.
  • the pattern recognition device 260 can also identify the sound event from the given sound pattern with higher accuracy for each layer.
  • the number of layers is not limited to three.
  • the acoustic signal has been described as an example.
  • the present invention can be applied to any signal such as a time-series vibration signal obtained from a vibration sensor.
  • FIG. 13 is a schematic block diagram illustrating a configuration example of a computer according to the pattern recognition system (may be an independent learning device or an independent pattern recognition device) in each embodiment.
  • the computer 1000 includes a CPU 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
  • the pattern recognition system (may be an independent learning device or an independent pattern recognition device) in each embodiment is implemented in the computer 1000, and the operation is stored in the auxiliary storage device 1003 in the form of a program. .
  • the CPU 1001 reads the program from the auxiliary storage device 1003, expands the program in the main storage device 1002, and executes the operations described in each of the above-described embodiments and their modifications in accordance with the program.
  • the auxiliary storage device 1003 is an example of a non-transitory tangible medium.
  • Other examples of non-transitory tangible media include a magnetic disk, a magneto-optical disk, a CD-ROM (Compact Disk Read Only Memory), a DVD-ROM (Digital Versatile Disk Read Only Memory) connected via the interface 1004, A semiconductor memory and the like are included.
  • the program When the program is distributed to the computer 1000 via a communication line, the computer 1000 that has received the program may load the program into the main storage device 1002 and execute the above-described processing.
  • the program may be for realizing a part of the above-described processing. Furthermore, the program may be a difference program that implements the above-described processing in combination with another program already stored in the auxiliary storage device 1003.
  • Some or all of the components may be realized by a general-purpose or dedicated circuit (processor), a processor, or a combination thereof. These may be configured by a single chip, or may be configured by a plurality of chips connected via a bus. Some or all of the components may be realized by a combination of the above-described circuit and the like and a program.
  • processor general-purpose or dedicated circuit
  • processor processor
  • a combination thereof may be configured by a single chip, or may be configured by a plurality of chips connected via a bus.
  • Some or all of the components may be realized by a combination of the above-described circuit and the like and a program.
  • the plurality of information processing devices, circuits, and the like may be centrally arranged or may be distributed.
  • the information processing device, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client and server system or a cloud computing system.
  • FIG. 14 is a block diagram showing an outline of the learning device of the present invention.
  • the learning device of the present invention includes an acoustic feature extracting unit 82, a language vector calculating unit 83, a similarity calculating unit 84, and a parameter updating unit 85.
  • the acoustic feature extracting unit 82 uses the parameters given in advance to extract the acoustic feature from the acoustic pattern obtained as a result of processing the acoustic signal. (Eg, an acoustic feature vector).
  • the language vector calculation unit 83 (for example, the language vector calculation unit 112, the language vector calculation units 212a, 212b, and 212c) is a label indicating an attribute (for example, an audio event) of a source of an audio signal and corresponds to an audio pattern. Given an attached label, a language vector is calculated from the label.
  • Similarity calculating means 84 calculates the similarity between the acoustic feature and the language vector.
  • the parameter updating unit 85 learns the parameters so as to increase the similarity, and updates the parameters given in advance to the parameters obtained by the learning. I do.
  • FIG. 15 is a block diagram showing an outline of the pattern recognition device of the present invention.
  • the pattern recognition device of the present invention includes an acoustic feature extraction unit 92 and an identification unit 93.
  • the acoustic feature extracting unit 92 (for example, the acoustic feature vector extracting unit 104, the acoustic feature vector extracting units 251a, 251b, and 251c) includes an acoustic pattern obtained as a result of processing the acoustic signal and an attribute of a source of the acoustic signal (for example, An acoustic feature is extracted from the acoustic pattern using a parameter for extracting an acoustic feature (for example, an acoustic feature vector) from the acoustic pattern, which is learned based on a pair with a label indicating the acoustic event.
  • a parameter for extracting an acoustic feature for example, an acoustic feature vector
  • the identification unit 93 (for example, the identification unit 106 or the identification unit 206) identifies a label indicating an attribute of a source of an acoustic signal that is a basis of the acoustic pattern, based on the acoustic feature.
  • an acoustic event can be identified from an acoustic pattern with high accuracy.
  • An acoustic feature extraction unit for extracting an acoustic feature from an acoustic pattern obtained as a result of processing on the acoustic signal using a parameter given in advance;
  • a label indicating the attribute of the source of the acoustic signal, a label associated with the acoustic pattern is given, a language vector calculation means for calculating a language vector from the label, Similarity calculating means for calculating a similarity between the acoustic feature and the language vector,
  • a learning device comprising: a parameter updating unit that learns the parameter so as to increase the similarity and updates a predetermined parameter to a parameter obtained by learning.
  • the label given is a label defined for each hierarchy of source attribute categories, By category hierarchy, Parameter storage means for storing parameters given in advance, Sound feature extraction means; Language vector calculation means, Similarity calculating means; Parameter updating means,
  • the acoustic feature extraction means of the highest hierarchy extracts the acoustic features from the given acoustic pattern using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction means,
  • the acoustic feature extracting means of each layer other than the highest hierarchical level uses the parameters stored in the parameter storage means corresponding to the acoustic feature extracting means, and uses the acoustic feature extracting means of the next higher hierarchy than the acoustic feature extracting means.
  • the language vector calculation means of each layer calculates a language vector from the label of the layer corresponding to the language vector calculation means
  • the similarity calculating means of each hierarchy includes an acoustic feature extracted by the acoustic feature extracting means of the hierarchy corresponding to the similarity calculating means, and a language calculated by the language vector calculating means of the hierarchy corresponding to the similarity calculating means.
  • the parameter updating unit of each layer learns the parameter corresponding to the layer so that the similarity calculated by the similarity calculating unit of the layer corresponding to the parameter updating unit increases, and stores the parameter corresponding to the layer.
  • the learning device wherein the parameter stored in the means is updated to a parameter obtained by learning.
  • the acoustic pattern Sound feature extraction means for extracting sound features from A pattern identification device for identifying, based on the acoustic feature, a label indicating an attribute of a source of an acoustic signal that is a basis of the acoustic pattern.
  • Degree calculation means The pattern recognition device according to claim 4, wherein the identification unit identifies a label indicating an attribute of a source of an acoustic signal that is a basis of the acoustic pattern, based on the similarity calculated for each label.
  • a parameter storage unit that stores parameters learned based on a set of an acoustic pattern obtained as a result of processing on an acoustic signal and a label determined for each layer of the category of the attribute of the source, for each layer,
  • a sound feature extraction means is provided for each layer,
  • the acoustic feature extraction means of the highest hierarchy extracts the acoustic features from the given acoustic pattern using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction means,
  • the acoustic feature extracting means of each layer other than the highest hierarchical level uses the parameters stored in the parameter storage means corresponding to the acoustic feature extracting means, and uses the acoustic feature extracting means of the next higher hierarchy than the acoustic feature extracting means.
  • the pattern recognition device according to Supplementary Note 4 or 5, wherein the identification unit identifies
  • a parameter storage unit that stores parameters learned based on a set of an acoustic pattern obtained as a result of processing on an acoustic signal and a label determined for each layer of the category of the attribute of the source, for each layer,
  • a sound feature extraction means is provided for each layer,
  • the acoustic feature extraction means of the highest hierarchy extracts the acoustic features from the given acoustic pattern using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction means,
  • the acoustic feature extracting means of each layer other than the highest hierarchical level uses the parameters stored in the parameter storage means corresponding to the acoustic feature extracting means, and uses the acoustic feature extracting means of the next higher hierarchy than the acoustic feature extracting means.
  • the similarity calculating means holds a plurality of labels predetermined as candidates for the identification result for each layer, calculates the similarity for each label for each layer, The pattern recognition device according to attachment 5, wherein the identification means identifies the label for each layer.
  • the label given is a label defined for each hierarchy of source attribute categories, Parameter storage means for storing parameters given in advance for each category hierarchy is provided, Computer By category hierarchy, Acoustic feature extraction processing, Language vector calculation processing, Similarity calculation processing, and Execute the parameter update process,
  • the acoustic feature extraction process of the highest hierarchy the acoustic features are extracted from the given acoustic pattern using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction process
  • the acoustic feature extraction process of the next higher hierarchy of the acoustic feature extraction process is performed using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction process.
  • the acoustic features in the hierarchy corresponding to the acoustic feature extraction process are extracted,
  • a language vector is calculated from the label of the layer corresponding to the language vector calculation process,
  • the similarity calculation process of each layer the acoustic feature extracted by the acoustic feature extraction process of the layer corresponding to the similarity calculation process and the language calculated by the language vector calculation process of the layer corresponding to the similarity calculation process Calculate the similarity with the vector
  • the parameter update process of each layer the parameter corresponding to the layer is learned so that the similarity calculated in the similarity calculation process of the layer corresponding to the parameter update process is increased, and the parameter storage corresponding to the layer is performed.
  • the learning method wherein the parameter stored in the means is updated to a parameter obtained by learning.
  • the acoustic pattern Sound feature extraction processing for extracting sound features from A pattern recognition method, comprising: performing an identification process for identifying a label indicating an attribute of a source of an acoustic signal on which the acoustic pattern is based, based on the acoustic feature.
  • a computer including, for each layer, a parameter storage unit that stores parameters learned based on a set of an acoustic pattern obtained as a result of processing on an audio signal and a label determined for each layer of the category of the attribute of the source, Perform acoustic feature extraction processing for each layer, In the acoustic feature extraction process of the highest hierarchy, the acoustic features are extracted from the given acoustic pattern using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction process, In the acoustic feature extraction process of each layer other than the highest hierarchy, the acoustic feature extraction process of the next higher hierarchy of the acoustic feature extraction process is performed using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction process.
  • a computer including, for each layer, a parameter storage unit that stores parameters learned based on a set of an acoustic pattern obtained as a result of processing on an audio signal and a label determined for each layer of the category of the attribute of the source, Perform acoustic feature extraction processing for each layer, In the acoustic feature extraction process of the highest hierarchy, the acoustic features are extracted from the given acoustic pattern using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction process, In the acoustic feature extraction process of each layer other than the highest hierarchy, the acoustic feature extraction process of the next higher hierarchy of the acoustic feature extraction process is performed using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction process.
  • the acoustic features in the hierarchy corresponding to the acoustic feature extraction process are extracted, For each layer, a plurality of predetermined labels are held as candidates for identification results, and in the similarity calculation process, the similarity is calculated for each label for each layer, The pattern recognition method according to attachment 12, wherein a label is identified for each layer in the identification processing.
  • a label indicating the attribute of the source of the acoustic signal, a label associated with the acoustic pattern is provided, and a language vector calculation process of calculating a language vector from the label;
  • the label given is a label defined for each hierarchy of source attribute categories, Computer A parameter storage means for storing parameters given in advance for each category hierarchy, On the computer, By category hierarchy, Acoustic feature extraction processing, Language vector calculation processing, Similarity calculation processing, and Execute the parameter update process, In the acoustic feature extraction processing of the highest hierarchy, using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction processing, the acoustic feature is extracted from the given acoustic pattern, In the acoustic feature extraction process of each layer other than the highest hierarchy, the acoustic feature extraction process of the next higher hierarchy of the acoustic feature extraction process is performed using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction process.
  • the acoustic features in the layer corresponding to the acoustic feature extraction process In the language vector calculation process of each layer, the language vector is calculated from the label of the layer corresponding to the language vector calculation process, In the similarity calculation process of each layer, the acoustic feature extracted by the acoustic feature extraction process of the layer corresponding to the similarity calculation process and the language calculated by the language vector calculation process of the layer corresponding to the similarity calculation process Calculate the similarity with the vector, In the parameter update process of each layer, the parameter corresponding to the layer is learned so that the similarity calculated in the similarity calculation process of the layer corresponding to the parameter update process is increased, and the parameter storage corresponding to the layer is performed.
  • the learning program according to Supplementary note 15, wherein the parameter stored in the means is updated to a parameter obtained by learning.
  • the acoustic pattern Sound feature extraction processing for extracting sound features from A pattern recognition program for executing an identification process for identifying a label indicating an attribute of a generation source of an acoustic signal based on the acoustic pattern based on the acoustic feature.
  • the computer holds a plurality of predetermined labels as candidates for the identification result, On the computer, For each label, calculate a language vector from the label, and execute a similarity calculation process of calculating a similarity between the language vector and the acoustic feature extracted in the acoustic feature extraction process, 18.
  • (Appendix 20) Computer A parameter storage unit that stores parameters learned based on a set of an acoustic pattern obtained as a result of processing on an acoustic signal and a label determined for each layer of the category of the attribute of the source, for each layer, On the computer, The acoustic feature extraction process is executed for each layer, In the acoustic feature extraction processing of the highest hierarchy, using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction processing, the acoustic feature is extracted from the given acoustic pattern, In the acoustic feature extraction process of each layer other than the highest hierarchy, the acoustic feature extraction process of the next higher hierarchy of the acoustic feature extraction process is performed using the parameters stored in the parameter storage means corresponding to the acoustic feature extraction process.
  • the computer is For each layer, a plurality of predetermined labels are held as candidates for identification results, On the computer, In the similarity calculation process, the similarity is calculated for each label for each layer, The pattern recognition program according to Supplementary Note 18, wherein a label is identified for each layer in the identification processing.
  • the present invention relates to a learning apparatus for learning parameters for extracting an acoustic feature from an acoustic pattern obtained as a result of processing an acoustic signal, and a pattern recognition for identifying a source of an acoustic signal based on a given acoustic pattern. It is suitably applied to an apparatus.

Abstract

音響特徴抽出手段82は、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する。言語ベクトル算出手段83は、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する。類似度算出手段84は、音響特徴と言語ベクトルとの類似度を算出する。パラメータ更新手段85は、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新する。

Description

学習装置およびパターン認識装置
 本発明は、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出するためのパラメータを学習する学習装置、学習方法および学習プログラム、並びに、与えられた音響パターンの基となった音響信号の発生源を識別するパターン認識装置、パターン認識方法およびパターン認識プログラムに関する。
 非特許文献1には、受音した音響信号を、予め定義した音響イベントに分類し、分類結果を出力する装置と、音響信号を音響イベントに分類するための識別器の学習方法とが記載されている。
 ここで、「音響信号」とは、機器(例えば、マイクロフォン等)によって収録された音の信号である。
 また、「音響イベント」とは、音響信号の発生源の属性である。
Rui Lu, Zhiyao Duan, "BIDIRECTIONAL GRU FOR SOUND EVENT DETECTION", [online], 2017年,  Detection and Classification of Acoustic Scenes and Event, [2018年8月31日検索]、インターネット、<URL: https://www.cs.tut.fi/sgn/arg/dcase2017/documents/challenge_technical_reports/DCASE2017_Lu_137.pdf>
 音響イベントが異なっていていても、発生した音が類似している場合がある。換言すれば、音響イベントが異なっていていても、音響信号の類似度が高い場合がある。そのような場合、音響イベントの識別精度が低下するという問題がある。例えば、非特許文献1に記載された技術によって、「悲鳴」および「歓声」という2種類の音響イベントのいずれかに音響信号を分類することを考える。「悲鳴」および「歓声」は、異なる音響イベントである。しかし、悲鳴から得られる音響信号も、歓声から得られる音響信号も、人間の大きな声から得られる音響信号であり、類似した音響信号となる。そのため、悲鳴から得られる音響信号から抽出される音響特徴量、および、歓声から得られる音響信号から抽出される音響特徴量も類似したものとなる。その結果、非特許文献1に記載された技術では、悲鳴から得られる音響信号や歓声から得られる音響信号に応じた音響イベントの識別(分類)の精度が低下する。
 そこで、本発明は、与えられた情報から音響イベントを識別するパターン認識装置が音響特徴を抽出する際に用いるパラメータであって、音響イベントの識別精度を向上させることができるパラメータを学習することができる学習装置、学習方法および学習プログラムを提供することを目的とする。
 また、本発明は、与えられた情報から音響イベントを高い精度で識別することができるパターン認識装置、パターン認識方法およびパターン認識プログラムを提供することを目的とする。
 本発明による学習装置は、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出手段と、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する言語ベクトル算出手段と、音響特徴と言語ベクトルとの類似度を算出する類似度算出手段と、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新手段とを備えることを特徴とする。
 本発明によるパターン認識装置は、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出手段と、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別手段とを備えることを特徴とする。
 本発明による学習方法は、コンピュータが、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する言語ベクトル算出処理、音響特徴と言語ベクトルとの類似度を算出する類似度算出処理、および、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行することを特徴とする。
 本発明によるパターン認識方法は、コンピュータが、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行することを特徴とする。
 本発明による学習プログラムは、コンピュータに、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、音響信号の発生源の属性を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する言語ベクトル算出処理、音響特徴と言語ベクトルとの類似度を算出する類似度算出処理、および、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行させることを特徴とする。
 本発明によるパターン認識プログラムは、コンピュータに、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行させることを特徴とする。
 本発明によれば、与えられた情報から音響イベントを識別するパターン認識装置が音響特徴を抽出する際に用いるパラメータであって、音響イベントの識別精度を向上させることができるパラメータを学習することができる。
 また、本発明によれば、与えられた情報から音響イベントを高い精度で識別することができる。
第1の実施形態におけるパターン認識システムの構成例を示すブロック図である。 学習部の構成例を示すブロック図である。 学習部がパラメータを学習する際の処理経過の例を示すフローチャートである。 音響パターンX_* に応じた音響イベントのラベルを識別する際の処理経過の例を示すフローチャートである。 本発明の学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。 本発明のパターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。 第2の実施形態におけるパターン認識システムの構成例を示すブロック図である。 第2の実施形態における学習部の構成例を示すブロック図である。 特徴抽出部の構成例を示すブロック図である。 1つの階層に着目した場合における学習部内のその階層に対応する要素の処理経過の例を示すフローチャートである。 第2の実施形態において、学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。 第2の実施形態において、パターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。 各実施形態におけるパターン認識システムに係るコンピュータの構成例を示す概略ブロック図である。 本発明の学習装置の概要を示すブロック図である。 本発明のパターン認識装置の概要を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 以下の説明では、本発明の学習装置(与えられた情報から音響特徴を抽出するためのパラメータを学習する学習装置)と、本発明のパターン認識装置(与えられた情報に応じた音響イベントを識別するパターン認識装置)とを包含するパターン認識システムを例にして説明する。ただし、本発明の学習装置と、本発明のパターン認識装置とが独立した装置であってもよい。また、上記の「与えられた情報」とは、後述の「音響パターン」を意味する。なお、パターン認識とは、音響パターンに応じた音響イベントを識別することを意味し、パターン認識装置は、識別装置と称することもできる。これらの点は、後述の第2の実施形態でも同様である。
 図1は、第1の実施形態におけるパターン認識システムの構成例を示すブロック図である。第1の実施形態のパターン認識システム100は、学習部101と、言語ベクトルモデル記憶部102と、パラメータ記憶部103と、音響特徴ベクトル抽出部104と、類似度算出部105と、識別部106とを備える。
 学習部101と、言語ベクトルモデル記憶部102と、パラメータ記憶部103とを含む部分が、学習装置に相当する。また、言語ベクトルモデル記憶部102と、パラメータ記憶部103と、音響特徴ベクトル抽出部104と、類似度算出部105と、識別部106とを含む部分が、パターン認識装置に相当する。図1に示す例では、パターン認識システム100内で、学習装置とパターン認識装置とが、言語ベクトルモデル記憶部102と、パラメータ記憶部103とを共有する場合を示している。
 学習部101には、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n との組が入力される。ここで、音響パターンについて説明する。「音響パターン」とは、音響信号に対する処理の結果得られる情報である。例えば、マイクロフォン等の音響センサで収録したアナログ音響信号をAD変換(Analog to Digital Conversion)することによって得られるデジタル信号系列[x(1),・・・,x(T)]や、そのデジタル信号系列[x(1),・・・,x(T)]を短時間フーリエ変換やConstant-Q変換等によって周波数解析した結果として得られる二次元配列を、音響パターンとして用いればよい。ここで、T は、所定の時間幅(例えば、1~10秒程度)であり、検出したい音響イベントの時間幅に対応した値をT として設定すればよい。音響パターンは、ベクトル(一次元配列)であっても、二次元以上の配列であってもよい。音響パターンは、音響信号が有限のベクトルまたは二次元以上の配列になるように音響信号に処理を加えた結果であると言うことができる。
 音響パターンX_n に対応付けられたラベルL_n とは、音響パターンX_n の基となった音響信号の音響イベントを示すラベルであり、文字列で表される。音響イベントは、既に説明したように、音響信号の発生源の属性である。
 音響パターンX_n とラベルL_n との組{X_n, L_n}は、音響イベントが既知である音響信号に基づいて、予め導出されているものとする。
 学習部101には、音響パターンX_n とラベルL_n との組{X_n, L_n}が入力され、学習部101は、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを学習する。ここで、“n ”は、学習データセット(音響パターンとラベルとの組)のインデックス番号である。入力される学習データセットの数をN とすると、n は、1からN までの整数となる。
 パラメータ記憶部103は、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを記憶する記憶装置である。初期状態では、パラメータ記憶部103は、予め定められたパラメータΘの初期値を記憶している。
 学習部101は、入力された音響パターンX_n とラベルL_n との組{X_n, L_n}を用いて、パラメータΘを学習し、パラメータ記憶部103に記憶されているパラメータを、学習によって得たパラメータΘに更新する。
 図2は、学習部101の構成例を示すブロック図である。図2では、学習部101とともに、言語ベクトルモデル記憶部102およびパラメータ記憶部103も図示している。学習部101は、音響特徴ベクトル抽出部111と、言語ベクトル算出部112と、類似度算出部113と、パラメータ更新部114とを含む。
 なお、学習部101内の音響特徴ベクトル抽出部111は、学習装置に相当する部分に含まれるので、パターン認識装置に相当する部分に含まれる音響特徴ベクトル抽出部104(図1参照)とは区別し、図2に示すように符号“111”を用いて表す。同様に、学習部101内の類似度算出部113は、学習装置に相当する部分に含まれるので、パターン認識装置に相当する部分に含まれる類似度算出部105(図1参照)とは区別し、図2に示すように符号“113”を用いて表す。
 音響特徴ベクトル抽出部111は、音響パターンX_n を入力とし、パラメータ記憶部103に記憶されているパラメータΘを用いて、音響パターンX_n から、音響特徴ベクトルz_n を抽出し、その音響特徴ベクトルz_n を出力する。音響パターンから音響特徴ベクトルを抽出するためのパラメータΘは、例えば、ニューラルネットワークのパラメータであるが、他のパラメータであってもよい。また、音響特徴ベクトル抽出部111は、ベクトルまたは二次元以上の配列で表される音響パターンから、パラメータΘを用いて音響特徴ベクトルを抽出する構成であればよい。また、音響特徴ベクトルを抽出する方法は、非特許文献1に記載された方法でも、あるいは、他の方法でもよい。
 言語ベクトルモデル記憶部102は、文字列で表されたラベルからベクトルを算出するためのモデル(以下、言語ベクトルモデルと記す。)を記憶する記憶装置である。また、言語ベクトルモデルに基づいてラベルから算出されたベクトルは、言語ベクトルと称される。
 言語ベクトル算出部112は、音響パターンX_n の基となった音響信号の音響イベントを示すラベルL_n から、言語ベクトルモデルに基づいて、言語ベクトルw_n を算出し、その言語ベクトルw_n を出力する。
 ここで、言語ベクトル算出部112は、2つのラベルの意味が近いほど、その2つのラベルそれぞれから得られた言語ベクトルの距離が小さくなり、2つのラベルの意味が遠いほど、その2つのラベルそれぞれから得られた言語ベクトルの距離が大きくなるように、ラベルから言語ベクトルを算出する。このような言語ベクトルの算出技術として、例えば、“word2vec”、“skip gram”、“GloVe”等の技術を用いてよい。
 例えば、ラベル「悲鳴」とラベル「叫び声」の意味は近い。従って、言語ベクトル算出部112がラベル「悲鳴」から算出した言語ベクトルと、言語ベクトル算出部112がラベル「叫び声」から算出した言語ベクトルとの距離は小さくなる。また、例えば、ラベル「悲鳴」とラベル「歓声」の意味は遠い。従って、言語ベクトル算出部112がラベル「悲鳴」から算出した言語ベクトルと、言語ベクトル算出部112がラベル「歓声」から算出した言語ベクトルとの距離は大きくなる。
 ここで、音響特徴ベクトル抽出部111によって抽出される音響特徴ベクトルz_n の次元数と、言語ベクトル算出部112によって算出される言語ベクトルw_n の次元数とは、等しい必要がある。すなわち、音響特徴ベクトルz_n は、言語ベクトルw_n の次元数と等しい次元数のベクトルである。
 類似度算出部113は、音響特徴ベクトルz_n と言語ベクトルw_n との類似度d(z_n,w_n)を算出し、その類似度を出力する。d(,)は、類似度を求めるための類似度関数である。類似度関数として、例えば、コサイン類似度、平均二乗誤差(MSE:Mean Squared Error)や平均絶対値誤差(MAE:Mean Absolute Error )等の任意の誤差関数が用いられる。
 パラメータ更新部114は、その誤差関数を用いて、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを学習する。
 パラメータ記憶部103が初期状態で記憶しているパラメータΘの初期値は、例えば、乱数やその他のデータから予め学習したパラメータである。
 パラメータ更新部114は、上記の誤差関数に基づいて確率的勾配降下法等のニューラルネットワークの学習方法によって、パラメータΘを学習する。このとき、パラメータ更新部114は、音響パターンX_n から抽出された音響特徴ベクトルz_n と、その音響パターンX_n と組をなすラベルから算出された言語ベクトルw_n との類似度d(z_n,w_n)が大きくなるように、音響パターンから音響特徴ベクトルを抽出するためのパラメータΘを学習する。
 パラメータ更新部114は、パラメータΘを学習すると、パラメータ記憶部103に記憶されているパラメータを、新たに学習したパラメータΘに更新する。
 パラメータ記憶部103に記憶されているパラメータが更新されると、音響特徴ベクトル抽出部111は、更新後のパラメータを用いて、再度、音響特徴ベクトルz_n を抽出する。パラメータΘは、類似度d(z_n,w_n)が大きくなるように学習されている。このパラメータを用いて抽出された音響特徴ベクトルは、ラベルの意味的な距離を算出可能なベクトルと同一空間上のベクトルとして抽出される。そして、この音響特徴ベクトルは、学習時に用いられたラベルとの意味的な距離を反映したベクトルとなっている。
 音響特徴ベクトル抽出部111がパラメータ記憶部103に記憶されているパラメータを用いて音響特徴ベクトルz_n を抽出する処理、類似度算出部113が類似度d(z_n,w_n)を算出する処理、パラメータ更新部114がパラメータΘを学習し、パラメータ記憶部103に記憶されているパラメータを、新たに学習したパラメータΘに更新する処理は、所定の収束条件を満たすまで繰り返される。収束条件として、例えば、上記の処理の繰り返し数が所定数に達したという条件や、類似度d(z_n,w_n)が所定値以上になったという条件等を用いることができる。
 次に、図1に示す音響特徴ベクトル抽出部104、類似度算出部105、識別部106について説明する。なお、パラメータ記憶部103には、学習部101によって学習されたパラメータΘが記憶されているものとする。
 音響特徴ベクトル抽出部104には、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力される。音響特徴ベクトル抽出部104に入力される音響パターンX_* は、音響イベントが不明である音響信号に基づいて、予め導出されているものとする。音響信号に基づいて音響パターンを求める方法の一例については、既に説明しているので、ここでは説明を省略する。
 音響特徴ベクトル抽出部104は、パラメータ記憶部103に記憶されているパラメータΘを用いて、音響パターンX_* から、音響特徴ベクトルz_* を抽出する。音響特徴ベクトル抽出部104がパラメータΘを用いて音響パターンから音響特徴ベクトルを抽出する動作は、音響特徴ベクトル抽出部111(図2参照)がパラメータΘを用いて音響パターンから音響特徴ベクトルを抽出する動作と同様である。
 類似度算出部105は、識別結果の候補として予め定められた音響イベントのラベルを複数個、予め保持している。類似度算出部105は、そのラベル毎に、言語ベクトルモデル記憶部102に記憶されている言語ベクトルモデルに基づいて、ラベルから言語ベクトルを算出する。類似度算出部105は、さらに、そのラベル毎に、算出した言語ベクトルと、音響特徴ベクトル抽出部104によって抽出された音響特徴ベクトルz_* との類似度を算出する。なお、類似度算出部105が言語ベクトルと音響特徴ベクトルとの類似度を算出する動作は、類似度算出部113(図2参照)が言語ベクトルと音響特徴ベクトルとの類似度を算出する動作と同様である。識別結果の候補として予め定められた音響イベントのラベルのインデックス番号をm で表す。識別結果の候補として予め定められた音響イベントのラベルの総数をM とすると、m は、1からM までの整数となる。類似度算出部105によってm 番目のラベルから算出された言語ベクトルをw(m)と記す。
 なお、音響特徴ベクトル抽出部104によって抽出される音響特徴ベクトルz_* の次元数と、類似度算出部105がラベル毎に算出する各言語ベクトルの次元数とは、等しい必要がある。すなわち、音響特徴ベクトルz_* は、類似度算出部105がラベル毎に算出する各言語ベクトルの次元数と等しい次元数のベクトルである。
 類似度算出部105は、ラベル毎に算出した類似度d(z_*,w(m)) を要素とするベクトルR_*(以下、類似度ベクトルR_* と記す。)を生成する。
 例えば、識別結果の候補として予め定められた音響イベントのラベルが、「音楽」、「音声」および「銃声」の3つであったとする。この場合、w(1),w(2),w(3)は、それぞれ、「音楽」から算出された言語ベクトル、「音声」から算出された言語ベクトル、「銃声」から算出された言語ベクトルである。そして、類似度ベクトルR_* は、3つの要素を持つベクトル[d(z_*, w(1)),d(z_*, w(2)),d(z_*, w(3))]と表現される。
 類似度算出部105は、類似度ベクトルR_* を識別部106に送る。
 識別部106は、類似度ベクトルR_* に基づいて、音響パターンX_* に応じた音響イベントのラベルを識別する。識別部106は、例えば、識別結果の候補として予め定められた音響イベントのラベルのうち、類似度ベクトルR_* の要素の中で最大の要素に対応するラベルを、音響パターンX_* に応じた音響イベントのラベルL_* として決定してもよい。
 また、識別結果として1つのラベルL_* を決定するのではなく、識別部106は、類似度ベクトルR_* の個々の要素に対応する個々のラベルを、類似度ベクトルR_* の要素の値の降順にソートし、類似度ベクトルR_* の要素の値の降順にソートした各ラベルを、識別結果として出力してもよい。
 また、識別部106は、類似度ベクトルR_* をサポートベクトルマシンやニューラルネットワーク等の識別器に適用することによって、音響パターンX_* に応じた音響イベントのラベルL_* を識別してもよい。この場合、識別器を、予め、音響パターンX_n とラベルL_n との組等を用いて、予め機械学習によって学習しておけばよい。
 音響特徴ベクトル抽出部111と、言語ベクトル算出部112と、類似度算出部113と、パラメータ更新部114とを含む学習部101は、例えば、学習プログラムに従って動作するコンピュータのCPU(Central Processing Unit )によって実現される。この場合、例えば、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体から学習プログラムを読み込み、学習プログラムに従って、音響特徴ベクトル抽出部111と、言語ベクトル算出部112と、類似度算出部113と、パラメータ更新部114とを含む学習部101として動作すればよい。
 また、音響特徴ベクトル抽出部104、類似度算出部105および識別部106は、例えば、パターン認識プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体からパターン認識プログラムを読み込み、パターン認識プログラムに従って、音響特徴ベクトル抽出部104、類似度算出部105および識別部106として動作すればよい。
 パラメータ記憶部103および言語ベクトルモデル記憶部102は、例えば、コンピュータが備える記憶装置によって実現される。
 次に、第1の実施形態の処理経過について説明する。図3は、学習部101がパラメータΘを学習する際の処理経過の例を示すフローチャートである。既に説明した事項については、詳細な説明を省略する。なお、パラメータ記憶部103は、予め定められたパラメータΘの初期値を記憶しているものとする。
 まず、学習部101に、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n との組が入力される。
 すると、言語ベクトル算出部112は、言語ベクトルモデルに基づいて、ラベルL_n から言語ベクトルw_n を算出する(ステップS1)。
 また、音響特徴ベクトル抽出部111は、パラメータ記憶部103に記憶されているパラメータΘを用いて、入力された音響パターンX_n から音響特徴ベクトルz_n を抽出する(ステップS2)。
 次に、類似度算出部113は、ステップS2で抽出された音響特徴ベクトルz_n と、ステップS1で算出された言語ベクトルw_n との類似度d(z_n,w_n)を算出する(ステップS3)。
 パラメータ更新部114は、類似度算出部113によって算出される類似度d(z_n,w_n)が大きくなるように、パラメータΘを学習し、パラメータ記憶部103に記憶されているパラメータΘを、学習したパラメータΘに更新する(ステップS4)。
 そして、パラメータ更新部114は、収束条件が満たされたか否かを判定する(ステップS5)。収束条件が満たされていない場合(ステップS5のNo)、学習部101は、ステップS2~S5の処理を繰り返す。収束条件が満たされている場合(ステップS5のYes)、学習部101は、パラメータΘの学習を終了する。収束条件の例として、ステップS2~S5の繰り返し数が所定数に達したという条件や、ステップS3で算出された類似度d(z_n,w_n)が所定値以上になったという条件等を用いることができる。
 図4は、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力された場合に、その音響パターンX_* に応じた音響イベントのラベルを識別する際の処理経過の例を示すフローチャートである。既に説明した事項については、詳細な説明を省略する。なお、パラメータ記憶部103は、学習部101によって更新されたパラメータΘを記憶しているものとする。
 まず、音響特徴ベクトル抽出部104に、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力される。
 すると、音響特徴ベクトル抽出部104は、パラメータ記憶部103に記憶されているパラメータΘを用いて、入力された音響パターンX_* から音響特徴ベクトルz_* を抽出する(ステップS11)。
 次に、類似度算出部105は、識別結果の候補として予め定められた音響イベントのラベル毎に、ラベルから言語ベクトルw(m)を算出する。そして、類似度算出部105は、ラベル毎に、音響特徴ベクトルz_* と言語ベクトルw(m)との類似度を算出する(ステップS12)。
 類似度算出部105は、ステップS12でラベル毎に算出した類似度を要素とする類似度ベクトルR_* を生成する(ステップS13)。
 識別部106は、その類似度ベクトルR_* に基づいて、入力された音響パターンX_* に応じた音響イベントのラベルを識別する(ステップS14)。
 本実施形態によれば、パラメータ更新部114は、音響特徴ベクトルz_n と言語ベクトルw_n との類似度d(z_n,w_n)が大きくなるように、パラメータΘを学習し、パラメータ記憶部103に記憶されているパラメータを、学習したパラメータΘに更新する。そして、そのパラメータを用いて音響パターンから抽出される音響特徴ベクトルは、ラベルとの意味的な距離を反映したベクトルとなっている。本実施形態における音響特徴ベクトル抽出部104(図1参照)は、そのような音響特徴ベクトルを抽出することができる。例えば、類似する音響パターンが2つ存在し、一方の音響パターンに対応する音響イベント(Aとする。)と、もう一方の音響パターンに対応する音響イベントとは類似していないとする。この場合、一方の音響パターンから抽出される音響特徴ベクトルは、音響イベントAのラベルとの意味的な距離が小さいベクトルとなり、もう一方の音響パターンから抽出される音響イベントベクトルは、音響イベントAのラベルとの意味的な距離が大きいベクトルになる。このように、音響パターンが類似していたとしても、正解となるラベル応じて異なる音響特徴ベクトルが抽出される。従って、入力された音響パターンX_* から音響イベントのラベルを識別する際の識別精度を高くすることができる。
 従って、本実施形態では、与えられた音響パターンから音響イベントを識別する際の識別精度を向上させることができるパラメータΘを学習することができる。そして、与えられた音響パターンから音響イベントを高い精度で識別することができる。
 次に、第1の実施形態の変形例を説明する。
 上記の第1の実施形態では、パターン認識システム100(図1参照)内におけるパターン認識装置に相当する部分が、類似度算出部105(図1参照)を備える構成を示した。パターン認識システム100が類似度算出部105を備えない構成であってもよい。この場合、類似度算出部105が設けられていないので、類似度ベクトルR_* は生成されなくてよい。
 また、この場合、識別部106は、音響特徴ベクトル抽出部104が音響パターンX_* から抽出した音響特徴ベクトルz_* を識別器に適用することによって、音響パターンX_* に応じた音響イベントのラベルL_* を識別すればよい。この識別器は、音響パターンX_n とラベルL_n との組等を用いて、予め機械学習によって学習しておけばよい。その他の点は、第1の実施形態と同様である。
 この場合でも、音響特徴ベクトルz_* は、ラベルとの意味的な距離を反映したベクトルとなっているので、上記と同様の効果が得られる。
 また、第1の実施形態では、本発明の学習装置と、本発明のパターン認識装置とを包含するパターン認識システム100(図1参照)を示した。本発明の学習装置と、本発明のパターン認識装置とが、それぞれ独立した装置であってもよい。
 図5は、本発明の学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。図1に示す要素と同様の要素については、図1と同一の符号を付し、説明を省略する。学習装置150は、学習部101と、言語ベクトルモデル記憶部102と、パラメータ記憶部103とを備える。学習部101は、図2に示すように、音響特徴ベクトル抽出部111と、言語ベクトル算出部112と、類似度算出部113と、パラメータ更新部114とを含む。これらの各要素は、上記の第1の実施形態で説明した各要素と同様であり、説明を省略する。図5に示す学習装置150によっても、与えられた音響パターンから音響イベントを識別する際の識別精度を向上させることができるパラメータΘを学習することができる。
 図6は、本発明のパターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。図1に示す要素と同様の要素については、図1と同一の符号を付し、説明を省略する。パターン認識装置160は、音響特徴ベクトル抽出部104と、類似度算出部105と、識別部106と、パラメータ記憶部103Sと、言語ベクトルモデル記憶部102とを備える。パラメータ記憶部103Sは、学習装置で学習されたパラメータΘを記憶する記憶装置である。例えば、図5に示す学習装置150で学習され、図5に示すパラメータ記憶部103に記憶されたパラメータを、パターン認識装置160のパラメータ記憶部103Sにコピーすればよい。図6に示すパターン認識装置160によっても、与えられた音響パターンから音響イベントを高い精度で識別することができる。
実施形態2.
 第2の実施形態では、パラメータの学習のために与えられるラベルは、音響イベントのカテゴリの階層毎に定められたラベルである。第2の実施形態では、まず、音響イベントのカテゴリの階層毎に定められたラベルについて、具体例を示して説明する。
 音響イベントとして、(A)「男性の悲鳴」、(B)「男性の歓声」、(C)「女性の悲鳴」、(D)「ギターロック音楽」を考える。この場合、(A),(B),(C)は、広い意味では、全て「人間の声」というカテゴリに該当する。また、(D)は、広い意味では、「音楽」というカテゴリに該当する。また、(A),(B)は、「人間の声」の下位の、「男声」というカテゴリに該当し、(C)は、「人間の声」の下位の、「女声」というカテゴリに該当する。そして、(A)は、「男声」の下位の、「男性の悲鳴」に該当する。また、(D)は、「音楽」の下位の「ロック音楽」に該当し、さらに「ロック音楽」の下位の「ギターロック音楽」に該当する。
 上記の例から分かるように、意味の広さでカテゴリを階層化することができる。カテゴリの意味が広いほど上位の階層となり、カテゴリの意味が狭いほど下位の階層となる。そして、カテゴリの階層毎に、ラベルとなる文字列を定めることができる。従って、音響イベントのカテゴリの階層毎に定められたラベルを、学習に用いるラベルとすることができる。例えば、上記の(A)のラベルL は、L={人間の声、男声、男性の悲鳴}と表すことができる。上記の(B)のラベルL は、L={人間の声、男声、男性の歓声}と表すことができる。上記の(C)のラベルL は、L={人間の声、女声、女性の悲鳴}と表すことができる。上記の(D)のラベルL は、L={音楽、ロック音楽、ギターロック音楽}と表すことができる。第2の実施形態では、このように階層構造を有するラベルを学習に用いる。また、識別結果として得られるラベルも、階層構造を有する。ここでは、階層の数を“3”としたが、任意の粒度で階層の数を定めてもよい。そして、学習に用いるラベルでは、階層毎に、階層に応じた文字列が定められていればよい。また、いずれのラベルでも、カテゴリの階層の数は等しく定められる。
 以下の説明では、ラベルが3階層で表される場合を例にして説明する。すなわち、各ラベルにおいて、カテゴリの階層の数が3である場合を例にして説明する。ただし、階層の数は3に限定されない。
 図7は、第2の実施形態におけるパターン認識システムの構成例を示すブロック図である。第2の実施形態のパターン認識システム200は、学習部201と、言語ベクトルモデル記憶部202と、パラメータ記憶部203a,203b,203cと、特徴抽出部204と、類似度算出部205と、識別部206とを備える。
 学習部201と、言語ベクトルモデル記憶部202と、パラメータ記憶部203a,203b,203cとを含む部分が、学習装置に相当する。また、言語ベクトルモデル記憶部202と、パラメータ記憶部203a,203b,203cと、特徴抽出部204と、類似度算出部205と、識別部206とを含む部分が、パターン認識装置に相当する。図7に示す例では、パターン認識システム200内で、学習装置とパターン認識装置とが、言語ベクトルモデル記憶部202と、パラメータ記憶部203a,203b,203cとを共有する場合を示している。
 学習部201には、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n との組が入力される。このラベルL_n は、階層構造を有するラベルであり、L_n={L_n1,L_n2,L_n3}と表される。L_n1は、最上位階層のラベルであり、L_n2は2番目の階層のラベルであり、L_n3は3番目の階層のラベルである。上位の階層ほど、ラベルの意味が広く、下位の階層ほど、ラベルの意味が狭い。音響パターンX_n とラベルL_n との組{X_n, L_n}は、音響イベントが既知である音響信号に基づいて、予め導出されているものとする。音響信号に基づいて音響パターンを求める方法の一例については、第1の実施形態で既に説明しているので、ここでは説明を省略する。
 学習部201は、カテゴリの階層別に、パラメータを学習する。学習部201の詳細については、後述する。
 パラメータ記憶部203aは、最上位階層に対応するパラメータを記憶する記憶装置である。パラメータ記憶部203bは、2番目の階層に対応するパラメータを記憶する記憶装置である。パラメータ記憶部203cは、3番目の階層に対応するパラメータを記憶する記憶装置である。このように、第2の実施形態では、カテゴリの階層別に、パラメータ記憶部203a,203b,203cが設けられる。
 言語ベクトルモデル記憶部202は、言語ベクトルモデルを記憶する記憶装置である。言語ベクトルモデル記憶部202は、第1の実施形態における言語ベクトルモデル記憶部102と同様である。
 特徴抽出部204には、対応する音響イベントのラベルが不明となっている音響パターンX_* が入力される。そして、特徴抽出部204は、階層別に、音響特徴ベクトルz_*1,z_*2,z_*3を抽出する。特徴抽出部204の詳細については、後述する。
 類似度算出部205は、階層別に抽出された音響特徴ベクトルz_*1,z_*2,z_*3に基づいて、階層別に類似度ベクトルを生成する。
 具体的には、類似度算出部205は、階層別に、識別結果の候補として予め定められた音響イベントのラベルを複数個、予め保持している。そして、類似度算出部205は、階層別に、保持しているラベル毎に、言語ベクトルモデル記憶部202に記憶されている言語ベクトルモデルに基づいて、ラベルから言語ベクトルを算出する。
 さらに、類似度算出部205は、階層別に、ラベル毎に算出したそれぞれの言語ベクトルと、音響特徴ベクトルとの類似度を算出する。そして、類似度算出部205は、階層別に、算出した類似度を要素とする類似度ベクトルを生成する。例えば、類似度算出部205は、最上位階層に対して予め定められていた各ラベルから算出した各言語ベクトルと、最上位階層に対応する音響特徴ベクトルz_*1との類似度をそれぞれ算出し、その類似度を要素とする類似度ベクトルを生成する。類似度算出部205は、他の各階層についても同様に、類似度ベクトルを生成する。
 識別部206は、階層別に生成された各類似度ベクトルに基づいて、階層別にラベルを識別する。個々の階層において、類似度ベクトルに基づいてラベルを識別する方法は、第1の実施形態で説明した方法と同様でよい。
 例えば、識別部206は、類似度ベクトルの要素のうち、最大の要素に対応するラベルを特定する処理を、階層別に行ってもよい。
 また、例えば、識別部206は、類似度ベクトルの個々の要素に対応する個々のラベルを、類似度ベクトルの要素の値の降順にソートし、類似度ベクトルの要素の値の降順にソートした各ラベルを識別結果として定める処理を、階層別に行ってもよい。
 また、例えば、識別部206は、類似度ベクトルを識別器に適用することによってラベルを特定する処理を、階層別に行ってもよい。この場合、識別器は、階層毎に予め学習しておけばよい。
 図8は、第2の実施形態における学習部201の構成例を示すブロック図である。図8では、学習部201とともに、言語ベクトルモデル記憶部202およびパラメータ記憶部203a,203b,203cも図示している。
 学習部201は、階層別に、音響特徴ベクトル抽出部211と、言語ベクトル算出部212と、類似度算出部213と、パラメータ更新部214とを備える。以下、最上位階層に対応する各要素(音響特徴ベクトル抽出部211、言語ベクトル算出部212、類似度算出部213、パラメータ更新部214)は、各符号に添え字“a”を付して表わす。同様に、2番目の階層に対応する各要素は、各符号に添え字“b”を付して表わし、3番目の階層に対応する各要素は、各符号に添え字“c”を付して表わす。
 各階層の音響特徴ベクトル抽出部211は、与えられた音響パターンX_n または1つ上位の階層の音響特徴ベクトル抽出部によって抽出された音響特徴ベクトルから、音響特徴ベクトル抽出部211自身の階層における音響特徴ベクトルを抽出する。
 具体的には、最上位階層の音響特徴ベクトル抽出部211aは、最上位階層におけるパラメータ(パラメータ記憶部203aに記憶されているパラメータ)を用いて、与えられた音響パターンX_n から、音響特徴ベクトルz_n1を抽出する。音響特徴ベクトルz_n1は、最上位階層における音響特徴ベクトルである。音響特徴ベクトル抽出部211aは、音響特徴ベクトルz_n1を、音響特徴ベクトル抽出部211aの階層(最上位階層)における類似度算出部213aに送るとともに、1つ下位の階層の音響特徴ベクトル抽出部211bに送る。
 また、最上位階層以外の各階層の音響特徴ベクトル抽出部211(ここでは、音響特徴ベクトル抽出部211bを例にして説明する。)は、その音響特徴ベクトル抽出部211bの階層におけるパラメータ(パラメータ記憶部203bに記憶されているパラメータ)を用いて、その音響特徴ベクトル抽出部211bの1つ上位の階層の音響特徴ベクトル抽出部211aによって抽出された音響特徴ベクトルz_n1から、その音響特徴ベクトル抽出部211bの階層における音響特徴ベクトルz_n2を抽出する。音響特徴ベクトル抽出部211bは、その音響特徴ベクトルz_n2を、音響特徴ベクトル抽出部211bの階層における類似度算出部213bに送るとともに、1つ下位の階層の音響特徴ベクトル抽出部211cに送る。
 ここでは、最上位階層以外の音響特徴ベクトル抽出部211として、音響特徴ベクトル抽出部211bを例にして説明したが、音響特徴ベクトル抽出部211cの動作も同様である。ただし、1つ下位の階層の音響特徴ベクトル抽出部211が存在しない場合には、1つ下位の階層の音響特徴ベクトル抽出部211に音響特徴ベクトルを送らなくてよい。
 各階層の音響特徴ベクトル抽出部211a,211b,211cは、いずれも、ベクトルまたは二次元以上の配列で表される情報から、音響特徴ベクトルを抽出する構成である。
 各階層の言語ベクトル算出部212は、言語ベクトルモデル記憶部202に記憶されている言語ベクトルモデルに基づいて、与えられたL_n 内のラベルL_n1,L_n2,L_n3のうち、言語ベクトル算出部212自身の階層に対応するラベルから、言語ベクトルを算出する。そして、言語ベクトル算出部212は、その言語ベクトル算出部212の階層における類似度算出部213に言語ベクトルを送る。
 例えば、最上位階層の言語ベクトル算出部212aは、言語ベクトルモデルに基づいて、L_n={L_n1,L_n2,L_n3}におけるL_n1から言語ベクトルを算出し、その言語ベクトルを類似度算出部213aに送る。
 他の階層の言語ベクトル算出部212b,212cの動作も同様である。なお、各階層の言語ベクトル算出部212が言語ベクトルモデルに基づいてラベルから言語ベクトルを算出する動作は、第1の実施形態における言語ベクトル算出部112が言語ベクトルを算出する動作と同様である。
 各階層の類似度算出部213は、類似度算出部213の階層の音響特徴ベクトル抽出部211および言語ベクトル算出部212から送られた音響特徴ベクトルと言語ベクトルとの類似度を算出する。
 例えば、最上位階層の類似度算出部213aは、音響特徴ベクトル抽出部211aから送られた音響特徴ベクトルz_n1と、言語ベクトル算出部212aから送られた言語ベクトルとの類似度を算出する。
 他の階層の類似度算出部213b,213cの動作も同様である。なお、各階層の類似度算出部213が音響特徴ベクトルと言語ベクトルの類似度を算出する動作は、第1の実施形態における類似度算出部113が音響特徴ベクトルと言語ベクトルの類似度を算出する動作と同様である。
 各階層のパラメータ更新部214は、パラメータ更新部214自身の階層の類似度算出部213が算出する類似度(音響特徴ベクトルと言語ベクトルの類似度)が大きくなるように、その階層のパラメータ(音響特徴ベクトルを抽出するためのパラメータ)を学習する。そして、パラメータ更新部214は、その階層のパラメータ記憶部203に記憶されているパラメータを、学習したパラメータに更新する。
 例えば、最上位階層のパラメータ更新部214aは、類似度算出部213aが算出する類似度が大きくなるように、最上位階層のパラメータを学習し、パラメータ記憶部203aに記憶されているパラメータを、学習したパラメータに更新する。
 他の階層のパラメータ更新部214b,214bの動作も同様である。なお、各階層のパラメータ更新部214がパラメータを学習する動作は、第1の実施形態におけるパラメータ更新部214がパラメータを学習する動作と同様である。
 図9は、特徴抽出部204の構成例を示すブロック図である。図9では、特徴抽出部204とともに、パラメータ記憶部203a,203b,203cおよび類似度算出部205も図示している。
 特徴抽出部204は、階層別に、音響特徴ベクトル抽出部251を備える。以下、最上位階層に対応する音響特徴ベクトル抽出部251は、符号“251”に添え字“a”を付して表す。同様に、2番目の階層に対応する音響特徴ベクトル抽出部251は、符号“251”に添え字“b”を付して表し、3番目の階層に対応する音響特徴ベクトル抽出部251は、符号“251”に添え字“c”を付して表わす。
 各階層の音響特徴ベクトル抽出部251は、与えられた音響パターンX_* または1つ上位の階層の音響特徴ベクトル抽出部によって抽出された音響特徴ベクトルから、音響特徴ベクトル抽出部251自身の階層における音響特徴ベクトルを抽出する。
 具体的には、最上位階層の音響特徴ベクトル抽出部251aは、最上位階層におけるパラメータ(パラメータ記憶部203aに記憶されているパラメータ)を用いて、与えられた音響パターンX_* から、音響特徴ベクトルz_*1を抽出する。音響パターンX_* は、対応する音響イベントのラベルが不明となっている音響パターンである。音響特徴ベクトルz_*1は、最上位階層における音響特徴ベクトルである。音響特徴ベクトル抽出部251aは、音響特徴ベクトルz_*1を類似度算出部205に送るとともに、1つ下位の階層の音響特徴ベクトル抽出部251bに送る。
 また、最上位階層以外の各階層の音響特徴ベクトル抽出部251(ここでは、音響特徴ベクトル抽出部251bを例にして説明する。)は、その音響特徴ベクトル抽出部251bの階層におけるパラメータ(パラメータ記憶部203bに記憶されているパラメータ)を用いて、その音響特徴ベクトル抽出部251bの1つ上位の階層の音響特徴ベクトル抽出部251aによって抽出された音響特徴ベクトルz_*1から、その音響特徴ベクトル抽出部251bの階層における音響特徴ベクトルz_*2を抽出する。音響特徴ベクトル抽出部251bは、その音響特徴ベクトルz_*2を類似度算出部205に送るとともに、1つ下位の階層の音響特徴ベクトル抽出部251cに送る。
 ここでは、最上位階層以外の音響特徴ベクトル抽出部251として、音響特徴ベクトル抽出部251bを例にして説明したが、音響特徴ベクトル抽出部251cの動作も同様である。ただし、1つ下位の階層の音響特徴ベクトル抽出部251が存在しない場合には、1つ下位の階層の音響特徴ベクトル抽出部251に音響特徴ベクトルを送らなくてよい。
 音響特徴ベクトル抽出部211a,211b,211cと、言語ベクトル算出部212a,212b,212cと、類似度算出部213a,213b,213cと、パラメータ更新部214a,214b,214cとを含む学習部201は、例えば、学習プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体から学習プログラムを読み込み、学習プログラムに従って、音響特徴ベクトル抽出部211a,211b,211cと、言語ベクトル算出部212a,212b,212cと、類似度算出部213a,213b,213cと、パラメータ更新部214a,214b,214cとを含む学習部201として動作すればよい。
 また、音響特徴ベクトル抽出部251a,251b,251cを含む特徴抽出部204、類似度算出部205および識別部206は、例えば、パターン認識プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、CPUが、コンピュータのプログラム記憶装置等のプログラム記録媒体からパターン認識プログラムを読み込み、パターン認識プログラムに従って、特徴抽出部204、類似度算出部205および識別部206として動作すればよい。
 また、パラメータ記憶部203a,203b,203cおよび言語ベクトルモデル記憶部102は、例えば、コンピュータが備える記憶装置によって実現される。
 次に、第2の実施形態の処理経過について説明する。図10は、1つの階層に着目した場合における学習部201内のその階層に対応する要素の処理経過の例を示すフローチャートである。図10では、最上位階層に着目した場合の例を示している。既に説明した事項については、詳細な説明を省略する。なお、パラメータ記憶部203a,203b,203bは、それぞれ、予め定められたパラメータの初期値を記憶しているものとする。
 また、学習部201には、音響パターンX_n と、その音響パターンX_n に対応付けられたラベルL_n={L_n1,L_n2,L_n3}との組が入力されているものとする。
 言語ベクトル算出部212aは、言語ベクトルモデルに基づいて、最上位階層に対応するラベルL_n1から言語ベクトルを算出する(ステップS21)。
 また、音響特徴ベクトル抽出部211aは、最上位階層に対応するパラメータ(パラメータ記憶部203aに記憶されているパラメータ)を用いて、入力された音響パターンX_n から音響特徴ベクトルz_n1を抽出する(ステップS22)。
 次に、類似度算出部213aは、ステップS22で抽出された音響特徴ベクトルz_n1と、ステップS21で算出された言語ベクトルとの類似度を算出する(ステップS23)。
 パラメータ更新部214aは、類似度算出部213aによって算出される類似度が大きくなるように、パラメータを学習し、パラメータ記憶部203aに記憶されているパラメータを、学習したパラメータに更新する(ステップS24)。
 そして、パラメータ更新部214aは、収束条件が満たされたか否かを判定する(ステップS25)。収束条件が満たされていない場合(ステップS25のNo)、ステップS22~S25の処理を繰り返す。収束条件が満たされている場合(ステップS25のYes)、音響特徴ベクトル抽出部211aは、直近のステップS22で抽出した音響特徴ベクトルz_n1を1つ下位の階層の音響特徴ベクトル抽出部211bに送り(ステップS26)、処理を終了する。
 最上位階層以外の各階層においても、ステップS21~S26と同様の処理が行われる。ただし、最上位階層以外の各階層では、ステップS22に相当する処理として、音響特徴ベクトル抽出部211は、その音響特徴ベクトル抽出部211の階層に対応するパラメータを用いて、その階層よりも1つ上位の階層で抽出された音響特徴ベクトルから、音響特徴ベクトルを抽出する。他の点に関しては、ステップS21~S26と同様である。
 次に、対応する音響イベントのラベルが不明となっている音響パターンX_* に応じた音響イベントのラベルを識別する際の処理経過について説明する。なお、パラメータ記憶部203a,203b,203cはそれぞれ、学習部201によって更新されたパラメータを記憶しているものとする。
 音響パターンX_* が特徴抽出部204に入力されると、最上位階層に対応する音響特徴ベクトル抽出部251aが、最上位階層に対応するパラメータ(パラメータ記憶部203aに記憶されているパラメータ)を用いて、音響パターンX_* から、音響特徴ベクトルz_*1を抽出する。音響特徴ベクトル抽出部251aは、その音響特徴ベクトルz_*1を1つ下位の階層の音響特徴ベクトル抽出部251bに送るとともに、類似度算出部205に送る。
 2番目の階層の音響特徴ベクトル抽出部251bは、その階層に対応するパラメータ(パラメータ記憶部203bに記憶されているパラメータ)を用いて、1つ上位の階層で抽出された音響特徴ベクトルz_*1から、音響特徴ベクトルz_*2を抽出する。音響特徴ベクトル抽出部251bは、その音響特徴ベクトルz_*2を1つ下位の階層の音響特徴ベクトル抽出部251cに送るとともに、類似度算出部205に送る。
 3番目以降の階層の音響特徴ベクトル抽出部251も同様の処理を行う。なお、1つ下位の階層の音響特徴ベクトル抽出部251が存在しない場合には、類似度算出部205に音響特徴ベクトルを送ればよい。図9に示す例では、音響特徴ベクトル抽出部251cは、音響特徴ベクトルz_*2から抽出した音響特徴ベクトルz_*3を類似度算出部205に送ればよい。
 この結果、類似度算出部205は、各階層で抽出された音響特徴ベクトルz_*1,z_*2,z_*3,を得る。この後、類似度算出部205および識別部206(図7参照)は、階層別に、第1の実施形態におけるステップS12~S14(図4参照)と同様の処理を実行すればよい。ステップS12~S14については、第1の実施形態で説明しているので、ここでは説明を省略する。また、階層別に、第1の実施形態におけるステップS12~S14と同様の処理を実行する場合、類似度算出部205および識別部206は、階層毎の処理を並列に実行してもよい。
 第2の実施形態によれば、最上位階層の音響特徴ベクトル抽出部211aによって抽出される音響特徴ベクトルz_n1は、例えば、前述の例における「人間の声」や「音楽」との意味的な違いを捉えた音響特徴ベクトルとなっている。そして、2番目の階層で、その音響特徴ベクトルz_n1から抽出される音響特徴ベクトルz_n2は、例えば、前述の例における「男声」や「女声」との意味的な違いを捉えた音響特徴ベクトルとなっている。
 このように、第2の実施形態では、学習部201において、各層で抽出される音響特徴ベクトルは、異なるラベルが持つ意味的な違いをより際立たせたものとなる。この点は、特徴抽出部204において、各層で抽出される音響特徴ベクトルでも同様である。従って、第2の実施形態では、音響イベントの識別精度をより向上させることができるパラメータを階層別に学習することができる。そして、与えられた音響パターンから音響イベントを、階層別に、より高い精度で識別することができる。
 次に、第2の実施形態の変形例を説明する。第1の実施形態の変形例と同様に、パターン認識システム200(図7参照)が類似度算出部205を備えない構成であってもよい。この場合、類似度算出部205が設けられないので、各階層の類似度ベクトルは生成されない。
 この場合、識別部206は、階層別に、音響特徴ベクトルを識別器に適用することによって、音響イベントのラベルを識別すればよい。例えば、識別部206は、最上位階層の音響特徴ベクトルz_*1を識別器に適用することによって、最上位階層のラベルを識別すればよい。識別部206は、他の各階層に関しても、同様にラベルを識別すればよい。また、識別器は、予め、階層別に機械学習によって学習しておけばよい。その他の点は、第2の実施形態と同様である。
 この場合でも、上記と同様の効果が得られる。
 また、第2の実施形態において、学習装置と、パターン認識装置とが、それぞれ独立した装置であってもよい。
 図11は、第2の実施形態において、学習装置を、パターン認識装置とは別の装置として構成した場合の例を示すブロック図である。図7に示す要素と同様の要素については、図7と同一の符号を付し、説明を省略する。学習装置250は、学習部201と、言語ベクトルモデル記憶部202と、パラメータ記憶部203a,203b,203cとを備える。学習部201は、図8に示すように、階層別に、音響特徴ベクトル抽出部211と、言語ベクトル算出部212と、類似度算出部213と、パラメータ更新部214とを含む。これらの要素は、上記の第2の実施形態で説明した各要素と同様であり、説明を省略する。学習装置250によっても、音響イベントの識別精度をより向上させることができるパラメータを階層別に学習することができる。
 図12は、第2の実施形態において、パターン認識装置を、学習装置とは別の装置として構成した場合の例を示すブロック図である。図7に示す要素と同様の要素については、図7と同一の符号を付し、説明を省略する。パターン認識装置260は、特徴抽出部204と、類似度算出部205と、識別部206を、パラメータ記憶部203Sa,203Sb,203Scと、言語ベクトルモデル記憶部202とを備える。パラメータ記憶部203Sa,203Sb,203Scは、学習装置で学習されたパラメータを記憶する記憶装置である。例えば、学習装置250(図11参照)で学習され、図11に示すパラメータ記憶部203a,203b,203cに記憶されたパラメータをそれぞれ、パターン認識装置260のパラメータ記憶部203Sa,203Sb,203Scにコピーすればよい。また、特徴抽出部204は、図9に示すように、階層別に音響特徴ベクトル抽出部251を含む。パターン認識装置260によっても、与えられた音響パターンから音響イベントを、階層別に、より高い精度で識別することができる。
 なお、既に説明したように、階層の数は3に限定されない。
 また、本発明の各実施形態では、音響信号を例にして説明した。本発明は、振動センサから得られる時系列振動信号等の任意の信号に適用することができる。
 図13は、各実施形態におけるパターン認識システム(独立した学習装置や独立したパターン認識装置であってもよい。)に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004とを備える。
 各実施形態におけるパターン認識システム(独立した学習装置や独立したパターン認識装置であってもよい。)は、コンピュータ1000に実装され、その動作は、プログラムの形式で補助記憶装置1003に記憶されている。CPU1001は、そのプログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、そのプログラムに従って、上記の各実施形態やその変形例で説明した動作を実行する。
 補助記憶装置1003は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disk Read Only Memory )、DVD-ROM(Digital Versatile Disk Read Only Memory )、半導体メモリ等が挙げられる。また、プログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000がそのプログラムを主記憶装置1002に展開し、上記の処理を実行してもよい。
 また、プログラムは、前述の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで前述の処理を実現する差分プログラムであってもよい。
 また、各構成要素の一部または全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
 各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本発明の概要について説明する。図14は、本発明の学習装置の概要を示すブロック図である。本発明の学習装置は、音響特徴抽出手段82と、言語ベクトル算出手段83と、類似度算出手段84と、パラメータ更新手段85とを備える。
 音響特徴抽出手段82(例えば、音響特徴ベクトル抽出部111、音響特徴ベクトル抽出部211a,211b,211c)は、予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴(例えば、音響特徴ベクトル)を抽出する。
 言語ベクトル算出手段83(例えば、言語ベクトル算出部112、言語ベクトル算出部212a,212b,212c)は、音響信号の発生源の属性(例えば、音響イベント)を示すラベルであって、音響パターンに対応付けられたラベルが与えられ、そのラベルから言語ベクトルを算出する。
 類似度算出手段84(例えば、類似度算出部113、類似度算出部213a,213b,213c)は、音響特徴と言語ベクトルとの類似度を算出する。
 パラメータ更新手段85(例えば、パラメータ更新部114、パラメータ更新部214a,214b,214c)は、類似度が大きくなるように、パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新する。
 そのような構成により、音響パターンから音響イベントを識別するパターン認識装置が音響特徴を抽出する際に用いるパラメータであって、音響イベントの識別精度を向上させることができるパラメータを学習することができる。
 また、図15は、本発明のパターン認識装置の概要を示すブロック図である。本発明のパターン認識装置は、音響特徴抽出手段92と、識別手段93とを備える。
 音響特徴抽出手段92(例えば、音響特徴ベクトル抽出部104、音響特徴ベクトル抽出部251a,251b,251c)は、音響信号に対する処理の結果得られる音響パターンと、音響信号の発生源の属性(例えば、音響イベント)を示すラベルとの組に基づいて学習された、音響パターンから音響特徴(例えば、音響特徴ベクトル)を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する。
 識別手段93(例えば、識別部106、識別部206)は、音響特徴に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する。
 そのような構成により、音響パターンから音響イベントを高い精度で識別することができる。
 上記の本発明の各実施形態は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。
(付記1)
 予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出手段と、
 音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出手段と、
 前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出手段と、
 前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新手段とを備える
 ことを特徴とする学習装置。
(付記2)
 与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
 カテゴリの階層別に、
 予め与えられたパラメータを記憶するパラメータ記憶手段と、
 音響特徴抽出手段と、
 言語ベクトル算出手段と、
 類似度算出手段と、
 パラメータ更新手段とを備え、
 最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
 最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
 各階層の言語ベクトル算出手段は、当該言語ベクトル算出手段に対応する階層のラベルから言語ベクトルを算出し、
 各階層の類似度算出手段は、当該類似度算出手段に対応する階層の音響特徴抽出手段によって抽出された音響特徴と、当該類似度算出手段に対応する階層の言語ベクトル算出手段によって算出された言語ベクトルとの類似度を算出し、
 各階層のパラメータ更新手段は、当該パラメータ更新手段に対応する階層の類似度算出手段によって算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
 付記1に記載の学習装置。
(付記3)
 音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
 付記1または付記2に記載の学習装置。
(付記4)
 音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出手段と、
 前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別手段とを備える
 ことを特徴とするパターン認識装置。
(付記5)
 識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出手段によって抽出された音響特徴との類似度を算出する類似度算出手段を備え、
 識別手段は、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
 付記4に記載のパターン認識装置。
(付記6)
 音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
 音響特徴抽出手段を階層別に備え、
 最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
 最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
 識別手段は、階層別にラベルを識別する
 付記4または付記5に記載のパターン認識装置。
(付記7)
 音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
 音響特徴抽出手段を階層別に備え、
 最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
 最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
 類似度算出手段は、階層別に、識別結果の候補として予め定められたラベルを複数個保持し、階層別に、ラベル毎に類似度を算出し、
 識別手段は、階層別にラベルを識別する
 付記5に記載のパターン認識装置。
(付記8)
 音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
 付記5または付記7に記載のパターン認識装置。
(付記9)
 コンピュータが、
 予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
 音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
 前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
 前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行する
 ことを特徴とする学習方法。
(付記10)
 与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
 カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段が設けられ、
 コンピュータが、
 カテゴリの階層別に、
 音響特徴抽出処理、
 言語ベクトル算出処理、
 類似度算出処理、および、
 パラメータ更新処理を実行し、
 最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
 最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
 各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出し、
 各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出し、
 各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
 付記9に記載の学習方法。
(付記11)
 コンピュータが、
 音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
 前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行する
 ことを特徴とするパターン認識方法。
(付記12)
 コンピュータが、
 識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行し、
 識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
 付記11に記載のパターン認識方法。
(付記13)
 音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
 音響特徴抽出処理を階層別に実行し、
 最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
 最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
 識別処理で、階層別にラベルを識別する
 付記11または付記12に記載のパターン認識方法。
(付記14)
 音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
 音響特徴抽出処理を階層別に実行し、
 最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
 最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
 階層別に、識別結果の候補として予め定められたラベルを複数個保持し、類似度算出処理で、階層別に、ラベル毎に類似度を算出し、
 識別処理で、階層別にラベルを識別する
 付記12に記載のパターン認識方法。
(付記15)
 コンピュータに、
 予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
 音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
 前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
 前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理
 を実行させるための学習プログラム。
(付記16)
 与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
 コンピュータは、
 カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段を備え、
 前記コンピュータに、
 カテゴリの階層別に、
 音響特徴抽出処理、
 言語ベクトル算出処理、
 類似度算出処理、および、
 パラメータ更新処理を実行させ、
 最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
 最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
 各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出させ、
 各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出させ、
 各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習させ、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新させる
 付記15に記載の学習プログラム。
(付記17)
 コンピュータに、
 音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
 前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理
 を実行させるためのパターン認識プログラム。
(付記18)
 コンピュータは、識別結果の候補として予め定められたラベルを複数個保持し、
 前記コンピュータに、
 ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行させ、
 識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別させる
 付記17に記載のパターン認識プログラム。
(付記19)
 コンピュータは、
 音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
 前記コンピュータに、
 音響特徴抽出処理を階層別に実行させ、
 最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
 最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
 識別処理で、階層別にラベルを識別させる
 付記17または付記18に記載のパターン認識プログラム。
(付記20)
 コンピュータは、
 音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
 前記コンピュータに、
 音響特徴抽出処理を階層別に実行させ、
 最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
 最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
 前記コンピュータは、
 階層別に、識別結果の候補として予め定められたラベルを複数個保持し、
 前記コンピュータに、
 類似度算出処理で、階層別に、ラベル毎に類似度を算出させ、
 識別処理で、階層別にラベルを識別させる
 付記18に記載のパターン認識プログラム。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
産業上の利用の可能性
 本発明は、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出するためのパラメータを学習する学習装置や、与えられた音響パターンの基となった音響信号の発生源を識別するパターン認識装置に好適に適用される。
 101,201 学習部
 102,202 言語ベクトルモデル記憶部
 103,203a,203b,203c パラメータ記憶部
 104,251a,251b,251c 音響特徴ベクトル抽出部
 105,205 類似度算出部
 106,206 識別部
 111,211a,211b,211c 音響特徴ベクトル抽出部
 112,212a,212b,212c 言語ベクトル算出部
 113,213a,213b,213c 類似度算出部
 114,214a,214b,214c パラメータ更新部
 

Claims (20)

  1.  予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出手段と、
     音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出手段と、
     前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出手段と、
     前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新手段とを備える
     ことを特徴とする学習装置。
  2.  与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
     カテゴリの階層別に、
     予め与えられたパラメータを記憶するパラメータ記憶手段と、
     音響特徴抽出手段と、
     言語ベクトル算出手段と、
     類似度算出手段と、
     パラメータ更新手段とを備え、
     最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
     最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
     各階層の言語ベクトル算出手段は、当該言語ベクトル算出手段に対応する階層のラベルから言語ベクトルを算出し、
     各階層の類似度算出手段は、当該類似度算出手段に対応する階層の音響特徴抽出手段によって抽出された音響特徴と、当該類似度算出手段に対応する階層の言語ベクトル算出手段によって算出された言語ベクトルとの類似度を算出し、
     各階層のパラメータ更新手段は、当該パラメータ更新手段に対応する階層の類似度算出手段によって算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
     請求項1に記載の学習装置。
  3.  音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
     請求項1または請求項2に記載の学習装置。
  4.  音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出手段と、
     前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別手段とを備える
     ことを特徴とするパターン認識装置。
  5.  識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出手段によって抽出された音響特徴との類似度を算出する類似度算出手段を備え、
     識別手段は、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
     請求項4に記載のパターン認識装置。
  6.  音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
     音響特徴抽出手段を階層別に備え、
     最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
     最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
     識別手段は、階層別にラベルを識別する
     請求項4または請求項5に記載のパターン認識装置。
  7.  音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
     音響特徴抽出手段を階層別に備え、
     最上位階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
     最上位階層以外の各階層の音響特徴抽出手段は、当該音響特徴抽出手段に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出手段の1つ上位の階層の音響特徴抽出手段によって抽出された音響特徴から、当該音響特徴抽出手段に対応する階層における音響特徴を抽出し、
     類似度算出手段は、階層別に、識別結果の候補として予め定められたラベルを複数個保持し、階層別に、ラベル毎に類似度を算出し、
     識別手段は、階層別にラベルを識別する
     請求項5に記載のパターン認識装置。
  8.  音響特徴は、言語ベクトルの次元数と等しい次元数のベクトルである
     請求項5または請求項7に記載のパターン認識装置。
  9.  コンピュータが、
     予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
     音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
     前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
     前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理を実行する
     ことを特徴とする学習方法。
  10.  与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
     カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段が設けられ、
     コンピュータが、
     カテゴリの階層別に、
     音響特徴抽出処理、
     言語ベクトル算出処理、
     類似度算出処理、および、
     パラメータ更新処理を実行し、
     最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
     最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
     各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出し、
     各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出し、
     各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習し、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新する
     請求項9に記載の学習方法。
  11.  コンピュータが、
     音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
     前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理を実行する
     ことを特徴とするパターン認識方法。
  12.  コンピュータが、
     識別結果の候補として予め定められたラベルを複数個保持し、ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行し、
     識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する
     請求項11に記載のパターン認識方法。
  13.  音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
     音響特徴抽出処理を階層別に実行し、
     最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
     最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
     識別処理で、階層別にラベルを識別する
     請求項11または請求項12に記載のパターン認識方法。
  14.  音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備えるコンピュータが、
     音響特徴抽出処理を階層別に実行し、
     最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出し、
     最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出し、
     階層別に、識別結果の候補として予め定められたラベルを複数個保持し、類似度算出処理で、階層別に、ラベル毎に類似度を算出し、
     識別処理で、階層別にラベルを識別する
     請求項12に記載のパターン認識方法。
  15.  コンピュータに、
     予め与えられたパラメータを用いて、音響信号に対する処理の結果得られる音響パターンから音響特徴を抽出する音響特徴抽出処理、
     音響信号の発生源の属性を示すラベルであって、前記音響パターンに対応付けられたラベルが与えられ、前記ラベルから言語ベクトルを算出する言語ベクトル算出処理、
     前記音響特徴と前記言語ベクトルとの類似度を算出する類似度算出処理、および、
     前記類似度が大きくなるように、前記パラメータを学習し、予め与えられたパラメータを、学習によって得たパラメータに更新するパラメータ更新処理
     を実行させるための学習プログラム。
  16.  与えられるラベルは、発生源の属性のカテゴリの階層毎に定められたラベルであり、
     コンピュータは、
     カテゴリの階層別に、予め与えられたパラメータを記憶するパラメータ記憶手段を備え、
     前記コンピュータに、
     カテゴリの階層別に、
     音響特徴抽出処理、
     言語ベクトル算出処理、
     類似度算出処理、および、
     パラメータ更新処理を実行させ、
     最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
     最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
     各階層の言語ベクトル算出処理で、当該言語ベクトル算出処理に対応する階層のラベルから言語ベクトルを算出させ、
     各階層の類似度算出処理で、当該類似度算出処理に対応する階層の音響特徴抽出処理で抽出された音響特徴と、当該類似度算出処理に対応する階層の言語ベクトル算出処理で算出された言語ベクトルとの類似度を算出させ、
     各階層のパラメータ更新処理で、当該パラメータ更新処理に対応する階層の類似度算出処理で算出される類似度が大きくなるように、当該階層に対応するパラメータを学習させ、当該階層に対応するパラメータ記憶手段に記憶されているパラメータを、学習によって得たパラメータに更新させる
     請求項15に記載の学習プログラム。
  17.  コンピュータに、
     音響信号に対する処理の結果得られる音響パターンと、前記音響信号の発生源の属性を示すラベルとの組に基づいて学習された、音響パターンから音響特徴を抽出するためのパラメータを用いて、音響パターンから音響特徴を抽出する音響特徴抽出処理、および、
     前記音響特徴に基づいて、前記音響パターンの基となった音響信号の発生源の属性を示すラベルを識別する識別処理
     を実行させるためのパターン認識プログラム。
  18.  コンピュータは、識別結果の候補として予め定められたラベルを複数個保持し、
     前記コンピュータに、
     ラベル毎に、ラベルから言語ベクトルを算出し、当該言語ベクトルと音響特徴抽出処理で抽出された音響特徴との類似度を算出する類似度算出処理を実行させ、
     識別処理で、ラベル毎に算出された前記類似度に基づいて、音響パターンの基となった音響信号の発生源の属性を示すラベルを識別させる
     請求項17に記載のパターン認識プログラム。
  19.  コンピュータは、
     音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
     前記コンピュータに、
     音響特徴抽出処理を階層別に実行させ、
     最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
     最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
     識別処理で、階層別にラベルを識別させる
     請求項17または請求項18に記載のパターン認識プログラム。
  20.  コンピュータは、
     音響信号に対する処理の結果得られる音響パターンと、発生源の属性のカテゴリの階層毎に定められたラベルとの組に基づいて学習されたパラメータを記憶するパラメータ記憶手段を、階層別に備え、
     前記コンピュータに、
     音響特徴抽出処理を階層別に実行させ、
     最上位階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、与えられた音響パターンから音響特徴を抽出させ、
     最上位階層以外の各階層の音響特徴抽出処理で、当該音響特徴抽出処理に対応するパラメータ記憶手段に記憶されたパラメータを用いて、当該音響特徴抽出処理の1つ上位の階層の音響特徴抽出処理で抽出された音響特徴から、当該音響特徴抽出処理に対応する階層における音響特徴を抽出させ、
     前記コンピュータは、
     階層別に、識別結果の候補として予め定められたラベルを複数個保持し、
     前記コンピュータに、
     類似度算出処理で、階層別に、ラベル毎に類似度を算出させ、
     識別処理で、階層別にラベルを識別させる
     請求項18に記載のパターン認識プログラム。
PCT/JP2018/034848 2018-09-20 2018-09-20 学習装置およびパターン認識装置 WO2020059084A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2018/034848 WO2020059084A1 (ja) 2018-09-20 2018-09-20 学習装置およびパターン認識装置
US17/276,192 US11948554B2 (en) 2018-09-20 2018-09-20 Learning device and pattern recognition device
JP2020547549A JP7040628B2 (ja) 2018-09-20 2018-09-20 学習装置およびパターン認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/034848 WO2020059084A1 (ja) 2018-09-20 2018-09-20 学習装置およびパターン認識装置

Publications (1)

Publication Number Publication Date
WO2020059084A1 true WO2020059084A1 (ja) 2020-03-26

Family

ID=69888582

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/034848 WO2020059084A1 (ja) 2018-09-20 2018-09-20 学習装置およびパターン認識装置

Country Status (3)

Country Link
US (1) US11948554B2 (ja)
JP (1) JP7040628B2 (ja)
WO (1) WO2020059084A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021059177A1 (en) 2019-09-25 2021-04-01 Välinge Innovation AB A set of panels comprising a flexing groove

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297495A (ja) * 1995-04-26 1996-11-12 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 信号パターン認識装置の学習方法及び学習装置
JP2004287010A (ja) * 2003-03-20 2004-10-14 National Institute Of Advanced Industrial & Technology 波形認識方法及び装置、並びにプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
WO2015120184A1 (en) * 2014-02-06 2015-08-13 Otosense Inc. Instant real time neuro-compatible imaging of signals
US10381022B1 (en) * 2015-12-23 2019-08-13 Google Llc Audio classifier
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
DE112017001830B4 (de) * 2016-05-06 2024-02-22 Robert Bosch Gmbh Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
US10311863B2 (en) * 2016-09-02 2019-06-04 Disney Enterprises, Inc. Classifying segments of speech based on acoustic features and context
US9886954B1 (en) * 2016-09-30 2018-02-06 Doppler Labs, Inc. Context aware hearing optimization engine
EP3612984A4 (en) * 2017-04-18 2021-03-24 D5A1 Llc MULTI-LEVEL MACHINE LEARNING AND RECOGNITION
US10963781B2 (en) * 2017-08-14 2021-03-30 Microsoft Technology Licensing, Llc Classification of audio segments using a classification network
US11216724B2 (en) * 2017-12-07 2022-01-04 Intel Corporation Acoustic event detection based on modelling of sequence of event subparts

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297495A (ja) * 1995-04-26 1996-11-12 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 信号パターン認識装置の学習方法及び学習装置
JP2004287010A (ja) * 2003-03-20 2004-10-14 National Institute Of Advanced Industrial & Technology 波形認識方法及び装置、並びにプログラム

Also Published As

Publication number Publication date
JP7040628B2 (ja) 2022-03-23
JPWO2020059084A1 (ja) 2021-08-30
US11948554B2 (en) 2024-04-02
US20220028372A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
Chang et al. A personalized music recommendation system using convolutional neural networks approach
EP3477643B1 (en) Audio fingerprint extraction and audio recognition using said fingerprints
US11462210B2 (en) Data collecting method and system
WO2014118978A1 (ja) 学習方法、情報処理装置および学習プログラム
JP2022109867A (ja) 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム
US20180089580A1 (en) Robust classification by pre-conditioned lasso and transductive diffusion component analysis
WO2020059084A1 (ja) 学習装置およびパターン認識装置
WO2017046976A1 (ja) 信号検知装置、信号検知方法、および信号検知プログラム
JP5784075B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム
JP2016122110A (ja) 音響スコア算出装置、その方法及びプログラム
KR101801250B1 (ko) 음악에 적합한 테마를 자동으로 태깅하는 방법 및 시스템
JP6812273B2 (ja) 楽器音認識装置及び楽器音認識プログラム
JP6535591B2 (ja) 画像認識装置及び画像認識装置の動作方法
JP2020160667A (ja) 分類装置、分類方法及び分類プログラム
JP2019021206A (ja) 学習装置、プログラムパラメータ、学習方法およびモデル
Pentapati et al. Robust speaker recognition systems with adaptive filter algorithms in real time under noisy conditions
Eichhoff et al. Musical instrument recognition by high-level features
US20230169977A1 (en) Sound Extraction System and Sound Extraction Method
Agarwal et al. Urban sound classification using machine learning and neural networks
JP6139430B2 (ja) 信号処理装置、方法及びプログラム
JP7023324B2 (ja) マルチメディア信号認識のための電子装置およびその動作方法
KR101864925B1 (ko) 글로벌 모델 기반 오디오 객체 분리 방법 및 시스템
JP7044164B2 (ja) 情報処理装置、情報処理方法、プログラム
US20240020310A1 (en) Information processing device, information processing method and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18933982

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020547549

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18933982

Country of ref document: EP

Kind code of ref document: A1