WO2022176124A1 - 学習装置、推定装置、それらの方法、およびプログラム - Google Patents

学習装置、推定装置、それらの方法、およびプログラム Download PDF

Info

Publication number
WO2022176124A1
WO2022176124A1 PCT/JP2021/006176 JP2021006176W WO2022176124A1 WO 2022176124 A1 WO2022176124 A1 WO 2022176124A1 JP 2021006176 W JP2021006176 W JP 2021006176W WO 2022176124 A1 WO2022176124 A1 WO 2022176124A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
learning
estimation
unit
acoustic
Prior art date
Application number
PCT/JP2021/006176
Other languages
English (en)
French (fr)
Inventor
宏 佐藤
隆朗 福冨
雄介 篠原
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/006176 priority Critical patent/WO2022176124A1/ja
Priority to JP2023500238A priority patent/JPWO2022176124A1/ja
Publication of WO2022176124A1 publication Critical patent/WO2022176124A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Definitions

  • the present invention relates to a learning device that learns an estimation model for estimating whether or not an input signal is a speech uttered toward a predetermined target, an estimation device that estimates using a trained estimation model, a method thereof, and a program. .
  • the input voice is not necessarily the utterance that the user uttered to the agent.
  • an utterance uttered by the user to another person present there, or the sound of a television being played in the background may be input.
  • the user's unintended utterance is input to the dialogue agent, it activates a dialogue scenario, causing the agent to speak even though the agent is not speaking to it, or the phenomenon of retrieving unintended recognition results. Such malfunctions cause poor user experience.
  • Speech segment detection technology exists as a technology for identifying whether an input signal is voice or not. Speech segment detection technology detects only speech segments (voice segments) from an input signal and excludes non-speech segments (non-speech segments). However, although the utterance period detection technology can identify whether or not it is a voice, it cannot identify whether or not it is a voice that should be responded to. In other words, the speech period detection technology cannot identify the voice of the television or the speech directed at another speaker as the voice that should not be responded to.
  • Non-Patent Document 1 is known.
  • Non-Patent Document 1 a smart speaker is assumed, and the presence or absence of utterance intention is identified from the acoustic features obtained from the voice and the linguistic features obtained from the result of recognizing the voice.
  • speech intention means the user's intention to utter a voice toward a predetermined target
  • the presence or absence of the utterance intention means that the voice input to the predetermined target is intentionally directed to the target by the user. It means whether or not it is a voice uttered by
  • the predetermined target can more appropriately achieve the purpose of the target by identifying whether or not the input voice is the voice uttered toward the target. telephone, etc.
  • Non-Patent Document 1 identification is performed using acoustic features and linguistic features of recognition results. correspondence cannot be considered. For example, a part of the linguistic features, such as the input phoneme for a certain word in the recognition result, being too open to be considered as speaking to a machine, is a part of the acoustic features. Precise modeling that considers which part corresponds cannot be performed.
  • An object of the present invention is to provide a learning device that learns a model that can be used, an estimating device that uses the model, a method thereof, and a program.
  • a learning device includes an acoustic signal for learning and a label indicating whether or not the acoustic signal was uttered by a predetermined target. Train an inference model based on the included training data.
  • the learning device uses a feature synchronization unit that obtains a post-synchronization feature by synchronizing an acoustic feature obtained from an acoustic signal for learning and a text feature corresponding to the acoustic signal, and the post-synchronization feature, An utterance intention estimator that estimates whether or not an acoustic signal was uttered by a predetermined target, and updates the parameters of the estimation model based on the labels included in the learning data and the estimation result of the utterance intention estimator. and a parameter updater.
  • an estimating device includes an acoustic signal for learning and whether or not the acoustic signal for learning is uttered by a predetermined target.
  • the estimation is performed based on an estimation model trained in advance using learning data including the label to represent.
  • the estimation device includes a feature synchronization unit that obtains a post-synchronization feature by synchronizing an acoustic feature obtained from an acoustic signal to be estimated and a text feature that corresponds to the acoustic signal to be estimated, and and an utterance intention estimating unit that estimates whether or not the acoustic signal to be estimated is uttered by a predetermined target.
  • the present invention by performing processing while grasping the correspondence between the acoustic sequence and the language sequence, the temporal correspondence existing between the two sequences is taken into consideration, and the utterance intention is estimated more accurately than the conventional technology. It has the effect of being able to
  • FIG. 2 is a functional block diagram of the learning device according to the first embodiment;
  • 4 is a functional block diagram of a model learning unit according to the first embodiment;
  • FIG. The figure which shows the processing flow of the model learning part which concerns on 1st embodiment.
  • FIG. 10 is a diagram showing experimental results of a configuration of Modification 2 and a configuration combining Modifications 1 and 2;
  • FIG. 5 is a functional block diagram of a learning device according to the second embodiment; The figure which shows the processing flow of the learning apparatus which concerns on 2nd embodiment.
  • the functional block diagram of the model learning part which concerns on 2nd embodiment The figure which shows the processing flow of the model learning part which concerns on 2nd embodiment.
  • the functional block diagram of the estimation apparatus which concerns on 2nd embodiment.
  • the functional block diagram of the estimation part which concerns on 2nd embodiment The figure which shows the processing flow of the estimation part which concerns on 2nd embodiment.
  • the confidence level of labeling is also recorded at the same time, and the confidence level is also used during learning, so that model learning considering the reliability of the label is performed. This can reduce the influence of uncertain labels.
  • FIG. 1 shows a configuration example of an estimation system.
  • the estimation system includes a learning device 100 and an estimation device 200.
  • Learning device 100 receives learning data SL as input, learns estimation model ⁇ L based on learning data SL , and outputs learned estimation model ⁇ .
  • the learning data SL includes M acoustic signals s m,L for learning, labels r m,L , and confidence levels c m,L .
  • the confidence c m,L represents the confidence of the annotator (the one who labels the objects) in labeling.
  • the estimation device 200 receives a trained estimation model ⁇ prior to estimation processing.
  • the estimation apparatus 200 receives the acoustic signal s T to be estimated as an input, estimates whether or not the acoustic signal s T is a speech uttered toward a predetermined target based on the estimation model ⁇ , and obtains an estimation result R (utterance output the estimated value of the presence or absence of intention).
  • the learning device and the estimating device are configured by reading a special program into a publicly known or dedicated computer having, for example, a central processing unit (CPU: Central Processing Unit), a main memory (RAM: Random Access Memory), etc. It is a special device.
  • the learning device and the estimating device for example, execute each process under the control of the central processing unit.
  • the data input to the learning device and the estimation device and the data obtained in each process are stored in, for example, a main memory device, and the data stored in the main memory device are read out to the central processing unit as needed. used for other processing.
  • At least a part of each processing unit of the learning device and the estimation device may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the learning device and the estimation device can be configured by, for example, a main storage device such as RAM (Random Access Memory), or middleware such as a relational database or key-value store.
  • a main storage device such as RAM (Random Access Memory), or middleware such as a relational database or key-value store.
  • middleware such as a relational database or key-value store.
  • each storage unit does not necessarily have to be equipped with a learning device and an estimating device. It may be configured to be provided outside the device and the estimation device.
  • FIG. 2 is a functional block diagram of the learning device 100 according to the first embodiment, and FIG. 3 shows its processing flow.
  • the learning device 100 includes a speech recognition unit 110, a feature amount calculation unit 120, and a model learning unit 130.
  • the speech recognition unit 110 receives the acoustic signal s m,L for learning as an input, executes speech recognition (S110), obtains information y m,L based on the speech recognition, and outputs it.
  • the information based on speech recognition includes at least one of speech recognition results and data such as the reliability of the recognition results when speech recognition is executed and the calculation time of speech recognition.
  • the linguistic information of the speech recognition result and data such as the reliability at the time of recognition are used to estimate the presence or absence of the utterance intention.
  • the feature amount calculation unit 120 receives the acoustic signal s m,L and the information y m,L based on the speech recognition, calculates the feature amount om ,L (S120), and outputs it.
  • the feature amount o m,L is used for estimating the presence or absence of speech intention.
  • the subscript A_B means A B.
  • the feature amount o m,L is a vector containing any one or a combination of "acoustic feature amount a m,L “, “text feature amount t m,L “, and “other feature amount v m,L “, and " Acoustic feature quantity a m,L ”, “text feature quantity t m,L ”, and “other feature quantity v m,L ” are vectors each containing one or more elements (feature quantities).
  • Acoustic features include time-series data of known acoustic features such as MFCC (Mel-Frequency Cepstrum Coefficients) and FBANK features calculated for short-time frames, or It is possible to use the values that have undergone processing such as averaging.
  • the acoustic feature amount may be obtained directly from the acoustic signals s m,L, or may be a known acoustic feature amount calculated in the speech recognition processing process of the speech recognition unit 110 . Note that when using a known acoustic feature amount calculated in the speech recognition processing process of the speech recognition unit 110, it is not necessary to accept the acoustic signal sm ,L as an input.
  • word sequences and character sequences are converted into vector sequences by a known method such as word 2 vec. It is what I did. From the speech recognition result and the candidate of the recognition result, it can be estimated whether the utterance is likely to be input to a predetermined target.
  • “Other feature amounts” include feature amounts obtained from acoustic signals s m,L and feature amounts obtained from information y m,L based on speech recognition.
  • Information on audio signal bandwidth or frequency characteristics information such as the bandwidth and frequency characteristics of the input sound can be used. These pieces of information can be obtained using the acoustic signals sm ,L using known techniques. From the audio bandwidth, it can be understood that the input sound is the reproduced sound of a radio, television, or the like.
  • (iv) Information on the validity of an utterance as a command calculated from the speech recognition result can be used.
  • the validity of an utterance as a command is, for example, the maximum degree of matching between each element of a list of commands held by the device and the recognition result.
  • the degree of matching for example, the ratio of words included in the recognition result to the number of words in the command can be used.
  • the command and the recognition result can be vectorized by a known method such as TF-IDF (Term Frequency - Inverse Document Frequency) or bag of words, and the distance can be used.
  • (v) Information on the interpretation difficulty of the input utterance obtained from the speech recognition results The interpretation difficulty of the input utterance obtained from the speech recognition results can be used. The degree of difficulty in interpreting an utterance also captures the characteristics of choosing words that are easy for humans to understand when speaking to a machine. , with or without the omission of particles.
  • the identification performance of the model can be improved.
  • the estimation model is a binary classification model that estimates the presence or absence of the utterance intention from the feature quantity OL, and can be learned using a known deep learning technique.
  • the feature quantity o m,L includes any one or a combination of the “acoustic feature quantity a m,L ”, the “text feature quantity t m,L ”, and the “other feature quantity v m,L ”. is a vector.
  • the feature amount o m,L corresponding to the acoustic signal for one utterance, the utterance intention label r m,L of the utterance, and the confidence degree c m,L of labeling when the utterance intention is labeled Learning can be performed using learning data consisting of
  • the utterance intention identification model predicts not only the predicted label of the utterance intention from the speech of one utterance, but also the confidence level of the annotator's labeling for that data.
  • multi-task learning is performed using a loss function obtained by weighting the sum of the values of the loss function regarding the accuracy of the prediction of the utterance intention and the loss function regarding the prediction error of the annotator's labeling confidence. This enables the model to learn the utterance intention while considering the labeling confidence of the annotator.
  • the utterance intention identification model is the time-series data of the acoustic features a m,L , the time-series data of the text features t m,L , and the other features v m,
  • a DNN Deep Neural Network
  • a DNN that has L time-series data and other non-time-series feature values v m,L as input, and has an estimated value of a label representing the presence or absence of an utterance intention and an estimated value of confidence as an output.
  • time-series features are analyzed using technologies called CNN (Convolutional Neural Network), LSTM (Long Short Term Memory), and Self-Attention.
  • a model that outputs the utterance intention is constructed by a known DNN for the vector that integrates each feature amount.
  • Source Target Attention indicates Source Target Attention with Q as the query, K as the key, and V as the value.
  • Y A + L and Y L + A obtained in this way are integrated with X A and X L by combining or adding them in the feature dimension direction, and DNN such as LSTM is used for them By performing processing, it is possible to create a precise model that captures the temporal correspondence between the two series. For example, when synchronizing a text feature with an acoustic feature, each frame of the acoustic feature is weighted to obtain a frame of the text feature corresponding to the time.
  • the weight may be given by a neural network, or the alignment information of the acoustic feature value sequence and the language sequence obtained by speech recognition may be used as the attention weight. Conversely, when synchronizing the acoustic feature quantity with the text feature quantity, the frame of the acoustic feature quantity corresponding to the time is weighted and obtained for each frame of the text feature quantity.
  • the weight may be given by a neural network, or the alignment information of the acoustic feature value sequence and the language sequence obtained by speech recognition may be used as the attention weight.
  • FIG. 4 shows a functional block diagram of the model learning unit 130
  • FIG. 5 shows an example of its processing flow.
  • the model learning unit 130 includes a feature synchronization unit 139, a label confidence estimation unit 136A, an utterance intention estimation unit 136B, and a parameter update unit 137.
  • Synchronized text features tm ,L are synchronized to obtain post-synchronization features (S139) and output.
  • the feature synchronization unit 139 includes an acoustic feature processing unit 131A, a text feature processing unit 131B, a text feature synchronization unit 132A, an acoustic feature synchronization unit 132B, integration units 133A and 133B, time direction compression units 134A and 134B, and a combination unit 135. including (see FIG. 4), the following processing is performed.
  • the acoustic feature processing unit 131A receives the acoustic feature values a m and L , converts them into data that can be easily processed in the text feature synchronization unit 132A and the integration unit 133A (S131A), and outputs the converted acoustic feature values.
  • the converted acoustic feature quantity is also simply referred to as an acoustic feature quantity.
  • DNN that performs time-series modeling is used to transform acoustic features.
  • the text feature synchronization unit 132A and the integration unit 133A use the acoustic feature amounts a m,L as they are before conversion, the acoustic feature processing unit 131A may not be provided.
  • the text feature processing unit 131B receives the text feature amounts t m,L and converts them into data that can be easily processed in the text feature synchronization unit 132B and integration unit 133B (S131B). Output the text features after conversion.
  • the text feature amount after conversion is also simply referred to as a text feature amount.
  • DNN that performs time-series modeling is used to transform text features.
  • the text feature processing unit 131B may not be provided.
  • the text feature synchronization unit 132A receives the acoustic feature amount and the text feature amount as inputs, synchronizes the text feature amount with the acoustic feature amount (S132A), and associates the text feature amount with each frame of the acoustic feature amount (hereinafter referred to as synchronization Post-text features) are output.
  • Y A+L Source Target Attention (X A ,X L ,X L )
  • a time series Y A+L of text features synchronized with the time series X A of acoustic features is obtained.
  • the audio feature synchronization unit 132B receives the text feature amount and the audio feature amount as input, synchronizes the audio feature amount with the text feature amount (S132B), and generates audio corresponding to each frame (each character or word) of the text feature amount.
  • a feature amount (hereinafter also referred to as a post-synchronization acoustic feature amount) is output.
  • Y L+A Source Target Attention (X L ,X A ,X A )
  • a time series Y L+A of acoustic features synchronized with the time series X L of text features is obtained.
  • the integrator 133A receives the post-synchronization text feature amount and the acoustic feature amount as input, combines these feature amounts (S133A), and outputs them.
  • the integration unit 133B receives the post-synchronization acoustic feature amount and the text feature amount as input, combines these feature amounts (S133B), and outputs them.
  • the integration unit 133A may receive the other feature amounts v m,L as input, combine them with the post-synchronization text feature amount and the acoustic feature amount, and output them.
  • the integration unit 133B may receive other feature amounts v m,L as input, combine them with the post-synchronization acoustic feature amount and the text feature amount, and output them.
  • the integration unit 133A combines the “acoustic feature amount”, the “post-synchronization text feature amount”, and the “other feature amount v m,L ”. are combined in consideration of the time series, and the integration unit 133B combines the "text feature amount”, the "post-synchronization acoustic feature amount”, and the “other feature amount v m,L " in consideration of the time series.
  • the integration unit 133A duplicates the other feature quantity by the number of frames of the acoustic feature quantity, , the integration unit 133B combines the "acoustic feature amount a m,L ", the "post-synchronization text feature amount”, and the “other feature amount”, and the integration unit 133B combines text feature amounts for the number of frames (each character or word), and other The features are duplicated, and the "text features", the “post-synchronization acoustic features” and the “other features” are combined for each frame of the text features tm,L .
  • the temporal compression units 134A and 134B compress the feature quantities output from the integration units 133A and 133B, respectively, in other words, the sound-derived feature quantities, the text-derived feature quantities, and other feature quantities having length in the time direction. It is used as an input, is compressed in the time direction (S134A, S134B), is made into a one-dimensional fixed-length vector, and is output.
  • Various known techniques can be used for compression processing in the time direction, and self-attention pooling, for example, can be used.
  • the time direction summarizing units 134A and 134B may be configured to include a time series model such as LSTM before making a one-dimensional fixed-length vector.
  • the combining unit 135 receives the one-dimensional fixed-length vectors output by the temporal compression units 134A and 134B, combines these vectors (S135), and outputs a post-synchronization feature amount that is the combined vector. .
  • the combining unit 135 receives as input a feature quantity that does not have a dimension in the time-series direction among the other feature quantities v m and L , and the one-dimensional fixed-length vectors output by the time direction compression units 134A and 134B, respectively.
  • a feature quantity that does not have a dimension in the time-series direction may be combined, and a post-synchronization feature quantity that is a vector after the combination may be output.
  • the label confidence estimation unit 136A receives the post-synchronization feature amount as an input, uses the post-synchronization feature amount, estimates the confidence level at the time of labeling based on the label confidence estimation model (S136A), and obtains an estimation result ( label confidence estimate).
  • the label confidence estimation model is a model that receives the post-synchronization feature amount as an input and outputs an estimated value of the label confidence, and is, for example, a DNN.
  • the utterance intention estimation unit 136B receives the post-synchronization feature amount as an input, and uses the post-synchronization feature amount to determine whether or not the acoustic signal for learning is uttered by a predetermined target based on the utterance intention estimation model. Estimate (S136B), and output the estimation result (estimated value of the utterance intention label).
  • the utterance intention estimation model is a model that receives the post-synchronization feature quantity as an input and outputs an estimated value of the utterance intention label, and is, for example, a DNN.
  • the parameter updating unit 137 receives as input the label r m,L and the confidence c m,L included in the learning data SL, the estimated value of the label confidence, and the estimated value of the utterance intention label. Based on this, the parameters of the estimation model are updated (S137).
  • the estimation model is a model that inputs an acoustic feature quantity obtained from an acoustic signal and a text feature quantity corresponding to the acoustic signal, and outputs an estimated value of the utterance intention label of the acoustic signal.
  • the parameter updating unit 137 updates the acoustic feature processing unit 131A so that the label r m,L and the estimated value of the utterance intention label match, and the confidence c m,L and the estimated value of the label confidence match.
  • text feature processing section 131B text feature synchronization section 132A, acoustic feature synchronization section 132B, time direction compression sections 134A and 134B, label confidence estimation section 136A, and speech intention estimation section 136B.
  • the parameter updating unit 137 outputs updated parameters to each unit, and repeats the above-described processes S131A to S136B using the updated parameters.
  • the parameter updating unit 137 outputs the updated parameters as an estimated model ⁇ that includes learned parameters.
  • the convergence condition is a condition for determining whether or not parameter update has converged.
  • the convergence condition is that the number of updates exceeds a predetermined number, or that the difference between parameters before and after updating is less than a predetermined threshold.
  • FIG. 6 is a functional block diagram of the estimation device 200 according to the first embodiment, and FIG. 7 shows its processing flow.
  • the learning device 100 includes a speech recognition unit 210, a feature amount calculation unit 220, and an estimation unit 230.
  • the speech recognition unit 210 receives the acoustic signal s T to be estimated, executes speech recognition (S210), and obtains and outputs information y T based on the speech recognition. For example, the speech recognition unit 210 performs the same speech recognition processing as the speech recognition unit 110 does.
  • the feature quantity calculator 220 receives the acoustic signal s T and the information y T based on speech recognition, calculates the feature quantity o T (S220), and outputs it.
  • the feature amount calculation unit 220 performs feature amount calculation processing similar to that of the feature amount calculation unit 120 .
  • the estimation unit 230 receives the trained estimation model ⁇ prior to the estimation process.
  • the estimation unit 230 receives the feature value oT as an input, estimates the presence or absence of the speech intention using the trained estimation model ⁇ (S230), and outputs an estimation result R.
  • a feature value o T is given as an input to a trained estimation model ⁇ , and an estimation result R of the presence or absence of an utterance intention is obtained as an output.
  • the estimation result R is, for example, a binary label indicating whether or not there is an intention to speak.
  • FIG. 8 shows a functional block diagram of the estimation unit 230
  • FIG. 9 shows an example of its processing flow.
  • the estimation unit 230 includes a feature synchronization unit 239 and an utterance intention estimation unit 236. Furthermore, the feature synchronization unit 239 includes an acoustic feature processing unit 231A, a text feature processing unit 231B, a text feature synchronization unit 232A, an acoustic feature synchronization unit 232B, integration units 233A and 233B, time direction compression units 234A and 234B, and a combining unit 235. include.
  • the feature synchronization unit 239 and the speech intention estimation unit 236 perform the same processes S239 and S236 as the feature synchronization unit 139 and the speech intention estimation unit 136, respectively. Therefore, the acoustic feature processing unit 231A, the text feature processing unit 231B, the text feature synchronization unit 232A, the acoustic feature synchronization unit 232B, the integration units 233A and 233B, the time direction compression units 234A and 234B, and the combination unit 235 in the feature synchronization unit 239 are , an acoustic feature processing unit 131A, a text feature processing unit 131B, a text feature synchronization unit 132A, an acoustic feature synchronization unit 132B, integration units 133A and 133B, time direction compression units 134A and 134B, and a combination unit 135 in the feature synchronization unit 139, respectively. Similar processes S231S to S235 are performed. However, instead of the value based on the feature amount
  • Non-Patent Document 1 when learning a model, correct labels for utterance intentions annotated manually are required.
  • annotating the speech logs of a spoken dialogue interface it is difficult for humans to identify the intention of speaking for some data, so there are cases where inaccurate labels are assigned.
  • the recognition accuracy is lowered by learning with inaccurate labels.
  • labeling is generally performed by multiple annotators and a majority vote is taken. Data cannot be dealt with.
  • estimation processing S230 of the present embodiment may be performed as a post-processing of the speech recognition device and passed to the application together with the recognition hypothesis.
  • the labeling confidence cm,L of the annotator (who labels the object) is used for learning, but in this modified example, the confidence cm,L is not used.
  • the learning data S L includes M acoustic signals s m,L for learning and labels r m,L .
  • Model learning unit 130 does not include label confidence estimation unit 136A.
  • the parameter updating unit 137 receives the label r m,L included in the learning data SL and the estimated value of the utterance intention label, and updates the parameters of the estimation model based on these values (S137). For example, the parameter updating unit 137 updates the acoustic feature processing unit 131A, the text feature processing unit 131B, the text feature synchronization unit 132A, the acoustic feature synchronization unit 132B so that the label r m,L and the estimated value of the utterance intention label match. , the time direction compression units 134A and 134B, and the speech intention estimation unit 136B are updated (S137).
  • the feature amounts calculated by the feature amount calculation units 120 and 220 do not include other feature amounts. Therefore, the integrating units 133A, 133B, 233A, 233B and the integrating units 135, 235 do not integrate and combine other feature amounts.
  • FIG. 10 shows the experimental results of the configuration of Modification 2 and the configuration combining Modifications 1 and 2. In any configuration, it is possible to estimate the utterance intention more accurately than in the prior art.
  • Label confidence estimation unit 136A and utterance intention estimation unit 136B do not necessarily have to use the combined vector as input, and at least one of the vector output from time direction compression unit 134A and the vector output from time direction compression unit 134B. Alternatively, one of them may be used as an input, and an estimated value of the label confidence level and the utterance intention label may be obtained.
  • the post-synchronization feature amount includes at least one of the vector output from the time direction compression section 134A and the vector output from the time direction compression section 134B.
  • the model learning unit 130 may not include the acoustic feature synchronization unit 132B, the integration unit 133B, the time direction compression unit 134B, and the combination unit 135.
  • the acoustic feature synchronization unit 132A, integration unit 133A, time direction compression unit 134A, and combining unit 135 may not be included.
  • the label confidence estimation model receives as input the post-synchronization feature amount including at least one of the vector output by the time direction compression unit 134A and the vector output by the time direction compression unit 134B, and estimates the label confidence.
  • the utterance intention estimation model receives as input the post-synchronization feature amount including at least one of the vector output by the time direction compression unit 134A and the vector output by the time direction compression unit 134B, and estimates the utterance intention label is the output model.
  • the utterance intention estimation unit 236 does not necessarily have to use the combined vector as an input.
  • a configuration may be adopted in which the feature quantity is input and the estimated value of the utterance intention label is obtained.
  • the estimation unit 230 may not include the acoustic feature synchronization unit 232B, the integration unit 233B, the time direction compression unit 234B, and the combination unit 235.
  • the acoustic feature synchronization unit 232A, integration unit 233A, time direction compression unit 234A, and combination unit 235 may not be included.
  • one of the acoustic feature amount and the text feature amount is synchronized with the other, and processing is performed while grasping the correspondence between the acoustic series and the language series, and the same effects as in the first embodiment can be obtained.
  • the vector output from the temporal compression units 134A and 234A that is, the synchronized text feature amount obtained by synchronizing the text feature amount with the acoustic feature amount and the fixed-length vector obtained based on the acoustic feature amount are used. The higher the estimation accuracy, the better.
  • the learning data includes acoustic signals for learning. It is good also as a structure included.
  • the acoustic feature processing 131A and the text feature processing 131B may be performed within the learning device 100 or may be performed by an external device as required. The same applies to the estimating apparatus 200.
  • S210 and S220 may be performed by an external apparatus, and the corresponding acoustic feature amount and text feature amount may be input instead of the acoustic signal to be estimated.
  • FIG. 11 is a functional block diagram of the learning device 100 according to the second embodiment, and FIG. 12 shows its processing flow.
  • the learning device 100 includes a feature amount calculation unit 120 and a model learning unit 130 .
  • the learning device 100 according to the second embodiment does not include the speech recognition section 110 .
  • the feature amount calculator 120 receives the acoustic signal s m,L as an input, calculates the feature amount o m,L (S120), and outputs it.
  • the feature amount o m,L is used for estimating the presence or absence of speech intention.
  • the feature amount o m,L is a vector containing one or a combination of the "acoustic feature amount a m,L “ and the “other feature amount v m,L “, and the “acoustic feature amount a m,L “ and " Other feature quantities v m,L ” are vectors each containing one or more elements (feature quantities).
  • “Other feature amounts” consist only of feature amounts obtained from the acoustic signals sm ,L described in the first embodiment. Further, in the present embodiment, other feature amounts are assumed to be fixed-length vectors.
  • the relationship between acoustic features and output labels can be learned by using known techniques such as LSTM and LSTM with a self-attention mechanism.
  • LSTM and LSTM with a self-attention mechanism For features that hold time-series information, such as MFCC and FBANK features, they are input to a model such as a known LSTM or LSTM with a self-attention mechanism, fixed-length vectorization, and the output vector and the time series
  • a vector that combines feature values that do not hold information on is input to a model such as DNN, and the model is trained to output from 0 to 1 whether the utterance is aimed at the target.
  • FIG. 13 shows a functional block diagram of the model learning unit 130
  • FIG. 14 shows an example of its processing flow.
  • the model learning unit 130 includes an acoustic feature processing unit 131A, a time direction compression unit 134A, a label confidence estimation unit 136A, an utterance intention estimation unit 136B, and a parameter update unit 137.
  • model learning unit 130 includes at least one of coupling units 133C, 133D, and 133E. Furthermore, the model learning unit 130 includes an additional feature amount processing unit 138 as necessary.
  • the additional feature amount processing unit 138 receives the other feature amounts v m,L , converts them into data that can be easily processed in the combining units 133C, 133D, and 133E (S138), and outputs the other feature amounts after conversion. .
  • the other feature amount after conversion is also simply referred to as other feature amount.
  • DNN that performs time series modeling is used to transform other feature quantities.
  • the additional feature value processing unit 138 may not be provided.
  • the combining unit 133C receives the acoustic feature quantities am ,L and other feature quantities as inputs, duplicates the other feature quantities for the number of frames of the acoustic feature quantities am, L , and combines the acoustic feature quantities am ,L . Other feature quantities are combined with each frame (S133C) and output. Note that the acoustic feature amount am,L obtained by combining other feature amounts is also simply referred to as the acoustic feature amount am,L .
  • the acoustic feature processing unit 131A receives the acoustic feature amounts am ,L , converts them into easily processable data in the combining unit 133D or the time direction compression unit 134A (S131A), and outputs the converted acoustic feature amount.
  • the converted acoustic feature quantity is also simply referred to as an acoustic feature quantity.
  • DNN that performs time-series modeling is used to transform acoustic features.
  • the combining unit 133D or the time direction compression unit 134A uses the acoustic feature amount a m,L as it is before conversion, the acoustic feature processing unit 131A may not be provided.
  • the combining unit 133D receives the acoustic feature quantity am ,L and other feature quantities as input, duplicates the other feature quantities for the number of frames of the acoustic feature quantity am, L , and combines the acoustic feature quantities am ,L . Other feature quantities are combined with each frame (S133D) and output. Note that the acoustic feature amount am,L obtained by combining other feature amounts is also simply referred to as the acoustic feature amount am,L .
  • the time direction compression unit 134A compresses the feature amount output from the acoustic feature amount processing unit 131A or the combining unit 133D, in other words, the sound-derived feature amount having length in the time direction, in the time direction (S134A). , into a one-dimensional fixed-length vector and output.
  • the combining unit 135 combines the one-dimensional fixed-length vector output by the temporal compression unit 134A and other feature amounts v m,L (S133E), and outputs the combined vector.
  • the processing in the label confidence estimation unit 136A and the speech intention estimation unit 136B is the same as in the first embodiment.
  • the parameter updating unit 137 receives as input the label r m,L and the confidence c m,L included in the learning data SL, the estimated value of the label confidence, and the estimated value of the utterance intention label. Based on this, the parameters of the estimation model are updated (S137). For example, the parameter updating unit 137 updates the acoustic feature processing unit 131A so that the label r m,L and the estimated value of the utterance intention label match, and the confidence c m,L and the estimated value of the label confidence match. , the time direction compression unit 134A, the label confidence estimation unit 136A, and the speech intention estimation unit 136B are updated (S137).
  • the parameter updating unit 137 outputs updated parameters to each unit, and repeats the above-described processes S138 to S136B using the updated parameters.
  • the parameter updating unit 137 outputs the updated parameters as learned parameters.
  • FIG. 15 is a functional block diagram of the estimation device 200 according to the second embodiment, and FIG. 16 shows its processing flow.
  • the learning device 100 includes a feature quantity calculator 220 and an estimator 230 .
  • the feature amount calculator 220 receives the acoustic signal s T as an input, calculates the feature amount o T (S220), and outputs it.
  • the feature amount calculation unit 220 performs feature amount calculation processing similar to that of the feature amount calculation unit 120 according to the second embodiment.
  • the estimation unit 230 receives the trained estimation model ⁇ prior to the estimation process.
  • the estimating unit 230 receives the feature value oT as an input, estimates the presence or absence of the utterance intention using a trained model (S230), and outputs an estimation result R.
  • a feature value o T is given as an input to a model that has already been trained, and an estimation result R of the presence or absence of an utterance intention is obtained as an output.
  • the estimation result R is, for example, a binary label indicating whether or not there is an intention to speak.
  • FIG. 17 shows a functional block diagram of the estimation unit 230
  • FIG. 18 shows an example of its processing flow.
  • the estimation unit 230 includes an acoustic feature processing unit 231A, a time direction compression unit 234A, and an utterance intention estimation unit 236.
  • It also includes coupling units 133C, 133D, and 133E of the model learning unit 130, coupling units 233C, 233D, and 233E corresponding to the additional feature amount processing unit 138, and an additional feature amount processing unit 238.
  • the acoustic feature processing unit 231A, the time direction compression unit 234A, the utterance intention estimation unit 236, the combining units 233C, 233D, and 233E, and the additional feature amount processing unit 238 are the acoustic feature processing unit 131A and the time direction compression unit 238 according to the second embodiment, respectively.
  • Processing S238 to S236 similar to those of the unit 134A, the utterance intention estimation unit 136B, the combining units 133C, 133D, and 133E, and the additional feature amount processing unit 138 are performed. However, instead of the value based on the feature amount o m,L , each process is performed on the value based on the feature amount o T .
  • the present invention is not limited to the above embodiments and modifications.
  • the various types of processing described above may not only be executed in chronological order according to the description, but may also be executed in parallel or individually according to the processing capacity of the device that executes the processing or as necessary.
  • appropriate modifications are possible without departing from the gist of the present invention.
  • a program that describes this process can be recorded on a computer-readable recording medium.
  • Any computer-readable recording medium may be used, for example, a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, or the like.
  • this program is carried out, for example, by selling, assigning, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded.
  • the program may be distributed by storing the program in the storage device of the server computer and transferring the program from the server computer to other computers via the network.
  • a computer that executes such a program for example, first stores the program recorded on a portable recording medium or the program transferred from the server computer once in its own storage device. Then, when executing the process, this computer reads the program stored in its own recording medium and executes the process according to the read program. Also, as another execution form of this program, the computer may read the program directly from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be executed sequentially. In addition, the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service, which does not transfer the program from the server computer to this computer, and realizes the processing function only by its execution instruction and result acquisition. may be It should be noted that the program in this embodiment includes information that is used for processing by a computer and that conforms to the program (data that is not a direct instruction to the computer but has the property of prescribing the processing of the computer, etc.).
  • ASP
  • the device is configured by executing a predetermined program on a computer, but at least part of these processing contents may be implemented by hardware.
  • processors other than the CPU may execute the program that the CPU reads and executes the software (program) in the above embodiment.
  • Processors in this case include GPUs (Graphics Processing Units), FPGAs (Field-Programmable Gate Arrays), PLDs (Programmable Logic Devices) whose circuit configuration can be changed after manufacturing, and specific circuits such as ASICs (Application Specific Integrated Circuits).
  • a dedicated electric circuit or the like, which is a processor having a circuit configuration exclusively designed for executing the processing of is exemplified.
  • the program may be executed on one of these various processors, or on a combination of two or more processors of the same or different type (eg, multiple FPGAs, CPU and FPGA combinations, etc.) can be run with More specifically, the hardware structure of these various processors is an electric circuit in which circuit elements such as semiconductor elements are combined.
  • a learning device that learns an estimation model based on learning data including an acoustic signal for learning and a label indicating whether or not the acoustic signal was uttered by a predetermined target, memory; at least one processor connected to the memory; including The processor obtaining a post-synchronization feature by synchronizing an acoustic feature obtained from an acoustic signal for learning with a text feature corresponding to the acoustic signal; estimating whether or not the acoustic signal was uttered by a predetermined target using the post-synchronization feature quantity; The parameters of the estimation model are updated based on the label included in the learning data and the estimation result of the speech intention estimation unit.
  • An estimating device memory; at least one processor connected to the memory; including The processor obtaining a post-synchronization feature by synchronizing an acoustic feature obtained from an acoustic signal to be estimated with a text feature corresponding to the acoustic signal to be estimated; estimating whether or not the acoustic signal to be estimated is uttered by a predetermined target using the post-synchronization feature quantity; estimation device.

Abstract

従来技術よりも精度よく発話意図を推定する。学習装置は、学習用の音響信号と、音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データに基づき、推定モデルを学習する。学習装置は、学習用の音響信号から得られる音響特徴量と、音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期部と、同期後特徴量を用いて、音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定部と、学習データに含まれるラベルと、発話意図推定部の推定結果とに基づいて推定モデルのパラメータを更新するパラメータ更新部とを含む。

Description

学習装置、推定装置、それらの方法、およびプログラム
 本発明は、入力信号が所定の対象に向けて発話された音声かどうかを推定する推定モデルを学習する学習装置、学習済みの推定モデルを用いて推定する推定装置、それらの方法、およびプログラムに関する。
 音声対話エージェントにおいて、入力される音声は必ずしもユーザがエージェントに向けて発した発話であるとは限らない。例えばユーザがその場にいる別の人間に向けて発した発話や、背景で再生されているテレビの音声などが入力される場合がある。こうしたユーザの意図しない発話が対話エージェントに入力されると、それによって対話シナリオが起動し、話しかけていないのにエージェントが喋り出す現象や、意図しない認識結果を検索してしまう現象が生じる。こうした誤作動はユーザエクスペリエンス低下の原因となる。
 入力信号が音声か否かを識別する技術として、発話区間検出技術が存在する。発話区間検出技術は入力信号から発話区間(音声区間)のみを検出し、発話していない区間(非音声区間)を除外する。しかし、発話区間検出技術では音声か否かを識別することはできるが、応答すべき音声か否かを識別することはできない。つまり、発話区間検出技術では、テレビの音声や別の話者に向けた発話などを、応答すべきでない音声として識別することはできない。
 応答すべきでない音声を識別する技術として、特に対話ロボットをはじめとする音声対話インターフェースを対象として、入力音声がユーザからロボットに向けられたものであるかどうかを判別し、音声に対して応答をするべきかどうかを識別する技術が存在する。例えば、非特許文献1が知られている。
 非特許文献1ではスマートスピーカを想定し、音声から得られる音響的な特徴と、音声を認識した結果から得られる言語的な特徴とから発話意図の有無を識別する。なお、「発話意図」とは、ユーザが所定の対象に向けて音声を発する意図を意味し、発話意図の有無とは、所定の対象に入力された音声が、ユーザが意図して対象に向けて発した音声であるか否かを意味する。ここで、所定の対象とは、入力された音声が対象に向けて発した音声か否かを識別することで、より適切に対象の目的を達することができるものであり、例えば、対話システムや電話等である。
Mallidi, S. H., Maas, R., Goehner, K., Rastrow, A., Matsoukas, S., & Hoffmeister, B., "Device-directed utterance detection", arXiv preprint arXiv:1808.02504., 2018.
 非特許文献1では、音響的な特徴と認識結果の言語的な特徴とを用いて識別を行うが、音響特徴と言語特徴は別々にモデル化されており、両者の系列間に存在する時間的な対応関係は考慮できない。例えば、認識結果のある単語に対して、入力された音韻が、機械に話しかけているにしては打ち解けすぎている、などのように言語的な特徴量のある一部分が、音響的な特徴量のどの部分に対応するかを考慮した精緻なモデル化ができない。
 本発明は、音響系列と言語系列の対応関係を捉えながら処理を行うことで、両者の系列間に存在する時間的な対応関係を考慮し、従来技術よりも精度よく発話意図を推定することができるモデルを学習する学習装置、モデルを用いた推定装置、それらの方法、プログラムを提供することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、学習装置は、学習用の音響信号と、音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データに基づき、推定モデルを学習する。学習装置は、学習用の音響信号から得られる音響特徴量と、音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期部と、同期後特徴量を用いて、音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定部と、学習データに含まれるラベルと、発話意図推定部の推定結果とに基づいて推定モデルのパラメータを更新するパラメータ更新部とを含む。
 上記の課題を解決するために、本発明の他の態様によれば、推定装置は、学習用の音響信号と、学習用の音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データを用いて予め学習された推定モデルに基づき推定を行う。推定装置は、推定対象の音響信号から得られる音響特徴量と、推定対象の音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期部と、同期後特徴量を用いて、推定対象の音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定部とを含む。
 本発明によれば、音響系列と言語系列の対応関係を捉えながら処理を行うことで、両者の系列間に存在する時間的な対応関係が考慮し、従来技術よりも精度よく発話意図を推定することができるという効果を奏する。
第一実施形態に係る推定システムの構成例を示す図。 第一実施形態に係る学習装置の機能ブロック図。 第一実施形態に係る学習装置の処理フローを示す図。 第一実施形態に係るモデル学習部の機能ブロック図。 第一実施形態に係るモデル学習部の処理フローを示す図。 第一実施形態に係る推定装置の機能ブロック図。 第一実施形態に係る推定装置の処理フローを示す図。 第一実施形態に係る推定部の機能ブロック図。 第一実施形態に係る推定部の処理フローを示す図。 変形例2の構成、変形例1と変形例2とを組合せた構成の実験結果を示す図。 第二実施形態に係る学習装置の機能ブロック図。 第二実施形態に係る学習装置の処理フローを示す図。 第二実施形態に係るモデル学習部の機能ブロック図。 第二実施形態に係るモデル学習部の処理フローを示す図。 第二実施形態に係る推定装置の機能ブロック図。 第二実施形態に係る推定装置の処理フローを示す図。 第二実施形態に係る推定部の機能ブロック図。 第二実施形態に係る推定部の処理フローを示す図。 本手法を適用するコンピュータの構成例を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
(1)音響的な特徴と認識結果の言語的な特徴の両者を時系列上で対応付けながらモデル化することで、より精緻なモデル化を行い、従来のモデルより精度の高い推定を行う。
(2)発話意図のラベリングをする際に、ラベリングの自信度も同時に記録し、自信度も学習時に利用することで、ラベルの信頼性を考慮したモデル学習を行う。これにより、不確実なラベルの影響を低減することができる。
(3)特徴量として、従来考慮されていなかった音源の放射方向や直間比などに着目した新規の特徴量や、所定の対象に入力される発話としての妥当性に関連した新規の特徴量を導入することで、発話意図の有無をより明示的に捉えることができる。
<第一実施形態に係る推定システム>
 図1は推定システムの構成例を示す。
 推定システムは、学習装置100と推定装置200とを含む。
 学習装置100は、学習データSLを入力とし、学習データSLに基づき、推定モデルΘLを学習し、学習済みの推定モデルΘを出力する。なお、学習データSLには、学習用のM個の音響信号sm,Lと、ラベルrm,Lと、自信度cm,Lとが含まれる。
SL=((s1,L,r1,L,c1,L),(s2,L,r2,L,c2,L),…,(sM,L,rM,L,cM,L))
ラベルrm,Lはm番目の学習用の音響信号sm,Lが所定の対象に対して発話されたものか否か(発話意図の有無)を表し、例えばrm,L=0は発話意図が無いことを意味し、rm,L=1は発話意図が有ることを意味する。自信度cm,Lは、アノテータ(対象にラベル付けを行うもの)のラベル付与の自信度を表す。
 推定装置200は、推定処理に先立ち学習済みの推定モデルΘを受け取る。推定装置200は、推定対象の音響信号sTを入力とし、推定モデルΘに基づき、音響信号sTが所定の対象に向けられて発話された音声か否かを推定し、推定結果R(発話意図の有無の推定値)を出力する。
 学習装置および推定装置は、例えば、中央演算処理装置(CPU:Central Processing Unit)、主記憶装置(RAM:Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置および推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および推定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置および推定装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置および推定装置の外部に備える構成としてもよい。
 まず、学習装置100について説明する。
<第一実施形態に係る学習装置100>
 図2は第一実施形態に係る学習装置100の機能ブロック図を、図3はその処理フローを示す。
 学習装置100は、音声認識部110、特徴量算出部120、モデル学習部130を含む。
 各部について説明する。
<音声認識部110>
 音声認識部110は、学習用の音響信号sm,Lを入力とし、音声認識を実行し(S110)、音声認識に基づく情報ym,Lを得、出力する。音声認識に基づく情報は、音声認識結果および、音声認識を実行した際の認識結果の信頼度や音声認識の計算時間などのデータの少なくとも何れかを含む。こうした音声認識結果の言語的な情報や、認識時の信頼度などのデータは、発話意図の有無を推定するために用いられる。
<特徴量算出部120>
 特徴量算出部120は、音響信号sm,Lおよび音声認識に基づく情報ym,Lを入力とし、特徴量om,Lを算出し(S120)、出力する。特徴量om,Lは、発話意図の有無を推定するために用いられる。例えば、m番目の発話の特徴量om,Lは、Nm個の特徴量om,L,nを含むものとし、n=1,2,…,Nm、om,L=(om,L,1,…,om,L,N_m)とする。ただし、下付き添え字A_BはABを意味する。
 特徴量om,Lは「音響特徴量am,L」と「テキスト特徴量tm,L」と「その他の特徴量vm,L」とのいずれかあるいは組み合わせを含むベクトルであり、「音響特徴量am,L」と「テキスト特徴量tm,L」と「その他の特徴量vm,L」はそれぞれ1つ以上の要素(特徴量)を含むベクトルである。
 「音響特徴量」としては短時間のフレームに対して算出されたMFCC(Mel-Frequency Cepstrum Coefficients)やFBANK特徴量などの公知の音響特徴量の、時系列データ、あるいはそれらに対して時間方向に平均を取るなどの処理を施したものを利用することができる。音響特徴量は、音響信号sm,Lから直接求めてもよいし、音声認識部110の音声認識の処理過程で算出される公知の音響特徴量を利用してもよい。なお、音声認識部110の音声認識の処理過程で算出される公知の音響特徴量を利用する場合には、音響信号sm,Lを入力として受け付けなくともよい。
 「テキスト特徴量」としては音声認識に基づく情報ym,Lに含まれる音声認識結果や認識結果の候補に対して、単語系列や文字の系列をword 2 vecなどの公知の手法でベクトル系列化したものである。音声認識結果や認識結果の候補からは、当該発話が所定の対象に入力されやすいものであるかどうかを推定することができる。
 「その他の特徴量」は、音響信号sm,Lから得られる特徴量と、音声認識に基づく情報ym,Lから得られる特徴量とがある。
 音響信号sm,Lから得られる「その他の特徴量」として、以下の(i),(ii)が考えられる。
 (i)音源の位置あるいは方向、音源までの距離に関する情報:入力音から公知の手法で算出される音源の位置あるいは方向、また入力音から公知の方法で算出される直間比のような遠近感の情報(音源までの距離)を利用できる。加えてこれらの時間変動を特徴量として利用できる。例えば音声から得られる直間比からは音源の遠さを捉えることができ発話意図の推定に有用である。複数チャネルの音声が得られる場合は、精密に音源の距離や方向、音源からの音の放射方向の情報を算出可能である。さらに音源の距離や方向の情報は時間変動を見ることで音源位置に揺らぎがある人間の発話か、固定されたテレビやスピーカー等の音源かを判別できる。
 (ii)音響信号帯域幅または周波数特性に関する情報:入力音の帯域幅や周波数特性などの情報を利用できる。これらの情報は、公知の技術を利用して音響信号sm,Lを用いて求めることができる。音声の帯域幅からは入力音がラジオやテレビなどの再生音であることを捉えることができる。
 音声認識に基づく情報ym,Lから得られる「その他の特徴量」として、以下の(iii)~(v)が考えられる。
 (iii)音声認識結果の信頼度または音声認識の計算時間に関する情報:音声認識に基づく情報ym,Lに含まれる音声認識結果の信頼度や音声認識の計算時間などの情報を利用することができる。発話意図のない発話は一般に音声認識が困難であることから音声認識の信頼度などの情報も特徴量として有用である。
 (iv)音声認識結果から計算される発話のコマンドとしての妥当性に関する情報:音声認識結果から計算される発話のコマンドとしての妥当性などを利用することができる。発言のコマンドとしての妥当性とは、例えばデバイスの持つコマンドのリストの各要素と、認識結果との一致度合いの最大値とする。一致度合いとして例えばコマンドの単語数のうち認識結果に含まれた割合を採用することができる。又はコマンドと認識結果それぞれをTF-IDF(Term Frequency - Inverse Document Frequency)やbag of wordsなど公知の手法でベクトル化したものの距離とすることができる。
 (v)音声認識結果から得られる入力発話の解釈難度に関する情報:音声認識結果から得られる入力発話の解釈難度などを利用することができる。発言の解釈難度は人間が機械にむけて発話する際にわかりやすい言葉を選ぶ特性も捉えるもので、例えば単語数に表れる発話の長さや、認識結果を構文解析した結果から得られる、指示代名詞の有無、助詞の省略の有無とすることができる。
 これらの特徴の一部あるいは組み合わせを「その他の特徴量」として利用できる。
 以上の特徴量をモデル学習部130に入力することで、モデルの識別性能を高めることができる。
<モデル学習部130>
 モデル学習部130は、学習データSLに含まれるラベルrm,Lと自信度cm,Lと特徴量OL=(o1,L,o2,L,…,oM,L)を入力とし、これらの情報を用いて推定モデルΘLを学習し(S130)、学習済みの推定モデルΘを出力する。推定モデルは特徴量OLから発話意図の有無を推定する2値分類モデルであり、公知の深層学習技術を用いて学習することができる。前述の通り、特徴量om,Lは、「音響特徴量am,L」と「テキスト特徴量tm,L」と「その他の特徴量vm,L」とのいずれかあるいは組み合わせを含むベクトルである。
 本実施形態では、1発話分の音響信号に対応する特徴量om,Lと、その発話の発話意図ラベルrm,Lと、発話意図のラベリングを行う際にラベリングの自信度cm,Lとからなる学習データを用いて学習を行うことができる。この場合、発話意図の識別モデルは、1発話の音声から発話意図の予測ラベルだけでなく、同時にそのデータに対するアノテータのラベリングの自信度も予測を行う。学習時には、発話意図の予測の正誤に関する損失関数と、アノテータのラベリング自信度の予測誤差に関する損失関数の値を重み付け和したものを損失関数とするマルチタスク学習を実施する。これにより、モデルはアノテータのラベリング自信度を考慮しつつ発話意図の学習を行うことができるようになる。
 発話意図の識別モデルは、特徴量算出部120で算出された、音響特徴量am,Lの時系列データ、またテキスト特徴量tm,Lの時系列データ、またその他の特徴量vm,Lの時系列データ、また時系列ではないその他の特徴量vm,Lを入力に持ち、発話意図の有無を表すラベルの推定値と自信度の推定値を出力に持つDNN(Deep Neural Network)のモデルである。このうち時系列の特徴量については、CNN(Convolutional Neural Network)やLSTM(Long Short Term Memory)、Self - Attentionと呼ばれる技術を用いることで、長時間の系列の関連性を考慮しながら、時系列の長さによらない固定長のベクトルに変換することができる。時系列方向の次元を持たないもともと固定長の特徴量については、例えば時系列方向の情報を持つ特徴量の各時刻と結合したり、時系列方向の情報を持つベクトルを固定長化した後で結合したりすることで統合を行うことができる。各特徴量を統合したベクトルに対して公知のDNNによって発話意図を出力するモデルを構築する。
 特に、音響特徴量の時系列データとテキスト特徴量の時系列データについては両者の間に時間的な対応関係が存在することから、これを考慮しつつモデル化を行うことで、より精緻に発話意図の有無を捉えることができる。これらを固定長化する際にこれを実現するために、与えられた発話意図ラベルから発話意図の識別を学習するのと同時に、両時系列データの時間的な対応関係を捉えることのできるモデル化手法を採用することが有効である。これには、例えば参考文献1のSource Target Attentionと呼ばれるNW構造を採用してもよい。
(参考文献1)Dzmitry  Bahdanau,  Kyunghyun  Cho,  and  Yoshua  Bengio,"Neural machine translation by jointly learning to align andtranslate", inInternational Conference on Learning Represen-tations (ICLR), 2015
 具体的には、音響系列、言語系列それぞれをLSTMなどのDNNで処理した時系列XA、XLに対して、
YA+L=Source Target Attention (XA,XL,XL)
YL+A=Source Target Attention (XL,XA,XA)
とあらわされる処理を行うことで、音響特徴量系列と同期した言語特徴量系列YA+Lおよび言語特徴量系列と同期した音響特徴量系列YL+Aを得ることができる。ただしここでSource Target Attention (Q,K,V)とはQをクエリ、Kをキー、VをバリューとするSource Target Attentionを示す。こうして得られたYA+L、YL+Aを例えばそれぞれXA、XLと特徴次元方向に結合したり、加算したりすることで統合し、それらに対してLSTMをはじめとするDNNで処理を行うことで、両者の系列の時間的な対応関係を捉える精緻なモデル化が可能である。例えば、音響特徴量にテキスト特徴量を同期させる場合、音響特徴量の各フレームに対し、その時刻に対応するテキスト特徴量のフレームを重み付けて取得する。なお、重みは、ニューラルネットワークにより与えるか、または、音声認識によって得られた音響特徴量系列と言語系列のアラインメント情報をattentionの重みとして利用してもよい。逆に、テキスト特徴量に音響特徴量を同期させる場合、テキスト特徴量の各フレームに対し、その時刻に対応する音響特徴量のフレームを重み付けて取得する。なお、重みは、ニューラルネットワークにより与えるか、または、音声認識によって得られた音響特徴量系列と言語系列のアラインメント情報をattentionの重みとして利用してもよい。
 上述の処理を実現するモデル学習部130の構成について説明する。
 図4はモデル学習部130の機能ブロック図を、図5はその処理フローの例を示す。
 モデル学習部130は、特徴同期部139、ラベル自信度推定部136A、発話意図推定部136Bおよびパラメータ更新部137を含む。
<特徴同期部139>
 特徴同期部139は、特徴量OL=(o1,L,o2,L,…,oM,L)を入力とし、音響特徴量am,Lと、音響信号am,Lに対応するテキスト特徴量tm,Lとを同期させることによって同期後特徴量を得(S139)、出力する。例えば、特徴同期部139は、音響特徴処理部131A、テキスト特徴処理部131B、テキスト特徴同期部132A、音響特徴同期部132B、統合部133A,133B、時間方向圧縮部134A,134Bおよび結合部135を含み(図4参照)、以下の処理を行う。
<音響特徴処理部131A>
 音響特徴処理部131Aは、音響特徴量am,Lを入力とし、テキスト特徴同期部132Aおよび統合部133Aにおいて、処理しやすいデータに変換し(S131A)、変換後の音響特徴量を出力する。なお、変換後の音響特徴量を単に音響特徴量ともいう。例えば、時系列モデリングを行うDNNを用いて、音響特徴量を変換する。ただし、テキスト特徴同期部132Aおよび統合部133Aが変換前の音響特徴量am,Lをそのまま用いる場合には、音響特徴処理部131Aを設けなくともよい。
<テキスト特徴処理部131B>
 テキスト特徴処理部131Bは、テキスト特徴量tm,Lを入力とし、テキスト特徴同期部132Bおよび統合部133Bにおいて、処理しやすいデータに変換し(S131B)。変換後のテキスト特徴量を出力する。なお、変換後のテキスト特徴量を単にテキスト特徴量ともいう。例えば、時系列モデリングを行うDNNを用いて、テキスト特徴量を変換する。ただし、テキスト特徴同期部132Bおよび統合部133Bが変換前のテキスト特徴量tm,Lをそのまま用いる場合には、テキスト特徴処理部131Bを設けなくともよい。
<テキスト特徴同期部132A>
 テキスト特徴同期部132Aは、音響特徴量とテキスト特徴量とを入力とし、音響特徴量にテキスト特徴量を同期させ(S132A)、音響特徴量の各フレームに対応付けたテキスト特徴量(以下、同期後テキスト特徴量ともいう)を出力する。例えば、音響特徴量の時系列、テキスト特徴量の時系列それぞれをLSTMなどのDNNで処理した時系列XA、XLに対して、
YA+L=Source Target Attention (XA,XL,XL)
とあらわされる処理を行うことで、音響特徴量の時系列XAと同期したテキスト特徴量の時系列YA+Lを得る。
<音響特徴同期部132B>
 音響特徴同期部132Bは、テキスト特徴量と音響特徴量とを入力とし、テキスト特徴量に音響特徴量を同期させ(S132B)、テキスト特徴量の各フレーム(各文字や単語)に対応付けた音響特徴量(以下、同期後音響特徴量ともいう)を出力する。例えば、音響特徴量の時系列、テキスト特徴量の時系列それぞれをLSTMなどのDNNで処理した時系列XA、XLに対して、
YL+A=Source Target Attention (XL,XA,XA)
とあらわされる処理を行うことで、テキスト特徴量の時系列XLと同期した音響特徴量の時系列YL+Aを得る。
<統合部133A,133B>
 統合部133Aは、同期後テキスト特徴量と音響特徴量とを入力とし、これらの特徴量を結合し(S133A)、出力する。
 統合部133Bは、同期後音響特徴量とテキスト特徴量とを入力とし、これらの特徴量を結合し(S133B)、出力する。
 統合部133Aは、その他の特徴量vm,Lを入力とし、同期後テキスト特徴量と音響特徴量と結合し、出力してもよい。同様に、統合部133Bは、その他の特徴量vm,Lを入力とし、同期後音響特徴量とテキスト特徴量と結合し、出力してもよい。
 なお、その他の特徴量vm,Lが時間方向に長さを持つ場合には、統合部133Aは「音響特徴量」と「同期後テキスト特徴量」と「その他の特徴量vm,L」とを時系列を考慮して結合し、統合部133Bは「テキスト特徴量」と「同期後音響特徴量」と「その他の特徴量vm,L」とを時系列を考慮して結合する。
 その他の特徴量vm,Lが時間方向に長さを持たない場合には、統合部133Aは音響特徴量のフレーム数分、その他の特徴量を複製し、音響特徴量am,Lのフレームごとに「音響特徴量am,L」と「同期後テキスト特徴量」と「その他の特徴量」を結合し、統合部133Bはテキスト特徴量のフレーム(各文字や単語)数分、その他の特徴量を複製し、テキスト特徴量tm,Lのフレームごとに「テキスト特徴量」と「同期後音響特徴量」と「その他の特徴量」を結合する。
<時間方向圧縮部134A,134B>
 時間方向圧縮部134A,134Bは、それぞれ統合部133A,133Bの出力した特徴量を、言い換えると、時間方向に長さを持つ、音響由来の特徴量、テキスト由来の特徴量、その他の特徴量を入力とし、時間方向に圧縮して(S134A,S134B)、一次元の固定長のベクトルにし、出力する。時間方向の圧縮処理には、様々な公知の技術を利用することができ、例えばself-attention poolingなどを利用してもよい。時間方向集約部134A,134Bには、一次元の固定長のベクトルにする前に、LSTMなどの時系列モデルを含める構成としてもよい。
<結合部135>
 結合部135は、時間方向圧縮部134A,134Bがそれぞれ出力した一次元の固定長のベクトルを入力とし、これらのベクトルを結合し(S135)、結合後のベクトルである同期後特徴量を出力する。
 なお、結合部135は、その他の特徴量vm,Lのうち時系列方向の次元を持たない特徴量を入力とし、時間方向圧縮部134A,134Bがそれぞれ出力した一次元の固定長のベクトルとその他の特徴量vm,Lのうち時系列方向の次元を持たない特徴量とを結合し、結合後のベクトルである同期後特徴量を出力してもよい。
<ラベル自信度推定部136A>
 ラベル自信度推定部136Aは、同期後特徴量を入力とし、同期後特徴量を用いて、ラベル自信度推定モデルに基づき、ラベルを付与する際の自信度を推定し(S136A)、推定結果(ラベル自信度の推定値)を出力する。なお、ラベル自信度推定モデルは、同期後特徴量を入力とし、ラベル自信度の推定値を出力とするモデルであり、例えば、DNNからなる。
<発話意図推定部136B>
 発話意図推定部136Bは、同期後特徴量を入力とし、同期後特徴量を用いて、発話意図推定モデルに基づき、学習用の音響信号が所定の対象に対して発話されたものか否かを推定し(S136B)、推定結果(発話意図ラベルの推定値)を出力する。なお、発話意図推定モデルは、同期後特徴量を入力とし、発話意図ラベルの推定値を出力とするモデルであり、例えば、DNNからなる。
<パラメータ更新部137>
 パラメータ更新部137は、学習データSLに含まれるラベルrm,Lと自信度cm,Lと、ラベル自信度の推定値と、発話意図ラベルの推定値とを入力とし、これらの値に基づいて、推定モデルのパラメータを更新する(S137)。なお、推定モデルは、音響信号から得られる音響特徴量とその音響信号に対応するテキスト特徴量とを入力として、その音響信号の発話意図ラベルの推定値を出力とするモデルである。例えば、パラメータ更新部137は、ラベルrm,Lと発話意図ラベルの推定値とが一致し、自信度cm,Lとラベル自信度の推定値とが一致するように、音響特徴処理部131A、テキスト特徴処理部131B、テキスト特徴同期部132A、音響特徴同期部132B、時間方向圧縮部134A,134B、ラベル自信度推定部136A、発話意図推定部136Bにおいて用いるパラメータを更新する。
 収束条件を満たさない場合には(S137-2のnoの場合)、パラメータ更新部137は更新後のパラメータを各部に出力し、更新されたパラメータを用いて、上述の処理S131A~S136Bを繰り返す。
 収束条件を満たす場合には(S137-2のyesの場合)、パラメータ更新部137は更新後のパラメータを学習済みのパラメータを含む推定モデルΘとして出力する。
 収束条件は、パラメータの更新が収束したか否かを判別するための条件である。例えば、収束条件は、更新回数が所定の回数を超えることや、更新前後のパラメータの差分が所定の閾値未満であることなどである。
 次に、推定装置200について説明する。
<第一実施形態に係る推定装置200>
 図6は第一実施形態に係る推定装置200の機能ブロック図を、図7はその処理フローを示す。
 学習装置100は、音声認識部210、特徴量算出部220、推定部230を含む。
 各部について説明する。
<音声認識部210>
 音声認識部210は、推定対象の音響信号sTを入力とし、音声認識を実行し(S210)、音声認識に基づく情報yTを得、出力する。例えば、音声認識部210は音声認識部110と同様の音声認識処理を行う。
<特徴量算出部220>
 特徴量算出部220は、音響信号sTおよび音声認識に基づく情報yTを入力とし、特徴量oTを算出し(S220)、出力する。例えば、特徴量算出部220は特徴量算出部120と同様の特徴量算出処理を行う。
<推定部230>
 推定部230は、推定処理に先立ち学習済みの推定モデルΘを受け取る。
 推定部230は、特徴量oTを入力とし、学習済みの推定モデルΘを用いて、発話意図の有無を推定し(S230)、推定結果Rを出力する。学習済みの推定モデルΘに対して入力として特徴量oTを与え、出力として発話意図の有無の推定結果Rを得る。推定結果Rは、例えば、発話意図の有無を示す2値のラベルである。
 図8は推定部230の機能ブロック図を、図9はその処理フローの例を示す。
 推定部230は、特徴同期部239および発話意図推定部236を含む。さらに、特徴同期部239は、音響特徴処理部231A、テキスト特徴処理部231B、テキスト特徴同期部232A、音響特徴同期部232B、統合部233A,233B、時間方向圧縮部234A,234Bおよび結合部235を含む。
 特徴同期部239および発話意図推定部236は、それぞれ特徴同期部139および発話意図推定部136と同様の処理S239,S236を行う。よって、特徴同期部239内の音響特徴処理部231A、テキスト特徴処理部231B、テキスト特徴同期部232A、音響特徴同期部232B、統合部233A,233B、時間方向圧縮部234A,234Bおよび結合部235は、それぞれ特徴同期部139内の音響特徴処理部131A、テキスト特徴処理部131B、テキスト特徴同期部132A、音響特徴同期部132B、統合部133A,133B、時間方向圧縮部134A,134Bおよび結合部135と同様の処理S231S~S235を行う。ただし、特徴量om,Lに基づく値に代えて特徴量oTに基づく値に対して各処理を行う。
<効果>
 このような構成により、音響系列と言語系列の対応関係を捉えながら処理を行うことで、両者の系列間に存在する時間的な対応関係が考慮し、従来技術よりも精度よく発話意図を推定することができる。
 また、非特許文献1では、モデルを学習する際、人手でアノテーションした発話意図の正解ラベルを必要とする。しかし、音声対話インターフェースの音声ログに対してアノテーションを実施する場合、一部のデータについては人間にも発話意図の識別が困難であることから、不正確なラベルが付与される場合があり、そうした不正確なラベルで学習を行うことで、識別精度が低下する問題がある。ラベルの不正確さに対処する方法として一般に、複数人のアノテータでラベリングを行い、多数決をとる方法がとられるが、アノテータ数に比例したコストがかかる上に、いずれのアノテータも判別が困難な難しいデータについては対処できない。
 本実施形態によれば、人間でもアノテーションが困難なデータを、「正解するのが困難である」という事を認識したうえでモデルを学習することができる。
 また、発話意図を精度よく推定することで、こうしたユーザエクスペリエンス低下の原因となる誤作動の防止に寄与する。
 さらに、音声認識以外のタスクとして電話等のテレコミュニケーションにおいて、本実施形態の推定システムを用いることにより、対話しているユーザの音声のみを精度よく相手に提示できる。
 例えば、本実施形態の推定処理S230を音声認識装置の後段の処理として行い、認識仮説とともにアプリケーションに渡す形での利用などが考えられる。
<変形例1:自信度を用いない構成>
 第一実施形態と異なる部分を中心に説明する。
 第一実施形態では、アノテータ(対象にラベル付けを行うもの)のラベル付与の自信度cm,Lを学習に利用したが、本変形例では自信度cm,Lを利用しない。
 この場合、学習データSLには、学習用のM個の音響信号sm,Lと、ラベルrm,Lとが含まれる。
SL=((s1,L,r1,L),(s2,L,r2,L),…,(sM,L,rM,L))
 モデル学習部130は、ラベル自信度推定部136Aを含まない。
 パラメータ更新部137は、学習データSLに含まれるラベルrm,Lと、発話意図ラベルの推定値とを入力とし、これらの値に基づいて、推定モデルのパラメータを更新する(S137)。例えば、パラメータ更新部137は、ラベルrm,Lと発話意図ラベルの推定値とが一致するように、音響特徴処理部131A、テキスト特徴処理部131B、テキスト特徴同期部132A、音響特徴同期部132B、時間方向圧縮部134A,134B、発話意図推定部136Bにおいて用いるパラメータを更新する(S137)。
<変形例2:その他の特徴量を用いない構成>
 第一実施形態と異なる部分を中心に説明する。
 第一実施形態では、その他の特徴量を学習および推定に利用したが、本変形例ではその他の特徴量を利用しない。
 特徴量算出部120,220で算出する特徴量には、その他の特徴量を含まない。そのため、統合部133A,133B,233A,233B、統合部135,235でその他の特徴量を統合、結合する処理は行わない。
 図10は、変形例2の構成、変形例1と変形例2とを組合せた構成の実験結果を示す。何れの構成についても従来技術よりも精度よく発話意図を推定することができる。
<変形例3>
 第一実施形態と異なる部分を中心に説明する。
 ラベル自信度推定部136Aおよび発話意図推定部136Bは、必ずしも結合後のベクトルを入力としなくともよく、時間方向圧縮部134Aの出力するベクトルと時間方向圧縮部134Bの出力するベクトルとの少なくとも何れか一方を入力とし、ラベル自信度および発話意図ラベルの推定値を求める構成としてもよい。この場合、同期後特徴量は、時間方向圧縮部134Aの出力するベクトルと時間方向圧縮部134Bの出力するベクトルとの少なくとも何れか一方を含む。モデル学習部130は、時間方向圧縮部134Aの出力するベクトルを同期後特徴量とする場合、音響特徴同期部132B、統合部133B、時間方向圧縮部134B、結合部135を含まなくともよく、時間方向圧縮部134Bの出力するベクトルを同期後特徴量とする場合、音響特徴同期部132A、統合部133A、時間方向圧縮部134A、結合部135を含まなくともよい。この場合、ラベル自信度推定モデルは、時間方向圧縮部134Aの出力するベクトルと時間方向圧縮部134Bの出力するベクトルとの少なくとも何れか一方を含む同期後特徴量を入力とし、ラベル自信度の推定値を出力とするモデルである。同様に、発話意図推定モデルは、時間方向圧縮部134Aの出力するベクトルと時間方向圧縮部134Bの出力するベクトルとの少なくとも何れか一方を含む同期後特徴量を入力とし、発話意図ラベルの推定値を出力とするモデルである。
 発話意図推定部236も同様に、必ずしも結合後のベクトルを入力としなくともよく、時間方向圧縮部234Aの出力するベクトルと時間方向圧縮部234Bの出力するベクトルとの少なくとも何れか一方を含む同期後特徴量を入力とし、発話意図ラベルの推定値を求める構成としてもよい。推定部230は、時間方向圧縮部234Aの出力するベクトルを同期後特徴量とする場合、音響特徴同期部232B、統合部233B、時間方向圧縮部234B、結合部235を含まなくともよく、時間方向圧縮部234Bの出力するベクトルを同期後特徴量とする場合、音響特徴同期部232A、統合部233A、時間方向圧縮部234A、結合部235を含まなくともよい。
 このような構成により、音響特徴量とテキスト特徴量との何れか一方を他方に同期させ、音響系列と言語系列の対応関係を捉えながら処理を行っており、第一実施形態と同様の効果を得ることができる。なお、時間方向圧縮部134A,234Aの出力するベクトル、つまり、音響特徴量にテキスト特徴量を同期させて得られる同期後テキスト特徴量と、音響特徴量とに基づき得られる固定長のベクトルを用いたほうが、推定精度が高い。
<変形例4>
 第一実施形態と異なる部分を中心に説明する。
 本実施形態では、学習データに学習用の音響信号が含まれるが、S110、S120を外部の装置で行い、学習用の音響信号に代えて、対応する音響特徴量及びテキスト特徴量が学習データに含まれる構成としてもよい。なお、音響特徴処理131Aおよびテキスト特徴処理131Bは、必要に応じて、学習装置100内で行ってもよいし、外部の装置で行ってもよい。推定装置200についても同様であり、S210、S220を外部の装置で行い、推定対象の音響信号に代えて、対応する音響特徴量及びテキスト特徴量を入力としてもよい。
<第二実施形態>
 第一実施形態と異なる部分を中心に説明する。
<第二実施形態に係る学習装置100>
 図11は第二実施形態に係る学習装置100の機能ブロック図を、図12はその処理フローを示す。
 学習装置100は、特徴量算出部120、モデル学習部130を含む。つまり、第二実施形態に係る学習装置100は、音声認識部110を含まない。
<特徴量算出部120>
 特徴量算出部120は、音響信号sm,Lを入力とし、特徴量om,Lを算出し(S120)、出力する。特徴量om,Lは、発話意図の有無を推定するために用いられる。
 特徴量om,Lは「音響特徴量am,L」と「その他の特徴量vm,L」とのいずれかあるいは組み合わせを含むベクトルであり、「音響特徴量am,L」と「その他の特徴量vm,L」はそれぞれ1つ以上の要素(特徴量)を含むベクトルである。
 「音響特徴量」は第一実施形態で説明した通りである。
 「その他の特徴量」は、第一実施形態で説明した音響信号sm,Lから得られる特徴量のみからなる。また、本実施形態では、その他の特徴量は、固定長のベクトルとする。
<モデル学習部130>
 モデル学習部130は、学習データSLに含まれるラベルrm,Lと自信度cm,Lと、特徴量OL=(o1,L,o2,L,…,oM,L)を入力とし、これらの情報を用いて推定モデルΘLを学習し(S130)、学習済みの推定モデルΘを出力する。
 第二実施形態において音響特徴量と出力ラベルの関係は、公知のLSTMやself-attention機構つきLSTMといった技術を用いることで学習可能である。MFCCやFBANK特徴量のように時系列の情報を保持した特徴量については、公知のLSTMやself-attention機構つきLSTMといったモデルに入力して固定長のベクトル化し、出力されたベクトルと、時系列の情報を保持しない特徴量を結合したベクトルをDNNなどのモデルに入力して、対象に向けた発話かどうかを0から1で出力するモデルを学習する。
 上述の処理を実現するモデル学習部130の構成について説明する。
 図13はモデル学習部130の機能ブロック図を、図14はその処理フローの例を示す。
 モデル学習部130は、音響特徴処理部131A、時間方向圧縮部134A、ラベル自信度推定部136A、発話意図推定部136Bおよびパラメータ更新部137を含む。
 また、モデル学習部130は、結合部133C,133D,133Eの少なくとも1つを含む。さらに、モデル学習部130は、必要に応じて付加特徴量処理部138を含む。
<付加特徴量処理部138>
 付加特徴量処理部138は、その他の特徴量vm,Lを入力とし、結合部133C,133D,133Eにおいて、処理しやすいデータに変換し(S138)、変換後のその他の特徴量を出力する。なお、変換後のその他の特徴量を単にその他の特徴量ともいう。例えば、時系列モデリングを行うDNNを用いて、その他の特徴量を変換する。ただし、結合部133C,133D,133Eが変換前のその他の特徴量vm,Lをそのまま用いる場合には、付加特徴量処理部138を設けなくともよい。
<結合部133C>
 結合部133Cは、音響特徴量am,Lとその他の特徴量とを入力とし、音響特徴量am,Lのフレーム数分、その他の特徴量を複製し、音響特徴量am,Lの各フレームにその他の特徴量を結合し(S133C)、出力する。なお、その他の特徴量を結合した音響特徴量am,Lを、単に音響特徴量am,Lともいう。
<音響特徴処理部131A>
 音響特徴処理部131Aは、音響特徴量am,Lを入力とし、結合部133Dまたは時間方向圧縮部134Aにおいて、処理しやすいデータに変換し(S131A)、変換後の音響特徴量を出力する。なお、変換後の音響特徴量を単に音響特徴量ともいう。例えば、時系列モデリングを行うDNNを用いて、音響特徴量を変換する。ただし、結合部133Dまたは時間方向圧縮部134Aが変換前の音響特徴量am,Lをそのまま用いる場合には、音響特徴処理部131Aを設けなくともよい。
<結合部133D>
 結合部133Dは、音響特徴量am,Lとその他の特徴量とを入力とし、音響特徴量am,Lのフレーム数分、その他の特徴量を複製し、音響特徴量am,Lの各フレームにその他の特徴量を結合し(S133D)、出力する。なお、その他の特徴量を結合した音響特徴量am,Lを、単に音響特徴量am,Lともいう。
<時間方向圧縮部134A>
 時間方向圧縮部134Aは、音響特徴量処理部131Aまたは結合部133Dの出力した特徴量を、言い換えると、時間方向に長さを持つ音響由来の特徴量を、時間方向に圧縮して(S134A)、一次元の固定長のベクトルにし、出力する。
<結合部133E>
 結合部135は、時間方向圧縮部134Aが出力した一次元の固定長のベクトルと、その他の特徴量vm,Lとを結合し(S133E)、結合後のベクトルを出力する。
 ラベル自信度推定部136Aおよび発話意図推定部136Bにおける処理は第一実施形態と同様である。
<パラメータ更新部137>
 パラメータ更新部137は、学習データSLに含まれるラベルrm,Lと自信度cm,Lと、ラベル自信度の推定値と、発話意図ラベルの推定値とを入力とし、これらの値に基づいて、推定モデルのパラメータを更新する(S137)。例えば、パラメータ更新部137は、ラベルrm,Lと発話意図ラベルの推定値とが一致し、自信度cm,Lとラベル自信度の推定値とが一致するように、音響特徴処理部131A、時間方向圧縮部134A、ラベル自信度推定部136A、発話意図推定部136Bにおいて用いるパラメータを更新する(S137)。
 収束条件を満たさない場合には(S137-2のnoの場合)、パラメータ更新部137は更新後のパラメータを各部に出力し、更新されたパラメータを用いて、上述の処理S138~S136Bを繰り返す。
 収束条件を満たす場合には(S137-2のyesの場合)、パラメータ更新部137は更新後のパラメータを学習済みのパラメータとして出力する。
<第二実施形態に係る推定装置200>
 図15は第二実施形態に係る推定装置200の機能ブロック図を、図16はその処理フローを示す。
 学習装置100は、特徴量算出部220、推定部230を含む。
 各部について説明する。
<特徴量算出部220>
 特徴量算出部220は、音響信号sTを入力とし、特徴量oTを算出し(S220)、出力する。例えば、特徴量算出部220は第二実施形態に係る特徴量算出部120と同様の特徴量算出処理を行う。
<推定部230>
 推定部230は、推定処理に先立ち学習済みの推定モデルΘを受け取る。
 推定部230は、特徴量oTを入力とし、学習済みのモデルを用いて、発話意図の有無を推定し(S230)、推定結果Rを出力する。学習済みのモデルに対して入力として特徴量oTを与え、出力として発話意図の有無の推定結果Rを得る。推定結果Rは、例えば、発話意図の有無を示す2値のラベルである。
 図17は推定部230の機能ブロック図を、図18はその処理フローの例を示す。
 推定部230は、音響特徴処理部231A、時間方向圧縮部234Aおよび発話意図推定部236を含む。
 また、モデル学習部130の結合部133C,133D,133E、付加特徴量処理部138に対応する結合部233C,233D,233E、付加特徴量処理部238を含む。
 音響特徴処理部231A、時間方向圧縮部234A、発話意図推定部236、結合部233C,233D,233E、付加特徴量処理部238は、それぞれ第二実施形態に係る音響特徴処理部131A、時間方向圧縮部134A、発話意図推定部136B、結合部133C,133D,133E、付加特徴量処理部138と同様の処理S238~S236を行う。ただし、特徴量om,Lに基づく値に代えて特徴量oTに基づく値に対して各処理を行う。
<効果>
 このような構成により、従来考慮されていなかった音源の放射方向や直間比などに着目した新規の特徴量を導入することで、発話意図の有無をより明示的に捉えることができる。例えば音声認識のポストフィルタとして利用する場合など、音声認識の仮説出力を待たずに発話者の意図を捉えたい場合に利用すると良い。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 上述の各種の処理は、図19に示すコンピュータの記憶部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行したプログラムを、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、プログラムを、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 学習用の音響信号と、前記音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データに基づき、推定モデルを学習する学習装置であって、
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 学習用の音響信号から得られる音響特徴量と、前記音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得、
 前記同期後特徴量を用いて、前記音響信号が所定の対象に対して発話されたものか否かを推定し、
 学習データに含まれるラベルと、前記発話意図推定部の推定結果とに基づいて前記推定モデルのパラメータを更新する。
 (付記項2)
 学習用の音響信号と、前記学習用の音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データを用いて予め学習された推定モデルに基づき推定を行う推定装置であって、
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 推定対象の音響信号から得られる音響特徴量と、前記推定対象の音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得、
 前記同期後特徴量を用いて、前記推定対象の音響信号が所定の対象に対して発話されたものか否かを推定する、
 推定装置。

Claims (8)

  1.  学習用の音響信号と、前記音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データに基づき、推定モデルを学習する学習装置であって、
     学習用の音響信号から得られる音響特徴量と、前記音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期部と、
     前記同期後特徴量を用いて、前記音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定部と、
     学習データに含まれるラベルと、前記発話意図推定部の推定結果とに基づいて前記推定モデルのパラメータを更新するパラメータ更新部とを含む、
     学習装置。
  2.  請求項1の学習装置であって、
     前記同期後特徴量は、
     前記音響特徴量に、前記テキスト特徴量を同期させて得られる同期後テキスト特徴量と、前記音響特徴量とに基づき得られる固定長のベクトルと、
     前記テキスト特徴量に、前記音響特徴量を同期させて得られる同期後音響特徴量と、前記テキスト特徴量とに基づき得られる固定長のベクトルとの、少なくとも一方を含む、
     学習装置。
  3.  請求項1または請求項2の学習装置であって、
     学習データには、学習用の音響信号と、前記学習用の音響信号が所定の対象に対して発話されたものか否かを表すラベルと、ラベルを付与する際の自信度とが含まれるものとし、
     前記同期後特徴量を用いて、ラベルを付与する際の自信度を推定するラベル自信度推定部を含み、
     前記パラメータ更新部は、前記ラベルと前記発話意図推定部の推定結果、および、学習データに含まれる自信度と前記ラベル自信度推定部の推定結果に基づいて、前記推定モデルのパラメータを更新する、
     学習装置。
  4.  請求項1から請求項3の何れかの学習装置であって、
     その他の特徴量は、
     (i)音源の位置あるいは方向、音源までの距離に関する情報、
     (ii)音響信号帯域幅または周波数特性に関する情報、
     (iii)音声認識結果の信頼度または音声認識の計算時間に関する情報、
     (iv)音声認識結果から計算される発話のコマンドとしての妥当性に関する情報、
     (v)音声認識結果から得られる入力発話の解釈難度に関する情報、
    の少なくとも何れかを含むものとし、
     学習データに含まれるラベルと、前記音響特徴量と前記テキスト特徴量とその他の特徴量とを用いて、前記推定モデルを学習する、
     学習装置。
  5.  学習用の音響信号と、前記学習用の音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データを用いて予め学習された推定モデルに基づき推定を行う推定装置であって、
     推定対象の音響信号から得られる音響特徴量と、前記推定対象の音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期部と、
     前記同期後特徴量を用いて、前記推定対象の音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定部とを含む、
     推定装置。
  6.  学習用の音響信号と、前記音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データに基づき、推定モデルを学習する学習方法であって、
     学習用の音響信号から得られる音響特徴量と、前記音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期ステップと、
     前記同期後特徴量を用いて、前記音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定ステップと、
     学習データに含まれるラベルと、前記発話意図推定ステップの推定結果とに基づいて前記推定モデルのパラメータを更新するパラメータ更新ステップとを含む、
     学習方法。
  7.  学習用の音響信号と、前記学習用の音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データを用いて予め学習された推定モデルに基づき推定を行う推定方法であって、
     推定対象の音響信号から得られる音響特徴量と、前記推定対象の音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期ステップと、
     前記同期後特徴量を用いて、前記推定対象の音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定ステップとを含む、
     推定方法。
  8.  請求項1から請求項4の何れかの学習装置、または、請求項5の推定装置としてコンピュータを機能させるためのプログラム。
PCT/JP2021/006176 2021-02-18 2021-02-18 学習装置、推定装置、それらの方法、およびプログラム WO2022176124A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/006176 WO2022176124A1 (ja) 2021-02-18 2021-02-18 学習装置、推定装置、それらの方法、およびプログラム
JP2023500238A JPWO2022176124A1 (ja) 2021-02-18 2021-02-18

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/006176 WO2022176124A1 (ja) 2021-02-18 2021-02-18 学習装置、推定装置、それらの方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2022176124A1 true WO2022176124A1 (ja) 2022-08-25

Family

ID=82930390

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/006176 WO2022176124A1 (ja) 2021-02-18 2021-02-18 学習装置、推定装置、それらの方法、およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2022176124A1 (ja)
WO (1) WO2022176124A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017535823A (ja) * 2014-10-01 2017-11-30 エクスブレイン・インコーポレーテッド 音声および接続プラットフォーム
JP2018146898A (ja) * 2017-03-08 2018-09-20 パナソニックIpマネジメント株式会社 装置、ロボット、方法、及びプログラム
JP2018528458A (ja) * 2015-12-04 2018-09-27 三菱電機株式会社 発話を処理する方法
JP2019079034A (ja) * 2017-10-26 2019-05-23 株式会社日立製作所 自己学習自然言語理解を伴うダイアログ・システム
JP2020067500A (ja) * 2018-10-22 2020-04-30 日本電信電話株式会社 パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
CN112182191A (zh) * 2020-10-16 2021-01-05 西北师范大学 多轮口语理解的结构化记忆图网络模型

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017535823A (ja) * 2014-10-01 2017-11-30 エクスブレイン・インコーポレーテッド 音声および接続プラットフォーム
JP2018528458A (ja) * 2015-12-04 2018-09-27 三菱電機株式会社 発話を処理する方法
JP2018146898A (ja) * 2017-03-08 2018-09-20 パナソニックIpマネジメント株式会社 装置、ロボット、方法、及びプログラム
JP2019079034A (ja) * 2017-10-26 2019-05-23 株式会社日立製作所 自己学習自然言語理解を伴うダイアログ・システム
JP2020067500A (ja) * 2018-10-22 2020-04-30 日本電信電話株式会社 パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
CN112182191A (zh) * 2020-10-16 2021-01-05 西北师范大学 多轮口语理解的结构化记忆图网络模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKATSU, HIROAKI : "Utterance intention understanding in consideration of the context of system utterance", PROCEEDINGS OF THE 25TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING; MARCH 12-15, 2019, 28 February 2019 (2019-02-28) - 15 March 2019 (2019-03-15), pages 320 - 323, XP009539660 *

Also Published As

Publication number Publication date
JPWO2022176124A1 (ja) 2022-08-25

Similar Documents

Publication Publication Date Title
Meng et al. Conditional teacher-student learning
JP6678710B2 (ja) 自己学習自然言語理解を伴うダイアログ・システム
US10347244B2 (en) Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
WO2018054361A1 (zh) 语音识别的环境自适应方法、语音识别装置和家用电器
WO2017076222A1 (zh) 语音识别方法及装置
Zhang et al. Advanced data exploitation in speech analysis: An overview
CN108885870A (zh) 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法
WO2019017462A1 (ja) 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム
US11562735B1 (en) Multi-modal spoken language understanding systems
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
Chen et al. Sequence discriminative training for deep learning based acoustic keyword spotting
JP2018004947A (ja) テキスト補正装置、テキスト補正方法、およびプログラム
CN112509560A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN114155854B (zh) 语音数据的处理方法及装置
WO2020110815A1 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN113889092A (zh) 语音识别结果的后处理模型的训练方法、处理方法及装置
US10789946B2 (en) System and method for speech recognition with decoupling awakening phrase
KR102305672B1 (ko) 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치
WO2022176124A1 (ja) 学習装置、推定装置、それらの方法、およびプログラム
CN116564330A (zh) 弱监督语音预训练方法、电子设备和存储介质
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
US20240127796A1 (en) Learning apparatus, estimation apparatus, methods and programs for the same
Anidjar et al. Speech and multilingual natural language framework for speaker change detection and diarization
JP7420211B2 (ja) 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21926559

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023500238

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18277552

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21926559

Country of ref document: EP

Kind code of ref document: A1