WO2016121052A1 - マルチモーダル意図理解装置およびマルチモーダル意図理解方法 - Google Patents

マルチモーダル意図理解装置およびマルチモーダル意図理解方法 Download PDF

Info

Publication number
WO2016121052A1
WO2016121052A1 PCT/JP2015/052532 JP2015052532W WO2016121052A1 WO 2016121052 A1 WO2016121052 A1 WO 2016121052A1 JP 2015052532 W JP2015052532 W JP 2015052532W WO 2016121052 A1 WO2016121052 A1 WO 2016121052A1
Authority
WO
WIPO (PCT)
Prior art keywords
intention
information
user
unit
modal information
Prior art date
Application number
PCT/JP2015/052532
Other languages
English (en)
French (fr)
Inventor
洋一 藤井
悠介 小路
石井 純
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2015/052532 priority Critical patent/WO2016121052A1/ja
Publication of WO2016121052A1 publication Critical patent/WO2016121052A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Definitions

  • This invention relates to a technique for estimating a user's intention from information input in a multimodal manner.
  • multimodal means multi-mode, and for example, input is performed using different media such as video in addition to audio.
  • a technique in which a voice recognition result is not directly linked to an operation, but is operated by understanding the user's intention from the contents of the user's utterance.
  • One of the methods for realizing the technique is to associate a sample utterance sentence and an operation (hereinafter referred to as learning data) collected in advance, and use a model obtained by modeling a user's intention from a user's utterance by a statistical learning method.
  • learning data an operation
  • a model obtained by modeling a user's intention from a user's utterance by a statistical learning method.
  • the term used for learning is extracted from the utterance sentence example of the learning data. Using the extracted set of terms and the intention of the correct answer as input learning data, a model in which the weight of each term and the correct intention is learned by a statistical learning algorithm is output.
  • the term used for learning is generally a word or word string extracted from data obtained by morphological analysis of an utterance sentence example. For example, an utterance sentence such as “I want to go to XX station” gives a morphological analysis result such as “XX station (proprietary nouns / facilities) / ni (participant) / going (verb / combined) / tai (auxiliary verb)”. It is done.
  • a correct answer intention is generated in which the destination to be set is expressed as $ facility $).
  • a model is created based on learning data consisting of terms and correct intentions extracted from a large number of spoken sentence examples.
  • a model creation method for example, a machine learning algorithm is used. The machine learning algorithm performs machine learning on the weights of terms and correct intentions so that the most correct intentions are generated for all learning data. Therefore, for a term obtained from an utterance similar to learning data, a model with a high possibility of outputting a correct answer intention is obtained.
  • this machine learning method for example, the maximum entropy method can be used.
  • the user's intention can be flexibly estimated even for utterance content that is not assumed in advance. . Therefore, even if the user's utterance does not remember the formal wording, it is possible to appropriately estimate the intention and execute the operation.
  • the user may output information for specifying the intention other than the voice, and the user's intention may be specified for the first time including the gesture, the line of sight, the surrounding situation, and the like.
  • the instruction included in the utterance The word is linked as a target of the gesture, and the location indicated by “this neighborhood” is determined to be a circled location and a system response is generated.
  • Patent Document 1 has a problem that the user intention cannot be estimated when the instruction word is not included in the utterance content of the user.
  • it is associated with the gesture action performed by the user's obvious intention, for example, unconscious and gesturing itself, such as saying “I can't see” while leaning forward while driving a car.
  • the user's intention cannot be estimated.
  • Patent Document 2 discloses an intelligent agent construction support system that describes a user's action based on a combination of an utterance and a gesture that do not include an instruction word.
  • the input media of the intelligent agent construction support system is composed of voice, keyboard, mouse, pen, gesture, screen, etc., and multimodal rules are defined for each input media, and the contents defined under the specified conditions are If observed, it is determined that the corresponding multimodal rule can be executed.
  • the present invention has been made to solve the above-described problems, and has an object of estimating a user's intention from a combination of information input in a plurality of modals in which the user's intention is not defined in advance. To do.
  • the multimodal intention understanding device includes a first modal information recognition unit that accepts input of first modal information of a user and performs recognition processing of the first modal information, and second modal information of the user.
  • the second modal information recognition unit that receives the input of the second modal information, the combination of the recognition result of the first modal information and the recognition result of the second modal information, and the combination
  • the recognition result of the second modal information recognition unit is converted into information that can be integrated with the recognition result of the first modal information recognition unit, based on the intention integration rule that defines the integrated intention indicating the user's intention obtained in advance.
  • the modal information conversion unit, the recognition result of the first modal information recognition unit, and the conversion result of the modal information conversion unit are integrated. And a unified intention understanding unit that estimates a.
  • the user's intention can be estimated from a combination of information input in a plurality of modals in which the user's intention is not defined in advance.
  • a user's intention can be estimated based on more information.
  • a user's intention can be estimated more correctly.
  • FIG. 1 is a block diagram illustrating a configuration of a multimodal intention understanding device according to Embodiment 1.
  • FIG. It is a figure which shows an example of the user's intention defined in the multimodal intention understanding device according to the first embodiment. It is a figure which shows an example of the example sentence which the multimodal intent understanding apparatus which concerns on Embodiment 1 learns beforehand. It is a figure which shows an example of the intention understanding model which the intention understanding model storage part of the multimodal intention understanding apparatus which concerns on Embodiment 1 accumulate
  • 6 is a flowchart showing the operation of the motion vector generation unit of the multimodal intention understanding device according to Embodiment 1.
  • 6 is an explanatory diagram illustrating a processing procedure of an action vector generation unit of the multimodal intention understanding device according to Embodiment 1.
  • FIG. It is a figure which shows an example of the motion vector database of the multimodal intent understanding apparatus which concerns on Embodiment 1.
  • FIG. 6 is a flowchart illustrating an operation of an intention understanding process of the multimodal intention understanding device according to the first embodiment.
  • 6 is an explanatory diagram illustrating a procedure of an intention understanding process of the multimodal intention understanding device according to Embodiment 1.
  • FIG. 10 is a flowchart showing the operation of the motion vector generation unit of the multimodal intention understanding device according to Embodiment 2.
  • FIG. 10 is an explanatory diagram illustrating a processing procedure of an action vector generation unit of the multimodal intention understanding device according to Embodiment 2.
  • the multimodal intention understanding device of the present embodiment is one in which two or more modal information is input.
  • the first modal information is a voice spoken by the user
  • the second modal information is a user's action, line of sight, biological reaction, and the like.
  • the modal can be applied in addition to the above.
  • Embodiment 1 and Embodiment 2 it is assumed that two types of modal information are input to the multimodal intent understanding device, the first modal information is the voice of the user, and the second modal information is the user.
  • the operation will be described as an example.
  • a case where the multimodal intention understanding device is applied to a navigation system mounted on a vehicle will be described as an example.
  • FIG. FIG. 1 is a diagram showing a configuration of a multimodal intention understanding device 100 according to Embodiment 1.
  • FIG. 1A shows a functional block diagram of the multimodal intention understanding device 100
  • FIG. 1B shows a hardware configuration diagram of the multimodal intention understanding device 100.
  • the multimodal intention understanding device 100 includes a speech recognition unit 1, a text analysis unit 2 (modal information recognition unit), a motion recognition unit (modal information recognition unit) 3, a motion vector conversion unit (modal conversion unit) 4, and a motion vector database 5.
  • the speech recognition unit 1, the text analysis unit 2, the motion recognition unit 3, the motion vector conversion unit 4, the integrated intention understanding unit 6, and the motion vector generation unit 8 are executed by the processor 100a executing a program stored in the memory 100b. Realized. A plurality of processors and a plurality of memories may execute the above functions in cooperation. It is assumed that the motion vector database 5, the intention understanding model storage unit 7, and the intention integration rule storage unit 9 are provided in the memory 100b.
  • the voice recognition unit 1 receives voice (first modal information) from the user's utterance, performs voice recognition of the input voice, and outputs a voice recognition result.
  • the text analysis unit 2 performs text analysis on the speech recognition result, and generates an intention understanding vector that is a vector indicating the user's intention from the analysis result.
  • the motion recognition unit 3 receives motion information (second modal information) composed of image data obtained by capturing the user's motion, and generates motion symbols by recognizing the user's motion from the input image data. .
  • the motion vector conversion unit 4 refers to the motion vector database 5 and converts the motion symbol generated by the motion recognition unit 3 into a motion vector.
  • the motion vector is a vector having the same format as the intention understanding vector generated by the text analysis unit 2. That is, the motion vector conversion unit 4 performs processing for converting the data format of the recognition result of the second modal information into the data format of the recognition result of the first modal information.
  • the motion vector database 5 stores motion vectors calculated from motion symbol weight vectors in association with motion symbols. Although details will be described later, FIG. 8 shows details of motion vectors.
  • the integrated intention understanding unit 6 includes an integration processing unit 61 that integrates the intention understanding vector generated by the text analysis unit 2 and the motion vector converted by the motion vector conversion unit 4.
  • the integrated intention understanding unit 6 performs a process of estimating the user's intention from the vector integrated by the integration processing unit 61, and outputs the estimation result as the integrated intention understanding result.
  • the intention understanding model accumulating unit 7 is referred to obtain the score of each intention, and the acquired score of each intention is compared with the score of the integrated vector. .
  • a result calculated by the comparison to be an intention close to the user's intention is estimated to be the user's intention.
  • the intention understanding model accumulating unit 7 is a storage area for accumulating a machine-learned intention understanding model.
  • the term (morpheme or feature) of the intent understanding model is composed of natural language, and weights for intentions of a plurality of users are defined for a certain term. Although details will be described later, FIG. 4 shows details of the intent understanding model.
  • the motion vector generation unit 8 refers to the intention understanding model stored in the intention understanding model storage unit 7 and the intention integration rules stored in the intention integration rule storage unit 9, and determines the motion vectors constituting the motion vector database 5. Generate.
  • the motion vector generation unit 8 is defined in the intention understanding model when a certain integrated intention understanding result is obtained from a certain intention understanding result and a certain motion symbol based on the intention integration rule. A motion vector corresponding to a certain motion symbol is generated from the weight.
  • the motion vector database 5 is generated by performing the motion vector generation processing on a plurality of motion symbols and creating a database. Note that the motion vector generation unit 8 completes the processing for generating the motion vector database 5 before the motion vector conversion unit 4 performs processing for converting motion symbols into motion vectors.
  • the intention integration rule storage unit 9 stores integration rules indicating that a certain integrated intention understanding result is generated by a combination of a certain intention understanding result and a certain operation symbol. Although details will be described later, the intention integration rules are stored in FIG.
  • FIG. 2 is a diagram illustrating an example of a user's intention defined in the multimodal intention understanding device 100 according to the first embodiment.
  • the multimodal intention understanding device 100 is included in a navigation system mounted on a vehicle. The case where it is applied is shown as an example.
  • the numbers (a) to (d) in FIG. 2 indicate user intentions defined for the temperature operation of the air conditioner.
  • the intention is defined as a combination of slot frames that embody the operation intention.
  • the item described as “NULL” indicates that the value is undetermined.
  • the numbers (h) to (j) in FIG. 2 indicate the user intentions defined for the screen change. Thus, it is assumed that various intentions are defined in the multimodal intention understanding device 100.
  • FIG. 3 is a diagram illustrating an example of sentences that the multimodal intention understanding device 100 according to Embodiment 1 learns in advance.
  • the multimodal intention understanding device 100 has previously learned a plurality of sentence examples with the intention shown in FIG. 2 as the correct answer.
  • the intent understanding model is created, for example, by machine learning by applying the maximum entropy method disclosed in Reference Document 1 below.
  • various intentions including the intention shown in FIG. 2 are learned using the learning sentence example shown in FIG.
  • intention learning first, a term (morpheme or feature) used for learning for understanding the intention is extracted from the learning sentence example shown in FIG.
  • Various term extraction methods can be applied. For example, a self-supported word with a dictionary heading notation, and a negative expression with a negative expression (“invisible” dictionary heading is “visible”. However, since it has a negative meaning, “-NOT” is added as a term.
  • the extracted terms are weighted.
  • the weighting is performed based on whether or not the term extracted for the defined intention (for example, FIG. 2) is an important term. A positive number is assigned if the term is important to the defined intention, and a negative number is assigned if it is an insignificant term. Furthermore, the magnitude of the positive numerical value or the negative numerical value is changed according to the importance. These numerical values may be used as weighting values, or those values converted into logarithms may be used as weighting values.
  • the intention understanding model learned in this way is stored in the intention understanding model storage unit 7.
  • FIG. 4 is a diagram illustrating an example of an intention understanding model stored by the intention understanding model storage unit 7 of the multimodal intention understanding device 100 according to the first embodiment.
  • the intention understanding model for each intention, the weight value of each term configured in a natural language is shown.
  • the terms “temperature”, “lower”, “up”, “hot” are important. Because it is a long term, a large positive number is set.
  • the terms “cold”, “back”, “driver's seat”, “screen” and the like are not important terms for the intention (a), and therefore, a small negative numerical value is set.
  • FIG. 5 is a diagram showing intention integration rules stored by the intention integration rule storage unit 9 of the multimodal intention understanding device 100 according to the first embodiment.
  • FIG. 5A is an explanatory diagram showing an outline of the intention integration rule
  • FIG. 5B is a diagram showing a specific example of the intention integration rule.
  • the intention integration rule shown in FIG. 5A is converted into an integrated intention understanding result C when the intention understanding result A by the text analysis unit 2 and the motion symbol B by the motion recognition unit 3 occur within a certain time. It is shown that.
  • FIG. 5B shows an example of the intention integration rule learned.
  • FIG. 6 is a flowchart showing the operation of the motion vector generation unit 8 of the multimodal intention understanding device 100 according to the first embodiment.
  • the motion vector generation unit 8 extracts all motion symbols from the intention integration rules stored in the intention integration rule storage unit 9 (step ST1), and creates a motion symbol list (step ST2). An operation symbol is selected from the operation symbol list created in step ST2 (step ST3).
  • the weight vector of the motion symbol selected in step ST3 is calculated to generate a motion vector.
  • the motion vector generated in step ST4 is stored in the motion vector database 5 together with the motion symbol selected in step ST3 (step ST5).
  • it is determined whether or not all the operation symbols have been processed step ST6. If processing has not been performed for all motion symbols (step ST6; NO), the processing returns to step ST3 and the above-described processing is repeated. On the other hand, when processing has been performed for all motion symbols (step ST6; YES), the processing ends.
  • FIG. 7 is an explanatory diagram illustrating a processing procedure of the motion vector generation unit 8 of the multimodal intention understanding device 100 according to the first embodiment.
  • the operation symbol 72 room mirror gaze []” is selected from the intention integration rule 71 shown in FIG.
  • weight vector 75 for the intention understanding result A is subtracted from the weight vector 76 for the integrated intention understanding result C to obtain a weight vector 77 for the action symbol B (see FIG. 7C). Since the weight vector 77 of the motion symbol B is converted to a logarithm and the value of each element is held, it is converted back to an exponent and further converted so that the sum is 1, and a motion vector 78 is generated ( (Refer FIG.7 (d)).
  • step ST5 the motion vector generated in step ST4 is stored in the motion vector database 5 together with the motion symbol 72 “room mirror gaze []”.
  • FIG. 8 shows a storage example of the motion vector database 5.
  • the motion vectors of the terms constituting the intention understanding model are associated with each motion symbol.
  • the motion vector 78 of the motion symbol 72 shown in FIG. 7 is associated with each term, “temperature”, “lower”, “raise”, etc. of the intent understanding model shown in FIG. .
  • a known technique is applied so that a period of time after a user's utterance starts from a certain time before the user's utterance is constant from a certain time before the user's operation starts after the operation ends. If the time period overlaps, the voice input and the operation input are determined as one input process.
  • FIG. 9 is a flowchart showing the operation of the intention understanding process of the multimodal intention understanding device 100 according to the first embodiment.
  • the voice recognition unit 1 performs voice recognition processing on the input voice and generates a voice recognition result (step ST11).
  • the text analysis unit 2 converts the speech recognition result generated in step ST11 into an intention understanding vector and outputs it to the integrated intention understanding unit 6 (step ST12).
  • the motion recognition unit 3 acquires a motion symbol from the input motion information (step ST13).
  • the motion vector conversion unit 4 determines whether or not a motion symbol has been acquired in step ST13 (step ST14).
  • the motion vector conversion unit 4 searches the motion vector database 5 using the motion symbol acquired in step ST13 as a key (step ST15). Based on the search result of step ST15, the motion symbol acquired in step ST13 is converted into a motion vector and output to the integrated intention understanding unit 6 (step ST16).
  • the motion symbol is not acquired (step ST14; NO)
  • the process proceeds to step ST18.
  • the integration processing unit 61 of the integrated intention understanding unit 6 adds the motion vector to the intention understanding vector and obtains the intention understanding vector.
  • Update step ST17.
  • the integrated intention understanding unit 6 refers to the intention understanding model storage unit 7, and if the intention understanding vector updated in step ST17 or the action symbol is not acquired, the recognition score for the intention understanding vector converted in step ST12. Is acquired (step ST18). Of the recognition scores acquired in step ST18, the intention understanding result having the highest score value is output as the integrated intention understanding result (step ST19). Thereafter, the flowchart returns to the process of step ST11 and repeats the process described above.
  • FIG. 10 is an explanatory diagram showing a procedure of intention understanding processing of the multimodal intention understanding device 100 according to the first embodiment.
  • FIG. 10 shows an example in which the user performs the utterance and the operation 101 that “speaks“ It looks hot ”while looking at the room mirror”.
  • the multimodal intention understanding device 100 receives an utterance “Looks hot” as voice and information “view a room mirror” as motion information 102.
  • the description will be made assuming that the multimodal intention understanding device 100 determines that the voice input and the operation input should be processed as one input process generated within a predetermined interval as described above.
  • step ST11 the speech recognition unit 1 acquires the correct speech recognition result 103 “Looks hot” from the input speech, and in step ST12, the text analysis unit 2 converts the speech recognition result 103 into the intention understanding vector 104 and integrates it. Output to the intent understanding unit 6.
  • the intent understanding vector is composed of terms and vector values.
  • the vector value of the intention understanding vector is a value indicating the frequency with which a specific term appears in the speech. In the example of FIG. 10, since the term that appeared in the voice is only “hot”, only the term “hot” has the vector value “1.0”, and all other terms have the vector value “0.0”. It becomes.
  • step ST ⁇ b> 13 the motion recognition unit 3 acquires “room mirror gaze []” as the motion symbol 105 from the input motion information.
  • the motion vector conversion unit 4 determines that the motion symbol 105 has been acquired, and searches the motion vector database 5 using the motion symbol 105 acquired in step ST15 as a key.
  • step ST16 the corresponding motion vector 106 is acquired and output to the integrated intention understanding unit 6. For example, when the motion vector database 5 shown in FIG. 8 is searched using the motion symbol 105 “room mirror gaze []” as a key, the motion symbol corresponding to the key exists, and the motion vector shown in FIG. 106 (for example, vector values “0.033”, “0.046”, “0.053”... For terms “temperature”, “lower”, “raise”,...) Are obtained.
  • the value of the motion vector is a value indicating whether each term is important for the motion symbol used as a search key, that is, a value indicating the frequency at which each term appears as the user's intention when the motion symbol is acquired. .
  • the integration processing unit 61 of the integrated intention understanding unit 6 adds the motion vector 106 to the intention understanding vector 104 to obtain an updated intention understanding vector 107.
  • the intention understanding vector 104 and the motion vector 106 are added at a predetermined ratio ⁇ . Specifically, a calculation of “(intention understanding vector) + ⁇ ⁇ (gesture vector)” is performed.
  • step ST18 the integrated intention understanding unit 6 calculates the inner product of the intention understanding vector 107 obtained in step ST17 and the weight vector of each intention constituting the intention understanding model stored in the intention understanding model storage unit 7. Take a recognition score.
  • a score 108 indicates a recognition score, and indicates a value obtained by adding the inner product result from intention (a) to intention (j).
  • the integrated intention understanding unit 6 refers to the value of the score 108 of the recognition score acquired in step ST18, and outputs the intention (c) having the maximum value as the integrated intention understanding result 109.
  • the text recognition result of the voice recognition unit 1 is text-analyzed to generate the intention understanding vector, and the intention integration rule storage unit 9 stores the result beforehand.
  • a motion vector conversion unit 4 that converts a motion symbol recognized from motion information into a motion vector with reference to the motion vector database 5 that stores motion vectors of motion symbols extracted from the intention integration rule, an intention understanding vector, and a motion Since the integrated intention understanding unit 6 that performs the user's intention understanding process using the vector as an input is provided, the motion symbol recognized from the motion information is converted into information that can be integrated with the intention understanding vector, and the motion information is obtained.
  • the user's intention to be shown can be integrated with the intention understanding vector. Accordingly, the user's intention can be estimated from information obtained by integrating a plurality of modal information, and the user's intention can be accurately estimated based on a lot of information.
  • the motion vector conversion unit 4 is a motion vector that describes a motion vector for each term that constitutes an intention understanding model composed of natural languages stored in the intention understanding model storage unit 7. Since the operation symbol is converted into an operation vector with reference to the database 5, the input operation information can be replaced with a term described in an intention understanding model configured in a natural language. Intended content can be expressed in language. Thereby, the intention of the user can be estimated from the integrated result by integrating the intention understanding vector and the motion vector even for the combination of the voice and the motion information not defined in the intention integration rule. Thereby, a user's intention can be estimated using a plurality of modal information.
  • the motion vector generation unit 8 determines the intention from the relationship between the intention understanding result described in the intention integration rule stored in the intention integration rule storage unit 9, the action symbol, and the integrated intention understanding result.
  • the intention understanding model stored in the understanding model storage unit 7 the motion vector database 5 that stores the motion vectors corresponding to the motion symbols is stored, so that it is defined in the intention integration rule.
  • the motion vector conversion unit 4 can express the content intended by the motion information in a linguistic manner by converting the motion symbols into approximate motion vectors. As a result, the user's intention can be estimated even when the voice and the operation information are combinations not described in the intention integration rule.
  • FIG. 2 a case where a plurality of intention integration rules are accumulated for one operation symbol will be described.
  • the configuration of the multimodal intention understanding device 100 according to the second embodiment is the same as that of the multimodal intention understanding device 100 according to the first embodiment shown in FIG. Further, the same reference numerals as those used in the first embodiment are attached and the following description will be given. Further, since the processing operations other than the processing operation of the motion vector generation unit 8 are the same as those in the first embodiment, description thereof will be omitted.
  • FIG. 11 is a diagram illustrating intention integration rules stored by the intention integration rule storage unit 9 of the multimodal intention understanding device 100 according to the second embodiment.
  • FIG. 11A is an explanatory diagram showing an outline of the intention integration rule, which is the same as in the first embodiment.
  • the intention integration rule indicates that an intention understanding result A by the text analysis unit 2 and an action symbol B by the action recognition unit 3 are converted into an integrated intention understanding result C when they occur within a predetermined time.
  • FIG.11 (b) is a figure which shows the specific example of the intention integration rule learned based on the intention integration rule shown to Fig.11 (a).
  • the operation symbol “room mirror gaze []” for viewing the room mirror is acquired as the operation symbol B within a certain time from the input of “”
  • the intention integration rule 111 is assumed, for example, when the user speaks “I cannot see” while looking at the room mirror.
  • the intention integration rule 112 is assumed, for example, when the user speaks “Looks hot” while looking at the room mirror.
  • FIG. 12 is a flowchart showing the operation of the motion vector generation unit 8 of the multimodal intention understanding device 100 according to the second embodiment.
  • the same steps as those of the multimodal intention understanding device 100 according to Embodiment 1 are denoted by the same reference numerals as those used in FIG. 6, and the description thereof is omitted or simplified.
  • the motion vector generation unit 8 selects a motion symbol in step ST3
  • the motion vector generation unit 8 refers to the intention integration rule including the selected motion symbol and the intention understanding model stored in the intention understanding model storage unit 7, and selects the selected motion symbol.
  • a motion vector weight vector is calculated for each intention integration rule included to generate a motion vector (step ST21).
  • the motion vector generation unit 8 takes an arithmetic average of the motion vectors for each intention integration rule generated in step ST21, and generates one motion vector for the motion symbol selected in step ST3 (step ST22).
  • the motion vector generated in step ST22 is stored in the motion vector database 5 together with the motion symbol selected in step ST3 (step ST5), and the process proceeds to step ST6.
  • FIG. 13 is an explanatory diagram illustrating a processing procedure of the motion vector generation unit 8 of the multimodal intention understanding device 100 according to the second embodiment.
  • the weight vector for the intention understanding result A is subtracted from the weight vector of the integrated intention understanding result C to obtain the weight vector 136 of the action symbol B (see FIG. 13B).
  • the calculation method of the weight vectors 136 and 139 shown in FIGS. 13B and 13C is the same as the method shown in FIGS. 7B to 7D of the first embodiment. .
  • the motion vector generation unit 8 takes the arithmetic mean of the weight vector 136 and the weight vector 139 generated at step ST21 and generates one motion vector 140 (see FIG. 13D).
  • the generated motion vector is stored in the motion vector database 5 as step ST5.
  • step ST15 the motion vector conversion unit 4 performs a search in the motion vector database 5 generated according to the flowchart of FIG. 12 described above, and performs conversion into a motion vector as step ST16.
  • the motion symbol of the recognition result of the motion recognition unit 3 is “room mirror gaze []”
  • the motion vector 140 is converted, and the intention is estimated in the same manner as in the first embodiment.
  • the operation vector of the operation symbol is calculated for each intention integration rule. Since the motion vector database 5 storing the arithmetic average of a plurality of motion vectors as a motion vector for one motion symbol is provided, when the motion vector conversion unit 4 converts motion symbols into motion vectors, It can be converted into a motion vector including a plurality of intentions approximating the symbol. Accordingly, the user's intention can be estimated from information obtained by integrating the motion vector that accurately reflects the content intended by the motion information and the intention understanding vector.
  • the multimodal intention understanding device 100 of the present invention can be applied to various languages by making changes based on various languages.
  • an action symbol recognized by the action recognition unit 3 is created by creating an intention understanding model from the defined intention and a sentence example learned with the defined intention as a correct answer.
  • the structure of the intent understanding model is not limited to natural language text. It is good also as a structure which creates a model and expresses other modal information as a vector which can be referred with an intention understanding model.
  • Embodiment 1 and Embodiment 2 mentioned above demonstrated the case where the speech recognition part 1 was provided and the speech recognition part 1 which recognizes the input audio
  • voice was demonstrated as an example, keyboards, a touch panel, etc. You may comprise so that the text recognition part which recognizes the text input by the input means may be provided. Moreover, you may comprise so that both a speech recognition part and a text recognition part may be provided.
  • the text analysis unit 2 performs text analysis of the speech recognition result and generates an intention understanding vector from the analysis result.
  • the speech recognition unit 1 may perform processing up to generating an intention understanding vector, and the text analysis unit 2 may be omitted.
  • Embodiments 1 and 2 described above the case where a learning model based on the maximum entropy method is assumed as the creation method of the intent understanding model has been described as an example. However, the creation method of the intent understanding model is limited. Not what you want.
  • the example in which the voice (first modal information) and the image data (second modal information) are input has been described.
  • More modal information such as 4 modal information can be configured as input.
  • the data format of the recognition results of the second, third, and fourth modal information is converted based on the intention integration rule.
  • a configuration corresponding to the motion vector conversion unit 4 is provided for the third modal information and the fourth modal information, and the data input from each configuration is integrated by the integrated intention understanding unit 6 to estimate the intention. Processing shall be performed.
  • the multimodal intention understanding device 100 includes the motion vector database 5, the intention understanding model storage unit 7, the motion vector generation unit 8, and the intention integration rule storage unit 9. Although shown, these configurations may be provided in an external device or an external area.
  • the present invention can be freely combined with each embodiment, modified any component of each embodiment, or omitted any component in each embodiment. Is possible.
  • the multimodal intent understanding device is capable of integrating and processing inputs composed of a plurality of modals. Therefore, the multimodal intent understanding device is applied to a navigation device capable of acquiring a plurality of modal information, etc. It is suitable for use in improving accuracy.
  • 1 speech recognition unit 2 text analysis unit, 3 motion recognition unit, 4 motion vector conversion unit, 5 motion vector database, 6 integrated intention understanding unit, 7 intention understanding model storage unit, 8 motion vector generation unit, 9 intention integration rule storage Unit, 61 integrated processing unit, 100 multimodal intention understanding device, 100a processor, 100b memory.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

 ユーザの音声の入力を受け付け、当該音声の認識処理を行う音声認識部(1)およびテキスト解析部(2)と、ユーザの動作情報の入力を受け付け、当該動作情報の認識処理を行う動作認識部(3)と、音声の認識結果である意図理解結果と動作情報の認識結果である動作シンボルとの組み合わせと、当該組み合わせによって得られる前記ユーザの意図を示す統合意図理解結果とを予め定義した意図統合ルールに基づいて、動作シンボルを意図理解結果と統合可能な動作ベクトルに変換する動作ベクトル変換部(4)と、意図理解結果と動作ベクトルとを統合し、統合したデータからユーザの意図を推定する統合意図理解部(6)とを備える。

Description

マルチモーダル意図理解装置およびマルチモーダル意図理解方法
 この発明は、マルチモーダルで入力された情報からユーザの意図を推定する技術に関するものである。ここで、マルチモーダルとは多モードを意味し、例えば、入力が音声の他、映像などの異なるメディアを用いて行われる。
 近年、人間が喋る言葉を音声入力し、当該音声入力の認識結果を用いて、機器やシステムを操作する技術が注目されている。この技術は、携帯電話やカーナビなどの音声インタフェースとして利用されているが、基本的な方法としては、予めシステムが想定した音声認識結果と操作を対応付けておき、システムが想定した音声認識結果が得られた場合には、対応付けられた操作を実行する。
 さらに、上述した方法をさらに向上させた技術として、音声認識結果を直接操作に結びつけるのではなく、ユーザの発話内容からユーザの意図を理解して操作する技術が開示されている。当該技術を実現する方法の1つに、予め収集した発話文例および操作(以下、学習データと称する)を対応付け、ユーザの発話からユーザの意図を統計的学習方法によってモデル化したモデルを利用して、実際のユーザの発話に対して意図を推定する方法(以下、統計的意図理解方法と称する)がある。
 統計的意図理解方法の具体的な処理内容について説明する。まず、学習データの発話文例から学習に使うタームを抽出する。抽出したタームの集合と正解の意図を入力学習データとして、統計的学習アルゴリズムにより、各タームと正解意図との重みを学習したモデルを出力する。学習に使うタームは、発話文例を形態素解析したデータから、単語や単語列を抽出したものが一般的である。たとえば、「○○駅に行きたい」といった発話文例からは、「○○駅(固有名詞・施設)/に(助詞)/行き(動詞・連用)/たい(助動詞)」といった形態素解析結果が得られる。得られた形態素解析結果から「$施設$、行く」(固有名詞の施設は$施設$という特殊シンボルに変換、動詞は原形に変換)といったタームや、「$施設$_に、に_行き、行き_たい」といった2連接の形態素タームを抽出する。
 結果として、「$施設$、行く、$施設$_に、に_行き、行き_たい」のタームに対して「目的地設定[目的地=$施設$]」(主意図が目的地設定であり、設定する目的地が$施設$)のように表現される正解意図を生成する。大量の発話文例から抽出したタームと正解意図とからなる学習データをもとに、モデルを作成する。モデル作成方法としては、例えば機械学習アルゴリズムを利用する。機械学習アルゴリズムは、全ての学習データに対して、最も正解意図が多く生成されるようタームと正解意図との重みを機械学習させる。従って、学習データに類似する発話から得られたタームに対しては、正解意図を出力する可能性が高いモデルが得られる。この機械学習方式としては、例えば最大エントロピー法を用いることできる。
 上述した機械学習アルゴリズムを利用して作成したモデルによって、ユーザの発話内容からユーザの意図を推定することにより、予め想定していない発話内容に対しても柔軟にユーザの意図を推定することができる。そのため、正式な言い回しを覚えていないユーザの発話であっても、適切に意図を推定し、操作を実行することが可能となる。
 一方で、ユーザは音声以外にも意図を特定するための情報を出力する場合があり、ジェスチャーや視線、周囲の状況などを含めて初めてユーザの意図が特定可能な場合がある。
 例えば、特許文献1に開示されたマルチモーダル情報統合解析装置では、ユーザが地図上の特定の場所を丸で囲みながら、「京都ホテルはこの辺りですか」という発話した場合、発話に含まれる指示語をジェスチャーの対象として紐付けを行い、「この辺り」が示す場所を丸で囲んだ場所周辺と判断してシステム応答を生成する。
 しかし、上述した特許文献1の技術では、ユーザの発話内容に指示語が含まれない場合に、ユーザ意図を推定することができないという問題があった。さらに、ユーザの明らかな意思によって行われるジェスチャー動作を紐付けるものであり、例えば車を運転中に前に身を乗り出しながら「見えないな」と発話するような、無意識、且つジェスチャーそのものが特定の指示語に対応付けることが困難な場合には、ユーザの意図を推定することができないという問題があった。
 この問題を解決する方法として、特許文献2には、指示語を含まない発話とジェスチャーの組み合わせに基づいてユーザの動作を記述する知的エージェント構築支援システムが開示されている。当該知的エージェント構築支援システムの入力メディアは、音声、キーボード、マウス、ペン、身振り、画面などで構成され、各入力メディアごとにマルチモーダルルールを定義し、指定された条件下で定義した内容が観測された場合に、該当するマルチモーダルルールが実行可能であると判定する。
特開平9-114634号公報 特開平9-251368号公報
 上述した特許文献2に開示された技術では、無意識なユーザの動作であっても、マルチモーダルルールに定義されていれば、該当するマルチモーダルルールを実行することによりユーザの意図を推定することができる。しかしながら、1つのユーザ動作に対して定義されたマルチモーダルルールを実行する構成であることから、マルチモーダルルールに定義されていないコマンドを実行するためのユーザの意図は推定することはできないという課題があった。また、無意識のユーザの動作を含む、ユーザのあらゆる動作をルール化することは困難であるという課題があった。
 この発明は、上記のような課題を解決するためになされたもので、予めユーザの意図が定義されていない複数のモーダルで入力された情報の組み合わせから、ユーザの意図を推定することを目的とする。
 この発明に係るマルチモーダル意図理解装置は、ユーザの第1のモーダル情報の入力を受け付け、当該第1のモーダル情報の認識処理を行う第1のモーダル情報認識部と、ユーザの第2のモーダル情報の入力を受け付け、当該第2のモーダル情報の認識処理を行う第2のモーダル情報認識部と、第1のモーダル情報の認識結果と第2のモーダル情報の認識結果との組み合わせと、当該組み合わせによって得られるユーザの意図を示す統合意図とを予め定義した意図統合ルールに基づいて、第2のモーダル情報認識部の認識結果を、第1のモーダル情報認識部の認識結果と統合可能な情報に変換するモーダル情報変換部と、第1のモーダル情報認識部の認識結果と、モーダル情報変換部の変換結果とを統合し、統合したデータからユーザの意図を推定する統合意図理解部とを備える。
 この発明によれば、予めユーザの意図が定義されていない複数のモーダルで入力された情報の組み合わせから、ユーザの意図を推定することができる。これにより、あらゆるモーダル情報を考慮して、より多くの情報に基づいてユーザの意図を推定することができる。また、1つのモーダルで入力された情報のみを用いてユーザの意図を推定する場合と比較して、より正確にユーザの意図を推定することができる。
実施の形態1に係るマルチモーダル意図理解装置の構成を示すブロック図である。 実施の形態1に係るマルチモーダル意図理解装置に定義されたユーザの意図の一例を示す図である。 実施の形態1に係るマルチモーダル意図理解装置が予め学習する文例の一例を示す図である。 実施の形態1に係るマルチモーダル意図理解装置の意図理解モデル蓄積部が蓄積する意図理解モデルの一例を示す図である。 実施の形態1に係るマルチモーダル意図理解装置の意図統合ルール蓄積部が蓄積した意図統合ルールを示す図である。 実施の形態1に係るマルチモーダル意図理解装置の動作ベクトル生成部の動作を示すフローチャートである。 実施の形態1に係るマルチモーダル意図理解装置の動作ベクトル生成部の処理手順を示す説明図である。 実施の形態1に係るマルチモーダル意図理解装置の動作ベクトルデータベースの一例を示す図である。 実施の形態1に係るマルチモーダル意図理解装置の意図理解処理の動作を示すフローチャートである。 実施の形態1に係るマルチモーダル意図理解装置の意図理解処理の手順を示す説明図である。 実施の形態2に係るマルチモーダル意図理解装置の意図統合ルール蓄積部が蓄積した意図統合ルールを示す図である。 実施の形態2に係るマルチモーダル意図理解装置の動作ベクトル生成部の動作を示すフローチャートである。 実施の形態2に係るマルチモーダル意図理解装置の動作ベクトル生成部の処理手順を示す説明図である。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
 本実施の形態のマルチモーダル意図理解装置は2以上のモーダル情報が入力されるものである。例えば、第1のモーダル情報はユーザが発話した音声であり、第2のモーダル情報はユーザの動作、視線および生体反応などであるとする。なお、モーダルは上記以外にも適応可能である。
 以下の実施の形態1および実施の形態2では、当該マルチモーダル意図理解装置に2つのモーダル情報が入力されるものとし、第1のモーダル情報がユーザの音声であり、第2のモーダル情報がユーザの動作である場合を例に説明を行う。また、以下では当該マルチモーダル意図理解装置を車両に搭載されたナビゲーションシステムに適用した場合を例に説明する。
実施の形態1.
 図1は、実施の形態1に係るマルチモーダル意図理解装置100の構成を示す図である。図1(a)はマルチモーダル意図理解装置100の機能ブロック図を示し、図1(b)はマルチモーダル意図理解装置100のハードウェア構成図を示している。
 マルチモーダル意図理解装置100は、音声認識部1およびテキスト解析部2(モーダル情報認識部)、動作認識部(モーダル情報認識部)3、動作ベクトル変換部(モーダル変換部)4、動作ベクトルデータベース5、統合意図理解部6、意図理解モデル蓄積部7、動作ベクトル生成部8および意図統合ルール蓄積部9で構成されている。
 音声認識部1、テキスト解析部2、動作認識部3、動作ベクトル変換部4、統合意図理解部6および動作ベクトル生成部8は、プロセッサ100aがメモリ100bに記憶されたプログラムを実行することにより、実現される。また、複数のプロセッサおよび複数のメモリが連携して上記機能を実行してもよい。動作ベクトルデータベース5、意図理解モデル蓄積部7、および意図統合ルール蓄積部9は、メモリ100bが備えているものとする。
 音声認識部1は、ユーザの発話による音声(第1のモーダル情報)を入力とし、当該入力音声の音声認識を行い、音声認識結果を出力する。テキスト解析部2は、音声認識結果についてテキスト解析を行い、解析結果からユーザの意図を示すベクトルである意図理解ベクトルを生成する。動作認識部3は、ユーザの動作を撮像した画像データなどで構成される動作情報(第2のモーダル情報)を入力とし、入力された画像データからユーザの動作を認識して動作シンボルを生成する。
 動作ベクトル変換部4は、動作ベクトルデータベース5を参照し、動作認識部3が生成した動作シンボルを動作ベクトルに変換する。動作ベクトルは、テキスト解析部2が生成する意図理解ベクトルと同一形式のベクトルである。即ち、動作ベクトル変換部4は、第2のモーダル情報の認識結果のデータ形式を第1のモーダル情報の認識結果のデータ形式に変換する処理を行う。動作ベクトルデータベース5は、動作シンボルの重みベクトルから計算される動作ベクトルを、動作シンボルに対応付けて記憶している。詳細は後述するが、図8に動作ベクトルの詳細を示している。
 統合意図理解部6は、テキスト解析部2が生成した意図理解ベクトルと、動作ベクトル変換部4が変換した動作ベクトルとを統合する統合処理部61を備える。統合意図理解部6は、統合処理部61が統合したベクトルからユーザの意図を推定する処理を行い、推定結果を統合意図理解結果として出力する。なお、統合したベクトルからユーザの意図を推定する処理では、意図理解モデル蓄積部7を参照して各意図のスコアを取得し、取得した各意図のスコアと、統合したベクトルのスコアとを比較する。比較によりユーザの意図に近似する意図であると算出された結果をユーザの意図であると推定する。意図理解モデル蓄積部7は、機械学習された意図理解モデルを蓄積する記憶領域である。意図理解モデルのターム(形態素または素性)は自然言語で構成され、あるタームに対して、複数のユーザの意図への重みが定義されている。詳細は後述するが、図4に意図理解モデルの詳細を示している。
 動作ベクトル生成部8は、意図理解モデル蓄積部7に蓄積された意図理解モデルと、意図統合ルール蓄積部9に蓄積された意図統合ルールとを参照し、動作ベクトルデータベース5を構成する動作ベクトルを生成する。動作ベクトル生成部8は、意図統合ルールに基づいて、ある1つの意図理解結果とある1つの動作シンボルとから、ある1つの統合意図理解結果が得られる場合に、意図理解モデルに定義されている重みから、ある動作シンボルに相当する動作ベクトルを生成する。当該動作ベクトルの生成処理を複数の動作シンボルに対して行い、データベース化することにより、動作ベクトルデータベース5が生成される。なお、動作ベクトル生成部8は、動作ベクトル変換部4が動作シンボルを動作ベクトルに変換する処理を行う前に、動作ベクトルデータベース5を生成する処理を完了しておく。意図統合ルール蓄積部9は、ある意図理解結果とある動作シンボルとの組み合わせにより、ある統合意図理解結果が生成されることを示す統合ルールを蓄積している。詳細は後述するが、図5に意図統合ルールを蓄積している。
 次に、マルチモーダル意図理解装置100の詳細について、動作ベクトル生成処理と意図理解処理に分けて説明行う。
(i)動作ベクトル生成処理
 まず、実施の形態1のマルチモーダル意図理解装置100に予め定義されたユーザの意図について説明する。定義されたユーザの意図は、動作ベクトルを生成する際に参照する。
 図2は、実施の形態1に係るマルチモーダル意図理解装置100に定義されたユーザの意図の一例を示す図であり、上述のようにマルチモーダル意図理解装置100が車両に搭載されたナビゲーションシステムに適用された場合を例に示している。
 図2の番号(a)から(d)は、エアコンの温度操作に関して定義されたユーザの意図を示している。番号(a)で定義された意図「エアコン温度操作[{場所=NULL},{温度=下げる}]」を例に説明すると、意図は「エアコン温度操作」である操作意図と、「{場所=NULL}」である操作場所を特定する情報と、「{温度=下げる}」である変更内容で構成されている。意図は、操作意図を具体化するスロットフレームの組み合わせで表現して定義されている。なお、「NULL」と記載されている項目は、値が未定であることを示している。
 また、図2の番号(h)から番号(j)は、画面変更に関して定義されたユーザの意図を示している。このように、マルチモーダル意図理解装置100には、多様な意図が定義されているものとする。
 次に、図2で示した意図を正解とする文例の学習について説明する。図3は、実施の形態1に係るマルチモーダル意図理解装置100が予め学習する文例の一例を示す図である。
 文例「温度を下げる」、「暑い」は、図2で示した番号(a)の意図「「エアコン温度操作[{場所=NULL},{温度=下げる}]」を正解とする文例である。また、文例「運転席の温度を下げて」は、図2で示した番号(b)の意図「「エアコン温度操作[{場所=前},{温度=下げる}]」を正解とする文例である。
 このように、マルチモーダル意図理解装置100は、図2で示した意図を正解とする複数の文例を予め学習しているものとする。
 次に、図2で示した定義された意図と、図3で示した定義された意図を正解として学習された文例とから作成される意図理解モデルについて説明する。意図理解モデルは、例えば以下の参考文献1などに開示された最大エントロピー法を適用して、機械学習することにより作成される。この実施の形態1では、図2で示した意図を含む多様な意図を、図3で示した学習文例を用いて学習する。意図の学習では、まず、図3で示した学習文例から意図を理解するための学習に使うターム(形態素あるいは素性)を抽出する。タームの抽出方法は種々適用可能であるが、例えば、自立単語を辞書の見出し表記、および否定表現の場合には否定表現を付したもの(「見えない」の辞書の見出し表記では「見える」であるが、否定としての意味を有することから「-NOT」を付与したもの)をタームとして抽出する。
   [参考文献1]
北研二著、「確率的言語モデル」、東京大学出版会(1999/11)、ISBN 4-13-065404-7、第6章 最大エントロピーモデル
 さらに、抽出したタームについて、重み付けを行う。重み付けは、定義された意図(例えば図2)に対して抽出したタームが重要なタームであるか否かに基づいて行う。定義された意図に対して重要なタームである場合には正の数値を付し、重要でないタームである場合には負の数値を付す。さらに、重要度に応じて正の数値あるいは負の数値の大小を変化させる。これらの数値を重み付けの値として用いてもよいし、これらの値を対数に変換したものを重み付けの値としてもよい。このように学習された意図理解モデルは、意図理解モデル蓄積部7に蓄積される。
 図4は、実施の形態1に係るマルチモーダル意図理解装置100の意図理解モデル蓄積部7が蓄積する意図理解モデルの一例を示す図である。
 意図理解モデルは、各意図に対して、自然言語で構成された各タームの重み値が示されている。例えば、意図(a)(図2よりエアコン温度操作[{場所=NULL},{温度=下げる}])に対して、ターム「温度」、「下げる」、「上げる」、「暑い」は、重要なタームであることから、正の大きな数値が設定されている。一方、ターム「寒い」、「後ろ」、「運転席」、「画面」などは意図(a)にとって重要なタームでないことから、負の小さな数値が設定されている。
 次に、意図統合ルール蓄積部9に蓄積された意図統合ルールについて説明する。図5は、実施の形態1に係るマルチモーダル意図理解装置100の意図統合ルール蓄積部9が蓄積した意図統合ルールを示す図である。
 図5(a)は意図統合ルールの概要を示す説明図であり、図5(b)は意図統合ルールの具体例を示す図である。
 図5(a)で示した意図統合ルールは、テキスト解析部2による意図理解結果Aと、動作認識部3による動作シンボルBが一定時間内に発生した場合に、統合意図理解結果Cに変換することを示している。
 図5(a)で示した意図統合ルールに基づいて、ユーザがある発話をある動作と共に行った場合に得られる具体的な意図統合ルールが予め学習されている。図5(b)に学習された意図統合ルールの一例を示している。意図統合ルール51は、ユーザがルームミラーを見ながら「見えないな」と発話した場合、テキスト解析部2が意図理解結果Aとして「画面変更[{対象=NULL}]」を取得し、動作認識部3が一定時間内に動作シンボルBとして「ルームミラー注視[]」を認識した場合、統合意図理解結果Cとして「画面変更[{場所=リアカメラ}]」が得られることを示している。
 上述のように蓄積された意図理解モデルおよび意図統合ルールに基づいて生成される動作ベクトルについて説明する。
 まず、動作ベクトル生成部8による動作ベクトル生成手順について説明する。
 図6は、実施の形態1に係るマルチモーダル意図理解装置100の動作ベクトル生成部8の動作を示すフローチャートである。
 動作ベクトル生成部8は、意図統合ルール蓄積部9に蓄積された意図統合ルールから全ての動作シンボルを抽出し(ステップST1)、動作シンボルリストを作成する(ステップST2)。ステップST2で作成した動作シンボルリストから動作シンボルを選択する(ステップST3)。
 ステップST3で選択した動作シンボルを含む意図統合ルールと、意図理解モデル蓄積部7に蓄積された意図理解モデルを参照して、ステップST3で選択した動作シンボルの重みベクトルを計算し、動作ベクトルを生成する(ステップST4)。ステップST4で生成された動作ベクトルは、ステップST3で選択した動作シンボルと共に、動作ベクトルデータベース5に格納する(ステップST5)。ステップST2で作成した動作シンボルリストを参照し、全ての動作シンボルについて処理を行ったか否か判定を行う(ステップST6)。全ての動作シンボルについて処理を行っていない場合(ステップST6;NO)、ステップST3の処理に戻り、上述した処理を繰り返す。一方、全ての動作シンボルについて処理を行った場合(ステップST6;YES)、処理を終了する。
 次に、図7に示した具体例を参照しながら、ステップST4の動作ベクトルの生成についてより詳細に説明する。
 図7は、実施の形態1に係るマルチモーダル意図理解装置100の動作ベクトル生成部8の処理手順を示す説明図である。
 ステップST3として図7(a)に示す意図統合ルール71から、動作シンボル72「ルームミラー注視[]」が選択されたものとする。ステップST4として、動作ベクトル生成部8は、意図理解モデル蓄積部7に蓄積された意図理解モデルを参照し、意図理解結果Aである意図73「画面変更[{対象=NULL}]」に対応付けられた全ての重みベクトル75と、統合意図理解結果Cである意図74「画面変更[{場所=リアカメラ}]」に対応付けられた全ての重みベクトル76を取得する(図7(b)参照)。
 さらに、統合意図理解結果Cの重みベクトル76から、意図理解結果Aに対する重みベクトル75を減算し、動作シンボルBの重みベクトル77とする(図7(c)参照)。動作シンボルBの重みベクトル77は、各要素の値が対数に変換されて保持されていることから、指数に逆変換され、さらに総和が1となるように変換され、動作ベクトル78が生成する(図7(d)参照)。
 ステップST5として、ステップST4で生成した動作ベクトルを、動作シンボル72「ルームミラー注視[]」と共に、動作ベクトルデータベース5に格納する。図8に動作ベクトルデータベース5の格納例を示す。動作ベクトルデータベース5は、各動作シンボルについて、意図理解モデルを構成する各タームの動作ベクトルが対応付けられている。図8の例では、図4で示した意図理解モデルの各ターム、「温度」、「下げる」、「上げる」などについて、図7で示した動作シンボル72の動作ベクトル78が対応付けられている。
(ii)意図理解処理
 次に、上述のように作成された動作ベクトルデータベース5を参照して、意図理解結果を得るための意図理解処理について説明する。
 なお、以下では、マルチモーダル意図理解装置100には音声による入力および動作による入力が行われるものとして説明を行う。音声による入力と動作による入力が存在する場合、音声入力が行われる時間と、動作入力が行われる時間とにずれが発生することが考えられる。そのため、音声入力と動作入力とを1つの入力処理と判断して処理を行う、あるいは音声入力と動作入力とを異なる入力処理と判断して処理を行うことが可能である。この実施の形態1のマルチモーダル意図理解装置100では、周知技術を適用して、ユーザの発話開始前一定時間から発話終了後一定時間の期間が、ユーザの動作開始前一定時間から動作終了後一定時間の期間と重なる場合には、音声入力と動作入力とを1つの入力処理と判断するものとする。
 図9は、実施の形態1に係るマルチモーダル意図理解装置100の意図理解処理の動作を示すフローチャートである。
 マルチモーダル意図理解装置100にユーザの音声が入力されると、音声認識部1は入力された音声について音声認識処理を行い、音声認識結果を生成する(ステップST11)。テキスト解析部2は、ステップST11で生成された音声認識結果を意図理解ベクトルに変換し、統合意図理解部6に出力する(ステップST12)。
 一方、マルチモーダル意図理解装置100に動作情報が入力されると、動作認識部3は入力された動作情報から動作シンボルを取得する(ステップST13)。動作ベクトル変換部4は、ステップST13で動作シンボルが取得されたか否か判定を行う(ステップST14)。動作シンボルが取得された場合(ステップST14;YES)、動作ベクトル変換部4は、ステップST13で取得された動作シンボルをキーとして動作ベクトルデータベース5内を検索する(ステップST15)。ステップST15の検索結果に基づいてステップST13で取得された動作シンボルを動作ベクトルに変換し、統合意図理解部6に出力する(ステップST16)。一方、動作シンボルが取得されなかった場合(ステップST14;NO)、ステップST18の処理に進む。
 統合意図理解部6の統合処理部61は、ステップST12で変換された意図理解ベクトルと、ステップST16で変換された動作ベクトルが入力され場合、意図理解ベクトルに動作ベクトルを加算し、意図理解ベクトルを更新する(ステップST17)。
 統合意図理解部6は、意図理解モデル蓄積部7を参照し、ステップST17で更新された意図理解ベクトル、あるいは動作シンボルが取得されなかった場合にはステップST12で変換された意図理解ベクトルに対する認識スコアを取得する(ステップST18)。ステップST18で取得した認識スコアのうち、最も高いスコア値を有する意図理解結果を統合意図理解結果として出力する(ステップST19)。その後、フローチャートはステップST11の処理に戻り、上述した処理を繰り返す。
 次に、新たな音声および動作情報が入力された場合の処理について、図10の具体例を参照しながら、図9で示したフローチャートに基づいて説明を行う。
 図10は、実施の形態1に係るマルチモーダル意図理解装置100の意図理解処理の手順を示す説明図である。
 図10ではユーザが「ルームミラーを見ながら「暑そうだね」と発話した」との発話および動作101を行った例を示している。マルチモーダル意図理解装置100には、音声として「暑そうだね」との発話が入力され、動作情報102として「ルームミラーを見る」との情報が入力される。このとき、音声入力と動作入力は、上述のように一定間隔内で発生した1つの入力処理として処理すべきであるとマルチモーダル意図理解装置100が判断したものとして説明を行う。
 ステップST11として、音声認識部1は入力された音声から正しい音声認識結果103「暑そうだね」を取得し、ステップST12としてテキスト解析部2は音声認識結果103を意図理解ベクトル104に変換し、統合意図理解部6に出力する。意図理解ベクトルはタームとベクトル値で構成される。意図理解ベクトルのベクトル値は、音声に特定のタームが出現する頻度を示す値である。図10の例では、音声に出現したタームが「暑い」のみであることから、ターム「暑い」のみがベクトル値「1.0」を有し、他のタームは全てベクトル値「0.0」となる。
 一方、ステップST13として、動作認識部3は入力された動作情報から動作シンボル105として「ルームミラー注視[]」を取得する。ステップST14として、動作ベクトル変換部4は動作シンボル105を取得したと判定し、ステップST15として取得した動作シンボル105をキーとして動作ベクトルデータベース5内を検索する。ステップST16として該当する動作ベクトル106を取得し、統合意図理解部6に出力する。
 例えば、図8に示した動作ベクトルデータベース5内を、動作シンボル105「ルームミラー注視[]」をキーとして検索を行った場合、当該キーに相当する動作シンボルが存在し、図10に示す動作ベクトル106(例えば、ターム「温度」、「下げる」、「上げる」・・・に対するベクトル値「0.033」、「0.046」、「0.053」・・・)が得られる。
 動作ベクトルの値は、検索のキーとした動作シンボルについて、各タームが重要であるか示す値、すなわち当該動作シンボルが取得された場合にユーザの意図として各タームが出現する頻度を示す値である。
 ステップST17として、統合意図理解部6の統合処理部61は、意図理解ベクトル104に動作ベクトル106を加算し、更新した意図理解ベクトル107を得る。意図理解ベクトル104と動作ベクトル106の加算は、予め決定した割合αで行う。具体的には、「(意図理解ベクトル)+α・(ジェスチャーベクトル)」との計算を行う。割合αの値は、意図理解処理に用いる動作情報の重みを決定するものであり、α=0の場合には入力された音声のみを用いて意図理解処理が行われることを示す。図10で示した更新後の意図理解ベクトル107は、α=1として意図理解ベクトル104と動作ベクトル106を加算した結果を示している。
 次に、ステップST18として、統合意図理解部6はステップST17で得られた意図理解ベクトル107と、意図理解モデル蓄積部7に蓄積された意図理解モデルを構成する各意図の重みベクトルとの内積を取り、認識スコアを取得する。図10においてスコア108が認識スコアを示し、意図(a)から意図(j)について内積結果を加算した値を示している。ステップST19として、統合意図理解部6はステップST18で取得した認識スコアのスコア108の値を参照し、最大の値を有する意図(c)を統合意図理解結果109として出力する。図2で示した定義された意図を参照することにより、ステップST19で統合意図理解結果109として出力する意図(c)は「エアコン温度操作[{場所=後}、{温度=下げる}]」であることが分かる。
 このように、意図統合ルール蓄積部9に該当するエアコン操作に関する意図統合ルール「エアコン[{場所=NULL}、{温度=下げる}]+「ルームミラー注視[]」→[{場所=後}、{温度=下げる}]」が規定されていない場合であっても、ユーザの動作情報から動作シンボル「ルームミラーを注視[]」が取得された場合に、ユーザの動作が「後ろ」を意識した動作であると推定した統合意図理解結果「エアコン温度操作[{場所=後}、{温度=下げる}]」を得ることができる。
 以上のように、この実施の形態1によれば、音声認識部1の音声認識結果をテキスト解析して意図理解ベクトルを生成するテキスト解析部2と、予め意図統合ルール蓄積部9に蓄積された意図統合ルールから抽出された動作シンボルの動作ベクトルを蓄積した動作ベクトルデータベース5を参照して、動作情報から認識された動作シンボルを動作ベクトルに変換する動作ベクトル変換部4と、意図理解ベクトルと動作ベクトルとを入力としてユーザの意図理解処理を行う統合意図理解部6を備えるように構成したので、動作情報から認識された動作シンボルを、意図理解ベクトルと統合可能な情報に変換し、動作情報が示すユーザの意図を意図理解ベクトルと統合することができる。これにより、複数のモーダル情報を統合した情報からユーザの意図を推定することができ、多くの情報に基づいて、正確にユーザの意図を推定することができる。
 また、この実施の形態1によれば、動作ベクトル変換部4は、意図理解モデル蓄積部7に蓄積された自然言語で構成された意図理解モデルを構成する各タームについて動作ベクトルを記述した動作ベクトルデータベース5を参照して、動作シンボルを動作ベクトルに変換するように構成したので、入力された動作情報を自然言語で構成された意図理解モデルに記述されたタームに置き換えることができ、動作情報が意図する内容を言語的に表すことができる。これにより、意図統合ルールで定義されていない音声と動作情報との組み合わせに対しても、意図理解ベクトルと動作ベクトルとを統合することにより、統合した結果からユーザの意図を推定することができる。これにより、複数のモーダル情報を用いてユーザの意図を推定することができる。
 また、実施の形態1によれば、動作ベクトル生成部8が、意図統合ルール蓄積部9に蓄積された意図統合ルールに記述された意図理解結果と動作シンボルと統合意図理解結果の関係から、意図理解モデル蓄積部7に蓄積された意図理解モデルを参照して、動作シンボルに相当する動作ベクトルを生成した動作ベクトルを蓄積した動作ベクトルデータベース5を備えるように構成したので、意図統合ルールに定義された動作シンボルが少数であっても、動作ベクトル変換部4は近似する動作ベクトルに変換することで、動作情報が意図する内容を言語的に表すことができる。これにより、音声と動作情報が意図統合ルールに記述されていない組み合わせであった場合にも、ユーザの意図を推定することができる。
実施の形態2.
 実施の形態2では、1つの動作シンボルに対して複数の意図統合ルールが蓄積されている場合について説明する。
 なお、実施の形態2係るマルチモーダル意図理解装置100の構成は、図1で示した実施の形態1のマルチモーダル意図理解装置100と同一であるため、ブロック図の記載を省略する。また、実施の形態1で使用した符号と同一の符号を付して以下説明を行う。さらに、動作ベクトル生成部8の処理動作以外は、実施の形態1と同様であるため、説明を省略する。
(iii)動作ベクトル生成処理
 図11は、実施の形態2に係るマルチモーダル意図理解装置100の意図統合ルール蓄積部9が蓄積した意図統合ルールを示す図である。
 図11(a)は意図統合ルールの概要を示す説明図であり、実施の形態1と同一である。意図統合ルールは、テキスト解析部2による意図理解結果Aと、動作認識部3による動作シンボルBが一定時間内に発生した場合に、統合意図理解結果Cに変換することを示している。
 一方、図11(b)は、図11(a)に示した意図統合ルールに基づいて学習された意図統合ルールの具体例を示す図である。
 意図統合ルール111は、テキスト解析部2が意図理解結果Aとして、変更対象は不明であるが画面変更を意図する「画面変更[{対象=NULL}]」を取得し、動作認識部3が音声の入力から一定時間内に動作シンボルBとして、ルームミラーを見る動作シンボル「ルームミラー注視[]」を取得した場合、統合意図理解結果Cとして「画面変更[{場所=リアカメラ}]」が得られることを示している。
 意図統合ルール111は、例えばユーザがルームミラーを見ながら「見えないな」と発話した場合などが想定される。
 意図統合ルール112は、テキスト解析部2が意図理解結果Aとして、変更場所は不明であるがエアコンの温度を下げることを意図する「エアコン[{場所=NULL}、{温度=下げる}]」を取得し、動作認識部3が音声の入力から一定時間内に動作シンボルBとして、ルームミラーを見る動作シンボル「ルームミラー注視[]」を取得した場合、統合意図理解結果Cとして「エアコン[{場所=後}、{温度=下げる}]」が得られることを示している。
 意図統合ルール112は、例えばユーザがルームミラーを見ながら「暑そうだね」と発話した場合などが想定される。
 上述のように蓄積された意図統合ルールと、意図理解モデル蓄積部7に蓄積された意図理解モデルから生成される動作ベクトルについて説明する。
 まず、動作ベクトル生成部8による動作ベクトル生成手順について説明する。
 図12は、実施の形態2に係るマルチモーダル意図理解装置100の動作ベクトル生成部8の動作を示すフローチャートである。実施の形態1に係るマルチモーダル意図理解装置100と同一のステップには図6で使用した符号と同一の符号を付し、説明を省略または簡略化する。
 動作ベクトル生成部8は、ステップST3で動作シンボルを選択すると、選択した動作シンボルを含む意図統合ルールと、意図理解モデル蓄積部7に蓄積された意図理解モデルを参照して、選択した動作シンボルを含む意図統合ルール毎に動作シンボルの重みベクトルを計算し、動作ベクトルを生成する(ステップST21)。
 動作ベクトル生成部8は、ステップST21で生成された意図統合ルール毎の動作ベクトルの相加平均を取り、ステップST3で選択した動作シンボルに対する1つの動作ベクトルを生成する(ステップST22)。ステップST22で生成された動作ベクトルは、ステップST3で選択した動作シンボルと共に、動作ベクトルデータベース5に格納し(ステップST5)、ステップST6の処理に進む。
 次に、図12に示した具体例を参照しながら、ステップST21およびステップST22の動作ベクトルの生成についてより詳細に説明する。
 図13は、実施の形態2に係るマルチモーダル意図理解装置100の動作ベクトル生成部8の処理手順を示す説明図である。
 ステップST3として図13(a)に示す2つの意図統合ルール131,132から、「ルームミラー注視[]」の動作シンボル133が選択されたものとする。ステップST21として、動作ベクトル生成部8は、意図理解モデル蓄積部7に蓄積された意図理解モデルを参照し、意図理解結果Aである意図134「画面変更[{対象=NULL}]」に対応付けられた全ての重みベクトルと、統合意図理解結果Cである意図135「画面変更[{場所=リアカメラ}]」に対応付けられた全ての重みベクトルを取得する。さらに統合意図理解結果Cの重みベクトルから、意図理解結果Aに対する重みベクトルを減算し、動作シンボルBの重みベクトル136とする(図13(b)参照)。
 同様に、ステップST21として、意図理解結果Aである意図137「エアコン[{場所=NULL},{温度=下げる}]」に対応付けられた全ての重みベクトルと、統合意図理解結果Cである意図138「エアコン[{場所=後},{温度=下げる}]」に対応付けられた全ての重みベクトルを取得する。さらに統合意図理解結果Cの重みベクトルから、意図理解結果Aに対する重みベクトルを減算し、動作シンボルBの重みベクトル139とする(図13(c)参照)。なお、図13(b)および図13(c)で示した重みベクトル136,139の算出方法は、実施の形態1の図7(b)から図7(d)で示した方法と同一である。
 ステップST22として、動作ベクトル生成部8は、ステップST21で生成された重みベクトル136と重みベクトル139の相加平均を取り、1つの動作ベクトル140を生成する(図13(d)参照)。生成した動作ベクトルは、ステップST5として動作ベクトルデータベース5に格納される。
(iv)意図理解処理
 マルチモーダル意図理解装置100にユーザの音声および動作情報が入力されると、実施の形態1の図9のフローチャートに従って、意図理解処理を行う。ステップST15として、動作ベクトル変換部4は、上述した図12のフローチャートに従って生成された動作ベクトルデータベース5内の検索を行い、ステップST16として動作ベクトルへの変換を行う。
 例えば、動作認識部3の認識結果の動作シンボルが「ルームミラー注視[]」の場合には、動作ベクトル140に変換し、以降実施の形態1と同様に意図を推定する。
 以上のように、この実施の形態2によれば、1つの動作シンボルに対して複数の意図統合ルールが蓄積されている場合に、意図統合ルール毎に動作シンボルの動作ベクトルを算出し、算出した複数の動作ベクトルの相加平均を、1つの動作シンボルに対する動作ベクトルとして格納した動作ベクトルデータベース5を備えるように構成したので、動作ベクトル変換部4において動作シンボルから動作ベクトルに変換する際に、動作シンボルに近似する複数の意図を含む動作ベクトルに変換することができる。これにより、動作情報が意図する内容を正確に反映した動作ベクトルと、意図理解ベクトルとを統合した情報から、ユーザの意図を推定することができる。
 上述した実施の形態1および実施の形態2では、日本語を言語とする場合を例に示したが、意図を理解するための学習に使うタームの抽出方法を、英語、ドイツ語、および中国語など種々の言語に基づいて変更することにより、様々な言語に対して本願発明のマルチモーダル意図理解装置100を適用することができる。
 また、上述した実施の形態1および実施の形態2では、定義された意図と、当該定義された意図を正解として学習された文例から意図理解モデルを作成し、動作認識部3が認識した動作シンボルを作成された意図理解モデルを構成する自然言語で表した動作ベクトルに変換する構成示したが、意図理解モデルの構成は自然言語のテキストに限定されるものではなく、手話などの動作から意図理解モデルを作成し、その他のモーダル情報を意図理解モデルで参照可能なベクトルとして表現する構成としてもよい。
 また、上述した実施の形態1および実施の形態2では、音声認識部1を備え、入力された音声を認識する音声認識部1を備える場合を例に説明を行ったが、キーボードやタッチパネルなどの入力手段により入力されたテキストを認識するテキスト認識部を備えるように構成してもよい。また、音声認識部とテキスト認識部の双方を備えるように構成してもよい。
 また、上述した実施の形態1および実施の形態2では、テキスト解析部2において音声認識結果のテキスト解析を行い、解析結果から意図理解ベクトルを生成する構成を示したが、音声認識部1の音声認識結果がテキストのみではなく形態素単位で抽出される場合には、音声認識部1で意図理解ベクトルを生成する処理までを行い、テキスト解析部2を省略してもよい。
 また、上述した実施の形態1および実施の形態2では、意図理解モデルの作成方法として、最大エントロピー法による学習モデルを想定した場合を例に説明を行ったが、意図理解モデルの作成方法を限定するものではない。
 また、上述した実施の形態1および実施の形態2では、音声(第1のモーダル情報)および画像データ(第2のモーダル情報)を入力とする例を示したが、第3のモーダル情報、第4のモーダル情報などより多くのモーダル情報を入力として構成することができる。その場合、第2、第3、第4のモーダル情報の認識結果を意図統合ルールに基づいてデータ形式を変換する。具体的には、動作ベクトル変換部4に相当する構成を、第3のモーダル情報および第4のモーダル情報についても設け、各構成から入力されたデータを統合意図理解部6で統合し、意図推定処理を行うものとする。
 また、上述した実施の形態1および実施の形態2では、マルチモーダル意図理解装置100が動作ベクトルデータベース5、意図理解モデル蓄積部7、動作ベクトル生成部8および意図統合ルール蓄積部9を備える構成を示したが、これらの構成を外部装置あるいは外部領域が備えるように構成してもよい。
 上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 この発明に係るマルチモーダル意図理解装置は、複数のモーダルで構成される入力を統合して処理することが可能なため、複数のモーダル情報を取得可能なナビゲーション装置などに適用し、ユーザの意図推定の正確性向上に用いるのに適している。
 1 音声認識部、2 テキスト解析部、3 動作認識部、4 動作ベクトル変換部、5 動作ベクトルデータベース、6 統合意図理解部、7 意図理解モデル蓄積部、8 動作ベクトル生成部、9 意図統合ルール蓄積部、61 統合処理部、100 マルチモーダル意図理解装置、100a プロセッサ、100b メモリ。

Claims (7)

  1.  ユーザの第1のモーダル情報の入力を受け付け、当該第1のモーダル情報の認識処理を行う第1のモーダル情報認識部と、
     前記ユーザの第2のモーダル情報の入力を受け付け、当該第2のモーダル情報の認識処理を行う第2のモーダル情報認識部と、
     前記第1のモーダル情報の認識結果と前記第2のモーダル情報の認識結果との組み合わせと、当該組み合わせによって得られる前記ユーザの意図を示す統合意図とを予め定義した意図統合ルールに基づいて、前記第2のモーダル情報認識部の認識結果を、前記第1のモーダル情報認識部の認識結果と統合可能な情報に変換するモーダル情報変換部と、
     前記第1のモーダル情報認識部の認識結果と、前記モーダル情報変換部の変換結果とを統合し、統合したデータから前記ユーザの意図を推定する統合意図理解部とを備えたマルチモーダル意図理解装置。
  2.  前記第1のモーダル情報が、前記ユーザの音声であって、
     前記第1のモーダル情報認識部は、入力された前記ユーザの音声の認識処理を行って取得した音声認識結果を、素性と当該素性の出現頻度を示す情報で構成される意図理解情報に変換し、
     前記統合意図理解部は、前記第1のモーダル情報認識部が取得した意図理解情報と、前記モーダル情報変換部の変換結果とを統合する統合処理部を備え、あるユーザの意図についてある素性が出現する頻度を学習して作成された意図理解モデルを参照し、前記統合処理部が統合した統合結果が示す前記素性の出現頻度から前記ユーザの意図を推定することを特徴とする請求項1記載のマルチモーダル意図理解装置。
  3.  前記第2のモーダル情報が、前記ユーザの動き、前記ユーザの視線および前記ユーザの生体反応のうちのいずれか、あるいはいずれか複数であって、
     前記第2のモーダ情報認識部は、入力された前記第2のモーダル情報から前記ユーザの状態を示すシンボル情報を取得し、
     前記モーダル情報変換部は、前記第2のモーダル情報認識部が取得したシンボル情報を、前記意図理解モデルを構成する各素性についての出現頻度を示した情報に変換することを特徴とする請求項2記載のマルチモーダル意図理解装置。
  4.  前記意図統合ルールと前記意図理解モデルとに基づいて、前記ユーザの状態を示す複数のシンボル情報について、前記意図理解モデルを構成する各素性と、当該各素性の出現頻度とを対応付けて作成されたシンボル情報データベースを備え、
     前記モーダル情報変換部は、前記シンボル情報データベース内を検索し、前記第2のモーダル情報認識部が取得したシンボル情報を、前記意図理解モデルを構成する各素性についての出現頻度を示した情報に変換することを特徴とする請求項3記載のマルチモーダル意図理解装置。
  5.  前記シンボル情報データベースは、前記意図統合ルールで定義された前記統合意図が示す前記素性の出現頻度から、前記意図理解情報が示す前記素性の出現頻度を減算して得られた減算結果を、前記シンボル情報に対応付けて記憶することを特徴とする請求項4記載のマルチモーダル意図理解装置。
  6.  1つのシンボル情報について、複数の前記意図統合ルールが定義されている場合に、
     前記シンボル情報データベースは、前記意図統合ルール毎に定義された前記統合意図が示す前記素性の出現頻度から、前記意図理解情報が示す前記素性の出現頻度を減算し、得られた複数の減算結果の相加平均を前記シンボル情報に対応付けて記憶することを特徴とする請求項4記載のマルチモーダル意図理解装置。
  7.  第1のモーダル情報認識部が、ユーザの第1のモーダル情報の入力を受け付け、当該第1のモーダル情報の認識処理を行うステップと、
     第2のモーダル情報認識部が、前記ユーザの第2のモーダル情報の入力を受け付け、当該第2のモーダル情報の認識処理を行うステップと、
     前記第1のモーダル情報の認識結果と前記第2のモーダル情報の認識結果との組み合わせと、当該組み合わせによって得られる前記ユーザの意図を示す統合意図とを予め定義した意図統合ルールに基づいて、モーダル情報変換部が、前記第2のモーダル情報認識部の認識結果を、前記第1のモーダル情報認識部の認識結果と統合可能な情報に変換するステップと、
     統合意図理解部が、前記第1のモーダル情報認識部の認識結果と、前記モーダル情報変換部の変換結果とを統合し、統合したデータから前記ユーザの意図を推定するステップとを備えたマルチモーダル意図理解方法。
PCT/JP2015/052532 2015-01-29 2015-01-29 マルチモーダル意図理解装置およびマルチモーダル意図理解方法 WO2016121052A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/052532 WO2016121052A1 (ja) 2015-01-29 2015-01-29 マルチモーダル意図理解装置およびマルチモーダル意図理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/052532 WO2016121052A1 (ja) 2015-01-29 2015-01-29 マルチモーダル意図理解装置およびマルチモーダル意図理解方法

Publications (1)

Publication Number Publication Date
WO2016121052A1 true WO2016121052A1 (ja) 2016-08-04

Family

ID=56542704

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/052532 WO2016121052A1 (ja) 2015-01-29 2015-01-29 マルチモーダル意図理解装置およびマルチモーダル意図理解方法

Country Status (1)

Country Link
WO (1) WO2016121052A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112099633A (zh) * 2020-09-16 2020-12-18 济南大学 一种多模态感知的智能实验方法及装置
CN112684711A (zh) * 2020-12-24 2021-04-20 青岛理工大学 一种人体行为与意图的交互识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154781A (ja) * 1999-11-29 2001-06-08 Nec Corp デスクトップ情報装置
WO2012099584A1 (en) * 2011-01-19 2012-07-26 Hewlett-Packard Development Company, L.P. Method and system for multimodal and gestural control

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154781A (ja) * 1999-11-29 2001-06-08 Nec Corp デスクトップ情報装置
WO2012099584A1 (en) * 2011-01-19 2012-07-26 Hewlett-Packard Development Company, L.P. Method and system for multimodal and gestural control

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112099633A (zh) * 2020-09-16 2020-12-18 济南大学 一种多模态感知的智能实验方法及装置
CN112684711A (zh) * 2020-12-24 2021-04-20 青岛理工大学 一种人体行为与意图的交互识别方法
CN112684711B (zh) * 2020-12-24 2022-10-11 青岛理工大学 一种人体行为与意图的交互识别方法

Similar Documents

Publication Publication Date Title
US10977452B2 (en) Multi-lingual virtual personal assistant
US10037758B2 (en) Device and method for understanding user intent
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
CN109791767B (zh) 用于语音识别的系统和方法
US10719507B2 (en) System and method for natural language processing
US11848000B2 (en) Transcription revision interface for speech recognition system
US20150325240A1 (en) Method and system for speech input
JP2019537749A (ja) ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法
JP6310150B2 (ja) 意図理解装置、方法およびプログラム
US9361883B2 (en) Dictation with incremental recognition of speech
US9196246B2 (en) Determining word sequence constraints for low cognitive speech recognition
US20080177541A1 (en) Voice recognition device, voice recognition method, and voice recognition program
US20170199867A1 (en) Dialogue control system and dialogue control method
US9093072B2 (en) Speech and gesture recognition enhancement
WO2014199803A1 (en) System and methods for recognizing speech
JP2000200275A (ja) 翻訳装置、記録媒体
CN106463119B (zh) 用于支持改进语音识别的对视觉内容的修改
CN110998719A (zh) 信息处理设备和信息处理方法
US11961515B2 (en) Contrastive Siamese network for semi-supervised speech recognition
JP2017125921A (ja) 発話選択装置、方法、及びプログラム
Ghotkar et al. Dynamic hand gesture recognition and novel sentence interpretation algorithm for indian sign language using microsoft kinect sensor
JP6306376B2 (ja) 翻訳装置及び翻訳方法
US11468247B2 (en) Artificial intelligence apparatus for learning natural language understanding models
JP7400112B2 (ja) 自動音声認識のための英数字列のバイアス付加
WO2016121052A1 (ja) マルチモーダル意図理解装置およびマルチモーダル意図理解方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15879949

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 15879949

Country of ref document: EP

Kind code of ref document: A1