WO2014083945A1 - 意図推定装置および意図推定方法 - Google Patents

意図推定装置および意図推定方法 Download PDF

Info

Publication number
WO2014083945A1
WO2014083945A1 PCT/JP2013/077504 JP2013077504W WO2014083945A1 WO 2014083945 A1 WO2014083945 A1 WO 2014083945A1 JP 2013077504 W JP2013077504 W JP 2013077504W WO 2014083945 A1 WO2014083945 A1 WO 2014083945A1
Authority
WO
WIPO (PCT)
Prior art keywords
intention
estimation
unit
estimation unit
score
Prior art date
Application number
PCT/JP2013/077504
Other languages
English (en)
French (fr)
Inventor
洋一 藤井
石井 純
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to DE112013005742.5T priority Critical patent/DE112013005742T5/de
Priority to CN201380055883.XA priority patent/CN104756100B/zh
Priority to JP2014550077A priority patent/JP5921716B2/ja
Priority to US14/413,544 priority patent/US9530405B2/en
Publication of WO2014083945A1 publication Critical patent/WO2014083945A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Definitions

  • the present invention relates to an intention estimation apparatus and an intention estimation method for estimating which intention of a design designed in advance is the content of text input in a natural language.
  • a method in which the speech recognition result is not directly linked to the operation, but the user's intention is understood from the user's utterance content and the operation is performed.
  • One of the methods for realizing this is associating previously collected utterance sentence examples and operations (hereinafter referred to as learning data), and the user's desired operation (hereinafter referred to as intention) from the user's words. It is modeled by a statistical learning method, and an intention is estimated using the model with respect to a user input (hereinafter referred to as statistical intention estimation).
  • learning data previously collected utterance sentence examples and operations
  • intention hereinafter referred to as intention
  • It is modeled by a statistical learning method, and an intention is estimated using the model with respect to a user input (hereinafter referred to as statistical intention estimation).
  • statistical intention estimation In concrete processing of statistical intention estimation, first, a term used for learning is extracted from an utterance sentence example of learning data. Then, using the term set and the correct intention as input learning data, the statistical learning algorithm
  • the terms used for learning are generally extracted words and word strings from morphological analysis of utterance examples.
  • an utterance sentence such as “I want to go to XX station” gives a morphological analysis result such as “XX station (proprietary nouns / facilities) / ni (participant) / going (verb / combined) / tai (auxiliary verb)”. It is done.
  • terms such as “$ Facility $, Go” (the proper noun facility is converted to a special symbol of $ Facility $, and the verb is converted to its original form) 2 connected morpheme terms such as “I want to go” are extracted.
  • a machine learning algorithm is used as a method for creating a model. The machine learning algorithm performs machine learning on the weights of input terms and correct intentions so that the most correct intentions are generated for all learning data. Therefore, for a term set obtained from an utterance similar to learning data, a model with a high possibility of outputting a correct intention is obtained.
  • this machine learning method for example, the maximum entropy method can be used.
  • the various utterances assumed can be roughly divided into the following two.
  • (A) Input using more various words for one operation (b) Input a request consisting of a plurality of operations as one lump
  • the learning data can be further increased by increasing the learning data. Utterances can be processed.
  • Patent Document 1 discloses an utterance intention recognition device that uses a model learned as one intention and obtains an appropriate intention sequence for an input including one or a plurality of intentions.
  • This utterance intention recognition device prepares a morpheme sequence as an intention delimiter in advance as learning data for an input morpheme, and can divide the division point by estimating points that can be divided in the same manner as the above-described intention understanding.
  • the most likely intention sequence is estimated by multiplying the likelihood and the intention possibility of each divided element.
  • Patent Document 1 gives a division point candidate as learning data to a morpheme sequence, learns its possibility, and performs division point estimation for actual user input. Therefore, it is difficult to collect various inputs as data for learning those division points.
  • the present invention has been made to solve the above-described problems.Even when an input including a plurality of intentions is made, the relationship between the intentions is described in advance by describing the relationship between the intentions. The purpose is to generate an optimal intention sequence based on the relationship.
  • the intention estimation apparatus performs a morpheme analysis of an input language, converts the morpheme sequence converted into a morpheme sequence, and the morpheme sequence converted by the morpheme analysis unit into partial morphemes, and estimates the intention.
  • An intention estimation unit extraction unit that extracts an intention estimation unit, an intention estimation unit that estimates an intention of a partial morpheme constituting each intention estimation unit extracted by the intention estimation unit extraction unit, and an intention estimated by the intention estimation unit
  • An intention co-occurrence weight calculation unit that calculates intention co-occurrence weights based on the relationship, and generates an intention sequence corresponding to a language input using one or more intentions estimated by the intention estimation unit.
  • an optimal intention sequence can be generated based on the relationship between the plurality of intentions.
  • FIG. 1 is a block diagram showing a configuration of an intention estimation apparatus according to Embodiment 1.
  • FIG. It is a figure which shows an example of the intention hierarchy graph data which the intention hierarchy graph data storage part of the intention estimation apparatus which concerns on Embodiment 1 accumulate
  • FIG. FIG. 10 is a diagram showing processing of an intention estimation unit of the intention estimation apparatus according to Embodiment 1.
  • FIG. 10 is a diagram showing processing of an intention estimation unit of the intention estimation apparatus according to Embodiment 1.
  • FIG. 10 is a diagram illustrating processing of an intention sequence estimation unit of the intention estimation apparatus according to Embodiment 1.
  • FIG. 10 is a diagram illustrating processing of an intention sequence estimation unit of the intention estimation apparatus according to Embodiment 1.
  • 3 is a flowchart showing an operation of the intention estimation apparatus according to the first embodiment.
  • 6 is a block diagram illustrating a configuration of an intention estimation apparatus according to Embodiment 2.
  • FIG. It is a figure which shows an example of the intention column conversion table which the intention column conversion table storage part of the intention estimation apparatus which concerns on Embodiment 2 accumulate
  • FIG. FIG. 10 is a diagram illustrating processing of an intention estimation unit of an intention estimation apparatus according to Embodiment 2.
  • FIG. 10 is a diagram illustrating a specific example of processing for extracting an intention estimation unit from input speech of an intention estimation apparatus according to Embodiment 3.
  • FIG. 10 is a diagram illustrating processing of an intention estimation unit of an intention estimation apparatus according to Embodiment 3.
  • FIG. 10 is a diagram illustrating processing of an intention estimation unit of an intention estimation apparatus according to Embodiment 3.
  • FIG. 10 is a diagram illustrating processing of an intention sequence estimation unit of an intention estimation apparatus according to Embodiment 3.
  • FIG. 10 is a diagram illustrating processing of an intention sequence estimation unit of an intention estimation apparatus according to Embodiment 3.
  • FIG. 10 is a diagram illustrating processing of an intention sequence estimation unit of an intention estimation apparatus according to Embodiment 3.
  • FIG. 10 is a diagram illustrating a specific example of processing for extracting an intention estimation unit from input speech of an intention estimation apparatus according to Embodiment 4;
  • FIG. 10 is a diagram illustrating processing of an intention estimation unit of an intention estimation apparatus according to Embodiment 4.
  • FIG. 10 is a diagram illustrating processing of an intention sequence estimation unit of an intention estimation apparatus according to a fourth embodiment.
  • FIG. 1 is a block diagram showing a configuration of an intention estimation apparatus according to Embodiment 1.
  • the intention estimation apparatus 10 includes a speech recognition unit 1, a morpheme analysis unit 2, and an intention sequence estimation unit 3.
  • the intention sequence estimation unit 3 includes an intention estimation unit extraction unit 4, an intention estimation model storage unit 5, an intention estimation unit 6, an intention hierarchy graph data storage unit 7, and an intention co-occurrence weight calculation unit 8.
  • the speech recognition unit 1 performs speech recognition processing on the input speech input to the intention estimation device 10 and returns a speech recognition result.
  • the morpheme analysis unit 2 performs morpheme analysis with the speech recognition result as input, and returns the morpheme analysis result.
  • the intention estimation unit extraction unit 4 estimates a position to be divided as a unit of intention estimation from the result of morpheme analysis, divides it into partial morphemes, and extracts an intention estimation unit based on the syntactic constraints of the language.
  • the intention estimation model storage unit 5 is a database that stores an intention estimation model that is referred to when intention estimation is performed.
  • the intention estimation unit 6 refers to the intention estimation model stored in the intention estimation model storage unit 5 and outputs a partial intention estimation result and a partial score for each intention estimation unit divided by the intention estimation unit extraction unit 4. .
  • the intention hierarchy graph data storage unit 7 is a database that stores intention hierarchy graph data that is referred to when calculating the validity of an intention column.
  • the intention co-occurrence weight calculation unit 8 refers to the intention hierarchy graph data stored in the intention hierarchy graph data storage unit 7, and intends co-occurrence indicating the validity of the intention sequence of the partial intention estimation result estimated by the intention estimation unit 6. Calculate weights.
  • the intention co-occurrence indicates a case where a plurality of intentions are estimated for the input, and the intention co-occurrence weight is a value indicating the validity of each of the estimated plurality of intentions.
  • the intention sequence estimation unit 3 performs the intention based on the output results of the intention estimation unit extraction unit 4, the intention estimation unit 6, and the intention co-occurrence weight calculation unit 8 with respect to the morpheme analysis result input from the morpheme analysis unit 2.
  • a column estimation result and a final score are acquired, and an intention column estimation result with a final score most suitable for the input speech is output.
  • FIG. 2 is a diagram illustrating an example of intention hierarchy graph data stored in the intention hierarchy graph data storage unit 7 of the intention estimation apparatus according to the first embodiment.
  • the intention hierarchy graph data includes intention nodes 21 to 27, the hierarchical relationship of the intention nodes 21 to 27, and intention co-occurrence weights 28 and 29 that are numerically expressed child co-occurrence co-occurrence weights.
  • the intention node 21 for example, the child node indicates the intention node 22 positioned lower than the intention node 21.
  • the intention hierarchy graph data basically has a structure in which the virtual intention nodes are apexes and the functions are hierarchized, and the more specific the intention is as it goes down.
  • the virtual “root” intention node 21 is a vertex
  • the lower intention node 23 is “Destination setting []”
  • the intention node 23 performs destination setting but no setting conditions are determined, the intention node 24 performs destination setting using the facility name, but the specific facility name is not determined, the intention node Reference numeral 25 denotes a state where a specific facility name is assigned to “$ facility $” and the destination is set with the specific facility name.
  • the intention co-occurrence weight 28 indicates “1.2”, which indicates that the intention co-occurrence weight is “1.2” when a plurality of intentions below the child node appear. That is, it is indicated that there is no problem even if a plurality of intentions appear together, and that a plurality of intentions appear frequently together.
  • the intention co-occurrence weight 29 indicates “0.0”, and indicates that the intention co-occurrence weight when a plurality of intentions below the child node appear is “0.0”. That is, both indicate that a plurality of intentions do not appear.
  • FIG. 3 is a diagram illustrating a specific example of the process of extracting the intention estimation unit from the input speech of the intention estimation apparatus according to the first embodiment.
  • the input voice 31 indicates that the user has uttered “I want to go to the XX land after stopping at the XX dome” as an input example.
  • the voice recognition result 32 is a result of the voice recognition unit 1 recognizing the input voice 31. Specifically, “I want to listen to ⁇ radio after stopping at the XX dome” is a speech recognition result example 33 obtained with the speech recognition score “0.6”, and “ ⁇ “I want to go to the land” is composed of a speech recognition result example 34 obtained with a speech recognition score “0.4”.
  • the morphological analysis result 35 is a result of the morphological analysis performed by the morphological analysis unit 2 on the speech recognition result 32.
  • the intention estimation unit extraction results 36 and 40 are the results of the intention estimation unit extraction unit 4 extracting the intention estimation unit from the morphological analysis result 35 based on the syntactic constraints of the language.
  • three extraction patterns 37, 38, and 39 are shown. As shown in FIG. 3, when the language is Japanese, the phrase is the smallest intention estimation unit due to the property that an independent word is attached to the independent word, and further the complex is due to the property that the front body language is related to the backward language. A phrase is extracted as an intention estimation unit.
  • the intention estimation result extraction unit indicated by the extraction patterns 37, 38, and 39 is obtained by extracting only patterns in which the dependency structure described here is established.
  • FIGS. 4 and 5 are diagrams showing processing of the intention estimation unit 6 of the intention estimation apparatus according to Embodiment 1.
  • FIG. 4 shows partial intention estimation based on the intention estimation unit extraction result 36 shown in FIG. 3
  • FIG. 5 shows partial intention estimation based on the intention estimation unit extraction result 40 shown in FIG. ing.
  • FIGS. 4 and 5 describe the case where the prototype of an independent word is extracted as a term.
  • a term column 41 indicates a term column used for partial intention estimation generated from the intention estimation unit extraction result 36. For “XX dome / ni”, “$ facility $ _1”, “stop / te / "From” is generated for “From”, “$ Radio station $ _1” is generated for "XX Radio / O”, and "Listen” is generated for "Listen / Want”. .
  • FIG. 4 shows the division adoption weight and a plurality of extraction patterns for the term string 41.
  • extraction patterns A, B, C, and D and non-extraction patterns E, F, and G based on the extraction patterns 37, 38, and 39 shown in FIG. 3 are shown as the extraction patterns.
  • Solid line arrows 42, 43, and 44 indicate the range of intention estimation units extracted by the intention estimation unit extraction unit 4.
  • the partial intention of the result estimated by the intention estimation unit 6 and the partial score of the estimated partial intention are shown below the solid line arrows 42, 43 and 44.
  • Dotted arrows 45 and 46 indicate ranges that are not extracted by the intention estimation unit extraction unit 4.
  • the division point adoption weight 47 described below the term row 41 is a numerical value to be multiplied by the score when each designated position is adopted as a division point of the intention estimation unit, while each designated position is the intention estimation unit.
  • the score is not adopted as a division point, the score is a value obtained by multiplying the score by a value obtained by subtracting the division point adoption weight 47 from 1.
  • the term column 51 indicates a term column used for partial intention estimation generated from the intention estimation unit extraction result 40.
  • XX dome / ni For “XX dome / ni”, “$ facility $ _1”, “stop / te / “From” is generated for “From”, “$ Facility $ _2” is generated for “XX Land / To”, and “Go” is generated for “Go / Want”.
  • FIG. 5 shows the division adoption weight and a plurality of extraction patterns for the term string 51.
  • extraction patterns A ′, B ′, C ′, D ′ and non-extraction patterns E ′, F ′, G ′ based on the extraction patterns shown in FIG. 3 are shown as the extraction patterns.
  • Solid line arrows 52, 53, and 54 indicate the range of intention estimation units extracted by the intention estimation unit extraction unit 4.
  • a partial intention as a result of estimation by the intention estimation unit 6 and a partial score of the estimated partial intention are shown.
  • Dotted arrows 55 and 56 indicate ranges that are not extracted by the intention estimation unit extraction unit 4.
  • the division point adoption weight 57 described below the term string 51 is a numerical value to be multiplied by the score when each designated position is adopted as a division point of the intention estimation unit, while each designated position is the intention estimation unit.
  • the score is not adopted as a division point, the score is a value obtained by multiplying the score by 1 minus the division point adoption weight 57.
  • the intention sequence estimation unit 3 generates a combination of partial intention estimation results for the speech recognition result examples 33 and 34 using the partial intention estimation result estimated by the intention estimation unit 6, and calculates a final score of each combination.
  • FIGS. 6 and 7 are diagrams illustrating processing of the intention sequence estimation unit 3 of the intention estimation apparatus according to the first embodiment. More specifically, FIG. 6 shows a calculation example of the final score based on the combination of partial intention estimation results shown in FIG. 4, and FIG. 7 shows a calculation example of the final score based on the combination of partial intention estimation results shown in FIG. Is shown.
  • the final score is multiplied by partial scores for all successive partial intention columns of each intention estimation unit, and further multiplied by the validity of the intention estimation unit and the intention co-occurrence weight calculated by the intention co-occurrence weight calculation unit 8. Calculated.
  • FIG. 6 shows a calculation example of the final score for the speech recognition result example 33, and the speech recognition score 61 of the speech recognition result example 33 is shown as “0.6”.
  • a partial score 62 indicates a partial score of a partial intention estimation result in each extraction pattern using the term sequence 41.
  • the overall score 63 is a product of the partial scores of the partial intention estimation results.
  • the division weight 64 is a weight calculated according to whether a division point is adopted or not.
  • the value of the division weight 64 is a number indicating the possibility of intention division, and is “1.0” when the sum of the values of the division weight 64 is taken.
  • the division weight score (score indicating the likelihood of the intention sequence) 65 is the product of the overall score 63 and the division weight 64.
  • the intention co-occurrence weight 66 is a numerical value obtained from the intention hierarchy graph and the partial intention sequence shown in FIG.
  • the final score 67 is a value obtained by multiplying the division weight score 65, the speech recognition score 61, and the intention co-occurrence weight 66.
  • the intention column 68 of the extraction pattern A describes the final score in the case where the intention column pattern of the speech recognition result example 33 is divided into all the phrases. Further, the intention column 69 of the extraction pattern B + C describes the final score when the sentences having the heavy sentence structure are grouped.
  • FIG. 7 shows a calculation example of the final score for the speech recognition result example 34, and the speech recognition score 71 of the speech recognition result example 34 is indicated as “0.4”. Further, the term string 51, the overall score 72, the division weight 73, the division weight score 74, the intention co-occurrence weight 75, and the final score 76 are the same as the configuration described in FIG. Further, the intention column 77 of the extracted pattern B ′ + C ′ describes the final score when the sentences having the heavy sentence structure are grouped.
  • FIG. 8 is a flowchart showing the operation of the intention estimation apparatus according to the first embodiment.
  • the voice recognition unit 1 performs voice recognition of the input voice (step ST1).
  • the morpheme analyzer 2 performs morpheme analysis on the speech recognition result obtained in step ST1 (step ST2).
  • the intention estimation unit extraction unit 4 divides the morpheme sequence that is the morpheme analysis result obtained in step ST2 into partial morphemes, and extracts all intention estimation units that are units for estimating the intention (step ST3).
  • the intention estimation unit 6 performs partial intention estimation on all intention estimation units extracted in step ST3, and obtains a partial intention estimation result and a partial score (step ST4).
  • the intention sequence estimation unit 3 connects the partial intentions to generate an intention sequence that matches the entire speech recognition result, and calculates the overall score of the generated intention sequence (Step ST5).
  • the intention sequence estimation unit 3 multiplies the overall score of the intention sequence generated in step ST5 by the intention co-occurrence weight calculated by the intention co-occurrence weight calculation unit 8 and the speech recognition score, and obtains the final score for the intention sequence.
  • Calculate step ST6.
  • the intention sequence estimation unit 3 refers to the final score calculated in step ST6, outputs the intention sequence having the largest final score as the intention sequence estimation result most suitable for the input speech (step ST7), and ends the processing. To do.
  • the flowchart shown in FIG. 8 will be described with reference to the specific examples shown in FIGS.
  • voice input is performed.
  • the input voice 31 shown in FIG. 3 “I want to go to the XX land after stopping at the XX dome” is input, and the voice recognition unit 1 performs voice recognition on the input voice 31 as step ST1.
  • the speech recognition result 32 is obtained.
  • “I want to listen to ⁇ radio after stopping at XX dome” in the speech recognition result example 33 has a score of 0.6
  • “XX land after stopping at XX dome” in the speech recognition result example 34 “I want to go to” is obtained with a score of 0.4.
  • the speech recognition result examples 33 and 34 are output to the morphological analysis unit 2.
  • the morpheme analysis unit 2 performs morpheme analysis of the speech recognition result examples 33 and 34 based on a known morpheme analysis method as step ST2, and generates a morpheme analysis result 35 shown in FIG.
  • the morpheme analysis result 35 describes the morphemes of the surface layer, the part of speech, and the inflected forms, but other detailed information such as the part of speech classification, the morpheme original form, and the morpheme semantic label are output It is assumed that at least the original form of the morpheme is included.
  • the morpheme analysis result 35 includes two morpheme analysis result examples 36 and 40, and is output to the intention estimation unit extraction unit 4.
  • the intention estimation unit extraction unit 4 extracts all intention estimation units of the morphological analysis result examples 36 and 40 based on the syntactic features of the language as step ST3. For example, in the case of Japanese, since a plurality of adjuncts are concatenated to independent words to form a lump that means one phrase, in the case of the morphological analysis result example 36, first, “XX Dome (proprietary noun)” / Ni (participant) ”,“ stop by (verb: continuous use) / te (participant) / kara (participant) ”,“ ⁇ radio (proprietary noun: radio station) / to (participant) ”,“ listen (verb: continuous use) ) / Tai (auxiliary verb) ”are extracted as intention estimation units.
  • the extraction pattern 37 shown in the example 36 of inference estimation unit extraction result in FIG. 3 is an intention estimation unit of a morpheme sequence in which a phrase is a unit, and the extraction pattern 38 is obtained from two phrases in which the word is connected to the immediately following word.
  • the extraction pattern 39 is an intention estimation unit in which the two phrases of the extraction pattern 38 are further summarized.
  • the intention estimation unit 6 performs the intention estimation after extracting the terms used for the intention estimation for each intention estimation unit in step ST4, and holds the score.
  • the term sequence 41 shown in FIG. 4 shows each intention estimation and the term used for intention estimation. Terms are: (1) a method using a morpheme as a single term, (2) a method using a self-supporting morpheme as a single term, (3) a method using a single morpheme and n chains as a term, and (4) a morpheme. Can be used as a term, and the attached semantic symbol chain attached thereto is used as a term.
  • the intention estimation unit indicated by the solid line arrow 42 of the extraction pattern B in FIG. 4 is that “Terms of stop” is two terms “$ facility $ _1” and “stop” for “after stopping at the XX dome”.
  • 4 indicate the partial intention estimation result for the intention estimation unit extracted in step ST3
  • the dotted arrows 45 and 46 indicate the partial intention estimation result for the intention estimation unit not extracted in step ST3.
  • the reason why the partial intention estimation result of the intention estimation unit indicated by the dotted arrows 45 and 46 is calculated is that there is a possibility that the input speech does not necessarily constitute a grammatically correct syntax.
  • the user's utterance is often performed in a form that does not use enough particles or auxiliary verbs, and if the input is syntactically strict, the intention estimation unit leaks. there is a possibility.
  • a recognition error is included in the speech recognition result, and it is preferable to select an intention sequence that is considered to be optimal after evaluating all possibilities.
  • the intention sequence estimation unit 3 When the partial intention estimation result of each intention estimation unit is obtained, the intention sequence estimation unit 3 generates an intention sequence that matches the entire speech recognition result example 33 using the intention estimation unit in step ST5, and calculates the overall score. .
  • FIG. 6 combines the extracted patterns A, B, C, and D and the non-extracted patterns E, F, and G shown in FIG. 5 to generate an intention sequence that matches the entire speech recognition result example 33.
  • a partial score 62 is represented.
  • the region O corresponds to the partial score of the partial intention indicated by the solid line in FIG.
  • the region P is syntactically low and corresponds to the partial score of the partial intention indicated by the dotted line in FIG.
  • “0.9” is multiplied by the partial score of the partial intention estimation result as the intention estimation partial penalty.
  • the overall score 63 is calculated by multiplying all partial scores of partial intentions in each extraction pattern.
  • the division weight 64 in each extraction pattern shown in FIG. 6 is calculated as follows based on the division adoption weight 47 shown in FIG.
  • For intention column 68: 0.4 x 0.6 x 0.4 0.096
  • the division adoption weight 47 of each point is multiplied.
  • For intention column 69: (1.0 ⁇ 0.4) ⁇ 0.6 ⁇ (1.0 ⁇ 0.4) 0.216
  • the division points are subtracted from the division adoption weight 47 from 1.0 except for the second point.
  • the intention co-occurrence weights 66 and 75 are obtained as a result of the following calculation. And integrated into the division weight scores 65 and 74.
  • the intention co-occurrence weight calculation unit 8 that calculates the intention co-occurrence weight indicating the relationship between the intentions, the division weight score is calculated, and the calculated division weight score is used as the intention. Since the intention sequence estimation unit 3 for integrating the co-occurrence weight and the speech recognition score is provided, the intention sequence estimation result most suitable for the input speech can be output in consideration of the relationship between the intentions. Therefore, even when an input including a plurality of intentions is performed, an optimal intention sequence can be generated based on the relationship between intentions and output as an intention sequence estimation result.
  • FIG. Embodiment 2 shows a configuration for obtaining an appropriate intention sequence estimation result even when a user omits an utterance.
  • FIG. 9 is a block diagram illustrating a configuration of the intention estimation apparatus according to the second embodiment.
  • the intention column conversion table storage unit 11 and the intention column conversion unit 12 are additionally provided in the intention estimation apparatus 10 of the first embodiment shown in FIG.
  • the same or corresponding parts as those of the intention estimating apparatus 10 according to the first embodiment are denoted by the same reference numerals as those used in the first embodiment, and the description thereof is omitted or simplified.
  • the intention column conversion table accumulation unit 11 accumulates data describing the relationship between the intention estimation result and the replacement intention column as an intention column conversion table.
  • the intention column conversion table holds a rule indicating a replacement intention column to be replaced with a series of intentions indicated by the intention estimation result, and determines whether an intention column matching the rule has appeared. , And is referenced when acquiring the intended column to replace.
  • the intention column conversion unit 12 refers to the intention column conversion table stored in the intention column conversion table storage unit 11, and determines whether there is an intention column that matches the partial intention estimation result estimated by the intention estimation unit 6. If there is a matching intention column, the intention column is converted according to the rule.
  • FIG. 10 is a diagram illustrating an example of an intention column conversion table stored in the intention column conversion table storage unit 11 of the intention estimation apparatus according to the second embodiment.
  • the intention column conversion table includes a plurality of intention column conversion rules. In the example of FIG. 10, three intention column conversion rules 81, 82, and 83 are shown.
  • the intention column conversion rule indicates that, when a partial intention estimation result that matches the intention column on the left side appears, the partial intention estimation result is replaced with the intention column on the right side.
  • the intention sequence conversion rule described in the position conversion table is basically a rule based on empirical rules when omission during speech or semantic conversion is clear from the preceding and following relationships.
  • the input sentence example of the intention column conversion rule 81 represents a typical utterance example, and the utterance corresponding to “$ facility $ _Y” in the latter stage of the input sentence example suggests the destination from the context. This indicates that the intention of “point search (facility search)” before conversion is replaced with “destination setting”.
  • FIG. 11 is a diagram illustrating a specific example of the process of extracting the intention estimation unit from the input speech of the intention estimation apparatus according to the second embodiment.
  • FIG. 11 shows an example of extracting an intention estimation unit from a speech recognition result when an utterance “xx land after stopping at XX dome” is input as input speech.
  • the voice recognition result 91 is a result of the voice recognition unit 1 performing voice recognition on the input voice 31. Specifically, an example of a speech recognition result obtained with a score of “0.7” for “Land after stopping at XX dome” is shown, indicating that the recognition was performed as uttered ing.
  • the morphological analysis result 92 is a result of the morphological analysis performed by the morphological analysis unit 2 on the speech recognition result 91.
  • the intention estimation unit extraction result 93 is a result of the intention estimation unit extraction unit 4 extracting an intention estimation unit from the morphological analysis result 92.
  • the intention estimation unit extraction result 93 three extraction patterns 93a, 93b, and 93c are shown.
  • FIG. 12 is a diagram illustrating processing of the intention estimation unit 6 of the intention estimation apparatus according to the second embodiment. More specifically, partial intention estimation based on the intention estimation unit extraction result 93 shown in FIG. 11 is shown.
  • the term string 94 indicates a term string used for partial intention estimation generated from the intention estimation unit extraction result 93. Further, extraction patterns H, I, J and non-extraction patterns K based on the extraction patterns 93a, 93b, 93c are shown.
  • a solid line arrow 95 and a partial score 96 are examples of intention estimation results for each intention estimation unit.
  • the configuration of the dotted line arrow and the division point adoption weight is the same as in the first embodiment.
  • FIG. 13 is a diagram illustrating processing of the intention sequence estimation unit 3 of the intention estimation apparatus according to the second embodiment. More specifically, an example of calculating the final score based on the combination of partial intention estimation results shown in FIG. 12 is shown. This is an example in which the final score is calculated by combining the partial intention estimation result with respect to the speech recognition result 91. Similar to the first embodiment, the partial score 101, the speech recognition score 102, the overall score 103, the division weight 104, and the division weight A score 105, an intention co-occurrence weight 106, and a final score 107 are shown.
  • the intention column 108 indicates an intention column indicating an optimal intention estimation result for all division patterns.
  • FIG. 14 is a flowchart showing the operation of the intention estimation apparatus according to the second embodiment.
  • the same steps as those of the intention estimation apparatus 10 according to Embodiment 1 are denoted by the same reference numerals as those used in FIG. 8, and the description thereof is omitted or simplified.
  • the intention column conversion unit 12 stores the intention column in the intention column conversion table storage unit 11 from the partial intention columns of the generated intention column.
  • a division pattern that matches the stored intention column conversion rule is searched, and if there is a matching division pattern, the intention column is converted based on the intention column conversion rule (step ST11).
  • the intention sequence estimation unit 3 multiplies the intention co-occurrence weight calculated by the intention co-occurrence weight calculation unit 8 and the speech recognition score to the overall score of the intention sequence converted or not converted in step ST11.
  • the final score for the intention column is calculated (step ST6).
  • the intention sequence estimation unit 3 refers to the final score calculated in step ST16, outputs the intention sequence having the largest final score as the intention sequence estimation result most suitable for the input speech (step ST7), and ends the processing. To do.
  • the intention estimation unit 6 calculates a partial intention estimation result and a partial score after extracting the term string 94 shown in FIG. 12 as step ST4.
  • the intention sequence estimation unit 3 generates an intention sequence that matches the entire speech recognition result 91 using the intention sequence estimation unit in step ST5, and calculates an overall score.
  • the extraction pattern shown in FIG. 13 the partial score corresponding to the extraction pattern, and the overall score based on the partial score are obtained.
  • the intention column conversion unit 12 searches the partial intention column for a replacement pattern that matches the intention column conversion rule shown in FIG. 10, and this is the case when there is a matching replacement pattern.
  • the intention column is converted according to the intention column conversion rule.
  • the intention column 108 shown in FIG. 13 the intention column 108 includes a partial intention column of the extraction pattern I and a partial intention column of the extraction pattern H, and the intention column 108 is the intention column conversion rule 81 shown in FIG. Will be converted as follows.
  • step ST6 the intention sequence estimation unit 3 calculates the division weight score 105, adds the intention co-occurrence weight 106 calculated by the intention co-occurrence weight calculation unit 8 and the speech recognition score to the division weight score 105, and finally Score 107 is calculated.
  • the intention column conversion table storage unit 11 that stores the intention column conversion table indicating the replacement pattern of the intention column
  • the intention column conversion table storage unit 11 stores the intention column conversion table. This is a case in which an intention column conversion unit 12 that replaces an intention column according to a replacement pattern is provided when a corresponding intention column appears with reference to the intention conversion table.
  • Embodiment 3 In the first embodiment described above, the language used is described as Japanese. However, in the third embodiment, the language used is described as English. In the following description, an intention estimation device applied to a navigation system will be described as an example. Moreover, in the following description, it demonstrates using the intention estimation apparatus (refer FIG. 1) shown in Embodiment 1. FIG. In addition, the intention hierarchy graph data storage unit 7 of the intention estimation apparatus 10 is assumed to store the intention hierarchy graph data shown in FIG. Further, description will be made assuming that intention estimation processing is performed based on the flowchart shown in FIG.
  • FIG. 15 is a diagram illustrating a specific example of the process of extracting the intention estimation unit from the input speech of the intention estimation apparatus according to the third embodiment.
  • the input voice 111 indicates that the user has uttered “Stop at OO Dome, then drive to XX Land” as an input example.
  • the voice recognition result 112 is a result of the voice recognition unit 1 performing voice recognition on the input voice 111. Specifically, “Stop at OO Dome, then listen to the ⁇ ⁇ Radio” is a speech recognition result example 113 obtained with the speech recognition score “0.6”, and “Stop at OO Dome, then drive to “XX Land” is composed of a speech recognition result example 114 obtained with a speech recognition score “0.4”.
  • the morpheme analysis result 115 is a result of the morpheme analysis unit 2 morphologically analyzing the speech recognition result 112.
  • the intention estimation unit extraction results 116 and 120 are the results of the intention estimation unit extraction unit 4 extracting the intention estimation unit from the morphological analysis result 115 based on the syntactic constraints of the language.
  • three extraction patterns 117, 118, and 119 are shown. As shown in FIG. 15, when the language is English, words such as nouns, verbs, and adjectives are extracted as intention estimation units.
  • the intention estimation result extraction unit indicated by the extraction patterns 117, 118, and 119 is obtained by extracting only patterns in which the dependency structure described here is established.
  • FIGS. 16 and 17 are diagrams illustrating processing of the intention estimation unit 6 of the intention estimation apparatus according to the third embodiment. More specifically, FIG. 16 shows estimation of partial intention based on the intention estimation unit extraction result 116 shown in FIG. 15, and FIG. 17 shows estimation of partial intention based on the intention estimation unit extraction result 120 shown in FIG. ing.
  • FIGS. 16 and 17 describe the case where the original form of a word is extracted as a term.
  • a term column 121 indicates a term column used for partial intention estimation generated from the intention estimation unit extraction result 116. For “XX Dome”, “$ Facility $ _1” and “Stop at”. Indicates that “$ radio station $ _1” is generated for “stop” and “the ⁇ Radio”, and “listen” is generated for “listen to”.
  • FIG. 16 shows a division adoption weight and a plurality of extraction patterns for the term sequence 121.
  • Solid arrows 122, 123, and 124 indicate the range of intention estimation units extracted by the intention estimation unit extraction unit 4.
  • the partial intention of the result estimated by the intention estimation unit 6 and the partial score of the estimated partial intention are shown below the solid line arrows 122, 123, and 124.
  • Dotted arrows 125 and 126 indicate ranges that are not extracted by the intention estimation unit extraction unit 4.
  • the division point adoption weight 127 described below the term row 121 is a numerical value to be multiplied by the score when each designated position is adopted as a division point of the intention estimation unit, while each designated position is the intention estimation unit. If the score is not adopted as a division point, the score is a value obtained by multiplying the score by 1 minus the division point adoption weight 127.
  • the term column 131 indicates a term column used for partial intention estimation generated from the intention estimation unit extraction result 120. For “XX Dome”, “$ Facility $ _1”, “Stop at” Indicates that “$ Facilities $ _2” is generated for “Stop”, “XX Land”, and “drive” is generated for “drive to”.
  • FIG. 17 shows the division adoption weight and a plurality of extraction patterns for the term string 131.
  • extraction patterns a ′, b ′, c ′, d ′ and non-extraction patterns e ′, f ′, g ′ based on the extraction patterns shown in FIG. 15 are shown as the extraction patterns.
  • Solid line arrows 132, 133, and 134 indicate the range of intention estimation units extracted by the intention estimation unit extraction unit 4. Further, below the arrows 132, 133, and 134, a partial intention as a result of estimation by the intention estimation unit 6 and a partial score of the estimated partial intention are shown.
  • Dotted arrows 135 and 136 indicate ranges that are not extracted by the intention estimation unit extraction unit 4. Below the dotted arrows 135 and 136, a partial intention as a result of estimation by the intention estimation unit 6 and a partial score of the estimated partial intention are described. Further, the division point adoption weight 137 described below the term row 131 is a numerical value to be multiplied to the score when each designated position is adopted as a division point of the intention estimation unit, while each designated position is the intention estimation unit. If the score is not adopted as a division point, the score is a value obtained by multiplying the score by 1 minus the division point adoption weight 137.
  • the intention sequence estimation unit 3 generates a combination of partial intention estimation results for the speech recognition result examples 113 and 114 using the partial intention estimation result estimated by the intention estimation unit 6, and calculates a final score of each combination.
  • FIGS. 18 and 19 are diagrams illustrating processing of the intention sequence estimation unit 3 of the intention estimation apparatus according to Embodiment 3. More specifically, FIG. 18 shows a calculation example of the final score based on the combination of partial intention estimation results shown in FIG. 16, and FIG. 19 shows a calculation example of the final score based on the combination of partial intention estimation results shown in FIG. Is shown.
  • the final score is multiplied by partial scores for all successive partial intention columns of each intention estimation unit, and further multiplied by the validity of the intention estimation unit and the intention co-occurrence weight calculated by the intention co-occurrence weight calculation unit 8. Calculated.
  • FIG. 18 shows a calculation example of the final score for the voice recognition result example 113, and the voice recognition score 141 of the voice recognition result example 113 is shown as “0.6”.
  • the partial score 142 indicates the partial score of the partial intention estimation result in each extraction pattern using the term sequence 121.
  • the overall score 143 is the product of each partial score of the partial intention estimation result.
  • the division weight 144 is a weight calculated according to whether the division point is adopted or not.
  • the value of the division weight 144 is a number indicating the possibility of intention division, and is “1.0” when the sum of the values of the division weight 144 is taken.
  • the division weight score (score indicating the likelihood of the intention sequence) 145 is the product of the overall score 143 and the division weight 144.
  • the intention co-occurrence weight 146 is a numerical value obtained from the intention hierarchy graph and the partial intention sequence shown in FIG.
  • the final score 147 is a value obtained by multiplying the division weight score 145, the speech recognition score 141, and the intention co-occurrence weight 146.
  • the intention column 148 of the extraction pattern a describes the final score in the case where the intention column pattern of the speech recognition result example 113 is divided into all the clauses.
  • the intention column 149 of the extraction pattern b + c describes the final score when the sentences having the heavy sentence structure are grouped.
  • FIG. 19 shows a calculation example of the final score for the speech recognition result example 114, and the speech recognition score 151 of the speech recognition result example 114 is indicated as “0.4”. Further, the term sequence 131, the overall score 152, the division weight 153, the division weight score 154, the intention co-occurrence weight 155, and the final score 156 are the same as those described in FIG. In addition, the intention column 157 of the extracted pattern b ′ + c ′ describes the final score when the sentences having the heavy sentence structure are grouped.
  • the operation of the intention estimation apparatus according to the third embodiment will be described.
  • the flowchart showing the operation of the intention estimation apparatus of the third embodiment is the same as the flowchart shown in FIG. 8 of the first embodiment. Therefore, the flowchart shown in FIG. 8 of the first embodiment will be described with reference to the specific examples shown in FIGS. 2 and 15 to 19.
  • voice input is performed.
  • the input voice 111 “Stop at XX Dome, then drive to XX Land” shown in FIG. 15 is input, and the voice recognition unit 1 performs voice recognition on the input voice 111 as step ST1. It is assumed that a speech recognition result 112 is obtained.
  • the morpheme analysis unit 2 performs morpheme analysis of the speech recognition result examples 113 and 114 based on a known morpheme analysis method as step ST2, and generates a morpheme analysis result 115 shown in FIG.
  • the morpheme analysis result 115 describes the morphemes of the surface layer, the part of speech, and the inflected forms. It is assumed that at least the original form of the morpheme is included.
  • the morpheme analysis result 115 includes two morpheme analysis result examples 116 and 120, and is output to the intention estimation unit extraction unit 4.
  • the intention estimation unit extraction unit 4 extracts all the intention estimation units of the morphological analysis result examples 116 and 120 based on the syntactic features of the language as step ST3. For example, in the case of the English morpheme analysis result example 116, first, “stop (v) / at (prep)”, “OO Dome (n: POI)”, “then (adv) / drive (v) / to ( prep) ”and“ the (art) / ⁇ Radio (n: radio station) ”are extracted as intention estimation units.
  • the extraction pattern 119 is an intention estimation unit in which the two phrases of the extraction pattern 118 are further summarized.
  • the intention estimation unit 6 performs the intention estimation after extracting the terms used for the intention estimation for each intention estimation unit in step ST4, and holds the score.
  • the term sequence 121 shown in FIG. 16 shows each intention estimation and the term used for intention estimation.
  • the terms are: (1) a method that uses a morpheme as a single term, (2) a method that uses a limited word such as a noun, verb, or adjective as a single term, and (3) a term that uses a morpheme alone and n chains. (4) A method that uses a morpheme alone and an accompanying semantic symbol chain as a term can be considered, but in this Embodiment 3, nouns, verbs, adjectives, etc. are limited for simplicity.
  • the intention estimation unit indicated by the solid line arrow 122 of the extraction pattern b in FIG. 16 has two terms of “stop” and “$ facility $ _1” as the intention estimation terms with respect to “stop at OO Dome”.
  • 16 indicate the partial intention estimation results for the intention estimation unit extracted in step ST3
  • the dotted arrows 125 and 126 indicate the partial intention estimation results for the intention estimation unit not extracted in step ST3.
  • the reason why the partial intention estimation result of the intention estimation unit indicated by the dotted arrows 125 and 126 is calculated is that there is a possibility that the input speech does not necessarily constitute a grammatically correct syntax.
  • the user's utterance is often performed in a form that does not use articles and prepositions sufficiently, and if syntactically strict input is assumed, the intention estimation unit leaks. there is a possibility.
  • a recognition error is included in the speech recognition result, and it is preferable to select an intention sequence that is considered to be optimal after evaluating all possibilities.
  • the intention sequence estimation unit 3 When the partial intention estimation result of each intention estimation unit is obtained, the intention sequence estimation unit 3 generates an intention sequence that matches the entire speech recognition result examples 113 and 114 using the intention estimation unit as step ST5, and calculates the overall score. calculate. 18 generates an intention column that matches the entire speech recognition result example 113 by combining the extraction patterns a, b, c, and d and the non-extraction patterns e, f, and g shown in FIG.
  • a partial score 142 is represented.
  • the region O corresponds to the partial score of the partial intention indicated by the solid line in FIG.
  • the region P is syntactically low and corresponds to the partial score of the partial intention indicated by the dotted line in FIG.
  • “0.9” is multiplied by the partial score of the partial intention estimation result as the intention estimation partial penalty.
  • the overall score 143 is calculated by multiplying all partial scores of partial intentions in each extraction pattern.
  • the division weight 144 in each extraction pattern shown in FIG. 18 is calculated as follows based on the division adoption weight 127 shown in FIG.
  • For intention column 148: 0.4 x 0.6 x 0.4 0.096
  • the division adoption weight 127 of each point is multiplied.
  • For intention column 149: (1.0 ⁇ 0.4) ⁇ 0.6 ⁇ (1.0 ⁇ 0.4) 0.216
  • the division points are subtracted from the division adoption weight 127 from 1.0 except for the second point.
  • the intention co-occurrence weights 146, 155 are obtained by performing the following calculation. And integrated into the division weight scores 145, 154.
  • (1) Two consecutive intentions are extracted in order, and the relationship between the two intentions is calculated.
  • the intention co-occurrence weight calculating unit 8 that calculates the intention co-occurrence weight indicating the relationship between the intentions, the division weight score is calculated, and the intention is added to the calculated division weight score. Since the intention sequence estimation unit 3 for integrating the co-occurrence weight and the speech recognition score is provided, the intention sequence estimation result most suitable for the input speech can be output in consideration of the relationship between the intentions. Therefore, even when an input including a plurality of intentions is performed, an optimal intention sequence can be generated based on the relationship between intentions and output as an intention sequence estimation result.
  • Embodiment 4 In the second embodiment described above, the language used is described as Japanese. However, in the fourth embodiment, the language used is described as English.
  • an intention estimation device applied to a navigation system will be described as an example. Moreover, in the following description, it demonstrates using the intention estimation apparatus (refer FIG. 9) shown in Embodiment 2.
  • FIG. 9 the intention column conversion table storage unit 11 of the intention estimation device 10 stores the intention column conversion table shown in FIG. Furthermore, it demonstrates as what performs an intention estimation process based on the flowchart shown in FIG.
  • FIG. 20 is a diagram illustrating a specific example of the process of extracting the intention estimation unit from the input speech of the intention estimation apparatus according to the fourth embodiment.
  • FIG. 20 shows an example of extracting an intention estimation unit from a speech recognition result when an utterance “Stop at xxx domestic then xx Land” is inputted as input speech.
  • the voice recognition result 161 is a result of the voice recognition unit 1 performing voice recognition on the input voice 31. Specifically, an example of a speech recognition result in which “Stop at XX Dome then XX Land” is obtained with a score of “0.7” is shown, indicating that the recognition was performed as uttered Yes.
  • the morphological analysis result 162 is a result of the morphological analysis performed by the morphological analysis unit 2 on the speech recognition result 161.
  • the intention estimation unit extraction result 163 is a result of the intention estimation unit extraction unit 4 extracting an intention estimation unit from the morphological analysis result 162.
  • three extraction patterns 163a, 163b, and 163c are shown.
  • FIG. 21 is a diagram illustrating processing of the intention estimation unit 6 of the intention estimation apparatus according to the fourth embodiment. More specifically, partial intention estimation based on the intention estimation unit extraction result 163 illustrated in FIG. 20 is illustrated.
  • the term string 164 indicates a term string used for partial intention estimation generated from the intention estimation unit extraction result 163. Further, extraction patterns h, i, j and non-extraction pattern k based on the extraction patterns 163a, 163b, 163c are shown.
  • a solid line arrow 165 and a partial score 166 are examples of intention estimation results for each intention estimation unit.
  • the configuration of the dotted line arrow and the division point adoption weight is the same as in the third embodiment.
  • FIG. 22 is a diagram illustrating processing of the intention sequence estimation unit 3 of the intention estimation apparatus according to the fourth embodiment. More specifically, an example of calculating the final score based on the combination of partial intention estimation results shown in FIG. 21 is shown. This is an example in which the final score is calculated based on the combination of the partial intention estimation results with respect to the speech recognition result 161. Similar to the third embodiment, the speech recognition score 171, the partial score 172, the overall score 173, the division weight 174, and the division weight A score 175, intention co-occurrence weight 176, and final score 177 are shown.
  • the intention column 178 indicates an intention column indicating an optimal intention estimation result for all division patterns.
  • the flowchart showing the operation of the intention estimation apparatus of the fourth embodiment is the same as the flowchart shown in FIG. 14 of the second embodiment. Therefore, the flowchart shown in FIG. 14 of the second embodiment will be described with reference to the specific examples shown in FIGS. 2, 10, and 20 to 22.
  • voice input is performed.
  • “Stop at XX Dome then XX Land” is input as an input by voice
  • the voice recognition unit 1 performs voice recognition as step ST1
  • the voice recognition result 161 shown in FIG. 20 is obtained with a score of 0.7. Shall be.
  • the description of the invention according to the fourth embodiment is omitted because it does not affect the points of the invention.
  • the speech recognition result 161 is generated, the morphological analysis in step ST2 and the extraction of the intention estimation unit in step ST3 are performed, and the intention estimation unit extraction result 163 shown in FIG. 20 is obtained.
  • the intention estimation unit 6 calculates a partial intention estimation result and a partial score after extracting the term string 164 shown in FIG. 21 as step ST4.
  • the intention sequence estimation unit 3 generates an intention sequence that matches the entire speech recognition result 161 using the intention sequence estimation unit in step ST5, and calculates an overall score.
  • the extraction pattern shown in FIG. 22 the partial score corresponding to the extraction pattern, and the overall score based on the partial score are obtained.
  • the intention column conversion unit 12 searches the partial intention column for a replacement pattern that matches the intention column conversion rule shown in FIG. 10, and this is the case when there is a matching replacement pattern.
  • the intention column is converted according to the intention column conversion rule.
  • the intention column 178 shown in FIG. 22 the intention column 178 is composed of the partial intention column of the extraction pattern i and the partial intention column of the extraction pattern h, and the intention column 178 is the intention column conversion rule 81 shown in FIG. Will be converted as follows.
  • step ST6 the intention sequence estimation unit 3 calculates a division weight score 175, and adds the intention co-occurrence weight 176 calculated by the intention co-occurrence weight calculation unit 8 and the speech recognition score to the division weight score 175, and finally Score 177 is calculated.
  • the intention column conversion table storage unit 11 that stores the intention column conversion table indicating the replacement pattern of the intention column and the intention column conversion table storage unit 11 that stores the intention column conversion table.
  • This is a case in which an intention column conversion unit 12 that replaces an intention column according to a replacement pattern is provided when a corresponding intention column appears with reference to the intention conversion table.
  • it is possible to obtain an intention sequence estimation result most suitable for the user's input voice.
  • Embodiments 1 to 4 described above the configuration for obtaining the intention sequence estimation result is shown by taking Japanese and English as examples. However, by changing the extraction method for the intention extraction unit for each language, It can be applied to various languages such as German and Chinese.
  • the language is a language in which words are delimited by specific symbols (such as spaces) and it is difficult to analyze the linguistic structure. It is also possible to perform a direct intention estimation process after extracting the $ facility $, $ address $, etc., using a method such as pattern matching on the natural language text.
  • the input is a voice input
  • the voice input is not used as the input means, and the text input by the input means such as a keyboard is performed. Even in this case, the same effect can be expected.
  • the top two candidates having a high division weight score are subject to evaluation processing is shown, but the number of evaluation processing targets is not limited.
  • the means for performing morpheme analysis may be omitted and the intention estimation term may be extracted and processed.
  • Embodiments 1 to 4 described above an example in which a learning model based on the maximum entropy method is assumed as an intention estimation method has been described.
  • the intention estimation method is not limited.
  • Embodiments 1 to 4 described above the combination of only partial intentions has been described as the combination of each partial intention estimation target. However, for all candidates with a certain score or more, It is also possible to generate candidates and calculate the intention sequence estimation result.
  • Embodiments 1 to 4 described above a case where the present invention is applied to a navigation system has been described as an example, but various systems can be applied as long as the system performs intention estimation.
  • the intention estimation device and the intention estimation method according to the present invention can be applied to a navigation device having a voice recognition function, and a plurality of intentions can be obtained even when an input including a plurality of intentions is performed. It is possible to generate an optimum intention sequence based on the relationship between the two.
  • 1 speech recognition unit 2 morphological analysis unit, 3 intention sequence estimation unit, 4 intention estimation unit extraction unit, 5 intention estimation model storage unit, 6 intention estimation unit, 7 intention hierarchy graph data storage unit, 8 intention co-occurrence weight calculation unit 10, intention estimation device, 11 intention column conversion table storage unit, 12 intention column conversion unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

 入力された言語の形態素解析を行い、形態素列に変換する形態素解析部2と、形態素列を部分形態素に分割し、意図を推定する単位である意図推定単位を抽出する意図推定単位抽出部4と、抽出した各意図推定単位を構成する部分形態素の意図を推定する意図推定部6と、意図間の関係に基づいた意図共起重みを計算する意図共起重み計算部8とを備え、意図推定部6が推定した1または複数の意図を用いて入力された言語に相当する意図列を生成し、生成した意図列の尤もらしさを示すスコアと、生成した意図列を構成する意図について意図共起重み計算部8が計算した意図共起重みとを用いて、入力された言語に対応した意図推定結果を生成する意図列推定部3とを備えた。

Description

意図推定装置および意図推定方法
 この発明は、自然言語で入力されたテキストの内容が、あらかじめ設計した意図のどの意図にあたるかを推定する意図推定装置および意図推定方法に関するものである。
 近年、人間が喋る言葉を音声入力し、その認識結果を用いて、操作を実行する方法が注目されている。この技術は、携帯電話やカーナビなどの音声インタフェースとして利用されているが、基本的な方法としては、あらかじめシステムが想定した音声認識結果と操作を対応付け、音声認識結果が想定したものの場合には、操作を実行するというものがある。この方法は、従来の手操作と比べると、音声の発話によって直接操作ができるため、ショートカット機能として有効に働く。一方で、ユーザは操作を実行するためにシステムが待ち受けている言葉を発話する必要があり、システムが扱う機能が増えていくと、憶えるべき言葉が増加する。また、一般的に取り扱い説明書を十分に理解した上で使用するユーザは少なく、結果的に多くの操作のためにどのように発話する必要があるか分からず、実際には限られた機能以外、音声で操作できない場合があるという問題があった。
 その解決方法として、音声認識結果を直接操作に結びつけるのではなく、ユーザの発話内容からユーザの意図を理解して操作する方法が開示されている。その実現の方法の1つに、あらかじめ収集しておいた発話文例と操作(以下、学習データと記す)を対応付けておき、ユーザの言葉からユーザの希望する操作(以下、意図と記す)を統計的学習方法によってモデル化し、ユーザ入力に対して該モデルを利用して意図を推定するものである(以下、統計的意図推定と記す)。統計的意図推定の具体的処理は、まず、学習データの発話文例から学習に使うタームを抽出する。そして、そのターム集合と正解の意図を入力学習データとして、統計的学習アルゴリズムにより、各タームと正解意図との重みを学習してモデルを出力する。
 学習に使うタームは、発話文例を形態素解析したデータから、単語や単語列を抽出したものが一般的である。たとえば、「○○駅に行きたい」といった発話文例からは、「○○駅(固有名詞・施設)/に(助詞)/行き(動詞・連用)/たい(助動詞)」といった形態素解析結果が得られる。形態素解析結果が得られると、「$施設$、行く」(固有名詞の施設は$施設$という特殊シンボルに変換、動詞は原形に変換)といったタームや、「$施設$_に、に_行き、行き_たい」といった2連接の形態素タームを抽出する。
 結果として、「$施設$、行く、$施設$_に、に_行き、行き_たい」のタームに対して「目的地設定[目的地=$施設$]」(主意図が目的地設定で、設定する目的地が$施設$)のように表現される正解意図とを生成し、大量の発話データから作成したターム列と正解意図からなる学習データを基にモデルを作成する。モデルを作成するための方式としては、機械学習アルゴリズムを利用する。機械学習アルゴリズムは、すべての学習データに対して、最も正解意図が多く生成されるよう入力タームと正解意図との重みを機械学習する。従って、学習データに類似する発話から得られたタームセットに対しては、正解意図を出力する可能性が高いモデルが得られる。この機械学習方式としては、例えば、最大エントロピー法を使うことができる。
 このような機械学習アルゴリズムに基づいて作成したモデルを使って、ユーザ入力に対する意図を推定することで、あらかじめ想定した入力ではない入力に対しても柔軟に操作意図を推定できるため、正式な言い回しを憶えていないユーザの発話であっても、適切に意図を理解して、操作を実行することが可能となる。一方で、このような自由な入力を受け付けることにより、システムの柔軟性が増し、ユーザがさらに多様な発話を行う可能性を増大させる。
 想定される多様な発話とは、大きく以下の2つに分けられる。
 (a)1つの操作に対して、さらに多様な単語を使った入力
 (b)複数の操作からなる要求を1つの塊として入力
 上述した(a)の場合、学習データをさらに増加することにより多様な発話を処理することができる。一方、(b)の場合、元々学習データが1つの意図と対応付けられているため、複数の意図を含む場合には適切な意図を組み合わせた処理を行うことができない。
 そこで、1つの意図として学習したモデルを使い、1つまたは複数の意図を含む入力に対して適切な意図の列を求める発話意図認識装置が特許文献1に開示されている。この発話意図認識装置は、入力形態素に対して、あらかじめ意図区切りとなる形態素列を学習データとして用意し、上述した意図理解と同様に分割可能性のある点を推定してその分割点の分割可能性と、各分割要素の意図可能性とを掛け合わせることで、最も尤もらしい意図列を推定する。
特開2000-200273号公報
 しかしながら、上述した特許文献1に開示された技術は、形態素列に対して分割点候補を学習データとして与え、その可能性を学習し、実際のユーザ入力に対して分割点推定を行うものであり、それらの分割点を学習するためのデータとして、多様な入力を集めることは困難であり、実質的には学習データ中の形態素列としての分割点を予測するのみで、言語的性質に基づき分割点の可能性を判定する場合と大差がないと考えられる。
 従って、分割点を基に複数の意図を推定することは、分割点の正しさに加えて、分割後の各部分入力に対する正解意図を個別に推定した結果最も尤もらしい意図を選択し、それを接続した意図列を返すことに他ならず、その発話全体における複数の意図の妥当性が検証されないという課題があった。
 このことは、意図の連続性に関する評価がなされず、以下に示す(c)から(e)が原因となり妥当な意図列を得ることができない。
 (c)学習データが大量に用意できない場合は、意図推定精度が低くなるため、全体の意図列も精度が低くなる可能性がある。
 (d)入力には前方の部分を受けて後方の発話が省略される場合があるため、その場合に後方の発話の意図がユーザの意図列に一致しない場合がある。
 (e)入力が音声の場合には、音声認識の結果を入力とするため、誤認識を含む場合の推定間違いを意図間の整合性から排除することができない。
 この発明は、上記のような課題を解決するためになされたもので、複数の意図を含む入力が行われた場合であっても、あらかじめ意図間の関係を記述しておくことにより、意図間の関係を踏まえて、最適な意図列を生成することを目的とする。
 この発明に係る意図推定装置は、入力された言語の形態素解析を行い、形態素列に変換する形態素解析部と、形態素解析部が変換した形態素列を部分形態素に分割し、意図を推定する単位である意図推定単位を抽出する意図推定単位抽出部と、意図推定単位抽出部が抽出した各意図推定単位を構成する部分形態素の意図を推定する意図推定部と、意図推定部が推定した意図間の関係に基づいた意図共起重みを計算する意図共起重み計算部とを備え、意図推定部が推定した1または複数の意図を用いて入力された言語に相当する意図列を生成し、生成した意図列の尤もらしさを示すスコアと、生成した意図列を構成する意図について意図共起重み計算部が計算した意図共起重みとを用いて、入力された言語に対応した意図推定結果を生成する意図列推定部とを備えるものである。
 この発明によれば、複数の意図を含む入力が行われた場合にも、当該複数の意図間の関係を踏まえて最適な意図列を生成することができる。
実施の形態1に係る意図推定装置の構成を示すブロック図である。 実施の形態1に係る意図推定装置の意図階層グラフデータ蓄積部が蓄積する意図階層グラフデータの一例を示す図である。 実施の形態1に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。 実施の形態1に係る意図推定装置の意図推定部の処理を示す図である。 実施の形態1に係る意図推定装置の意図推定部の処理を示す図である。 実施の形態1に係る意図推定装置の意図列推定部の処理を示す図である。 実施の形態1に係る意図推定装置の意図列推定部の処理を示す図である。 実施の形態1に係る意図推定装置の動作を示すフローチャートである。 実施の形態2に係る意図推定装置の構成を示すブロック図である。 実施の形態2に係る意図推定装置の意図列変換テーブル蓄積部が蓄積する意図列変換テーブルの一例を示す図である。 実施の形態2に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。 実施の形態2に係る意図推定装置の意図推定部の処理を示す図である。 実施の形態2に係る意図推定装置の意図列推定部の処理を示す図である。 実施の形態2に係る意図推定装置の動作を示すフローチャートである。 実施の形態3に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。 実施の形態3に係る意図推定装置の意図推定部の処理を示す図である。 実施の形態3に係る意図推定装置の意図推定部の処理を示す図である。 実施の形態3に係る意図推定装置の意図列推定部の処理を示す図である。 実施の形態3に係る意図推定装置の意図列推定部の処理を示す図である。 実施の形態4に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。 実施の形態4に係る意図推定装置の意図推定部の処理を示す図である。 実施の形態4に係る意図推定装置の意図列推定部の処理を示す図である。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 以下ではナビゲーションシステムに適用される意図推定装置を例に説明を行う。さらに以下では、ユーザが発するあるいは入力する言語に対応した、ユーザの希望する操作を「意図」と記す。
 図1は、実施の形態1に係る意図推定装置の構成を示すブロック図である。
 意図推定装置10は、音声認識部1、形態素解析部2および意図列推定部3で構成されている。また意図列推定部3は、意図推定単位抽出部4、意図推定モデル蓄積部5、意図推定部6、意図階層グラフデータ蓄積部7および意図共起重み計算部8を備えている。
 音声認識部1は、意図推定装置10に入力された入力音声に対して音声認識処理を行い、音声認識結果を返す。形態素解析部2は、音声認識結果を入力として形態素解析を行い、形態素解析結果を返す。意図推定単位抽出部4は、形態素解析結果から、意図推定の単位として分割すべき位置を推定して部分形態素に分割し、言語の構文的制約に基づいて意図推定単位を抽出する。意図推定モデル蓄積部5は、意図推定を行う際に参照される意図推定モデルを蓄積するデータベースである。意図推定部6は、意図推定モデル蓄積部5に蓄積された意図推定モデルを参照し、意図推定単位抽出部4が分割したそれぞれの意図推定単位に対して部分意図推定結果と部分スコアを出力する。
 意図階層グラフデータ蓄積部7は、意図列の妥当性を計算する際に参照される意図階層グラフデータを蓄積するデータベースである。意図共起重み計算部8は、意図階層グラフデータ蓄積部7に蓄積された意図階層グラフデータを参照し、意図推定部6が推定した部分意図推定結果の意図列に対する妥当性を示す意図共起重みを計算する。ここで、意図共起とは入力に対して意図が複数推定される場合を示し、意図共起重みとは推定された複数の意図についてそれぞれの妥当性を示した値である。意図列推定部3は、形態素解析部2から入力される形態素解析結果に対して、意図推定単位抽出部4、意図推定部6、および意図共起重み計算部8の出力結果に基づいて、意図列推定結果と最終スコアを取得し、入力音声に最も適した最終スコア付きの意図列推定結果を出力する。
 図2は、実施の形態1に係る意図推定装置の意図階層グラフデータ蓄積部7が蓄積する意図階層グラフデータの一例を示す図である。
 意図階層グラフデータは、意図ノード21~27、各意図ノード21~27の階層関係、および子ノードの意図共起重みを数値化して示した意図共起重み28、29が示されている。ここで、子ノードとは、例えば意図ノード21の場合、当該意図ノード21の一層下位に位置する意図ノード22を示す。
 意図階層グラフデータは、基本的に仮想的な意図ノードを頂点とし、機能を階層化して示した構造となっており、下層に行くほどより具体的な意図を表している。図2の例では仮想的な「root」の意図ノード21を頂点とし、下層の意図ノード23は「目的地設定[]」、さらに一層下層の意図ノード24は「目的地設定[施設=?]」、さらに一層下層の意図ノード25は「目的地設定[施設=$施設$]」となっている。意図ノード23は目的地設定を行うが設定条件が何も決まっていない状態、意図ノード24は施設の目名称を用いて目的地設定を行うが具体的な施設名称が決まっていない状態、意図ノード25は具体的な施設名称が「$施設$」に割り当てられ、具体的な施設名で目的地設定を行う状態を表している。
 一方、意図ノード26の「施設検索[施設=$施設$]」から意図ノード25の「目的地設定[施設=$施設$]」へのグラフのパス26a(以下グラフパスと称する)、および意図ノード26の「施設検索[施設=$施設$]」から意図ノード27「経由地設定[施設=$施設$]」へのグラフパス26bは、想定するカーナビゲーションアプリケーションの機能を基に生成されるグラフパスである。意図ノード26「施設検索[施設=$施設$]」は、具体的施設「$施設$」を探索することのみを要求しており、一方意図ノード25「目的地設定[施設=$施設$]」へのグラフパス26a、および意図ノード27「経由地設定[施設=$施設$]」へのグラフパス26bは、アプリケーションとして最終的に目的地設定、経由地設定などの意図を選択する必要があることを示している。
 また、意図共起重み28は「1.2」を示し、これは子ノード以下の意図が複数出現した場合の意図共起重みが「1.2」であることを示している。すなわち、共に複数の意図が出現しても問題なく、さらには共に複数の意図が出現する頻度が多いことを示している。一方、意図共起重み29は「0.0」を示し、子ノード以下の意図が複数出現した場合の意図共起重みが「0.0」であることを示している。すなわち、共に複数の意図が出現しないことを示している。
 図3は、実施の形態1に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。
 入力音声31は、入力例としてユーザが「○○ドームに立ち寄ってから、××ランドに行きたい」と発話したことを示している。音声認識結果32は、音声認識部1が入力音声31を音声認識した結果である。具体的には、「○○ドームに立ち寄ってから△△ラジオを聞きたい」が音声認識スコア「0.6」で求められた音声認識結果例33、および「○○ドームに立ち寄ってから、××ランドに行きたい」が音声認識スコア「0.4」で求められた音声認識結果例34で構成されている。
 形態素解析結果35は、形態素解析部2が音声認識結果32を形態素解析した結果である。意図推定単位抽出結果36、40は、意図推定単位抽出部4が形態素解析結果35から言語の構文的制約に基づいて意図推定単位を抽出した結果である。意図推定単位抽出結果36では、3つの抽出パターン37、38、39が示されている。図3に示すように言語が日本語の場合、自立語に付属語列が付くという性質から、文節が最小の意図推定単位となり、さらに前方の体言が後方の用言に係るという性質から複合する文節が意図推定単位として抽出される。抽出パターン37、38、39で示した意図推定結果抽出単位は、ここで説明した係り受けの構造が成立するパターンのみを抽出したものである。
 その後、意図推定単位抽出結果36、40の各抽出パターンを参照して、意図推定部6が意図推定モデルを用いて各抽出パターンの部分意図の推定を行い、部分スコアを算出する。当該意図推定部6の具体的な処理結果を図4および図5に示す。
 図4および図5は、実施の形態1に係る意図推定装置の意図推定部6の処理を示す図である。より詳細には、図4は図3で示した意図推定単位抽出結果36に基づく部分意図の推定を示し、図5は図3で示した意図推定単位抽出結果40に基づく部分意図の推定を示している。
 なお、図4および図5では自立語の原型をタームとして抽出する場合について説明する。まず、図4を参照しながら部分意図の推定処理について説明する。
 ターム列41は、意図推定単位抽出結果36から生成される部分意図推定に用いるターム列を示しており、「○○ドーム/に」に対しては「$施設$_1」、「立ち寄っ/て/から」に対しては「立ち寄る」、「××ラジオ/を」に対しては「$ラジオ局$_1」、「聞き/たい」に対しては「聞く」が生成されることを示している。
 さらに図4では、ターム列41に対して、分割採用重みおよび複数の抽出パターンを示している。抽出パターンとして図4の例では、図3で示した抽出パターン37、38、39に基づいた抽出パターンA、B、C、Dおよび非抽出パターンE、F、Gを示している。実線矢印42、43、44は、意図推定単位抽出部4が抽出した意図推定単位の範囲を示している。また、当該実線矢印42、43、44の下方には意図推定部6が推定した結果の部分意図、および当該推定した部分意図の部分スコアが示されている。また、点線矢印45、46は、意図推定単位抽出部4が抽出しなかった範囲を示している。当該点線矢印45、46の下方には意図推定部6が推定した結果の部分意図、および当該推定した部分意図の部分スコアが記載されている。さらにターム列41の下方に記載された分割点採用重み47は、各指定位置が意図推定単位の分割点として採用された場合にスコアに掛け合わせる数値であり、一方各指定位置が意図推定単位の分割点として採用されなかった場合には1から当該分割点採用重み47を引いた値をスコアに掛け合わせる数値である。
 次に、図5を参照しながら部分意図の推定処理について説明する。
 ターム列51は、意図推定単位抽出結果40から生成される部分意図推定に用いるターム列を示しており、「○○ドーム/に」に対しては「$施設$_1」、「立ち寄っ/て/から」に対しては「立ち寄る」、「××ランド/へ」に対しては「$施設$_2」、「行き/たい」に対しては「行く」が生成されることを示している。
 さらに図5では、ターム列51に対して、分割採用重みおよび複数の抽出パターンを示している。抽出パターンとして図5の例では、図3で示した抽出パターンに基づいた抽出パターンA´、B´、C´、D´および非抽出パターンE´、F´、G´を示している。実線矢印52、53、54は、意図推定単位抽出部4が抽出した意図推定単位の範囲を示している。また、当該矢印52、53、54の下方には意図推定部6が推定した結果の部分意図、および当該推定した部分意図の部分スコアが示されている。また、点線矢印55、56は、意図推定単位抽出部4が抽出しなかった範囲を示している。当該点線矢印55、56の下方には意図推定部6が推定した結果の部分意図、および当該推定した部分意図の部分スコアが記載されている。さらにターム列51の下方に記載された分割点採用重み57は、各指定位置が意図推定単位の分割点として採用された場合にスコアに掛け合わせる数値であり、一方各指定位置が意図推定単位の分割点として採用されなかった場合には1から当該分割点採用重み57を引いた値をスコアに掛け合わせる数値である。
 次に、意図列推定部3は、意図推定部6が推定した部分意図推定結果を用いて音声認識結果例33、34に対する部分意図推定結果の組み合わせを生成し、各組み合わせの最終スコアを算出する。意図列推定部3の具体的な処理結果を図6および図7に示す。
 図6および図7は、実施の形態1に係る意図推定装置の意図列推定部3の処理を示す図である。より詳細には、図6は図4で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示し、図7は図5で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示している。
 最終スコアは、各意図推定単位の全ての連続する部分意図列に対する部分スコアを掛け合わせ、さらに意図推定単位の妥当性、および意図共起重み計算部8が算出した意図共起重みを掛け合わせて算出される。
 図6は音声認識結果例33に対する最終スコアの算出例を示し、当該音声認識結果例33の音声認識スコア61が「0.6」と示されている。また部分スコア62は、ターム列41を用いた各抽出パターンにおける部分意図推定結果の部分スコアを示している。全体スコア63は、部分意図推定結果の各部分スコアの積をとったものである。分割重み64は、分割点を採用したか、あるいは不採用であったかに従って重みを計算したものである。分割重み64の値は、意図分割の可能性を表す数字で、当該分割重み64の値の総和を取ると「1.0」になる。分割重みスコア(意図列の尤もらしさを示すスコア)65は、全体スコア63と分割重み64との積である。
 意図共起重み66は、図2で示した意図階層グラフと部分意図列から求まる数値である。最終スコア67は、分割重みスコア65と、音声認識スコア61と、意図共起重み66とを掛け合わせた値である。抽出パターンAの意図列68は、音声認識結果例33の意図列パターンとして全ての文節で分割した場合の最終スコアを記したものである。また、抽出パターンB+Cの意図列69は、重文構造の各文を一塊とした場合の最終スコアを記したものである。
 図7は、音声認識結果例34に対する最終スコアの算出例を示し、当該音声認識結果例34の音声認識スコア71が「0.4」と示されている。また、ターム列51、全体スコア72、分割重み73、分割重みスコア74、意図共起重み75および最終スコア76は、図6で説明した構成と同一である。また、抽出パターンB´+C´の意図列77は、重文構造の各文を一塊とした場合の最終スコアを記したものである。
 図8は、実施の形態1に係る意図推定装置の動作を示すフローチャートである。
 音声認識部1は、入力音声の音声認識を行う(ステップST1)。形態素解析部2は、ステップST1で得られた音声認識結果に対して形態素解析を行う(ステップST2)。意図推定単位抽出部4は、ステップST2で得られた形態素解析結果である形態素列を部分形態素に分割し、意図を推定する単位である意図推定単位を全て抽出する(ステップST3)。意図推定部6は、ステップST3で抽出された全ての意図推定単位に対して部分意図推定を行い、部分意図推定結果および部分スコアを得る(ステップST4)。
 意図列推定部3は、ステップST4で得られた部分意図推定結果に基づいて、部分意図を連結して音声認識結果の全体に一致する意図列を生成し、生成した意図列の全体スコアを算出する(ステップST5)。また意図列推定部3は、ステップST5で生成した意図列の全体スコアに対して、意図共起重み計算部8が算出した意図共起重みおよび音声認識スコアを掛け合わせ、意図列に対する最終スコアを算出する(ステップST6)。さらに意図列推定部3は、ステップST6で算出した最終スコアを参照し、最も大きい最終スコアを有する意図列を、入力音声に最も適した意図列推定結果として出力し(ステップST7)、処理を終了する。
 次に、図2から図7で示した具体例を参照しながら、図8で示したフローチャートについて説明を行う。なお、以下では音声による入力が行われるものとして説明を行う。
 まず、音声による入力として図3で示した入力音声31「○○ドームに立ち寄ってから××ランドに行きたい」が入力され、当該入力音声31に対してステップST1として音声認識部1が音声認識を行い、音声認識結果32が得られたものとする。音声認識結果32は、音声認識結果例33の「○○ドームに立ち寄ってから△△ラジオを聞きたい」がスコア0.6、音声認識結果例34の「○○ドームに立ち寄ってから××ランドへ行きたい」がスコア0.4で得られたとする。当該音声認識結果例33、34は形態素解析部2に出力される。
 形態素解析部2は、ステップST2として既知の形態素解析手法に基づいて音声認識結果例33、34の形態素解析を行い、図3に示す形態素解析結果35を生成する。図3の例では、形態素解析結果35には表層の形態素と品詞および活用形を記載しているが、それ以外の詳細な品詞分類、形態素の原形、形態素の意味ラベルなどの情報が出力されてもよく、最低限形態素の原形は含まれているものとする。
 形態素解析結果35は、2つの形態素解析結果例36、40で構成され、それぞれ意図推定単位抽出部4に出力される。
 意図推定単位抽出部4は、ステップST3として言語の構文的特徴に基づいて、形態素解析結果例36、40の全ての意図推定単位を抽出する。例えば、日本語の場合には、自立語に複数の付属語が連接して1つの文節という意味の塊をなすことから、形態素解析結果例36の場合、まず、「○○ドーム(固有名詞)/に(助詞)」、「立ち寄っ(動詞:連用)/て(助詞)/から(助詞)」、「△△ラジオ(固有名詞:ラジオ局)/を(助詞)」、「聞き(動詞:連用)/たい(助動詞)」といった4つの文節が意図推定単位として抽出される。
 次に、構文的な制約として、体言は用言に係るという性質に基づき、かかり受け関係が成立する文節の組をひとつの意図推定単位として抽出する。さらに用言の連体形は後続の体言に係る、用言の連用形は後続の用言に係るという性質があるためこれに基づき意図推定単位の拡張を行う。これを繰り返すことにより、構文的に意味を持つ可能性がある形態素列が生成され、意図推定単位として抽出される。
 図3の意図推定単位抽出結果例36で示した、抽出パターン37は文節を単位とする形態素列の意図推定単位であり、抽出パターン38は直後の用言に体言を接続させた2つの文節からなる意図推定単位であり、抽出パターン39は抽出パターン38の2つの文節をさらにまとめた意図推定単位である。
 ステップST3の意図推定単位の抽出処理が終了すると、意図推定部6はステップST4として各意図推定単位に対して意図推定に用いるタームを抽出した上で意図推定を行い、そのスコアを保持する。図4で示したターム列41は、各意図推定と意図推定に用いるタームを示している。
 タームは、(1)形態素を単独のタームとして使う方法、(2)自立語形態素を単独のタームとして使う方法、(3)形態素を単独およびn個の連鎖をタームとして使う方法、(4)形態素を単独およびそれに付随する付属の意味シンボル連鎖をタームとして使う方法などが考えられるが、本実施の形態1では、簡単のため自立語形態素の原形を抽出するものとして説明を進める。また、「○○ドーム」、「××ランド」、「△△ラジオ」や住所、施設ジャンル名、ブランド名などのタームは多様なタームが現れるため、そのままでは意図推定モデルの構築が困難なため、上位概念によるシンボルの共通化をして、「$施設$」、「$住所$」、「$ラジオ局$」、「$ジャンル名$」、「$ブランド名$」などのタームを用いる。
 例えば、図4の抽出パターンBの実線矢印42で示した意図推定単位は、「○○ドームに立ち寄ってから」に対して、「$施設$_1」、「立ち寄る」の2つのタームが意図推定タームとして渡されることを示しており、その部分意図推定結果として「経由地設定[施設=$施設$_1]」が部分スコア「0.95」で意図推定されたことを示している。
 図4の実線矢印42、43、44はステップST3で抽出した意図推定単位に対する部分意図推定結果を示し、点線矢印45、46はステップST3で抽出されなかった意図推定単位に対する部分意図推定結果を示し、音声認識結果例33全体をカバーする意図推定単位に関する部分意図推定結果である。点線矢印45、46で示した意図推定単位の部分意図推定結果を算出した理由は、入力音声が必ずしも文法的に正しい構文を構成するものだけではない可能性が存在するためである。特に、入力音声が音声認識される場合には、ユーザの発話が助詞や助動詞を十分に用いない形で行われることも多く、構文的に厳密な入力を想定すると、意図推定単位に漏れが生じる可能性がある。さらに、音声認識結果に認識誤りが含まれる可能性もあり、全ての可能性を評価した上で最適と考えられる意図列を選択する方が好ましい。
 各意図推定単位の部分意図推定結果が求められると、意図列推定部3はステップST5として意図推定単位を用いて音声認識結果例33の全体に一致する意図列を生成し、全体スコアを計算する。図6は図5で示した抽出パターンA、B、C、Dおよび非抽出パターンE、F、Gを組み合わせて音声認識結果例33の全体に一致する意図列を生成し、生成した意図列の部分スコア62を表している。部分スコア62において領域Oは、図4において実線で記した部分意図の部分スコアに該当する。また領域Pは構文的に正当性が低く図4において点線で記した部分意図の部分スコアに該当する。当該領域Pにおいて、本実施の形態1では、意図推定部分ペナルティとして「0.9」を部分意図推定結果の部分スコアに対して掛け合わせることとする。また、各抽出パターンにおいて部分意図の部分スコアを全て掛け合わせることにより全体スコア63が算出される。
 また、図6で示した各抽出パターンにおける分割重み64は、図4で示した分割採用重み47に基づいて以下のように計算される。
 意図列68の場合:
  0.4×0.6×0.4=0.096
 抽出パターンAの場合、全ての分割点が使われているため、各点の分割採用重み47を掛け合わせる。
 意図列69の場合:
  (1.0-0.4)×0.6×(1.0-0.4)=0.216
 抽出パターンB+Cの場合、2番目の分割点のみ使われているため、2番目の点以外は1.0からの分割採用重み47を引いたものを掛け合わせる。
 上述のように算出された分割重み64を用いて、分割重みスコア65が「(全体スコア63)×(分割重み64)」として算出される。算出された分割重みスコア65を参照すると、音声認識結果例33の意図理解結果として、抽出パターンB+Cで示した「経由地設定[施設=$施設$_1]、ラジオ再生[対象=$ラジオ局$_1]」が、最も高い分割重みスコア「0.197」として求まる。一方、音声認識結果例34についても同様に、図7に示すように意図理解結果として、抽出パターンB´+C´で示した「経由地設定[施設=$施設$_1]、目的地設定[施設=$施設$_2]」が最も高い分割重みスコア「0.195」として求まる。
 従来であれば、当該抽出パターンB+Cと抽出パターンB´+C´の意図理解結果である分割重みスコアにおいて、より高いスコアを取る抽出パターンB+Cで示した「経由地設定[施設=$施設$_1]、ラジオ再生[対象=$ラジオ局$_1]」が入力音声31に対する意図推定結果と算出される。
 さらに、評価の方法として、音声認識スコア61、71に対して分割重みスコア65、74を積算したものを最終スコアとする方法も考えられるが、音声認識スコア61と音声認識スコア71とを比較すると音声認識結果例33の音声認識スコア61の方が高い値であるため、いずれの場合も抽出パターンB+Cで示した「経由地設定[施設=$施設$_1]、ラジオ再生[対象=$ラジオ局$_1]」が最終的な意図推定結果となる。これは、意図間の関係を考慮した条件が存在しないために、音声認識結果が最優先で評価されて起こる。
 そこで、この実施の形態1の意図推定装置10では、ステップST6として意図列推定部3が意図の妥当性を評価するために、例えば以下に示す計算を行った結果を意図共起重み66、75とし、分割重みスコア65、74に積算する。
(1)連続する2つの意図を順番に抽出し、2つの意図の関係を計算する。
  (a)2つの意図の上位・下位の関係がある場合は一定の重み(たとえば、0.7)
  (b)2つの意図が共通の上位意図を持つ場合、そのノードに付与された重み
(2)(1)で求めた重みの積を最終的な重み、すなわち最終スコア67、76とする。
 上述した(1)による計算では、標準的な意図連鎖関係には1.0を与え、より密接な意図連鎖関係には1.0より大きい値を与え、矛盾するような意図連鎖関係には1.0より小さい値を与えることで、加点、減点を行うことになる。
 例えば、抽出パターンB+Cで示した「経由地設定[施設=$施設$_1]、ラジオ再生[対象=$ラジオ局$_1]」の場合、共通する上位意図は図2で示したノード21の「root」となるため、当該ノード21に付与された意図共起重みは「0.5」となる。この処理を全ての意図列に対して計算すると図6および図7で示した意図共起重み66、75のようになる。このように算出された意図共起重みを用いて最終スコアは以下の式に基づいて計算される。
 (最終スコア)=(分割重みスコア)×(意図共起重み)×(音声認識スコア)
 最終スコア67、76の算出結果を参照すると、最も高い最終スコアを有するのは抽出パターンB´+C´で示した意図列77となり、ステップST7として当該意図列77がユーザの入力音声31に最も適した意図列推定結果として出力される。
 以上のように、この実施の形態1によれば、意図間の関係を示す意図共起重みを計算する意図共起重み計算部8と、分割重みスコアを算出し、算出した分割重みスコアに意図共起重みおよび音声認識スコアを積算する意図列推定部3を備えるように構成したので、意図間の関係を考慮して、入力音声に最も適した意図列推定結果を出力することができる。そのため、複数の意図を含む入力が行われた場合であっても、意図間の関係に基づいて最適な意図列を生成し、意図列推定結果として出力することができる。
実施の形態2.
 実施の形態2では、ユーザが発話の省略を行った場合にも適切な意図列推定結果を得る構成を示す。
 図9は、実施の形態2に係る意図推定装置の構成を示すブロック図である。
 図1で示した実施の形態1の意図推定装置10に意図列変換テーブル蓄積部11および意図列変換部12を追加して設けている。なお以下では、実施の形態1による意図推定装置10の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
 意図列変換テーブル蓄積部11は、意図推定結果と置換意図列との関係を記載したデータを意図列変換テーブルとして蓄積している。意図列変換テーブルは、意図推定結果で示された意図の連続に対して置き換える置換意図列を示したルールを保持するものであり、当該ルールに一致する意図列が出現したか否か判断する場合、および置き換える意図列を取得する場合に参照される。
 意図列変換部12は、意図列変換テーブル蓄積部11に蓄積された意図列変換テーブルを参照して、意図推定部6が推定した部分意図推定結果と一致する意図列が存在するか否か順番にチェックを行い、一致する意図列が存在する場合にはルールに従って当該意図列の変換を行う。
 図10は、実施の形態2に係る意図推定装置の意図列変換テーブル蓄積部11が蓄積する意図列変換テーブルの一例を示す図である。
 意図列変換テーブルは複数の意図列変換ルールで構成され、図10の例では3つの意図列変換ルール81、82、83を示している。意図列変換ルールは、左辺の意図列に一致する部分意図推定結果が出現した場合には、当該部分意図推定結果を右辺の意図列に置き換えることを示している。
 位置変換テーブルに記載される意図列変換ルールは基本的には、発話中の省略や意味的な変換が前後の関係から明らかな場合の経験則によるルールである。例えば、意図列変換ルール81の入力文例はその典型的な発話例を表したもので、入力文例の後段の「$施設$_Y」に相当する発話は文脈から目的地を示唆しているため、変換前の「地点検索(施設検索)」の意図を「目的地設定」に置き換えることを示している。
 図11は、実施の形態2に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。
 図11では入力音声として「○○ドームに立ち寄ってから××ランド」という発話が入力された場合の音声認識結果から意図推定単位を抽出するまでの例を示す。
 音声認識結果91は、音声認識部1が入力音声31を音声認識した結果である。具体的には、「○○ドームに立ち寄ってから××ランド」がスコア「0.7」で求められた音声認識結果例が示されており、発話の通りの認識が行われたことを示している。形態素解析結果92は、形態素解析部2が音声認識結果91を形態素解析した結果である。意図推定単位抽出結果93は、意図推定単位抽出部4が形態素解析結果92に対して意図推定単位を抽出した結果である。意図推定単位抽出結果93では、3つの抽出パターン93a、93b、93cが示されている。
 図12は、実施の形態2に係る意図推定装置の意図推定部6の処理を示す図である。より詳細には、図11で示した意図推定単位抽出結果93に基づく部分意図の推定を示している。
 ターム列94は、意図推定単位抽出結果93から生成される部分意図推定に用いるターム列を示している。また、抽出パターン93a、93b、93cに基づいた抽出パターンH、I、Jおよび非抽出パターンKを示している。実線矢印95および部分スコア96は、各意図推定単位に対して意図推定した結果例である。点線矢印および分割点採用重みの構成は実施の形態1と同様である。
 図13は、実施の形態2に係る意図推定装置の意図列推定部3の処理を示す図である。より詳細には、図12で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示している。
 音声認識結果91に対して、部分意図推定結果の組み合わせにより最終スコアを計算した例であり、実施の形態1と同様に部分スコア101、音声認識スコア102、全体スコア103、分割重み104、分割重みスコア105、意図共起重み106および最終スコア107が示されている。意図列108は、全ての分割パターンに対して最適な意図推定結果を示す意図列を示している。
 図14は、実施の形態2に係る意図推定装置の動作を示すフローチャートである。なお、以下では実施の形態1に係る意図推定装置10と同一のステップには図8で使用した符号と同一の符号を付し、説明を省略または簡略化する。
 ステップST5において、音声認識結果の全体に一致する意図列を生成して全体スコアを算出すると、意図列変換部12は生成された意図列の部分意図列の中から意図列変換テーブル蓄積部11に蓄積された意図列変換ルールに一致する分割パターンを検索し、一致する分割パターンが存在する場合には、当該意図列を意図列変換ルールに基づいて変換する(ステップST11)。
 その後、意図列推定部3はステップST11で変換した意図列あるいは変換しなかった意図列の全体スコアに対して、意図共起重み計算部8が算出した意図共起重みおよび音声認識スコアを掛け合わせ、意図列に対する最終スコアを算出する(ステップST6)。さらに意図列推定部3は、ステップST16で算出した最終スコアを参照し、最も大きい最終スコアを有する意図列を、入力音声に最も適した意図列推定結果として出力し(ステップST7)、処理を終了する。
 次に、図11から図13で示した具体例を参照しながら、図14で示したフローチャートについて説明を行う。また、実施の形態1と同様に音声による入力が行われるものとして説明を行う。
 まず、音声による入力として「○○ドームに立ち寄ってから××ランド」が入力され、ステップST1として図11に示す音声認識結果91がスコア0.7で得られたとする。音声認識結果91以外の認識結果が生成されることも予想されるが、実施の形態2の発明のポイントには影響を与えないため説明を省略する。音声認識結果91が生成されると、ステップST2の形態素解析およびステップST3の意図推定単位の抽出が行われ、図11に示す意図推定単位抽出結果93が得られる。
 続いて、意図推定部6はステップST4として図12に示すターム列94を抽出した上で、部分意図推定結果および部分スコアを算出する。次に、意図列推定部3は、ステップST5として意図列推定単位を用いて音声認識結果91の全体に一致する意図列を生成し、全体スコアを計算する。これにより、図13で示した抽出パターン、当該抽出パターンンに応じた部分スコア、および部分スコアに基づいた全体スコアが得られる。
 次に、意図列変換部12は、ステップST11として部分意図列の中から、図10で示した意図列変換ルールに一致する置換パターンを検索し、一致する置換パターンが存在した場合には該当する意図列を意図列変換ルールに従って変換する。
 具体的には、図13で示した意図列108の場合、抽出パターンIの部分意図列および抽出パターンHの部分意図列で構成され、当該意図列108は図10で示した意図列変換ルール81に一致するため、以下のように変換される。
 変換前:経由地設定[施設=$施設$_1]、施設検索[施設=$施設$_2]
 変換後:経由地設定[施設=$施設$_1]、目的地設定[施設=$施設$_2]
 次に、ステップST6として意図列推定部3が分割重みスコア105を算出し、当該分割重みスコア105に意図共起重み計算部8が計算した意図共起重み106および音声認識スコアを積算し、最終スコア107を算出する。最後に、意図列推定部3はステップST7として最終スコア107が最大である意図列108の「経由地設定[施設=$施設$_1]、目的地設定[施設=$施設$_2]」がユーザの入力音声に最も適した意図列推定結果であるとして出力する。
 以上のように、この実施の形態2によれば、意図列の置換パターンを示した意図列変換テーブルを蓄積した意図列変換テーブル蓄積部11と、当該意図列変換テーブル蓄積部11に蓄積された意図変換テーブルを参照して該当する意図列が出現した場合に置換パターンに従って意図列を置き換える意図列変換部12とを備えるように構成したので、ユーザの発話において省略が行われた場合であっても、ユーザの入力音声に最も適した意図列推定結果を得ることができる。
実施の形態3.
 上述した実施の形態1では使用言語を日本語として説明を行ったが、この実施の形態3では使用言語を英語として説明する。なお、以下ではナビゲーションシステムに適用される意図推定装置を例に説明を行う。
 また、以下の説明では、実施の形態1で示した意図推定装置(図1参照)を用いて説明を行う。また、意図推定装置10の意図階層グラフデータ蓄積部7は図2で示した意図階層グラフデータを蓄積するものとする。さらに、図8で示したフローチャートに基づいて意図推定処理を行うものとして説明を行う。
 図15は、実施の形態3に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。
 入力音声111は、入力例としてユーザが「Stop at ○○ Dome, then drive to ×× Land」と発話したことを示している。音声認識結果112は、音声認識部1が入力音声111を音声認識した結果である。具体的には、「Stop at ○○ Dome, then listen to the △△ Radio」が音声認識スコア「0.6」で求められた音声認識結果例113、および「Stop at ○○ Dome, then drive to ×× Land」が音声認識スコア「0.4」で求められた音声認識結果例114で構成されている。
 形態素解析結果115は、形態素解析部2が音声認識結果112を形態素解析した結果である。意図推定単位抽出結果116、120は、意図推定単位抽出部4が形態素解析結果115から言語の構文的制約に基づいて意図推定単位を抽出した結果である。意図推定単位抽出結果116では、3つの抽出パターン117、118、119が示されている。図15に示すように言語が英語の場合、名詞、動詞、形容詞などの単語を意図推定単位として抽出する。抽出パターン117、118、119で示した意図推定結果抽出単位は、ここで説明した係り受けの構造が成立するパターンのみを抽出したものである。
 その後、意図推定単位抽出結果116、120の各抽出パターンを参照して、意図推定部6が意図推定モデルを用いて各抽出パターンの部分意図の推定を行い、部分スコアを算出する。当該意図推定部6の具体的な処理結果を図16および図17に示す。
 図16および図17は、実施の形態3に係る意図推定装置の意図推定部6の処理を示す図である。より詳細には、図16は図15で示した意図推定単位抽出結果116に基づく部分意図の推定を示し、図17は図15で示した意図推定単位抽出結果120に基づく部分意図の推定を示している。
 なお、図16および図17では単語の原形をタームとして抽出する場合について説明する。まず、図16を参照しながら部分意図の推定処理について説明する。
 ターム列121は、意図推定単位抽出結果116から生成される部分意図推定に用いるターム列を示しており、「○○ Dome」に対しては「$施設$_1」、「Stop at」に対しては「stop」、「the △△ Radio」に対しては「$ラジオ局$_1」、「listen to」に対しては「listen」が生成されることを示している。
 さらに図16では、ターム列121に対して、分割採用重みおよび複数の抽出パターンを示している。抽出パターンとして図16の例では、図15で示した抽出パターン117、118、119に基づいた抽出パターンa、b、c、dおよび非抽出パターンe、f、gを示している。実線矢印122、123、124は、意図推定単位抽出部4が抽出した意図推定単位の範囲を示している。また、当該実線矢印122、123、124の下方には意図推定部6が推定した結果の部分意図、および当該推定した部分意図の部分スコアが示されている。また、点線矢印125、126は、意図推定単位抽出部4が抽出しなかった範囲を示している。当該点線矢印125、126の下方には意図推定部6が推定した結果の部分意図、および当該推定した部分意図の部分スコアが記載されている。さらにターム列121の下方に記載された分割点採用重み127は、各指定位置が意図推定単位の分割点として採用された場合にスコアに掛け合わせる数値であり、一方各指定位置が意図推定単位の分割点として採用されなかった場合には1から当該分割点採用重み127を引いた値をスコアに掛け合わせる数値である。
 次に、図17を参照しながら部分意図の推定処理について説明する。
 ターム列131は、意図推定単位抽出結果120から生成される部分意図推定に用いるターム列を示しており、「○○ Dome」に対しては「$施設$_1」、「Stop at」に対しては「Stop」、「×× Land」に対しては「$施設$_2」、「drive to」に対しては「drive」が生成されることを示している。
 さらに図17では、ターム列131に対して、分割採用重みおよび複数の抽出パターンを示している。抽出パターンとして図17の例では、図15で示した抽出パターンに基づいた抽出パターンa´、b´、c´、d´および非抽出パターンe´、f´、g´を示している。実線矢印132、133、134は、意図推定単位抽出部4が抽出した意図推定単位の範囲を示している。また、当該矢印132、133、134の下方には意図推定部6が推定した結果の部分意図、および当該推定した部分意図の部分スコアが示されている。また、点線矢印135、136は、意図推定単位抽出部4が抽出しなかった範囲を示している。当該点線矢印135、136の下方には意図推定部6が推定した結果の部分意図、および当該推定した部分意図の部分スコアが記載されている。さらにターム列131の下方に記載された分割点採用重み137は、各指定位置が意図推定単位の分割点として採用された場合にスコアに掛け合わせる数値であり、一方各指定位置が意図推定単位の分割点として採用されなかった場合には1から当該分割点採用重み137を引いた値をスコアに掛け合わせる数値である。
 次に、意図列推定部3は、意図推定部6が推定した部分意図推定結果を用いて音声認識結果例113、114に対する部分意図推定結果の組み合わせを生成し、各組み合わせの最終スコアを算出する。意図列推定部3の具体的な処理結果を図18および図19に示す。
 図18および図19は、実施の形態3に係る意図推定装置の意図列推定部3の処理を示す図である。より詳細には、図18は図16で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示し、図19は図17で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示している。
 最終スコアは、各意図推定単位の全ての連続する部分意図列に対する部分スコアを掛け合わせ、さらに意図推定単位の妥当性、および意図共起重み計算部8が算出した意図共起重みを掛け合わせて算出される。
 図18は音声認識結果例113に対する最終スコアの算出例を示し、当該音声認識結果例113の音声認識スコア141が「0.6」と示されている。また部分スコア142は、ターム列121を用いた各抽出パターンにおける部分意図推定結果の部分スコアを示している。全体スコア143は、部分意図推定結果の各部分スコアの積をとったものである。分割重み144は、分割点を採用したか、あるいは不採用であったかに従って重みを計算したものである。分割重み144の値は、意図分割の可能性を表す数字で、当該分割重み144の値の総和を取ると「1.0」になる。分割重みスコア(意図列の尤もらしさを示すスコア)145は、全体スコア143と分割重み144との積である。
 意図共起重み146は、図2で示した意図階層グラフと部分意図列から求まる数値である。最終スコア147は、分割重みスコア145と、音声認識スコア141と、意図共起重み146とを掛け合わせた値である。抽出パターンaの意図列148は、音声認識結果例113の意図列パターンとして全ての文節で分割した場合の最終スコアを記したものである。また、抽出パターンb+cの意図列149は、重文構造の各文を一塊とした場合の最終スコアを記したものである。
 図19は、音声認識結果例114に対する最終スコアの算出例を示し、当該音声認識結果例114の音声認識スコア151が「0.4」と示されている。また、ターム列131、全体スコア152、分割重み153、分割重みスコア154、意図共起重み155および最終スコア156は、図18で説明した構成と同一である。また、抽出パターンb´+c´の意図列157は、重文構造の各文を一塊とした場合の最終スコアを記したものである。
 次に、実施の形態3の意図推定装置の動作について説明する。なお、実施の形態3の意図推定装置の動作を示すフローチャートは実施の形態1の図8で示したフローチャートと同一である。そこで、図2および図15からから図19で示した具体例を参照しながら、実施の形態1の図8で示したフローチャートについて説明を行う。なお、以下では音声による入力が行われるものとして説明を行う。
 まず、音声による入力として図15で示した入力音声111「Stop at ○○ Dome, then drive to ×× Land」が入力され、当該入力音声111に対してステップST1として音声認識部1が音声認識を行い、音声認識結果112が得られたものとする。音声認識結果112は、音声認識結果例113の「Stop at ○○ Dome, then listen to the △△ Radio」がスコア0.6、音声認識結果例114の「Stop at ○○ Dome, then drive to ×× Land」がスコア0.4で得られたとする。当該音声認識結果例113、114は形態素解析部2に出力される。
 形態素解析部2は、ステップST2として既知の形態素解析手法に基づいて音声認識結果例113、114の形態素解析を行い、図15に示す形態素解析結果115を生成する。図15の例では、形態素解析結果115には表層の形態素と品詞および活用形を記載しているが、それ以外の詳細な品詞分類、形態素の原形、形態素の意味ラベルなどの情報が出力されてもよく、最低限形態素の原形は含まれているものとする。
 形態素解析結果115は、2つの形態素解析結果例116、120で構成され、それぞれ意図推定単位抽出部4に出力される。
 意図推定単位抽出部4は、ステップST3として言語の構文的特徴に基づいて、形態素解析結果例116、120の全ての意図推定単位を抽出する。例えば、英語の形態素解析結果例116の場合、まず、「stop(v)/at(prep)」、「○○ Dome(n:POI)」、「then(adv)/drive(v)/to(prep)」、「the(art)/ △△ Radio(n:radio station)」といった4つの文節が意図推定単位として抽出される。
 次に、構文的な制約として、体言は用言に係るという性質に基づき、かかり受け関係が成立する文節の組をひとつの意図推定単位として抽出する。さらに用言の連体形は後続の体言に係る、用言の連用形は後続の用言に係るという性質があるためこれに基づき意図推定単位の拡張を行う。これを繰り返すことにより、構文的に意味を持つ可能性がある形態素列が生成され、意図推定単位として抽出される。
 図15の意図推定単位抽出結果例116で示した、抽出パターン117は文節を単位とする形態素列の意図推定単位であり、抽出パターン118は直前の動詞に名詞を接続させた2つの文節からなる意図推定単位であり、抽出パターン119は抽出パターン118の2つの文節をさらにまとめた意図推定単位である。
 ステップST3の意図推定単位の抽出処理が終了すると、意図推定部6はステップST4として各意図推定単位に対して意図推定に用いるタームを抽出した上で意図推定を行い、そのスコアを保持する。図16で示したターム列121は、各意図推定と意図推定に用いるタームを示している。
 タームは、(1)形態素を単独のタームとして使う方法、(2)名詞、動詞、形容詞などの限定された単語を単独のタームとして使う方法、(3)形態素を単独およびn個の連鎖をタームとして使う方法、(4)形態素を単独およびそれに付随する付属の意味シンボル連鎖をタームとして使う方法などが考えられるが、本実施の形態3では、簡単のため名詞、動詞、形容詞などの限定された単語の原形を抽出するものとして説明を進める。ただし、施設や住所などの名詞は、複数の単語列で1つの塊とみなす。また、「○○ Dome」、「×× Land」、「△△ Radio」や住所、施設ジャンル名、ブランド名などのタームは多様なタームが現れるため、そのままでは意図推定モデルの構築が困難なため、上位概念によるシンボルの共通化をとして、「$施設$」、「$住所$」、「$ラジオ局$」、「$ジャンル名$」、「$ブランド名$」などのタームを用いる。
 例えば、図16の抽出パターンbの実線矢印122で示した意図推定単位は、「stop at ○○ Dome」に対して、「stop」、「$施設$_1」の2つのタームが意図推定タームとして渡されることを示しており、その部分意図推定結果として「経由地設定[施設=$施設$_1]」が部分スコア「0.95」で意図推定されたことを示している。
 図16の実線矢印122、123、124はステップST3で抽出した意図推定単位に対する部分意図推定結果を示し、点線矢印125、126はステップST3で抽出されなかった意図推定単位に対する部分意図推定結果を示し、音声認識結果例113全体をカバーする意図推定単位に関する部分意図推定結果である。ここで、点線矢印125、126で示した意図推定単位の部分意図推定結果を算出した理由は、入力音声が必ずしも文法的に正しい構文を構成するものだけではない可能性が存在するためである。特に、入力音声が音声認識される場合には、ユーザの発話が冠詞や前置詞を十分に用いない形で行われることも多く、構文的に厳密な入力を想定すると、意図推定単位に漏れが生じる可能性がある。さらに、音声認識結果に認識誤りが含まれる可能性もあり、全ての可能性を評価した上で最適と考えられる意図列を選択する方が好ましい。
 各意図推定単位の部分意図推定結果が求められると、意図列推定部3はステップST5として意図推定単位を用いて音声認識結果例113,114の全体に一致する意図列を生成し、全体スコアを計算する。図18は図16で示した抽出パターンa、b、c、dおよび非抽出パターンe、f、gを組み合わせて音声認識結果例113の全体に一致する意図列を生成し、生成した意図列の部分スコア142を表している。部分スコア142において領域Oは、図16において実線で記した部分意図の部分スコアに該当する。また領域Pは構文的に正当性が低く図16において点線で記した部分意図の部分スコアに該当する。当該領域Pにおいて、本実施の形態1では、意図推定部分ペナルティとして「0.9」を部分意図推定結果の部分スコアに対して掛け合わせることとする。また、各抽出パターンにおいて部分意図の部分スコアを全て掛け合わせることにより全体スコア143が算出される。
 また、図18で示した各抽出パターンにおける分割重み144は、図16で示した分割採用重み127に基づいて以下のように計算される。
 意図列148の場合:
  0.4×0.6×0.4=0.096
 抽出パターンaの場合、全ての分割点が使われているため、各点の分割採用重み127を掛け合わせる。
 意図列149の場合:
  (1.0-0.4)×0.6×(1.0-0.4)=0.216
 抽出パターンb+cの場合、2番目の分割点のみ使われているため、2番目の点以外は1.0からの分割採用重み127を引いたものを掛け合わせる。
 上述のように算出された分割重み144を用いて、分割重みスコア145が「(全体スコア143)×(分割重み144)」として算出される。算出された分割重みスコア145を参照すると、音声認識結果例113の意図理解結果として、抽出パターンb+cで示した「経由地設定[施設=$施設$_1]、ラジオ再生[対象=$ラジオ局$_1]」が、最も高い分割重みスコア「0.197」として求まる。一方、音声認識結果例114についても同様に、図19に示すように意図理解結果として、抽出パターンb´+c´で示した「経由地設定[施設=$施設$_1]、目的地設定[施設=$施設$_2]」が最も高い分割重みスコア「0.195」として求まる。
 従来であれば、当該抽出パターンb+cと抽出パターンb´+c´の意図理解結果である分割重みスコアにおいて、より高いスコアを取る抽出パターンb+cで示した「経由地設定[施設=$施設$_1]、ラジオ再生[対象=$ラジオ局$_1]」が入力音声111に対する意図推定結果と算出される。
 さらに、評価の方法として、音声認識スコア141、151に対して分割重みスコア145、154を積算したものを最終スコアとする方法も考えられるが、音声認識スコア141と音声認識スコア151とを比較すると音声認識結果例113の音声認識スコア141の方が高い値であるため、いずれの場合も抽出パターンb+cで示した「経由地設定[施設=$施設$_1]、ラジオ再生[対象=$ラジオ局$_1]」が最終的な意図推定結果となる。これは、意図間の関係を考慮した条件が存在しないために、音声認識結果が最優先で評価されて起こる。
 そこで、この実施の形態3の意図推定装置10では、ステップST6として意図列推定部3が意図の妥当性を評価するために、例えば以下に示す計算を行った結果を意図共起重み146、155とし、分割重みスコア145、154に積算する。
(1)連続する2つの意図を順番に抽出し、2つの意図の関係を計算する。
  (a)2つの意図の上位・下位の関係がある場合は一定の重み(たとえば、0.7)
  (b)2つの意図が共通の上位意図を持つ場合、そのノードに付与された重み
(2)(1)で求めた重みの積を最終的な重み、すなわち最終スコア147、156とする。
 上述した(1)による計算では、標準的な意図連鎖関係には1.0を与え、より密接な意図連鎖関係には1.0より大きい値を与え、矛盾するような意図連鎖関係には1.0より小さい値を与えることで、加点、減点を行うことになる。
 例えば、抽出パターンb+cで示した「経由地設定[施設=$施設$_1]、ラジオ再生[対象=$ラジオ局$_1]」の場合、共通する上位意図は図2で示したノード21の「root」となるため、当該ノード21に付与された意図共起重みは「0.5」となる。この処理を全ての意図列に対して計算すると図18および図19で示した意図共起重み146、155のようになる。このように算出された意図共起重みを用いて最終スコアは以下の式に基づいて計算される。
 (最終スコア)=(分割重みスコア)×(意図共起重み)×(音声認識スコア)
 最終スコア147、156の算出結果を参照すると、最も高い最終スコアを有するのは抽出パターンb´+c´で示した意図列157となり、ステップST7として当該意図列157がユーザの入力音声111に最も適した意図列推定結果として出力される。
 以上のように、この実施の形態3によれば、意図間の関係を示す意図共起重みを計算する意図共起重み計算部8と、分割重みスコアを算出し、算出した分割重みスコアに意図共起重みおよび音声認識スコアを積算する意図列推定部3を備えるように構成したので、意図間の関係を考慮して、入力音声に最も適した意図列推定結果を出力することができる。そのため、複数の意図を含む入力が行われた場合であっても、意図間の関係に基づいて最適な意図列を生成し、意図列推定結果として出力することができる。
実施の形態4.
 上述した実施の形態2では使用言語を日本語として説明を行ったが、この実施の形態4では使用言語を英語として説明する。なお、以下ではナビゲーションシステムに適用される意図推定装置を例に説明を行う。
 また、以下の説明では、実施の形態2で示した意図推定装置(図9参照)を用いて説明を行う。また、意図推定装置10の意図列変換テーブル蓄積部11は図10で示した意図列変換テーブルを蓄積するものとする。さらに、図14で示したフローチャートに基づいて意図推定処理を行うものとして説明を行う。
 図20は、実施の形態4に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。
 図20では入力音声として「Stop at ○○ Dome then ×× Land」という発話が入力された場合の音声認識結果から意図推定単位を抽出するまでの例を示す。
 音声認識結果161は、音声認識部1が入力音声31を音声認識した結果である。具体的には、「Stop at ○○ Dome then ×× Land」がスコア「0.7」で求められた音声認識結果例が示されており、発話の通りの認識が行われたことを示している。形態素解析結果162は、形態素解析部2が音声認識結果161を形態素解析した結果である。意図推定単位抽出結果163は、意図推定単位抽出部4が形態素解析結果162に対して意図推定単位を抽出した結果である。意図推定単位抽出結果163では、3つの抽出パターン163a、163b、163cが示されている。
 図21は、実施の形態4に係る意図推定装置の意図推定部6の処理を示す図である。より詳細には、図20で示した意図推定単位抽出結果163に基づく部分意図の推定を示している。
 ターム列164は、意図推定単位抽出結果163から生成される部分意図推定に用いるターム列を示している。また、抽出パターン163a、163b、163cに基づいた抽出パターンh、i、jおよび非抽出パターンkを示している。実線矢印165および部分スコア166は、各意図推定単位に対して意図推定した結果例である。点線矢印および分割点採用重みの構成は実施の形態3と同様である。
 図22は、実施の形態4に係る意図推定装置の意図列推定部3の処理を示す図である。より詳細には、図21で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示している。
 音声認識結果161に対して、部分意図推定結果の組み合わせにより最終スコアを計算した例であり、実施の形態3と同様に音声認識スコア171、部分スコア172、全体スコア173、分割重み174、分割重みスコア175、意図共起重み176および最終スコア177が示されている。意図列178は、全ての分割パターンに対して最適な意図推定結果を示す意図列を示している。
 次に、実施の形態4の意図推定装置の動作について説明する。なお、実施の形態4の意図推定装置の動作を示すフローチャートは実施の形態2の図14で示したフローチャートと同一である。そこで、図2、図10および図20から図22で示した具体例を参照しながら、実施の形態2の図14で示したフローチャートについて説明を行う。なお、以下では音声による入力が行われるものとして説明を行う。
 まず、音声による入力として「Stop at ○○ Dome then ×× Land」が入力され、ステップST1として音声認識部1が音声認識を行い、図20に示す音声認識結果161がスコア0.7で得られたものとする。音声認識結果161以外の認識結果が生成されることも予想されるが、実施の形態4の発明のポイントには影響を与えないため説明を省略する。音声認識結果161が生成されると、ステップST2の形態素解析およびステップST3の意図推定単位の抽出が行われ、図20に示す意図推定単位抽出結果163が得られる。
 続いて、意図推定部6はステップST4として図21に示すターム列164を抽出した上で、部分意図推定結果および部分スコアを算出する。次に、意図列推定部3は、ステップST5として意図列推定単位を用いて音声認識結果161の全体に一致する意図列を生成し、全体スコアを計算する。これにより、図22で示した抽出パターン、当該抽出パターンンに応じた部分スコア、および部分スコアに基づいた全体スコアが得られる。
 次に、意図列変換部12は、ステップST11として部分意図列の中から、図10で示した意図列変換ルールに一致する置換パターンを検索し、一致する置換パターンが存在した場合には該当する意図列を意図列変換ルールに従って変換する。
 具体的には、図22で示した意図列178の場合、抽出パターンiの部分意図列および抽出パターンhの部分意図列で構成され、当該意図列178は図10で示した意図列変換ルール81に一致するため、以下のように変換される。
 変換前:経由地設定[施設=$施設$_1]、施設検索[施設=$施設$_2]
 変換後:経由地設定[施設=$施設$_1]、目的地設定[施設=$施設$_2]
 次に、ステップST6として意図列推定部3が分割重みスコア175を算出し、当該分割重みスコア175に意図共起重み計算部8が計算した意図共起重み176および音声認識スコアを積算し、最終スコア177を算出する。最後に、意図列推定部3はステップST7として最終スコア177が最大である意図列178の「経由地設定[施設=$施設$_1]、目的地設定[施設=$施設$_2]」がユーザの入力音声に最も適した意図列推定結果であるとして出力する。
 以上のように、この実施の形態4によれば、意図列の置換パターンを示した意図列変換テーブルを蓄積した意図列変換テーブル蓄積部11と、当該意図列変換テーブル蓄積部11に蓄積された意図変換テーブルを参照して該当する意図列が出現した場合に置換パターンに従って意図列を置き換える意図列変換部12とを備えるように構成したので、ユーザの発話において省略が行われた場合であっても、ユーザの入力音声に最も適した意図列推定結果を得ることができる。
 なお、上述した実施の形態1から実施の形態4では、日本語および英語を例に意図列推定結果を得る構成示したが、意図抽出単位に関する抽出方法をそれぞれの言語毎に変更することにより、ドイツ語および中国語など様々な言語に対して適用することが可能である。
 また、上述した実施の形態1から実施の形態4において、単語が特定のシンボル(スペースなど)で区切られる言語の場合であって、言語的な構造を解析することが難しい場合には、入力の自然言語テキストに対してパターンマッチのような方法で、$施設$、$住所$などの抽出処理を行った後に、直接意図推定処理を実行するように構成することも可能である。
 また、上述した実施の形態1から実施の形態4では、入力が音声入力である場合を例に説明を行ったが、入力手段として音声認識を用いることなく、キーボードなどの入力手段によるテキスト入力の場合であっても同様の効果が期待できる。
 また、上述した実施の形態1から実施の形態4では、高い分割重みスコアを有する上位2つの候補を評価処理対象とする例を示したが、評価処理対象数を限定するものではない。また、音声認識結果がテキストのみでなく、形態素単位で出力される場合には、形態素解析を行う手段を省略してそのまま意図推定タームを抽出して処理を行うように構成してもよい。
 また、上述した実施の形態1から実施の形態4では、意図推定の方法として最大エントロピー法による学習モデルを想定した例で説明したが、意図推定の方法を限定するものではない。
 また、上述した実施の形態1から実施の形態4では、各部分意図推定対象の組み合わせとして、第1位の意図のみの組み合わせを使って説明したが、ある一定のスコア以上の候補すべてに対して候補を生成して意図列推定結果を計算することも可能である。
 また、上述した実施の形態1から実施の形態4では、ナビゲーションシステムに適用される場合を例に説明を行ったが、意図推定を行うシステムであれば種々適用可能である。
 なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 以上のように、この発明に係る意図推定装置および意図推定方法は、音声認識機能を備えたナビゲーション装置などに適用可能であり、複数の意図を含む入力が行われた場合にも、複数の意図間の関係を踏まえて最適な意図列を生成することができる。
 1 音声認識部、2 形態素解析部、3 意図列推定部、4 意図推定単位抽出部、5 意図推定モデル蓄積部、6 意図推定部、7 意図階層グラフデータ蓄積部、8 意図共起重み計算部、10 意図推定装置、11 意図列変換テーブル蓄積部、12 意図列変換部。

Claims (6)

  1.  ユーザの言語入力から前記ユーザの意図を推定する意図推定装置であって、
     前記入力された言語の形態素解析を行い、形態素列に変換する形態素解析部と、
     前記形態素解析部が変換した形態素列を部分形態素に分割し、前記意図を推定する単位である意図推定単位を抽出する意図推定単位抽出部と、前記意図推定単位抽出部が抽出した各意図推定単位を構成する部分形態素の意図を推定する意図推定部と、前記意図推定部が推定した意図間の関係に基づいた意図共起重みを計算する意図共起重み計算部とを備え、前記意図推定部が推定した1または複数の意図を用いて前記入力された言語に相当する意図列を生成し、生成した前記意図列の尤もらしさを示すスコアと、生成した前記意図列を構成する前記意図について前記意図共起重み計算部が計算した意図共起重みとを用いて、前記入力された言語に対応した意図推定結果を生成する意図列推定部とを備えたことを特徴とする意図推定装置。
  2.  前記意図共起重み計算部は、前記意図間の関係性に従って当該意図を階層化して定義した意図階層グラフデータを参照し、各階層を構成する前記各意図に定義された重みを用いて前記意図共起重みを計算することを特徴とする請求項1記載の意図推定装置。
  3.  前記意図階層グラフデータは、下位の意図がより上位の意図を具体化した関係性を有し、
     前記意図共起重み計算部は、前記意図階層グラフデータを参照し、前記意図列推定部が生成した前記意図列を構成する連続する2つの意図に共通する上位の意図が存在する場合に、当該上位の意図に定義された重みを用いて前記意図共起重みを計算することを特徴とする請求項2記載の意図推定装置。
  4.  前記意図階層グラフデータは、下位の意図がより上位の意図を具体化した関係性を有し、
     前記意図共起重み計算部は、前記意図階層グラフデータを参照し、前記意図列推定部が生成した前記意図列を構成する連続する2つの意図に上位と下位の関係が存在する場合に、あらかじめ設定された値を前記意図共起重みとすることを特徴とする請求項2記載の意図推定装置。
  5.  前記意図列を構成する連続する前記意図間の関係性に従って前記意図を変換する意図列変換ルールを保持した意図列変換テーブルと、
     前記意図列推定部が生成した前記意図列を構成する連続する前記意図のうち、前記意図列変換テーブルに記載された意図列変換ルールに合致する関係性を有する前記意図を、前記意図列変換ルールに従って変換する意図列変換部とを備えたことを特徴とする請求項1記載の意図推定装置。
  6.  ユーザの言語入力から前記ユーザの意図を推定する意図推定方法であって、
     形態素解析部が、前記入力された言語の形態素解析を行い、形態素列に変換するステップと、
     意図推定単位抽出部が、前記変換された形態素列を部分形態素に分割し、前記意図を推定する単位である意図推定単位を抽出するステップと、
     意図推定部が、前記抽出された各意図推定単位を構成する部分形態素の意図を推定するステップと、
     意図共起重み計算部が、前記推定された意図間の関係に基づいた意図共起重みを計算するステップと、
     意図列推定部が、前記推定された1または複数の意図を用いて前記入力された言語に相当する意図列を生成し、生成した前記意図列の尤もらしさを示すスコアと、生成した前記意図列を構成する前記意図について前記意図共起重み計算部が計算した意図共起重みとを用いて、前記入力された言語に対応した意図推定結果を生成するステップとを備えたことを特徴とする意図推定方法。
PCT/JP2013/077504 2012-11-30 2013-10-09 意図推定装置および意図推定方法 WO2014083945A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE112013005742.5T DE112013005742T5 (de) 2012-11-30 2013-10-09 Absichtsabschätzungsvorrichtung und Absichtsabschätzungsverfahren
CN201380055883.XA CN104756100B (zh) 2012-11-30 2013-10-09 意图估计装置以及意图估计方法
JP2014550077A JP5921716B2 (ja) 2012-11-30 2013-10-09 意図推定装置および意図推定方法
US14/413,544 US9530405B2 (en) 2012-11-30 2013-10-09 Intention estimating device and intention estimating method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-262593 2012-11-30
JP2012262593 2012-11-30

Publications (1)

Publication Number Publication Date
WO2014083945A1 true WO2014083945A1 (ja) 2014-06-05

Family

ID=50827591

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/077504 WO2014083945A1 (ja) 2012-11-30 2013-10-09 意図推定装置および意図推定方法

Country Status (5)

Country Link
US (1) US9530405B2 (ja)
JP (1) JP5921716B2 (ja)
CN (1) CN104756100B (ja)
DE (1) DE112013005742T5 (ja)
WO (1) WO2014083945A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016122336A (ja) * 2014-12-25 2016-07-07 クラリオン株式会社 意図推定装置、および意図推定システム
CN108287858A (zh) * 2017-03-02 2018-07-17 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
US10037758B2 (en) 2014-03-31 2018-07-31 Mitsubishi Electric Corporation Device and method for understanding user intent
JP2019102063A (ja) * 2017-11-30 2019-06-24 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド ページ制御方法および装置
JP6954549B1 (ja) * 2021-06-15 2021-10-27 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400579B (zh) * 2013-08-04 2015-11-18 徐华 一种语音识别系统和构建方法
KR102304052B1 (ko) * 2014-09-05 2021-09-23 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
WO2016151699A1 (ja) * 2015-03-20 2016-09-29 株式会社 東芝 学習装置、方法およびプログラム
US10224034B2 (en) * 2016-02-03 2019-03-05 Hua Xu Voice recognition system and construction method thereof
WO2017168637A1 (ja) * 2016-03-30 2017-10-05 三菱電機株式会社 意図推定装置及び意図推定方法
US10139243B2 (en) * 2016-04-30 2018-11-27 Toyota Motor Engineering & Manufacturing North America, Inc. High level instruction for navigational routing systems
KR20180052347A (ko) * 2016-11-10 2018-05-18 삼성전자주식회사 음성 인식 장치 및 방법
TW201921336A (zh) 2017-06-15 2019-06-01 大陸商北京嘀嘀無限科技發展有限公司 用於語音辨識的系統和方法
CN109101475B (zh) * 2017-06-20 2021-07-27 北京嘀嘀无限科技发展有限公司 出行语音识别方法、系统和计算机设备
US11481558B2 (en) 2018-09-12 2022-10-25 Samsung Electroncis Co., Ltd. System and method for a scene builder
CN109710941A (zh) * 2018-12-29 2019-05-03 上海点融信息科技有限责任公司 基于人工智能的用户意图识别方法和装置
CN110096595A (zh) * 2019-05-06 2019-08-06 上海互问信息科技有限公司 一种基于混合策略的复句用户查询语句的意图识别方法
US11705114B1 (en) * 2019-08-08 2023-07-18 State Farm Mutual Automobile Insurance Company Systems and methods for parsing multiple intents in natural language speech
CN116959433B (zh) * 2023-09-18 2023-12-08 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219961A (ja) * 1994-01-31 1995-08-18 Hitachi Ltd 音声対話システム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
JP3350293B2 (ja) * 1994-08-09 2002-11-25 株式会社東芝 対話処理装置及び対話処理方法
JP2000200273A (ja) 1998-11-04 2000-07-18 Atr Interpreting Telecommunications Res Lab 発話意図認識装置
ITTO20011035A1 (it) * 2001-10-30 2003-04-30 Loquendo Spa Metodo per la gestione di dialoghi persona-macchina ad iniziativa mista basato sull'interazione vocale.
US7747601B2 (en) * 2006-08-14 2010-06-29 Inquira, Inc. Method and apparatus for identifying and classifying query intent
KR100679043B1 (ko) * 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US7409344B2 (en) * 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US8265939B2 (en) * 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
DE102005061365A1 (de) * 2005-12-21 2007-06-28 Siemens Ag Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem
US7818166B2 (en) * 2007-01-31 2010-10-19 Motorola, Inc. Method and apparatus for intention based communications for mobile communication devices
US8521511B2 (en) * 2007-06-18 2013-08-27 International Business Machines Corporation Information extraction in a natural language understanding system
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
KR101253104B1 (ko) * 2009-09-01 2013-04-10 한국전자통신연구원 패턴 데이터베이스화 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법
KR101699720B1 (ko) * 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
WO2012030838A1 (en) * 2010-08-30 2012-03-08 Honda Motor Co., Ltd. Belief tracking and action selection in spoken dialog systems
US9524291B2 (en) * 2010-10-06 2016-12-20 Virtuoz Sa Visual display of semantic information
US8346563B1 (en) * 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
US20120296638A1 (en) * 2012-05-18 2012-11-22 Ashish Patwa Method and system for quickly recognizing and responding to user intents and questions from natural language input using intelligent hierarchical processing and personalized adaptive semantic interface
US9105268B2 (en) * 2012-09-19 2015-08-11 24/7 Customer, Inc. Method and apparatus for predicting intent in IVR using natural language queries
US8484025B1 (en) * 2012-10-04 2013-07-09 Google Inc. Mapping an audio utterance to an action using a classifier

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219961A (ja) * 1994-01-31 1995-08-18 Hitachi Ltd 音声対話システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MASAYUKI SHIRAKI ET AL.: "Investigation of statistical techniques for intention understanding in spoken dialog", IPSJ SIG NOTES, vol. 2004, no. 15, 7 February 2004 (2004-02-07), pages 69 - 74 *
YUKI IRIE ET AL.: "Ito Tag Tsuki Corpus o Mochiita Hatsuwa Ito Suitei Shuho", DAI 38 KAI REPORTS OF THE MEETING OF SPECIAL INTERNET GROUP ON SPOKEN LANGUAGE UNDERSTANDING AND DIALOGUE PROCESSING (SIG-SLUD-A301, 4 July 2003 (2003-07-04), pages 7 - 12 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037758B2 (en) 2014-03-31 2018-07-31 Mitsubishi Electric Corporation Device and method for understanding user intent
JP2016122336A (ja) * 2014-12-25 2016-07-07 クラリオン株式会社 意図推定装置、および意図推定システム
CN108287858A (zh) * 2017-03-02 2018-07-17 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
JP2019102063A (ja) * 2017-11-30 2019-06-24 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド ページ制御方法および装置
JP6954549B1 (ja) * 2021-06-15 2021-10-27 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム
JP2022190845A (ja) * 2021-06-15 2022-12-27 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム

Also Published As

Publication number Publication date
CN104756100A (zh) 2015-07-01
JP5921716B2 (ja) 2016-05-24
US20150255064A1 (en) 2015-09-10
US9530405B2 (en) 2016-12-27
DE112013005742T5 (de) 2015-09-10
CN104756100B (zh) 2017-07-28
JPWO2014083945A1 (ja) 2017-01-05

Similar Documents

Publication Publication Date Title
JP5921716B2 (ja) 意図推定装置および意図推定方法
Mairesse et al. Phrase-based statistical language generation using graphical models and active learning
US10037758B2 (en) Device and method for understanding user intent
WO2016067418A1 (ja) 対話制御装置および対話制御方法
JP6310150B2 (ja) 意図理解装置、方法およびプログラム
US7860719B2 (en) Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
Sak et al. Morpholexical and discriminative language models for Turkish automatic speech recognition
JP5073024B2 (ja) 音声対話装置
JP2018055671A (ja) 換言文識別方法、換言文識別装置及び換言文識別プログラム
WO2009107441A1 (ja) 音声合成装置、テキスト生成装置およびその方法並びにプログラム
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
Donaj et al. Context-dependent factored language models
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
KR102042991B1 (ko) 한국어 접사 기반 토크나이징 장치 및 그 방법
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP2017167378A (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
JP2000222406A (ja) 音声認識翻訳装置及び方法
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Iosif et al. A soft-clustering algorithm for automatic induction of semantic classes.
JP2014219569A (ja) 辞書作成装置、及び辞書作成プログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP2002258884A (ja) 音声合成方法および装置並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003044073A (ja) アクセント句境界決定装置、音声合成装置及び方法並びにプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13858100

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014550077

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14413544

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 112013005742

Country of ref document: DE

Ref document number: 1120130057425

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13858100

Country of ref document: EP

Kind code of ref document: A1