WO2020261944A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2020261944A1
WO2020261944A1 PCT/JP2020/022392 JP2020022392W WO2020261944A1 WO 2020261944 A1 WO2020261944 A1 WO 2020261944A1 JP 2020022392 W JP2020022392 W JP 2020022392W WO 2020261944 A1 WO2020261944 A1 WO 2020261944A1
Authority
WO
WIPO (PCT)
Prior art keywords
category
utterance
response
phrase
domain
Prior art date
Application number
PCT/JP2020/022392
Other languages
English (en)
French (fr)
Inventor
沙也 菅野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/621,063 priority Critical patent/US20220350824A1/en
Publication of WO2020261944A1 publication Critical patent/WO2020261944A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Definitions

  • This technology relates to an information processing device and an information processing method, and more particularly to an information processing device and an information processing method related to automatic expansion of a knowledge information dictionary for speech meaning analysis and response generation of a dialogue agent.
  • Patent Document 1 noun phrases related to the search conditions used at the time of document retrieval are automatically extracted and registered in the thesaurus dictionary for search, and the search conditions are extended by using the thesaurus dictionary. It is disclosed. Registration in the thesaurus dictionary is performed by extracting noun phrases that meet the search conditions from the input search document. The search condition is expanded by selecting a synonym corresponding to the search condition from the thesaurus dictionary.
  • the utterance meaning analysis technology included in the dialogue agent uses a knowledge information dictionary to add a feature amount to the input utterance, and based on this, the input utterance may be analyzed and the response utterance may be generated.
  • a knowledge information dictionary to add a feature amount to the input utterance, and based on this, the input utterance may be analyzed and the response utterance may be generated.
  • it costs a lot of money to manually maintain a knowledge information dictionary.
  • knowledge is updated daily, it is difficult to keep up-to-date with the latest information.
  • the purpose of this technology is to improve the automatic expansion of the knowledge information dictionary for speech meaning analysis and the response generation of the dialogue agent.
  • the concept of this technology is For each vocabulary of input utterance, when registered in the knowledge information dictionary, a tagging section that assigns category tags to all categories, A semantic analysis unit that estimates the domain of the utterance content intended by the input utterance and extracts the vocabulary related to the estimated domain from the input utterance as a phrase of a predetermined entity. An application part that generates a response based on the domain of the content of the input utterance and the phrase of the predetermined entity, and An information processing apparatus including a dictionary extension unit that registers a phrase of the predetermined entity for a category corresponding to the predetermined entity of the knowledge information dictionary when the category tag is not attached to the phrase of the predetermined entity. ..
  • the tagging unit assigns category tags to all vocabularies of input utterances when they are registered in the knowledge information dictionary.
  • the semantic analysis unit estimates the domain of the utterance content intended by the input utterance, and extracts the vocabulary related to the domain estimated from the input utterance as the phrase of the predetermined entity.
  • the semantic analysis unit may be configured to estimate the domain based on the category tag given to the vocabulary of the input utterance when estimating the domain of the utterance content intended by the input utterance.
  • the dictionary extension unit When the category tag is not attached to the phrase of the predetermined entity by the dictionary extension unit, the phrase of the predetermined entity is registered for the category corresponding to the predetermined entity of the knowledge information dictionary.
  • the dictionary extension unit may be configured to register a phrase of a predetermined entity when the application unit can correctly generate a response.
  • the above-mentioned knowledge information dictionary has a hierarchical structure, and the dictionary extension unit includes a category corresponding to a predetermined entity of the knowledge information dictionary and a predetermined entity for a category of each hierarchy located above this category. You may be asked to register the phrase.
  • the knowledge information dictionary can be automatically expanded.
  • a semantic analysis unit that estimates the domain of the utterance content intended by the input utterance and extracts the vocabulary related to the estimated domain from the input utterance as a phrase of a predetermined entity. It is equipped with an application part that generates a response based on the domain of the content of the input utterance and the phrase of the predetermined entity.
  • the above knowledge information dictionary has a hierarchical structure and has a hierarchical structure.
  • the application unit is in an information processing device that generates the response by using the hierarchical structure.
  • the tagging unit assigns category tags to all vocabularies of input utterances when they are registered in the knowledge information dictionary.
  • the semantic analysis unit estimates the domain of the utterance content intended by the input utterance, and extracts the vocabulary related to the domain estimated from the input utterance as the phrase of the predetermined entity.
  • the application part generates a response based on the phrase of the domain and the given entity.
  • the application part when the content of the response is converged, the application part generates a response by using the information of the category in the lower hierarchy with respect to the category indicated by the category tag given to the phrase of the predetermined entity. May be made. Further, for example, when expanding the content of the response, the application part uses the information of the upper hierarchy or the parallel category with respect to the category indicated by the category tag given to the phrase of the predetermined entity to perform the response. It may be generated.
  • the application unit may be configured to generate the response by using the hierarchical structure according to the instruction. Further, for example, when the input utterance does not include the content instructing the convergence or expansion of the content of the response, the application unit has a hierarchy depending on whether the input utterance is the first utterance or the second utterance. The structure may be selectively used to generate a response.
  • the first utterance means an utterance whose content can be analyzed by the input utterance alone, such as a user utterance in a question-and-answer type dialogue or the first user utterance in a multi-turn dialogue.
  • the second utterance means an utterance in which the utterance meaning analysis cannot be performed by the input utterance alone, and the utterance meaning can be analyzed by analyzing the utterances before and after the utterance and the internal situation of the agent.
  • the application unit may be configured to generate a response without using the hierarchical structure when the input utterance is the first utterance. Further, in this case, for example, when the input utterance is the second utterance, does the application unit converge the content of the response from the difference between the category tag given to the first utterance and the category tag given to the second utterance? It may be decided whether to expand, and a response may be generated by using a hierarchical structure according to the result of the judgment.
  • the application part determines that the contents of the response are converged, and indicates by the category tag given to the phrase of the predetermined entity.
  • the response may be generated by using the information of the lower hierarchy category for the category.
  • the application unit determines that the content of the response is expanded when the categories of the same hierarchy are not assigned to the first utterance and the second utterance, and the category assigned to the phrase of the above-mentioned predetermined entity.
  • the above response may be generated by using the information of the upper hierarchy or the parallel category with respect to the category indicated by the tag.
  • the response is generated by using the hierarchical structure of the knowledge information dictionary. Therefore, it is possible to satisfactorily generate the response of the dialogue agent.
  • Embodiment> This technology is premised on operating on a dialogue agent equipped with an invention meaning analysis engine.
  • the utterance meaning analysis engine described here means a mechanism that takes an input utterance (hereinafter, simply referred to as "input utterance”) converted into text through voice recognition and outputs a meaning frame.
  • the semantic frame is the category of the utterance content intended by the input utterance (hereinafter referred to as "domain") and the phrase information included in the input utterance and required to process the input utterance (hereinafter referred to as "entity”). It is a frame that contains information such as).
  • the "entity” may be referred to as a "slot”.
  • the entity is linked to the domain, and when the domain is determined, the entity to be extracted from the input utterance is automatically determined.
  • This technology can be used together with a mechanism to extract a specific expression from text such as a named entity extractor required to extract an entity.
  • a mechanism to extract a specific expression from text such as a named entity extractor required to extract an entity.
  • FIG. 1 schematically shows the structure of the knowledge information dictionary 206.
  • This knowledge information dictionary 206 has a hierarchical structure. For example, under the category “Place”, there are categories such as “Country”, “City”, “Town”, and “Station” in parallel. .. Although not shown, a predetermined number of vocabularies (phrases) are registered under each category.
  • This knowledge information dictionary can automatically expand the registered contents. If the phrase extracted as a certain entity does not have a category tag, if the target application can perform correct processing for the utterance, the corresponding phrase is registered for the category corresponding to the entity and its parent category. As a result, the dialogue agent equipped with this technology can be used by the user to automatically expand the dictionary. For this function, it is necessary to make one-to-one correspondence between entities and categories of knowledge information dictionary.
  • the category structure in the knowledge dictionary and the correspondence between each category and entity must be defined in advance by the administrator. This definition is a setting that affects the automatic expansion of the dictionary.
  • the knowledge information dictionary has a structured category. In this technology, this category hierarchical structure can also be used when generating a response. When it is difficult to estimate the domain only from the user's utterance, it is possible to estimate the domain based on the category tag attached to the vocabulary in the utterance.
  • the dialogue agent assumed by this technology accepts not only question-and-answer dialogues but also multi-turn dialogues.
  • utterances of contents that can perform utterance meaning analysis only by input utterances such as user utterances in question-and-answer type dialogues and first user utterances in multi-turn dialogues are called "first utterances”.
  • first utterances utterances of contents that can perform utterance meaning analysis only by input utterances
  • first utterances utterances of contents that can perform utterance meaning analysis only by input utterances such as user utterances in question-and-answer type dialogues and first user utterances in multi-turn dialogues
  • second utterance the utterance meaning analysis cannot be performed by the input utterance alone, and the utterance that can be analyzed in combination with the preceding and following utterances and the internal situation of the agent is called "second utterance”.
  • This technology also searches for phrases that span consecutive multiple morphemes, and finally outputs the result with the longest match. For example, if the character string "Tokyo Tower” (the morphology is decomposed into “Tokyo / Tower”) is entered and the vocabulary of "Tokyo", “Tower”, and “Tokyo Tower” exists in the dictionary, the longest If there is a match, "Tokyo Tower” will be the search result and the category tag will be added to "Tokyo Tower”.
  • the search in the knowledge information dictionary takes into account the morpheme breaks. Therefore, in the case of the example of FIG. 2, even if the vocabulary "K computer" is registered in the knowledge information dictionary, the category tag is not added.
  • Response generation utilizing the hierarchical structure of the knowledge information dictionary Response generation utilizing the hierarchical structure of the knowledge information dictionary will be described.
  • the agent can generate a response based on the category tag attached to the user's input utterance.
  • the phrase A extracted as the entity X associated with the category ⁇ the information of the parent category or the child category of the category ⁇ is also acquired at the same time, and this hierarchical structure is utilized as the information / feature amount at the time of response.
  • the response is generated using the hierarchical structure according to the instruction.
  • the input utterance does not include the content instructing the convergence or expansion of the analysis content
  • the response is generated without using the hierarchical structure.
  • the category tag given to the first utterance and the category tag given to the second utterance Judge whether to converge or expand the analysis contents from the difference of. If the category tags of the same hierarchy are assigned to the first utterance and the second utterance, the child category information of the corresponding category is used to converge the analysis. If the category tags of the same hierarchy are not assigned to the first and second utterances, the parent category information or parallel category information is used to expand the analysis content.
  • the phrase "Sarajevo" extracted by the place entity is registered in the city category, the place category exists as its parent category, and in the second utterance, it is extracted by the place entity. "Europe" is registered in the place category.
  • the input utterance does not include the content that clearly supports the convergence or expansion of the analysis content.
  • the place category tag which is the same hierarchy in the first and second utterances, is attached, the system proposes in response from the information registered in the city category, which is a child category, in order to converge the analysis contents. It becomes possible to select the place to do.
  • the input utterance does not include the content that instructs the analysis or the convergence or expansion of the response content
  • the analysis content is calculated from the difference between the category tag given to the first utterance and the category tag given to the second utterance. It is determined whether to converge or expand. Then, in this case, since the place tag which is the category tag of the same hierarchy is given to the first utterance and the second utterance, the child category information of the corresponding category, that is, the information of the city category is used to converge the analysis or response contents. Is utilized to generate a response. For example, a response such as "How about a tourist destination in London?" Is generated.
  • the parent category information or the parallel category information is utilized to generate the response in order to analyze or converge the response contents. For example, a response such as "How about a tourist destination in Italy?" Is generated.
  • Category tagging of multiple attributes will be described. First, the action of purchasing will be described when a domain of "purchasing a product" is prepared.
  • the music track Entity (MusicTrack Entity) is an input utterance "AAAA plays a song", which corresponds to the music playback domain.
  • the vocabulary of "AAAA” is extracted as the phrase of, and a snack tag is added to the vocabulary of "AAAA”.
  • the vocabulary of "AAAA” is registered as the vocabulary of the music track category and the music category above it, as shown in the figure, and as a result, the music category and the music track category. , The vocabulary "AAAA” is registered in the snack category.
  • the tag attached to "AAAA” becomes a feature amount, and it becomes possible to narrow down the domain.
  • the vocabulary of "AAAA” is extracted as a phrase of the purchase entity, and a snack tag, a music tag, and a music track tag are added to the vocabulary of "AAAA”.
  • the system can narrow down the food purchase domain and the music purchase domain from the tag information of the purchase entity that points to the purchase target.
  • FIG. 9 shows a configuration example of the information processing system 10 as an embodiment.
  • the information processing system 10 has a configuration in which a dialogue agent 100 and a cloud server 200 are connected via a network 300 such as the Internet.
  • the dialogue agent 100 has a conversation with the user.
  • the dialogue agent 100 sends the data of the user's input utterance to the cloud server 200 via the network 300.
  • the cloud server 200 processes the data of the input utterance to generate response information, and sends the response information to the dialogue agent 100 via the network 300.
  • the dialogue agent 100 outputs voice and screen to the user based on the response information.
  • the data of the user's input utterance may be voice data obtained by a microphone or text data obtained by voice recognition processing thereof, and further, text data obtained by a user's input operation. May be good.
  • the response information is, for example, text data
  • the dialogue agent 100 converts the text data into voice data and uses it when outputting voice.
  • the data of the user's input utterance is, for example, voice data obtained by a microphone.
  • FIG. 10 shows a configuration example of the dialogue agent 100.
  • the dialogue agent 100 includes a control unit 101, an input / output interface 102, an operation input device 103, a microphone 104, a speaker 105, a display 106, a communication interface 107, and a rendering unit 108.
  • the control unit 101, the input / output interface 102, the communication interface 107, and the rendering unit 108 are connected to the bus 109.
  • the control unit 101 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random access memory), and the like, and controls the operation of each unit of the dialogue agent 100.
  • the input / output interface 102 connects the operation input device 103, the microphone 104, the speaker 105, and the display 106.
  • the operation input device 103 constitutes an operation unit for the user of the dialogue agent 100 to perform various operation inputs.
  • the communication interface 107 communicates with the cloud server 200 via the network 300.
  • the communication interface 107 transmits the voice data obtained by the microphone 104 to the cloud server 200. Further, the communication interface 107 receives the response information from the cloud server 200.
  • the rendering unit 108 executes rendering (sound effect, voice synthesis, animation, etc.) based on the response information sent from the cloud server 200, supplies the generated voice signal to the speaker 105, and is generated.
  • the video signal is supplied to the display 106.
  • the display 106 may be a projector.
  • the cloud server 200 processes the input utterance data sent from the dialogue agent 100 to generate response information, and sends the response information back to the dialogue agent 100.
  • the cloud server 200 includes an utterance semantic analysis engine (speech semantic analysis unit).
  • FIG. 11 shows a configuration example of the cloud server 200.
  • the cloud server 200 includes a control unit 201, a storage unit 202, a communication interface 203, a voice recognition unit 204, a language processing unit 205, a knowledge information dictionary 206, an utterance meaning analysis unit 207, and an application unit 210. have.
  • the control unit 201 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random access memory), and the like, and controls the operation of each unit of the cloud server 200.
  • the storage unit 202 is composed of a semiconductor memory, a hard disk, or the like.
  • the storage unit 202 also includes a knowledge information dictionary 206.
  • the communication interface 203 communicates with the dialogue agent 100 via the network 300.
  • the communication interface 203 receives the voice data of the input utterance sent from the dialogue agent 100. Further, the communication interface 203 transmits the response information for responding to the user to the dialogue agent 100 via the network 300.
  • the voice recognition unit 204 performs voice recognition processing on the voice data of the input utterance and converts the voice into text.
  • the language processing unit 205 analyzes the text obtained by the voice recognition unit 204 to obtain information such as a vocabulary (word), a part of speech, and a dependency.
  • the language processing unit 205 assigns category tags to each vocabulary of the input utterance for all categories when it is registered in the knowledge information dictionary 206. In this sense, the language processing unit 205 also constitutes a tagging unit.
  • the utterance meaning analysis unit 207 includes a domain estimator 208 and an entity extractor 209.
  • the domain estimator 208 estimates the domain (category) of the utterance content intended by the input utterance. In this case, the domain estimator 208 estimates the domain based on, for example, the category tags attached to the vocabulary of the input utterance.
  • the entity extractor 209 extracts the vocabulary related to the domain estimated by the domain estimator 208 as a phrase of a predetermined entity. This phrase is required for processing the input utterance in the application unit 210 described later.
  • the utterance meaning analysis unit 207 outputs a voice frame including information such as a domain estimated by the domain estimator 208 and a phrase of a predetermined entity extracted by the entity extractor 209.
  • the application unit 210 generates a response based on a voice frame (including information such as a domain and a phrase of a predetermined entity) output from the utterance meaning analysis unit 207. In this case, as described above, the application unit 210 generates a response utilizing the hierarchical structure of the knowledge information dictionary 206.
  • the application unit 210 does not attach a category tag to the phrase of the predetermined entity, and when the application operation is completed normally, the application unit 210 refers to the category of the predetermined entity in the knowledge information dictionary 206 with respect to the category corresponding to the predetermined entity. Register the phrase. In this case, the phrase of the predetermined entity is registered not only for the category corresponding to the predetermined entity but also for the category of each hierarchy located above the category. In this sense, the application unit 210 also constitutes a dictionary extension unit. It should be noted that a configuration in which the application operation is registered in the knowledge information dictionary 206 without determining the condition that the application operation is normally completed is also conceivable.
  • the flowchart of FIG. 12 shows an example of a procedure for assigning a category tag to an input utterance by the knowledge information dictionary 206 in the cloud server 200.
  • the cloud server 200 receives an input utterance in step ST1
  • the cloud server 200 calls the knowledge information dictionary 206 in step ST2.
  • the cloud server 200 determines whether the phrase (vocabulary) registered in the knowledge information dictionary 206 can be found in the input utterance. If not found, the cloud server 200 does not add a category tag to the input utterance. On the other hand, if found, the cloud server 200 adds a category tag of the corresponding category to the found vocabulary in the input utterance in step ST4. In this case, if there are a plurality of corresponding categories, category tags are added to all the categories.
  • the flowchart of FIG. 13 shows an example of the processing procedure of the automatic expansion of the knowledge information dictionary 206 in the cloud server 200.
  • the cloud server 200 extracts a phrase of a predetermined entity from the input utterance.
  • the cloud server 200 determines whether or not the extracted phrase is registered in the target category of the knowledge information dictionary 206. For example, when the tag of the target category is not attached to the phrase, it can be determined that the phrase is not registered in the target category of the knowledge information dictionary 206.
  • the cloud server 200 does not perform the process of registering the phrase in the target category. On the other hand, if it is not registered, the cloud server 200 outputs a meaning frame from the utterance meaning analysis unit 207 in step ST13, and calls the application of the application unit 210 in step ST14 to operate the application.
  • the cloud server 200 determines in step ST15 whether the application has completed its operation normally. If the operation is not completed normally, the cloud server 200 does not perform the process of registering the phrase of the predetermined entity extracted from the input utterance in the target category. On the other hand, when the operation is completed normally, the cloud server 200 registers the phrase in the target category of the knowledge information dictionary 206 in step ST16.
  • the flowchart of FIG. 14 shows an example of a response generation processing procedure utilizing the hierarchical structure of the knowledge information dictionary 206 in the application unit 210 of the cloud server 200.
  • the application unit 210 inputs a meaning frame from the utterance meaning analysis unit 207.
  • step ST22 the application unit 210 determines whether or not it is clearly instructed that the response (analysis) content is to be converged or expanded by the input utterance.
  • the application unit 210 generates a response by using the hierarchical structure according to the instruction in step ST23.
  • step ST24 determines in step ST24 whether the input utterance is the second utterance. If it is not the second utterance, that is, if it is the first utterance, the application unit 210 generates a response in step ST25 without using the hierarchical structure.
  • step ST26 determines in step ST26 whether the category tags of the same hierarchy are given to the first utterance and the second utterance.
  • step ST27 the application unit 210 generates a response by utilizing the child category information of the corresponding category in order to converge the response contents.
  • step ST26 If the category tags of the same hierarchy are not assigned in step ST26, the application unit 210 generates a response in step ST28 by utilizing the parent category information or the parallel category information in order to expand the response content. ..
  • the category tag is not attached to the phrase of the predetermined entity extracted from the input speech
  • the category corresponding to the predetermined entity of the knowledge information dictionary 206 is assigned. Then, the phrase of the predetermined entity is registered. Therefore, the knowledge information dictionary 206 can be automatically expanded without any trouble for the user.
  • a response is generated by using the hierarchical structure of the knowledge information dictionary 206. Therefore, it is possible to satisfactorily generate the response of the dialogue agent.
  • the response generation process is performed by the cloud server 200, but a part or all of the above-mentioned functions of the cloud server 200 are performed in the dialogue agent 100. Can be easily considered.
  • FIG. 15 is a block diagram showing a configuration example of computer hardware that programmatically executes a series of processes of the cloud server 200 described above.
  • the CPU Central Processing Unit
  • the ROM ReadOnly Memory
  • the RAM RandomAccessMemory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a storage unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the storage unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program stored in the storage unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-described series. Is processed.
  • the program executed by the computer (CPU 501) can be recorded and provided on the removable media 511 as a package media or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting.
  • the program can be installed in the storage unit 508 via the input / output interface 505 by mounting the removable media 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the storage unit 508 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 502 or the storage unit 508.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the present technology can also have the following configurations.
  • a tagging unit that assigns category tags to all categories
  • a semantic analysis unit that estimates the domain of the utterance content intended by the input utterance and extracts the vocabulary related to the estimated domain from the input utterance as a phrase of a predetermined entity.
  • An application part that generates a response based on the phrase of the domain and the predetermined entity,
  • An information processing device including a dictionary extension unit that registers a phrase of the predetermined entity for a category corresponding to the predetermined entity of the knowledge information dictionary when the category tag is not attached to the phrase of the predetermined entity.
  • the semantic analysis unit estimates the domain based on the category tag attached to the vocabulary of the input utterance when estimating the domain of the utterance content intended by the input utterance.
  • the information processing device described.
  • (4) The above knowledge information dictionary has a hierarchical structure.
  • the dictionary extension unit registers the phrase of the predetermined entity for the category of each hierarchy located above the category together with the category corresponding to the predetermined entity of the knowledge information dictionary (1) to (1).
  • the information processing device according to any one of 3).
  • a tagging section that assigns category tags to all categories
  • a semantic analysis unit that estimates the domain of the utterance content intended by the input utterance and extracts the vocabulary related to the estimated domain from the input utterance as a phrase of a predetermined entity. It has an application part that generates a response based on the phrase of the domain and the predetermined entity.
  • the above knowledge information dictionary has a hierarchical structure and has a hierarchical structure.
  • the application unit is an information processing device that generates the response by using the hierarchical structure.
  • the application unit uses the information of the category in the lower hierarchy with respect to the category indicated by the category tag given to the phrase of the predetermined entity to make the response.
  • the application unit uses the information of the category higher in the hierarchy or parallel to the category indicated by the category tag given to the phrase of the predetermined entity.
  • the information processing apparatus according to (6) or (7) above which generates the above response.
  • the application unit When the input utterance includes a content instructing convergence or expansion of the content of the response, the application unit generates the response by using the hierarchical structure according to the instruction from the above (6).
  • the application unit determines whether the input utterance is the first utterance or the second utterance.
  • the information processing apparatus according to any one of (6) to (9) above, wherein the response is generated by selectively utilizing the hierarchical structure.
  • the application unit generates the response without using the hierarchical structure when the input utterance is the first utterance.
  • the application unit converges the content of the response from the difference between the category tag given to the first utterance and the category tag given to the second utterance.
  • the information processing apparatus according to (10) or (11), wherein it is determined whether to allow or expand the response, and the response is generated by using the hierarchical structure according to the result of the determination.
  • the application unit determines that the contents of the response are converged and is assigned to the phrase of the predetermined entity.
  • the information processing apparatus according to (12) above, which generates the above response by using the information of the categories in the lower hierarchy with respect to the category indicated by the category tag.
  • the application unit determines that the content of the response is expanded when the categories of the same hierarchy are not assigned to the first utterance and the second utterance, and is assigned to the phrase of the predetermined entity.
  • the information processing apparatus which generates the above response by using the information of the category higher in the hierarchy or parallel to the category indicated by the category tag.
  • the above knowledge information dictionary has a hierarchical structure and has a hierarchical structure. In the procedure for generating the response, an information processing method for generating the response using the hierarchical structure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

発話意味解析のための知識情報辞書の自動拡張と対話エージェントの応答生成を良好に行う。 入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与する。入力発話が意図する発話内容のドメインを推定すると共に、入力発話から推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する。入力発話が意図する発話内容のドメインおよび所定エンティティのフレーズに基づいて応答を生成する。所定エンティティのフレーズにカテゴリタグが付与されていないとき、知識情報辞書の所定エンティティに対応するカテゴリに対して、所定エンティティのフレーズの登録をする。知識情報辞書は階層構造を持っており、アプリケーション部は、階層構造を利用して応答を生成する。

Description

情報処理装置および情報処理方法
 本技術は、情報処理装置および情報処理方法に関し、詳しくは、発話意味解析のための知識情報辞書の自動拡張と対話エージェントの応答生成に係る情報処理装置および情報処理方法に関する。
 例えば、特許文献1には、文書検索時に用いた検索条件に関連する名詞句を自動的に抽出し、検索用のシソーラス辞書に登録すること、シソーラス辞書を用いて検索条件を拡張すること等が開示されている。シソーラス辞書への登録は、入力された検索文書から検索条件に該当する名詞句を抽出することで行われる。検索条件の拡張は、検索条件に対応する類義語をシソーラス辞書から選択することで行われる。
特開平11-045266号公報
 対話エージェントに含まれる発話意味解析技術では知識情報辞書を使って入力発話に特徴量の付与を行い、これを基に入力発話の解析や応答発話生成を行うことがある。しかし、知識情報辞書を人手で整備するには多大なコストがかかる。さらに、知識は日々更新されるため、常に最新の情報を整備するのは困難である。
 知識情報辞書の自動更新方法として、ウェブページのクローリングやオープンデータベースからのインポートなどがある。前者は情報の正確性を担保することが難しく、後者は他者依存の方法になるため必要な情報に関するデータベースがあるとは限らない。正確性を担保しつつ、自動的に知識情報辞書を獲得できる方法が求められる。
 本技術の目的は、発話意味解析のための知識情報辞書の自動拡張と対話エージェントの応答生成を良好に行うことにある。
 本技術の概念は、
 入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
 上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
 上記入力発話の内容のドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部と、
 上記所定エンティティのフレーズに上記カテゴリタグが付与されていないとき、上記知識情報辞書の上記所定エンティティに対応するカテゴリに対して上記所定エンティティのフレーズの登録をする辞書拡張部を備える
 情報処理装置にある。
 本技術において、タグ付与部により、入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグが付与される。意味解析部により、入力発話が意図する発話内容のドメインが推定されると共に、入力発話から推定されたドメインに係る語彙が所定エンティティのフレーズとして抽出される。例えば、意味解析部は、入力発話が意図する発話内容のドメインを推定する際に、入力発話の語彙に付与されているカテゴリタグに基づいてドメインを推定する、ようにされてもよい。
 辞書拡張部により、所定エンティティのフレーズにカテゴリタグが付与されていないとき、知識情報辞書の所定エンティティに対応するカテゴリに対して、その所定エンティティのフレーズが登録される。例えば、辞書拡張部は、アプリケーション部が応答を正しく生成し得る場合に、所定エンティティのフレーズの登録をする、ようにされてもよい。また、例えば、上記知識情報辞書は階層構造を持っており、辞書拡張部は、知識情報辞書の所定エンティティに対応するカテゴリと共に、このカテゴリの上位に位置する各階層のカテゴリに対して、所定エンティティのフレーズの登録をする、ようにされてもよい。
 このように本技術においては、入力発話から抽出された所定エンティティのフレーズにカテゴリタグが付与されていないとき、知識情報辞書の所定エンティティに対応するカテゴリに対して、その所定エンティティのフレーズを登録するものである。そのため、知識情報辞書を自動的に拡張することが可能となる。
 また、本技術の他の概念は、
 入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
 上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
 上記入力発話の内容のドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部を備え、
 上記知識情報辞書は階層構造を持っており、
 上記アプリケーション部は、上記階層構造を利用して上記応答を生成する
 情報処理装置にある。
 本技術において、タグ付与部により、入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグが付与される。意味解析部により、入力発話が意図する発話内容のドメインが推定されると共に、入力発話から推定されたドメインに係る語彙が所定エンティティのフレーズとして抽出される。アプリケーション部により、ドメインおよび所定エンティティのフレーズに基づいて応答が生成される。
 例えば、アプリケーション部は、応答の内容を収束させる場合は、所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して応答を生成する、ようにされてもよい。また、例えば、アプリケーション部は、応答の内容を拡大させる場合は、所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して応答を生成する、ようにされてもよい。
 また、例えば、アプリケーション部は、入力発話に応答の内容を収束または拡大を指示する内容が含まれる場合は、その指示に従って階層構造を利用して応答を生成する、ようにされてもよい。また、例えば、アプリケーション部は、入力発話に応答の内容の収束または拡大を指示する内容が含まれていない場合は、入力発話が第一発話であるか第二発話であるかに応じて、階層構造を選択的に利用して応答を生成する、ようにされてもよい。
 ここで、第一発話は、一問一答型対話におけるユーザ発話やマルチターン対話における最初のユーザ発話など、入力発話単体のみで発話意味解析を行うことができる内容の発話を意味する。第二発話は、入力発話単体のみでは発話意味解析を行うことができず前後の発話やエージェントの内部状況と組み合わせて解析することで発話意味解析が可能になる発話を意味する。
 この場合、例えば、アプリケーション部は、入力発話が第一発話であるとき、階層構造を利用せずに応答を生成する、ようにされてもよい。また、この場合、例えば、アプリケーション部は、入力発話が第二発話であるとき、第一発話に付与されたカテゴリタグと第二発話に付与されたカテゴリタグの差分から応答の内容を収束させるか拡大させるかを判断し、その判断の結果に応じて階層構造を利用して応答を生成する、ようにされてもよい。
 例えば、アプリケーション部は、第一発話と第二発話で同じ階層のカテゴリが付与されている場合には、応答の内容を収束させると判断し、所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して応答を生成する、ようにされてもよい。また、例えば、アプリケーション部は、第一発話と第二発話で同じ階層のカテゴリが付与されていない場合には、応答の内容を拡大させると判断し、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して上記応答を生成する、ようにされてもよい。
 このように本技術においては、知識情報辞書の階層構造を利用して応答を生成するものである。そのため、対話エージェントの応答生成を良好に行うことが可能となる。
知識情報辞書の構造を概略的に示す図である。 知識情報辞書による入力発話へのカテゴリタグ付与を説明するための図である。 知識情報辞書の自動拡張機能を説明するための図である。 知識情報辞書の階層構造を活用した応答生成を説明するための図である。 1属性のカテゴリタグ付与を説明するための図である。 複数属性のカテゴリタグ付与を説明するための図である。 購入というアクションについて複数のドメインが用意されている場合であってタグ情報を使わない場合について説明するための図である。 購入というアクションについて複数のドメインが用意されている場合であってタグ情報を使う場合について説明するための図である。 実施の形態としての情報処理システムの構成例を示すブロック図である。 対話エージェントの構成例を示すブロック図である。 クラウド・サーバの構成例を示すブロック図である。 クラウド・サーバにおける知識情報辞書による入力発話へのカテゴリタグ付与の処理手順の一例を示すフローチャートである。 クラウド・サーバにおける知識情報辞書の自動拡張の処理手順の一例を示すフローチャートである。 クラウド・サーバのアプリケーション部における知識情報辞書の階層構造を活用した応答生成の処理手順の一例を示すフローチャートである。 クラウド・サーバの一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 本技術は、発明意味解析エンジンを備えた対話エージェント上で動作することを前提としている。ここで述べる発話意味解析エンジンは、音声認識を通してテキスト化された入力発話(以下、単に、「入力発話」という)を入力とし、意味フレームを出力する機構を意味する。
 意味フレームとは、入力発話が意図する発話内容のカテゴリ(以下、「ドメイン」という)や、入力発話内に含まれており入力発話を処理するために必要になるフレーズ情報(以下、「エンティティ」という)などの情報を含むフレームである。なお、「エンティティ」は、「スロット」と呼ぶことがある。エンティティはドメインに紐づいており、ドメインが決定されることで入力発話から抽出すべきエンティティは自動的に決定される。
 本技術は、エンティティを抽出するために必要になる固有表現抽出器のようなテキストから特定の表現を抜き出す機構とともに活用することが考えられる。入力発話に対してドメイン推定やエンティティ抽出をする際に、発話中の各語彙を知識情報辞書内から検索し、該当する情報がある場合にはその語彙のカテゴリ情報をタグ付けし、これを特徴量として解析時に使用することを可能にする。
 図1は、知識情報辞書206の構造を概略的に示している。この知識情報辞書206は、階層構造を持っている。例えば、「Place(場所)」というカテゴリの下には、「Country(国)」、「City(都市)」、「Town(町)」、「Station(駅)」などのカテゴリが並列に存在する。また、図示は省略されているが、各カテゴリの下にそれぞれ所定数の語彙(フレーズ)が登録されている。
 この知識情報辞書は、登録内容を自動的に拡張することができる。あるエンティティとして抽出されたフレーズにカテゴリタグがついていない場合、その発話に対して対象アプリケーションが正しい処理を行えれば、そのエンティティに対応するカテゴリとその親カテゴリに対して該当フレーズを登録する。これによって、本技術を搭載する対話エージェントがユーザに使われることで自動的な辞書拡張が可能になる。本機能のために、エンティティと知識情報辞書のカテゴリを一対一で対応させる必要がある。
 知識辞書内のカテゴリ構造と、各カテゴリとエンティティの対応は管理者によって予め定義されている必要がある。この定義は辞書の自動拡張時に影響する設定である。発話への特徴量付与時は各語彙に該当するカテゴリをすべて特徴量として付与する。知識情報辞書はカテゴリが構造化されている。本技術ではこのカテゴリ階層構造を応答生成時にも活用することが可能である。ユーザ発話からのみではドメインの推定が困難な場合に、発話内の語彙に付与されているカテゴリタグを基にドメインを推定することが可能になる。
 本技術が想定する対話エージェントは一問一答型対話だけでなく、マルチターン対話を受け付ける。ここで、一問一答型対話におけるユーザ発話やマルチターン対話における最初のユーザ発話など入力発話単体のみで発話意味解析を行うことができる内容の発話を「第一発話」と呼ぶ。また、入力発話単体のみでは発話意味解析を行うことができず前後の発話やエージェントの内部状況と組み合わせて解析することで発話意味解析が可能になる発話を「第二発話」と呼ぶ。
 本技術のこれらの機能は全てサーバサイドでの動作、あるいはローカルに組み込んでの動作のいずれも可能である。
 以下、本技術の基本的な機能である、(1)入力発話へのカテゴリタグ(特徴量)付与、(2)知識情報辞書の自動拡張機能、(3)階層構造を活用した応答生成、についての詳細を記載する。
 「知識情報辞書による入力発話へのカテゴリタグ付与」
 知識情報辞書による入力発話へのカテゴリタグ付与について説明する。入力発話内のフレーズAを知識情報辞書内で検索し、該当する語彙が登録されている場合はその語彙が登録されている全てのカテゴリについて、カテゴリタグを付与することになる。例えば、図2に示すように、「東京」という語彙がプレイス(Place)カテゴリ、シティ(City)カテゴリで見つかった場合には、発話文中の「東京」に対してプレイスタグ、シティタグを付与し、これを特徴量として解析時に活用する。
 本技術では、連続する複数形態素をまたいだフレーズの検索も行い、最終的に最長一致で結果を出力する。例えば、「東京タワー」(「東京/タワー」と形態素が分解される)という文字列が入力され、「東京」「タワー」「東京タワー」それぞれの語彙が辞書内に存在していた場合、最長一致で「東京タワー」が検索結果となり「東京タワー」にカテゴリタグが付与される。知識情報辞書内の検索は、形態素の句切れを考慮したものである。よって、図2の例の場合、「京」という語彙が知識情報辞書内に登録されていたとしても、そのカテゴリタグが付与されることはない。
 「知識情報辞書の自動拡張機能」
 知識情報辞書の自動拡張機能について説明する。あるエンティティ(抽出したい表現の分類)と、あるカテゴリが互い一対一で対応しているのであれば、エンティティXとして抽出されたフレーズAがカテゴリαに登録されていない(=カテゴリタグαを付与されていない)場合に、エージェントが特定の動作を完了できた場合は、フレーズAをαカテゴリの辞書に登録できる。A∈αという特徴はその後、インテントやエンティティに関わらず全ての発話に対して適用可能である。また、「カテゴリωはカテゴリαの上位概念である」という階層関係がωとαの間に存在していた場合、カテゴリαの辞書に登録されたフレーズAは自動的にカテゴリωの辞書にも登録される。
 例えば、図3に示すように、「サラエヴォ」という語彙が辞書に登録されていなかった場合、「サラエヴォ」の語彙に対してカテゴリタグを付与することは不可能である。しかし、シティエンティティで「サラエヴォ」が抽出され、当該発話に対してエージェントが動作を完了できた場合は「サラエヴォ」の語彙はシティエンティティが対応するシティカテゴリの語彙として辞書に登録される。さらに、シティカテゴリはプレイスカテゴリの子カテゴリなので、同時にプレイスカテゴリの語彙としても登録される。
 「知識情報辞書の階層構造を活用した応答生成」
 知識情報辞書の階層構造を活用した応答生成について説明する。ユーザの入力発話に付与されたカテゴリタグを基に、エージェントは応答を生成することが可能である。カテゴリαと紐付いたエンティティXとして抽出されたフレーズAに関して、カテゴリαの親カテゴリ、あるいは子カテゴリの情報も同時に取得し、この階層構造を応答時の情報・特徴量として活用する。
 入力発話および直前までのコンテキストによって、応答生成時に階層構造をどのように活用するか決めることができる。本技術では、解析または応答内容を収束させたい場合には該当カテゴリの子カテゴリ情報を活用する。解析または応答内容の範囲を拡大したい場合には該当カテゴリの親カテゴリ情報または並列するカテゴリ情報を活用する。
 解析または応答内容を収束させるか拡大するかは、入力発話で明確に指示される場合とそうでない場合がある。入力発話に解析内容の収束または拡大を明確に指示する内容が含まれている場合はその指示に従って階層構造を利用して応答を生成する。入力発話に解析内容の収束または拡大を指示する内容が含まれていない場合、入力発話が第一発話であれば階層構造を用いずに応答生成を行う。
 また、入力発話に解析または応答内容の収束または拡大を指示する内容が含まれていない場合、第二発話であれば、第一発話に付与されたカテゴリタグと第二発話に付与されたカテゴリタグの差分から解析内容を収束させるか拡大するかを判断する。第一発話と第二発話で同じ階層のカテゴリタグが付与されていれば、解析を収束させるために該当カテゴリの子カテゴリ情報を活用する。第一発話と第二発話で同じ階層のカテゴリタグが付与されていない場合には解析内容の拡大のために親カテゴリ情報または並列するカテゴリ情報を活用する。
 例えば、図4に示すような発話履歴を活用するマルチターン対話(ユーザの第一発話「おすすめの観光地をサラエヴォで探して」のあとにシステム応答があり、それを踏まえてユーザが第二発話「ヨーロッパの他の場所では?」と発話)にて、辞書の階層構造によって効果的な応答を選択することが可能になる。
 図4の例の場合には、プレイスエンティティで抽出された「サラエヴォ」というフレーズはシティカテゴリに登録されておりその親カテゴリとしてプレイスカテゴリが存在していて、第二発話では、プレイスエンティティで抽出された「ヨーロッパ」がプレイスカテゴリに登録されているという状態である。図4の例では、入力発話内に解析内容の収束または拡大を明確に支持する内容は含まれていない。しかし、第一発話と第二発話で同じ階層であるプレイスカテゴリタグが付与されているため、システムは解析内容の収束のため子カテゴリであるシティカテゴリに登録された情報の中から、応答で提案する場所を選択することが可能になる。
 「1属性のカテゴリタグ付与」
 次に、1属性のカテゴリタグが付与される例について説明する。図5の例で、「東京の天気教えて」という入力発話において、「東京」の語彙は、プレイスカテゴリとシティカテゴリに存在することから、この「東京」の語彙には、プレイスタグとシティタグが付与される。この場合、シティカテゴリはプレイスカテゴリの下位の階層にあることから、これらの2つのカテゴリは1属性に属するものであり、「東京」の語彙には、1属性に属するカテゴリタグが付与されたことになる。
 図5の例においては、「サラエヴォの天気教えて」という入力発話において、「サラエヴォ」の語彙は辞書に登録されていないことから、「サラエヴォ」の語彙に対してカテゴリタグは付与されない。しかし、シティエンティティのフレーズとして「サラエヴォ」の語彙が抽出され、当該発話に対してエージェントが動作を完了できた場合、図示のように、「サラエヴォ」の語彙はシティエンティティが対応するシティカテゴリの語彙、さらにはその上位のプレイスカテゴリの語彙として、辞書に登録される。
 その後、「おすすめの観光地をサラエヴォで探して」という入力発話(第一発話)において、プレイスエンティティのフレーズとして「サラエヴォ」の語彙が抽出されると共に、この「サラエヴォ」の語彙に、プレイスタグおよびシティタグが付与される。そして、「ヨーロッパの他の場所では?」の入力発話(第二発話)において、プレイスエンティティのフレーズとして「ヨーロッパ」の語彙が抽出されると共に、プレイスタグが付与される。
 この場合、入力発話に解析または応答内容の収束または拡大を指示する内容が含まれておらず、第一発話に付与されたカテゴリタグと第二発話に付与されたカテゴリタグの差分から解析内容を収束させるか拡大するかが判断される。そして、この場合、第一発話と第二発話で同じ階層のカテゴリタグであるプレイスタグが付与されているので、解析または応答内容を収束させるために該当カテゴリの子カテゴリ情報、つまりシティカテゴリの情報が活用されて応答生成が行われる。例えば、「ロンドンの観光地はいかがですか?」のような応答が生成される。
 また、その後、「おすすめの観光地をフランスで探して」という入力発話(第一発話)において、プレイスエンティティのフレーズとして「フランス」の語彙が抽出されると共に、この「フランス」の語彙に、プレイスタグおよびカントリータグが付与される。そして、「他の場所で探して」の入力発話(第二発話)においては、プレイスエンティティのフレーズとして抽出される語彙はない。
 この場合、第一発話と第二発話で同じ階層のカテゴリタグが付与されていないので、解析または応答内容を収束させるために親カテゴリ情報または並列するカテゴリ情報が活用されて応答生成が行われる。例えば、「イタリアの観光地はいかがですか?」のような応答が生成される。
 「複数属性のカテゴリタグ付与」
 複数属性のカテゴリタグ付与について説明する。最初に、購入というアクションについて、“商品の購入”のドメインが用意されている場合について説明する。
 図6の例で、「AAAA」という語彙がスナック(Snack)カテゴリに登録されている状態で、音楽再生ドメインにあたる「AAAAって曲を再生して」という入力発話でミュージックトラックエンティティ(MusicTrack Entity)のフレーズとして「AAAA」の語彙が抽出されると共に、この「AAAA」の語彙にスナックタグが付与される。
 当該発話に対してエージェントが動作を完了できた場合、図示のように、「AAAA」の語彙は、ミュージックトラックカテゴリとその上位のミュージックカテゴリの語彙として登録され、その結果、ミュージックカテゴリ、ミュージックトラックカテゴリ、スナックカテゴリに「AAAA」といいう語彙が登録された状態となる。
 このとき、物品購入ドメインにあたる「AAAAを買って」という発話が新たに入力されると、システムは「AAAA」に付与されたタグ情報を特徴量として「AAAA」の語彙をパーチェイスエンティティ(Purchase Entity)のフレーズとして抽出することができる。また、「AAAA」に付与されたタグ情報から購入すべき「AAAA」がお菓子なのか楽曲なのかをユーザに確認する応答を生成することが可能になる。例えば、「お菓子を買いますか?楽曲を買いますか?」という応答を生成する。
 次に、食品の購入、音楽の購入、ビデオの購入、書籍の購入、…など、購入というアクションについて複数のドメインが用意されている場合について説明する。本技術を適用しない場合は、図7に示すように、「AAAA」が何を指すかという情報を得ることができず、購入アクションを行う全てのドメインを候補とするため、ユーザにとってわかりやすい応答の生成が困難になるかもしれない。
 本技術を適用した場合は、図8に示すように、「AAAA」に付与されたタグが特徴量となり、ドメインを絞ることが可能になる。この場合、「AAAAを買って」という発話において、「AAAA」の語彙はパーチェイスエンティティのフレーズとして抽出されると共に、この「AAAA」の語彙に、スナックタグ、ミュージックタグ、ミュージックトラックタグが付与される。これにより、システムは、購入対象を指すパーチェイスエンティティのタグ情報から、食品購入ドメインと音楽購入ドメインに絞ることができる。
 [情報処理システムの構成例]
 図9は、実施の形態としての情報処理システム10の構成例を示している。この情報処理システム10は、対話エージェント100とクラウド・サーバ200がインターネット等のネットワーク300を介して接続された構成となっている。
 対話エージェント100は、ユーザと会話をする。対話エージェント100は、ユーザの入力発話のデータを、ネットワーク300を介して、クラウド・サーバ200に送る。クラウド・サーバ200は、その入力発話のデータを処理して応答情報を生成し、ネットワーク300を介して、対話エージェント100に送る。対話エージェント100は、その応答情報に基づき、ユーザに対して音声出力や画面出力をする。
 ここで、ユーザの入力発話のデータは、マイクロホンで得られる音声データ、あるいはそれを音声認識処理して得られたテキストデータであってもよく、さらには、ユーザの入力操作によるテキストデータであってもよい。また、応答情報は、例えばテキストデータであって、対話エージェント100は、音声出力をする場合には、このテキストデータから音声データに変換して用いる。この実施の形態において、ユーザの入力発話のデータは、例えばマイクロホンで得られる音声データである、とする。
 「対話エージェントの構成例」
 図10は、対話エージェント100の構成例を示している。対話エージェント100は、制御部101と、入出力インタフェース102と、操作入力デバイス103と、マイクロホン104と、スピーカ105と、ディスプレイ106と、通信インタフェース107と、レンダリング部108を有している。制御部101、入出力インタフェース102、通信インタフェース107およびレンダリング部108は、バス109に接続されている。
 制御部101は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random access memory)等を備えてなり、対話エージェント100の各部の動作を制御する。入出力インタフェース102は、操作入力デバイス103、マイクロホン104、スピーカ105およびディスプレイ106を接続する。操作入力デバイス103は、対話エージェント100のユーザが種々の操作入力を行うための操作部を構成する。
 通信インタフェース107は、ネットワーク300を介して、クラウド・サーバ200と通信をする。この通信インタフェース107は、マイクロホン104で得られた音声データを、クラウド・サーバ200に送信する。また、この通信インタフェース107は、クラウド・サーバ200から、応答情報を受信する。
 レンダリング部108は、クラウド・サーバ200から送られてくる応答情報に基づき、レンダリング(サウンドエフェクト、音声合成、アニメーションなど)を実行して、生成された音声信号をスピーカ105に供給すると共に、生成された映像信号をディスプレイ106に供給する。なお、ディスプレイ106は、プロジェクタであってもよい。
 「クラウド・サーバの構成例」
 クラウド・サーバ200は、対話エージェント100から送られてくる入力発話のデータを処理して応答情報を生成し、この応答情報を対話エージェント100に送り返す。クラウド・サーバ200は、発話意味解析エンジン(発話意味解析部)を備えている。
 図11は、クラウド・サーバ200の構成例を示している。このクラウド・サーバ200は、制御部201と、記憶部202と、通信インタフェース203と、音声認識部204と、言語処理部205と、知識情報辞書206と、発話意味解析部207と、アプリケーション部210を有している。
 制御部201は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random access memory)等を備えてなり、クラウド・サーバ200の各部の動作を制御する。記憶部202は、半導体メモリやハードディスク等で構成されている。この記憶部202には、知識情報辞書206も含まれている。
 通信インタフェース203は、ネットワーク300を介して、対話エージェント100と通信をする。この通信インタフェース203は、対話エージェント100から送られてくる入力発話の音声データを受信する。また、通信インタフェース203は、ユーザに応答するための応答情報を、ネットワーク300を介して、対話エージェント100に送信する。
 音声認識部204は、入力発話の音声データに対して音声認識処理を施して、音声をテキストに変換する。言語処理部205は、音声認識部204で得られたテキストの解析を行って、語彙(単語)と品詞、係り受けなどの情報を得る。言語処理部205は、入力発話の各語彙に対して、知識情報辞書206に登録されているときには、全てのカテゴリについてカテゴリタグを付与する。この意味で、言語処理部205は、タグ付与部も構成している。
 発話意味解析部207は、ドメイン推定器208とエンティティ抽出器209を備えている。ドメイン推定器208は、入力発話が意図する発話内容のドメイン(カテゴリ)を推定する。この場合、ドメイン推定器208は、例えば、入力発話の語彙に付与されているカテゴリタグに基づいてドメインを推定する。また、エンティティ抽出器209は、ドメイン推定器208で推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する。このフレーズは、後述するアプリケーション部210で、入力発話を処理するために必要となる。発話意味解析部207は、ドメイン推定器208で推定されるドメインやエンティティ抽出器209で抽出される所定エンティティのフレーズなどの情報を含む音声フレームを出力する。
 アプリケーション部210は、発話意味解析部207の出力である音声フレーム(ドメインや所定エンティティのフレーズなどの情報を含む)に基づいて、応答を生成する。この場合、アプリケーション部210は、上述したように、知識情報辞書206の階層構造を活用した応答生成をする。
 また、アプリケーション部210は、所定エンティティのフレーズにカテゴリタグが付与されておらず、アプリケーション動作が正常に完了したとき、知識情報辞書206のその所定エンティティに対応するカテゴリに対して、その所定エンティティのフレーズを登録する。この場合、所定エンティティに対応するカテゴリと共に、該カテゴリの上位に位置する各階層のカテゴリに対しても所定エンティティのフレーズの登録をする。この意味で、アプリケーション部210は、辞書拡張部も構成している。なお、アプリケーション動作が正常に完了したという条件を判断することなく、知識情報辞書206への登録を行う構成も考えられる。
 図12のフローチャートは、クラウド・サーバ200における知識情報辞書206による入力発話へのカテゴリタグ付与の処理手順の一例を示している。クラウド・サーバ200は、ステップST1において入力発話があると、ステップST2において知識情報辞書206の呼び出しをする。
 次に、クラウド・サーバ200は、ステップST3において、知識情報辞書206に登録されたフレーズ(語彙)は入力発話内に見つかるか判断する。見つからない場合、クラウド・サーバ200は、入力発話へのカテゴリタグの付与はしない。一方、見つかった場合、クラウド・サーバ200は、ステップST4において、入力発話内の見つかった語彙に、対応するカテゴリのカテゴリタグを付与する。この場合、対応するカテゴリが複数である場合には、その全てのカテゴリについてカテゴリタグを付与する。
 図13のフローチャートは、クラウド・サーバ200における知識情報辞書206の自動拡張の処理手順の一例を示している。クラウド・サーバ200は、ステップST11において、入力発話から所定エンティティのフレーズを抽出する。次に、クラウド・サーバ200は、ステップST12において、抽出されたフレーズは、知識情報辞書206の対象カテゴリに登録されていないか判断する。例えば、当該フレーズにその対象カテゴリのタグが付与されていないとき、当該フレーズは知識情報辞書206の対象カテゴリに登録されていないと判断できる。
 登録されている場合、クラウド・サーバ200は、当該フレーズにその対象カテゴリに登録する処理を行わない。一方、登録されていない場合、クラウド・サーバ200は、ステップST13において、発話意味解析部207から意味フレームを出力し、ステップST14において、アプリケーション部210のアプリケーションを呼び出し、アプリケーション動作をさせる。
 次に、クラウド・サーバ200は、ステップST15において、アプリケーションは正常に動作完了したか判断する。正常に動作完了していない場合、クラウド・サーバ200は、入力発話から抽出された所定エンティティのフレーズを対象カテゴリに登録する処理を行わない。一方、正常に動作完了した場合、クラウド・サーバ200は、ステップST16において、知識情報辞書206の対象カテゴリに当該フレーズを登録する。
 図14のフローチャートは、クラウド・サーバ200のアプリケーション部210における知識情報辞書206の階層構造を活用した応答生成の処理手順の一例を示している。アプリケーション部210は、ステップST21において、発話意味解析部207から意味フレームを入力する。
 次に、アプリケーション部210は、ステップST22において、入力発話にて応答(解析)内容を収束または拡大したいことが明確に指示されているか判断する。明確に指示されている場合、アプリケーション部210は、ステップST23において、指示に従って階層構造を利用して応答生成をする。
 また、ステップST22で明確に指示されていない場合、アプリケーション部210は、ステップST24において、入力発話は第二発話か判断する。第二発話でない場合、つまり第一発話である場合、アプリケーション部210は、ステップST25において、階層構造を用いずに応答生成をする。
 また、ステップST24で第二発話である場合、アプリケーション部210は、ステップST26において、第一発話と第二発話で同じ階層のカテゴリタグが付与されているか判断する。同じ階層のカテゴリタグが付与されている場合、アプリケーション部210は、ステップST27において、応答内容を収束させるために、該当カテゴリの子カテゴリ情報を活用して応答生成をする。
 また、ステップST26で同じ階層のカテゴリタグが付与されていない場合、アプリケーション部210は、ステップST28において、応答内容を拡大させるために、親カテゴリ情報または並列するカテゴリ情報を活用して応答生成をする。
 以上説明したように、図9に示す情報処理システム10においては、入力発話から抽出された所定エンティティのフレーズにカテゴリタグが付与されていないとき、知識情報辞書206の所定エンティティに対応するカテゴリに対して、その所定エンティティのフレーズを登録するものである。そのため、ユーザが手間をかけることなく、知識情報辞書206を自動的に拡張することが可能となる。
 また、図9に示す情報処理システム10においては、知識情報辞書206の階層構造を利用して応答を生成するものである。そのため、対話エージェントの応答生成を良好に行うことが可能となる。
 なお、図9に示す情報処理システム10においては、応答生成の処理をクラウド・サーバ200で行うものであるが、クラウド・サーバ200の上述した機能の一部または全部を対話エージェント100内で行う構成も容易に考えることができる。
 また、図15は、上述したクラウド・サーバ200の一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503は、バス504により相互に接続されている。バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、入力部506、出力部507、記憶部508、通信部509、およびドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホンなどよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記憶部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインタフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを、入出力インタフェース505およびバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インタフェース505を介して、記憶部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記憶部508にインストールすることができる。その他、プログラムは、ROM502や記憶部508に、予めインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 <2.変形例>
 なお、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、本技術は、以下のような構成を取ることもできる。
 (1)入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
 上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
 上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部と、
 上記所定エンティティのフレーズに上記カテゴリタグが付与されていないとき、上記知識情報辞書の上記所定エンティティに対応するカテゴリに対して上記所定エンティティのフレーズの登録をする辞書拡張部を備える
 情報処理装置。
 (2)上記意味解析部は、上記入力発話が意図する発話内容のドメインを推定する際に、上記入力発話の語彙に付与されているカテゴリタグに基づいて上記ドメインを推定する
 前記(1)に記載の情報処理装置。
 (3)上記辞書拡張部は、上記アプリケーション部が上記応答を正しく生成し得る場合に、上記所定エンティティのフレーズの登録をする
 前記(1)または(2)に記載の情報処理装置。
 (4)上記知識情報辞書は階層構造を持っており、
 上記辞書拡張部は、上記知識情報辞書の上記所定エンティティに対応するカテゴリと共に、該カテゴリの上位に位置する各階層のカテゴリに対して、上記所定エンティティのフレーズの登録をする
 前記(1)から(3)のいずれかに記載の情報処理装置。
 (5)入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与する手順と、
 上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する手順と、
 上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成する手順と、
 上記所定エンティティのフレーズに上記カテゴリタグが付与されていないとき、上記知識情報辞書の上記所定エンティティに対応するカテゴリに対して上記所定エンティティのフレーズの登録をする手順を有する
 情報処理方法。
 (6)入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
 上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
 上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部を備え、
 上記知識情報辞書は階層構造を持っており、
 上記アプリケーション部は、上記階層構造を利用して上記応答を生成する
 情報処理装置。
 (7)上記アプリケーション部は、上記応答の内容を収束させる場合は、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して上記応答を生成する
 前記(6)に記載の情報処理装置。
 (8)上記アプリケーション部は、上記応答の内容を拡大させる場合は、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して上記応答を生成する
 前記(6)または(7)に記載の情報処理装置。
 (9)上記アプリケーション部は、上記入力発話に上記応答の内容を収束または拡大を指示する内容が含まれる場合は、該指示に従って上記階層構造を利用して上記応答を生成する
 前記(6)から(8)のいずれかに記載の情報処理装置。
 (10)上記アプリケーション部は、上記入力発話に上記応答の内容の収束または拡大を指示する内容が含まれていない場合は、上記入力発話が第一発話であるか第二発話であるかに応じて、上記階層構造を選択的に利用して上記応答を生成する
 前記(6)から(9)のいずれかに記載の情報処理装置。
 (11)上記アプリケーション部は、上記入力発話が上記第一発話であるとき、上記階層構造を利用せずに上記応答を生成する
 前記(10)に記載の情報処理装置。
 (12)上記アプリケーション部は、上記入力発話が上記第二発話であるとき、上記第一発話に付与されたカテゴリタグと上記第二発話に付与されたカテゴリタグの差分から上記応答の内容を収束させるか拡大させるかを判断し、該判断の結果に応じて上記階層構造を利用して上記応答を生成する
 前記(10)または(11)に記載の情報処理装置。
 (13)上記アプリケーション部は、上記第一発話と上記第二発話で同じ階層のカテゴリが付与されている場合には、上記応答の内容を収束させると判断し、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して上記応答を生成する
 前記(12)に記載の情報処理装置。
 (14)上記アプリケーション部は、上記第一発話と上記第二発話で同じ階層のカテゴリが付与されていない場合には、上記応答の内容を拡大させると判断し、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して上記応答を生成する
 前記(12)または(13)に記載の情報処理装置。
 (15)入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与する手順と、
 上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する手順と、
 上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成する手順を有し、
 上記知識情報辞書は階層構造を持っており、
 上記応答を生成する手順では、上記階層構造を利用して上記応答を生成する
 情報処理方法。
 10・・・情報処理システム
 100・・・対話エージェント
 101・・・制御部
 102・・・入出力インタフェース
 103・・・操作入力デバイス
 104・・・マイクロホン
 105・・・スピーカ
 106・・・ディスプレイ
 107・・・通信インタフェース
 108・・・レンダリング部
 109・・・バス
 200・・・クラウド・サーバ
 201・・・制御部
 202・・・記憶部
 203・・・通信インタフェース
 204・・・音声認識部
 205・・・言語処理部
 206・・・知識情報辞書
 207・・・発話意味解析部
 208・・・ドメイン推定器
 209・・・エンティティ抽出器
 210・・・アプリケーション部
 300・・・ネットワーク

Claims (15)

  1.  入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
     上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
     上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部と、
     上記所定エンティティのフレーズに上記カテゴリタグが付与されていないとき、上記知識情報辞書の上記所定エンティティに対応するカテゴリに対して上記所定エンティティのフレーズの登録をする辞書拡張部を備える
     情報処理装置。
  2.  上記意味解析部は、上記入力発話が意図する発話内容のドメインを推定する際に、上記入力発話の語彙に付与されているカテゴリタグに基づいて上記ドメインを推定する
     請求項1に記載の情報処理装置。
  3.  上記辞書拡張部は、上記アプリケーション部が上記応答を正しく生成し得る場合に、上記所定エンティティのフレーズの登録をする
     請求項1に記載の情報処理装置。
  4.  上記知識情報辞書は階層構造を持っており、
     上記辞書拡張部は、上記知識情報辞書の上記所定エンティティに対応するカテゴリと共に、該カテゴリの上位に位置する各階層のカテゴリに対して、上記所定エンティティのフレーズの登録をする
     請求項1に記載の情報処理装置。
  5.  入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与する手順と、
     上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する手順と、
     上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成する手順と、
     上記所定エンティティのフレーズに上記カテゴリタグが付与されていないとき、上記知識情報辞書の上記所定エンティティに対応するカテゴリに対して上記所定エンティティのフレーズの登録をする手順を有する
     情報処理方法。
  6.  入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
     上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
     上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部を備え、
     上記知識情報辞書は階層構造を持っており、
     上記アプリケーション部は、上記階層構造を利用して上記応答を生成する
     情報処理装置。
  7.  上記アプリケーション部は、上記応答の内容を収束させる場合は、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して上記応答を生成する
     請求項6に記載の情報処理装置。
  8.  上記アプリケーション部は、上記応答の内容を拡大させる場合は、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して上記応答を生成する
     請求項6に記載の情報処理装置。
  9.  上記アプリケーション部は、上記入力発話に上記応答の内容を収束または拡大を指示する内容が含まれる場合は、該指示に従って上記階層構造を利用して上記応答を生成する
     請求項6に記載の情報処理装置。
  10.  上記アプリケーション部は、上記入力発話に上記応答の内容の収束または拡大を指示する内容が含まれていない場合は、上記入力発話が第一発話であるか第二発話であるかに応じて、上記階層構造を選択的に利用して上記応答を生成する
     請求項6に記載の情報処理装置。
  11.  上記アプリケーション部は、上記入力発話が上記第一発話であるとき、上記階層構造を利用せずに上記応答を生成する
     請求項10に記載の情報処理装置。
  12.  上記アプリケーション部は、上記入力発話が上記第二発話であるとき、上記第一発話に付与されたカテゴリタグと上記第二発話に付与されたカテゴリタグの差分から上記応答の内容を収束させるか拡大させるかを判断し、該判断の結果に応じて上記階層構造を利用して上記応答を生成する
     請求項10に記載の情報処理装置。
  13.  上記アプリケーション部は、上記第一発話と上記第二発話で同じ階層のカテゴリが付与されている場合には、上記応答の内容を収束させると判断し、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して上記応答を生成する
     請求項12に記載の情報処理装置。
  14.  上記アプリケーション部は、上記第一発話と上記第二発話で同じ階層のカテゴリが付与されていない場合には、上記応答の内容を拡大させると判断し、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して上記応答を生成する
     請求項12に記載の情報処理装置。
  15.  入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与する手順と、
     上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する手順と、
     上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成する手順を有し、
     上記知識情報辞書は階層構造を持っており、
     上記応答を生成する手順では、上記階層構造を利用して上記応答を生成する
     情報処理方法。
PCT/JP2020/022392 2019-06-27 2020-06-05 情報処理装置および情報処理方法 WO2020261944A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/621,063 US20220350824A1 (en) 2019-06-27 2020-06-05 Information processing apparatus and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019119388 2019-06-27
JP2019-119388 2019-06-27

Publications (1)

Publication Number Publication Date
WO2020261944A1 true WO2020261944A1 (ja) 2020-12-30

Family

ID=74061242

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/022392 WO2020261944A1 (ja) 2019-06-27 2020-06-05 情報処理装置および情報処理方法

Country Status (2)

Country Link
US (1) US20220350824A1 (ja)
WO (1) WO2020261944A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6954549B1 (ja) * 2021-06-15 2021-10-27 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム
JP2023106269A (ja) * 2022-01-20 2023-08-01 マインドウェアワークス カンパニー リミテッド 問い合わせ処理装置
CN116860909A (zh) * 2023-09-04 2023-10-10 宁波甬恒瑶瑶智能科技有限公司 基于生化知识图谱的数据存储方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160260029A1 (en) * 2015-03-06 2016-09-08 Speaktoit, Inc. Example-driven machine learning scheme for dialog system engines
JP2018506113A (ja) * 2014-12-30 2018-03-01 マイクロソフト テクノロジー ライセンシング,エルエルシー ユーザーエクスペリエンスを向上させるためにあいまいな表現を弁別すること
JP2019012439A (ja) * 2017-06-30 2019-01-24 ヤフー株式会社 生成装置、生成方法及び生成プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
WO2003012661A1 (en) * 2001-07-31 2003-02-13 Invention Machine Corporation Computer based summarization of natural language documents
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
US8666982B2 (en) * 2011-10-06 2014-03-04 GM Global Technology Operations LLC Method and system to augment vehicle domain ontologies for vehicle diagnosis
US9922124B2 (en) * 2016-01-29 2018-03-20 Yogesh Rathod Enable user to establish request data specific connections with other users of network(s) for communication, participation and collaboration
US10331768B2 (en) * 2015-09-21 2019-06-25 Tata Consultancy Services Limited Tagging text snippets
US20180260474A1 (en) * 2017-03-13 2018-09-13 Arizona Board Of Regents On Behalf Of The University Of Arizona Methods for extracting and assessing information from literature documents
US11258734B1 (en) * 2017-08-04 2022-02-22 Grammarly, Inc. Artificial intelligence communication assistance for editing utilizing communication profiles

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018506113A (ja) * 2014-12-30 2018-03-01 マイクロソフト テクノロジー ライセンシング,エルエルシー ユーザーエクスペリエンスを向上させるためにあいまいな表現を弁別すること
US20160260029A1 (en) * 2015-03-06 2016-09-08 Speaktoit, Inc. Example-driven machine learning scheme for dialog system engines
JP2019012439A (ja) * 2017-06-30 2019-01-24 ヤフー株式会社 生成装置、生成方法及び生成プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6954549B1 (ja) * 2021-06-15 2021-10-27 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム
WO2022264435A1 (ja) * 2021-06-15 2022-12-22 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム
JP2022190845A (ja) * 2021-06-15 2022-12-27 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム
JP2023106269A (ja) * 2022-01-20 2023-08-01 マインドウェアワークス カンパニー リミテッド 問い合わせ処理装置
JP7406838B2 (ja) 2022-01-20 2023-12-28 マインドウェアワークス カンパニー リミテッド 問い合わせ処理装置
CN116860909A (zh) * 2023-09-04 2023-10-10 宁波甬恒瑶瑶智能科技有限公司 基于生化知识图谱的数据存储方法、系统及存储介质
CN116860909B (zh) * 2023-09-04 2023-12-22 宁波甬恒瑶瑶智能科技有限公司 基于生化知识图谱的数据存储方法、系统及存储介质

Also Published As

Publication number Publication date
US20220350824A1 (en) 2022-11-03

Similar Documents

Publication Publication Date Title
WO2020261944A1 (ja) 情報処理装置および情報処理方法
US11594215B2 (en) Contextual voice user interface
JP5142720B2 (ja) デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話
JP4478939B2 (ja) 音声処理装置およびそのためのコンピュータプログラム
US6961705B2 (en) Information processing apparatus, information processing method, and storage medium
US10163436B1 (en) Training a speech processing system using spoken utterances
JP4056470B2 (ja) イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ
JP2004005530A (ja) 音声対話インターフェースを利用した情報提供装置及びその方法
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
CN115862600B (zh) 语音识别方法、装置及车辆
JP2013206253A (ja) 機械翻訳装置、方法、およびプログラム
JP2015201215A (ja) 機械翻訳装置、方法、およびプログラム
US12002460B2 (en) Information processing device, information processing system, and information processing method, and program
Gibson et al. Unsupervised intralingual and cross-lingual speaker adaptation for HMM-based speech synthesis using two-pass decision tree construction
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP5196114B2 (ja) 音声認識装置およびプログラム
JP3581044B2 (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
KR20080011859A (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
US20230040015A1 (en) Automatic Voiceover Generation
US11935533B1 (en) Content-related actions based on context
WO2022196087A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
WO2021161856A1 (ja) 情報処理装置及び情報処理方法
JP2009129405A (ja) 感情推定装置、事例感情情報生成装置、及び感情推定プログラム
Rapp et al. Dynamic speech interfaces

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20831563

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20831563

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP