WO2020153028A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2020153028A1
WO2020153028A1 PCT/JP2019/048579 JP2019048579W WO2020153028A1 WO 2020153028 A1 WO2020153028 A1 WO 2020153028A1 JP 2019048579 W JP2019048579 W JP 2019048579W WO 2020153028 A1 WO2020153028 A1 WO 2020153028A1
Authority
WO
WIPO (PCT)
Prior art keywords
knowledge
information processing
utterance
control unit
user
Prior art date
Application number
PCT/JP2019/048579
Other languages
English (en)
French (fr)
Inventor
克俊 金盛
真人 西尾
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/309,993 priority Critical patent/US20220076672A1/en
Priority to CN201980079286.8A priority patent/CN113168500A/zh
Publication of WO2020153028A1 publication Critical patent/WO2020153028A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Patent Literature 1 describes a technique for realizing voice recognition according to a specialized field by using a dictionary for each field.
  • Patent Document 1 According to the technique described in Patent Document 1, it is possible to accurately recognize vocabulary and the like in a specialized field. On the other hand, with the technique described in Patent Document 1, it is difficult to utilize specialized knowledge and the like for dialogue.
  • a control unit that controls a dialogue with a user based on a recognition situation, the control unit acquires a knowledge element related to the recognition situation from a knowledge set, and the knowledge element
  • An information processing apparatus is provided that determines utterance content based on the utterance template.
  • the processor includes controlling a dialogue with a user based on a recognition situation, wherein the controlling acquires a knowledge element that is knowledgeally related to the recognition situation from a knowledge set. Then, the information processing method is further provided, which further comprises determining the utterance content based on the knowledge element and the utterance template.
  • the computer includes a control unit that controls a dialogue with a user based on a recognition situation, and the control unit acquires a knowledge element that is knowledgeally related to the recognition situation from a knowledge set. Then, a program for functioning as an information processing device that determines the utterance content based on the knowledge element and the utterance template is provided.
  • FIG. 1 is a diagram showing a hardware configuration example according to an embodiment of the present disclosure.
  • Patent Document 1 In order to deal with the above situation, for example, in Patent Document 1, by using a dictionary for each field, the accuracy of speech recognition for vocabulary in a specific specialized field is improved. On the other hand, the technique of Patent Document 1 does not consider a mechanism for utilizing the recognized vocabulary for dialogue. Therefore, with the technique described in Patent Document 1, even if the “Patent Cooperation Treaty” can be recognized with high accuracy, it cannot be utilized for a dialogue using the vocabulary, and for example, “Search on the Web” A typical response such as "I will do.”
  • the information processing apparatus 10 that realizes the information processing method according to an embodiment of the present disclosure includes a control unit 150 that controls a dialogue with a user based on a recognition situation.
  • the control unit 150 may acquire a knowledge element related to the recognition situation in terms of knowledge from a knowledge set, and determine the utterance content based on the knowledge element and the utterance template. , Is one of the features.
  • FIG. 1 is a diagram for explaining an overview of an embodiment of the present disclosure.
  • FIG. 1 shows an information processing device 10 that performs a voice conversation with a user U.
  • FIG. 1 illustrates an example in which the information processing device 10 according to the present embodiment is a robot device that performs a dialogue with a user and other autonomous actions based on the recognition status.
  • the recognition situation is that the user U uttered “I want to eat” “ramen”.
  • the recognition situation according to the present embodiment includes, for example, the voice recognition result and the intention analysis result regarding the utterance of the user, that is, the dialogue history.
  • the information processing apparatus 10 acquires from the knowledge DB 162 included in itself the knowledge element related to the vocabulary “ramen” included in the speech recognition result of the utterance UO1.
  • the knowledge DB 162 according to the present embodiment stores a plurality of knowledge sets described for each knowledge domain.
  • FIG. 1 illustrates an example of a knowledge set regarding the knowledge domain “Chinese cuisine” stored in the knowledge DB 162.
  • the knowledge domain according to the present embodiment may have a hierarchical structure, and for example, “Chinese cuisine” and “Chinese cuisine” may be followed by “Beijing cuisine” under the knowledge domain “cooking”.
  • the knowledge set according to the present embodiment describes a plurality of knowledge elements and the relationship between the knowledge elements.
  • the knowledge element “ramen” and “Chinese food” are indicated by the relationship “is-a (upper word)”.
  • the knowledge element “gyoza” and “Chinese cuisine” are indicated by the relationship “is-a (upper word)”.
  • the description in the figure shows that the knowledge element “Chinese cuisine” is a superordinate word of “ramen” and “gyoza”.
  • the control unit 150 of the information processing apparatus 10 stores in the knowledge DB 162 the knowledge element “gyoza” having the superordinate word “Chinese cuisine” similar to “ramen” included in the utterance UO1 of the user U. It is possible to obtain from the knowledge set about Chinese food.
  • the knowledge element according to the present embodiment includes, for example, a vocabulary.
  • control unit 150 selects a utterance template corresponding to the utterance intention of the user U from the template DB 164 included in the information processing device 10 based on the utterance intention of the user U, and acquires the knowledge element “dumpling” acquired in the utterance template. ", the content of the utterance is determined.
  • the control unit 150 applies the knowledge set “Gyoza” to the utterance template “XXX together with?” intended for recommendation, and sets the system utterance SO1 “Gyoza together with?” as information. It is output to the processing device 10.
  • the information processing apparatus 10 by determining the utterance content using the knowledge set and the utterance template, it is possible to realize a flexible and natural dialogue according to the recognition situation. Is.
  • the knowledge set according to the present embodiment may be capable of being added and the use priority set. According to this, it is possible to flexibly change (customize) the utterance generated by the information processing apparatus 10 according to the preference and needs of the user by adding the knowledge set and setting the usage priority order.
  • the information processing apparatus 10 it is possible to deal with various situations by using the knowledge set, and by adding the knowledge set, the types and variations of the dialogues can be enhanced. Is possible. Furthermore, according to the information processing apparatus 10 according to the present embodiment, the utterance content can be dynamically generated based on the knowledge set, and a richer variation than the conventional rule-based or scenario-based dialogue is realized. However, it is possible to realize a flexible and natural dialogue that is different from just calling a function.
  • FIG. 2 is a diagram showing a configuration example of the information processing system according to the present embodiment.
  • the information processing system according to the present embodiment includes an information processing device 10, an information processing server 20, and an information processing terminal 30. Further, the above-described components are connected to each other via a network 40 so that they can communicate with each other.
  • the information processing device 10 is various devices that perform a utterance with a user using a knowledge set and an utterance template.
  • the information processing apparatus 10 according to the present embodiment may be, for example, a robot apparatus that interacts with a user or performs other autonomous operation based on the recognition status.
  • the information processing device 10 according to the present embodiment is not limited to the above example, and may be a smartphone, a tablet, a PC (Personal Computer) having an interactive function, a dedicated device, or the like.
  • the information processing server 20 is a device that stores a knowledge set downloaded to the information processing device 10. Further, the information processing server 20 according to the present embodiment controls a user interface for a user to add a knowledge set to the information processing device 10.
  • the information processing terminal 30 is a device for performing operations such as addition of a knowledge set to the information processing device 10.
  • the information processing terminal 30 according to the present embodiment displays a user interface for performing the above operation under the control of the information processing server 20.
  • the information processing terminal 30 according to this embodiment may be, for example, a smartphone, a tablet, a PC, or the like.
  • the network 40 has a function of connecting the components included in the information processing system.
  • the network 40 may include a public line network such as the Internet, a telephone line network, and a satellite communication network, various LANs (Local Area Networks) including Ethernet (registered trademark), WANs (Wide Area Networks), and the like. Further, the network 40 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network). In addition, the network 40 may include a wireless communication network such as Wi-Fi (registered trademark) or Bluetooth (registered trademark).
  • the configuration example of the information processing system according to the present embodiment has been described.
  • the configuration described above with reference to FIG. 2 is merely an example, and the configuration of the information processing system according to the present embodiment is not limited to this example.
  • the configuration of the information processing system according to this embodiment can be flexibly modified according to specifications and operation.
  • FIG. 3 is a block diagram showing a functional configuration example of the information processing apparatus 10 according to the present embodiment.
  • the information processing apparatus 10 according to the present embodiment includes a voice input unit 110, a photographing unit 120, a sensor unit 130, a recognition unit 140, a control unit 150, a storage unit 160, a voice output unit 170, and server communication.
  • the unit 180 is provided.
  • the voice input unit 110 collects a voice uttered by the user, ambient environmental sounds, and the like. To this end, the voice input unit 110 according to this embodiment includes a microphone.
  • the image capturing unit 120 captures images of the user and surroundings. To this end, the image capturing unit 120 according to this embodiment includes a camera device and the like.
  • the sensor unit 130 collects various kinds of sensing information related to the user, the information processing device 10, the surrounding environment, and the like.
  • the sensor unit 130 according to the present embodiment includes, for example, an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, a temperature sensor, a pressure sensor, and a GNSS (Global Navigation Satellite System) signal receiver.
  • an acceleration sensor for example, an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, a temperature sensor, a pressure sensor, and a GNSS (Global Navigation Satellite System) signal receiver.
  • GNSS Global Navigation Satellite System
  • the recognition unit 140 includes the sound information collected by the voice input unit 110, the image information acquired by the imaging unit 120, the sensing information collected by the sensor unit 130, the voice recognition by the information processing server 20, and the intention analysis. Recognize the situation comprehensively based on the results.
  • Control unit 150 The control unit 150 according to the present embodiment controls each configuration included in the information processing device 10. Further, the control unit 150 according to the present embodiment acquires a knowledge element related to the recognition situation recognized by the recognition unit 140 in terms of knowledge from the knowledge set, and determines the utterance content based on the knowledge element and the utterance template. Doing is one of the features. Details of the functions of the control unit 150 according to this embodiment will be described later.
  • the storage unit 160 includes a knowledge DB 162 that stores a knowledge set and a template DB 164 that stores utterance templates.
  • the knowledge set according to the present embodiment describes a plurality of knowledge elements and the relationship between the knowledge elements.
  • Knowledge elements according to the present embodiment may include, for example, vocabulary, actions, images, sounds, and the like.
  • the knowledge set according to the present embodiment may be, for example, a triple structure set including three sets including knowledge elements and concepts.
  • the above structure includes, for example, an RDF (Resource Description Framework) triple structure including three knowledge elements, and a binary relation structure in which a predicate (Predicate) represents a relation such as "is-a (upper term)".
  • Predicate represents a relation such as "is-a (upper term)".
  • Table 1 shows an example of the binary relation according to the present embodiment.
  • the binary relation shown in Table 1 above is merely an example, and the binary relation according to the present embodiment is not limited to the example.
  • the binary relation according to the present embodiment may include various verbs such as eating, satisfying, likes, dislikes, comes, and goes.
  • the knowledge set according to this embodiment may be described by a semantic network or an ontology structure.
  • the voice output unit 170 outputs a voice corresponding to the utterance content determined by the control unit 150, under the control of the control unit 150.
  • the audio output unit 170 according to the present embodiment includes a speaker, an amplifier and the like.
  • the server communication unit 180 performs information communication with the information processing server 20 via the network 40.
  • the server communication unit 180 according to the present embodiment receives, for example, information regarding the knowledge set from the information processing server 20.
  • the information processing apparatus 10 according to the present embodiment may include, for example, a display unit that displays a text or the like corresponding to the utterance content determined by the control unit 150, a drive unit that implements various operations, and the like.
  • the functional configuration of the information processing device 10 according to the present embodiment can be flexibly modified according to specifications and operation.
  • FIG. 4 is a block diagram showing a functional configuration example of the information processing server 20 according to the present embodiment.
  • the information processing server 20 according to the present embodiment includes a voice recognition unit 210, a natural language processing unit 220, an interface control unit 230, a knowledge generation unit 240, a storage unit 250, and a communication unit 260.
  • the voice recognition unit 210 performs an automatic voice recognition (ASR: Automatic Speech Recognition) process based on a user's uttered voice received from the information processing device 10 and converts the uttered voice into a character string.
  • ASR Automatic Speech Recognition
  • the natural language processing unit 220 performs a natural language understanding (NLU) process based on the character string generated by the voice recognition unit 210, and extracts the intention of the user's utterance.
  • NLU natural language understanding
  • the interface control unit 230 controls a user interface for adding a knowledge set to the information processing device 10.
  • the user can access the above-mentioned user interface by using the information processing terminal 30 in his possession to add a knowledge set to the information processing apparatus 10.
  • the knowledge generation unit 240 generates a knowledge set. Details of the functions of the knowledge generation unit 240 according to this embodiment will be described later.
  • the storage unit 250 stores the knowledge set generated by the knowledge generation unit 240.
  • the communication unit 260 performs information communication with the information processing device 10 and the information processing terminal 30 via the network 40.
  • the communication unit 260 according to the present embodiment transmits information related to the knowledge set to the information processing device 10 based on a user operation on the information processing terminal 30, for example.
  • the functional configuration example of the information processing server 20 according to the present embodiment has been described.
  • the configuration described above with reference to FIG. 4 is merely an example, and the functional configuration of the information processing server 20 according to the present embodiment is not limited to this example.
  • the functional configuration of the information processing server 20 according to the present embodiment can be flexibly modified according to specifications and operation.
  • the utterance template according to this embodiment is a template used for determining the utterance content.
  • the utterance template according to the present embodiment is generated from, for example, a dialogue example corpus.
  • FIG. 5 is a diagram showing an example of generating an utterance template according to this embodiment.
  • a dialogue example corpus relating to favorite fruits is shown.
  • voice recognition and natural language processing are performed on each utterance included in the dialogue example corpus.
  • the topic related to the dialogue example corpus is related to “Like” of “Fruits”.
  • control unit 150 extracts nouns (fruits and apple), verbs (like), and adjectives (best) from the original utterance and converts them into variables, for example, "I X1, X2, X3" as shown in the figure. Generate an utterance template for "Impression” such as "of X4.".
  • control unit 150 can generate an utterance template in which the relationship of variable verbs is stored as a constraint from the dialogue example or dialogue history. With such a function, it is possible to efficiently increase the utterance templates and more naturally generate the utterance templates based on the utterances of the user.
  • FIG. 6 is a diagram showing an example of utterance content determination using the utterance template according to the present embodiment.
  • the user U is performing the utterance UO2 that "the boyfriend was the worst yesterday.”
  • the information processing server 20 receives the voice related to the utterance UO2 collected by the information processing device 10, and performs voice recognition and natural language processing.
  • the intention “report” is extracted.
  • the control unit 150 determines the type of the utterance template corresponding to the utterance intention of the user, using the voice recognition result and the natural language processing received from the information processing server 20, and the template type determination table T1.
  • control unit 150 selects the template type “sympathy” corresponding to the intention “report”.
  • the control unit 150 may determine the template type based on the analysis result of the emotion of the user in addition to the utterance intention.
  • the control unit 150 acquires the utterance template corresponding to the determined template type “sympathy” from the template DB 164 and the concept applied to the variable part X1 from the knowledge DB 162, and the utterance content “a man is troublesome”. ”Is determined, and the system output SO2 corresponding to the utterance content is output to the voice output unit 170. Note that, here, when the concept applied to the variable part cannot be acquired successfully, the control unit 150 may select a different utterance template and determine the utterance content.
  • control unit 150 uses a plurality of knowledge sets described for each knowledge domain to realize a dialogue according to various situations (recognition situation) recognized by the recognition unit 140. It is possible to
  • FIG. 7 is a flowchart showing the flow of speech control using the knowledge set according to this embodiment.
  • the recognition unit 140 performs situation recognition based on sound information, image information, sensing information, various processing results by the information processing server 20, and the like (S1101).
  • control unit 150 determines whether or not a knowledge element related to the recognition situation recognized in step S1101 in terms of knowledge exists in the knowledge set (S1102).
  • the control unit 150 also determines whether the number of utterances using the target knowledge element within the predetermined period is less than the threshold value (S1103).
  • control unit 150 causes the information processing apparatus 10 to perform other operations.
  • the autonomous operation operation other than utterance using the knowledge set is executed (S1106).
  • the control unit 150 causes the utterance within a predetermined period.
  • the utterance template whose number of times used for is less than the threshold value is selected.
  • the control unit 150 may acquire, for example, the utterance template that is least used within a predetermined period (S1104).
  • control unit 150 determines the utterance content based on the knowledge element and the utterance template, and causes the voice output unit 170 to output the system utterance corresponding to the utterance content (S1105).
  • control unit 150 According to the above-mentioned control by the control unit 150 according to the present embodiment, it is possible to prevent the same knowledge element or utterance template from being used frequently within a predetermined period, and to realize a dialogue composed of various utterances. ..
  • the recognition situation according to the present embodiment may include, for example, an object recognition result, an environment recognition result, position information, a voice recognition result, an intention analysis result, and the like.
  • FIG. 8 is a diagram showing an example of speech control based on the object recognition result according to the present embodiment.
  • the recognition unit 140 performs object recognition based on the image captured by the image capturing unit 120, and acquires related vocabulary (person, woman, meal, tea, etc.).
  • the object recognition may be executed by the information processing server 20.
  • control unit 150 acquires, from the knowledge DB 162, knowledge elements that are less than the threshold number of times used for utterance among knowledge elements related to the result of object recognition. Further, the control unit 150 acquires the utterance template from the template DB 164 and applies the knowledge element acquired as described above to the variable part of the utterance template to determine the utterance content.
  • the system utterance SO3 "I would like green tea for drinks" can be output, and the system response SO3 can be output depending on the recognized object. You can have a natural dialogue.
  • FIG. 9 is a diagram showing an example of speech control based on the environment recognition result according to the present embodiment.
  • the recognition unit 140 performs environment recognition (sound analysis) based on the environmental sound collected by the voice input unit 110 and acquires a related vocabulary (rain).
  • the environment recognition may be executed by the information processing server 20.
  • the control unit 150 acquires from the knowledge DB 162, among the knowledge elements related to the result of environment recognition, the knowledge element whose number of times used for utterance is less than the threshold value. Further, the control unit 150 acquires the utterance template from the template DB 164 and applies the knowledge element acquired as described above to the variable part of the utterance template to determine the utterance content.
  • the system utterance SO4 "Is it rainable and drinkable?" can be output. You can have a natural dialogue.
  • FIG. 10 is a diagram showing an example of speech control based on position information according to the present embodiment.
  • the recognition unit 140 acquires the related vocabulary (Tokyo, Asakusa) based on the position information.
  • the control unit 150 acquires from the knowledge DB 162, among the knowledge elements related to the result of environment recognition, the knowledge element whose number of times used for utterance is less than the threshold value. Further, the control unit 150 acquires the utterance template from the template DB 164 and applies the knowledge element acquired as described above to the variable part of the utterance template to determine the utterance content.
  • FIG. 11 is a diagram showing an example of speech control based on a dialogue history according to the present embodiment.
  • the speech recognition result of the dialogue history with the user (utterance UO2, system utterance SO6, and utterance UO3) and the result of semantic analysis are acquired.
  • the control unit 150 acquires, from the knowledge DB 162, a knowledge element whose number of times used for utterance is less than a threshold value among the knowledge elements related to the above recognition result. Further, the control unit 150 acquires the utterance template from the template DB 164 and applies the knowledge element acquired as described above to the variable part of the utterance template to determine the utterance content.
  • the recognition status according to the present embodiment is not limited to this example, and may be, for example, the user's status or time.
  • the control unit 150 can cause the voice output unit 170 to output a speech including knowledge about sleep and health.
  • the control unit 150 can also perform utterance according to the time zone, such as causing the voice output unit 170 to output an utterance including knowledge about a trendy dish or restaurant at dinner time.
  • FIG. 12 is a diagram for explaining the effect of adding a knowledge set according to this embodiment.
  • the user U is uttering UO4, “I want to eat beef stroganoff”.
  • the information processing device 10 does not have the knowledge set of cooking including beef stroganoff, the information processing device 10 has a system utterance SO8 of "what is it?", “I don't know", or "web information”. According to...”, it is not possible to do standard utterances such as.
  • the information processing device 10 determines By utilizing the knowledge elements included in the knowledge set K1, for example, as shown in the lower part of the figure, it is possible to output the system utterance SO9 that “beef is delicious with trotoro”.
  • the information processing apparatus 10 increases the variation of the system utterance by newly adding the knowledge set according to the needs and tastes of the user, and has a richer dialogue with the user. be able to.
  • FIG. 13 is a diagram for explaining generation of a knowledge set according to this embodiment.
  • the knowledge generation unit 240 of the information processing server 20 uses the knowledge prepared for manual input by a user or operator, automatic collection from the Web or documents, or extraction or extraction from an existing knowledge set. May be converted into a knowledge representation using an ontology structure such as RDF to generate a knowledge set.
  • the knowledge generation unit 240 stores the generated knowledge set in the storage unit 250 so that the knowledge set 240 can be downloaded to the information processing apparatus 10.
  • FIG. 14 is a diagram for explaining generation of a knowledge set based on manual input according to this embodiment.
  • the knowledge set according to the present embodiment may be writable by the user himself.
  • the user can intuitively connect the plurality of input knowledge elements and select the relationship on the user interface (GUI) displayed on the information processing terminal 30. It may be possible to easily generate a new knowledge set.
  • GUI user interface
  • the user or the operator may efficiently generate a large amount of knowledge set by describing knowledge elements and relationships in a CSV file or the like with a predetermined grammar, as shown in the lower part of the figure. ..
  • the description example of the knowledge set regarding the basics of mathematics is described in item ⁇ 2.
  • the knowledge generation unit 240 can also automatically generate a knowledge set by a method such as scraping resources on the Web or performing text mining from an existing document.
  • the knowledge to be collected can be limited to cooking methods, ingredients, cooking categories, etc.
  • the information source it is possible to apply it to the simple problem of constructing an acquisition rule from a format in which descriptions of recipes, ingredients, and cooking categories are unified.
  • the user can add the knowledge set to the information processing apparatus 10 by downloading the knowledge set generated as described above from the user interface.
  • the user may be able to visually confirm the contents of the knowledge set by pressing the detail button or the like in the display format as shown in the upper part of FIG.
  • FIG. 15 is a diagram for explaining sharing of a knowledge set according to this embodiment.
  • FIG. 15 shows an example in which the cartoon knowledge set generated by the user DEF and the wine knowledge set generated by the user GHI are open to the public on the user interface.
  • the knowledge set generated by itself can be shared for a fee or without charge, and the knowledge set generated by another user can be owned by the information processing apparatus 10 owned by the user. It can be downloaded to.
  • the control unit 150 may have a function of recommending to the user to add knowledge that is predicted to be insufficient in the interaction with the user.
  • FIG. 16 is a diagram for explaining the recommendation function for adding a knowledge set according to this embodiment.
  • the control unit 150 outputs the system utterance SO10 recommending the purchase of the knowledge set of the knowledge domain “musical instrument” by voice output. It can be output to the section 170.
  • control unit 150 determines, based on the vocabulary included in the utterance of the user, the utterance content that recommends the addition of the knowledge set related to the vocabulary, and the voice corresponding to the utterance content is determined. May be output to the audio output unit 170.
  • the user can grasp the knowledge set for realizing a richer dialogue and guide the user to purchase the knowledge set.
  • the knowledge set for realizing a richer dialogue
  • it is possible to increase profits.
  • FIG. 17 is a diagram for explaining the setting of the usage priority order of the knowledge set according to the present embodiment.
  • the user may easily set the usage priority order by operating the knowledge set by dragging and dropping on the user interface displayed on the information processing terminal 30, for example.
  • control unit 150 determines a knowledge set for acquiring a knowledge element based on the set use priority order, and determines utterance content based on the acquired knowledge element and the utterance template.
  • the control unit 150 sets the utterance UO7 of the user U to the utterance UO7.
  • the system utterance SO11a "I'm scared of poison” can be output to the voice output unit 170.
  • the control unit 150 sets the utterance UO7 of the user U to the utterance UO7.
  • the system utterance SO11b “Orion's natural enemy” can be output to the voice output unit 170.
  • the information processing apparatus 10 can realize a dialogue that matches the taste of the user by generating the utterance content based on the use priority order of the plurality of knowledge sets.
  • the utterance control using the knowledge set and utterance template by the control unit 150 according to the present embodiment has been described above. According to such control, it becomes possible to realize a more flexible and natural dialogue according to the situation and the taste and needs of the user.
  • the technical idea according to the present embodiment can be applied to various fields as well as the free dialogue with the user.
  • the technical idea according to the present embodiment may be applied to, for example, a public announcement by a company or the like.
  • FIG. 18 is a diagram for explaining application of the technical idea according to the present embodiment to advertisement.
  • the user U and the information processing device 10 have a dialogue regarding beer.
  • the information processing apparatus 10 performs a system utterance SO12 “I'm beer” to the utterance UO8 that says “I'm thirsty” of the user U, and a utterance UO9 that says “Like, let's drink!”.
  • Is performing system utterance SO13 that recommends "ABC beer” that is the target of advertisement.
  • the knowledge set according to the present embodiment may include a knowledge set regarding an advertisement provided by a company or the like.
  • the control unit 150 acquires a vocabulary related to the advertisement (for example, throat dry, beer, etc.) and a knowledge element from the knowledge set related to the advertisement in the dialogue history with the user and speaks. By determining the content, it is possible to recommend the target product or service to the user.
  • the knowledge set related to advertising may include knowledge elements related to products of other companies, for example.
  • the user U performs the utterance UO10 including the “polar bear”, which is the name of a product of another company (or another beer manufacturing company), with respect to the system utterance SO13.
  • the control unit 150 based on the knowledge element acquired from the knowledge domain “animal” and general common sense, “the zoo goes to the zoo”.
  • the system utterance SO14a such as "?” may be output to the voice output unit 170, and the dialogue becomes unnatural.
  • the control unit 150 can determine that the user U is trying to purchase another company's product, and recommends a new product manufactured in-house. It is possible to output the utterance SO14b to the audio output unit 170.
  • control unit 150 determines whether the user is speaking about his or her intention (S1201).
  • control unit 150 sets the utterance content other than the advertisement, and outputs the system utterance corresponding to the utterance content to the voice output unit 170. Output (S1206).
  • control unit 150 has a topic related to advertising knowledge (a knowledge element included in the knowledge set related to the advertisement) in the dialogue history. It is determined whether or not to do (S1202).
  • control unit 150 sets the utterance content other than the advertisement and outputs the system utterance corresponding to the utterance content to the voice output unit 170. It is output (S1206).
  • control unit 150 subsequently determines whether or not the number of utterances using the target advertising knowledge is less than a threshold value. (S1203).
  • control unit 150 sets utterance content other than advertisement and outputs system utterance corresponding to the utterance content by voice. It is output to the section 170 (S1206).
  • the control unit 150 acquires the utterance template that is least used within a predetermined period (S1204).
  • the utterance template may include product characteristics, a catch phrase, and the like.
  • control unit 150 determines the utterance content based on the advertising knowledge and the utterance template, and causes the voice output unit 170 to output the system utterance corresponding to the utterance content (S1205).
  • control unit 150 uses the advertising knowledge only when the user utters a request for a suggestion such as "Which is better?" or "What should I do?".
  • the utterance can be output to the voice output unit 170.
  • a third-party feeling can be produced (for example, ABC's TV is high, but the image quality is good, etc.) to make the dialogue more natural. it can.
  • the technical idea according to the present embodiment can be widely applied in addition to advertisement.
  • the technical idea according to the present embodiment may be applied to education.
  • an education system via the information processing device 10 can be realized by installing a knowledge set corresponding to educational subjects such as arithmetic, national language, science, and society.
  • the technical idea according to the present embodiment may be applied to sales promotion/advertisement.
  • a 3rd party or the like creates and distributes a free knowledge set in order to publicize the product of the company.
  • the technical idea according to the present embodiment may be applied to rehabilitation or the like.
  • the technical idea according to the present embodiment may be applied to rehabilitation or the like.
  • the technical idea according to the present embodiment may be applied to a talk partner such as a hobby.
  • the user can enjoy a deeper dialogue by installing the maniac specialized knowledge necessary for the dialogue with himself/herself or the knowledge set regarding the personal information such as the human relationship in the information processing apparatus 10. ..
  • FIG. 20 is a block diagram showing a hardware configuration example of the information processing device 10 according to an embodiment of the present disclosure.
  • the information processing device 10 includes, for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, an input device 878, and an output device. It has an 879, a storage 880, a drive 881, a connection port 882, and a communication device 883.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Moreover, you may further include components other than the components shown here.
  • the processor 871 functions as, for example, an arithmetic processing unit or a control unit, and controls the overall operation of each component or a part thereof based on various programs recorded in the ROM 872, the RAM 873, the storage 880, or the removable recording medium 901. ..
  • the ROM 872 is means for storing programs read by the processor 871 and data used for calculation.
  • the RAM 873 temporarily or permanently stores, for example, a program read by the processor 871 and various parameters that appropriately change when the program is executed.
  • the processor 871, the ROM 872, and the RAM 873 are mutually connected, for example, via a host bus 874 capable of high-speed data transmission.
  • the host bus 874 is connected to the external bus 876, which has a relatively low data transmission rate, via the bridge 875, for example.
  • the external bus 876 is connected to various components via the interface 877.
  • Input device 8708 As the input device 878, for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, or the like is used. Further, as the input device 878, a remote controller (hereinafter, remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used. Further, the input device 878 includes a voice input device such as a microphone.
  • the output device 879 is, for example, a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL, an audio output device such as a speaker or a headphone, a printer, a mobile phone, or a facsimile, and the acquired information is provided to the user. It is a device capable of visually or audibly notifying. Further, the output device 879 according to the present disclosure includes various vibrating devices capable of outputting tactile stimuli.
  • the storage 880 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, or a magneto-optical storage device is used.
  • the drive 881 is a device for reading information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writing information on the removable recording medium 901.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, a DVD medium, a Blu-ray (registered trademark) medium, an HD DVD medium, various semiconductor storage media, or the like.
  • the removable recording medium 901 may be, for example, an IC card equipped with a non-contact type IC chip, an electronic device, or the like.
  • connection port 882 is, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or a port for connecting an external connection device 902 such as an optical audio terminal. is there.
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the communication device 883 is a communication device for connecting to a network, and includes, for example, a wired or wireless LAN, a Bluetooth (registered trademark), or a communication card for WUSB (Wireless USB), a router for optical communication, and an ADSL (Asymmetrical Digital). It is a router for Subscriber Line) or a modem for various communications.
  • the information processing apparatus 10 that realizes the information processing method according to the embodiment of the present disclosure includes the control unit 150 that controls the dialogue with the user based on the recognition situation. Further, the control unit 150 according to an embodiment of the present disclosure may acquire a knowledge element that is related to the recognition situation in terms of knowledge from a knowledge set, and determine the utterance content based on the knowledge element and the utterance template. , Is one of the features. With such a configuration, it is possible to realize a more natural dialogue with the user based on various knowledge.
  • the effects described in the present specification are merely explanatory or exemplifying ones, and are not limiting. That is, the technique according to the present disclosure may have other effects that are apparent to those skilled in the art from the description of the present specification, in addition to or instead of the above effects.
  • each step related to the processing of the information processing device 10 in the present specification does not necessarily have to be processed in time series in the order described in the flowchart.
  • the steps related to the processing of the information processing device 10 may be processed in an order different from the order described in the flowchart, or may be processed in parallel.
  • a control unit that controls the interaction with the user based on the recognition situation Equipped with The control unit acquires a knowledge element related to the recognition situation in terms of knowledge from a knowledge set, and determines utterance content based on the knowledge element and an utterance template.
  • Information processing device (2)
  • the knowledge element includes at least a vocabulary, The information processing device according to (1) above.
  • the information processing apparatus according to (2) wherein a plurality of the knowledge elements and a relationship between the knowledge elements are described in the knowledge set.
  • a storage unit for storing the knowledge set Further comprising, The information processing device according to (3).
  • the knowledge set is described for each knowledge domain, The information processing device according to (4).
  • the knowledge set can be added based on a user operation, The information processing device according to (5) above.
  • the knowledge set can be downloaded from an external device, The information processing device according to (6).
  • the knowledge set is user definable, The information processing apparatus according to any one of (5) to (7) above.
  • the use priority of the knowledge set can be set by the user, The control unit determines the knowledge set to acquire the knowledge element based on the usage priority order, and determines utterance content based on the acquired knowledge element and the utterance template.
  • the information processing apparatus according to any one of (5) to (8) above.
  • the recognition status includes at least a history of interaction with the user,
  • the control unit obtains the knowledge element associated with a vocabulary included in the dialogue history from the knowledge set,
  • the information processing apparatus according to any one of (1) to (9) above.
  • the control unit determines the corresponding utterance template based on the utterance intention of the user, and applies the acquired knowledge element to the utterance template.
  • the information processing device according to (10).
  • the recognition situation includes at least one of an object recognition result, an environment recognition result, and position information, The information processing apparatus according to any one of (1) to (11) above.
  • the control unit acquires, from the knowledge set, the knowledge element whose number of times used for utterance within a predetermined period is less than a threshold value.
  • the information processing apparatus according to any one of (1) to (12) above.
  • the control unit selects the utterance template whose number of times used for utterance within a predetermined period is less than a threshold value, The information processing apparatus according to any one of (1) to (13) above.
  • the knowledge set includes at least a knowledge set related to advertisement, The control unit obtains the knowledge element from a knowledge set related to the advertisement when a vocabulary related to the advertisement is included in a history of interaction with the user, The information processing apparatus according to any one of (1) to (14) above.
  • the control unit determines utterance content that recommends addition of the knowledge set related to the vocabulary, based on the vocabulary included in the user's utterance, The information processing apparatus according to any one of (1) to (15) above.
  • a voice output unit that outputs a voice corresponding to the utterance content determined by the control unit, Further comprising, The information processing apparatus according to any one of (1) to (16) above.
  • the processor controls the interaction with the user based on the recognition situation, Including The controlling includes acquiring a knowledge element related to the recognition situation in terms of knowledge from a knowledge set, and determining utterance content based on the knowledge element and the utterance template. Further including, Information processing method.
  • Computer A control unit that controls the interaction with the user based on the recognition situation, Equipped with The control unit acquires a knowledge element related to the recognition situation in terms of knowledge from a knowledge set, and determines the utterance content based on the knowledge element and the utterance template.
  • Information processing equipment Program to function as.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

認識状況に基づいてユーザとの対話を制御する制御部、を備え、前記制御部は、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定する、情報処理装置が提供される。また、プロセッサが、認識状況に基づいてユーザとの対話を制御すること、を含み、前記制御することは、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定すること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、音声認識技術等を用いてユーザとの対話を行う装置が普及している。また、上記のような装置による対話の性能をより向上させるための技術が提案されている。例えば、特許文献1には、分野別の辞書を用いることにより、専門分野に応じた音声認識を実現する技術が記載されている。
特開2003-280683号公報
 特許文献1に記載の技術によれば、専門分野における語彙等を精度高く認識することが可能となる。一方、特許文献1に記載の技術では、専門知識等を対話に活用することが困難である。
 本開示によれば、認識状況に基づいてユーザとの対話を制御する制御部、を備え、前記制御部は、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定する、情報処理装置が提供される。
 また、本開示によれば、プロセッサが、認識状況に基づいてユーザとの対話を制御すること、を含み、前記制御することは、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定すること、をさらに含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータを、認識状況に基づいてユーザとの対話を制御する制御部、を備え、前記制御部は、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定する、情報処理装置、として機能させるためのプログラムが提供される。
本開示の一実施形態の概要について説明するための図である。 同実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係る情報処理装置の機能構成例を示すブロック図である。 同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。 同実施形態に係る発話テンプレートの生成例を示す図である。 同実施形態に係る発話テンプレートを用いた発話内容の決定例を示す図である。 同実施形態に係る知識セットを用いた発話制御の流れを示すフローチャートである。 同実施形態に係る物体認識結果に基づく発話制御の一例を示す図である。 同実施形態に係る環境認識結果に基づく発話制御の一例を示す図である。 同実施形態に係る位置情報に基づく発話制御の一例を示す図である。 同実施形態に係る対話履歴に基づく発話制御の一例を示す図である。 同実施形態に係る知識セット追加の効果について説明するための図である。 同実施形態に係る知識セットの生成について説明するための図である。 同実施形態に係る手動入力に基づく知識セットの生成について説明するための図である。 同実施形態に係る知識セットのシェアについて説明するための図である。 同実施形態に係る知識セット追加の推薦機能について説明するための図である。 同実施形態に係る知識セットの利用優先順位の設定について説明するための図である。 同実施形態に係る技術思想の広告への応用について説明するための図である。 同実施形態に係る技術思想を広告に応用した場合の制御の流れを示すフローチャートである。 本開示の一実施形態に係るハードウェア構成例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.概要
  1.2.システム構成例
  1.3.情報処理装置10の機能構成例
  1.4.情報処理サーバ20の機能構成例
  1.5.機能の詳細
 2.知識セットの記載例
 3.ハードウェア構成例
 4.まとめ
 <1.実施形態>
 <<1.1.概要>>
 まず、本開示の一実施形態の概要について説明する。上述したように、近年、ユーザとの対話を行う装置が普及している。上記のような装置は、例えば、ユーザの発話に係る音声認識結果や意図解析結果等に基づいて、当該ユーザとの対話を実現する。
 しかし、ここで、ユーザの発話の専門性が高い場合等においては、ユーザの発話を正確に認識できない状況や、ユーザの発話意図を正確に抽出できない状況が生じうる。例えば、ユーザが、「特許協力条約」と発話した場合において、当該語彙が音声認識辞書に存在しない場合、正確な音声認識結果が得ることが困難な場合がある。
 上記のような状況に対応するために、例えば、特許文献1では、分野別の辞書を用いることにより、特定の専門分野における語彙に対する音声認識精度を高めている。一方、特許文献1の技術では、認識した語彙を対話に活用する機構が考慮されていない。このため、特許文献1に記載の技術では、「特許協力条約」を高精度に認識できた場合であっても、当該語彙を用いた対話に活用することができず、例えば、「Webで検索します」などの定型的な応答を行うこととなる。
 本開示に係る技術思想は上記の点に着目して発想されたものであり、多様な知識に基づいてユーザとのより自然な対話を実現することを可能とする。このために、本開示の一実施形態に係る情報処理方法を実現する情報処理装置10は、認識状況に基づいてユーザとの対話を制御する制御部150を備える。また、本開示の一実施形態に係る制御部150は、上記認識状況と知識上で関連する知識要素を知識セットから取得し、当該知識要素を発話テンプレートとに基づいて、発話内容を決定すること、を特徴の一つとする。
 図1は、本開示の一実施形態の概要について説明するための図である。図1には、ユーザUと音声対話を行う情報処理装置10が示されている。なお、図1では、本実施形態に係る情報処理装置10が認識状況に基づいてユーザとの対話やその他の自律動作を行うロボット装置である場合の一例が示されている。
 例えば、図1に示すように、ユーザUが、「おいしいラーメンを食べたいな」という発話UO1を行った場合、情報処理装置10が収集したユーザの発話UO1に基づいて音声認識や意図解析が行われ、ユーザUが「ラーメン」を「食べたい」と発話したことが認識状況として得られる。このように、本実施形態に係る認識状況には、例えば、ユーザの発話に係る音声認識結果や意図解析結果、すなわち対話履歴が含まれる。
 この際、本実施形態に係る情報処理装置10は、発話UO1の音声認識結果に含まれる語彙「ラーメン」と関連する知識要素を自身が備える知識DB162から取得する。ここで、本実施形態に係る知識DB162には、知識ドメインごとに記載される複数の知識セットが保管される。なお、図1では、知識DB162に保管される知識ドメイン「中華料理」に関する知識セットの一例が例示されている。なお、本実施形態に係る知識ドメインは、階層構造であってもよく、例えば、知識ドメイン「料理」の下に「中華料理」、「中華料理」の後に「北京料理」と続いてもよい。
 また、本実施形態に係る知識セットには、複数の知識要素と、当該知識要素間の関係とが記載される。例えば、図1に示す中華料理に係る知識セットの場合、知識要素「ラーメン」と「中華料理」とが関係「is‐a(上位語)」により示されている。同様に、知識要素「餃子」と「中華料理」とが関係「is‐a(上位語)」により示されている。図中の記載は、知識要素「中華料理」が「ラーメン」および「餃子」の上位語であることを示している。
 この際、本実施形態に係る情報処理装置10の制御部150は、ユーザUの発話UO1に含まれる「ラーメン」と同様の上位語「中華料理」を有する知識要素「餃子」を知識DB162が保管する中華料理に関する知識セットから取得することが可能である。このように、本実施形態に係る知識要素は、例えば、語彙を含む。
 また、制御部150は、ユーザUの発話意図に基づいて、情報処理装置10が備えるテンプレートDB164から、ユーザUの発話意図に対応する発話テンプレートを選択し、当該発話テンプレートに取得した知識要素「餃子」を当てはめることで、発話内容を決定する。図1に示す一例の場合、制御部150は、推薦を意図する発話テンプレート「XXXも一緒にどう?」に知識セット「餃子」を当てはめ、「餃子も一緒にどう?」というシステム発話SO1を情報処理装置10に出力させている。
 このように、本実施形態に係る情報処理装置10によれば、知識セットと発話テンプレートとを用いて発話内容を決定することで、認識状況に応じた柔軟かつ自然な対話を実現することが可能である。
 さらには、本実施形態に係る知識セットは、追加や利用優先順位の設定が可能であってよい。これによれば、知識セットの追加や、利用優先順位の設定により、ユーザの嗜好やニーズに応じて、情報処理装置10が発する発話を柔軟に変更(カスタマイズ)することが可能となる。
 このため、本実施形態に係る情報処理装置10によれば、知識セットを用いることで多様な状況に対応することができ、また知識セットを追加することにより対話の種類やバリエーションを充実化させることが可能となる。さらには、本実施形態に係る情報処理装置10によれば、知識セットを基に発話内容を動的に生成することができ、従来のルールベースやシナリオベース方式の対話よりも豊かなバリエーションを実現し、単なる機能の呼び出しとは異なる、柔軟かつ自然な対話を実現することが可能となる。
 <<1.2.システム構成例>>
 次に、本実施形態に係る情報処理システムの構成例について述べる。図2は、本実施形態に係る情報処理システムの構成例を示す図である。図2を参照すると、本実施形態に係る情報処理システムは、情報処理装置10、情報処理サーバ20、情報処理端末30を備える。また、上記の各構成は、ネットワーク40を介して通信が可能なように接続される。
 (情報処理装置10)
 本実施形態に係る情報処理装置10は、知識セットと発話テンプレートとを用いてユーザとの発話を行う各種の装置である。本実施形態に係る情報処理装置10は、例えば、認識状況に基づいてユーザとの対話やその他の自律動作を行うロボット装置であってもよい。一方、本実施形態に係る情報処理装置10は、上記の例に限定されず、対話機能を有するスマートフォン、タブレット、PC(Personal Computer)、専用装置などであってもよい。
 (情報処理サーバ20)
 本実施形態に係る情報処理サーバ20は、情報処理装置10にダウンロードされる知識セットを蓄積する装置である。また、本実施形態に係る情報処理サーバ20は、ユーザが情報処理装置10に知識セットを追加するためのユーザインタフェースを制御する。
 (情報処理端末30)
 本実施形態に係る情報処理端末30は、情報処理装置10に対する知識セットの追加等の操作を行うための装置である。本実施形態に係る情報処理端末30は、情報処理サーバ20による制御に基づいて、上記の操作を行うためのユーザインタフェースを表示する。本実施形態に係る情報処理端末30は、例えば、スマートフォン、タブレット、PCなどであってもよい。
 (ネットワーク40)
 ネットワーク40は、情報処理システムが備える各構成を接続する機能を有する。ネットワーク40は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク40は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク40は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 以上、本実施形態に係る情報処理システムの構成例について述べた。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.3.情報処理装置10の機能構成例>>
 次に、本実施形態に係る情報処理装置10の機能構成例について述べる。図3は、本実施形態に係る情報処理装置10の機能構成例を示すブロック図である。図3を参照すると、本実施形態に係る情報処理装置10は、音声入力部110、撮影部120、センサ部130、認識部140、制御部150、記憶部160、音声出力部170、およびサーバ通信部180を備える。
 (音声入力部110)
 本実施形態に係る音声入力部110は、ユーザの発話音声や周囲の環境音などを収集する。このために、本実施形態に係る音声入力部110は、マイクロフォンを備える。
 (撮影部120)
 本実施形態に係る撮影部120は、ユーザや周囲の画像を撮影する。このために、本実施形態に係る撮影部120は、カメラ装置などを備える。
 (センサ部130)
 本実施形態に係るセンサ部130は、ユーザや情報処理装置10、周囲環境などに係る各種のセンシング情報を収集する。このために、本実施形態に係るセンサ部130は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、温度センサ、圧力センサ、GNSS(Global Navigation Satellite System)信号受信機などを備える。
 (認識部140)
 本実施形態に係る認識部140は、音声入力部110が収集した音情報、撮影部120が取得した画像情報、センサ部130が収集したセンシング情報、また情報処理サーバ20による音声認識や意図解析の結果等に基づいて、総合的に状況を認識する。
 (制御部150)
 本実施形態に係る制御部150は、情報処理装置10が備える各構成を制御する。また、本実施形態に係る制御部150は、認識部140が認識した認識状況と知識上で関連する知識要素を知識セットから取得し、当該知識要素と発話テンプレートとに基づいて、発話内容を決定すること、を特徴の一つとする。本実施形態に係る制御部150が有する機能の詳細については別途後述する。
 (記憶部160)
 本実施形態に係る記憶部160は、知識セットを保管する知識DB162と発話テンプレートを保管するテンプレートDB164とを備える。
 本実施形態に係る知識セットには、複数の知識要素と当該知識要素間の関係とが記載される。本実施形態に係る知識要素は、例えば、語彙や動作、画像、音などを含んでよい。
 本実施形態に係る知識セットは、例えば、知識要素や概念を含む3つ組から成るトリプル構造の集合であってもよい。上記の構造には、例えば、知識要素3つから成るRDF(Resource Description Framework)トリプル構造と、述語(Predicate)が「is-a(上位語)」などの関係を表す二項関係の構造とを含む。下記の表1に、本実施形態に係る二項関係の一例を示す。
Figure JPOXMLDOC01-appb-T000001
 なお、上記の表1に示す二項関係はあくまで一例であり、本実施形態に係る二項関係は係る例に限定されない。本実施形態に係る二項関係には、例えば、食べる、満たす、好き、嫌い、来る、行く、などの各種の動詞を含んでもよい。また、本実施形態に係る知識セットは、意味ネットワークやオントロジー構造により記載されてもよい。
 (音声出力部170)
 本実施形態に係る音声出力部170は、制御部150による制御に基づいて、制御部150が決定した発話内容に対応する音声を出力する。このために、本実施形態に係る音声出力部170は、スピーカやアンプなどを備える。
 (サーバ通信部180)
 本実施形態に係るサーバ通信部180は、ネットワーク40を介して、情報処理サーバ20との情報通信を行う。本実施形態に係るサーバ通信部180は、例えば、情報処理サーバ20から知識セットに係る情報を受信する。
 以上、本実施形態に係る情報処理装置10の機能構成例について述べた。なお、図3を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理装置10の機能構成例は係る例に限定されない。本実施形態に係る情報処理装置10は、例えば、制御部150が決定した発話内容に対応するテキストなどを表示する表示部や、各種の動作を実現するための駆動部などを備え得る。本実施形態に係る情報処理装置10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.4.情報処理サーバ20の機能構成例>>
 次に、本実施形態に係る情報処理サーバ20の機能構成例について述べる。図4は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図4を参照すると、本実施形態に係る情報処理サーバ20は、音声認識部210、自然言語処理部220、インタフェース制御部230、知識生成部240、蓄積部250、および通信部260を備える。
 (音声認識部210)
 本実施形態に係る音声認識部210は、情報処理装置10から受信したユーザの発話音声に基づく自動音声認識(ASR:Automatic Speech Recognition)処理を行い、当該発話音声を文字列に変換する。
 (自然言語処理部220)
 本実施形態に係る自然言語処理部220は、音声認識部210が生成した文字列に基づく自然言語理解(NLU:Natural Language Understanding)処理を行い、ユーザの発話の意図を抽出する。
 (インタフェース制御部230)
 本実施形態に係るインタフェース制御部230は、情報処理装置10に知識セットの追加などを行うためのユーザインタフェースを制御する。ユーザは、所有する情報処理端末30を用いて上記のユーザインタフェースにアクセスし、情報処理装置10に対する知識セットの追加などを行うことができる。
 (知識生成部240)
 本実施形態に係る知識生成部240は、知識セットの生成を行う。本実施形態に係る知識生成部240が有する機能の詳細については別途後述する。
 (蓄積部250)
 本実施形態に係る蓄積部250は、知識生成部240が生成した知識セットを蓄積する。
 (通信部260)
 本実施形態に係る通信部260は、ネットワーク40を介して情報処理装置10や情報処理端末30との情報通信を行う。本実施形態に係る通信部260は、例えば、情報処理端末30におけるユーザ操作に基づいて、情報処理装置10に知識セットに係る情報を送信する。
 以上、本実施形態に係る情報処理サーバ20の機能構成例について述べた。なお、図4を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.5.機能の詳細>>
 次に、本実施形態に係る情報処理装置10が有する機能について詳細に説明する。まず、本実施形態に係る発話テンプレートについて述べる。上述したように、本実施形態に係る発話テンプレートは、発話内容の決定に用いられるテンプレートである。本実施形態に係る発話テンプレートは、例えば、対話例コーパスなどから生成される。
 図5は、本実施形態に係る発話テンプレートの生成例を示す図である。図5に示す一例では、好きな果物に係る対話例コーパスが示されている。この際、まず、対話例コーパスに含まれる発話のそれぞれに関し、音声認識および自然言語処理が行われる。また、知識DB162に保管される知識セットから、対話例コーパスに係るトピックが、“Fruits”の“Like”に関するものであることが特定される。
 この際、制御部150は、元となる発話から名詞(fruitsおよびapple)、動詞(like)、形容詞(best)を抽出した上で変数化し、例えば、図中に示すような“I X1 X2 X3 of X4.”のような“Impression”に関する発話テンプレートを生成する。
 このように、本実施形態に係る制御部150は、対話例や対話履歴などから変数動詞の関係を制約として保存した発話テンプレートを生成することができる。係る機能によれば、発話テンプレートを効率的に増加させる共に、ユーザの発話等に基づいたより自然は発話テンプレートを生成することが可能となる。
 続いて、本実施形態に係る発話テンプレートを用いた発話内容の決定例について述べる。図6は、本実施形態に係る発話テンプレートを用いた発話内容の決定例を示す図である。図6に示す一例の場合、ユーザUは、「昨日、彼氏が最悪だったんだ」という発話UO2を行っている。
 この際、情報処理サーバ20は、情報処理装置10が収集した発話UO2に係る音声を受信し、音声認識および自然言語処理を行う。図6に示す一例では、意図「報告」が抽出されている。続いて、制御部150は、情報処理サーバ20から受信した音声認識結果および自然言語処理、およびテンプレートタイプ決定テーブルT1を用いて、ユーザの発話意図に対応する発話テンプレートのタイプを決定する。
 図6に示す一例の場合、制御部150は、意図「報告」に対応するテンプレートタイプ「同情」を選択している。制御部150は、発話の意図に加え、ユーザの感情の分析結果などに基づいて、テンプレートタイプを決定してもよい。
 続いて、制御部150は、決定したテンプレートタイプ「同情」に対応する発話テンプレートをテンプレートDB164から取得するとともに、変数部X1に当てはめる概念を知識DB162から取得し、発話内容「男って面倒だよねー」を決定し、当該発話内容に対応するシステム発話SO2を音声出力部170に出力させる。なお、ここで、変数部に当てはめる概念がうまく取得できない場合、制御部150は、異なる発話テンプレートを選択し発話内容の決定を行ってもよい。
 以上、本実施形態に係る発話テンプレートを用いた発話内容の決定例について説明した。本実施形態に係る制御部150が有する上記の機能によれば、ユーザの発話意図に対応する発話テンプレートを選択し、当該発話テンプレートが有する変数部に状況に応じた概念を当てはめることで、柔軟かつ自然な対話を実現することが可能となる。
 次に、本実施形態に係る知識セットを用いた応答内容の生成についてより詳細に説明する。上述したように、本実施形態に係る制御部150は、知識ドメインごとに記載される複数の知識セットを用いることで、認識部140が認識した各種の状況(認識状況)に応じた対話を実現することが可能である。
 図7は、本実施形態に係る知識セットを用いた発話制御の流れを示すフローチャートである。図7を参照すると、まず、認識部140が、音情報、画像情報、センシング情報、および情報処理サーバ20による各種の処理結果などに基づいて、状況認識を行う(S1101)。
 次に、制御部150は、ステップS1101において認識された認識状況と知識上で関連する知識要素が知識セット上に存在するか否かを判定する(S1102)。
 また、制御部150は、所定期間内において対象となる知識要素を用いた発話回数が閾値未満であるか否かを判定する(S1103)。
 認識状況と関連する知識要素が存在しない場合(S1102:NO)、または対象となる知識要素を用いた発話回数が閾値以上である(S1103:NO)、制御部150は、情報処理装置10に他の自律動作(知識セットを用いた発話以外の動作)を実行させる(S1106)。
 一方、認識状況と関連する知識要素が存在し(S1102:YES)、かつ対象となる知識要素を用いた発話回数が閾値未満である(S1103:YES)、制御部150は、所定期間内において発話に用いた回数が閾値未満である発話テンプレートを選択する。この際、制御部150は、例えば、所定期間内に最も使用していない発話テンプレートを取得してもよい(S1104)。
 続いて、制御部150は、知識要素と発話テンプレートとに基づいて発話内容を決定し、当該発話内容に対応するシステム発話を音声出力部170に出力させる(S1105)。
 以上、本実施形態に係る知識セットを用いた発話制御の流れについて説明した。本実施形態に係る制御部150による上記の制御によれば、所定期間内に同一の知識要素や発話テンプレートが多用されることを防止し、多様な発話から成る対話を実現することが可能である。
 次に、本実施形態に係る発話制御の具体例について述べる。本実施形態に係る認識状況は、例えば、物体認識結果、環境認識結果、位置情報、音声認識結果、意図解析結果などを含んでよい。
 図8は、本実施形態に係る物体認識結果に基づく発話制御の一例を示す図である。図8に示す一例では、認識部140が、撮影部120が撮影した画像に基づく物体認識を行い、関連する語彙(人、女性、食事、紅茶など)を取得している。なお、物体認識は、情報処理サーバ20により実行されてもよい。
 この際、本実施形態に係る制御部150は、物体認識の結果に関連する知識要素のうち発話に用いた回数が閾値未満である知識要素を知識DB162から取得する。また、制御部150は、テンプレートDB164から発話テンプレートを取得し、当該発話テンプレートの変数部に上記のように取得した知識要素を当てはめることで発話内容を決定する。
 上記の制御によれば、図示するように、ユーザUが紅茶を飲んでいる状況において、例えば、「飲み物なら緑茶がいいぞ」というシステム発話SO3を出力することができ、認識した物体に応じたより自然な対話を行うことができる。
 また、図9は、本実施形態に係る環境認識結果に基づく発話制御の一例を示す図である。図9に示す一例では、認識部140が、音声入力部110が収集した環境音に基づく環境認識(音解析)を行い、関連する語彙(雨)を取得している。なお、環境認識は、情報処理サーバ20により実行されてもよい。
 この際、本実施形態に係る制御部150は、環境認識の結果に関連する知識要素のうち発話に用いた回数が閾値未満である知識要素を知識DB162から取得する。また、制御部150は、テンプレートDB164から発話テンプレートを取得し、当該発話テンプレートの変数部に上記のように取得した知識要素を当てはめることで発話内容を決定する。
 上記の制御によれば、図示するように、雨が降っている状況において、例えば、「雨って飲めるのかな」というシステム発話SO4を出力することができ、天候などの各種の状況に応じたより自然な対話を行うことができる。
 また、図10は、本実施形態に係る位置情報に基づく発話制御の一例を示す図である。図10に示す一例では、認識部140が、位置情報に基づいて、関連する語彙(東京、浅草)を取得している。
 この際、本実施形態に係る制御部150は、環境認識の結果に関連する知識要素のうち発話に用いた回数が閾値未満である知識要素を知識DB162から取得する。また、制御部150は、テンプレートDB164から発話テンプレートを取得し、当該発話テンプレートの変数部に上記のように取得した知識要素を当てはめることで発話内容を決定する。
 上記の制御によれば、図示するように、ユーザと情報処理装置10が東京の浅草にいる状況において、例えば、「浅草寺寄って行こうよ」というシステム発話SO5を出力することができ、周辺位置に応じたより自然な対話を行うことができる。
 また、図11は、本実施形態に係る対話履歴に基づく発話制御の一例を示す図である。図11に示す一例では、ユーザとの対話履歴(発話UO2、システム発話SO6、および発話UO3)の音声認識結果、および意味解析の結果が取得されている。
 この際、本実施形態に係る制御部150は、上記の認識結果に関連する知識要素のうち発話に用いた回数が閾値未満である知識要素を知識DB162から取得する。また、制御部150は、テンプレートDB164から発話テンプレートを取得し、当該発話テンプレートの変数部に上記のように取得した知識要素を当てはめることで発話内容を決定する。
 上記の制御によれば、図示するように、ラーメンを食べたいと発話したユーザとの対話履歴に基づいて、例えば、「中華料理ならチャーハンがいいぞ」というシステム発話SO7を出力することができ、文脈に応じたより自然な対話を行うことができる。
 以上、本実施形態に係る認識状況に基づく発話制御の具体例について述べた。なお、本実施形態に係る認識状況は、係る例に限定されず、例えば、ユーザの状態や時刻などであってもよい。例えば、ユーザが眠そうな表情をしていることが認識された状況では、制御部150は、睡眠や健康に関する知識を含む発話を音声出力部170に出力させることができる。また、例えば、制御部150は、夕飯時などには、流行の料理やレストランなどに関する知識を含む発話を音声出力部170に出力させるなど、時間帯に応じた発話を行うことも可能である。
 続いて、本実施形態に係る知識セットの追加について詳細に説明する。上述したように、本実施形態に係る情報処理装置10には、ユーザ操作に基づき新たに知識セットを追加することが可能である。図12は、本実施形態に係る知識セット追加の効果について説明するための図である。
 例えば、図12の上段において、ユーザUは、「ビーフストロガノフが食べたいな」という発話UO4を行っている。ここで、情報処理装置10がビーフストロガノフを含む料理の知識セットを有していない場合、情報処理装置10は、「それ何?」というシステム発話SO8や、「知りません」または「Webの情報によると…」などの定型的な発話しか行うことができない。
 一方、ここで、図中段に示すように、ビーフストロガノフに関する知識を含む料理知識セットK1を情報処理サーバ20(外部装置)から情報処理装置10に新たにダウンロードした場合、情報処理装置10は、料理知識セットK1に含まれる知識要素を活用し、例えば、図中下段に示すように、「牛肉がトロトロでおいいしいよね」というシステム発話SO9を出力することが可能となる。
 このように、本実施形態に係る情報処理装置10は、ユーザのニーズや嗜好に応じて知識セットを新たに追加することで、システム発話のバリエーションを増加させ、ユーザとのより豊かな対話を行うことができる。
 図13は、本実施形態に係る知識セットの生成について説明するための図である。本実施形態に係る情報処理サーバ20の知識生成部240は、ユーザやオペレータなどによる手動入力、Webや文書などからの自動収集、または、既存の知識セットからの抽出や抜粋などに用意された知識を、RDFをはじめとするオントロジー構造などを用いた知識表現に変換することで知識セットを生成してもよい。また、知識生成部240は、生成した知識セットを蓄積部250に蓄積させることで、情報処理装置10へのダウンロードが可能な状態とする。
 図14は、本実施形態に係る手動入力に基づく知識セットの生成について説明するための図である。上述したように、本実施形態に係る知識セットは、ユーザ自身が記載可能であってよい。例えば、ユーザは、図中上段に示すように、情報処理端末30に表示されるユーザインタフェース(GUI)上で、入力した複数の知識要素を繋ぎ、関係性を選択することなどにより、直感的かつ容易に新たな知識セットを生成できてもよい。
 また、ユーザやオペレータは、例えば、図中下段に示すように、CSVファイルなどに予め定められた文法で知識要素や関係を記載することで、効率的に大量の知識セットを生成できてもよい。なお、数学の基礎に関する知識セットの記載例を項目<2.知識セットの記載例>に添付する。
 次に、本実施形態に係る自動収集に基づく知識セットの生成について、より詳細に説明する。本実施形態に係る知識生成部240は、例えば、Web上のリソースをスクレイピングする、既存の文書からのテキストマイニングを行うなどの手法により自動的に知識セットを生成することも可能である。
 この際、あらゆる分野の知識を隈なく収集することや、あらゆるフォーマットの文書から知識を抽出することは比較的困難であるが、ドメインや情報源を限定することで自動収集ルールを構築することで、知識の自動収集を行うことが可能となる。
 例えば、ドメインを料理に絞った場合、収集すべき知識を料理の作り方や材料、料理のカテゴリなどに限定することできる。また、特定のレシピサイトを情報源とすることで、作り方や材料、料理のカテゴリ同の記述が統一されたフォーマットからの取得ルール構築という単純な問題に落とし込むことが可能である。
 以上、本実施形態に係る知識セットの生成について説明した。ユーザは、上記のように生成された知識セットをユーザインタフェース上からダウンロードすることで、情報処理装置10に知識セットを追加することが可能である。なお、ユーザは、この際、詳細ボタンを押下することなどにより、図14の上段に示したような表示形式により知識セットの内容を視覚的に確認することができてもよい。
 また、例えば、ユーザが個人で生成した知識セットは、ユーザインタフェース上で公開、シェアされてもよい。図15は、本実施形態に係る知識セットのシェアについて説明するための図である。図15では、ユーザインタフェース上において、ユーザDEFが生成した漫画の知識セットや、ユーザGHIが生成したワインの知識セットが公開されている場合の一例が示されている。
 このように、本実施形態に係るユーザインタフェースによれば、自身が生成した知識セットを有償または無償でシェアすることができ、また他のユーザが生成した知識セットを自身が所有する情報処理装置10にダウンロードすることが可能である。
 次に、本実施形態に係る知識セット追加の推薦機能について説明する。本実施形態に係る制御部150は、ユーザとの対話に不足していると予測される知識の追加をユーザに推奨する機能を有してもよい。図16は、本実施形態に係る知識セット追加の推薦機能について説明するための図である。
 図16に示す一例の場合、ユーザU1とU2とが、「ピアノ」に関する発話UO6を踏む対話を行っている。ここで、「ピアノ」に関連する知識ドメインの知識セットが情報処理装置10にインストールされていない場合、制御部150は、知識ドメイン「楽器」の知識セットの購入を推薦するシステム発話SO10を音声出力部170に出力させることができる。
 このように、本実施形態に係る制御部150は、ユーザの発話に含まれる語彙に基づいて、当該語彙に関連する知識セットの追加を推薦する発話内容を決定し、当該発話内容に対応する音声を音声出力部170に出力させてもよい。
 本実施形態に係る制御部150が有する上記の機能によれば、より豊かな対話を実現するための知識セットをユーザが把握することができるとともに、ユーザが当該知識セットを購入するよう誘導することで、収益を高めることが可能となる。
 次に、本実施形態に係る知識セットの利用優先順位の設定について説明する。本実施形態に係る知識セットは、ユーザにより利用優先順位が設定可能であってよい。図17は、本実施形態に係る知識セットの利用優先順位の設定について説明するための図である。
 図中上段に示すように、ユーザは、例えば、情報処理端末30に表示されるユーザインタフェース上において、知識セットをドラッグ&ドロップなどにより操作することで、容易に利用優先順位を設定できてよい。
 この際、本実施形態に係る制御部150は、設定された利用優先順位に基づいて知識要素を取得する知識セットを決定し、取得した知識要素と発話テンプレートとに基づいて発話内容を決定する。
 例えば、ユーザUが知識ドメイン「動物」の知識セットを、知識ドメイン「神話」の知識セットよりも優先的に設定している場合、本実施形態に係る制御部150は、ユーザUの発話UO7に含まれる語彙「さそり」に関連する知識要素を知識ドメイン「動物」の知識セットから収集することで、「毒が怖いよね」というシステム発話SO11aを音声出力部170に出力させることができる。
 一方、ユーザUが知識ドメイン「神話」の知識セットを、知識ドメイン「動物」の知識セットよりも優先的に設定している場合、本実施形態に係る制御部150は、ユーザUの発話UO7に含まれる語彙「さそり」に関連する知識要素を知識ドメイン「神話」の知識セットから収集することで、「オリオンの天敵だよね」というシステム発話SO11bを音声出力部170に出力させることができる。
 このように、本実施形態に係る情報処理装置10は、複数の知識セットの利用優先順位に基づいて発話内容を生成することで、ユーザの嗜好により合致した対話を実現することができる。
 以上、本実施形態に係る制御部150による知識セットおよび発話テンプレートを用いた発話制御について説明した。係る制御によれば、状況やユーザの嗜好・ニーズに応じた、より柔軟かつ自然な対話を実現することが可能となる。
 続いて、本実施形態に技術思想の応用について例を述べる。本実施形態に係る技術思想は、ユーザとの自由対話のみではなく種々の分野に応用が可能である。本実施形態に係る技術思想は、例えば、企業等による公告に応用されてもよい。
 図18は、本実施形態に係る技術思想の広告への応用について説明するための図である。図18に示す一例では、ユーザUと情報処理装置10とが、ビールに関する対話を行っている。具体的には、情報処理装置10は、ユーザUの「喉乾いた」という発話UO8に対し、「ビールだね」というシステム発話SO12を行い、「いいねー、飲もう!」という発話UO9に対し、広告の対象である「ABCビール」を推薦するシステム発話SO13を行っている。
 このように、本実施形態に係る知識セットは、企業等から提供される広告に係る知識セットを含んでよい。この際、本実施形態に係る制御部150は、ユーザとの対話履歴に広告に係る彙(例えば、喉乾いた、や、ビール、など)、当該広告に係る知識セットから知識要素を取得し発話内容を決定することで、対象となる商品やサービスをユーザに推薦することが可能である。
 なお、広告に係る知識セットには、例えば、他社製品に係る知識要素などを含まれていてもよい。例えば、図18に示す一例の場合、ユーザUは、システム発話SO13に対し、他社製品(または他のビール製造会社)の名称である「シロクマ」を含む発話UO10を行っている。
 ここで、広告に係る知識セットに、「シロクマ」に対応する知識要素が存在しない場合、制御部150は、知識ドメイン「動物」から取得した知識要素や一般常識などに基づいて、「動物園行くの?」などのシステム発話SO14aを音声出力部170に出力させる可能性があり、対話が不自然となる。
 一方、広告に係る知識セットに知識要素「シロクマ」が含まれている場合、制御部150は、ユーザUが他社製品を購入しようとしていると判断することができ、自社製の新商品を薦めるシステム発話SO14bを音声出力部170に出力させることなどが可能となる。
 このように、本実施形態に係る技術思想を広告に応用することにより、自然な対話の中で対象となる製品やサービスをユーザに推薦することが可能となり、収益を効果的に向上させる効果が期待される。
 続いて、図19を参照して、本実施形態に係る技術思想を広告に応用した場合の制御の流れについて説明する。
 図19を参照すると、まず、制御部150は、ユーザが自身の意思について発話しているか否かを判定する(S1201)。
 ここで、ユーザが自身の意思について発話していないと判定した場合(S1201:NO)、制御部150は、広告以外の発話内容を設定し、当該発話内容に対応するシステム発話を音声出力部170に出力させる(S1206)。
 一方、ユーザが自身の意思について発話していると判定した場合(S1201:YES)、制御部150は、広告知識(広告に係る知識セットに含まれる知識要素)に関連する話題が対話履歴に存在するか否かを判定する(S1202)。
 ここで、広告知識に関連する話題が対話履歴に存在しない場合(S1202:NO)、制御部150は、広告以外の発話内容を設定し、当該発話内容に対応するシステム発話を音声出力部170に出力させる(S1206)。
 一方、広告知識に関連する話題が対話履歴に存在する場合(S1202:YES)、制御部150は、続いて、対象となる広告知識を用いた発話回数が閾値未満であるか否かを判定する(S1203)。
 ここで、対象となる広告知識を用いた発話回数が閾値以上である場合(S1203:NO)、制御部150は、広告以外の発話内容を設定し、当該発話内容に対応するシステム発話を音声出力部170に出力させる(S1206)。
 一方、対象となる広告知識を用いた発話回数が閾値未満である場合(S1203:YES)、制御部150は、所定期間内において最も使用していない発話テンプレートを取得する(S1204)。なお、この際、発話テンプレートには、商品特性やキャッチコピーなどが組み込まれていてもよい。
 続いて、制御部150は、広告知識と発話テンプレートとに基づいて発話内容を決定し、当該発話内容に対応するシステム発話を音声出力部170に出力させる(S1205)。
 以上、本実施形態に係る技術思想を広告に応用した場合の制御の流れについて説明した。上記の制御によれば、所定期間内に同一の広告知識や発話テンプレートが多用されることを防止し、ユーザを辟易とさせることを回避することができる。
 また、本実施形態に係る制御部150は、ユーザが、例えば、「どれがいいかな?」や「何にしようかな?」のような提案を求める発話を行った場合にのみ、広告知識を用いたシステム発話を音声出力部170に出力させることもできる。
 また、例えば、発話テンプレートに敢えて商品の不評な部分を組み込むことで第三者感を演出し(例えば、ABC社のテレビは高いけど画質はいいよね、など)、より自然な対話とすることもできる。
 なお、本実施形態に係る技術思想は、広告以外にも広く応用が可能である。例えば、本実施形態に係る技術思想は、教育に応用されてもよい。この場合、算数、国語、理科、社会などの教育科目に対応した知識セットをインストールすることで、情報処理装置10を介した教育システムを実現することができる。
 また、例えば、本実施形態に係る技術思想は、販促・宣伝などに応用されてもよい。この場合、3rdパーティなどが自社の商品をPRするために、無料の知識セットを作成して配布することなども想定される。
 また、例えば、本実施形態に係る技術思想は、リハビリなどに応用されてもよい。この場合、例えば、日常生活で用いるやさしい言語表現の知識セットを情報処理装置10にインストールすることで、言語障がいのあるユーザの会話のリハビリを補助することができる。
 また、例えば、本実施形態に係る技術思想は、趣味等の話し相手に適用されてもよい。この場合、ユーザは、自身との対話に必要なマニアックな専門知識や、人間関係などの個人情報に関する知識セットを情報処理装置10にインストールすることで、より深い対話を享受することが可能である。
 <2.知識セットの記載例>
 数学の基礎に関する知識セットに関する記載例を以下に例示する。
  $is-a,カントール,人間
  $is-a,クロネッカー,人間
  $is-a,ラッセル,人間
  $is-a,ホワイトヘッド,人間
  $is-a,ヒルベルト,人間
  $is-a,ゲーデル,人間
  $is-a,ゲンツェン,人間
  $is-a,ブラウアー,人間
  $is-a,フレーゲ,人間
  $is-a,ツェルメロ,人間
  $is-a,フレンケル,人間
  $is-a,オイラー,人間
  $is-a,ガウス,人間
  $is-a,ユークリッド,人間
  $is-a,カントール,数学者
  $is-a,クロネッカー,数学者
  $is-a,ラッセル,数学者
  $is-a,ホワイトヘッド,数学者
  $is-a,ヒルベルト,数学者
  $is-a,ゲーデル,数学者
  $is-a,ゲンツェン,数学者
  $is-a,ブラウアー,数学者
  $is-a,フレーゲ,数学者
  $is-a,ツェルメロ,数学者
  $is-a,フレンケル,数学者
  $is-a,オイラー,数学者
  $is-a,ガウス,数学者
  $is-a,ユークリッド,数学者
  $is-a,カントール,男
  $is-a,クロネッカー,男
  $is-a,ラッセル,男
  $is-a,ホワイトヘッド,男
  $is-a,ヒルベルト,男
  $is-a,ゲーデル,男
  $is-a,ゲンツェン,男
  $is-a,ブラウアー,男
  $is-a,フレーゲ,男
  $is-a,論理,理論
  $is-a,命題論理,論理
  $is-a,命題論理,論理体系
  $is-a,述語論理,論理
  $is-a,述語論理,論理体系
  $has-a,論理体系,論理演算
  $is-a,命題,リテラル
  $is-a,論理演算子,演算子
  $is-a,含意,論理演算
  $is-a,否定,論理演算
  $is-a,論理和,論理演算
  $is-a,論理積,論理演算
  $is-a,排他的論理和,論理演算
  $is-a,同値,論理演算
  $is-a,恒真,論理演算
  $is-a,演繹,論理演算
  $is-a,演繹,推論
  $is-a,一階述語論理,述語論理
  $is-a,二階述語論理,述語論理
  $is-a,二階述語論理,高階述語論理
  $is-a,高階述語論理,高階論理
  $導く,公理,定理
  $is-a,三段論法,演繹
  $is-a,三段論法,演繹
  $is-a,定理,論理的帰結
  $is-a,論理的帰結,正しい
  $is-a,導出,論理演算
  $is-a,公理的集合論,集合論
  $is-a,素朴集合論,集合論
  $is-a,論理式,式
  $is-a,整論理式,論理式
  $is-a,原始式,論理式
  $is-a,原始式,式
  $is-a,述語論理式,論理式
  $is-a,命題論理式,論理式
  $part-of,述語,リテラル
  $part-of,リテラル,述語論理式
  $part-of,論理演算子,述語論理式
  $part-of,論理演算子,命題論理式
  $part-of,命題,命題論理式
  $part-of,式,命題論理式
  $part-of,論理演算子,論理式
  $member-of,公理,公理系
  $has-a,公理系,公理
  $is-a,公理的集合論,公理系
  $member-of,ラッセル,論理主義
  $member-of,ブラウアー,直観主義
  $member-of,ヒルベルト,形式主義
  $is-a,古典論理,論理
  $has-a,古典論理,排中律
  $has-a,形式主義論理,排中律
  $著者,プリンキピア・マテマティカ
  $著者,原論,ユークリッド
  $is-a,方程式,恒真式
  $is-a,方程式,式
  $is-a,恒真式,式
  $has-a,公理系,公理
  $is-a,ツェルメロフレンケルの公理系,公理的集合論
  $is-a,ツェルメロフレンケルの公理系,公理系
  $has-a,ツェルメロフレンケルの公理系,外延性の公理
  $has-a,ツェルメロフレンケルの公理系,空集合の公理
  $has-a,ツェルメロフレンケルの公理系,対の公理
  $has-a,ツェルメロフレンケルの公理系,和集合の公理
  $has-a,ツェルメロフレンケルの公理系,無限公理
  $has-a,ツェルメロフレンケルの公理系,冪集合公理
  $has-a,ツェルメロフレンケルの公理系,置換公理
  $has-a,ツェルメロフレンケルの公理系,正則性公理
  $is-a,ZFC,公理的集合論
  $is-a,ZFC,公理系
  $has-a,ZFC,外延性の公理
  $has-a,ZFC,空集合の公理
  $has-a,ZFC,対の公理
  $has-a,ZFC,和集合の公理
  $has-a,ZFC,無限公理
  $has-a,ZFC,冪集合公理
  $has-a,ZFC,置換公理
  $has-a,ZFC,正則性公理
  $has-a,ZFC,選択公理
  $is-a,ラッセルのパラドックス,パラドックス
  $is-a,グロタンディーク宇宙,集合
  $is-a,距離空間,集合
  $has-a,距離空間,距離関数
  $is-a,マンハッタン距離,距離
  $is-a,編集距離,距離
  $is-a,マハラノビス距離,距離
  $is-a,ユークリッド距離,距離
  $is-a,コサイン距離,距離
  $is-a,ハミング距離,距離
  $満たす,距離,三角不等式
  $has-a,距離,非負性
  $is-a,関数,写像
  $has-a,関数,値域
  $has-a,関数,定義域
  $has-a,全単射,逆関数
  $is-a,全射,関数
  $is-a,単写,関数
  $is-a,全単射,関数
  $is-a,代数関数,関数
  $is-a,初等関数,関数
  $is-a,指数関数,関数
  $is-a,対数関数,関数
  $is-a,三角関数,関数
  $is-a,逆三角関数,関数
  $is-a,双曲線関数,関数
  $is-a,逆三角関数,関数
  $is-a,ガンマ関数,関数
  $is-a,ベータ関数,関数
  $is-a,誤差関数,関数
  $is-a,テータ関数,関数
  $is-a,ゼータ関数,関数
  $is-a,マチウ関数,関数
  $is-a,偶関数,関数
  $is-a,奇関数,関数
  $is-a,自然数,数
  $is-a,自然数,整数
  $is-a,自然数,有理数
  $is-a,自然数,実数
  $is-a,整数,数
  $is-a,整数,有理数
  $is-a,整数,実数
  $is-a,有理数,数
  $is-a,有理数,実数
  $is-a,無理数,数
  $is-a,実数,数
  $is-a,超越数,数
  $is-a,素数,数
  $is-a,素数,自然数
  $is-a,素数,有理数
  $is-a,素数,実数
  $is-a,複素数,数
  $has-a,複素数,虚数
  $part-of,虚数,複素数
  $is-a,虚数,数
  $has-a,虚数,複素数
  $has-a,べき集合,束構造
  $is-a,べき集合,集合
  $is-a,直積集合,集合
  $is-a,無限集合,集合
  $is-a,有限集合,集合
  $is-a,可算集合,集合
  $has-a,可算集合,可算性
  $is-a,非可算集合,集合
  $has-a,集合,濃度
  $is-a,実数,集合
  $is-a,実数,連続体濃度
  $is-a,和集合,集合
  $is-a,順序集合,集合
  $has-a,順序集合,順序関係
  $is-a,順序関係,二項関係
  $is-a,二項関係,関係
  $is-a,半順序,二項関係
  $has-a,半順序,推移性
  $has-a,半順序,反射性
  $has-a,半順序,半対称性
  $満たす,半順序,推移律
  $満たす,半順序,反射律
  $満たす,半順序,反対象律
  $is-a,全順序,二項関係
  $has-a,全順序,推移性
  $has-a,全順序,反射性
  $has-a,全順序,半対称性
  $満たす,全順序,推移律
  $満たす,全順序,反射律
  $満たす,全順序,反対象律
  $is-a,半順序集合,順序集合
  $is-a,全順序集合,順序集合
  $has-a,半順序集合,半順序
  $has-a,全順序集合,全順序
  $is-a,和,演算
  $member-of,和,四則演算
  $is-a,差,演算
  $member-of,差,四則演算
  $is-a,積,演算
  $member-of,積,四則演算
  $is-a,商,演算
  $member-of,商,四則演算
  $is-a,足し算,演算
  $member-of,足し算,四則演算
  $is-a,引き算,演算
  $member-of,引き算,四則演算
  $is-a,掛け算,演算
  $member-of,掛け算,四則演算
  $is-a,割り算,演算
  $member-of,割り算,四則演算
  $member-of,代数学,数学
  $member-of,幾何学,数学
  $member-of,解析学,数学
  $member-of,微分積分学,数学
  $member-of,論理学,数学
  $member-of,数学基礎論,数学
  $member-of,位相幾何学,数学
  $has-a,ラッセル,ラッセルのパラドックス
  $has-a,ゲーデル,不完全性定理
  $has-a,ゲーデル,完全性定理
  $has-a,ヒルベルト,23の問題
  $has-a,ラッセル,型の理論
  $has-a,カントール,素朴集合論
  $has-a,カントール,連続体仮設
  $has-a,ツェルメロ,ツェルメロフレンケルの公理系
  $has-a,フレンケル,ツェルメロフレンケルの公理系
  $has-a,ツェルメロ,ZFC
  $has-a,フレンケル,ZFC
 <3.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理装置10のハードウェア構成例について説明する。図20は、本開示の一実施形態に係る情報処理装置10のハードウェア構成例を示すブロック図である。図20に示すように、情報処理装置10は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インタフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インタフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インタフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
 リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <4.まとめ>
 以上説明したように、本開示の一実施形態に係る情報処理方法を実現する情報処理装置10は、認識状況に基づいてユーザとの対話を制御する制御部150を備える。また、本開示の一実施形態に係る制御部150は、上記認識状況と知識上で関連する知識要素を知識セットから取得し、当該知識要素を発話テンプレートとに基づいて、発話内容を決定すること、を特徴の一つとする。係る構成によれば、多様な知識に基づいてユーザとのより自然な対話を実現することが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアに、情報処理サーバ20が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な非一過性の記録媒体も提供され得る。
 また、本明細書の情報処理装置10の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理装置10の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 認識状況に基づいてユーザとの対話を制御する制御部、
 を備え、
 前記制御部は、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定する、
情報処理装置。
(2)
 前記知識要素は少なくとも語彙を含む、
前記(1)に記載の情報処理装置。
(3)
 前記知識セットには、複数の前記知識要素と、前記知識要素間の関係とが記載される、前記(2)に記載の情報処理装置。
(4)
 前記知識セットを保管する記憶部、
 をさらに備える、
前記(3)に記載の情報処理装置。
(5)
 前記知識セットは、知識ドメインごとに記載される、
前記(4)に記載の情報処理装置。
(6)
 前記知識セットは、ユーザ操作に基づき追加が可能である、
前記(5)に記載の情報処理装置。
(7)
 前記知識セットは、外部装置からのダウンロードが可能である、
前記(6)に記載の情報処理装置。
(8)
 前記知識セットは、ユーザが記載可能である、
前記(5)~(7)のいずれかに記載の情報処理装置。
(9)
 前記知識セットの利用優先順位はユーザが設定可能であり、
 前記制御部は、前記利用優先順位に基づいて前記知識要素を取得する前記知識セットを決定し、取得した前記知識要素と前記発話テンプレートとに基づいて発話内容を決定する、
前記(5)~(8)のいずれかに記載の情報処理装置。
(10)
 前記認識状況は、少なくともユーザとの対話履歴を含み、
 前記制御部は、前記対話履歴に含まれる語彙と関連する前記知識要素を前記知識セットから取得する、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
 前記制御部は、ユーザの発話意図に基づいて、対応する前記発話テンプレートを決定し、当該発話テンプレートに取得した前記知識要素を当てはめる、
前記(10)に記載の情報処理装置。
(12)
 前記認識状況は、物体認識結果、環境認識結果、位置情報のうち少なくともいずれかを含む、
前記(1)~(11)のいずれかに記載の情報処理装置。
(13)
 前記制御部は、所定期間内において発話に用いた回数が閾値未満である前記知識要素を前記知識セットから取得する、
前記(1)~(12)のいずれかに記載の情報処理装置。
(14)
 前記制御部は、所定期間内において発話に用いた回数が閾値未満である前記発話テンプレートを選択する、
前記(1)~(13)のいずれかに記載の情報処理装置。
(15)
 前記知識セットは、少なくとも広告に係る知識セットを含み、
 前記制御部は、ユーザとの対話履歴に前記広告に関連する語彙が含まれる場合、前記広告に係る知識セットから前記知識要素を取得する、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
 前記制御部は、ユーザの発話に含まれる語彙に基づいて、前記語彙に関連する前記知識セットの追加を推薦する発話内容を決定する、
前記(1)~(15)のいずれかに記載の情報処理装置。
(17)
 前記制御部が決定した発話内容に対応する音声を出力する音声出力部、
 をさらに備える、
前記(1)~(16)のいずれかに記載の情報処理装置。
(18)
 プロセッサが、認識状況に基づいてユーザとの対話を制御すること、
 を含み、
 前記制御することは、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定すること、
 をさらに含む、
情報処理方法。
(19)
 コンピュータを、
 認識状況に基づいてユーザとの対話を制御する制御部、
 を備え、
 前記制御部は、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定する、
 情報処理装置、
として機能させるためのプログラム。
 10   情報処理装置
 140  認識部
 150  制御部
 162  知識DB
 164  テンプレートDB
 170  音声出力部
 20   情報処理サーバ
 30   情報処理端末

Claims (19)

  1.  認識状況に基づいてユーザとの対話を制御する制御部、
     を備え、
     前記制御部は、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定する、
    情報処理装置。
  2.  前記知識要素は少なくとも語彙を含む、
    請求項1に記載の情報処理装置。
  3.  前記知識セットには、複数の前記知識要素と、前記知識要素間の関係とが記載される、請求項2に記載の情報処理装置。
  4.  前記知識セットを保管する記憶部、
     をさらに備える、
    請求項3に記載の情報処理装置。
  5.  前記知識セットは、知識ドメインごとに記載される、
    請求項4に記載の情報処理装置。
  6.  前記知識セットは、ユーザ操作に基づき追加が可能である、
    請求項5に記載の情報処理装置。
  7.  前記知識セットは、外部装置からのダウンロードが可能である、
    請求項6に記載の情報処理装置。
  8.  前記知識セットは、ユーザが記載可能である、
    請求項5に記載の情報処理装置。
  9.  前記知識セットの利用優先順位はユーザが設定可能であり、
     前記制御部は、前記利用優先順位に基づいて前記知識要素を取得する前記知識セットを決定し、取得した前記知識要素と前記発話テンプレートとに基づいて発話内容を決定する、
    請求項5に記載の情報処理装置。
  10.  前記認識状況は、少なくともユーザとの対話履歴を含み、
     前記制御部は、前記対話履歴に含まれる語彙と関連する前記知識要素を前記知識セットから取得する、
    請求項1に記載の情報処理装置。
  11.  前記制御部は、ユーザの発話意図に基づいて、対応する前記発話テンプレートを決定し、当該発話テンプレートに取得した前記知識要素を当てはめる、
    請求項10に記載の情報処理装置。
  12.  前記認識状況は、物体認識結果、環境認識結果、位置情報のうち少なくともいずれかを含む、
    請求項1に記載の情報処理装置。
  13.  前記制御部は、所定期間内において発話に用いた回数が閾値未満である前記知識要素を前記知識セットから取得する、
    請求項1に記載の情報処理装置。
  14.  前記制御部は、所定期間内において発話に用いた回数が閾値未満である前記発話テンプレートを選択する、
    請求項1に記載の情報処理装置。
  15.  前記知識セットは、少なくとも広告に係る知識セットを含み、
     前記制御部は、ユーザとの対話履歴に前記広告に関連する語彙が含まれる場合、前記広告に係る知識セットから前記知識要素を取得する、
    請求項1に記載の情報処理装置。
  16.  前記制御部は、ユーザの発話に含まれる語彙に基づいて、前記語彙に関連する前記知識セットの追加を推薦する発話内容を決定する、
    請求項1に記載の情報処理装置。
  17.  前記制御部が決定した発話内容に対応する音声を出力する音声出力部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  18.  プロセッサが、認識状況に基づいてユーザとの対話を制御すること、
     を含み、
     前記制御することは、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定すること、
     をさらに含む、
    情報処理方法。
  19.  コンピュータを、
     認識状況に基づいてユーザとの対話を制御する制御部、
     を備え、
     前記制御部は、前記認識状況と知識上で関連する知識要素を知識セットから取得し、前記知識要素と発話テンプレートとに基づいて、発話内容を決定する、
     情報処理装置、
    として機能させるためのプログラム。
PCT/JP2019/048579 2019-01-22 2019-12-11 情報処理装置、情報処理方法、およびプログラム WO2020153028A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/309,993 US20220076672A1 (en) 2019-01-22 2019-12-11 Information processing apparatus, information processing method, and program
CN201980079286.8A CN113168500A (zh) 2019-01-22 2019-12-11 信息处理设备、信息处理方法及程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-008621 2019-01-22
JP2019008621 2019-01-22

Publications (1)

Publication Number Publication Date
WO2020153028A1 true WO2020153028A1 (ja) 2020-07-30

Family

ID=71736719

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/048579 WO2020153028A1 (ja) 2019-01-22 2019-12-11 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220076672A1 (ja)
CN (1) CN113168500A (ja)
WO (1) WO2020153028A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108376A (ja) * 2001-10-01 2003-04-11 Denso Corp 応答メッセージ生成装置、及び端末装置
JP2016197227A (ja) * 2015-04-02 2016-11-24 パナソニックIpマネジメント株式会社 対話方法、対話プログラム及び対話システム
WO2018163646A1 (ja) * 2017-03-10 2018-09-13 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380484B2 (en) * 2004-08-10 2013-02-19 International Business Machines Corporation Method and system of dynamically changing a sentence structure of a message
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
JP6339545B2 (ja) * 2015-09-18 2018-06-06 ヤフー株式会社 情報処理装置、情報処理方法及びプログラム
CN110235119A (zh) * 2017-01-31 2019-09-13 索尼公司 信息处理设备、信息处理方法及程序
WO2018217954A1 (en) * 2017-05-23 2018-11-29 Mercato, Inc. Systems and methods for allocating and distributing inventory
US11315560B2 (en) * 2017-07-14 2022-04-26 Cognigy Gmbh Method for conducting dialog between human and computer
US10534862B2 (en) * 2018-02-01 2020-01-14 International Business Machines Corporation Responding to an indirect utterance by a conversational system
US10963492B2 (en) * 2018-06-14 2021-03-30 Google Llc Generation of domain-specific models in networked system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108376A (ja) * 2001-10-01 2003-04-11 Denso Corp 応答メッセージ生成装置、及び端末装置
JP2016197227A (ja) * 2015-04-02 2016-11-24 パナソニックIpマネジメント株式会社 対話方法、対話プログラム及び対話システム
WO2018163646A1 (ja) * 2017-03-10 2018-09-13 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム

Also Published As

Publication number Publication date
US20220076672A1 (en) 2022-03-10
CN113168500A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
JP6738445B2 (ja) デジタルアシスタントサービスの遠距離拡張
CN110785763B (zh) 自动化助理实现的方法和相关存储介质
US10521189B1 (en) Voice assistant with user data context
RU2699399C2 (ru) Система и способ обнаружения орфанных высказываний
US11734034B2 (en) Feature exposure for model recommendations and feedback
US20170287478A1 (en) Hierarchical attention for spoken dialogue state tracking
US20160019280A1 (en) Identifying question answerers in a question asking system
US10872116B1 (en) Systems, devices, and methods for contextualizing media
US9812124B1 (en) Identifying underserved command inputs
US11043215B2 (en) Method and system for generating textual representation of user spoken utterance
US20210065695A1 (en) Program storage medium, method, and apparatus for determining point at which trend of conversation changed
CN111883131B (zh) 语音数据的处理方法及装置
US8868419B2 (en) Generalizing text content summary from speech content
JP2023036574A (ja) 対話推薦方法、モデルの訓練方法、装置、電子機器、記憶媒体ならびにコンピュータプログラム
JP2014206896A (ja) 情報処理装置、及び、プログラム
US9275034B1 (en) Exceptions to action invocation from parsing rules
CN110379406A (zh) 语音评论转换方法、系统、介质和电子设备
CN111767259A (zh) 内容分享的方法、装置、可读介质和电子设备
WO2020153028A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN109948155B (zh) 一种多意图的选择方法及装置、终端设备
US20190384466A1 (en) Linking comments to segments of a media presentation
US11545138B1 (en) Voice review analysis
KR101745407B1 (ko) 세대간 소셜 대화 장치 및 방법
US20210264910A1 (en) User-driven content generation for virtual assistant
US11984113B2 (en) Method and server for training a neural network to generate a textual output sequence

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19911877

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19911877

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP