WO2021192794A1 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2021192794A1
WO2021192794A1 PCT/JP2021/006976 JP2021006976W WO2021192794A1 WO 2021192794 A1 WO2021192794 A1 WO 2021192794A1 JP 2021006976 W JP2021006976 W JP 2021006976W WO 2021192794 A1 WO2021192794 A1 WO 2021192794A1
Authority
WO
WIPO (PCT)
Prior art keywords
context
unknown word
information processing
unknown
processing device
Prior art date
Application number
PCT/JP2021/006976
Other languages
English (en)
French (fr)
Inventor
広 岩瀬
祐平 滝
邦仁 澤井
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US17/906,640 priority Critical patent/US20230134103A1/en
Priority to EP21775567.7A priority patent/EP4131057A4/en
Priority to JP2022509435A priority patent/JPWO2021192794A1/ja
Publication of WO2021192794A1 publication Critical patent/WO2021192794A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • This disclosure relates to an information processing device and an information processing method.
  • an information processing device that executes various types of information processing according to the content of a user's utterance via an interactive voice UI (User Interface) has been known.
  • an information processing device for example, through natural language understanding (NLU) processing, an "intent” indicating the user's intention from the content of the user's utterance and a “intent” which is a parameter of the operation corresponding to the intent are used. It estimates “an entity” and executes information processing based on the estimation result.
  • NLU natural language understanding
  • unknown word If the user's utterance contains an unknown phrase (hereinafter referred to as "unknown word"), the intent or entity cannot be estimated. Therefore, in the development / design process of such an information processing device, learning work of associating a linguistic phrase with an actual object, such as NLU entity registration and addition of tag information to images and map coordinates, is performed manually, for example. Will be done.
  • the user needs to explicitly switch between the learning mode and the execution mode to learn or execute the utterance. Therefore, the load is high for the user and the learning efficiency is low.
  • a first detection unit that detects an unknown word that is an unknown phrase from a text input in natural language
  • a second detection unit that detects the occurrence of an event related to the known phrase contained in the text.
  • a part and a linking part that associates the unknown word with an observation context that indicates the situation at the time of detection of the unknown word as a conditional context and an observation context that indicates the situation at the time of occurrence of the event as a target context.
  • An information processing device comprising, is provided.
  • a first detection unit that detects an unknown word that is an unknown phrase from a text input in natural language
  • a second detection unit that detects the occurrence of an event related to the known phrase included in the text.
  • the unknown word, the observation context indicating the situation at the time of detection of the unknown word is set as the conditional context
  • the observation context indicating the situation at the time of occurrence of the event is set as the target context. Instructs the unit and the new text to include the known phrase and to generate a response using the unknown word when the conditional context associated with the unknown word is observed.
  • An information processing device including an instruction unit is provided.
  • an information processing method including linking an observation context indicating the situation at the time of detection of the unknown word as a conditional context and an observation context indicating the situation at the time of occurrence of the event as a target context is provided. Will be done.
  • an unknown word which is an unknown phrase from a text input in natural language
  • detect the occurrence of an event related to a known phrase included in the text and to detect the unknown word.
  • the observation context indicating the situation at the time of detection of the unknown word is associated with the conditional context
  • the observation context indicating the situation at the time of occurrence of the event is associated with the target context.
  • an information processing method including instructing to generate a response using the unknown word when the conditional context associated with the unknown word is observed. Will be done.
  • a plurality of components having substantially the same functional configuration may be distinguished by adding different numbers with hyphens after the same reference numerals.
  • a plurality of configurations having substantially the same functional configuration are distinguished as required by the information processing device 10-1 and the information processing device 10-2.
  • the information processing device 10-1 and the information processing device 10-2 are simply referred to as the information processing device 10.
  • FIG. 1 is a schematic explanatory view (No. 1) of the information processing method according to the embodiment of the present disclosure.
  • FIG. 2 is a schematic explanatory diagram (No. 2) of the information processing method according to the embodiment of the present disclosure. Note that FIG. 1 shows a problem in the comparative example of the embodiment of the present disclosure.
  • the information processing system 1' includes one or more information processing devices 10'and a server device 100'.
  • the information processing device 10' is a device used by each user, and executes various types of information processing according to the content of the user's utterance via the voice UI.
  • the information processing device 10' is a desktop PC (Personal Computer), a notebook PC, a tablet terminal, a mobile phone, a PDA (Personal Digital Assistant), or the like. Further, the information processing device 10'is, for example, an in-vehicle device such as a wearable terminal worn by a user, a navigation device mounted on a vehicle, or a drive recorder.
  • the server device 100' is configured as, for example, a cloud server, generates and updates a recognition model used for NLU processing, etc., and distributes it to the information processing device 10'.
  • the recognition model includes learning information in which, for example, a linguistic phrase and a real object are associated with each other.
  • Information that has a learning mode for learning an unknown word based on the content of the user's utterance and an execution mode for executing various information processing corresponding to the learned unknown word, so that the user can perform the learning work by himself / herself.
  • the user needs to explicitly switch between the learning mode and the execution mode to learn or execute the utterance, which is a heavy load for the user and the learning efficiency is low.
  • an unknown word which is an unknown phrase is detected from the text input in natural language, the occurrence of an event related to the known phrase included in the text is detected, and the unknown word is detected.
  • the observation context indicating the situation at the time of detection of the unknown word is associated with the conditional context, and the observation context indicating the situation at the time of the occurrence of the above event is associated with the target context.
  • FIG. 2 shows a case where the information processing device 10 is, for example, an information processing device 10-1 corresponding to a navigation device mounted on a taxi.
  • the information processing device 10 holds the utterance intent during speech including the unknown word and unknown.
  • the observation context at the time of word detection is retained as the conditional context.
  • the observation context is recognition information for recognizing the user and the situation in which the user is placed, and is, for example, sensing data by various sensing devices mounted on a taxi.
  • the information processing device 10 associates the observation context at the time of execution with the unknown word as a target context corresponding to the actual object of the unknown word.
  • the information processing device 10 holds “turn right” as an utterance intent when a passenger speaks “turn right on a yellow sign” and the phrase “yellow sign” is detected as an unknown word.
  • the observation context when the phrase “yellow sign” is detected is retained as the condition context.
  • the conditional context here is, for example, the current location indicated by the GPS (Global Positioning System) position when the phrase "yellow sign" is detected.
  • the information processing device 10 detects that the taxi actually "turns to the right" from the observation context or the user's utterance, the observation context at the time of such detection corresponds to the actual target of the phrase "yellow sign".
  • the target context here is, for example, the current location indicated by the GPS position when "turning to the right" is executed.
  • the information processing device 10 can dynamically acquire the actual target of the phrase "yellow sign".
  • the unknown word associated with the target context will be the unknown word if the above-mentioned utterance intent and conditional context are matched when the user's utterance or the like includes the unknown word.
  • the target context associated with is interpreted as an actual target, and information processing is executed accordingly.
  • the server device 100 collects the association result executed in step S1 and executes statistical processing (step S2). Then, the server device 100 applies the association result to the other information processing device 10 according to the statistical result (step S3).
  • the server device 100 when the server device 100 detects that a predetermined number or more are used (highly relevant) in the same conditional context and the target context within a certain period in the past, such "" Distribute the result of linking the "yellow sign" to the entire system.
  • the server device 100 can also deliver a phrase tag for the position, such as a "yellow sign", to, for example, a map vendor.
  • steps S2 and S3 executed by the server device 100 will be described later with reference to FIGS. 23 to 28.
  • the unknown word which is an unknown phrase is detected from the text input by the natural language, the occurrence of an event related to the known phrase included in the text is detected, and the unknown word is used.
  • the observation context indicating the situation at the time of detection of the unknown word is associated with the conditional context, and the observation context indicating the situation at the time of the occurrence of the above event is associated with the target context.
  • the association between the phrase and the actual object is automatically accumulated so that the user uses the system via the voice UI, and the language change cannot be followed manually. It is possible to interpret and process the utterances that follow. In other words, the corresponding vocabulary of the voice UI system is updated automatically according to the user's actual usage trend of the language phrase, not the specification due to the product out on the developer side, so it is convenient as a voice UI. Increase.
  • the information processing method it is possible to efficiently associate an unknown word with an actual object without imposing a load on the user.
  • the main example is the case where the unknown word is an entity that is the target / attribute of the utterance intention "turn right", such as the phrase "yellow sign", but the intent is an unknown word. There may be. Such an example will be described later with reference to FIG.
  • FIG. 3 is an explanatory diagram of terms.
  • "right” can be estimated to be a parameter indicating the direction (Direction) by NLU processing.
  • the "yellow sign” is a parameter indicating a place by NLU processing, it is unknown as a phrase, for example.
  • the portion corresponding to "turning” and “right”, that is, “turning to the right” will be referred to as "speech intent Iu ". That is, the utterance intent Iu is a known part of the user's utterance, including the intent.
  • the part corresponding to the "yellow sign” is referred to as "unknown word entity Pu".
  • the unknown word entity P u to the intent that has been estimated from the user's spoken text in NLU processing, if the phrase of the entity in question and attribute of its intent does not exist in the dictionary that are registered in the NLU, or phrase Although it is registered in the NLU dictionary as, if there are multiple real objects that can be handled as intent targets / attributes by execution dialogue control, or if there are multiple real objects that cannot be uniquely identified, Refers to the phrase.
  • the unknown word uniquely identifies a phrase that does not exist in the dictionary information used in the NLU processing of the user's uttered text, or a real object that exists in the dictionary information but corresponds to such a phrase in information processing based on the above text. It is a phrase that cannot be done.
  • observation context Co observation context
  • conditional context Cr conditional context
  • target context Ct target context
  • FIG. 4 is a diagram showing a configuration example of the information processing system 1 according to the embodiment of the present disclosure.
  • the information processing system 1 includes one or more information processing devices 10 and a server device 100. Further, as shown in FIG. 4, the information processing device 10 and the server device 100 are connected to each other by a network N such as the Internet or a mobile phone line network, and data is transmitted to and received from each other via the network N.
  • a network N such as the Internet or a mobile phone line network
  • the information processing device 10 is a device used by each user in the same manner as the above-mentioned information processing device 10', and executes various types of information processing according to the content of the user's utterance via the voice UI.
  • the information processing device 10 is a desktop PC, a notebook PC, a tablet terminal, a mobile phone, a PDA, or the like. Further, the information processing device 10 is, for example, an in-vehicle device such as a wearable terminal worn by a user, a navigation device mounted on a vehicle, or a drive recorder.
  • the information processing apparatus 10 when each detected unknown word entity P u, attached cord unknown words entity P u observation context C o at the time of detection as a condition context C r. Further, the information processing apparatus 10, when detecting the execution of the speech intent I u, attached cord unknown words entity P u observation context C o at the time of detection as the object context C t. Then, the information processing device 10 transmits the unknown word information which is the result of these associations to the server device 100.
  • the server device 100 is configured as, for example, a cloud server, and collects unknown word information transmitted from each information processing device 10. Further, the server device 100 manages the collected unknown word information as big data and executes statistical processing related to the unknown word information. Further, the server device 100 applies unknown word information to the entire system according to the statistical result obtained. A specific configuration example of the server device 100 will be described later with reference to FIGS. 23 to 28.
  • FIG. 5 is a block diagram showing a configuration example of the information processing device 10.
  • FIG. 6 is a block diagram showing a configuration example of the sensor unit 3.
  • FIG. 7 is a block diagram showing a configuration example of the execution dialogue control unit 13d.
  • FIGS. 5 to 7 (and FIG. 23 shown later), only the components necessary for explaining the features of the embodiment are shown, and the description of general components is omitted.
  • each component shown in FIGS. 5 to 7 (and 23) is a functional concept and does not necessarily have to be physically configured as shown.
  • the specific form of distribution / integration of each block is not limited to the one shown in the figure, and all or part of it may be functionally or physically distributed in arbitrary units according to various loads and usage conditions. It can be integrated and configured.
  • the information processing device 10 is connected to a voice input unit 2, a sensor unit 3, a display unit 4, and a voice output unit 5.
  • the voice input unit 2 is realized by a voice input device such as a microphone.
  • the sensor unit 3 has various sensors for recognizing the user and the situation in which the user is placed. As shown in FIG. 6, the sensor unit 3 includes, for example, a camera 3a, a GPS sensor 3b, an acceleration sensor 3c, a biological information sensor 3d, and a line-of-sight detection sensor 3e.
  • the camera 3a uses, for example, a CMOS (Complementary Metal Oxide Semiconductor) image sensor or a CCD (Charge Coupled Device) image sensor as an image sensor to capture an image for recognizing the user and the situation in which the user is placed. ..
  • the camera 3a is an in-vehicle camera provided so as to be able to take an image of the inside and outside of a taxi.
  • the GPS sensor 3b is a GPS receiver and detects a GPS position based on the received GPS signal.
  • the acceleration sensor 3c detects acceleration in each direction.
  • a three-axis acceleration sensor such as a piezoresistive type or a capacitance type can be used.
  • the biological information sensor 3d detects the user's biological information such as the user's pulse, respiration, and body temperature.
  • the line-of-sight detection sensor 3e detects the user's line of sight.
  • the configuration of the sensor unit 3 shown in FIG. 6 is merely an example, and includes various sensors other than those shown in FIG. 6 as long as it is for recognizing the user and the situation in which the user is placed. May be good.
  • Sensor unit 3 the sensing data from these various sensors are input to the information processing apparatus 10 as the observation context C o mentioned above.
  • the display unit 4 is realized by an image output device such as a display.
  • the audio output unit 5 is realized by an audio output device such as a speaker.
  • the information processing device 10 includes a communication unit 11, a storage unit 12, and a control unit 13.
  • the communication unit 11 is realized by, for example, a NIC (Network Interface Card) or the like.
  • the communication unit 11 is wirelessly or wiredly connected to the server device 100 via the network N, and transmits / receives information to / from the server device 100.
  • the storage unit 12 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory), a ROM (Read Only Memory), or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • a semiconductor memory element such as a RAM (Random Access Memory), a ROM (Read Only Memory), or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 12 stores the recognition model 12a and the unknown word information 12b.
  • the recognition model 12a is a group of models for voice recognition in voice recognition (ASR: Automatic Speech Recognition) processing, which will be described later, meaning understanding in NLU processing, dialogue recognition in execution dialogue control processing, and the like, and is provided by the server device 100. For example, it is generated as a learning model group using a machine learning algorithm such as deep learning.
  • ASR Automatic Speech Recognition
  • the unknown word information 12b will be described with reference to FIG.
  • FIG. 8 is an explanatory diagram of the unknown word information 12b.
  • the unknown word information 12b compared unknown word entity P u, and speech intent I u, the condition context C r, is information linked to the target context C t.
  • Conditions context C r corresponds to the observed context C o at the unknown word entity P u detection. Further, the target context C t corresponds to the observation context Co at the time of executing the utterance intent I u.
  • Unknown word information 12b is the execution dialogue control unit 13d to be described later, it will be registered for each unknown word entity P u.
  • the control unit 13 is a controller, and for example, various programs stored in the storage unit 12 are executed by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like using the RAM as a work area. Is realized by. Further, the control unit 13 can be realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the control unit 13 includes a voice recognition unit 13a, a meaning understanding unit 13b, a context recognition unit 13c, an execution dialogue control unit 13d, a response generation unit 13e, an output control unit 13f, and a transmission unit 13g. Realize or execute the functions and actions of information processing described below.
  • the voice recognition unit 13a performs ASR processing on the voice data input from the voice input unit 2 and converts the voice data into text data. Further, the voice recognition unit 13a outputs the converted text data to the meaning understanding unit 13b.
  • the meaning understanding unit 13b performs meaning understanding processing such as NLU processing on the text data converted by the voice recognition unit 13a, estimates intents and entities (including unknown words), and executes the estimation result Dialogue control. Output to unit 13d.
  • Context recognition unit 13c acquires the sensing data from the sensor unit 3, and outputs the observation context C o to run interactively control unit 13d.
  • the execution dialogue control unit 13d includes an unknown word detection unit 13da, a registration unit 13db, an execution detection unit 13dc, a linking unit 13dd, and an instruction unit 13de.
  • the unknown word detection unit 13da detects an unknown word from the intents and entities (including the unknown word) estimated by the meaning understanding unit 13b.
  • Registration unit 13db are unknown word entities by unknown word detecting portion 13da is when it is detected, and registers the unknown word information 12b as an unknown word entity P u.
  • the registration unit 13db is, the speech intent I u of phrases containing such unknown words entity P u, to register into the unknown word information 12b in association to unknown words entity P u.
  • the registration unit 13db is observed context C o inputted from the context recognition unit 13c at the time of such unknown word detection, and registers the unknown word information 12b in association to unknown words entity P u condition context C r.
  • Execution detection unit 13dc is observed context C o is input from the context recognition unit 13c or, meaning based on the intent and entity input from the understanding unit 13b, speech intent is registered into the unknown word information 12b I u Detects the execution of.
  • Tying section 13dd are unknown word if the execution detector 13dc execution utterance intent I u is detected, the monitoring context C o inputted from the context recognition unit 13c at such a run detection, as the object context C t attach straps to the unknown word entity P u of information 12b.
  • Instruction unit 13de (including unknown word tying already) Intent / entity input from the Interpreter 13b, and observation context C o inputted from the context recognition unit 13c is spoken of unknown word information 12b when matching the intent I u and conditions context C r, instructs the response generating unit 13e to generate a response using the unknown word entity P u which tied to the speech intent I u and conditions context C r ..
  • the response generation unit 13e generates image information and voice information to be presented to the user in accordance with the instruction from the execution dialogue control unit 13d.
  • the output control unit 13f presents the image information generated by the response generation unit 13e to the user via the display unit 4. Further, the output control unit 13f performs a voice synthesis process on the voice information generated by the response generation unit 13e, and presents the voice information to the user via the voice output unit 5.
  • the transmission unit 13g appropriately transmits the unknown word information 12b to the server device 100 via the communication unit 11.
  • the term "appropriate" as used herein may be any time or periodic. Further, the unknown word information 12b may be updated every time.
  • the information processing device 10 detects the unknown word (step S11), registers the unknown word entity Pu "yellow sign” in the unknown word information 12b, and registers the utterance intent I u "turn right” as the unknown word. Entity Pu Register by linking to the "yellow sign”.
  • the information processing apparatus 10 is linked to the observation context C o when such unknown word detecting unknown words entity P u "yellow signboard" is stored as condition context C r (step S12).
  • the information processing device 10 stores the GPS position indicated by the vehicle position mark in the figure (that is, the current location at the time of detecting an unknown word) as the condition context Cr .
  • the information processing apparatus 10 the observation context C o, or on the basis of speech, detects the execution of the speech intent I u registered into the unknown word information 12b (step S13). It should be noted that, here, shows an example of detecting the execution of speech intent I u from the utterance of "and turn to the right" of the driver.
  • the information processing apparatus 10 the observation context C o of execution upon detection of such an utterance intent I u, put string as the target context C t to unknown words entity P u "yellow sign" (step S14).
  • the information processing apparatus 10 is attached cord GPS position indicated pin mark pointing to the intersection position in figure (i.e., the current location of the runtime detected) as the target context C t.
  • the information processing apparatus 10 after such unknown word entity P u unknown word information 12b about the "yellow signboard" is generated, as shown in FIG. 10, the speech intent I u and conditions context C r if they match (step S15), and interprets the object context C t as the real target, it executes information processing corresponding thereto.
  • the information processing apparatus 10 GPS indicated conditions context C r on the way taxi approaches the same intersection
  • the information processing apparatus 10 navigates, for example, "Turn right at the yellow sign” as shown in the figure.
  • the target context of the "yellow sign" is given by saying "pass through the yellow sign”.
  • the GPS position indicated by C t may be specified as the middle passing point of the route search.
  • condition context Cr is the GPS position when the unknown word is detected.
  • condition context Cr is when the unknown word is detected. It may be within a predetermined range (Place) including the GPS position.
  • the by NLU processing attributes relating to the color of the unknown word entity P u are extracted, for example, since it is expected that the appearance of the color of the sign is changed by time zone , such a case, as shown in the drawing, may include a predetermined time zone including the current time when the condition context C r, for example, an unknown word detecting (TimeZone).
  • the information processing apparatus 10 when a plurality of conditions contexts C r is linked to the unknown word entity P u, determines these conditions context C r with AND condition.
  • the attribute of "directivity” should be extracted by NLU processing. Can be done.
  • the predetermined range including the GPS position at the time of unknown word detection in the condition context Cr , for example, within a predetermined angle ⁇ from the traveling direction at the time of unknown word detection. It may be included within the traveling direction range (Angle Range).
  • the phrase "yellow sign" is used for navigation utterances and users only within the predetermined range of (Place) and the traveling direction range of (Angle Range) shown in the figure. It is used for interpreting utterances of. That is, since the directional signboard cannot be seen from the traveling direction that does not match the condition context Cr, the phrase "yellow signboard" is not used in such a case.
  • the condition context C r unlike the case of "Yes directional", the traveling direction range within a predetermined angle ⁇ from the traveling direction when the unknown word detection (AngleRange) is Not included.
  • the chimney is visible from any direction of travel and has no directivity, it can be said that the range of the direction of travel does not matter.
  • the phrase "brown chimney” can be used for navigation utterances, user utterance interpretations, etc., regardless of the traveling direction range, as long as it is within the predetermined range of (Place) shown in the figure. Will be used.
  • condition context C r and the target context C t it is not limited thereto so far.
  • the image captured by the camera 3a such drive recorder may be used as a condition context C r and the target context C t. Examples of such a case are shown in FIGS. 14 to 16.
  • the rectangular portion filled with the dot-shaped pattern represents the “yellow sign”.
  • step S21 it is assumed that an unknown word is detected based on the passenger's utterance "Turn right at the yellow sign" as shown in FIG. 9 (step S21). Then, the unknown word entity Pu "yellow sign” is registered in the unknown word information 12b, and the utterance intent I u "turn right” is registered in association with the unknown word entity Pu "yellow sign”. And.
  • the information processing apparatus 10 associates the captured image of the camera 3a at the time of detecting the unknown word in step S21 with the unknown word entity Pu “yellow sign” and saves it as the condition context Cr. (Step S22).
  • the information processing apparatus 10 the observation context C o, or on the basis of speech, detects the execution of the speech intent I u registered into the unknown word information 12b (step S23).
  • the information processing apparatus 10 a speech intent I captured images of execution upon detection of the camera 3a of u in step S23, an unknown word entity P u as the target context C t to "yellow signboard" Link (step S24).
  • the information processing apparatus 10 after such unknown word entity P u unknown word information 12b about the "yellow signboard" is generated, as shown in FIG. 15, the speech intent I u and conditions context C r if they match (step S25), and interprets the object context C t as the real target, it executes information processing corresponding thereto.
  • the information processing apparatus 10 includes an imaging indicated conditions context C r on the way taxi approaches the same intersection
  • the information processing apparatus 10 navigates, for example, "Turn right at the yellow signboard” as shown in the figure.
  • the information processing apparatus 10 as shown in FIG. 16, for example, an image of the conditions context C r, is superimposed on the image and the arrow of the object context C t.
  • the display at this time may be projected onto, for example, a windshield so that the driver can visually recognize it while driving. As a result, route guidance to the driver can be easily understood not only by voice but also visually.
  • the display example shown in FIG. 16 is merely an example, and does not limit the display form.
  • the arrow does not necessarily have to be displayed.
  • the condition context Cr and the target context Ct are not limited to the captured image of the camera 3a, but are, for example, an image displayed in the display area of the navigation screen. May be good.
  • the information processing apparatus 10 from the image captured by the camera 3a, when image recognition of scene corresponding to the captured image indicated by the condition context C r, for example, the "Yellow kanban" is not always necessary to analyze to color. This has the advantage that the processing load can be reduced. Of course, even the color may be analyzed.
  • FIG. 17 is a flowchart showing a processing procedure in the case of utterance for humans.
  • the unknown word detection unit 13da detects the unknown word entity P u conversations between people (step S101). Then, the registration unit 13db, together with the unknown word entity P u, and stores the speech intent I u speech including the unknown word entity P u unknown word information 12b (step S102).
  • the registration unit 13db then stores the unknown word information 12b observation context C o at the unknown word entity P u detection condition context C r (step S103).
  • execution detector 13dc detects the execution of the speech intent I u from the observation context C o or conversation (step S104).
  • the tying portion 13dd is unknown word information 12b observation context C o during speech intent I u run as object context C t Is stored in (step S105).
  • the transmission unit 13g is a unknown word information 12b, i.e., transmits utterance intent I u for unknown words entity P u, conditions context C r, the target context C t to the server apparatus 100 (step S106), processing finish.
  • Step S107 when the execution of the observation context C o or speech intent I u the conversation is not detected (step S104, No), whether a predetermined time has elapsed, or whether a condition outside the range of conditional context C r is determined (Step S107).
  • the predetermined period of time has not elapsed, and, when it is determined to be within the range of conditions condition context C r (step S107, No), the process is repeated from step S104.
  • a predetermined time has elapsed, or when it is determined that the condition outside the range of conditional context C r (step S107, Yes), the process ends.
  • FIG. 18 is an explanatory diagram of unknown word information 12b according to a modified example.
  • the information processing apparatus 10 shows as shown in FIG.
  • the intent is registered in the unknown word information 12b as an unknown word intent IPu.
  • the information processing apparatus 10 associates the utterance entity Eu , the conditional context Cr, and the execution function with the unknown word intent IP u.
  • the utterance entity Eu is a phrase estimated as a known entity in the user's utterance.
  • the conditions context C r of such a case corresponds to the observed context C o at the unknown word intent IP u detection.
  • the execution function corresponds to the observation context C o during function execution that target utterance entity E u.
  • the registration unit 13db registers the unknown word intent IP u and speech entities E u unknown word information 12b.
  • the registration unit 13db is, the observation context C o at the time of the unknown word intent IP u detection together, be registered in association to unknown words intent IP u as a condition context C r.
  • execution detector 13dc is, if the ability to target utterance entity E u based on the observation context C o is detected that is performed, an unknown word intent tying section 13dd is as an execution function that function It will be linked to IP u. As a result, the information processing apparatus 10 can dynamically acquire the execution function of the unknown word intent IPu.
  • unknown words by intent IP u is also integrated execution function and tied, the entire speech UI that can be interpreted and expressions vocabulary automatically This will lead to an improvement in dialogue performance itself.
  • processing content in the case of utterance for the system
  • processing explanatory diagrams No. 1 to (No. 3) in the case of utterance for a system.
  • a case of utterance for a system a case where the user U selects an image with a voice browser will be taken as an example.
  • the case where the unknown word is an entity will be described as a main example.
  • the user U selects an image on the voice browser by using an information processing device 10 such as a notebook PC that can use the voice browser.
  • the information processing device 10 can be connected to the Internet and can also communicate with the server device 100.
  • the information processing device 10 detects the unknown word (step S31), registers the unknown word entity Pu " ⁇ " in the unknown word information 12b, and registers the utterance intent I u "show a picture” as the unknown word. Register by associating with entity Pu " ⁇ ".
  • the information processing apparatus 10 is linked to the observation context C o when such unknown word detecting unknown words entity P u " ⁇ " is stored as condition context C r (step S32).
  • the information processing apparatus 10 stores the user U URL site browsing (Uniform Resource Locator) as the condition context C r.
  • the information processing apparatus 10 the user U to be presented by giving a number to all images that can be the execution target utterance intent I u in the site (step S33). Then, the user U is inquired to prompt the user to select an image (see "What number of photo?" In the figure).
  • the information processing apparatus 10 uses the observation context Co , that is, the selected image as the target context Ct. Link to the unknown word entity Pu " ⁇ " (step S34).
  • the information processing apparatus 10 after the unknown word information 12b regarding such unknown word entity P u "hundred" is generated, as shown in FIG. 21, the speech intent I u and conditions context C r if they match (step S35), interprets the object context C t as the real target, executes information processing corresponding thereto.
  • step S36 when the user U is uttered as "Show me the ⁇ photos" while browsing the same site at another time, such as, the information processing apparatus 10, has been selected the "hundred" unknown word entity P u It is used as an image tag (step S36) and is used as an image search tag when interpreting an utterance.
  • the unknown word information 12b is transmitted to the server device 100, and as a result of statistical processing performed in the server device 100, a predetermined number or more of unknown word entities Pu " ⁇ " are registered for different public images. It shall be.
  • the server device 100 executes machine learning using the unknown word entity Pu “ ⁇ ” as a recognition label (step S37), generates an image recognizer as one of the recognition models 12a, and distributes it (step). S38). Step S37 and step S38 will be described in more detail later with reference to FIGS. 27 and 28.
  • condition context Cr is the URL of the site being browsed by the user U, but the URL is not limited to this, and for example, the captured image of the attendant O may be used as the condition context Cr. good.
  • the condition context Cr good.
  • family members it is possible to viewing or the like of content that is conditional context C r that you have the specific members.
  • FIG. 22 is a flowchart showing a processing procedure in the case of utterance for a system.
  • the unknown word detection unit 13da detects the unknown word entity P u utterance instruction to the system (step S201). Then, the registration unit 13db, together with the unknown word entity P u, and stores the speech intent I u speech including the unknown word entity P u unknown word information 12b (step S202).
  • the registration unit 13db then stores the unknown word information 12b observation context C o at the unknown word entity P u detection condition context C r (step S203).
  • step S204 run interactively control unit 13d, and numbered to all observations contexts C o that can be the execution target utterance intent I u be presented to the user (step S204). Then, execution detector 13dc detects that the user selects one of the observation context C o (step S205).
  • the instruction unit 13de is to execute the spoken intent I u user has selected a candidate (step S206).
  • the linking portion 13dd is to be stored in the unknown word information 12b observation context C o selected by the user as the target context C t (step S207).
  • the transmission unit 13g is a unknown word information 12b, i.e., transmits utterance intent I u for unknown words entity P u, conditions context C r, the target context C t to the server apparatus 100 (step S208), processing finish.
  • step S205 If the user does not select (step S205, No), it is determined whether a certain time has elapsed or the condition context Cr is out of the condition range (step S209).
  • Conditions Conditions outside context C r referred to here is, for example, such as when the user moves the site to view thereof.
  • the predetermined period of time has not elapsed, and, when it is determined to be within the range of conditions condition context C r (step S209, No), the process is repeated from step S205.
  • a predetermined time has elapsed, or when it is determined that the condition outside the range of conditional context C r (step S209, Yes), the process ends.
  • FIG. 23 is a block diagram showing a configuration example of the server device 100 according to the embodiment of the present disclosure.
  • the server device 100 includes a communication unit 101, a storage unit 102, and a control unit 103.
  • the communication unit 101 is realized by, for example, a NIC or the like.
  • the communication unit 101 is wirelessly or wiredly connected to each of the information processing devices 10 via the network N, and transmits / receives information to / from the information processing device 10.
  • the storage unit 102 is realized by, for example, a semiconductor memory element such as a RAM, ROM, or a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 102 stores the unknown word information DB (database) 102a, the statistical information 102b, and the recognition model DB 102c.
  • the unknown word information DB 102a is a database that collects the unknown word information 12b collected from each information processing device 10 by the collection unit 103a described later.
  • the statistical information 102b is information regarding the statistical result of the statistical processing executed by the statistical processing unit 103b, which will be described later.
  • the recognition model DB 102c is a database of the recognition model 12a generated by the learning unit 103d described later and distributed to each information processing device 10.
  • the control unit 103 is a controller like the control unit 13 described above, and is realized by, for example, executing various programs stored in the storage unit 102 by a CPU, an MPU, or the like using the RAM as a work area. .. Further, the control unit 103 can be realized by, for example, an integrated circuit such as an ASIC or an FPGA, similarly to the control unit 13 described above.
  • the control unit 103 has a collection unit 103a, a statistical processing unit 103b, a determination unit 103c, a learning unit 103d, and a distribution unit 103e, and realizes or executes the information processing functions and actions described below.
  • the collecting unit 103a collects the unknown word information 12b from each information processing device 10 via the communication unit 101, and accumulates the unknown word information DB 102a in the unknown word information DB 102a.
  • the statistical processing unit 103b executes predetermined statistical processing based on the unknown word information 12b accumulated in the unknown word information DB 102a, and outputs the statistical result as the statistical information 102b.
  • the determination unit 103c determines the applicable range of the unknown word information 12b based on the statistical information 102b. Further, the determination unit 103c determines whether the recognition model 12a (for example, the image recognizer described above) needs to be updated based on the statistical information 102b.
  • the recognition model 12a for example, the image recognizer described above
  • the learning unit 103d When the determination unit 103c determines that the recognition model 12a needs to be updated, the learning unit 103d performs a learning process using a predetermined machine learning algorithm based on the unknown word information 12b accumulated in the unknown word information DB 102a. It is executed and the recognition model 12a which is the update target in the recognition model DB 102c is updated.
  • the distribution unit 103e distributes the unknown word information 12b to be distributed in the unknown word information DB 102a to each information processing device 10 via the communication unit 101 based on the determination result of the determination unit 103c. Further, the distribution unit 103e distributes the recognition model 12a, which is the distribution target in the recognition model DB 102c, updated by the learning unit 103d, to each information processing device 10 via the communication unit 101.
  • FIG. 24 is an explanatory diagram of a determination process executed by the determination unit 103c. Note that FIG. 24 also shows an example of statistical information 102b. In the following description, given as described in the case of a "System for speech", the case where the selected image is tied as the target context C t unknown words entity P u as an example.
  • the statistical information 102b includes, for example, an “ID” item, a “ Pu ” item, a “ Cr ” item, a “ Ct ” item, and a “registered number” item.
  • the identifier of each association result is stored in the "ID” item.
  • the unknown word entity Pu is stored in the " Pu " item.
  • the condition context Cr is stored in the "Cr” item.
  • the target context C t is stored.
  • the "number of registrations" item stores the total number of registrations of each linking result within a certain period in the past.
  • the number of registrations may be rephrased as the number of uses.
  • the "predetermined number” in the figure is the specified number of registered numbers. When the number of registrations is equal to or greater than the predetermined number, the determination unit 103c applies the corresponding association result to the entire system. In FIG. 24, the predetermined number is set to “50” as an example.
  • the determination unit 103c is applied to the entire association result of the IDs "01" to "03" in which the number of registrations in the past fixed period is equal to or more than the predetermined number.
  • the determination unit 103c when linking result is highly dependent on the specific conditions context C r determines to apply not remove the condition context C r. In contrast, the determination unit 103c, when linking result is low dependence on specific conditions context C r determines to apply and remove the condition context C r.
  • the determination unit 103c determines that the association result of the ID "11" whose number of registrations is less than a predetermined number within a certain period in the past is suppressed from being applied to the whole.
  • the erroneous registration may be a case where a malicious person makes a mistake intentionally, or a case where a malicious person intentionally makes a mistake. In order to deter it, it can be said that even if a malicious person makes a mistake on purpose, it is unlikely to be applied to the whole.
  • FIG. 25 is a diagram (No. 1) showing an example of dialogue processing for holding or destroying the association.
  • FIG. 26 is a diagram (No. 2) showing an example of dialogue processing for holding or destroying the association.
  • FIG. 25 corresponds to the continuation of FIG. 20 already shown.
  • the correct answer image to be associated with the unknown word entity Pu " ⁇ " is No. 1, but for example, it is assumed that there is a small amount of data (less than the above-mentioned predetermined number) associated with the image No. 4 due to malicious intent. do.
  • the information processing device 10 receives the information processing device 10. For example, an inquiry is made to the user U, "Then, is No. 4 also XX?".
  • the information processing device 10 holds the association between the unknown word entity Pu " ⁇ " and the image No. 4. As a result, for example, it is possible to reduce the possibility of erroneous association by a malicious person.
  • steps S37 and S38 described with reference to FIG. 21 will be described more specifically with reference to FIGS. 27 and 28. That is, the unknown word information 12b is linking result is transmitted to the server apparatus 100, the result of the statistical processing performed in the server device 100, the tying more than a predetermined number for a particular unknown word entity P u is a public different image If it is.
  • the server device 100 executes machine learning using the corresponding unknown word entity Pu as a recognition label, and generates and distributes an image recognizer as one of the recognition models 12a.
  • FIG. 27 is a diagram (No. 1) showing an application example of automatic update by the area of the image recognizer.
  • FIG. 28 is a diagram (No. 2) showing an application example of automatic update by the area of the image recognizer.
  • Area a is, for example, an area where the penetration rate of liquid soap is high.
  • area b is, for example, an area where the penetration rate of solid soap is high.
  • the server device 100 executes machine learning with the learning unit 103d as the recognition label, and causes the image recognizer A to perform machine learning. Generate.
  • the server device 100 distributes this to each information processing device 10 in the area a, and when the information processing device 10 in the area a inputs an image of liquid soap as a recognition target image into the image recognizer A, it is displayed as "sink". The recognition result of is obtained.
  • the image recognizer A is generated by machine learning executed using the image of liquid soap as teacher data. Therefore, even if the image recognizer A is distributed to each information processing device 10 in the area b and an image of solid soap is input to the image recognizer A as the image to be recognized, the recognition result of "soap" is obtained. Can't.
  • the server apparatus 100 the unknown word information 12b of the relevant unknown word information DB 102a, if it marked "area a" string condition context C r, for example, the phrase "soaps", distribution target of the image recognition unit A Is only area a.
  • the phrase "soap" is more likely to be tagged with images of different public solid soaps. Therefore, if a predetermined number or more of images of solid soap tagged with the phrase "soap" are collected, the server device 100 will execute machine learning with the "soap” as a recognition label by the learning unit 103d. However, if an image recognizer A (see FIG. 27) having the same phrase “soap” as a recognition label already exists, the learning unit 103d executes update learning and outputs the image recognizer A ′.
  • the server device 100 distributes this to each information processing device 10 in the area b, and when the information processing device 10 in the area b inputs an image of solid soap as a recognition target image into the image recognizer A', it becomes " The recognition result of "soap" will be obtained.
  • the server apparatus 100 by executing the update learning based on the image of the solid soap area b, hitherto unknown word information was attached string to the phrase "soap" as a condition context C r in 12b 'area a It can be judged that the dependence on "has decreased. Then, in this case, the server device 100 removes the "area a" from the conditions.
  • the server apparatus 100 if thus condition "area a" from the context C r Hazurere, a distribution target of the image recognition unit A 'can be just no example all areas area b. Then, if the server device 100 delivers the image recognizer A'to, for example, the area a, and the information processing device 10 in the area a inputs an image of liquid soap or solid soap as a recognition target image to the image recognizer A, any of these In some cases, the recognition result of "soap" can be obtained.
  • the information processing apparatus 10 which is realized by the TV or PC or the like detects the unknown word entity P u " ⁇ ", such an unknown word entity P u " ⁇ ", the condition context C r Associate the attendant O and the time zone in the hall. Then, the information processing apparatus 10 is actually when the program is video content or a channel selection has been or is reproduced, giving further string programs and reproduced video content that has been tuned as the target context C t.
  • the information processing device 10 uses the unknown word entity Pu "XX" as the program or video content. Can be interpreted as.
  • the information processing device 10 realized by, for example, a smartphone or the like can set the context of the conversation between people immediately before, the person in the place, the place, etc. as the conditional context Cr .
  • the information processing apparatus 10 detects the unknown word entity P u "as something delicious", with respect to such an unknown word entity P u "as something delicious” string and contingent upon the context C r example sit person O and Shinagawa like wear.
  • the information processing device 10 targets the "store of ⁇ ". Further linked as C t.
  • the information processing device 10 interprets the unknown word entity Pu "something delicious” as "a store of ⁇ ". It can be presented as a first candidate in, for example, a search for a restaurant.
  • the content selected by the user U from the plurality of presented candidates is linked as the target context Ct.
  • the unknown word entity P u may be linked to known phrase text that the user U is selected as a target context C t.
  • the information processing apparatus 10 if the unknown word entity P u is detected, such unknown word entity P u, it is possible to interpret the known phrase synonyms.
  • the case where the intent described with reference to FIG. 18 is an unknown word may be applied even in the case of utterance for a system.
  • the information processing device 10 associates the utterance entity Eu , the conditional context Cr, and the execution function with the detected unknown word intent IP u.
  • the information processing device 10 presents candidates for functions that can be executed by the system for the utterance entity Eu, and executes the utterance to the user U. Make inquiries prompting you to select a function.
  • the cord if you select the function that the user U performs response to the inquiry, the information processing apparatus 10, the observation context C o, i.e. the selected execution function, as a target context C t unknown words intent IP u wear.
  • the information processing apparatus 10 in the case of the system for speech may dynamically acquire the execution functions of the unknown word intent IP u.
  • an unknown word is detected from the text input by the spoken language
  • the present invention is not limited to this, and the input may be performed by the natural language. Therefore, for example, an unknown word may be detected from the message of the message application. In addition, for example, an unknown word may be detected from an article published on the Web.
  • each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically dispersed / physically distributed in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • the unknown word detection unit 13da and the execution detection unit 13dc shown in FIG. 7 may be integrated.
  • the registration unit 13db and the association unit 13dd also shown in FIG. 7 may be integrated.
  • the server device 100 may execute each function executed by the control unit 13 of the information processing device 10 shown in FIG. 7.
  • the information processing device 10 used by the user U includes a voice input unit 2, a sensor unit 3, a display unit 4, a voice output unit 5, and a communication unit 11, and is connected to the server device 100 via the network N.
  • Information is transmitted and received, and the execution result of each function in the server device 100 is presented to the user U through a dialogue with the user U, so to speak, it functions as a voice UI device.
  • FIG. 29 is a hardware configuration diagram showing an example of a computer 1000 that realizes the functions of the information processing device 10.
  • the computer 1000 includes a CPU 1100, a RAM 1200, a ROM 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600. Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200 and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program that depends on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by the program.
  • the HDD 1400 is a recording medium for recording an information processing program according to the present disclosure, which is an example of program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as MO (Magneto-Optical disk)
  • tape medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • MO Magneto-optical disk
  • the CPU 1100 of the computer 1000 executes the information processing program loaded on the RAM 1200 to perform the voice recognition unit 13a, the meaning understanding unit 13b, and the context. Functions such as a recognition unit 13c, an execution dialogue control unit 13d, a response generation unit 13e, an output control unit 13f, and a transmission unit 13g are realized. Further, the information processing program according to the present disclosure and the data in the storage unit 12 are stored in the HDD 1400. The CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • the information processing apparatus 10 detects an unknown word, which is an unknown phrase, from a text input in natural language. (Corresponding to an example of the "detection unit”), an execution detection unit 13dc (corresponding to an example of the "second detection unit”) that detects the occurrence of an event related to a known phrase contained in the text, and the unknown word.
  • the observation context C o indicating the status at the time of detection of such an unknown word as a condition context C r
  • the observation context C o indicating the status of the occurrence of the event as an object context C t
  • the linking portion 13dd put string respectively, To be equipped.
  • unknown words can be efficiently linked to the actual object without imposing a load on the user.
  • the present technology can also have the following configurations.
  • a first detector that detects unknown words, which are unknown phrases, from text input in natural language
  • a second detector that detects the occurrence of an event related to a known phrase contained in the text
  • a linking unit that associates the unknown word with an observation context indicating the situation at the time of detection of the unknown word as a conditional context and an observation context indicating the situation at the time of occurrence of the event as a target context.
  • Information processing device is A phrase that does not exist in the dictionary information used in the NLU processing of the text, or a phrase that exists in the dictionary information but cannot uniquely identify the actual object corresponding to the phrase in the information processing based on the text is detected as the unknown word. do, The information processing device according to (1) above.
  • the first detection unit is Detecting the unknown word from the text entered through the user's conversation, The information processing device according to (1) or (2) above.
  • the first detection unit is The unknown word is detected from the text input as an utterance instruction from the user.
  • the second detection unit is When the unknown word detected by the first detection unit is a phrase extracted as an entity via the NLU process, the execution of the intent extracted via the NLU process is detected.
  • the tying part is The observation context at the time of detecting the unknown word is associated with the unknown word as the condition context, and the observation context at the time of executing the intent is associated with the target context.
  • the information processing device according to (2) above.
  • the tying part is When a moving situation is observed, the unknown word is associated with position information indicating a predetermined range including the current position at the time of detection of the unknown word as the condition context, and the present at the time of execution of the intent. Link the observation context indicating the position as the target context, The information processing device according to (5) above. (7) The tying part is An observation context indicating the time zone at the time of detection of the unknown word is associated with the unknown word as the condition context. The information processing device according to (5) or (6) above. (8) The tying part is When a moving situation is observed and an attribute of directivity is extracted from the unknown word through the NLU processing, a predetermined angle is determined with respect to the unknown word from the traveling direction when the unknown word is detected.
  • An observation context indicating the range of travel direction within the range is associated with the condition context.
  • the information processing device according to (5), (6) or (7) above.
  • the tying part is The captured image at the time of detecting the unknown word is associated with the unknown word as the condition context, and the captured image at the time of executing the intent is associated with the target context.
  • the information processing device according to any one of (5) to (8) above.
  • the second detection unit is When the unknown word detected by the first detection unit is a phrase extracted as an entity via the NLU process, all the intents extracted via the NLU process can be executed. After presenting the candidates to the user, it is detected that the user has selected one of the candidates.
  • the tying part is The observation context at the time of detecting the unknown word is associated with the unknown word as the condition context, and the candidate selected by the user is associated with the target context.
  • the second detection unit is Execution of a function targeting an entity extracted through the NLU process when the unknown word detected by the first detection unit is a phrase extracted as an intent via the NLU process.
  • Detected and The tying part is The observation context at the time of detecting the unknown word is associated with the unknown word as the condition context, and the function is associated with the target context.
  • the information processing device according to (2) above. (12) It is further provided with a transmission unit that transmits the association result by the association unit to the server device.
  • the server device When it is determined that the unknown word has not been used in a predetermined number or more in the same conditional context and the target context as the linking result within a certain period in the past based on the statistical result of the linking result. Suppress the delivery of the linking result, The information processing device according to any one of (1) to (11). (13) The server device When it is determined that the dependence of the unknown word on a specific condition context has decreased based on the statistical result of the association result, the association of the specific condition context with the unknown word is canceled. The information processing device according to (12) above.
  • a first detector that detects unknown words, which are unknown phrases, from text input in natural language
  • a second detector that detects the occurrence of an event related to a known phrase contained in the text
  • a linking unit that associates the unknown word with an observation context indicating the situation at the time of detection of the unknown word as a conditional context and an observation context indicating the situation at the time of occurrence of the event as a target context.
  • the indicator When generating a response using the unknown word, an image representing the conditional context associated with the unknown word and an image representing the target context associated with the unknown word are generated so as to be visible to the user. Let, let The information processing device according to (14) above. (16) Detecting unknown words, which are unknown phrases, from text entered in natural language, To detect the occurrence of an event related to a known phrase contained in the text, The unknown word is associated with the observation context indicating the situation at the time of detection of the unknown word as the conditional context and the observation context indicating the situation at the time of the occurrence of the event as the target context. Information processing methods, including.
  • the indicator Occurrence of a conditional context, which is an observation context indicating the situation at the time of detection of the unknown word, and an event related to the known phrase included in the text, which are associated with the unknown word which is an unknown phrase detected from the text.
  • a conditional context which is an observation context indicating the situation at the time of detection of the unknown word
  • an event related to the known phrase included in the text which are associated with the unknown word which is an unknown phrase detected from the text.
  • the above instructions are Occurrence of a conditional context, which is an observation context indicating the situation at the time of detection of the unknown word, and an event related to the known phrase included in the text, which are associated with the unknown word which is an unknown phrase detected from the text.
  • a conditional context which is an observation context indicating the situation at the time of detection of the unknown word
  • an event related to the known phrase included in the text which are associated with the unknown word which is an unknown phrase detected from the text.
  • Information processing system 10 Information processing device 11 Communication unit 12 Storage unit 12a Recognition model 12b Unknown word information 13 Control unit 13a Voice recognition unit 13b Meaning understanding unit 13c Context recognition unit 13d Execution dialogue control unit 13da Unknown word detection unit 13db Registration unit 13dc Execution detection unit 13dd Linking unit 13de Instruction unit 13e Response generation unit 13f Output control unit 13g Transmission unit 100 Server device 101 Communication unit 102 Storage unit 102a Unknown word information DB 102b Statistical information 102c Recognition model DB 103 Control unit 103a Collection unit 103b Statistical processing unit 103c Judgment unit 103d Learning unit 103e Distribution unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

情報処理装置は、自然言語により入力されたテキストから未知のフレーズである未知語を検出する第1の検出部(13da)と、上記テキストに含まれる既知のフレーズに関する事象の発生を検出する第2の検出部(13dc)と、上記未知語に対し、かかる未知語の検出時の状況を示す観測コンテキスト(Co)を条件コンテキスト(Cr)として、上記事象の発生時の状況を示す観測コンテキスト(Co)を対象コンテキスト(Ct)として、それぞれ紐付ける紐付け部(13dd)と、を備える。

Description

情報処理装置及び情報処理方法
 本開示は、情報処理装置及び情報処理方法に関する。
 従来、対話型の音声UI(User Interface)を介し、ユーザの発話内容に応じた各種の情報処理を実行する情報処理装置が知られている。かかる情報処理装置では、例えば自然言語理解(NLU:Natural Language Understanding)処理を介して、ユーザの発話内容からユーザの意図を示す「インテント」と、かかるインテントに対応する動作のパラメータとなる「エンティティ」とを推定し、その推定結果に基づいて情報処理を実行する。
 なお、ユーザの発話内容に未知のフレーズ(以下、「未知語」という)が含まれていると、インテントやエンティティを推定することができない。このため、かかる情報処理装置の開発・設計工程においては、NLUのエンティティ登録や、画像や地図座標等へのタグ情報の付与といった、言語的なフレーズを実対象に紐付ける学習作業が例えば人手により行われる。
 ただし、言語的なフレーズというものは、膨大に存在するのはもちろんのこと、時間の経過とともに変化するのが常である。したがって、上述したような人手による学習作業では、膨大なコストがかかるうえに、フレーズの変化に追従するのにも限界がある。
 そこで、ユーザの発話内容に基づいて未知語を学習する学習モードと、学習した未知語に対応した各種情報処理を実行する実行モードとを有し、ユーザ自身に学習作業を行わせることで学習効率の向上を図る情報処理装置が提案されている(例えば、特許文献1参照)。
国際公開第2009/028647号
 しかしながら、上述した従来技術には、ユーザに負荷を与えることなく、効率よく未知語を実対象へ紐付けるうえで、さらなる改善の余地がある。
 具体的には、上述した従来技術を用いた場合、ユーザは明示的に学習モードと実行モードとを切り替えて発話を学習または実行させる必要がある。このため、ユーザにとっては負荷が高く、学習効率も低い。
 そこで、本開示では、ユーザに負荷を与えることなく、効率よく未知語を実対象へ紐付けることができる情報処理装置及び情報処理方法を提案する。
 本開示によれば、自然言語により入力されたテキストから未知のフレーズである未知語を検出する第1の検出部と、前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第2の検出部と、前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、を備える情報処理装置が提供される。
 また、本開示によれば、自然言語により入力されたテキストから未知のフレーズである未知語を検出する第1の検出部と、前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第2の検出部と、前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示する指示部と、を備える情報処理装置が提供される。
 また、本開示によれば、自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、を含む情報処理方法が提供される。
 また、本開示によれば、自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示することと、を含む情報処理方法が提供される。
本開示の実施形態に係る情報処理方法の概要説明図(その1)である。 本開示の実施形態に係る情報処理方法の概要説明図(その2)である。 用語の説明図である。 本開示の実施形態に係る情報処理システムの構成例を示す図である。 本開示の実施形態に係る情報処理装置の構成例を示すブロック図である。 センサ部の構成例を示すブロック図である。 実行対話制御部の構成例を示すブロック図である。 未知語情報の説明図である。 人向け発話の場合の処理説明図(その1)である。 人向け発話の場合の処理説明図(その2)である。 人向け発話の場合の処理説明図(その3)である。 人向け発話の場合の処理説明図(その4)である。 人向け発話の場合の処理説明図(その5)である。 人向け発話の場合の処理説明図(その6)である。 人向け発話の場合の処理説明図(その7)である。 人向け発話の場合の処理説明図(その8)である。 人向け発話の場合の処理手順を示すフローチャートである。 変形例に係る未知語情報の説明図である。 システム向け発話の場合の処理説明図(その1)である。 システム向け発話の場合の処理説明図(その2)である。 システム向け発話の場合の処理説明図(その3)である。 システム向け発話の場合の処理手順を示すフローチャートである。 本開示の実施形態に係るサーバ装置の構成例を示すブロック図である。 判定部が実行する判定処理の説明図である。 紐付けを保持または破棄する対話処理例を示す図(その1)である。 紐付けを保持または破棄する対話処理例を示す図(その2)である。 画像認識器のエリアによる自動更新の応用例を示す図(その1)である。 画像認識器のエリアによる自動更新の応用例を示す図(その2)である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後にハイフン付きの異なる数字を付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じて情報処理装置10-1及び情報処理装置10-2のように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、情報処理装置10-1及び情報処理装置10-2を特に区別する必要がない場合には、単に情報処理装置10と称する。
 また、以下に示す項目順序に従って本開示を説明する。
  1.概要
   1-1.本実施形態の比較例における問題点
   1-2.本実施形態の概要
  2.情報処理システムの構成
   2-1.全体構成
   2-2.情報処理装置の構成
   2-3.実行対話制御部の構成
   2-4.処理内容の具体例(人向け発話の場合)
   2-5.処理内容の具体例(システム向け発話の場合)
   2-6.サーバ装置の構成
   2-7.画像認識器のエリアによる自動更新の応用例
  3.変形例
   3-1.人向け発話の場合の変形例
   3-2.システム向け発話の場合の変形例
   3-3.その他の変形例
  4.ハードウェア構成
  5.むすび
<<1.概要>>
 図1は、本開示の実施形態に係る情報処理方法の概要説明図(その1)である。また、図2は、本開示の実施形態に係る情報処理方法の概要説明図(その2)である。なお、図1は、本開示の実施形態の比較例における問題点を示すものとなっている。
<1-1.本実施形態の比較例における問題点>
 図1に示すように、比較例に係る情報処理システム1’は、1以上の情報処理装置10’と、サーバ装置100’とを含む。情報処理装置10’は、ユーザがそれぞれ使用する機器であり、音声UIを介し、ユーザの発話内容に応じた各種の情報処理を実行する。
 なお、情報処理装置10’は、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット端末や、携帯電話機や、PDA(Personal Digital Assistant)等である。また、情報処理装置10’は、例えば、ユーザが装着するウェアラブル端末や、車両に搭載されるナビゲーション装置、ドライブレコーダ等の車載装置である。
 サーバ装置100’は、例えばクラウドサーバとして構成され、NLU処理等に用いられる認識モデルを生成および更新して、情報処理装置10’へ配信する。認識モデルは、図1に示すように、例えば言語的なフレーズと実対象とを紐付けた学習情報を含む。
 ところで、こうした言語的なフレーズを実対象に紐付ける学習作業は、情報処理システム1’の開発・設計工程や、運用工程等において、例えば人手により行われる。ただし、言語的なフレーズというものは、膨大に存在するのはもちろんのこと、時間の経過とともに変化するのが常である。
 したがって、情報処理システム1’においては、新たな未知語を常に実対象へ紐付ける必要があるとも言え、上述したような人手による学習作業では、膨大なコストがかかるうえに、フレーズの変化に追従するのにも限界がある。
 なお、ユーザの発話内容に基づいて未知語を学習する学習モードと、学習した未知語に対応した各種情報処理を実行する実行モードとを有し、ユーザ自身に学習作業を行わせることができる情報処理装置10’もある。ただし、かかる装置を用いる場合、ユーザは明示的に学習モードと実行モードとを切り替えて発話を学習または実行させる必要があり、ユーザにとっては負荷が高く、学習効率も低い。
<1-2.本実施形態の概要>
 そこで、本開示の実施形態に係る情報処理方法では、自然言語により入力されたテキストから未知のフレーズである未知語を検出し、テキストに含まれる既知のフレーズに関する事象の発生を検出し、未知語に対し、かかる未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、上記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることとした。
 具体的には、図2に示すように、実施形態に係る情報処理方法では、音声UIの実際の使用過程で動的に未知語を実対象へ紐付ける(ステップS1)。図2に示すのは、情報処理装置10が、例えばタクシーに搭載されたナビゲーション装置に相当する情報処理装置10-1である場合である。
 かかる場合、情報処理装置10は、タクシーの乗客と運転手との会話からエンティティと推定される未知語が検出された場合に、かかる未知語を含む発話中の発話インテントを保持するとともに、未知語検出時の観測コンテキストを条件コンテキストとして保持する。ここで、観測コンテキストは、ユーザおよびユーザの置かれている状況を認識するための認識情報であり、例えばタクシーに搭載された各種のセンシングデバイスによるセンシングデータである。
 そして、情報処理装置10は、保持した発話インテントが実行された場合に、かかる実行時の観測コンテキストを、未知語の実対象に対応する対象コンテキストとして未知語に紐付ける。
 一例として、情報処理装置10は、乗客が「黄色い看板を右へ曲がって」と発話し、フレーズ「黄色い看板」が未知語として検出された場合に、「右へ曲がる」を発話インテントとして保持するとともに、フレーズ「黄色い看板」検出時の観測コンテキストを条件コンテキストとして保持する。ここでの条件コンテキストは、例えば、フレーズ「黄色い看板」検出時のGPS(Global Positioning System)位置が示す現在地である。
 そして、情報処理装置10は、観測コンテキストまたはユーザの発話から、タクシーが実際に「右へ曲がる」ことを検出した場合に、かかる検出時の観測コンテキストを、フレーズ「黄色い看板」の実対象に対応する対象コンテキストとしてフレーズ「黄色い看板」に紐付ける。ここでの対象コンテキストは、例えば、「右へ曲がる」実行時のGPS位置が示す現在地である。
 これにより、情報処理装置10は、動的にフレーズ「黄色い看板」の実対象を獲得することができる。
 なお、対象コンテキストが紐付けられた未知語は、以後、ユーザの発話等に当該未知語が含まれた場合に、上述した発話インテントおよび条件コンテキストが一致した状況に遭遇すれば、当該未知語に紐付いている対象コンテキストを実対象として解釈し、これに応じた情報処理を実行する。
 例えば上述した「黄色い看板」の例で、紐付け後の別の機会に、同タクシーが当該「黄色い看板」のある交差点を「右へ曲がる」経路に沿って走行中であるものとする。かかる場合、情報処理装置10は、タクシーが同交差点に差し掛かる途中でフレーズ「黄色い看板」検出時のGPS位置へ到達したならば、例えば「100m先を右へ曲がってください」ではなく、「黄色い看板を右へ曲がってください」とナビゲーションする。
 かかるタクシー内のユーザ同士の会話、すなわち人へ向けた発話に基づく未知語の学習例および適用例の詳細については、図3~図18を用いた説明で後述する。また、実施形態に係る情報処理方法では、人へ向けた発話に限らず、システムへ向けた発話に基づいても未知語の学習および適用を行うことができる。かかる詳細については、システムに向けた発話に対する変形例として、図19~図22を用いた説明で後述する。
 そして、実施形態に係る情報処理方法では、サーバ装置100が、ステップS1で実行された紐付け結果を収集し、統計処理を実行する(ステップS2)。そして、サーバ装置100は、統計結果に応じて紐付け結果を他の情報処理装置10へ適用する(ステップS3)。
 例えばサーバ装置100は、上述した「黄色い看板」の例で、過去の一定期間内に同一の条件コンテキストおよび対象コンテキストで所定数以上使用されている(関連性が高い)ことを検出すると、かかる「黄色い看板」の紐付け結果をシステム全体へ配信する。なお、このとき、サーバ装置100は、「黄色い看板」のように位置に対するフレーズタグであれば、例えばマップベンダ等に配信することも可能である。
 また、仮に、「黄色い看板」の実体が撤去されてなくなったとしても、フレーズ「黄色い看板」は発話されなくなることで、統計上、「黄色い看板」の紐付けデータは数が減り、システム全体へは配信されなくなる。
 かかるサーバ装置100が実行するステップS2およびステップS3の詳細については、図23~図28を用いた説明で後述する。
 このように、実施形態に係る情報処理方法では、自然言語により入力されたテキストから未知のフレーズである未知語を検出し、テキストに含まれる既知のフレーズに関する事象の発生を検出し、未知語に対し、かかる未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、上記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることとした。
 したがって、実施形態に係る情報処理方法によれば、ユーザが音声UIを介してシステムを利用するほどにフレーズと実対象の紐付けが自動的に集積され、人手では追従しきれない言語の変化にも追従した発話の解釈や情報処理を実行することが可能となる。言い換えれば、音声UIシステムの対応語彙が、開発者側のプロダクトアウトによる仕様ではなく、ユーザーの実際の言語フレーズの使用動向に自動的に追従して更新されるため、音声UIとしての利便性が高まる。
 すなわち、実施形態に係る情報処理方法によれば、ユーザに負荷を与えることなく、効率よく未知語を実対象へ紐付けることができる。
 以下、上述した実施形態に係る情報処理方法を適用した情報処理システム1の構成例について、より具体的に説明する。
 なお、以下の説明では、フレーズ「黄色い看板」のように、未知語が、発話意図「右へ曲がる」の対象・属性となるエンティティである場合を主たる例として挙げるが、インテントが未知語であってもよい。かかる例については、図18を用いた説明で後述する。
 また、ここで、以下の説明で用いる用語等について説明しておく。図3は、用語の説明図である。
 図3に示すように、ユーザから「黄色い看板を右へ曲がって」との発話があったものとする。かかる場合、本実施形態では、NLU処理により、ユーザの意図を示す「インテント」として「曲がる」が抽出される。また、かかるインテントの対象・属性、言い換えればインテントに対応する動作のパラメータとなる「エンティティ」として、「右」および「黄色い看板」が抽出される。
 なお、「右」については、NLU処理により、方向(Direction)を示すパラメータであることまで推定可能である。また、「黄色い看板」については、NLU処理により、場所(Place)を示すパラメータであることまでは推定可能であるものの、例えばフレーズとしては未知である。かかる場合、以下の説明では、「曲がる」および「右」、すなわち「右へ曲がる」に相当する部分を、「発話インテントI」と称することとする。すなわち、発話インテントIは、インテントを含む、ユーザの発話中の既知の部分である。これに対し、「黄色い看板」に相当する部分を、「未知語エンティティP」と称することとする。
 未知語エンティティPは、NLU処理でユーザの発話テキストから推定されたインテントに対し、そのインテントの対象・属性となるエンティティのフレーズがNLUに登録されている辞書に存在しない場合、もしくはフレーズとしてNLUの辞書には登録されているが、実行対話制御でインテントの対象・属性として扱える実対象の中に当該フレーズと紐付けられたものがないか複数あって一意に特定できない場合、の当該フレーズを指す。言い換えれば、未知語は、ユーザの発話テキストのNLU処理において用いられる辞書情報に存在しないフレーズ、または、辞書情報に存在するものの上記テキストに基づく情報処理においてかかるフレーズに対応する実対象を一意に特定できないフレーズである。
 また、同図には示していないが、上述した観測コンテキストについては、以下「観測コンテキストC」と記載する。同様に、条件コンテキストについては、以下「条件コンテキストC」と記載する。また、同様に、対象コンテキストについては、以下「対象コンテキストC」と記載する。
<<2.情報処理システムの構成>>
<2-1.全体構成>
 図4は、本開示の実施形態に係る情報処理システム1の構成例を示す図である。図4に示すように、情報処理システム1は、1以上の情報処理装置10と、サーバ装置100とを含む。また、図4に示すように、情報処理装置10と、サーバ装置100とは、インターネットや携帯電話回線網等であるネットワークNによって相互に接続され、ネットワークNを介して相互にデータを送受信する。
 情報処理装置10は、上述した情報処理装置10’と同様に、ユーザがそれぞれ使用する機器であり、音声UIを介し、ユーザの発話内容に応じた各種の情報処理を実行する。情報処理装置10は、デスクトップ型PCや、ノート型PCや、タブレット端末や、携帯電話機や、PDA等である。また、情報処理装置10は、例えば、ユーザが装着するウェアラブル端末や、車両に搭載されるナビゲーション装置、ドライブレコーダ等の車載装置である。
 情報処理装置10は、それぞれ未知語エンティティPを検出した場合に、検出時の観測コンテキストCを条件コンテキストCとして未知語エンティティPへ紐付ける。また、情報処理装置10は、発話インテントIの実行を検出した場合に、検出時の観測コンテキストCを対象コンテキストCとして未知語エンティティPへ紐付ける。そして、情報処理装置10は、これらの紐付け結果である未知語情報を、サーバ装置100へ送信する。
 サーバ装置100は、例えばクラウドサーバとして構成され、各情報処理装置10から送信される未知語情報を収集する。また、サーバ装置100は、収集した未知語情報をビッグデータとして管理するとともに、未知語情報に関する統計処理を実行する。また、サーバ装置100は、統計した統計結果に応じて未知語情報をシステム全体へ適用する。なお、サーバ装置100の具体的な構成例については、図23~図28を用いた説明で後述する。
 次に、図5は、情報処理装置10の構成例を示すブロック図である。また、図6は、センサ部3の構成例を示すブロック図である。また、図7は、実行対話制御部13dの構成例を示すブロック図である。
 なお、図5~図7(および後に示す図23)では、実施形態の特徴を説明するために必要な構成要素のみを表しており、一般的な構成要素についての記載を省略している。
 換言すれば、図5~図7(および図23)に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、各ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。
 また、図5~図7(および図23)を用いた説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。
<2-2.情報処理装置の構成>
 図5に示すように、情報処理装置10は、音声入力部2と、センサ部3と、表示部4と、音声出力部5とが接続される。音声入力部2は、マイク等の音声入力デバイスによって実現される。
 センサ部3は、ユーザおよびユーザの置かれている状況を認識するための各種のセンサを有する。図6に示すように、センサ部3は例えば、カメラ3aと、GPSセンサ3bと、加速度センサ3cと、生体情報センサ3dと、視線検出センサ3eとを有する。
 カメラ3aは、例えば、撮像素子としてCMOS(Complementary Metal Oxide Semiconductor)イメージセンサまたはCCD(Charge Coupled Device)イメージセンサ等を用いて、ユーザおよびユーザの置かれている状況を認識するための画像を撮像する。例えばカメラ3aは、タクシーの車内外を撮像可能に設けられた車載カメラである。
 GPSセンサ3bは、GPS受信機であり、受信したGPS信号に基づいてGPS位置を検出する。加速度センサ3cは、各方向への加速度を検出する。加速度センサ3cは、例えば、ピエゾ抵抗型や静電容量型等の3軸加速度センサを用いることができる。
 生体情報センサ3dは、ユーザの脈拍や呼吸、体温といった、ユーザの生体情報を検出する。視線検出センサ3eは、ユーザの視線を検出する。なお、図6に示すセンサ部3の構成はあくまでも一例であって、ユーザおよびユーザの置かれている状況を認識するためのものであれば、図6に示す以外の各種のセンサが含まれてもよい。
 センサ部3は、これら各種のセンサ群によるセンシングデータを、上述した観測コンテキストCとして情報処理装置10へ入力する。
 図5の説明に戻る。表示部4は、ディスプレイ等の画像出力デバイスによって実現される。音声出力部5は、スピーカ等の音声出力デバイスによって実現される。
 情報処理装置10は、通信部11と、記憶部12と、制御部13とを備える。通信部11は、例えば、NIC(Network Interface Card)等によって実現される。通信部11は、ネットワークNを介してサーバ装置100と無線または有線で接続され、サーバ装置100との間で情報の送受信を行う。
 記憶部12は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図5に示す例では、記憶部12は、認識モデル12aと、未知語情報12bとを記憶する。
 認識モデル12aは、後述する音声認識(ASR:Automatic Speech Recognition)処理における音声認識や、NLU処理における意味理解、実行対話制御処理における対話認識等のためのモデル群であって、サーバ装置100により、例えばディープラーニング等の機械学習のアルゴリズムを用いた学習モデル群として生成される。
 未知語情報12bについては、図8を用いて説明する。図8は、未知語情報12bの説明図である。図8に示すように、未知語情報12bは、未知語エンティティPに対し、発話インテントIと、条件コンテキストCと、対象コンテキストCとを紐付けた情報である。
 条件コンテキストCは、同図に示すように、未知語エンティティP検出時の観測コンテキストCに相当する。また、対象コンテキストCは、発話インテントI実行時の観測コンテキストCに相当する。
 未知語情報12bは、後述する実行対話制御部13dによって、未知語エンティティPごとに登録されることとなる。
 図5の説明に戻る。制御部13は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、記憶部12に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部13は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現することができる。
 制御部13は、音声認識部13aと、意味理解部13bと、コンテキスト認識部13cと、実行対話制御部13dと、応答生成部13eと、出力制御部13fと、送信部13gとを有し、以下に説明する情報処理の機能や作用を実現または実行する。
 音声認識部13aは、音声入力部2から入力された音声データに対してASR処理を行い、音声データをテキストデータへ変換する。また、音声認識部13aは、変換したテキストデータを意味理解部13bへ出力する。
 意味理解部13bは、音声認識部13aによって変換されたテキストデータに対してNLU処理等の意味理解処理を行って、インテントおよびエンティティ(未知語を含む)を推定し、推定結果を実行対話制御部13dへ出力する。
 コンテキスト認識部13cは、センサ部3からのセンシングデータを取得し、観測コンテキストCとして実行対話制御部13dへ出力する。
<2-3.実行対話制御部の構成>
 実行対話制御部13dは、意味理解部13bによる推定結果に未知語のエンティティが含まれる場合に、未知語エンティティPとして抽出する。また、実行対話制御部13dは、当該未知語エンティティPに対し、コンテキスト認識部13cから入力される観測コンテキストCに基づいて条件コンテキストCおよび対象コンテキストCを紐付けて、未知語情報12bを生成する。
 かかる実行対話制御部13dの構成例について、より具体的に説明する。図7に示すように、実行対話制御部13dは、未知語検出部13daと、登録部13dbと、実行検出部13dcと、紐付け部13ddと、指示部13deとを有する。
 未知語検出部13daは、意味理解部13bによって推定されたインテントおよびエンティティ(未知語を含む)から未知語を検出する。登録部13dbは、未知語検出部13daによって未知語のエンティティが検出された場合に、未知語エンティティPとして未知語情報12bへ登録する。あわせて、登録部13dbは、かかる未知語エンティティPを含むフレーズの発話インテントIを、未知語エンティティPへ紐付けて未知語情報12bへ登録する。
 また、登録部13dbは、かかる未知語検出時にコンテキスト認識部13cから入力される観測コンテキストCを、条件コンテキストCとして未知語エンティティPへ紐付けて未知語情報12bへ登録する。
 実行検出部13dcは、コンテキスト認識部13cから入力される観測コンテキストC、または、意味理解部13bから入力されるインテントおよびエンティティに基づいて、未知語情報12bへ登録された発話インテントIの実行を検出する。
 紐付け部13ddは、実行検出部13dcによって発話インテントIの実行が検出された場合に、かかる実行検出時にコンテキスト認識部13cから入力される観測コンテキストCを、対象コンテキストCとして未知語情報12bの未知語エンティティPへ紐付ける。
 指示部13deは、意味理解部13bから入力されるインテント/エンティティ(紐付け済みの未知語を含む)、および、コンテキスト認識部13cから入力される観測コンテキストCが、未知語情報12bの発話インテントIおよび条件コンテキストCと一致する場合に、当該発話インテントIおよび条件コンテキストCに紐付く未知語エンティティPを用いた応答を生成するように応答生成部13eへ指示する。
 図5の説明に戻る。応答生成部13eは、実行対話制御部13dからの指示に従い、ユーザへ提示する画像情報および音声情報を生成する。
 出力制御部13fは、応答生成部13eによって生成された画像情報を表示部4を介してユーザへ提示する。また、出力制御部13fは、応答生成部13eによって生成された音声情報へ音声合成処理を施し、音声出力部5を介してユーザへ提示する。
 送信部13gは、通信部11を介し、未知語情報12bをサーバ装置100へ適宜送信する。なお、ここに言う「適宜」とは、随時であってもよいし、周期的であってもよい。また、未知語情報12bが更新されるごとであってもよい。
<2-4.処理内容の具体例(人向け発話の場合)>
 次に、図2で示したタクシーの乗客と運転手との会話場面を例に挙げて、これまで説明してきた処理の内容をより具体的に説明する。図9~図16は、人向け発話の場合の処理説明図(その1)~(その8)である。
 図9に示すように、乗客が「黄色い看板を右へ曲がって」(図3参照)と発話したものとする。すると、情報処理装置10は、未知語を検出し(ステップS11)、未知語エンティティP「黄色い看板」を未知語情報12bへ登録するとともに、発話インテントI「右へ曲がる」を未知語エンティティP「黄色い看板」へ紐付けて登録する。
 また、情報処理装置10は、かかる未知語検出時の観測コンテキストCを未知語エンティティP「黄色い看板」へ紐付けて、条件コンテキストCとして保存する(ステップS12)。図9の例では、情報処理装置10は、図中の自車位置マークが示すGPS位置(すなわち、未知語検出時の現在地)を条件コンテキストCとして保存する。
 そして、情報処理装置10は、観測コンテキストC、または、発話に基づいて、未知語情報12bへ登録された発話インテントIの実行を検出する(ステップS13)。なお、ここでは、運転手の「右へ曲がります」の発話から発話インテントIの実行を検出した例を示している。
 すると、情報処理装置10は、かかる発話インテントIの実行検出時の観測コンテキストCを、対象コンテキストCとして未知語エンティティP「黄色い看板」へ紐付ける(ステップS14)。図9の例では、情報処理装置10は、図中の交差点位置を指すピンマークが示すGPS位置(すなわち、実行検出時の現在地)を対象コンテキストCとして紐付ける。
 そして、情報処理装置10は、このような未知語エンティティP「黄色い看板」に関する未知語情報12bが生成された後は、図10に示すように、発話インテントIおよび条件コンテキストCが一致すれば(ステップS15)、対象コンテキストCを実対象として解釈し、これに応じた情報処理を実行する。
 すなわち、タクシーが当該「黄色い看板」のある交差点を「右へ曲がる」経路に沿って走行中である場合、情報処理装置10は、タクシーが同交差点に差し掛かる途中で条件コンテキストCが示すGPS位置へ到達したならば、情報処理装置10は、同図に示すように、例えば「黄色い看板を右へ曲がってください」とナビゲーションする。
 なお、このとき発話インテントIが単に「曲がる」として未知語エンティティP「黄色い看板」へ紐付いていれば、情報処理装置10は、同交差点を左折する場合には「黄色い看板を左へ曲がってください」とナビゲーションすることもできる。
 また、別の例として、例えば運転手がルート検索に際して運転中に通りたくない場所があるとき等に、「黄色い看板の所を通って」と発話することにより、かかる「黄色い看板」の対象コンテキストCが示すGPS位置を、ルート検索の途中通過地点として指定することができる。
 なお、図9および図10では、条件コンテキストCが未知語検出時のGPS位置である場合を例を挙げたが、例えば図11に示すように、条件コンテキストCが、未知語検出時のGPS位置を含む所定範囲内(Place)であってもよい。
 また、「黄色い看板」の「黄色い」のように、NLU処理により未知語エンティティPの色に関する属性が抽出された場合、例えば時間帯によって看板の色の見え方が変わることが予測されるので、かかる場合は、同図に示すように、条件コンテキストCに例えば未知語検出時の現在時刻を含む所定時間帯(TimeZone)を含むようにしてもよい。なお、情報処理装置10は、未知語エンティティPに複数の条件コンテキストCが紐付けられた場合、これら条件コンテキストCをAND条件で判定する。
 また、色に関する属性に限らず、「黄色い看板」の「看板」は通常平らな表示面を有することから、図12に示すように、NLU処理により「指向性あり」との属性を抽出することができる。
 かかる場合は、同図に示すように、条件コンテキストCに、未知語検出時のGPS位置を含む所定範囲内(Place)に加えて、例えば未知語検出時の進行方向から所定角θ以内の進行方向範囲内(AngleRange)を含むようにしてもよい。
 図12の場合、未知語情報12bの適用時には、同図に示す(Place)の所定範囲内、および、(AngleRange)の進行方向範囲内の場合のみ、フレーズ「黄色い看板」が、ナビゲーション発話やユーザの発話解釈等に使用される。すなわち、条件コンテキストCに一致しない進行方向からは、指向性ありである看板は見えないため、かかる場合にはフレーズ「黄色い看板」は使用されないこととなる。
 これに対し、図13に示すように、未知語エンティティPが「茶色い煙突」であるものとする。かかる場合、「茶色い煙突」の「煙突」については、NLU処理により「指向性なし」との属性を抽出することができる。
 かかる場合は、同図に示すように、条件コンテキストCには、「指向性あり」の時とは異なり、未知語検出時の進行方向から所定角θ以内の進行方向範囲内(AngleRange)は含まれない。
 すなわち、煙突はどの進行方向からも視認可能であり、指向性なしのため、進行方向範囲は問わないとすることができる。図13の場合、未知語情報12bの適用時には、同図に示す(Place)の所定範囲内であれば、フレーズ「茶色い煙突」が、進行方向範囲を問わずナビゲーション発話やユーザの発話解釈等に使用されることとなる。
 ところで、これまではGPSセンサ3bによって検出されるGPS位置を条件コンテキストCおよび対象コンテキストCとして用いる例を挙げたが、これに限られるものではない。例えば、ドライブレコーダ等のカメラ3aによる撮像画像を、条件コンテキストCおよび対象コンテキストCとして用いてもよい。かかる場合の例を図14~図16に示す。なお、図14および図16では、ドット状のパターンで塗りつぶされた矩形部分が「黄色い看板」を表している。
 既に図9に示したのと同様に、図14に示すように、乗客の「黄色い看板を右へ曲がって」との発話に基づき、未知語が検出されたものとする(ステップS21)。そして、未知語エンティティP「黄色い看板」が未知語情報12bへ登録されるとともに、発話インテントI「右へ曲がる」が未知語エンティティP「黄色い看板」へ紐付けて登録されたものとする。
 そして、図14の例の場合、情報処理装置10は、ステップS21の未知語検出時のカメラ3aの撮像画像を、未知語エンティティP「黄色い看板」へ紐付けて、条件コンテキストCとして保存する(ステップS22)。
 そして、情報処理装置10は、観測コンテキストC、または、発話に基づいて、未知語情報12bへ登録された発話インテントIの実行を検出する(ステップS23)。
 すると、図14の例の場合、情報処理装置10は、ステップS23の発話インテントIの実行検出時のカメラ3aの撮像画像を、対象コンテキストCとして未知語エンティティP「黄色い看板」へ紐付ける(ステップS24)。
 そして、情報処理装置10は、このような未知語エンティティP「黄色い看板」に関する未知語情報12bが生成された後は、図15に示すように、発話インテントIおよび条件コンテキストCが一致すれば(ステップS25)、対象コンテキストCを実対象として解釈し、これに応じた情報処理を実行する。
 すなわち、タクシーが当該「黄色い看板」のある交差点を「右へ曲がる」経路に沿って走行中である場合、情報処理装置10は、タクシーが同交差点に差し掛かる途中で条件コンテキストCが示す撮像画像に対応する風景をカメラ3aの撮像画像から画像認識したならば、情報処理装置10は、同図に示すように、例えば「黄色い看板を右へ曲がってください」とナビゲーションする。
 そして、このとき、情報処理装置10は、図16に示すように、例えば条件コンテキストCの画像に、対象コンテキストCの画像および矢印を重畳表示する。かかる際の表示は、運転手が運転しながら視認できるように、例えばフロントガラス等に投影して行ってもよい。これにより、運転手に対するルート案内を、音声だけでなく視覚的にも分かりやすく行うことができる。
 なお、図16に示した表示例はあくまで一例であって、表示形態を限定するものではない。例えば、必ずしも矢印は表示しなくともよい。また、ユーザが視認可能となればよく、その意味では、条件コンテキストCや対象コンテキストCはカメラ3aの撮像画像に限らず、例えばナビ画面の表示領域に表示されている画像等であってもよい。
 また、情報処理装置10は、カメラ3aの撮像画像から、条件コンテキストCが示す撮像画像に対応する風景を画像認識する際、例えば「黄色い看板」について必ずしも色まで解析する必要はない。これにより、処理負荷を軽減できるというメリットがある。なお、無論、色まで解析してもよい。
 次に、実施形態に係る情報処理装置10が実行する人向け発話の場合の処理手順について、図17を用いて説明する。図17は、人向け発話の場合の処理手順を示すフローチャートである。
 図17に示すように、まず、未知語検出部13daが、人同士の会話に未知語エンティティPを検出する(ステップS101)。そして、登録部13dbが、未知語エンティティPとともに、未知語エンティティPを含む発話の発話インテントIを未知語情報12bに記憶させる(ステップS102)。
 また、登録部13dbは、未知語エンティティP検出時の観測コンテキストCを条件コンテキストCとして未知語情報12bに記憶させる(ステップS103)。
 つづいて、実行検出部13dcが、観測コンテキストCまたは会話から発話インテントIの実行を検出する(ステップS104)。ここで、発話インテントIの実行が検出された場合(ステップS104,Yes)、紐付け部13ddが、発話インテントI実行時の観測コンテキストCを対象コンテキストCとして未知語情報12bに記憶させる(ステップS105)。
 そして、送信部13gが、未知語情報12bを、すなわち、未知語エンティティPに対する発話インテントI、条件コンテキストC、対象コンテキストCをサーバ装置100へ送信し(ステップS106)、処理を終了する。
 なお、観測コンテキストCまたは会話から発話インテントIの実行が検出されない場合(ステップS104,No)、一定時間が経過したか、または、条件コンテキストCの条件範囲外であるかが判定される(ステップS107)。
 ここで、一定時間が経過していない、および、条件コンテキストCの条件範囲内であると判定された場合(ステップS107,No)、ステップS104からの処理を繰り返す。一方、一定時間が経過した、または、条件コンテキストCの条件範囲外であると判定された場合(ステップS107,Yes)、処理を終了する。
 ところで、これまでは、フレーズ「黄色い看板」のように、エンティティが未知語である場合について主に説明してきたが、インテントが未知語であってもよい。かかる変形例について、図18を用いて説明する。図18は、変形例に係る未知語情報12bの説明図である。
 例えば、ユーザの発話の意味理解において、「あれして」等、インテントと推定される動詞部分が解釈不能となるケースはあるが、情報処理装置10は、かかる場合に、図18に示すように、当該インテントを未知語インテントIPとして未知語情報12bに登録する。
 そして、図18に示すように、情報処理装置10は、未知語インテントIPに対し、発話エンティティEと、条件コンテキストCと、実行機能とを紐付ける。発話エンティティEは、ユーザの発話中で既知のエンティティとして推定されたフレーズである。
 そして、かかる場合の条件コンテキストCは、同図に示すように、未知語インテントIP検出時の観測コンテキストCに相当する。また、実行機能は、発話エンティティEを対象とする機能実行時の観測コンテキストCに相当する。
 すなわち、図18の例では、未知語インテントIPが検出された場合に、登録部13dbが、未知語インテントIPおよび発話エンティティEを未知語情報12bに登録する。また、登録部13dbは、あわせて未知語インテントIP検出時の観測コンテキストCを、条件コンテキストCとして未知語インテントIPへ紐付けて登録する。
 そして、実行検出部13dcが、観測コンテキストCに基づいて発話エンティティEを対象とする機能が実行されたことを検出した場合に、紐付け部13ddが当該機能を実行機能として未知語インテントIPへ紐付けることとなる。これにより、情報処理装置10は、動的に未知語インテントIPの実行機能を獲得することができる。
 未知語エンティティPの対象コンテキストCへの紐付けに加え、未知語インテントIPも実行機能と紐付けられて集積されることにより、音声UIが解釈および表現可能な語彙全体が自動的に増え、対話性能自体の向上につながる。
 なお、未知語インテントIPの条件コンテキストCとして発話者の属性を紐付けて記憶・集積することにより、方言(エリア)や、年代、性別等の属性によって表現が異なるフレーズをシステムが解釈および表現するのに有用となる。
<2-5.処理内容の具体例(システム向け発話の場合)>
 次に、システム向け発話の場合の処理の内容を具体的に説明する。図19~図21は、システム向け発話の場合の処理説明図(その1)~(その3)である。ここでは、システム向け発話の場合として、ユーザUが、音声ブラウザでの画像選択を行う場合を例に挙げる。また、ここでも、未知語がエンティティである場合を主たる例として説明を行う。
 図19に示すように、ユーザUが、音声ブラウザを利用可能なノートPC等の情報処理装置10を用いて、音声ブラウザ上で画像選択を行うものとする。なお、情報処理装置10は、インターネット接続が可能であり、サーバ装置100とも通信可能である。また、ユーザUの周囲には、家族や友人等の同席者Oがいてもよい。
 かかる状況において、図20に示すように、ユーザUが「〇〇の写真を見せて」と発話したものとする。ここで、「○○」は、写真に写っている人物を特定する、名前やニックネーム等の呼称であり、未知語である。
 すると、情報処理装置10は、未知語を検出し(ステップS31)、未知語エンティティP「○○」を未知語情報12bへ登録するとともに、発話インテントI「写真を見せる」を未知語エンティティP「○○」へ紐付けて登録する。
 また、情報処理装置10は、かかる未知語検出時の観測コンテキストCを未知語エンティティP「○○」へ紐付けて、条件コンテキストCとして保存する(ステップS32)。図20の例では、情報処理装置10は、ユーザUが閲覧中のサイトのURL(Uniform Resource Locator)を条件コンテキストCとして保存する。
 そして、情報処理装置10は、ユーザUに対し、同サイトにおいて発話インテントIの実行対象となりうる全ての画像に番号を付与して提示する(ステップS33)。そして、ユーザUに対し、画像の選択を促す問い合わせを行う(図中の「何番の写真ですか?」参照)。
 そして、かかる問い合わせに応じユーザUが画像を選択したならば(図中の「1番!」参照)、情報処理装置10は、観測コンテキストC、すなわち選択された画像を、対象コンテキストCとして未知語エンティティP「〇〇」へ紐付ける(ステップS34)。
 そして、情報処理装置10は、このような未知語エンティティP「〇〇」に関する未知語情報12bが生成された後は、図21に示すように、発話インテントIおよび条件コンテキストCが一致すれば(ステップS35)、対象コンテキストCを実対象として解釈し、これに応じた情報処理を実行する。
 すなわち、ユーザUが別の機会等に同サイトを閲覧中に「○○の写真を見せて」と発話した場合に、情報処理装置10は、未知語エンティティP「〇〇」を選択された画像のタグとして使用し(ステップS36)、発話解釈に際しての画像の検索タグとして利用する。
 また、かかる未知語情報12bがサーバ装置100へ送信され、サーバ装置100において行われる統計処理の結果、未知語エンティティP「○○」が、パブリックな異なる画像に対して所定数以上登録されたものとする。
 かかる場合、サーバ装置100は、未知語エンティティP「○○」を認識ラベルとする機械学習を実行し(ステップS37)、認識モデル12aの一つとして画像認識器を生成して配信する(ステップS38)。ステップS37およびステップS38については、図27および図28を用いた説明でより具体的に後述する。
 このように、図20および図21を用いて説明した処理内容により、システム向け発話の場合であっても、ユーザUに動的に未知語エンティティPへ実対象を紐付けることが可能となる。
 なお、図20および図21では、条件コンテキストCをユーザUが閲覧中のサイトのURLとしたが、これに限られるものではなく、例えば同席者Oの撮像画像等を条件コンテキストCとしてもよい。これにより、例えば家族等、特定のメンバが揃っていることを条件コンテキストCとしたコンテンツの鑑賞等を行うことができる。
 次に、実施形態に係る情報処理装置10が実行するシステム向け発話の場合の処理手順について、図22を用いて説明する。図22は、システム向け発話の場合の処理手順を示すフローチャートである。
 図22に示すように、まず、未知語検出部13daが、システムへの発話指示に未知語エンティティPを検出する(ステップS201)。そして、登録部13dbが、未知語エンティティPとともに、未知語エンティティPを含む発話の発話インテントIを未知語情報12bに記憶させる(ステップS202)。
 また、登録部13dbは、未知語エンティティP検出時の観測コンテキストCを条件コンテキストCとして未知語情報12bに記憶させる(ステップS203)。
 つづいて、実行対話制御部13dは、発話インテントIの実行対象となりうる全ての観測コンテキストCに番号を付与してユーザへ提示させる(ステップS204)。そして、実行検出部13dcが、ユーザが観測コンテキストCのいずれかを選択したことを検出する(ステップS205)。
 ここで、ユーザが観測コンテキストCのいずれかを選択した場合(ステップS205,Yes)、指示部13deが、ユーザが選択した候補で発話インテントIを実行させる(ステップS206)。そして、紐付け部13ddが、ユーザが選択した観測コンテキストCを対象コンテキストCとして未知語情報12bに記憶させる(ステップS207)。
 そして、送信部13gが、未知語情報12bを、すなわち、未知語エンティティPに対する発話インテントI、条件コンテキストC、対象コンテキストCをサーバ装置100へ送信し(ステップS208)、処理を終了する。
 なお、ユーザが選択しない場合(ステップS205,No)、一定時間が経過したか、または、条件コンテキストCの条件範囲外であるかが判定される(ステップS209)。ここに言う条件コンテキストCの条件範囲外は、例えばユーザが閲覧するサイトを移動した場合等が挙げられる。
 ここで、一定時間が経過していない、および、条件コンテキストCの条件範囲内であると判定された場合(ステップS209,No)、ステップS205からの処理を繰り返す。一方、一定時間が経過した、または、条件コンテキストCの条件範囲外であると判定された場合(ステップS209,Yes)、処理を終了する。
<2-6.サーバ装置の構成>
 次に、サーバ装置100の構成例について説明する。図23は、本開示の実施形態に係るサーバ装置100の構成例を示すブロック図である。
 図23に示すように、サーバ装置100は、通信部101と、記憶部102と、制御部103とを備える。通信部101は、例えば、NIC等によって実現される。通信部101は、ネットワークNを介して情報処理装置10のそれぞれと無線または有線で接続され、情報処理装置10との間で情報の送受信を行う。
 記憶部102は、上述した記憶部12と同様に、例えば、RAM、ROM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図23に示す例では、記憶部102は、未知語情報DB(データベース)102aと、統計情報102bと、認識モデルDB102cとを記憶する。
 未知語情報DB102aは、後述する収集部103aによって各情報処理装置10から収集される未知語情報12bを集積するデータベースである。統計情報102bは、後述する統計処理部103bによって実行される統計処理の統計結果に関する情報である。
 認識モデルDB102cは、後述する学習部103dによって生成され、各情報処理装置10へ配信される認識モデル12aのデータベースである。
 制御部103は、上述した制御部13と同様に、コントローラであり、例えば、CPUやMPU等によって、記憶部102に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部103は、上述した制御部13と同様に、例えば、ASICやFPGA等の集積回路により実現することができる。
 制御部103は、収集部103aと、統計処理部103bと、判定部103cと、学習部103dと、配信部103eとを有し、以下に説明する情報処理の機能や作用を実現または実行する。
 収集部103aは、通信部101を介して各情報処理装置10から未知語情報12bを収集し、未知語情報DB102aへ集積する。統計処理部103bは、未知語情報DB102aに集積された未知語情報12bに基づいて所定の統計処理を実行し、統計結果を統計情報102bとして出力する。
 判定部103cは、統計情報102bに基づいて、未知語情報12bの適用範囲を判定する。また、判定部103cは、統計情報102bに基づいて、認識モデル12a(例えば、上述した画像認識器)の更新を要するかを判定する。
 学習部103dは、判定部103cによって認識モデル12aの更新を要すると判定された場合に、未知語情報DB102aに集積された未知語情報12bに基づいて所定の機械学習のアルゴリズムを用いた学習処理を実行し、認識モデルDB102c中の更新対象である認識モデル12aを更新する。
 配信部103eは、判定部103cの判定結果に基づいて、未知語情報DB102a中の配信対象である未知語情報12bを、通信部101を介して各情報処理装置10へ配信する。また、配信部103eは、学習部103dによって更新された、認識モデルDB102c中の配信対象である認識モデル12aを、通信部101を介して各情報処理装置10へ配信する。
 次に、判定部103cが実行する判定処理について、図24を用いて説明する。図24は、判定部103cが実行する判定処理の説明図である。なお、図24には、統計情報102bの一例をあわせて示している。また、以下の説明では、「システム向け発話」の場合で説明した、未知語エンティティPへ対象コンテキストCとして選択画像が紐付けられた場合を例に挙げる。
 図24に示すように、統計情報102bは、例えば「ID」項目と、「P」項目と、「C」項目と、「C」項目と、「登録数」項目とを含む。「ID」項目は、紐付け結果それぞれの識別子が格納される。「P」項目は、未知語エンティティPが格納される。「C」項目は、条件コンテキストCが格納される。「C」項目は、対象コンテキストCが格納される。
 「登録数」項目は、過去の一定期間内における各紐付け結果の登録数の集計結果が格納される。登録数は、使用数と言い換えてもよい。なお、図中の「所定数」は、登録数の規定の数である。登録数がかかる所定数以上である場合、判定部103cは、該当の紐付け結果をシステム全体へ適用させる。図24では、一例として所定数を「50」とした。
 そして、図24の例の場合、判定部103cは、過去の一定期間内における登録数がいずれも所定数以上であるID「01」~「03」の紐付け結果については、全体へ適用するように判定する。
 また、判定部103cは、紐付け結果が特定の条件コンテキストCへの依存性が高い場合は、条件コンテキストCを外さないで適用するように判定する。これに対し、判定部103cは、紐付け結果が特定の条件コンテキストCへの依存性が低い場合は、条件コンテキストCを外して適用するように判定する。
 図24の例の場合、ID「01」~「03」の紐付け結果は、条件コンテキストCが多岐にわたっている。したがって、条件コンテキストCへの依存性が低いと言え、判定部103cは、かかる場合には条件コンテキストCを条件から外す。
 また、判定部103cは、過去の一定期間内における登録数が所定数未満であるID「11」の紐付け結果については、全体への適用を抑止するように判定する。
 なお、ここで図中の「誤登録?」に示すように、ID「12」の紐付け結果については、ID「01」~「03」と同じ未知語エンティティPが登録されているものの、違う人物の画像が対象コンテキストCとして紐付いている。
 誤登録としては、悪意なく間違った場合や、悪意ある者がわざと間違える場合等が考えられるが、判定部103cは、過去の一定期間内における登録数が所定数未満であれば全体への適用は抑止するため、悪意ある者がわざと間違えても全体へ適用されることはまずないと言える。
 なお、未知語エンティティPの特定画像への紐付けが少ない初期の過渡状態においては、例えば情報処理装置10側でユーザUとのインタラクションによる紐付けの保持または破棄を行うことで、誤った紐付けが行われることを軽減することができる。
 かかる変形例について図25および図26を用いて説明する。図25は、紐付けを保持または破棄する対話処理例を示す図(その1)である。また、図26は、紐付けを保持または破棄する対話処理例を示す図(その2)である。
 なお、図25は、既に示した図20の続きに対応しているものとする。また、未知語エンティティP「○○」に紐付けるべき正解画像は1番であるが、例えば悪意により4番の画像が紐付けられたデータが少数(上述の所定数未満)存在するものとする。
 かかる場合に、図25に示すように、ユーザUが、未知語エンティティP「○○」に紐付ける画像の選択を促す問い合わせに対し1番の画像を選択した際、情報処理装置10は、例えば「では、4番も○○ですか?」との問い合わせをユーザUに対し行う。
 ここで、ユーザUは、図25において正解画像を選択しているので、少なくとも悪意者ではないと推定できる。そこで、図26に示すように、ユーザUが図25の問い合わせに対し「No」の意思表示をした場合は、情報処理装置10は、未知語エンティティP「○○」と4番の画像との紐付けを破棄する。
 また、ユーザUが「Yes」の意思表示をした場合は、情報処理装置10は、未知語エンティティP「○○」と4番の画像との紐付けを保持する。これにより、例えば悪意者により誤った紐付けが行われることを軽減することが可能となる。
<2-7.画像認識器のエリアによる自動更新の応用例>
 次に、図21を用いて説明したステップS37およびステップS38について、図27および図28を用いてより具体的に説明する。すなわち、紐付け結果である未知語情報12bがサーバ装置100へ送信され、サーバ装置100において行われる統計処理の結果、特定の未知語エンティティPがパブリックな異なる画像に対して所定数以上紐付けられている場合である。
 かかる場合、サーバ装置100は、該当の未知語エンティティPを認識ラベルとする機械学習を実行し、認識モデル12aの一つとして画像認識器を生成して配信することは既に述べた。
 図27は、画像認識器のエリアによる自動更新の応用例を示す図(その1)である。また、図28は、画像認識器のエリアによる自動更新の応用例を示す図(その2)である。
 なお、図27および図28を用いた説明では、異なるエリアa,bを例に挙げる。エリアaは、例えば液体せっけんの普及率が高いエリアである。これに対し、エリアbは、例えば固形せっけんの普及率が高いエリアである。
 そして、ここでは、フレーズ「せっけん」がタグ付けされた(紐付けられた)パブリックな異なる画像が所定数以上存在し、フレーズ「せっけん」を認識ラベルとする機械学習が行われるものとする。
 かかる場合、図27に示すように、まずエリアaでは、フレーズ「せっけん」が、パブリックな異なる液体せっけんの画像に対してタグ付けされやすくなる。なお、各画像の条件コンテキストCには、エリアaが含まれるものとする。
 そして、フレーズ「せっけん」がタグ付けされた液体せっけんの画像が所定数以上集まると、サーバ装置100は、学習部103dが「せっけん」を認識ラベルとする機械学習を実行し、画像認識器Aを生成する。サーバ装置100は、これをエリアaの各情報処理装置10へ配信し、かかるエリアaの情報処理装置10では、認識対象画像として液体せっけんの画像を画像認識器Aへ入力すると、「せっけん」との認識結果が得られることになる。
 しかしながら、画像認識器Aは、液体せっけんの画像を教師データとして実行された機械学習により生成されたものである。したがって、かかる画像認識器Aをエリアbの各情報処理装置10へ配信して、認識対象画像として固形せっけんの画像を画像認識器Aへ入力しても、「せっけん」との認識結果を得ることはできない。
 このため、サーバ装置100は、未知語情報DB102aの該当の未知語情報12bにおいて、例えばフレーズ「せっけん」に条件コンテキストCとして「エリアa」が紐付いていれば、画像認識器Aの配信対象をエリアaのみとする。
 一方で、図28に示すように、エリアbでは、フレーズ「せっけん」が、パブリックな異なる固形せっけんの画像に対してタグ付けされやすくなる。したがって、フレーズ「せっけん」がタグ付けされた固形せっけんの画像が所定数以上集まれば、サーバ装置100は、学習部103dが「せっけん」を認識ラベルとする機械学習を実行することとなる。ただし、同じフレーズ「せっけん」を認識ラベルとする画像認識器A(図27参照)が既に存在すれば、学習部103dは更新学習を実行し、画像認識器A’を出力する。
 そして、サーバ装置100は、これをエリアbの各情報処理装置10へ配信し、かかるエリアbの情報処理装置10では、認識対象画像として固形せっけんの画像を画像認識器A’へ入力すると、「せっけん」との認識結果が得られることになる。
 また、サーバ装置100は、エリアbの固形せっけんの画像に基づいて更新学習を実行することで、これまでの未知語情報12bにおけるフレーズ「せっけん」に条件コンテキストCとして紐付いていた「エリアa」への依存性が低下したと判断することができる。そして、この場合には、サーバ装置100は「エリアa」を条件から外す。
 また、サーバ装置100は、このように条件コンテキストCから「エリアa」が外れれば、画像認識器A’の配信対象をエリアbだけでなく例えば全てのエリアとすることができる。そして、サーバ装置100が画像認識器A’を例えばエリアaへ配信し、エリアaの情報処理装置10において認識対象画像として液体せっけんまたは固形せっけんの画像を画像認識器Aへ入力すれば、いずれの場合にも「せっけん」との認識結果を得ることができる。
 このように、機会学習が重ねられるのに応じて未知語情報12bの特定の条件コンテキストCへの依存性が低下した場合に、該当の条件コンテキストCを条件から外し、またこれに応じて画像認識器を含む認識モデル12aの配信対象を変化させることで、認識モデル12aの動向追従性能を向上させることができる。
<<3.変形例>>
 なお、これまで、未知語の実対象を獲得するうえでの実施形態に係る情報処理方法について説明してきたが、説明した以外にも種々の変形例を挙げることができる。
<3-1.人向け発話の場合の変形例>
 例えば、人向け発話の場合の未知語エンティティPの実対象の獲得は、家族等でのテレビ番組や動画コンテンツの視聴時にも適用することができる。かかる視聴時において、例えば子供や高齢者が「××(が出てる)の見たい」と発話したものとする。「××」は、アニメのキャラクタや、出演者の呼称である。
 このとき、例えばテレビやPC等によって実現された情報処理装置10は、未知語エンティティP「××」を検出し、かかる未知語エンティティP「××」に対し、条件コンテキストCとしてその場にいる同席者Oや時間帯等を紐付ける。そして、情報処理装置10は、実際に番組が選局されたり動画コンテンツが再生されたりした場合に、その選局された番組や再生された動画コンテンツを対象コンテキストCとしてさらに紐付ける。
 これにより、以後、同じ同席者Oや時間帯で「××の見たい」との発話があった場合に、情報処理装置10は、未知語エンティティP「××」をその番組や動画コンテンツと解釈することができる。
 また、別の変形例として、複数人で飲食店を検索する場面等を挙げることができる。かかる場合、例えばスマートフォン等によって実現された情報処理装置10は、直前における人同士の会話の文脈や、その場にいる人、場所等を条件コンテキストCにすることができる。
 一例を挙げると、品川で一緒に食事をしようとしているメンバのうちの一人が、「この辺りで何か美味いものあったっけ?」と発話したものとする。すると、情報処理装置10は、未知語エンティティP「なにか美味いもの」を検出し、かかる未知語エンティティP「なにか美味いもの」に対し、条件コンテキストCとして例えば同席者Oや品川等を紐付ける。
 そして、情報処理装置10は、例えばメンバのうちの別の一人が、先の発話に対し、「ああ、△△の店に行こうよ」と答えると、その「△△の店」を対象コンテキストCとしてさらに紐付ける。
 これにより、以後、品川で同じメンバで「なにか美味いもの」との発話があった場合に、情報処理装置10は、未知語エンティティP「なにか美味いもの」を「△△の店」と解釈することができ、例えば飲食店の検索において第1の候補として提示することができる。
<3-2.システム向け発話の場合の変形例>
 また、例えば、システム向け発話の場合の未知語エンティティPの実対象の獲得は、図19~図21に示した画像検索に限らず、種々のコンテンツ検索にも適用することができる。
 かかる場合、図20に示したように、ユーザUが、提示された複数の候補のうちから選択したコンテンツが、対象コンテキストCとして紐付くこととなる。
 また、別の変形例として、未知語エンティティPに対し、例えばユーザUが選択したテキストによる既知のフレーズを対象コンテキストCとして紐付けてもよい。かかる場合、情報処理装置10は、未知語エンティティPが検出された場合に、かかる未知語エンティティPを、同義語の既知のフレーズによって解釈することが可能となる。
 また、別の変形例として、システム向け発話の場合にも、図18を用いて説明したインテントが未知語である場合を適用してもよい。
 システム向け発話の場合にも、情報処理装置10は、検出した未知語インテントIPに対し、発話エンティティEと、条件コンテキストCと、実行機能とを紐付けることとなる。なお、システム向け発話の場合、図20に示したのと同様に、情報処理装置10は、発話エンティティEを対象としてシステムが実行可能な機能の候補を提示し、ユーザUに対し、実行する機能の選択を促す問い合わせを行う。
 そして、かかる問い合わせに応じユーザUが実行する機能を選択したならば、情報処理装置10は、観測コンテキストC、すなわち選択された実行機能を、対象コンテキストCとして未知語インテントIPへ紐付ける。これにより、情報処理装置10は、システム向け発話の場合にも、動的に未知語インテントIPの実行機能を獲得することができる。
<3-3.その他の変形例>
 また、上述した実施形態では、音声言語により入力されたテキストから未知語を検出する場合について説明したが、これに限られるものではなく、自然言語により入力されればよい。したがって、例えば、メッセージアプリのメッセージから未知語を検出することにしてもよい。その他、例えば、Webに公開された記事から未知語を検出してもよい。
 また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、図7に示した未知語検出部13daおよび実行検出部13dcは統合されてもよい。また、同じく図7に示した登録部13dbおよび紐付け部13ddは統合されてもよい。
 また、図7に示した情報処理装置10の制御部13が実行する各機能を、サーバ装置100が実行することとしてもよい。かかる場合、ユーザUが利用する情報処理装置10は、音声入力部2、センサ部3、表示部4、音声出力部5、通信部11を備え、ネットワークNを介してサーバ装置100との間で情報を送受信し、ユーザUとの対話を通してサーバ装置100における各機能の実行結果をユーザUに提示する、言わば音声UI装置として機能することとなる。
 また、上記してきた実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、本実施形態のシーケンス図或いはフローチャートに示された各ステップは、適宜順序を変更することが可能である。
<<4.ハードウェア構成>>
 上述してきた実施形態に係る情報処理装置10、サーバ装置100等の情報機器は、例えば図29に示すような構成のコンピュータ1000によって実現される。以下、実施形態に係る情報処理装置10を例に挙げて説明する。図29は、情報処理装置10の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る情報処理装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、音声認識部13a、意味理解部13b、コンテキスト認識部13c、実行対話制御部13d、応答生成部13e、出力制御部13f、送信部13g等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部12内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
<<5.むすび>>
 以上説明したように、本開示の一実施形態によれば、情報処理装置10は、自然言語により入力されたテキストから未知のフレーズである未知語を検出する未知語検出部13da(「第1の検出部」の一例に相当)と、上記テキストに含まれる既知のフレーズに関する事象の発生を検出する実行検出部13dc(「第2の検出部」の一例に相当)と、上記未知語に対し、かかる未知語の検出時の状況を示す観測コンテキストCを条件コンテキストCとして、上記事象の発生時の状況を示す観測コンテキストCを対象コンテキストCとして、それぞれ紐付ける紐付け部13ddと、を備える。これにより、ユーザに負荷を与えることなく、効率よく未知語を実対象へ紐付けることができる。
 以上、本開示の各実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 自然言語により入力されたテキストから未知のフレーズである未知語を検出する第1の検出部と、
 前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第2の検出部と、
 前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、
 を備える、情報処理装置。
(2)
 前記第1の検出部は、
 前記テキストのNLU処理において用いられる辞書情報に存在しないフレーズ、または、前記辞書情報に存在するものの前記テキストに基づく情報処理において該フレーズに対応する実対象を一意に特定できないフレーズを前記未知語として検出する、
 前記(1)に記載の情報処理装置。
(3)
 前記第1の検出部は、
 ユーザの会話を通して入力された前記テキストから前記未知語を検出する、
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記第1の検出部は、
 ユーザからの発話指示として入力された前記テキストから前記未知語を検出する、
 前記(1)、(2)または(3)に記載の情報処理装置。
(5)
 前記第2の検出部は、
 前記第1の検出部によって検出された前記未知語が、前記NLU処理を介してエンティティとして抽出されるフレーズである場合に、前記NLU処理を介して抽出されるインテントの実行を検出し、
 前記紐付け部は、
 前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の観測コンテキストを前記対象コンテキストとして紐付ける、
 前記(2)に記載の情報処理装置。
(6)
 前記紐付け部は、
 移動する状況が観測される場合に、前記未知語に対し、前記未知語の検出時の現在位置を含む所定範囲を示す位置情報を前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の現在位置を示す観測コンテキストを前記対象コンテキストとして紐付ける、
 前記(5)に記載の情報処理装置。
(7)
 前記紐付け部は、
 前記未知語に対し、前記未知語の検出時の時間帯を示す観測コンテキストを前記条件コンテキストとして紐付ける、
 前記(5)または(6)に記載の情報処理装置。
(8)
 前記紐付け部は、
 移動する状況が観測されるとともに、前記NLU処理を介して指向性ありとの属性が前記未知語から抽出される場合に、前記未知語に対し、前記未知語の検出時の進行方向から所定角以内の進行方向範囲を示す観測コンテキストを前記条件コンテキストとして紐付ける、
 前記(5)、(6)または(7)に記載の情報処理装置。
(9)
 前記紐付け部は、
 前記未知語に対し、前記未知語の検出時の撮像画像を前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の撮像画像を前記対象コンテキストとして紐付ける、
 前記(5)~(8)のいずれか一つに記載の情報処理装置。
(10)
 前記第2の検出部は、
 前記第1の検出部によって検出された前記未知語が、前記NLU処理を介してエンティティとして抽出されるフレーズである場合に、前記NLU処理を介して抽出されるインテントの実行対象となりうる全ての候補をユーザに対し提示したうえで該候補のうちの一つをユーザが選択したことを検出し、
 前記紐付け部は、
 前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、ユーザによって選択された前記候補を前記対象コンテキストとして紐付ける、
 前記(2)に記載の情報処理装置。
(11)
 前記第2の検出部は、
 前記第1の検出部によって検出された前記未知語が、前記NLU処理を介してインテントとして抽出されるフレーズである場合に、前記NLU処理を介して抽出されるエンティティを対象とする機能の実行を検出し、
 前記紐付け部は、
 前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、前記機能を前記対象コンテキストとして紐付ける、
 前記(2)に記載の情報処理装置。
(12)
 前記紐付け部による紐付け結果をサーバ装置へ送信する送信部
 をさらに備え、
 前記サーバ装置は、
 前記紐付け結果の統計結果に基づき、過去の一定期間内に前記未知語が前記紐付け結果と同一の前記条件コンテキストおよび前記対象コンテキストで所定数以上使用されていないと判定される場合に、当該紐付け結果の配信を抑止する、
 前記(1)~(11)のいずれか一つに記載の情報処理装置。
(13)
 前記サーバ装置は、
 前記紐付け結果の統計結果に基づき、特定の条件コンテキストに対する前記未知語の依存性が低下したと判定される場合に、前記未知語に対する当該特定の条件コンテキストの紐付けを解消する、
 前記(12)に記載の情報処理装置。
(14)
 自然言語により入力されたテキストから未知のフレーズである未知語を検出する第1の検出部と、
 前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第2の検出部と、
 前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、
 新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示する指示部と、
 を備える、情報処理装置。
(15)
 前記指示部は、
 前記未知語を用いた応答を生成させる場合に、当該未知語に紐付く前記条件コンテキストを表す画像とともに、当該未知語に紐付く前記対象コンテキストを表す画像とをユーザが視認可能となるように生成させる、
 前記(14)に記載の情報処理装置。
(16)
 自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、
 前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、
 前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、
 を含む、情報処理方法。
(17)
 自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、
 前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、
 前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、
 新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示することと、
 を含む、情報処理方法。
(18)
 自然言語により入力されたテキストに含まれるフレーズに基づき、該フレーズに応じた応答を生成するように指示する指示部
 を備え、
 前記指示部は、
 前記テキストから検出された未知のフレーズである未知語に対し紐付けられた、前記未知語の検出時の状況を示す観測コンテキストである条件コンテキストと、前記テキストに含まれる既知のフレーズに関する事象の発生時の状況を示す観測コンテキストである対象コンテキストとに基づき、新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示する、
 情報処理装置。
(19)
 自然言語により入力されたテキストに含まれるフレーズに基づき、該フレーズに応じた応答を生成するように指示すること
 を含み、
 前記指示することは、
 前記テキストから検出された未知のフレーズである未知語に対し紐付けられた、前記未知語の検出時の状況を示す観測コンテキストである条件コンテキストと、前記テキストに含まれる既知のフレーズに関する事象の発生時の状況を示す観測コンテキストである対象コンテキストとに基づき、新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示する、
 情報処理方法。
(20)
 コンピュータに、
 自然言語により入力されたテキストから未知のフレーズである未知語を検出すること、
 前記テキストに含まれる既知のフレーズに関する事象の発生を検出すること、
 前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けること、
 を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
(21)
 コンピュータに、
 自然言語により入力されたテキストから未知のフレーズである未知語を検出すること、
 前記テキストに含まれる既知のフレーズに関する事象の発生を検出すること、
 前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けること、
 新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示すること、
 を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
 1 情報処理システム
 10 情報処理装置
 11 通信部
 12 記憶部
 12a 認識モデル
 12b 未知語情報
 13 制御部
 13a 音声認識部
 13b 意味理解部
 13c コンテキスト認識部
 13d 実行対話制御部
 13da 未知語検出部
 13db 登録部
 13dc 実行検出部
 13dd 紐付け部
 13de 指示部
 13e 応答生成部
 13f 出力制御部
 13g 送信部
 100 サーバ装置
 101 通信部
 102 記憶部
 102a 未知語情報DB
 102b 統計情報
 102c 認識モデルDB
 103 制御部
 103a 収集部
 103b 統計処理部
 103c 判定部
 103d 学習部
 103e 配信部

Claims (17)

  1.  自然言語により入力されたテキストから未知のフレーズである未知語を検出する第1の検出部と、
     前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第2の検出部と、
     前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、
     を備える、情報処理装置。
  2.  前記第1の検出部は、
     前記テキストのNLU(Natural Language Understanding)処理において用いられる辞書情報に存在しないフレーズ、または、前記辞書情報に存在するものの前記テキストに基づく情報処理において該フレーズに対応する実対象を一意に特定できないフレーズを前記未知語として検出する、
     請求項1に記載の情報処理装置。
  3.  前記第1の検出部は、
     ユーザの会話を通して入力された前記テキストから前記未知語を検出する、
     請求項1に記載の情報処理装置。
  4.  前記第1の検出部は、
     ユーザからの発話指示として入力された前記テキストから前記未知語を検出する、
     請求項1に記載の情報処理装置。
  5.  前記第2の検出部は、
     前記第1の検出部によって検出された前記未知語が、前記NLU処理を介してエンティティとして抽出されるフレーズである場合に、前記NLU処理を介して抽出されるインテントの実行を検出し、
     前記紐付け部は、
     前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の観測コンテキストを前記対象コンテキストとして紐付ける、
     請求項2に記載の情報処理装置。
  6.  前記紐付け部は、
     移動する状況が観測される場合に、前記未知語に対し、前記未知語の検出時の現在位置を含む所定範囲を示す位置情報を前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の現在位置を示す観測コンテキストを前記対象コンテキストとして紐付ける、
     請求項5に記載の情報処理装置。
  7.  前記紐付け部は、
     前記未知語に対し、前記未知語の検出時の時間帯を示す観測コンテキストを前記条件コンテキストとして紐付ける、
     請求項5に記載の情報処理装置。
  8.  前記紐付け部は、
     移動する状況が観測されるとともに、前記NLU処理を介して指向性ありとの属性が前記未知語から抽出される場合に、前記未知語に対し、前記未知語の検出時の進行方向から所定角以内の進行方向範囲を示す観測コンテキストを前記条件コンテキストとして紐付ける、
     請求項5に記載の情報処理装置。
  9.  前記紐付け部は、
     前記未知語に対し、前記未知語の検出時の撮像画像を前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の撮像画像を前記対象コンテキストとして紐付ける、
     請求項5に記載の情報処理装置。
  10.  前記第2の検出部は、
     前記第1の検出部によって検出された前記未知語が、前記NLU処理を介してエンティティとして抽出されるフレーズである場合に、前記NLU処理を介して抽出されるインテントの実行対象となりうる全ての候補をユーザに対し提示したうえで該候補のうちの一つをユーザが選択したことを検出し、
     前記紐付け部は、
     前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、ユーザによって選択された前記候補を前記対象コンテキストとして紐付ける、
     請求項2に記載の情報処理装置。
  11.  前記第2の検出部は、
     前記第1の検出部によって検出された前記未知語が、前記NLU処理を介してインテントとして抽出されるフレーズである場合に、前記NLU処理を介して抽出されるエンティティを対象とする機能の実行を検出し、
     前記紐付け部は、
     前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、前記機能を前記対象コンテキストとして紐付ける、
     請求項2に記載の情報処理装置。
  12.  前記紐付け部による紐付け結果をサーバ装置へ送信する送信部
     をさらに備え、
     前記サーバ装置は、
     前記紐付け結果の統計結果に基づき、過去の一定期間内に前記未知語が前記紐付け結果と同一の前記条件コンテキストおよび前記対象コンテキストで所定数以上使用されていないと判定される場合に、当該紐付け結果の配信を抑止する、
     請求項1に記載の情報処理装置。
  13.  前記サーバ装置は、
     前記紐付け結果の統計結果に基づき、特定の条件コンテキストに対する前記未知語の依存性が低下したと判定される場合に、前記未知語に対する当該特定の条件コンテキストの紐付けを解消する、
     請求項12に記載の情報処理装置。
  14.  自然言語により入力されたテキストから未知のフレーズである未知語を検出する第1の検出部と、
     前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第2の検出部と、
     前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、
     新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示する指示部と、
     を備える、情報処理装置。
  15.  前記指示部は、
     前記未知語を用いた応答を生成させる場合に、当該未知語に紐付く前記条件コンテキストを表す画像とともに、当該未知語に紐付く前記対象コンテキストを表す画像をユーザが視認可能となるように生成させる、
     請求項14に記載の情報処理装置。
  16.  自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、
     前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、
     前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、
     を含む、情報処理方法。
  17.  自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、
     前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、
     前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、
     新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示することと、
     を含む、情報処理方法。
PCT/JP2021/006976 2020-03-25 2021-02-25 情報処理装置及び情報処理方法 WO2021192794A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/906,640 US20230134103A1 (en) 2020-03-25 2021-02-25 Information processing apparatus and information processing method
EP21775567.7A EP4131057A4 (en) 2020-03-25 2021-02-25 INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD
JP2022509435A JPWO2021192794A1 (ja) 2020-03-25 2021-02-25

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-055120 2020-03-25
JP2020055120 2020-03-25

Publications (1)

Publication Number Publication Date
WO2021192794A1 true WO2021192794A1 (ja) 2021-09-30

Family

ID=77891727

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/006976 WO2021192794A1 (ja) 2020-03-25 2021-02-25 情報処理装置及び情報処理方法

Country Status (4)

Country Link
US (1) US20230134103A1 (ja)
EP (1) EP4131057A4 (ja)
JP (1) JPWO2021192794A1 (ja)
WO (1) WO2021192794A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183191A (ja) * 2000-12-11 2002-06-28 Nippon Telegr & Teleph Corp <Ntt> 検索ナビゲーション機能付検索システム
WO2009028647A1 (ja) 2007-08-31 2009-03-05 National Institute Of Information And Communications Technology 非対話型学習装置及び対話型学習装置
US20180151176A1 (en) * 2016-11-30 2018-05-31 Lenovo (Singapore) Pte. Ltd. Systems and methods for natural language understanding using sensor input

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
EP3392876A1 (en) * 2011-09-30 2018-10-24 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20170133015A1 (en) * 2015-11-11 2017-05-11 Bernard P. TOMSA Method and apparatus for context-augmented speech recognition
US11461668B1 (en) * 2019-09-09 2022-10-04 Ciitizen, Llc Recognizing entities based on word embeddings
US20220301562A1 (en) * 2019-12-10 2022-09-22 Rovi Guides, Inc. Systems and methods for interpreting a voice query
US11514893B2 (en) * 2020-01-29 2022-11-29 Microsoft Technology Licensing, Llc Voice context-aware content manipulation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183191A (ja) * 2000-12-11 2002-06-28 Nippon Telegr & Teleph Corp <Ntt> 検索ナビゲーション機能付検索システム
WO2009028647A1 (ja) 2007-08-31 2009-03-05 National Institute Of Information And Communications Technology 非対話型学習装置及び対話型学習装置
US20180151176A1 (en) * 2016-11-30 2018-05-31 Lenovo (Singapore) Pte. Ltd. Systems and methods for natural language understanding using sensor input

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MATSUMOTO, YURI; NAKAMURA, SHINGO; HASHIMOTO, SHUJI: "3ZB-1 An appliance control system applicable to ambiguous utterance input using Bayesian Network", PROCEEDINGS OF THE 72ND NATIONAL CONVENTION OF THE IPSJ 2010, vol. 72, no. 3, 8 March 2010 (2010-03-08), pages 3-321 - 3-322, XP009538397 *

Also Published As

Publication number Publication date
JPWO2021192794A1 (ja) 2021-09-30
EP4131057A1 (en) 2023-02-08
EP4131057A4 (en) 2023-09-20
US20230134103A1 (en) 2023-05-04

Similar Documents

Publication Publication Date Title
CN110741433B (zh) 使用多个计算设备的对讲式通信
KR102494642B1 (ko) 가상 어시스턴트를 위한 입력 모드 선택
US20170277993A1 (en) Virtual assistant escalation
US9116962B1 (en) Context dependent recognition
JP2019164345A (ja) サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法
US20150331665A1 (en) Information provision method using voice recognition function and control method for device
US11580970B2 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US11881229B2 (en) Server for providing response message on basis of user&#39;s voice input and operating method thereof
JP2011513795A5 (ja)
KR102393147B1 (ko) 향상된 음성 인식을 돕기 위한 시각적 컨텐츠의 변형
JP2009248193A (ja) 接客システム及び接客方法
KR20200040097A (ko) 전자 장치 및 그 제어 방법
WO2020105302A1 (ja) 応答生成装置、応答生成方法及び応答生成プログラム
US9092818B2 (en) Method and system for answering a query from a consumer in a retail store
US12106754B2 (en) Systems and operation methods for device selection using ambient noise
US20120242860A1 (en) Arrangement and method relating to audio recognition
US12033627B2 (en) Response generation device and response generation method
US20170364509A1 (en) Configuration that provides an augmented video remote language interpretation/translation session
US11443738B2 (en) Electronic device processing user utterance and control method thereof
JP6973380B2 (ja) 情報処理装置、および情報処理方法
US20210334461A1 (en) Artificial intelligence apparatus and method for generating named entity table
KR20200013164A (ko) 전자 장치, 및 전자 장치의 제어 방법
WO2021192794A1 (ja) 情報処理装置及び情報処理方法
Gavril et al. Towards a modular framework for human-robot interaction and collaboration
JP2020034996A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21775567

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022509435

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021775567

Country of ref document: EP

Effective date: 20221025