WO2017195388A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2017195388A1
WO2017195388A1 PCT/JP2016/074223 JP2016074223W WO2017195388A1 WO 2017195388 A1 WO2017195388 A1 WO 2017195388A1 JP 2016074223 W JP2016074223 W JP 2016074223W WO 2017195388 A1 WO2017195388 A1 WO 2017195388A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
result
processing apparatus
display
Prior art date
Application number
PCT/JP2016/074223
Other languages
English (en)
French (fr)
Inventor
長坂 英夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP16901733.2A priority Critical patent/EP3457297A4/en
Priority to US16/098,142 priority patent/US11195517B2/en
Priority to JP2018516335A priority patent/JPWO2017195388A1/ja
Priority to CN201680085327.0A priority patent/CN109074364A/zh
Publication of WO2017195388A1 publication Critical patent/WO2017195388A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • This disclosure relates to an information processing apparatus, an information processing method, and a program.
  • a data acquisition unit that acquires related information related to display information displayed by a display device, and processing based on an intention interpretation result when an intention interpretation of a speech recognition result is performed according to the related information
  • an information processing apparatus including a providing unit that provides a result to a user.
  • the processor when the related information related to the display information displayed by the display device is acquired, and the intention interpretation of the voice recognition result is performed according to the related information, the processor is configured based on the intention interpretation result.
  • An information processing method including providing a processing result to a user is provided.
  • the intention interpretation result A program for causing a user to function as an information processing device is provided.
  • a technique capable of increasing a possibility that the processing result desired by the user is provided to the user is provided. Is done. Note that the above effects are not necessarily limited, and any of the effects shown in the present specification, or other effects that can be grasped from the present specification, together with or in place of the above effects. May be played.
  • FIG. 5 is a diagram for explaining narrowing support according to an embodiment of the present disclosure. It is a figure for demonstrating the device for making a user utterance simple and strong to noise. It is a figure for demonstrating the example which provides a user with a candidate list
  • a plurality of constituent elements having substantially the same functional configuration may be distinguished by adding different numerals after the same reference numerals. However, when it is not necessary to particularly distinguish each of a plurality of constituent elements having substantially the same functional configuration, only the same reference numerals are given.
  • FIGS. 1 and 2 are diagrams for describing an overview of an information processing apparatus according to an embodiment of the present disclosure.
  • an information processing apparatus 10 and a user 80 appear.
  • the information processing apparatus 10 functions as an agent (in this specification, the information processing apparatus may be referred to as an agent).
  • the agent may be a device that receives a voice uttered by the user (hereinafter also referred to as “user utterance”) as voice information and provides the user with a processing result corresponding to the voice recognition result for the voice information. .
  • the agent 10 can be realized as a PC (Personal Computer) type agent 10-1, as shown in FIG. In the example shown in FIG. 1, an agent character image Ch is displayed on the display unit 150.
  • the agent 10 can be realized as a robot type agent 10-2 as shown in FIG.
  • the agent 10 is realized by the PC-type agent 10-1 will be mainly described, but an example in which the agent 10 is realized by the robot-type agent 10-2 will also be described as appropriate.
  • a service that enables the purchase of the target rice simply by the user saying “I want to buy rice” is generally imaged.
  • a search is executed based on a user utterance saying “I want to buy rice,” a large number of candidate “rice” is found, so the user purchases the desired rice.
  • it is necessary to set a plurality of conditions such as rice varieties, quantity, production area and brand.
  • the user 80 speaks to add the condition about the quantity “2 kg” to the condition “rice”.
  • the present specification mainly proposes a technique that enables easy selection and purchase of a target product by combining an operation based on audio information and visual information for assisting selection of the target product.
  • a search using the keyword “rice” is executed on an EC (electronic commerce) site
  • thousands of candidates are found as search results. That is, in order for the user to finally purchase the target product, it is necessary to narrow down until the target product (for example, one item) remains from several thousand candidates.
  • the user needs to perform one of the following two operations based on a main word (for example, the name of a product such as “rice”) indicating the product to be purchased.
  • various conditions such as the weight, type and brand of the product are set, and the various conditions are used for the search to narrow down until the target product remains only by the search.
  • the second task by using various conditions in the search in the same way, it narrows down until a certain number of products remain by search, and the target product while selecting products one by one from the list of remaining products The work of narrowing down until there remains.
  • the main word indicating the target product is first input by the user, and the conditions for narrowing down from this main word as a starting point It is important to allow the user to easily and appropriately input keywords used in
  • FIG. 3 is a diagram illustrating a functional configuration example of the agent 10.
  • the agent 10 includes a sound output unit 111, a voice input unit 113, a non-voice input unit 114, a distance detection unit 115, a control unit 120, a storage unit 130, a communication unit 140, and a display unit 150. is doing.
  • the agent 10 is connected to the intent understanding device 30 and the server device 40 via the communication network 931.
  • the communication network 931 is configured by the Internet, for example.
  • the sound output unit 111 has a function of outputting sound.
  • the sound output unit 111 includes a speaker and outputs sound through the speaker.
  • the number of speakers included in the sound output unit 111 is not particularly limited as long as it is one or more.
  • the position where each of the one or more speakers included in the sound output unit 111 is provided is not particularly limited.
  • the sound output unit 111 may include a sound output device in a form other than a speaker (for example, an earphone, a headset, or the like) as long as it has a function of outputting sound.
  • the voice input unit 113 has a function of obtaining sound by collecting sound.
  • the voice input unit 113 includes a microphone and collects sound using the microphone.
  • the number of microphones included in the voice input unit 113 is not particularly limited as long as it is one or more. And the position where each of the one or more microphones included in the voice input unit 113 is provided is not particularly limited.
  • the sound input unit 113 may include a sound collection device other than a microphone as long as it has a function of collecting sound information.
  • the non-voice input unit 114 has a function of obtaining information other than voice.
  • the non-speech input unit 114 includes a touch panel and an imaging device
  • the touch panel can detect a pressing operation by the user.
  • the imaging device can detect a user's gesture and line of sight from an image obtained by imaging.
  • the non-voice input unit 114 is not limited to such an example.
  • the non-speech input unit 114 may include a button for detecting a pressing operation.
  • the non-speech input unit 114 may include a motion sensor that detects a user's movement. The motion sensor may detect acceleration with an acceleration sensor or may detect angular velocity with a gyro sensor.
  • the distance detection unit 115 has a function of detecting the distance to the user.
  • the distance detection unit 115 includes a distance measuring sensor, and acquires the distance to the user detected by the distance measuring sensor.
  • the position where the distance measuring sensor is provided is not particularly limited.
  • the type of distance measuring sensor is not particularly limited.
  • the distance measuring sensor may be an infrared distance sensor or an ultrasonic distance sensor.
  • the communication unit 140 has a function of communicating with the server device 40 and the intention understanding device 30 connected to the communication network 931 via the communication network 931.
  • the communication unit 140 is configured by a communication interface.
  • the number of server devices 40 connected to the communication network 931 may be one or plural. In this specification, an example in which the server device 40 provides an EC site to the agent 10 will be mainly described.
  • the storage unit 130 is a recording medium that stores a program executed by the control unit 120 and stores data necessary for executing the program.
  • the storage unit 130 temporarily stores data for calculation by the control unit 120.
  • the storage unit 130 includes a magnetic storage device, a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like.
  • the display unit 150 has a function of displaying various screens.
  • the display unit 150 is a projector, but the type of the display unit 150 is not limited.
  • the display unit 150 may be a display (display device) capable of performing display visible to the user, and may be a liquid crystal display or an organic EL (Electro-Luminescence) display. Good.
  • the display unit 150 performs display at a relatively high position (for example, a wall), or displays at a relatively low position (for example, the stomach of an agent or the user's hand).
  • the position where the display unit 150 performs display is not limited.
  • FIG. 4 is a diagram illustrating a detailed configuration example of the control unit 120.
  • the control unit 120 includes a data acquisition unit 121, a recognition unit 122, a providing unit 123, and a processing unit 124. Details of these functional blocks will be described later.
  • the control part 120 may be comprised with CPU (Central Processing Unit; Central processing unit) etc., for example.
  • CPU Central Processing Unit
  • the control unit 120 is configured by a processing device such as a CPU, the processing device may be configured by an electronic circuit.
  • a voice (voice or speech) and a sound are used separately. That is, the voice (voice or speech) mainly indicates the user's utterance among the sounds collected by the voice input unit 113, whereas the sound can include a sound other than the user's utterance. .
  • FIG. 5 is a diagram showing an example of a screen displayed by the display unit 150 of the PC type agent 10-1.
  • the screen G ⁇ b> 10 is displayed by the display unit 150.
  • the screen G10 includes an EC screen G30 in addition to the character image display area G20.
  • the character image display area G20 includes a character image Ch and its background image.
  • the character image Ch is preferably an image of a character that provokes dialogue or encourages the user. Displaying the character image Ch makes it easier for the user to interact with the agent 10-1.
  • the character image display area G20 does not have to exist. Alternatively, the character image Ch may be omitted and only the background image may be displayed.
  • EC screen G30 includes a search key display area G31 for displaying a search word (hereinafter also referred to as “search key”) and a product list display area G32 for displaying a product list.
  • search key for example, a main word and a narrowed word
  • the main word is a product name
  • the narrowing word (hereinafter also referred to as “refining key”) may be the weight, type, brand, etc. of the product.
  • the product list display area G32 a list of products related to products (product list) acquired by the search using the search key is displayed.
  • the data acquisition unit 121 of the agent 10-1 acquires the user utterance “I want to buy rice” via the voice input unit 113, and the recognition unit 122 , Extract the product name “rice” from the user utterance “I want to buy rice”, and search for information related to one or more products with the product name “rice” associated with the product name “rice” Get as a result. Then, the providing unit 123 displays the search result associated with “rice” in the product list display area G32.
  • a product name not only a general name such as “rice” but also a unique product name may be recognized. For example, a product name protected by a trademark right may be recognized as a unique product name.
  • the processing unit 124 associates information on one or more products whose product name is “detergent” with the product name “detergent”. Get as a search result. Then, the providing unit 123 switches the display of the product list display area G32 from the search result associated with “rice” to the search result associated with “detergent”.
  • the product name “rice” is extracted from the user utterance “I want rice”, and the product name “rice” is the main key for product selection. Is entered as Then, in the server device 40 (EC site), a product search using the main key “rice” as a search key is executed.
  • the server device 40 purchases the product found by the search (the product found by the search). Processing to put in a cart or settlement processing of products found by search). Subsequently, when the user utters “I want mayonnaise”, the server device 40 (EC site) similarly performs a product search using the main key “mayonnaise” as a search key.
  • FIG. 6 is a diagram for explaining an example of a screen configuration when narrowing down the products. Referring to FIG. 6, each stage of the user utterance is shown, and “robot type agent”, “2D type agent UI transition” and “agent processing” corresponding to each stage of the user utterance are shown.
  • Robot type agent shows an example of the appearance of the robot type agent 10-2 when the agent 10 is a robot type agent 10-2.
  • 2D type agent UI transition shows an example of a screen G10 displayed by the PC type agent 10-1 when the agent 10 is the PC type agent 10-1.
  • Agent processing shows an example of processing executed by the agent 10.
  • the data acquisition unit 121 sends the user utterance via the voice input unit 113 as shown in “agent processing”.
  • the recognition unit 122 extracts the product name “rice” from the user utterance “I want to buy rice”.
  • the server 40 EC site
  • the processing unit 124 acquires the product list. Then, the providing unit 123 displays the acquired product list on the EC screen G30.
  • the server device 40 finds it by the search.
  • a product purchase process (a process for putting a product found by a search into a cart or a settlement process for a product found by a search) is performed.
  • the display of the EC screen G30 ends.
  • “Add AAA (brand name)” may not be added as a refinement key (TPO (Time Place Occlusion), or the intention interpretation for the user utterance may be different depending on the context). For example, different interpretations may be made for the same utterance depending on the clothes worn by the character image Ch and the background image of the character image Ch.
  • the user utterance when a state in which the character image Ch is wearing an apron is displayed (or when a kitchen is displayed in the background of the character image Ch), the user utterance has an intention related to food ingredients.
  • the processing based on the intention interpretation result may be executed only when it is interpreted that the user utterance is present (that is, the intention interpretation for the user utterance is performed based on the attribute of a predetermined element included in the display information) Good).
  • the user utterance “Add XXX” is used as the search key “XXX” It is assumed that the utterance is intended to be added.
  • the new product “XXX” in the cart is displayed. It is assumed that the utterance is intended to be added.
  • an education-related application hereinafter, “application” may be simply referred to as “application”
  • application for example, a screen for solving a mathematical problem is displayed.
  • the user utterance “add XXX” is assumed to be an utterance intended for an operation of adding “XXX” to some number (for example, the number already input). Therefore, the intention interpretation for the user utterance may be different depending on the situation.
  • FIG. 7 is a sequence diagram showing an operation example of intention interpretation according to the situation.
  • the data acquisition unit 121 acquires the user utterance “Add XXX” via the voice input unit 113 (S11), and the recognition unit 122 executes voice recognition processing for the user utterance (S12), the data acquisition The unit 121 acquires and checks the status of the application linked to the display information as an example of information related to the information (display information) displayed by the display unit 150 (hereinafter also referred to as “related information”). (S13).
  • the related information is the state of the application linked to the display information.
  • the related information is not limited to the state of the application, and may be information related to the display information.
  • the application status may include the type of application (e.g., EC site application, education-related application, etc.).
  • the application state may further include an application execution stage (for example, a state in which products are being narrowed down, a display state of a product list, etc.).
  • the application linked to the display information may be an application that displays the display information, but the application linked to the display information is not limited to this, and may be an application having some relationship with the display information.
  • the state of the application linked to the display information is provided to the intention understanding unit 30 by the providing unit 123 together with the voice recognition result “Add XXX” (S14).
  • the intention understanding unit 30 interprets the intention of the speech recognition result according to the state of the application. Then, the intention understanding unit 30 provides the intention interpretation result to the agent 10 (S15).
  • the intention interpretation result may be different. More specifically, the display information displayed by the display unit 150 may include first display information related to the first related information. Moreover, the display information displayed by the display unit 150 may include second display information related to the second related information. The intention interpretation result according to the first related information may be different from the intention interpretation result according to the second related information different from the first related information.
  • the intention understanding unit 30 determines the intention interpretation mode of the speech recognition result according to the state of the application, and interprets the intention of the speech recognition result according to the determined intention interpretation mode.
  • the intention understanding unit 30 provides the agent 10 with information indicating the intention interpretation mode.
  • Information indicating the intention interpretation mode is provided to the user.
  • the providing unit 123 displays information indicating the intention interpretation mode as visual information (S16).
  • the information indicating the intention interpretation mode may be provided to the user by at least one of visual information and audio information.
  • the information indicating the intention interpretation mode may include at least one of a character image, an icon image, a background image, and BGM.
  • FIG. 8 is a diagram showing a display example of information indicating the intention interpretation mode.
  • the information indicating the intention interpretation mode includes a character image Ch, an icon image G21, a background image G22, and BGM (T10). However, at least one of these may be included in the information indicating the intention interpretation mode.
  • the character image Ch can express information indicating the intention interpretation mode by the clothes.
  • information indicating the intention interpretation mode can be expressed by the symbol or mark.
  • Other wearable items for example, hats
  • the character image Ch may express information indicating the intention interpretation mode by the character itself.
  • the icon image G21 can express information indicating the intention interpretation mode by its shape or color.
  • the icon image G21 may be a cart when the state of the application is narrowing down the products.
  • the icon image G21 may be a calculator icon in a state where the application state is displaying an education-related application screen.
  • the background image G22 can express information indicating the intention interpretation mode by an object drawn in the background or a background color. Further, if a sound (for example, music) corresponding to the intention interpretation mode is output, the BGM (T10) can express information indicating the intention interpretation mode by the sound.
  • the processing unit 124 executes processing based on the intention interpretation result (S17), and the providing unit 123 provides the user with the processing result based on the intention interpretation result. If the processing result based on the intention interpretation result is provided to the user, the processing result in consideration of the intention of the user utterance is provided to the user. Therefore, it is possible to increase the possibility that the processing result desired by the user is provided to the user.
  • the processing result may be provided to the user by at least one of visual information and audio information.
  • the type of processing based on the intention interpretation result is not particularly limited.
  • the process based on the intention interpretation result may be a process of adding “XXX” as a search key.
  • the application state is the display state of an education-related application screen
  • the process based on the intention interpretation result is a process of adding “XXX” to some number (for example, the number already input). It may be.
  • FIG. 9 is a diagram illustrating a configuration example of a system in a case where intention interpretation according to a situation is performed.
  • the data acquisition unit 121 in the agent 10 adds the user utterance “XXX via the voice input unit 113.
  • the recognition unit 122 recognizes “add XXX” as a voice recognition result.
  • the voice recognition result “add XXX” and the application state are notified to the intention understanding unit 30.
  • Examples of the application status include “search status”, “product list display status”, “calculation status of adding XXX”, etc., as shown in “status notification from agent (* 1)”.
  • the intention understanding device 30 interprets the intention of the speech recognition result “add XXX” according to the application state.
  • the intention understanding device 30 displays the speech recognition result “XXX” corresponding to the application state “search state” when the application state is “search state”.
  • the intention of “addition” is interpreted as “instruction to add XXX to the search key”.
  • the intention interpreter 30 provides the agent 10 with the intention interpretation result “instruction to add XXX to the search key”, and the agent 10 performs processing according to the intention interpretation result “instruction to add XXX to the search key”.
  • the server apparatus (EC site) 40 is instructed to add XXX to the search key.
  • the intention understanding device 30 sets the intention of the speech recognition result “add XXX” to “product list” in correspondence with the application state “product list display state”. "Instruction to add XXX”.
  • the agent 10 instructs the server device (EC site) 40 to add XXX to the product list as a process corresponding to the intention interpretation result “instruction to add XXX to the product list”.
  • the intention understanding unit 30 indicates the intention of the speech recognition result “add XXX” corresponding to the application state “calculation state of adding XXX”. It is interpreted as “instruction to add XXX to the calculation formula”.
  • the agent 10 instructs the server device (EC site) 40 to add XXX to the calculation formula as processing corresponding to the intention interpretation result “instruction to add XXX to the calculation formula”.
  • the processing result can be visually recognized by the user because the user can see the processing result.
  • the processing result may be a state recognized by the agent 10 (context; may include a search key input by the user).
  • the providing unit 123 may provide different audio information to the user when the user is viewing the display information and when the user is not viewing the display information. If it does so, the audio
  • whether or not the user is viewing display information can be estimated based on various information other than information related to the user's line of sight. For example, it may be estimated whether or not the user is viewing the display information based on the user orientation determined based on the user image obtained by imaging.
  • the orientation of the user may be regarded as the orientation of the user's face, or may be regarded as the orientation of the entire body of the user. These user orientations can be estimated from the features of the user's face and the entire body included in the image.
  • sensor information indicating the direction of the wearable device is a wearable device.
  • An example of a wearable device is a head mounted display. The wearable device is not limited to the head mounted display, and various forms such as a wristband type and a neckband type may be employed. As sensor information, acceleration information, angular acceleration information, captured image information, and the like can be employed.
  • the processing result is provided to the user by visual information.
  • the processing result is provided to the user by voice information.
  • the providing unit 123 may provide detailed audio information to the user when the user is not viewing the display information, compared to when the user is viewing the display information. More specifically, the providing unit 123 provides the processing result to the user as at least visual information when the user is viewing the display information, and responds to the visual information when the user is not viewing the display information. Audio information (audio information equivalent to visual information) may be provided to the user as detailed audio information.
  • the providing unit 123 provides the processing content “XXX as a narrowing key to be added to the search key” as voice information. Accordingly, it can be confirmed whether or not the input by the user is correct.
  • the agent 10 adds a refinement key to the EC screen G30, provides the number of search results using the main key and the refinement key based on the voice information “the result of refinement is N”, and performs the next operation to the user. Provide voice information that prompts you, "Do you want to add more refinement keys?"
  • FIG. 10 is a sequence diagram showing an operation example of dialogue depending on whether or not display information is being viewed.
  • the providing unit 123 recognizes whether or not the user is viewing the screen (that is, display information) (S 21), and the user displays the screen.
  • the difference (S22) is that the intention understanding device 30 is additionally provided as to whether or not it is viewed.
  • the intention understanding unit 30 interprets the intention of the voice recognition result further depending on whether or not the user is looking at the screen.
  • the providing unit 123 performs an utterance (providing audio information) depending on whether or not the user is looking at the screen ( S23) is different. For example, the providing unit 123 provides the voice information “Yes” when the user is viewing the display information. On the other hand, when the user does not look at the display information, the providing unit 123 provides the number of search results by voice information “the result of narrowing down is N”.
  • FIG. 11 is a diagram illustrating a display example of the EC screen G30.
  • the screen G10 displayed by the display unit 150 may include an EC screen G30.
  • a search by the EC site is performed, a product list obtained by the search is displayed on the EC screen G30.
  • products 1 to 4 are displayed as the product list.
  • the intention understanding unit 30 determines the state of the application. And, based on the screen state, the focused product is identified. Thereafter, the purchase process of the specified product is executed. App status and screen status are EC. Select. The agent 10 is notified to the intent understanding unit 30 by an instruction such as “Recommend”.
  • the focus is on the product (product 1) most likely to be purchased in the product list.
  • the focused product may be changed as appropriate by the user's operation.
  • the focus may not be applied to the product, and the purchased product may be selected by an utterance (for example, the third from the right) for selecting the product. At this time, the selected product may be highlighted.
  • a device such as a suggestion (display of candidate words) performed on the search site or EC site may be executed.
  • a suggestion display of candidate words
  • FIG. 12 is a diagram showing an example of a search key display area displayed on a general EC site.
  • a search key K11 input by the user is displayed.
  • the word related to the search key K11 is displayed as the candidate word K12.
  • the display of the candidate word K12 assists the user in narrowing down the products.
  • the candidate word K12 is created based on the search history or purchase history of products by the user.
  • FIG. 13 is a diagram for explaining the support for narrowing down according to the embodiment of the present disclosure.
  • the user speaks “I want to buy rice” when inputting the main key
  • voice recognition processing is performed on the user's utterance
  • the first voice recognition result “I want to buy rice”
  • the state of the application is provided to the intent understander 30.
  • the intent understanding unit 30 interprets the intention of the first speech recognition result according to the state of the application. Then, the intention understanding device 30 provides the agent 10 with the intention interpretation result.
  • the data acquisition unit 121 extracts the first input word “rice” from the intention interpretation result, and includes a candidate list including one or more candidate words corresponding to the first input word “rice”.
  • the providing unit 123 displays the search key K11 “rice” in the search key display area G31, and also displays the candidate list K13 “5 kg, 10 kg, 2 kg, unwashed rice” in the search key display area G31. Display. Also, the providing unit 123 provides the user with a processing result based on the intention interpretation result. Specifically, the providing unit 123 displays the search result of the search key “rice” and the number of search results in the product list display area G32.
  • the candidate list K13 assists the user in selecting a narrow-down key. Subsequently, when the user selects “5 kg” as the narrow-down key from the candidate list K13 “5 kg, 10 kg, 2 kg, non-washed rice” and utters “add 5 kg”, voice recognition processing is performed on the user utterance,
  • the second speech recognition result “add 5 kg” and the state of the application are provided to the intention understanding device 30.
  • the intention understanding device 30 interprets the intention of the second speech recognition result according to the state of the application. Then, the intention understanding device 30 provides the agent 10 with the intention interpretation result.
  • the data acquisition unit 121 extracts the second input word “5 kg” from the intention interpretation result, and acquires a candidate list including one or more candidate words corresponding to the second input word “5 kg”. To do. As shown in FIG. 13, the providing unit 123 displays the search key K11 “rice, 5 kg” in the search key display area G31, and displays the candidate list K13 “washless rice, XXX (brand)” in the search key display area G31. To display. Also, the providing unit 123 provides the user with a processing result based on the intention interpretation result. Specifically, the providing unit 123 displays the search result of the search key “rice + 5 kg” and the number of search results in the product list display area G32.
  • FIG. 14 is a diagram for explaining a device for making a user's utterance simple and resistant to noise.
  • the agent 10 obtains the second speech recognition result “5 kg” and obtains the second input word “5 kg”.
  • the “instruction word” may be regarded as an utterance for instructing the information processing apparatus 10 what kind of processing is to be performed on the “input word”. For example, verbs such as “I want to buy” and “Add” may be considered to correspond to “Instruction word”.
  • the second input word “5 kg” is included in the candidate list K13.
  • the providing unit 123 performs processing based on the intention interpretation result corresponding to the second input word “5 kg” even if the instruction word is not included in the second speech recognition result “5 kg”.
  • the result may be provided to the user.
  • the providing unit 123 may add the second input word “5 kg” to the main key “rice” as a narrowing key, and provide the user with the search result by the search key “rice, 5 kg”.
  • the user's utterance is expected to be simple and noise-resistant.
  • FIG. 14 shows an example in which the candidate word “5 kg” is displayed, but the candidate word “5 kg” may not be displayed.
  • the providing unit 123 may provide the number of search results to the user before the product list in order to make the user determine whether or not further product narrowing is necessary.
  • the providing unit 123 adds the search key “rice, 5 kg” to the search result by the new search key “rice, 5 kg” every time the refinement key “5 kg” is added by the user utterance and a new search key “rice, 5 kg” is generated. It may be provided to the user. Alternatively, when the user does not speak the narrow-down key within a predetermined time, the providing unit 123 adds a new search key “rice, 5 kg” in which the candidate word “5 kg” existing in the candidate list K13 is added as the narrow-down key. The search result may be provided to the user.
  • the providing unit 123 may provide the user with a processing result based on the intention interpretation result corresponding to the second input word.
  • the providing unit 123 may provide the user with a processing result based on the intention interpretation result corresponding to the second input word “20 kg”. Specifically, the providing unit 123 may display the search result of the search key “rice + 20 kg” and the number of search results in the product list display area G32.
  • the providing unit 123 may ignore the second input word.
  • the providing unit 123 may ignore the second input word “20 kg”. Specifically, the search using the search key “rice + 20 kg” may not be performed.
  • each of one or more candidate words included in the candidate list has an attribute.
  • the candidate word “2 kg” has the attribute “weight”
  • the candidate word “XXX” has the attribute “brand”.
  • the attribute of each of one or more candidate words included in the candidate list is not particularly considered, but the candidate list may be provided to the user after considering each attribute. Then, the user can select a candidate word taking into account the attribute.
  • attribute information may be associated in advance with each of one or more candidate words included in the candidate list.
  • the providing unit 123 may provide at least a part of the candidate list to the user for each corresponding attribute information as an example of providing a candidate list in which attributes are considered.
  • all of the created candidate lists are provided to the user for each attribute information will be described.
  • FIG. 15 is a diagram for explaining an example in which a candidate list is provided to a user for each attribute information.
  • the candidate word “number + kg” is registered in the dictionary 131 after being associated with the attribute information “weight, weight, mass”.
  • the candidate word “number + ML, L, CC” is registered in the dictionary 131 after being associated with the attribute information “capacity, amount”.
  • the candidate word “S company, C company” is registered in the dictionary 131 after being associated with the attribute information “maker, company, brand”.
  • “2 kg, 5 kg, 10 kg,..., XXX (brand), YYY (brand)” and the like are prepared as examples of a plurality of candidate words. Such a plurality of candidate words are classified for each attribute information based on the association between the candidate words registered in the dictionary 131 and the attribute information.
  • the data acquisition unit 121 uses the first input word “O A candidate list including one or more candidate words corresponding to “rice” is acquired.
  • the providing unit 123 displays the search key K11 “rice” in the search key display area G31 and displays the candidate list K13 in the search key display area G31 for each attribute information.
  • the attribute information of the candidate word “2 kg, 5 kg, 10 kg” is “weight”, and the attribute information of the candidate word “XXX, YYY” is “brand”.
  • the display order of the plurality of candidate words is not particularly limited.
  • the display order of the plurality of candidate words may be the order in which the number of searches is large, the order in which the amount of merchandise is small, or the order in which the number of purchases is high.
  • the providing unit 123 responds to attribute information when attribute information is included in a third speech recognition result acquired before the second speech recognition result.
  • the user may be provided with at least a part of the candidate list.
  • all candidate lists corresponding to attribute information included in the third speech recognition result are provided to the user for each attribute information.
  • FIG. 16 is a diagram for describing an example in which all candidate lists corresponding to attribute information included in the third speech recognition result are provided to the user for each attribute information.
  • “2 kg, 5 kg, 10 kg,..., XXX (brand), YYY (brand)” is assumed as an example of a plurality of candidate words. .
  • a plurality of such candidate words are prepared in advance.
  • the dictionary 131 is registered as in the example shown in FIG.
  • the agent 10 acquires data.
  • the unit 121 acquires a candidate list including one or more candidate words corresponding to the first input word “rice” and corresponding to the attribute information “weight”.
  • the providing unit 123 displays the search key K11 “rice” in the search key display area G31 and also displays the candidate list K13 corresponding to the attribute information “weight” in the search key display area G31.
  • the display order of the plurality of candidate words is not particularly limited.
  • the display order of the plurality of candidate words may be the order in which the number of searches is large, the order in which the amount of products is small, or the order in which the number of purchases is high.
  • the search key that must be input by the user may be determined in advance for each product. At this time, if there is a search key that is required to be input but has not yet been input, the user may make an utterance for designating the attribute of the search key. When there are a plurality of such search keys, the user may determine the order of attribute designation according to the order of suggestion (in order of frequency of use as a narrow-down key) or necessity.
  • the agent 10 may determine whether the user utterance is related to product purchase.
  • the utterance format related to the product purchase is determined as “add XXX”, it is possible to determine whether the user utterance is related to the product purchase according to this format.
  • the providing unit 123 may provide the processing result to the user only when the input word included in the speech recognition result corresponds to the state of the application. Then, input words that do not correspond to the application state are blocked as invalid words.
  • an input word that does not correspond to the application state may be referred to as an invalid word
  • an input word that corresponds to the application state may be referred to as a valid word. That is, a valid word may be regarded as an input word used for application operation.
  • the agent 10 knows in advance one or a plurality of candidate words corresponding to an application state (for example, a state in which products are being narrowed down) based on data registered in the dictionary 131. Therefore, the providing unit 123 can add the candidate word to the search key only when the input word included in the speech recognition result matches any of these candidate words.
  • an application state for example, a state in which products are being narrowed down
  • Such a block of invalid words is considered to work effectively even when the accuracy of the speech recognition processing of the user utterance is low (for example, when disturbance is included).
  • FIG. 17 is a diagram illustrating an operation example in the case where a valid word is included in a user utterance and in the case where a valid word is not included in a user utterance.
  • the application state is in a product narrowing state
  • an example in which an input word included in the speech recognition result is determined after the application state is in a product narrowing state will be described. Therefore, when the user has a shopping conversation, the speech recognition result includes a valid word, and when the user has a general conversation, the speech recognition result does not include a valid word.
  • the general conversation may be regarded as a conversation that does not include an input word corresponding to an application state, that is, a conversation that does not include a valid word.
  • the agent 10 based on one or more candidate words provided from the server device (EC site) 40, one or more candidate words corresponding to the application state (the state in which products are being narrowed down) are preliminarily stored. It is grasped. Therefore, the providing unit 123 performs context determination by text matching between the TEXT sequence “XXX is good” and the TEXT sequence “It is hot today” and one or more candidate words corresponding to the application state (S32). ).
  • the TEXT column “XXX is good” includes an input word “XXX” that matches the candidate word “XXX”. Therefore, the providing unit 123 generates an utterance indicating that the candidate word “XXX” is added to the search key. On the other hand, the TEXT column “It is hot today” does not include an input word that matches the candidate word. Therefore, the providing unit 123 generates a general utterance different from the addition of candidate words (S33).
  • the providing unit 123 adds “XXX” to the search key indicating that the candidate word “XXX” is added to the search key as an utterance corresponding to “(1) user is XXX (brand) is good”. ”Is provided.
  • the providing unit 123 provides an utterance “Yes!” As an example of a general utterance different from the addition of the candidate word as an utterance corresponding to “(2) It is hot today”.
  • the utterance may be provided by visual information and / or audio information.
  • FIG. 18 is a diagram illustrating a configuration example of a system when a candidate list is provided to a user.
  • the data acquisition unit 121 acquires the user utterance “I want to buy rice” via the voice input unit 113.
  • the recognition unit 122 recognizes “I want to buy rice” as a voice recognition result.
  • the voice recognition result “I want to buy rice” and the application state are notified to the intention understanding device 30.
  • the intention understanding device 30 interprets the intention of the speech recognition result “I want to buy rice” according to the application state.
  • the intention interpreter 30 provides the agent 10 with an intention interpretation result, and the agent 10 sets “rice” as a search key for the server device (EC site) 40 as processing corresponding to the intention interpretation result. Instruct the processing to be performed.
  • the server device (EC site) 40 generates a candidate list K13 based on at least one of the search history 132 and the purchase history 133, and provides the candidate list K13 to the agent 10.
  • a candidate list K13 is provided to the user, and an utterance of any of a plurality of candidate words included in the candidate list K13 is received.
  • the candidate word “2 km” is spoken by the user.
  • the providing unit 123 adds the candidate word (2 km) to the search key, and provides the search key “rice, candidate word (2 km)” to the server device (EC site) 40.
  • the server device (EC site) 40 a search using the search key “rice, candidate word (2 km)” is executed, and the search result is provided to the agent 10.
  • the providing unit 123 provides the search results and the number of search results to the user.
  • FIG. 19 is a flowchart illustrating an operation example of the agent 10 related to purchase of a product using the EC site.
  • S41 an instruction to purchase a designated product by user utterance is made (S41)
  • S42 a designated product name by user utterance is extracted (S42).
  • S43 the search result by the designated product name is acquired (S43).
  • the agent 10 If the number of search results is “0”, the agent 10 provides the user with a message prompting the user to enter a product name “There is no product you are looking for. Please specify again” (S45). The agent 10 waits for input of a product name (S46), and proceeds to S42. On the other hand, when the number of search results is “one or more”, the agent 10 displays the designated product list (S44), and when there is no candidate word corresponding to the designated product name, the agent 10 proceeds to S51. If there is a candidate word corresponding to the designated product name, the process proceeds to S61.
  • the agent 10 confirms the intention to purchase for the user (S51), performs the purchase process when the intention to purchase is confirmed (S52), and prompts the next product. An utterance is performed (S53), and the process proceeds to S46. On the other hand, if there is a candidate word corresponding to the designated product name, the agent 10 displays the candidate word (S61) and waits for input of the user utterance (S62). When the user utterance is input, the agent 10 performs an intention check on the user utterance (S63).
  • the agent 10 interprets that the user utterance is a general conversation, performs an utterance that prompts the user to narrow down products (S64), and proceeds to S62. .
  • the agent 10 adds the candidate word as a narrowing key to the product name that has already been searched, and proceeds to S43. In other cases (for example, when an utterance that matches a higher category than the product is made), the agent 10 causes the user to specify a product name different from the product name that has already been searched, and the process proceeds to S42. .
  • FIG. 20 is a sequence diagram illustrating an operation example of the entire system related to purchase of a product using the EC site.
  • the agent 10 has a voice processing unit and a UI unit. As shown in FIG. 20, it is assumed that the user speaks “I want to buy XXX” (S71). At this time, the user utterance “I want to buy XXX” is input to the agent 10, and the product name “XXX” is extracted from the user utterance “I want to buy XXX” in the voice processing unit.
  • the voice processing unit outputs an EC site activation instruction and a product name “XXX” to the UI unit (S72). Upon receiving the EC site activation instruction, the UI unit retrieves search information including the product name “XXX”. Is output to the server device (EC site) 40 (S73).
  • the server device (EC site) 40 executes a search using the product name “XXX”, and returns a search result and a candidate word corresponding to the product name “XXX” to the UI unit (S74).
  • the UI unit displays search results (S75), displays candidate words, and outputs the number of search results and candidate words to the voice processing unit (S76).
  • the voice processing unit utters a guidance “Please input the narrow-down key for XXX” prompting the input of the narrow-down key (S77). Wait for user utterance.
  • the voice processing unit checks whether “YYY” is a candidate word (S82). Whether or not “YYY” is a candidate word may be confirmed by the server device (EC site) 40.
  • the voice processing unit outputs the product name “XXX” and the candidate word “YYY” to the UI unit, and the UI unit retrieves the search information including the search key “XXX + YYY” The data is output to the device (EC site) 40 (S84).
  • the server device (EC site) 40 executes a search using the search key “XXX + YYY”, and returns the search result and the candidate word corresponding to the search key “XXX + YYY” to the UI unit (S85).
  • FIG. 21 is a diagram showing an example of a screen G90 generally used for searching.
  • the screen G90 includes a microphone icon G41.
  • the microphone icon G41 is selected by the user and the voice “Beethoven” is input, the voice “Beethoven” is recognized and a search is performed by “Beethoven”.
  • the non-speech input unit 114 includes a touch panel on which a screen is displayed by the display unit 150 and detects various operations.
  • the non-voice input unit 114 is not limited to a touch panel.
  • the non-speech input unit 114 may include a button that can detect a pressing operation.
  • the non-speech input unit 114 may include an imaging device that can detect various operations from a gesture or line of sight recognized from the captured image.
  • the non-speech input unit 114 may include a motion sensor (an acceleration sensor, a gyro sensor, or the like) that can detect various operations from a user's movement.
  • FIG. 22 is a diagram for explaining an example of selecting attribute information.
  • the screen G10-1 displays buttons (seconds) corresponding to attribute information (songs, albums and bands) associated with the microphone icon (first voice input unit) G41 and the voice input “Beethoven”. Voice input units) G51 to G53. It is sufficient that at least one attribute information exists. The user can select any of the attribute information by input (touch operation) to the non-voice input unit 114.
  • buttons G51 to G53 corresponding to the attribute information may be displayed (screen G10-4).
  • the displayed buttons G51 to G53 may be determined in advance or may be determined depending on the user's preference. The user can select any of the attribute information by performing a flick operation from the microphone icon G41 to any of the buttons G51 to G53.
  • the data acquisition unit 121 acquires a candidate list including one or a plurality of candidate words corresponding to the selected attribute information when any of the attribute information is selected on the screen G10-1 or the screen G10-4. For example, when the attribute information “album” is selected, the candidate list K13 corresponding to the attribute information “album” is acquired.
  • the screen G10-2 includes a candidate list K13.
  • the user can speak by referring to the candidate list K13 corresponding to the attribute information “album”.
  • the providing unit 123 provides the user with a processing result based on the intention interpretation result of the voice recognition result based on the candidate list K13 corresponding to the attribute information “album”. For example, when any of candidate words included in the candidate list K13 corresponding to the attribute information “album” is uttered, a processing result based on the intention interpretation of the candidate word is provided to the user.
  • FIG. 23 is a sequence diagram showing an operation example of the entire system related to music distribution using an EC site.
  • the agent 10 has a voice processing unit and a UI unit. As shown in FIG. 23, it is assumed that the user presses the artist button (S91). The GUI unit issues an instruction to extract the artist name from the user utterance (S92).
  • the user utters the artist name “Beethoven” (S93).
  • the voice processing unit receives the artist name “Beethoven” and information indicating the artist to the UI unit (S94).
  • the UI unit receives the artist name “Beethoven”. And search information including information indicating the artist is output to the server device (EC site) 40 (S95).
  • the server device (EC site) 40 executes a search using the artist name “Beethoven”, and returns a search result and a candidate word corresponding to the artist name “Beethoven” to the UI unit (S96).
  • the UI unit displays search results (S97), displays candidate words, and outputs the number of search results and candidate words to the voice processing unit (S98).
  • the voice processing unit utters a guidance “Please input the narrow-down key for Beethoven” prompting the input of the narrow-down key (S99). Wait for user utterance.
  • the voice processing unit checks whether or not "BBB” is a candidate word. Whether or not “BBB” is a candidate word may be confirmed by the server device (EC site) 40.
  • the voice processing unit outputs the artist name “Beethoven”, the candidate word “BBB”, and information indicating the music to the UI unit, and the UI unit obtains the search key “Beethoven + BBB”. Search information including information indicating the music is output to the server device (EC site) 40 (S104).
  • the server device (EC site) 40 executes a search using the search key “Beethoven + BBB”, and returns a search result and a candidate word corresponding to the search key “Beethoven + BBB” to the UI unit (S105).
  • the UI unit displays search results (S106), displays candidate words, and outputs the number of search results and candidate words to the voice processing unit.
  • the voice processing unit utters guidance that prompts selection of music data. Wait for user utterance.
  • the UI unit instructs the server apparatus (EC site) 40 to distribute the music data (S108), and the server apparatus (EC site) 40 The music data is distributed to the UI unit (S109).
  • FIG. 24 is a diagram for explaining a case where a plurality of attribute information is hierarchically configured. Specifically, the attribute information “Chinese” and “French” are associated with the attribute information “Cooking name”.
  • buttons G61 ⁇ corresponding to the attribute information associated with the voice input “Beethoven” are placed at positions adjacent to the microphone icon G41.
  • G63 may be displayed (screen G10-5). The user can select any of the attribute information by performing a flick operation from the microphone icon G41 to any of the buttons G61 to G63. Assume that the button G61 is selected.
  • buttons G71 to G72 corresponding to the attribute information associated with the attribute information “dishes name” are displayed at positions adjacent to the button G61. (Screen G10-6).
  • the user can select either attribute information “Chinese” or “French” by performing a flick operation from the button G61 to any of the buttons G71 to G72. Assume that the button G71 is selected.
  • FIG. 25 is a diagram illustrating an example of a search target and attribute information (display contents by flick) corresponding to the search target.
  • FIG. 26 is a diagram for explaining a case where a search is performed based on a manually input search key.
  • a search icon G42 is displayed instead of the microphone icon G41 shown in FIG.
  • attribute information is selected by a flick operation, and a candidate list corresponding to the selected attribute information can be provided to the user.
  • the user can select any of candidate words included in the candidate list corresponding to the attribute information as a new search key.
  • FIG. 27 is a diagram illustrating an example in which the image information is loaded. In the example illustrated in FIG. 27, it is assumed that a process of adding a refinement key “XXX (brand)” to the main key “rice” is executed as a process based on the intention interpretation result.
  • the processing based on the intention interpretation result includes loading of image information
  • the time during which the image information is loaded may be used effectively.
  • the providing unit 123 corresponds to an input word (for example, “rice”) included in the intention interpretation result during the loading of the image information.
  • Predetermined supplementary information may be provided to the user as audio information.
  • the supplemental information is not particularly limited, but may be information such that “rice” can be narrowed down in ascending order of price.
  • FIG. 28 is a block diagram illustrating a hardware configuration example of the information processing apparatus 10 according to the embodiment of the present disclosure.
  • the information processing apparatus 10 includes a CPU (Central Processing unit) 901, a ROM (Read Only Memory) 903, and a RAM (Random Access Memory) 905.
  • the information processing apparatus 10 may include a host bus 907, a bridge 909, an external bus 911, an interface 913, an input device 915, an output device 917, a storage device 919, a drive 921, a connection port 923, and a communication device 925.
  • the information processing apparatus 10 may include an imaging device 933 and a sensor 935 as necessary.
  • the information processing apparatus 10 may include a processing circuit called a DSP (Digital Signal Processor) or ASIC (Application Specific Integrated Circuit) instead of or in addition to the CPU 901.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • the CPU 901 functions as an arithmetic processing device and a control device, and controls all or a part of the operation in the information processing device 10 according to various programs recorded in the ROM 903, the RAM 905, the storage device 919, or the removable recording medium 927.
  • the ROM 903 stores programs and calculation parameters used by the CPU 901.
  • the RAM 905 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like.
  • the CPU 901, the ROM 903, and the RAM 905 are connected to each other by a host bus 907 configured by an internal bus such as a CPU bus. Further, the host bus 907 is connected to an external bus 911 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 909.
  • PCI Peripheral Component Interconnect / Interface
  • the input device 915 is a device operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever.
  • the input device 915 may include a microphone that detects the user's voice.
  • the input device 915 may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device 929 such as a mobile phone that supports the operation of the information processing device 10.
  • the input device 915 includes an input control circuit that generates an input signal based on information input by the user and outputs the input signal to the CPU 901. The user operates the input device 915 to input various data to the information processing device 10 or instruct a processing operation.
  • An imaging device 933 which will be described later, can also function as an input device by imaging a user's hand movement, a user's finger, and the like. At this time, the pointing position may be determined according to the movement of the hand or the direction of the finger.
  • the output device 917 is a device that can notify the user of the acquired information visually or audibly.
  • the output device 917 is, for example, a display device such as an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL (Electro-Luminescence) display, a projector, an audio output device such as a hologram display device, a speaker and headphones, As well as a printer device.
  • the output device 917 outputs the result obtained by the processing of the information processing device 10 as a video such as text or an image, or outputs it as a sound such as voice or sound.
  • the output device 917 may include a light or the like to brighten the surroundings.
  • the storage device 919 is a data storage device configured as an example of a storage unit of the information processing device 10.
  • the storage device 919 includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the drive 921 is a reader / writer for a removable recording medium 927 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and is built in or externally attached to the information processing apparatus 10.
  • the drive 921 reads information recorded on the attached removable recording medium 927 and outputs the information to the RAM 905.
  • the drive 921 writes a record in the attached removable recording medium 927.
  • the connection port 923 is a port for directly connecting a device to the information processing apparatus 10.
  • the connection port 923 can be, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or the like.
  • the connection port 923 may be an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, or the like.
  • Various data can be exchanged between the information processing apparatus 10 and the external connection device 929 by connecting the external connection device 929 to the connection port 923.
  • the communication device 925 is a communication interface configured with, for example, a communication device for connecting to the communication network 931.
  • the communication device 925 can be, for example, a communication card for wired or wireless LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 925 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various communication.
  • the communication device 925 transmits and receives signals and the like using a predetermined protocol such as TCP / IP with the Internet and other communication devices, for example.
  • the communication network 931 connected to the communication device 925 is a wired or wireless network, such as the Internet, a home LAN, infrared communication, radio wave communication, or satellite communication.
  • the imaging device 933 uses various members such as an imaging element such as a CCD (Charge Coupled Device) or CMOS (Complementary Metal Oxide Semiconductor), and a lens for controlling the imaging of a subject image on the imaging element. It is an apparatus that images a real space and generates a captured image.
  • the imaging device 933 may capture a still image or may capture a moving image.
  • the sensor 935 is various sensors such as a distance measuring sensor, an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, and a sound sensor.
  • the sensor 935 acquires information about the state of the information processing apparatus 10 itself, such as the attitude of the housing of the information processing apparatus 10, and information about the surrounding environment of the information processing apparatus 10, such as brightness and noise around the information processing apparatus 10.
  • the sensor 935 may include a GPS sensor that receives a GPS (Global Positioning System) signal and measures the latitude, longitude, and altitude of the apparatus.
  • GPS Global Positioning System
  • the agent 10 may predict and display mathematical symbols according to the recognized keyword, as in the case of a suggestion at an EC site.
  • the agent 10 may recognize only keywords related to calculations such as mathematical symbols and numerical values according to the recognized keywords.
  • Embodiments of the present disclosure may be applied to specific apparatuses, methods, programs, systems, recording media, and the like. For example, it is possible to create a program for causing hardware such as a CPU, ROM, and RAM incorporated in a computer to exhibit functions equivalent to the functions of the control unit 120 described above. Also, a computer-readable recording medium that records the program can be provided.
  • the voice can be acquired directly / indirectly from the terminal with which the user is in contact.
  • the intention interpretation of the speech recognition result may be performed by either the terminal / cloud computing.
  • the processing is not limited to intention interpretation of the speech recognition result, and various processes may be executed by a processing unit outside the terminal such as cloud computing.
  • the recognition unit 122 or the like may be provided in a server (not shown) connected via the communication network 931.
  • the agent 10 may correspond to a client connected to the server via the communication network 931.
  • the intention interpretation mode may be determined based on real space image recognition information.
  • the intention interpretation mode may be determined based on environment information including a user's gesture and a real object.
  • the intention interpretation mode may be determined based on a real object for a specific purpose included in the image recognition information.
  • the specific real object is not limited to a real object provided in a general household such as home appliances and cooking utensils.
  • a real object for a special purpose such as a medical instrument may be recognized.
  • the intention interpretation mode may be determined based on the button operation information of the terminal by the user.
  • the intention interpretation mode may be determined based on information related to the specific device. As such a case, there is an example of so-called IoT in a home.
  • the intention interpretation input mode may be determined based on the status information of the devices that are linked. For example, the intention interpretation mode corresponding to the activated device (eg, coffee maker, rice cooker, etc.) may be determined.
  • the cooperation between devices may be either wired or wireless.
  • Embodiments of the present disclosure can also be applied to medical applications.
  • medical applications it is effective that keywords are recognized smoothly because there is a demand for the user to input and operate the terminal without contact during surgery or the like.
  • the ability to perform operation input without contact is also effective from the viewpoint of preventing infectious diseases.
  • the embodiment of the present disclosure can be applied to factories, vehicles, agriculture, and the like in addition to medical uses.
  • traveling state information speed, acceleration, temperature, SOC (State of Charge), remaining amount of fuel, etc.
  • navigation information sound information (sound, music, etc.) in the vehicle, etc.
  • sound information sound, music, etc.
  • the intention interpretation mode may be determined. For example, when the vehicle is in a running state, keywords related to road traffic information and map information may be recognized. A keyword related to entertainment such as music may be recognized only when the vehicle is stopped. If any of the vehicle components has an abnormality, a keyword related to the abnormality may be recognized.
  • the recognized keyword may be switched according to the attribute information of each user. That is, a different intention interpretation mode may be set for each user at a certain time.
  • the recognized keyword and the unrecognized keyword may be displayed separately.
  • the unrecognized keyword only needs to have visibility enough to be visually recognized by the user.
  • the visibility of the recognized keyword may be set larger than the visibility of the keyword that has not been recognized.
  • the visibility may be changed by changing the brightness, luminance, size, or thickness.
  • various methods can be used to change the visibility, such as changing the font type, changing the font saturation (color), changing the font size, adding display processing such as bold, italic, and underline, and adding animation to the font. May be adopted.
  • the agent 10 provides information indicating the intention interpretation mode using at least one of visual information and audio information. Further, the agent 10 varies the intention interpretation result to be provided according to the speech recognition based on the information indicating the provided / provided intention interpretation mode. In this case, the intention interpretation result may be provided using at least one of visual information and audio information. When the information indicating the intention interpretation mode is different, the agent 10 changes at least a part of the intention interpretation result to be provided.
  • the agent 10 provides visual information of the intention interpretation result based on the information indicating the intention interpretation mode.
  • the agent 10 changes at least a part of the intention interpretation result provided according to the speech recognition.
  • information indicating the intention interpretation mode may be provided to the user using at least one of visual information and audio information, but may not be provided to the user.
  • information indicating the set intention interpretation mode may be acquired, and the information indicating the acquired intention interpretation mode may not be provided to the user.
  • a providing unit that provides a user with a processing result based on the intention interpretation result;
  • An information processing apparatus comprising: (2)
  • the display information includes at least one of first display information related to first related information and second display information related to second related information,
  • the intention interpretation result according to the first related information is different from the intention interpretation result according to the second related information different from the first related information.
  • the information processing apparatus according to (1).
  • the providing unit provides the user with information indicating the intention interpretation mode.
  • the information processing apparatus includes at least one of a character image, an icon image, a background image, and BGM.
  • the providing unit provides the processing result to the user by at least one of visual information and audio information.
  • the information processing apparatus according to any one of (1) to (4).
  • the providing unit provides the user with different audio information when the user is viewing the display information and when the user is not viewing the display information.
  • the information processing apparatus according to (5).
  • the providing unit provides detailed audio information to the user when the user does not view the display information, compared to when the user is viewing the display information.
  • the providing unit provides the processing result to the user as at least visual information when the user is viewing the display information, and the visual information when the user is not viewing the display information.
  • the data acquisition unit includes a candidate list including one or more candidate words corresponding to the first input word included in the intention interpretation result Get
  • the providing unit provides the user with a processing result based on an intention interpretation result of a second voice recognition result acquired after the first voice recognition result based on the candidate list.
  • the information processing apparatus according to any one of (1) to (8).
  • the providing unit relates to processing of the second input word in the second speech recognition result when the second input word included in the second speech recognition result is included in the candidate list.
  • the processing result based on the intention interpretation result according to the second input word is provided to the user.
  • the providing unit relates to processing of the second input word in the second speech recognition result when the second input word included in the second speech recognition result is not included in the candidate list. If an instruction word is included, a processing result based on an intention interpretation result according to the second input word is provided to the user;
  • the information processing apparatus according to (9) or (10).
  • the providing unit does not include the instruction word in the second speech recognition result when the second input word included in the second speech recognition result is not included in the candidate list. If the second input word is ignored, The information processing apparatus according to (10) or (11). (13) The providing unit provides the user with at least a part of the candidate list; When the attribute information is included in the third speech recognition result acquired before the second speech recognition result, the providing unit provides the user with at least a part of the candidate list corresponding to the attribute information To The information processing apparatus according to any one of (9) to (11). (14) The providing unit provides the user with at least a part of the candidate list for each piece of attribute information corresponding to the candidate list. The information processing apparatus according to any one of (9) to (11).
  • the data acquisition unit corresponds to the selected attribute information when at least one attribute information associated with voice input and displayed by the display device is selected by input to the non-voice input unit. Or get a candidate list containing multiple candidate words,
  • the providing unit provides the user with a processing result based on an intention interpretation result of the speech recognition result based on the candidate list.
  • the information processing apparatus according to any one of (1) to (8).
  • the non-voice input unit is a touch panel;
  • the display device displays a first voice input unit on the touch panel, While the first voice input unit is selected by a touch operation on the touch panel, at least one second voice input unit corresponding to the attribute information is provided at a position adjacent to the first voice input unit.
  • the information processing apparatus provides the processing result to the user only when an input word included in the speech recognition result corresponds to the related information.
  • the providing unit uses predetermined supplemental information corresponding to the input word included in the intention interpretation result as voice information during the loading of the image information.
  • Providing to the user The information processing apparatus according to any one of (1) to (17).
  • (19) Obtaining relevant information related to display information displayed by the display device; When the intention interpretation of the speech recognition result is performed according to the related information, the processor provides a processing result based on the intention interpretation result to the user. Including an information processing method.
  • Computer A data acquisition unit for acquiring related information related to display information displayed by the display device; When the intention interpretation of the speech recognition result is performed according to the related information, a providing unit that provides a user with a processing result based on the intention interpretation result; A program for causing an information processing apparatus to function.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識結果に応じた処理結果がユーザに提供されるに際して、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能な技術が提供されることが望まれる。 【解決手段】表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 近年、ユーザによって発話がなされると、ユーザ発話に対して音声認識処理を実行し、音声認識処理の実行により得られた音声認識結果に応じた処理結果をユーザに提供する技術が存在する(例えば、特許文献1参照)。
特開2011-253375号公報
 しかし、ユーザ発話の意図は状況に応じて変化し得る。したがって、音声認識結果に応じた処理結果がユーザに提供されるに際して、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能な技術が提供されることが望まれる。
 本開示によれば、表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、を備える、情報処理装置が提供される。
 本開示によれば、表示装置によって表示される表示情報に関連する関連情報を取得することと、前記関連情報に応じて音声認識結果の意図解釈がなされると、プロセッサにより、意図解釈結果に基づく処理結果をユーザに提供することと、を含む、情報処理方法が提供される。
 本開示によれば、コンピュータを、表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、を備える情報処理装置として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、音声認識結果に応じた処理結果がユーザに提供されるに際して、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理装置の概要について説明するための図である。 同実施形態に係る情報処理装置の概要について説明するための図である。 エージェントの機能構成例を示す図である。 制御部の詳細構成例を示す図である。 PC型のエージェントの表示部によって表示される画面例を示す図である。 商品絞り込み時の画面構成例を説明するための図である。 状況に応じた意図解釈の動作例を示すシーケンス図である。 意図解釈モードを示す情報の表示例を示す図である。 状況に応じた意図解釈がなされる場合におけるシステムの構成例を示す図である。 表示情報を見ているか否かに応じた対話の動作例を示すシーケンス図である。 EC画面の表示例を示す図である。 一般的なECサイトにおいて表示される検索キー表示エリアの例を示す図である。 本開示の実施形態に係る絞り込みの支援を説明するための図である。 ユーザ発話をシンプルかつノイズに強くするための工夫を説明するための図である。 候補リストを属性情報ごとにユーザに提供する例を説明するための図である。 第3の音声認識結果に含まれる属性情報に対応する候補リストのすべてが属性情報ごとにユーザに提供される例を説明するための図である。 ユーザ発話に有効語が含まれる場合と有効語が含まれない場合それぞれにおける動作例を示す図である。 候補リストがユーザに提供される場合におけるシステムの構成例を示す図である。 ECサイトを利用した商品の購入に係るエージェントの動作例を示すフローチャートである。 ECサイトを利用した商品の購入に係るシステム全体の動作例を示すシーケンス図である。 一般的に検索に利用される画面の例を示す図である。 属性情報の選択例を説明するための図である。 ECサイトを利用した楽曲の配信に係るシステム全体の動作例を示すシーケンス図である。 複数の属性情報が階層的に構成されている場合を説明するための図である。 検索対象と検索対象に対応する属性情報の例を示す図である。 手動によって入力された検索キーに基づいて検索がなされる場合を説明するための図である。 画像情報がロード時間の例を示す図である。 情報処理装置のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
 なお、説明は以下の順序で行うものとする。
 1.本開示の実施形態
  1.1.概要
  1.2.機能構成例
  1.3.機能詳細
   1.3.1.画面構成例
   1.3.2.商品絞り込み時の対話例
   1.3.3.商品絞り込み時の画面構成例
   1.3.4.状況に応じた意図解釈
   1.3.5.表示情報を見ているか否かに応じた対話
   1.3.6.EC画面の表示例
   1.3.7.絞り込みを支援する技術
   1.3.8.属性情報の選択
   1.3.9.補足情報のアナウンス
  1.4.ハードウェア構成例
  1.5.補足
   1.5.1.計算における変形例の詳細
   1.5.2.補足事項1
   1.5.3.補足事項2
   1.5.4.補足事項3
   1.5.5.補足事項4
   1.5.6.補足事項5
   1.5.7.補足事項6
   1.5.8.補足事項7
   1.5.9.補足事項8
   1.5.10.補足事項9
   1.5.11.補足事項10
   1.5.12.補足事項11
 <1.本開示の実施形態>
 [1.1.概要]
 まず、図面を参照しながら、本開示の一実施形態に係る情報処理装置の概要について説明する。図1および図2は、本開示の一実施形態に係る情報処理装置の概要について説明するための図である。本開示の一実施形態においては、図1および図2に示すように、情報処理装置10とユーザ80とが登場する。
 なお、本明細書においては、情報処理装置10がエージェントとして機能する場合を主に想定する(本明細書においては、情報処理装置をエージェントと称することがある。)。ここで、エージェントは、ユーザによって発せられた音声(以下、「ユーザ発話」とも言う。)を音声情報として受け取り、この音声情報に対する音声認識結果に応じた処理結果をユーザに提供する装置であり得る。
 エージェント10は、図1に示すように、PC(Personal Computer)型のエージェント10-1として実現され得る。図1に示した例では、表示部150にエージェントのキャラクタ画像Chが表示されている。あるいは、エージェント10は、図2に示すように、ロボット型のエージェント10-2としても実現され得る。以下では、エージェント10がPC型のエージェント10-1によって実現される例を主に説明するが、エージェント10がロボット型のエージェント10-2によって実現される例も適宜説明する。
 近年では、PC(Personal Computer)およびモバイルなどといった電子機器を使うのが困難である老人を中心として、インターネットを利用して誰もが簡単に買い物することを可能とする技術が望まれている。かかる技術の実現のためには、ユーザが難しいGUI(Graphical User Interface)などを操作することなく、図1および図2に示すように、ユーザとエージェント10との対話(特に自然言語での対話)により商品の購入を可能とするサービスを提供することが必要である。
 例えば、このようなサービスとして、ユーザが「お米を買いたい」と発話するだけで目的のお米の購入を可能とするサービスが一般的にイメージされると推定される。しかし、実際には「お米を買いたい」というユーザ発話に基づいて検索が実行された場合には、候補となる「お米」が大量に見つかってしまうため、ユーザが目的のお米を購入するためには、お米の品種、量、産地およびブランドなどといった複数の条件を設定する必要がある。
 図1および図2に示された例では、「お米」という条件に「2キロ」という量についての条件を加えるようにユーザ80から発話がなされている。この例のように、一般的なイメージとは裏腹に、音声情報だけを用いてユーザが目的の商品にたどり着くことは難しいと言える。したがって、本明細書においては、音声情報による操作と目的の商品の選択を助けるための視覚情報とを組み合わせることにより、簡単に目的の商品の選択および購入を可能とする技術を主に提案する。
 例として、あるEC(electronic commerce)サイトにおいて「お米」というキーワードを用いた検索が実行された場合、検索結果として数千件の候補が見つかる。つまり、ユーザが最終的に目的の商品を購入するためには、数千件の候補から目的の商品(例えば、1件)が残るまで絞り込みを行う必要がある。具体的に、ユーザは、購入したい商品を示すメインワード(例えば、「お米」などといった商品の名称)をもとに、下記のような2つの作業のいずれかを行う必要がある。
 1つめの作業として、商品の重さ、種別およびブランドなどといった各種条件を設定し、各種条件を検索に用いることによって、検索だけによって目的の商品が残るまで絞り込みを行う作業が挙げられる。2つめの作業として、同様にして各種条件を検索に用いることによって、検索によってある程度の数の商品が残るまで絞り込みを行い、残った商品のリストから商品を一つずつ取捨選択しながら目的の商品が残るまで絞り込みを行う作業が挙げられる。
 これらの例によって示されるように、ユーザがECサイトにおいて目的の商品にたどり着くためには、目的の商品を示すメインワードを最初にユーザに入力させ、このメインワードを起点として、絞り込みのための条件に利用されるキーワードを、簡単かつ適切にユーザに入力させることが重要となる。
 図1および図2を参照しながら、エージェント10の概要について説明した。
 [1.2.機能構成例]
 続いて、エージェント10の機能構成例について説明する。図3は、エージェント10の機能構成例を示す図である。図3に示したように、エージェント10は、音出力部111、音声入力部113、非音声入力部114、距離検出部115、制御部120、記憶部130、通信部140および表示部150を有している。また、エージェント10は、通信ネットワーク931を介して意図理解器30およびサーバ装置40と接続されている。通信ネットワーク931は、例えば、インターネットにより構成される。
 音出力部111は、音を出力する機能を有する。例えば、音出力部111は、スピーカを含んでおり、スピーカによって音を出力する。音出力部111に含まれるスピーカの数は1以上であれば特に限定されない。そして、音出力部111に含まれる1以上のスピーカそれぞれが設けられる位置も特に限定されない。なお、音出力部111は、音を出力する機能を有すれば、スピーカ以外の形態(例えば、イヤホン、ヘッドセットなど)の音出力装置を含んでもよい。
 音声入力部113は、集音によって音を得る機能を有する。例えば、音声入力部113は、マイクロフォンを含んでおり、マイクロフォンによって集音する。音声入力部113に含まれるマイクロフォンの数は1以上であれば特に限定されない。そして、音声入力部113に含まれる1以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。なお、音声入力部113は、音情報を集音する機能を有すれば、マイクロフォン以外の形態の集音装置を含んでもよい。
 非音声入力部114は、音声以外の情報を得る機能を有する。本明細書においては、非音声入力部114がタッチパネルおよび撮像装置を備える例を主に説明する。タッチパネルは、ユーザによる押下操作を検出し得る。また、撮像装置は、撮像によって得られた画像からユーザのジェスチャおよび視線を検出し得る。しかし、非音声入力部114は、かかる例に限定されない。例えば、非音声入力部114は、押下操作を検出するボタンを備えてもよい。また、非音声入力部114は、ユーザの動きを検出するモーションセンサを備えてもよい。モーションセンサは、加速度センサによって加速度を検出してもよいし、ジャイロセンサによって角速度を検出してもよい。
 距離検出部115は、ユーザまでの距離を検出する機能を有する。例えば、距離検出部115は測距センサを含んでおり、測距センサによって検出されたユーザまでの距離を取得する。測距センサが設けられる位置は特に限定されない。また、測距センサの種類は特に限定されない。例えば、測距センサは、赤外線距離センサであってもよいし、超音波距離センサであってもよい。
 通信部140は、通信ネットワーク931を介して通信ネットワーク931に接続されたサーバ装置40および意図理解器30と通信を行う機能を有する。例えば、通信部140は、通信インターフェースにより構成される。なお、通信ネットワーク931に接続されるサーバ装置40は、1つであってもよいし、複数であってもよい。本明細書においては、サーバ装置40がエージェント10にECサイトを提供する例を主に説明する。
 記憶部130は、制御部120によって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録媒体である。また、記憶部130は、制御部120による演算のためにデータを一時的に記憶する。記憶部130は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。
 表示部150は、各種の画面を表示する機能を有する。本実施形態においては、表示部150がプロジェクタである場合を主に想定するが、表示部150の種類は限定されない。例えば、表示部150は、ユーザに視認可能な表示を行うことが可能なディスプレイ(表示装置)であればよく、液晶ディスプレイであってもよいし、有機EL(Electro-Luminescence)ディスプレイであってもよい。また、本明細書においては、表示部150が比較的高い位置(例えば、壁など)に表示を行ったり、比較的低い位置(例えば、エージェントのお腹、ユーザの手元など)に表示を行ったりする場合を主に想定するが、表示部150が表示を行う位置も限定されない。
 制御部120は、エージェント10の各部の制御を実行する。図4は、制御部120の詳細構成例を示す図である。図4に示したように、制御部120は、データ取得部121、認識部122、提供部123および処理部124を備える。これらの各機能ブロックについての詳細は、後に説明する。なお、制御部120は、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてよい。制御部120がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。
 なお、以下の説明において、音声(voiceまたはspeech)と音(sound)とは区別して用いられる。すなわち、音声(voiceまたはspeech)は、音声入力部113によって集音された音のうち、主にユーザ発話を示すのに対し、音(sound)は、ユーザ発話の他、物音などをも含み得る。
 以上、本実施形態に係るエージェント10の機能構成例について説明した。
 [1.3.機能詳細]
  (1.3.1.画面構成例)
 続いて、エージェント10の機能詳細について説明する。まず、PC型のエージェント10-1の表示部150によって表示される画面例について説明する。図5は、PC型のエージェント10-1の表示部150によって表示される画面例を示す図である。図5に示すように、表示部150によって画面G10が表示される。画面G10には、キャラクタ画像表示エリアG20が含まれる他、EC画面G30が含まれる。
 キャラクタ画像表示エリアG20は、キャラクタ画像Chおよびその背景画像を含んでいる。キャラクタ画像Chは、ユーザに対して対話を喚起させたり愛着を湧かせたりするようなキャラクタの画像であるのがよい。キャラクタ画像Chが表示されることによって、ユーザがエージェント10-1との間で対話を行いやすくなる。なお、キャラクタ画像表示エリアG20は特に存在していなくてもよい。あるいは、キャラクタ画像Chを省略し、背景画像のみを表示しても良い。
 EC画面G30には、検索ワード(以下、「検索キー」とも言う。)が表示される検索キー表示エリアG31および商品リストが表示される商品リスト表示エリアG32が含まれる。検索キー表示エリアG31には、ユーザ発話から音声認識処理によって得られた検索キー(例えば、メインワードおよび絞り込みワード)が表示される。例えば、メインワード(以下、「メインキー」とも言う。)は、商品名であり、絞り込みワード(以下、「絞り込みキー」とも言う。)は、商品の重さ、種別およびブランドなどであってよい。商品リスト表示エリアG32には、検索キーを用いた検索によって取得された商品に関する情報の一覧(商品リスト)が表示される。
 例えば、ユーザが「お米を買いたい」と発話すると、エージェント10-1のデータ取得部121は、音声入力部113を介してユーザ発話「お米を買いたい」を取得し、認識部122は、ユーザ発話「お米を買いたい」から商品名「お米」を抽出し、商品名が「お米」である一つまたは複数の商品に関する情報を商品名「お米」に関連付けられた検索結果として取得する。そして、提供部123は、商品リスト表示エリアG32に「お米」に関連付けられた検索結果を表示する。なお、商品名として、「お米」のような一般名称だけでなく固有の商品名が認識されてもよい。例えば、固有の商品名として商標権により保護されている商品名が認識されてもよい。
 続いて、ユーザが「洗剤を買いたい」と発話すると、同様にして、処理部124は、商品名が「洗剤」である一つまたは複数の商品に関する情報を商品名「洗剤」に関連付けられた検索結果として取得する。そして、提供部123は、商品リスト表示エリアG32の表示を、「お米」に関連付けられた検索結果から「洗剤」に関連付けられた検索結果に切り替える。
  (1.3.2.商品絞り込み時の対話例)
 基本的には、最初に商品名をメインキーとした検索がなされるが、商品名を検索キーとして利用するだけでは、目的の商品だけが残るように絞り込みを行うことができない場合がある。かかる場合には、ユーザが追加的に絞り込みワード(商品絞り込みのための検索キー)を入力する必要がある。例えば、ユーザは、品種、量、産地およびブランドなどの絞り込みキーを「お米」というメインキーに付加していく必要がある。
 例えば、最初にユーザが「お米が欲しい」と発話した場合、ユーザ発話「お米が欲しい」から商品名「お米」が抽出され、商品名「お米」が商品選択のためのメインキーとして入力される。そして、サーバ装置40(ECサイト)において、メインキー「お米」を検索キーとして用いた商品検索が実行される。
 続いて、ユーザが「5Kgを加えて」と発話した場合、ユーザ発話「5Kgを加えて」から商品の量「5Kg」が抽出され、量「5Kg」が絞り込みキーとして入力される。そして、サーバ装置40(ECサイト)において、メインキー「お米」と絞り込みキー「5Kg」とがand条件として組み合わされた検索キー「お米+5Kg」を用いた商品検索が実行される。
 続いて、ユーザが「AAA(銘柄)を加えて」と発話した場合、ユーザ発話「AAA(銘柄)を加えて」から商品の銘柄「AAA」が抽出され、銘柄「AAA」が絞り込みキーとして入力される。そして、サーバ装置40(ECサイト)において、メインキー「お米」と絞り込みキー「5Kg」と絞り込みキー「AAA」とがand条件として組み合わされた検索キー「お米+5Kg+AAA」を用いた商品検索が実行される。
 続いて、ユーザが「決定」と発話し、認識部122によって「決定」が認識されると、サーバ装置40(ECサイト)においては、検索によって見つかった商品の購入処理(検索によって見つかった商品をカートに入れる処理、または、検索によって見つかった商品の決済処理)を行う。続いて、ユーザが「マヨネーズが欲しい」と発話した場合、同様にして、サーバ装置40(ECサイト)において、メインキー「マヨネーズ」を検索キーとして用いた商品検索が実行される。
  (1.3.3.商品絞り込み時の画面構成例)
 続いて、商品絞り込み時の画面構成例について説明する。図6は、商品絞り込み時の画面構成例を説明するための図である。図6を参照すると、ユーザ発話の各段階が示されており、ユーザ発話の各段階に対応した「ロボット型エージェント」「2D型エージェントUI遷移」および「エージェントの処理」が示されている。
 「ロボット型エージェント」は、エージェント10がロボット型のエージェント10-2である場合におけるロボット型のエージェント10-2の外観例を示している。「2D型エージェントUI遷移」は、エージェント10がPC型のエージェント10-1である場合において、PC型のエージェント10-1によって表示される画面G10の例を示している。「エージェントの処理」は、エージェント10が実行する処理の例を示している。
 例えば、「ユーザ発話」に示すように、ユーザが「お米を買いたい」と発話した場合、「エージェントの処理」に示すように、データ取得部121は、音声入力部113を介してユーザ発話「お米を買いたい」を取得し、認識部122は、ユーザ発話「お米を買いたい」から商品名「お米」を抽出する。サーバ装置40(ECサイト)において、商品名が「お米」である商品リストが検索されると、処理部124は、商品リストを取得する。そして、提供部123は、取得された商品リストをEC画面G30に表示する。
 続いて、「ユーザ発話」に示すように、ユーザが「5kgを加えて」と発話した場合、ユーザ発話「5Kgを加えて」から商品の量「5Kg」が抽出され、量「5Kg」が絞り込みキーとして入力される。そして、「エージェントの処理」に示すように、サーバ装置40(ECサイト)において、メインキー「お米」と絞り込みキー「5Kg」とがand条件として組み合わされた検索キー「お米+5Kg」を用いた商品検索が実行される。
 続いて、「ユーザ発話」に示すように、ユーザが「AAA(銘柄)を加えて」と発話した場合、ユーザ発話「AAA(銘柄)を加えて」から商品の銘柄「AAA」が抽出され、銘柄「AAA」が絞り込みキーとして入力される。そして、「エージェントの処理」に示すように、サーバ装置40(ECサイト)において、メインキー「お米」と絞り込みキー「5Kg」と絞り込みキー「AAA」とがand条件として組み合わされた検索キー「お米+5Kg+AAA」を用いた商品検索が実行される。
 続いて、「ユーザ発話」に示すように、ユーザが「それ買う」と発話し、認識部122によって「それ買う」が認識されると、サーバ装置40(ECサイト)においては、検索によって見つかった商品の購入処理(検索によって見つかった商品をカートに入れる処理、または、検索によって見つかった商品の決済処理)を行う。続いて、「ユーザ発話」に示すように、ユーザが「買い物終わり」と発話し、認識部122によって「買い物終わり」が認識されると、EC画面G30の表示が終了する。
 ここで、EC画面G30が表示されていないタイミングで「AAA(銘柄)を加えて」とユーザが発話したとしても、「AAA(銘柄)」を絞り込みキーとして追加しないようにしてもよい(TPO(Time Place Occasion)、または、コンテキストに応じてユーザ発話に対する意図解釈が異なってもよい)。例えば、キャラクタ画像Chが着ている服、キャラクタ画像Chの背景画像に応じて、同じ発話に対して異なる解釈がなされてもよい。
 さらに具体的には、キャラクタ画像Chがエプロンを着ている様子が表示されている場合(または、キャラクタ画像Chの背景にキッチンが表示されている場合)には、ユーザ発話が食材関連の意図を有していると解釈されるときにだけ、その意図解釈結果に基づいた処理が実行されてもよい(すなわち、表示情報に含まれる所定の要素の属性に基づいてユーザ発話に対する意図解釈がなされてよい)。
  (1.3.4.状況に応じた意図解釈)
 ユーザは、エージェント10に対して同じ発話を行ったとしても、状況に応じて発話の意図が異なることが想定される。例えば、ユーザは、エージェント10に対して「XXXを加えて」と発話を行ったとしても、以下に例を示すように、状況に応じてユーザ発話「XXXを加えて」の意図が異なることが想定される。
 例えば、EC画面G30が表示されている状態であり、かつ、商品リスト表示エリアG32に商品リストが表示されていない状態においては、ユーザ発話「XXXを加えて」は、検索時の絞り込みキー「XXX」の追加を意図した発話であることが想定される。一方、EC画面G30が表示されている状態(商品絞り込み中の状態)であり、かつ、商品リスト表示エリアG32に商品リストが表示されている状態においては、カートへの新たな商品「XXX」の追加を意図した発話であることが想定される。
 あるいは、教育関連のアプリケーション(以下、「アプリケーション」を単に「アプリ」と言う場合がある。)の画面が表示されている状態においては(例えば、数学の問題を解くための画面が表示されている状態においては)、ユーザ発話「XXXを加えて」は、何らかの数(例えば、既に入力された数)に対して「XXX」を足し合わせる演算を意図した発話であることが想定される。したがって、ユーザ発話に対する意図解釈は、状況に応じて異なるのがよい。
 図7は、状況に応じた意図解釈の動作例を示すシーケンス図である。例えば、データ取得部121が、音声入力部113を介してユーザ発話「XXXを加えて」を取得し(S11)、認識部122が、ユーザ発話に対する音声認識処理を実行すると(S12)、データ取得部121は、表示部150によって表示されている情報(表示情報)に関連する情報(以下、「関連情報」とも言う。)の例として、表示情報と連動するアプリケーションの状態を取得し、チェックする(S13)。
 以下では、関連情報が表示情報と連動するアプリケーションの状態である場合を説明するが、関連情報はアプリケーションの状態に限定されず、表示情報に関連する情報であればよい。アプリケーションの状態は、アプリケーションの種類(例えば、ECサイトのアプリケーション、教育関連のアプリケーションなど)を含み得る。また、アプリケーションの状態は、アプリケーションの実行段階(例えば、商品絞り込み中の状態、商品リストの表示状態など)をさらに含み得る。
 表示情報と連動するアプリケーションは、表示情報を表示させるアプリケーションであってよいが、表示情報と連動するアプリケーションは、これに限定されず、表示情報と何らかの関係を有するアプリケーションであってよい。表示情報と連動するアプリケーションの状態は、提供部123によって、音声認識結果「XXXを加えて」とともに、意図理解器30に提供される(S14)。意図理解器30は、アプリケーションの状態に応じて音声認識結果の意図解釈を行う。そして、意図理解器30は、意図解釈結果をエージェント10に提供する(S15)。
 表示情報が異なる場合には、意図解釈結果は異なっていてよい。より詳細には、表示部150によって表示される表示情報は、第1の関連情報と関連する第1の表示情報を含み得る。また、表示部150によって表示される表示情報は、第2の関連情報と関連する第2の表示情報を含み得る。そして、第1の関連情報に応じた意図解釈結果と、第1の関連情報とは異なる第2の関連情報に応じた意図解釈結果とは異なっていてよい。
 意図理解器30は、アプリケーションの状態に応じて音声認識結果の意図解釈モードを決定し、決定した意図解釈モードに従って音声認識結果の意図を解釈する。ここで、意図理解器30は、アプリケーションの状態に応じて音声認識結果の意図解釈モードが決定されると、意図解釈モードを示す情報をエージェント10に提供し、エージェント10において、提供部123は、意図解釈モードを示す情報をユーザに提供する。
 ここでは、提供部123が、意図解釈モードを示す情報を視覚情報として表示する例を想定する(S16)。しかし、意図解釈モードを示す情報は、視覚情報および音声情報の少なくとも一方によってユーザに提供されればよい。また、意図解釈モードを示す情報は、キャラクタ画像、アイコン画像、背景画像およびBGMのうち少なくともいずれか一つを含んでよい。
 図8は、意図解釈モードを示す情報の表示例を示す図である。図8に示す例では、意図解釈モードを示す情報が、キャラクタ画像Ch、アイコン画像G21、背景画像G22およびBGM(T10)を含んでいる。しかし、これらの少なくともいずれか一つが意図解釈モードを示す情報に含まれていてもよい。
 キャラクタ画像Chは、意図解釈モードに対応する服を着ているように表示されれば、その服によって意図解釈モードを示す情報を表現し得る。このとき、服に特定のシンボルまたはマーク(例えば、企業ロゴなど)が付加されれば、そのシンボルまたはマークによって意図解釈モードを示す情報が表現され得る。なお、服の代わりに他の着用可能な物(例えば、帽子など)が表示されてもよい。あるいは、キャラクタ画像Chは、キャラクタそのものによって意図解釈モードを示す情報を表現してもよい。
 アイコン画像G21は、その形状または色によって意図解釈モードを示す情報を表現し得る。例えば、アプリケーションの状態が商品絞り込み中の状態においては、アイコン画像G21はカートであってよい。あるいは、アプリケーションの状態が教育関連のアプリケーションの画面が表示されている状態においては、アイコン画像G21は電卓アイコンであってよい。
 その他、背景画像G22は、背景に描かれる物または背景色によって意図解釈モードを示す情報を表現し得る。また、BGM(T10)は、意図解釈モードに対応する音(例えば、楽曲など)が出力されれば、その音によって意図解釈モードを示す情報を表現し得る。
 図7に戻って説明を続ける。処理部124は、意図解釈結果に基づく処理を実行し(S17)、提供部123は、意図解釈結果に基づく処理結果をユーザに提供する。意図解釈結果に基づく処理結果がユーザに提供されれば、ユーザ発話の意図が考慮された処理結果がユーザに提供される。したがって、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能となる。例えば、処理結果は、視覚情報および音声情報の少なくともいずれか一方によってユーザに提供されればよい。
 ここで、意図解釈結果に基づく処理の種類は特に限定されない。例えば、アプリケーションの状態が商品絞り込み中の状態である場合には、意図解釈結果に基づく処理は、「XXX」を検索キーとして追加する処理であってよい。あるいは、アプリケーションの状態が教育関連のアプリケーションの画面の表示状態である場合には、意図解釈結果に基づく処理は、何らかの数(例えば、既に入力された数)に対して「XXX」を足し合わせる処理であってよい。
 図9は、状況に応じた意図解釈がなされる場合におけるシステムの構成例を示す図である。図9に示すように、ユーザが「XXX(ここでは、2キロ)を加えて」と発話すると、エージェント10において、データ取得部121は、音声入力部113を介してユーザ発話「XXXを加えて」を取得し、認識部122は、「XXXを加えて」を音声認識結果として認識する。音声認識結果「XXXを加えて」とアプリケーション状態とは、意図理解器30に通知される。
 アプリケーション状態の例としては、「エージェントからの状態通知(※1)」に示すように、「検索状態」「商品リスト表示状態」「XXXを足すという計算状態」などが挙げられる。意図理解器30は、音声認識結果「XXXを加えて」の意図を、アプリケーション状態に応じて解釈する。
 例えば、意図理解器30は、「意図解釈結果(※2)」に示すように、アプリケーション状態が「検索状態」である場合、アプリケーション状態「検索状態」に対応して、音声認識結果「XXXを加えて」の意図を「検索キーにXXXを加える指示」であると解釈する。このとき、意図理解器30からエージェント10には、意図解釈結果「検索キーにXXXを加える指示」が提供され、エージェント10は、意図解釈結果「検索キーにXXXを加える指示」に応じた処理として、サーバ装置(ECサイト)40に対して、検索キーにXXXを加える処理を指示する。
 また、意図理解器30は、アプリケーション状態が「商品リスト表示状態」である場合、アプリケーション状態「商品リスト表示状態」に対応して、音声認識結果「XXXを加えて」の意図を「商品リストにXXXを追加する指示」であると解釈する。エージェント10は、意図解釈結果「商品リストにXXXを追加する指示」に応じた処理として、サーバ装置(ECサイト)40に対して、商品リストにXXXを追加する処理を指示する。
 また、意図理解器30は、アプリケーション状態が「XXXを足すという計算状態」である場合、アプリケーション状態「XXXを足すという計算状態」に対応して、音声認識結果「XXXを加えて」の意図を「計算式にXXXを加える指示」であると解釈する。エージェント10は、意図解釈結果「計算式にXXXを加える指示」に応じた処理として、サーバ装置(ECサイト)40に対して、計算式にXXXを加える処理を指示する。
  (1.3.5.表示情報を見ているか否かに応じた対話)
 表示情報がユーザによって見られている場合には、ユーザが処理結果を見ることが可能な状況であるため、処理結果は視覚的にユーザによって認識され得る。一方、表示情報がユーザによって見られていない場合には、ユーザが処理結果を見ることができない状況であるため、処理結果が視覚的にユーザによって認識され得ない。例えば、処理結果は、エージェント10が認識している状態(context;ユーザが入力した検索キーを含み得る)であり得る。
 したがって、提供部123は、ユーザが表示情報を見ている場合と、ユーザが表示情報を見ていない場合とにおいて、異なる音声情報をユーザに提供するとよい。そうすれば、ユーザの状況に合わせた音声情報がユーザに提供される。ユーザが表示情報を見ているか否かは、ユーザの視線が表示情報の表示範囲内に存在するか否かによって判断され得る。なお、ユーザの視線は、例えば撮像によって得られたユーザの画像から得られる、ユーザの眼球表面のプルキニエ像に基づいて推定され得る。
 なお、ユーザが表示情報を見ているか否かは、ユーザの視線に関連する情報以外の種々の情報に基づいて推定され得る。例えば、撮像によって得られたユーザの画像に基づいて判定されるユーザの向きに基づいて、ユーザが表示情報を見ているか否かが推定されても良い。ここで、ユーザの向きはユーザの顔の向きと見做されても良く、あるいはユーザの体全体の向きと見做されても良い。これらのユーザの向きは、画像中に含まれるユーザの顔や体全体の特徴量から推定され得る。あるいは、ユーザがウェアラブルデバイスを装着している場合、ウェアラブルデバイスの向きを示すセンサ情報に基づいてユーザが表示情報を見ているか否かが推定されても良い。ウェアラブルデバイスの一例としてはヘッドマウントディスプレイが挙げられる。ウェアラブルデバイスはヘッドマウントディスプレイに限られず、リストバンド型、ネックバンド型等の種々の形態が採用されてよい。また、センサ情報としては、加速度情報、角加速度情報、撮像画像情報等が採用され得る。
 例えば、エージェント10から提供される音声情報が増えるとユーザが音声情報を聞く時間が増えてしまうために、ユーザが目的の商品にたどり着くまでに時間が掛かってしまう。したがって、ユーザが処理結果を見ることが可能な状況においては、処理結果が視覚情報によってユーザに提供されるのが望ましい。一方で、ユーザが処理結果を見ることができない状況においては、処理結果の一部または全部が音声情報によってユーザに提供されるのが望ましい。
 したがって、提供部123は、ユーザが表示情報を見ていない場合には、ユーザが表示情報を見ている場合よりも、詳細な音声情報をユーザに提供すればよい。より詳細には、提供部123は、ユーザが表示情報を見ている場合には、処理結果を少なくとも視覚情報としてユーザに提供し、ユーザが表示情報を見ていない場合には、視覚情報に対応する音声情報(視覚情報と同等の音声情報)を詳細な音声情報としてユーザに提供してもよい。
 具体例を説明する。ユーザが「お米を買いたい」と発話し、エージェント10がEC画面G30を表示した後に、ユーザが「XXXを加えて」と発話した場合を想定する。かかる場合、提供部123は、ユーザが表示情報を見ている場合には、「はい」という音声情報を提供し、EC画面G30に検索キーを表示し、その検索キーを用いた検索結果と検索結果件数とを表示する。
 一方、提供部123は、ユーザが表示情報を見ていない場合には、処理内容「XXXを絞り込みキーとして検索キーに加えますね」を音声情報によって提供する。これによって、ユーザによる入力が正しかったか否かも確認され得る。また、エージェント10は、EC画面G30に絞り込みキーを追加し、メインキーと絞り込みキーとを用いた検索結果件数を音声情報「絞り込みの結果はN件です」によって提供し、次の動作をユーザに促す音声情報「絞り込みキーをさらに追加しますか?」を提供する。
 図10は、表示情報を見ているか否かに応じた対話の動作例を示すシーケンス図である。図10に示した例は、図7に示した例と比較して、提供部123が、ユーザが画面(すなわち、表示情報)を見ているか否かを認識し(S21)、ユーザが画面を見ているか否かを追加的に意図理解器30に提供する点(S22)が異なっている。この例においては、意図理解器30は、ユーザが画面を見ているか否かにさらに応じて、音声認識結果の意図を解釈する。
 また、図10に示した例は、図7に示した例と比較して、提供部123が、ユーザが画面を見ているか否かにさらに応じた発話(音声情報の提供)を行う点(S23)が異なっている。例えば、提供部123は、ユーザが表示情報を見ている場合には、エージェント10は「はい」という音声情報を提供する。一方、提供部123は、ユーザが表示情報を見ていない場合には、検索結果件数を音声情報「絞り込みの結果はN件です」によって提供する。
  (1.3.6.EC画面の表示例)
 EC画面G30の表示例について説明する。図11は、EC画面G30の表示例を示す図である。図11に示すように、表示部150によって表示される画面G10には、EC画面G30が含まれ得る。ECサイトによる検索が行われると、EC画面G30には、検索によって得られた商品リストが表示される。図11に示された例では、商品リストとして、商品1~4が表示されている。
 ここで、ユーザが決定を示す発話(図11に示した例では、「それ」という発話)を行い、エージェント10において、決定を示す発話が認識されると、意図理解器30は、アプリの状態および画面状態に基づいて、フォーカスが当たっている商品を特定する。その後、特定された商品の購入処理が実行される。アプリの状態および画面状態は、EC.Select.Recommendなどの指示によって、エージェント10から意図理解器30に通知される。
 図11に示した例では、商品リストの中で一番購入される可能性が高い商品(商品1)にフォーカスが当てられている。しかし、フォーカスが当てられる商品は、ユーザの操作によって適宜に変更されてよい。あるいは、フォーカスは商品に当てられていなくてもよく、商品を選択する発話(例えば、右から3番目)によって、購入商品が選択されてもよい。このとき、選択された商品が強調表示されてもよい。
  (1.3.7.絞り込みを支援する技術)
 上記においては、ユーザに絞り込みキーを入力させる例を示した。かかる例によれば、ユーザは、絞り込みキーの入力によって目的の商品にたどり着くことが可能である。しかし、現実的には、ユーザは商品に対してどのような絞り込みキーを入力すべきか判断しにくい場合もあり得る。すなわち、絞り込みキーをユーザが自力で思いついて、最短距離で商品にたどり着くのは困難である場合もあり得る。
 そこで、ユーザによる絞り込みキーの入力を支援するために、検索サイトまたはECサイトにおいて行われているサジェスチョンのような仕掛け(候補ワードの表示など)が実行されるとよい。まず、一般的なECサイトにおいて行われているサジェスチョンについて説明する。
 図12は、一般的なECサイトにおいて表示される検索キー表示エリアの例を示す図である。図12を参照すると、ユーザによって入力された検索キーK11が表示されている。また、図12を参照すると、検索キーK11に関連するワードが、候補ワードK12として表示されている。候補ワードK12の表示によって、ユーザが商品の絞り込みのアシストがなされる。なお、候補ワードK12は、ユーザによる商品の検索履歴または購入履歴に基づいて作成される。
 図13は、本開示の実施形態に係る絞り込みの支援を説明するための図である。図13に示すように、ユーザがメインキーの入力に際して「お米を買いたい」と発話すると、ユーザ発話に対して音声認識処理がなされ、第1の音声認識結果「お米を買いたい」とアプリケーションの状態とが意図理解器30に提供される。意図理解器30は、アプリケーションの状態に応じて第1の音声認識結果の意図解釈を行う。そして、意図理解器30は、意図解釈結果をエージェント10に提供する。
 エージェント10においては、データ取得部121は、意図解釈結果から第1の入力ワード「お米」を抽出し、第1の入力ワード「お米」に対応する1または複数の候補ワードを含む候補リストを取得する。図13に示すように、提供部123は、検索キーK11「お米」を検索キー表示エリアG31に表示させるとともに、候補リストK13「5kg,10kg,2kg,無洗米」を検索キー表示エリアG31に表示させる。また、提供部123は、意図解釈結果に基づく処理結果をユーザに提供する。具体的に、提供部123は、検索キー「お米」の検索結果と検索結果件数とを商品リスト表示エリアG32に表示させる。
 候補リストK13によって、ユーザによる絞り込みキーの選択が支援される。続いて、ユーザが候補リストK13「5kg,10kg,2kg,無洗米」から絞り込みキーとして「5kg」を選択し、「5kgを足して」と発話すると、ユーザ発話に対して音声認識処理がなされ、第2の音声認識結果「5kgを足して」とアプリケーションの状態とが意図理解器30に提供される。意図理解器30は、アプリケーションの状態に応じて第2の音声認識結果の意図解釈を行う。そして、意図理解器30は、意図解釈結果をエージェント10に提供する。
 エージェント10においては、データ取得部121は、意図解釈結果から第2の入力ワード「5kg」を抽出し、第2の入力ワード「5kg」に対応する1または複数の候補ワードを含む候補リストを取得する。図13に示すように、提供部123は、検索キーK11「お米,5kg」を検索キー表示エリアG31に表示させるとともに、候補リストK13「無洗米,XXX(銘柄)」を検索キー表示エリアG31に表示させる。また、提供部123は、意図解釈結果に基づく処理結果をユーザに提供する。具体的に、提供部123は、検索キー「お米+5kg」の検索結果と検索結果件数とを商品リスト表示エリアG32に表示させる。
 ここで、ユーザ発話をシンプルかつノイズに強くするための工夫がなされてもよい。図14は、ユーザ発話をシンプルかつノイズに強くするための工夫を説明するための図である。例えば、メインキー入力に際して「お米を買いたい」と発話され、絞り込みキー入力に際して「5kg」と発話された場合を想定する。すなわち、発話に指示ワード(図14に示した例では、「を足して」)が含まれていない場合を想定する。このとき、エージェント10によって第2の音声認識結果「5kg」が得られ、第2の入力ワード「5kg」が得られる。なお、本明細書において“指示ワード”とは、“入力ワード”に関してどのような処理を行うのかを情報処理装置10に対し指示するための発話として見做されてよい。例えば、「を買いたい」、「を足して」等の動詞が“指示ワード”に相当すると見做されてもよい。
 図14を参照すると、第2の入力ワード「5kg」が候補リストK13に含まれている。このような場合、提供部123は、第2の音声認識結果「5kg」に指示ワードが含まれていない場合であっても、第2の入力ワード「5kg」に応じた意図解釈結果に基づく処理結果をユーザに提供するとよい。具体的には、提供部123は、第2の入力ワード「5kg」を絞り込みキーとしてメインキー「お米」に追加し、検索キー「お米、5kg」による検索結果をユーザに提供するとよい。これによって、ユーザ発話がシンプルかつノイズに強くなることが期待される。
 なお、候補リストK13のすべてが表示されていなくてもよい。すなわち、図14には、候補ワード「5kg」が表示されている例を示したが、候補ワード「5kg」が表示されていなくてもよい。また、提供部123は、更なる商品の絞り込みが必要であるか否かをユーザに判断させるために、商品リストよりも先に検索結果数をユーザに提供してもよい。
 また、提供部123は、ユーザ発話によって絞り込みキー「5kg」が追加されて新たな検索キー「お米、5kg」が生成されるたびに、新たな検索キー「お米、5kg」による検索結果をユーザに提供してもよい。あるいは、提供部123は、所定時間内にユーザが絞り込みキーを発話しなかった場合、候補リストK13に存在する候補ワード「5kg」が絞り込みキーとして追加された新たな検索キー「お米、5kg」による検索結果をユーザに提供してもよい。
 上記した例では、第2の入力ワードが候補リストK13に含まれている場合を想定したが、第2の入力ワードが候補リストK13に含まれていない場合もあり得る。かかる場合、提供部123は、第2の音声認識結果に指示ワードが含まれている場合には、第2の入力ワードに応じた意図解釈結果に基づく処理結果をユーザに提供すればよい。
 例えば、絞り込みキーの入力に際して、ユーザが「20kgを足して」と発話した場合を想定する。かかる場合、第2の入力ワード「20kg」は候補リストK13に含まれていないが、第2の音声認識結果「20kgを足して」に指示ワードが含まれている。そのため、提供部123は、第2の入力ワード「20kg」に応じた意図解釈結果に基づく処理結果をユーザに提供すればよい。具体的に、提供部123は、検索キー「お米+20kg」の検索結果と検索結果件数とを商品リスト表示エリアG32に表示させればよい。
 一方、第2の入力ワードが候補リストK13に含まれていない場合、かつ、第2の音声認識結果に指示ワードが含まれていない場合も想定される。かかる場合には、提供部123は、第2の入力ワードを無視すればよい。
 例えば、絞り込みキーの入力に際して、ユーザが「20kg」と発話した場合を想定する。かかる場合、第2の入力ワード「20kg」は候補リストK13に含まれておらず、第2の音声認識結果「20kg」に指示ワードが含まれていない。そのため、提供部123は、第2の入力ワード「20kg」を無視すればよい。具体的に、検索キー「お米+20kg」による検索は行われなくてよい。
 ここで、候補リストに含まれる1または複数の候補ワードそれぞれは、属性を有している。例えば、候補ワード「2kg」は、属性「重さ」を有しており、候補ワード「XXX」は、属性「銘柄」を有している。上記した例では、候補リストに含まれる1または複数の候補ワードそれぞれが有する属性は特に考慮されていないが、それぞれの属性が考慮された上で、候補リストがユーザに提供されてもよい。そうすれば、ユーザは、属性を考慮に入れて候補ワードを選択することが可能である。
 ここで、候補リストに含まれる1または複数の候補ワードそれぞれには属性情報があらかじめ関連付けられていてよい。そして、提供部123は、属性が考慮された候補リストの提供の例として、候補リストの少なくとも一部を対応する属性情報ごとにユーザに提供してもよい。以下では、一例として、作成された候補リストのすべてが属性情報ごとにユーザに提供される例を説明する。
 図15は、候補リストを属性情報ごとにユーザに提供する例を説明するための図である。図15を参照すると、候補ワード「数字+kg」は、属性情報「重さ,重量,質量」に関連付けられた上で、辞書131に登録されている。また、これらの候補ワードのうち、候補ワード「数字+ML,L,CC」は、属性情報「容量,量」に関連付けられた上で、辞書131に登録されている。また、これらの候補ワードのうち、候補ワード「S会社,C会社」は、属性情報「メーカー,会社,ブランド」に関連付けられた上で、辞書131に登録されている。
 また、図15を参照すると、複数の候補ワードの例として「2kg,5kg,10kg,・・・,XXX(銘柄),YYY(銘柄)」などが用意されている。このような複数の候補ワードは、辞書131に登録されている候補ワードと属性情報との関連付けに基づいて、属性情報ごとに分類される。
 続いて、図15に示すように、ユーザがメインキーの入力に際して「お米を買いたい」と発話すると、上記したように、エージェント10において、データ取得部121は、第1の入力ワード「お米」に対応する1または複数の候補ワードを含む候補リストを取得する。提供部123は、検索キーK11「お米」を検索キー表示エリアG31に表示させるとともに、候補リストK13を属性情報ごとに検索キー表示エリアG31に表示させる。
 候補ワード「2kg,5kg,10kg」の属性情報は「重さ」であり、候補ワード「XXX,YYY」の属性情報は「銘柄」である。ここで、複数の候補ワードの表示順序は、特に限定されない。例えば、複数の候補ワードの表示順序は、検索回数が多い順であってもよいし、商品の量が小さい順であってもよいし、購入回数が高い順であってもよい。
 また、提供部123は、属性が考慮された候補リストの提供の例として、第2の音声認識結果の前に取得される第3の音声認識結果に属性情報が含まれる場合、属性情報に対応する候補リストの少なくとも一部をユーザに提供してもよい。以下では、一例として、第3の音声認識結果に含まれる属性情報に対応する候補リストのすべてが属性情報ごとにユーザに提供される例を説明する。
 図16は、第3の音声認識結果に含まれる属性情報に対応する候補リストのすべてが属性情報ごとにユーザに提供される例を説明するための図である。図16を参照すると、図15に示した例と同様に、複数の候補ワードの例として「2kg,5kg,10kg,・・・,XXX(銘柄),YYY(銘柄)」などが想定されている。このような複数の候補ワードがあらかじめ用意されている。また、図16を参照すると、図15に示した例と同様に、辞書131の登録がなされている。
 続いて、図16に示すように、ユーザがメインキーの入力に際して「お米を買いたい」と発話し、絞り込みキーの入力前に「重さは?」と発話すると、エージェント10において、データ取得部121は、第1の入力ワード「お米」に対応し、かつ、属性情報「重さ」に対応する1または複数の候補ワードを含む候補リストを取得する。提供部123は、検索キーK11「お米」を検索キー表示エリアG31に表示させるとともに、属性情報「重さ」に対応する候補リストK13を検索キー表示エリアG31に表示させる。
 例えば、絞り込みキーの入力に際して、候補リストに存在しない重さ「3kg」が発話された場合には、ユーザ発話「3kg」に最も近い「2kg」が自動的に選択されてもよい。また、この例では、ユーザが属性を指定するための発話として「重さは?」を想定しているが、ユーザが属性を指定するための発話は、「重さは?」に限定されず、「メーカーは?」などであってもよい。また、上記と同様に、複数の候補ワードの表示順序は、特に限定されない。例えば、複数の候補ワードの表示順序は、検索回数が多い順であってもよいし、商品の量が小さい順であってもよいし、購入回数が高い順であってもよい。
 ここで、ユーザによる入力が必須な検索キーは商品ごとにあらかじめ決められていてもよい。このとき、ユーザは、入力が必須であるが、まだ入力がされていない検索キーが存在する場合には、当該検索キーの属性を指定するための発話を行ってよい。ユーザは、かかる検索キーが複数存在する場合、サジェスチョンの順位(絞り込みキーとしての利用頻度が高い順)または必要度に応じて属性指定の順序を決めてもよい。
 上記では、ユーザが商品購入に関係する発話をする場合を主に説明した。しかし、エージェント10がユーザ発話を受け付け可能である状態において、ユーザは商品購入とは関係しない発話をする可能性もある。そこで、エージェント10は、ユーザ発話が商品購入に関係するか否かを判断してもよい。
 例えば、商品購入に関係する発話の形式を「XXXを加えて」といったように決められている場合、この形式に従ってユーザ発話が商品購入に関係するか否かを判断することが可能である。しかし、人間同士の会話のように文脈を読んで自然な対話ができるほうが望ましい。
 そこで、提供部123は、音声認識結果に含まれる入力ワードがアプリケーションの状態に対応している場合にのみ、処理結果をユーザに提供すればよい。そうすれば、アプリケーションの状態に対応していない入力ワードは無効語としてブロックされる。以下では、アプリケーションの状態に対応していない入力ワードを無効語と言い、アプリケーションの状態に対応している入力ワードを有効語と言う場合がある。すなわち、有効語とはアプリケーションの操作に利用される入力ワードとして見做され良い。
 より具体的には、エージェント10は、辞書131に登録されているデータに基づいて、アプリケーションの状態(例えば、商品絞り込み中の状態)に対応する1または複数の候補ワードをあらかじめ把握している。そのため、提供部123は、音声認識結果に含まれる入力ワードがこれらの候補ワードのいずれかとマッチした場合にのみ、その候補ワードを検索キーに追加することが可能である。
 このような無効語のブロックは、ユーザ発話の音声認識処理の精度が低い状態においても(例えば、外乱などが含まれている場合においても)、有効に働くと考えられる。
 また、ユーザの周囲に会話を行っている他のユーザが存在する場合などには、ユーザ発話と他のユーザによる会話との分離が難しく、ユーザ発話の音声認識処理を正確に行うことができない可能性がある。しかし、無効語のブロックによって、ユーザ発話の音声認識処理を部分的に誤ってもアプリケーションの状態に対応する入力ワードが検出されれば、正常に処理結果がユーザに提供される。
 図17は、ユーザ発話に有効語が含まれる場合と有効語が含まれない場合それぞれにおける動作例を示す図である。ここでは、アプリケーションの状態が商品絞り込み中の状態となった場合を想定し、アプリケーションの状態が商品絞り込み中の状態となった後に、音声認識結果に含まれる入力ワードを判断する例を説明する。したがって、ユーザが買い物会話をする場合には、音声認識結果に有効語が含まれ、一般会話をする場合には、音声認識結果に有効語が含まれないと考えられる。ここで、一般会話とは、アプリケーションの状態に対応している入力ワードを含まない会話、すなわち有効語を含まない会話として見做されてよい。
 図17に示すように、有効語が含まれるユーザ発話として「(1)ユーザがXXX(銘柄)はうまいよね」を想定し、有効語が含まれないユーザ発話として「(2)今日は暑いね」を想定する。それぞれのユーザ発話に対して音声認識処理がなされると(S31)、TEXT列として「XXXはうまいよね」および「今日は暑いね」が取得される。
 ここで、エージェント10においては、サーバ装置(ECサイト)40から提供される1または複数の候補ワードに基づいて、アプリケーションの状態(商品絞り込み中の状態)に対応する1または複数の候補ワードがあらかじめ把握されている。そのため、提供部123は、TEXT列「XXXはうまいよね」およびTEXT列「今日は暑いね」とアプリケーションの状態に対応する1または複数の候補ワードとの間でTextマッチングによる文脈判定を行う(S32)。
 TEXT列「XXXはうまいよね」には、候補ワード「XXX」にマッチする入力ワード「XXX」が含まれている。そのため、提供部123は、候補ワード「XXX」を検索キーに追加する旨を示す発話を生成する。一方、TEXT列「今日は暑いね」には、候補ワードにマッチする入力ワードが含まれていない。そのため、提供部123は、候補ワードの追加とは異なる一般的な発話を生成する(S33)。
 続いて、提供部123は、「(1)ユーザがXXX(銘柄)はうまいよね」に対応する発話として、候補ワード「XXX」を検索キーに追加する旨を示す「XXXを検索キーに加えます」といった発話を提供する。一方、提供部123は、「(2)今日は暑いね」に対応する発話として、候補ワードの追加とは異なる一般的な発話の例として「そうですね!」といった発話を提供する。発話の提供は、視覚情報および音声情報の少なくともいずれか一方によってなされてよい。
 図18は、候補リストがユーザに提供される場合におけるシステムの構成例を示す図である。図18に示すように、ユーザが「お米を買いたい」と発話すると、エージェント10において、データ取得部121は、音声入力部113を介してユーザ発話「お米を買いたい」を取得し、認識部122は、「お米を買いたい」を音声認識結果として認識する。音声認識結果「お米を買いたい」とアプリケーション状態とは、意図理解器30に通知される。
 アプリケーション状態の例としては、「検索状態」「商品リスト表示状態」などが挙げられる。意図理解器30は、音声認識結果「お米を買いたい」の意図を、アプリケーション状態に応じて解釈する。意図理解器30からエージェント10には、意図解釈結果が提供され、エージェント10は、意図解釈結果に応じた処理として、サーバ装置(ECサイト)40に対して、検索キーに「お米」を設定する処理を指示する。
 サーバ装置(ECサイト)40においては、検索履歴132および購入履歴133の少なくともいずれか一方に基づいて、候補リストK13を生成し、候補リストK13をエージェント10に提供する。エージェント10においては、候補リストK13がユーザに提供され、候補リストK13に含まれる複数の候補ワードのいずれかの発話を受け付ける。ここでは、候補ワード「2キロ」がユーザによって発話されたとする。
 提供部123は、候補ワード(2キロ)を検索キーに追加し、検索キー「お米,候補ワード(2キロ)」をサーバ装置(ECサイト)40に提供する。サーバ装置(ECサイト)40においては、検索キー「お米,候補ワード(2キロ)」を用いた検索が実行され、検索結果がエージェント10に提供される。エージェント10においては、提供部123が、検索結果と検索結果件数とをユーザに提供する。
 続いて、ECサイトを利用した商品の購入に係るエージェント10の動作例を説明する。図19は、ECサイトを利用した商品の購入に係るエージェント10の動作例を示すフローチャートである。図19に示すように、ユーザ発話による指定商品の購入指示がなされると(S41)、ユーザ発話による指定商品名の抽出がなされる(S42)。エージェント10においては、指定商品名による検索結果が取得される(S43)。
 エージェント10は、検索結果件数が「0件」である場合には、商品名の入力を促すメッセージ「お探しの商品はありません。再度ご指定ください。」をユーザに提供する(S45)。エージェント10は、商品名の入力待ちを経て(S46)、S42に移行する。一方、エージェント10は、検索結果件数が「1件以上」である場合には、指定商品リストを表示し(S44)、指定商品名に対応する候補ワードがない場合には、S51に移行し、指定商品名に対応する候補ワードがある場合には、S61に移行する。
 エージェント10は、指定商品名に対応する候補ワードがない場合には、ユーザに対する購入の意志を確認し(S51)、購入の意志が確認されたら購入処理を行い(S52)、次の商品を促す発話を行い(S53)、S46に移行する。一方、エージェント10は、指定商品名に対応する候補ワードがある場合には、候補ワードの表示を行い(S61)、ユーザ発話の入力待ちをする(S62)。ユーザ発話の入力があると、エージェント10は、ユーザ発話の意図チェックを行う(S63)。
 エージェント10は、ユーザ発話に候補ワードとマッチする入力ワードが含まれない場合には、ユーザ発話が一般会話であると解釈し、商品の絞り込みを促す発話を行って(S64)、S62に移行する。一方、エージェント10は、ユーザ発話に候補ワードとマッチする入力ワードが含まれる場合には、既に検索が開始されている商品名に当該候補ワードを絞り込みキーとして追加し、S43に移行する。その他の場合(例えば、商品よりも上位カテゴリと一致する発話がなされた場合)、エージェント10は、既に検索が開始されている商品名とは異なる商品名を改めてユーザに指定させ、S42に移行する。
 続いて、ECサイトを利用した商品の購入に係るシステム全体の動作例を説明する。図20は、ECサイトを利用した商品の購入に係るシステム全体の動作例を示すシーケンス図である。エージェント10は、音声処理部およびUI部を有している。図20に示すように、ユーザが「XXXを買いたい」と発話した場合を想定する(S71)。このとき、エージェント10には、ユーザ発話「XXXを買いたい」が入力され、音声処理部においてユーザ発話「XXXを買いたい」から商品名「XXX」が抽出される。音声処理部は、UI部にECサイトの起動指示と商品名「XXX」とを出力し(S72)、UI部は、ECサイトの起動指示を受け付けると、商品名「XXX」を含んだ検索情報をサーバ装置(ECサイト)40に出力する(S73)。
 サーバ装置(ECサイト)40は、商品名「XXX」によって検索を実行し、検索結果と商品名「XXX」に対応する候補ワードとをUI部に返信する(S74)。UI部は、検索結果を表示するとともに(S75)、候補ワードを表示し、検索結果件数と候補ワードとを音声処理部に出力する(S76)。音声処理部は、絞り込みキーの入力を促すガイダンス「XXXに対する絞り込みキーを入力してください」を発話し(S77)。ユーザ発話があるまで待機する。
 ユーザによって「YYY」が発話されると(S81)、音声処理部は、「YYY」が候補ワードであるか否かを確認する(S82)。なお、「YYY」が候補ワードであるか否かの確認は、サーバ装置(ECサイト)40によってなされてもよい。音声処理部は、「YYY」が候補ワードである場合、商品名「XXX」と候補ワード「YYY」とをUI部に出力し、UI部は、検索キー「XXX+YYY」を含んだ検索情報をサーバ装置(ECサイト)40に出力する(S84)。サーバ装置(ECサイト)40は、検索キー「XXX+YYY」によって検索を実行し、検索結果と検索キー「XXX+YYY」に対応する候補ワードとをUI部に返信する(S85)。
  (1.3.8.属性情報の選択)
 上記では、ユーザが発する音声によって検索キーを生成する例を説明した。しかし、ユーザが発する音声から認識されるテキストだけでは、そのテキストが何を意味しているかを判断するのが難しいこともある。図21は、一般的に検索に利用される画面G90の例を示す図である。図21に示すように、画面G90には、マイクアイコンG41が含まれている。ユーザによってマイクアイコンG41が選択され、音声「ベートーベン」が入力されると、音声「ベートーベン」が認識され、「ベートーベン」によって検索がなされる。
 しかし、「ベートーベン」は、楽曲、アルバムおよびバンドのいずれにも該当してしまう。仮に、楽曲、アルバムおよびバンドすべてに対して検索を行うと、楽曲、アルバムおよびバンドそれぞれに対する検索結果が得られるため、ボタンG51~G53のいずれかの選択によって絞り込みを行う必要が生じる。そこで、以下では、楽曲、アルバムおよびバンドといった属性情報を容易に選択することを可能にする技術について説明する。
 なお、以下では、非音声入力部114が、表示部150によって画面表示がなされるタッチパネルを含み、各種操作を検出する場合を主に想定する。しかし、非音声入力部114は、タッチパネルに限定されない。例えば、非音声入力部114は、押下操作を検出可能なボタンを含んでもよい。あるいは、非音声入力部114は、撮像画像から認識したジェスチャまたは視線から各種操作を検出可能な撮像装置を含んでもよい。あるいは、非音声入力部114は、ユーザの動きから各種操作を検出可能なモーションセンサ(加速度センサ、ジャイロセンサなど)を含んでもよい。
 図22は、属性情報の選択例を説明するための図である。図22に示すように、画面G10-1は、マイクアイコン(第1の音声入力部)G41と音声入力「ベートーベン」に関連付けられた属性情報(楽曲、アルバムおよびバンド)に応じたボタン(第2の音声入力部)G51~G53とを含んでいる。属性情報は少なくとも1つ存在すればよい。ユーザは、非音声入力部114への入力(タッチ操作)によって、属性情報のいずれかを選択可能である。
 あるいは、図22に示すように、マイクアイコンG41を含む画面G10-3が表示され、マイクアイコンG41が選択されている間、マイクアイコンG41の隣接する位置に、音声入力「ベートーベン」に関連付けられた属性情報に応じたボタンG51~G53が表示されてもよい(画面G10-4)。表示されるボタンG51~G53は、あらかじめ決められていてもよいし、ユーザの好みに依存して決定されてもよい。ユーザは、マイクアイコンG41からボタンG51~G53のいずれかに至るまでフリック操作を行うことによって、属性情報のいずれかを選択可能である。
 データ取得部121は、画面G10-1または画面G10-4において属性情報のいずれかが選択された場合、選択された属性情報に対応する1または複数の候補ワードを含む候補リストを取得する。例えば、属性情報「アルバム」が選択された場合、属性情報「アルバム」に対応する候補リストK13を取得する。画面G10-2は、候補リストK13を含んでいる。
 ユーザは、属性情報「アルバム」に対応する候補リストK13を参照して発話を行うことが可能である。ユーザ発話に対して音声認識処理がなされると、提供部123は、属性情報「アルバム」に対応する候補リストK13に基づいて、音声認識結果の意図解釈結果に基づく処理結果をユーザに提供する。例えば、属性情報「アルバム」に対応する候補リストK13に含まれる候補ワードのいずれかが発話された場合、その候補ワードの意図解釈に基づく処理結果がユーザに提供される。
 続いて、ECサイトを利用した楽曲の配信に係るシステム全体の動作例を説明する。図23は、ECサイトを利用した楽曲の配信に係るシステム全体の動作例を示すシーケンス図である。エージェント10は、音声処理部およびUI部を有している。図23に示すように、ユーザがアーティストボタンを押下した場合を想定する(S91)。GUI部は、ユーザ発話からアーティスト名を抽出するように指示を出す(S92)。
 続いて、ユーザがアーティスト名「ベートーベン」を発話した場合を想定する(S93)。このとき、音声処理部は、このとき、エージェント10には、ユーザ発話「ベートーベン」が入力され、音声処理部においてユーザ発話「ベートーベン」からアーティスト名「ベートーベン」が抽出される。音声処理部は、UI部にECサイトの起動指示とアーティスト名「ベートーベン」とアーティストを示す情報とを出力し(S94)、UI部は、ECサイトの起動指示を受け付けると、アーティスト名「ベートーベン」とアーティストを示す情報とを含んだ検索情報をサーバ装置(ECサイト)40に出力する(S95)。
 サーバ装置(ECサイト)40は、アーティスト名「ベートーベン」によって検索を実行し、検索結果とアーティスト名「ベートーベン」に対応する候補ワードとをUI部に返信する(S96)。UI部は、検索結果を表示するとともに(S97)、候補ワードを表示し、検索結果件数と候補ワードとを音声処理部に出力する(S98)。音声処理部は、絞り込みキーの入力を促すガイダンス「ベートーベンに対する絞り込みキーを入力してください」を発話し(S99)。ユーザ発話があるまで待機する。
 ユーザによって楽曲ボタンが押下され(S101)、ユーザによって「BBB」が発話されると(S102)、音声処理部は、「BBB」が候補ワードであるか否かを確認する。なお、「BBB」が候補ワードであるか否かの確認は、サーバ装置(ECサイト)40によってなされてもよい。音声処理部は、「BBB」が候補ワードである場合、アーティスト名「ベートーベン」と候補ワード「BBB」と楽曲を示す情報とをUI部に出力し、UI部は、検索キー「ベートーベン+BBB」と楽曲を示す情報とを含んだ検索情報をサーバ装置(ECサイト)40に出力する(S104)。サーバ装置(ECサイト)40は、検索キー「ベートーベン+BBB」によって検索を実行し、検索結果と検索キー「ベートーベン+BBB」に対応する候補ワードとをUI部に返信する(S105)。
 UI部は、検索結果を表示するとともに(S106)、候補ワードを表示し、検索結果件数と候補ワードとを音声処理部に出力する。音声処理部は、楽曲データの選択を促すガイダンスを発話し。ユーザ発話があるまで待機する。ユーザによって楽曲データが選択され、再生指示がなされると(S107)、UI部は、楽曲データの配信をサーバ装置(ECサイト)40に指示し(S108)、サーバ装置(ECサイト)40は、楽曲データをUI部に配信する(S109)。
 なお、上記では、属性情報が一度選択される場合を主に想定している。しかし、複数の属性情報が階層的に構成されている場合も想定される。かかる場合には、ある属性情報の選択に続いて、当該属性情報に関連する属性情報が選択可能であってもよい。図24は、複数の属性情報が階層的に構成されている場合を説明するための図である。具体的には、属性情報「料理名」に対して、属性情報「中華」「フレンチ」が関連している。
 このような場合には、図24に示すように、マイクアイコンG41が選択されている間、マイクアイコンG41の隣接する位置に、音声入力「ベートーベン」に関連付けられた属性情報に応じたボタンG61~G63が表示されてもよい(画面G10-5)。ユーザは、マイクアイコンG41からボタンG61~G63のいずれかに至るまでフリック操作を行うことによって、属性情報のいずれかを選択可能である。そして、ボタンG61が選択されたとする。
 かかる場合、図24に示すように、ボタンG61が選択されている間、ボタンG61の隣接する位置に、属性情報「料理名」に関連付けられた属性情報に応じたボタンG71~G72が表示されてもよい(画面G10-6)。ユーザは、ボタンG61からボタンG71~G72のいずれかに至るまでフリック操作を行うことによって、属性情報「中華」「フレンチ」のいずれかを選択可能である。そして、ボタンG71が選択されたとする。
 かかる場合には、属性情報「料理名」と属性情報「中華」とが選択されたことになる。そのため、これらの属性情報「料理名,中華」に対応する候補リストは、単に属性情報「料理名」に対応する候補リストよりも、絞り込み度合いが強まると考えられる。したがって、よりユーザの望む候補ワードがユーザに提供され得る。図25は、検索対象と検索対象に対応する属性情報(フリックによる表示内容)の例を示す図である。
 上記した例では、ユーザによって音声入力がなされる例を説明した。しかし、音声入力がなされる場合に限らず、手動によって入力された検索キーに基づいて検索がなされる場合にも、同様な手法が適用され得る。図26は、手動によって入力された検索キーに基づいて検索がなされる場合を説明するための図である。
 図26を参照すると、図24に示したマイクアイコンG41の代わりに、検索アイコンG42が表示されている。図26に示した例においても、図24に示した例と同様に、フリック操作によって属性情報が選択され、選択された属性情報に対応する候補リストがユーザに提供され得る。ユーザは、属性情報に対応する候補リストに含まれる候補ワードのいずれかを、新たな検索キーとして選択することが可能である。
  (1.3.9.補足情報のアナウンス)
 ここで、意図解釈結果に基づく処理に画像情報のロードが含まれる場合が想定される。かかる場合には、画像情報がロードされている時間が有効に利用されるとよい。図27は、画像情報がロード時間の例を示す図である。図27に示す例においては、意図解釈結果に基づく処理として、メインキー「お米」に対して、絞り込みキー「XXX(銘柄)」を追加する処理が実行される場合を想定している。
 この意図解釈結果に基づく処理に画像情報のロードが含まれる場合、画像情報がロードされている時間が有効に利用されるとよい。例えば、提供部123は、意図解釈結果に基づく処理に画像情報のロードが含まれる場合、画像情報のロード中に、意図解釈結果に含まれる入力ワード(例えば、「お米」など)に対応する所定の補足情報を音声情報としてユーザに提供してもよい。補足情報は特に限定されないが、「お米」の絞り込みを価格が安い順に行うことができるといった情報などであってよい。
 以上、本実施形態に係るエージェント10の機能詳細について説明した。
 [1.4.ハードウェア構成例]
 次に、図28を参照して、本開示の実施形態に係る情報処理装置(エージェント)10のハードウェア構成について説明する。図28は、本開示の実施形態に係る情報処理装置10のハードウェア構成例を示すブロック図である。
 図28に示すように、情報処理装置10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理装置10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理装置10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理装置10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
 入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
 出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro-Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理装置10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
 ストレージ装置919は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
 接続ポート923は、機器を情報処理装置10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置10と外部接続機器929との間で各種のデータが交換され得る。
 通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
 撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ935は、例えば、測距センサ、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理装置10の筐体の姿勢など、情報処理装置10自体の状態に関する情報や、情報処理装置10の周辺の明るさや騒音など、情報処理装置10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
 [1.5.補足]
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
  (1.5.1.計算における変形例の詳細)
 エージェント10は、計算において音声認識をする場合、ECサイトにおけるサジェスチョンと同様に、認識したキーワードに応じて数学記号を予測表示してもよい。この変形例においては、エージェント10は、認識したキーワードに応じて、数学記号や数値等の計算に関連するキーワードのみを認識してもよい。
  (1.5.2.補足事項1)
 本開示の実施形態は、特定の装置、方法、プログラム、システムおよび記録媒体等に適用されてよい。例えば、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した制御部120が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
 また、音声は、ユーザが接している端末から直接/間接的に取得され得る。また、音声認識結果の意図解釈は、端末/クラウドコンピューティングのいずれが実施してもよい。音声認識結果の意図解釈に限られず、各種処理はクラウドコンピューティング等の端末外部の処理部で実行されてよい。具体的な一例として、認識部122などは、通信ネットワーク931を介して接続された図示しないサーバなどに設けられてもよい。この場合には、エージェント10が当該サーバに通信ネットワーク931を介して接続されたクライアントに相当し得る。
  (1.5.3.補足事項2)
 本開示の実施形態および変形例によれば、例えば、文章作成のための音声入力がなされたのか、あるいは、エージェント10への音声指示がなされたのかを判別することができる。文章作成の一例としては、小説の執筆やビジネス文書の作成が挙げられる。
  (1.5.4.補足事項3)
 本開示の実施形態においては、実空間の画像認識情報に基づいて意図解釈モードが決定されてもよい。実空間の画像認識情報が取得される場合、ユーザのジェスチャ、実オブジェクトを含む環境情報に基づいて意図解釈モードが決定されてもよい。また、画像認識情報に含まれる特定用途の実オブジェクトに基づいて意図解釈モードが決定されてもよい。特定の実オブジェクトは、家電、調理器具等の一般家庭に備えられた実オブジェクトに限定されない。例えば、医療器具等の特殊用途の実オブジェクトが認識されてもよい。
 あるいは、ユーザによる端末のボタン操作情報に基づいて意図解釈モードが決定されてもよい。
  (1.5.5.補足事項4)
 あるいは、特定機器に関連した情報に基づいて、意図解釈モードが決定されてもよい。このようなケースとしては、いわゆる家庭内におけるIoTの例が挙げられる。あるいは、特定の機器間で連携して処理が行われるケースにおいては、連携している機器の状態情報に基づいて、意図解釈入力モードが決定されてもよい。例えば、起動している機器(例えば、コーヒーメーカー、炊飯器など)に対応する意図解釈モードが決定されてもよい。ここで、機器間の連携は、有線/無線のいずれであってもよい。
  (1.5.6.補足事項5)
 本開示の実施形態は、医療用途にも適用され得る。医療用途においては、手術中等においてユーザが非接触で端末を操作入力する需要があるため、スムーズにキーワードが認識されることが有効である。また、非接触で操作入力できることは、感染症予防の観点からも有効である。
  (1.5.7.補足事項6)
 また、本開示の実施形態は、医療用途以外にも、工場、車両、農業等に適用され得る。例えば、車両、特に乗用車においては、車両の走行状態情報(速度、加速度、温度、SOC(State of Charge)、燃料の残量等)、ナビゲーション情報、車両内の音情報(音声、音楽等)等に基づいて、意図解釈モードが決定されてよい。例えば、車両が走行状態であるときには、主に道路交通情報、地図情報に関するキーワードが認識されるようにしてもよい。車両が停止状態であるときのみ、音楽等のエンターテイメントに関連したキーワードが認識されてもよい。車両のコンポーネントのいずれかに異常がある場合には、異常に関連したキーワードが認識されてもよい。
  (1.5.8.補足事項7)
 また、複数のユーザの属性情報を取得した場合、ユーザそれぞれの属性情報に応じて認識されるキーワードが切り替えられてもよい。すなわち、ある時点において、ユーザごとに異なる意図解釈モードが設定されていてもよい。
  (1.5.9.補足事項8)
 認識されたキーワードと認識されなかったキーワードが区別されて表示されてもよい。この場合、認識されなかったキーワードは、ユーザにわずかでも視認できる程度の視認性を有していればよい。例えば、認識されたキーワードの視認性が、認識されなかったキーワードの視認性よりも大きく設定されてもよい。この場合、例えば、視認性は、明度、輝度、サイズ、あるいは、太さの変更によって変更されてよい。例えば、視認性の変更には、フォント種類の変更、フォント彩度(色)の変更、フォントサイズの変更、太字、斜体、下線等の表示処理の付加、フォントに対するアニメーションの付加等、種々の方法が採用されてよい。
  (1.5.10.補足事項9)
 エージェント10は、視覚情報と音声情報の少なくとも一方を用いて意図解釈モードを示す情報を提供する。また、エージェント10は、提供している/提供した意図解釈モードを示す情報に基づいて、音声認識に応じて提供する意図解釈結果を異ならせる。この場合、意図解釈結果は、視覚情報と音声情報の少なくとも一方を用いて提供されればよい。エージェント10は、意図解釈モードを示す情報が異なる場合、提供する意図解釈結果の少なくとも一部を異ならせる。
 エージェント10は、意図解釈モードを示す情報に基づいて、意図解釈結果の視覚情報を提供する。エージェント10は、意図解釈モードが異なる場合、音声認識に応じて提供する意図解釈結果の少なくとも一部を異ならせる。この場合、意図解釈モードを示す情報は、視覚情報と音声情報の少なくとも一方を用いてユーザに提供されてもよいが、ユーザに提供されなくてもよい。すなわち、設定されている意図解釈モードを示す情報が取得されればよく、取得された意図解釈モードを示す情報はユーザに提供されなくてもよい。
  (1.5.11.補足事項10)
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
  (1.5.12.補足事項11)
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
 前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
 を備える、情報処理装置。
(2)
 前記表示情報は、第1の関連情報と関連する第1の表示情報および第2の関連情報と関連する第2の表示情報の少なくとも一方を含み、
 前記第1の関連情報に応じた意図解釈結果と、前記第1の関連情報とは異なる前記第2の関連情報に応じた意図解釈結果とは異なる、
 前記(1)に記載の情報処理装置。
(3)
 前記提供部は、前記関連情報に応じて音声認識結果の意図解釈モードが決定されると、前記意図解釈モードを示す情報をユーザに提供する、
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記意図解釈モードを示す情報は、キャラクタ画像、アイコン画像、背景画像およびBGMのうち少なくともいずれか一つを含む、
 前記(3)に記載の情報処理装置。
(5)
 前記提供部は、前記処理結果を、視覚情報および音声情報の少なくとも一方によって前記ユーザに提供する、
 前記(1)~(4)のいずれか一項に記載の情報処理装置。
(6)
 前記提供部は、前記ユーザが前記表示情報を見ている場合と、前記ユーザが前記表示情報を見ていない場合とにおいて、異なる音声情報を前記ユーザに提供する、
 前記(5)に記載の情報処理装置。
(7)
 前記提供部は、前記ユーザが前記表示情報を見ていない場合には、前記ユーザが前記表示情報を見ている場合よりも、詳細な音声情報を前記ユーザに提供する、
 前記(6)に記載の情報処理装置。
(8)
 前記提供部は、前記ユーザが前記表示情報を見ている場合には、前記処理結果を少なくとも視覚情報として前記ユーザに提供し、前記ユーザが前記表示情報を見ていない場合には、前記視覚情報に対応する音声情報を前記詳細な音声情報として前記ユーザに提供する、
 前記(7)に記載の情報処理装置。
(9)
 前記データ取得部は、前記関連情報に応じて第1の音声認識結果の意図解釈がなされると、意図解釈結果に含まれる第1の入力ワードに対応する1または複数の候補ワードを含む候補リストを取得し、
 前記提供部は、前記候補リストに基づいて、前記第1の音声認識結果の後に取得される第2の音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
 前記(1)~(8)のいずれか一項に記載の情報処理装置。
(10)
 前記提供部は、前記第2の音声認識結果に含まれる第2の入力ワードが前記候補リストに含まれている場合、かつ、前記第2の音声認識結果に前記第2の入力ワードの処理に関する指示ワードが含まれていない場合、前記第2の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
 前記(9)に記載の情報処理装置。
(11)
 前記提供部は、前記第2の音声認識結果に含まれる第2の入力ワードが前記候補リストに含まれていない場合、かつ、前記第2の音声認識結果に前記第2の入力ワードの処理に関する指示ワードが含まれている場合、前記第2の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
 前記(9)または(10)に記載の情報処理装置。
(12)
 前記提供部は、前記第2の音声認識結果に含まれる前記第2の入力ワードが前記候補リストに含まれていない場合、かつ、前記第2の音声認識結果に前記指示ワードが含まれていない場合、前記第2の入力ワードを無視する、
 前記(10)または(11)に記載の情報処理装置。
(13)
 前記提供部は、前記候補リストの少なくとも一部を前記ユーザに提供し、
 前記提供部は、前記第2の音声認識結果の前に取得される第3の音声認識結果に属性情報が含まれる場合、前記属性情報に対応する前記候補リストの少なくとも一部を前記ユーザに提供する、
 前記(9)~(11)のいずれか一項に記載の情報処理装置。
(14)
 前記提供部は、前記候補リストの少なくとも一部を前記候補リストに対応する属性情報ごとに前記ユーザに提供する、
 前記(9)~(11)のいずれか一項に記載の情報処理装置。
(15)
 音声入力部と非音声入力部とを備え、
 前記データ取得部は、音声入力に関連付けられかつ前記表示装置によって表示されている少なくとも1つの属性情報が前記非音声入力部への入力により選択された場合、前記選択された属性情報に対応する1または複数の候補ワードを含む候補リストを取得し、
 前記提供部は、前記候補リストに基づいて、前記音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
 前記(1)~(8)のいずれか一項に記載の情報処理装置。
(16)
 前記非音声入力部はタッチパネルであり、
 前記表示装置は、前記タッチパネルに第1の音声入力部を表示し、
 前記タッチパネルへのタッチ操作により前記第1の音声入力部が選択されている間、前記第1の音声入力部の隣接する位置に、前記属性情報に応じた少なくとも1つの第2の音声入力部を表示する、
 前記(15)に記載の情報処理装置。
(17)
 前記提供部は、前記音声認識結果に含まれる入力ワードが前記関連情報に対応している場合にのみ、前記処理結果を前記ユーザに提供する、
 前記(1)~(16)のいずれか一項に記載の情報処理装置。
(18)
 前記提供部は、前記意図解釈結果に基づく処理に画像情報のロードが含まれる場合、前記画像情報のロード中に、前記意図解釈結果に含まれる入力ワードに対応する所定の補足情報を音声情報として前記ユーザに提供する、
 前記(1)~(17)のいずれか一項に記載の情報処理装置。
(19)
 表示装置によって表示される表示情報に関連する関連情報を取得することと、
 前記関連情報に応じて音声認識結果の意図解釈がなされると、プロセッサにより、意図解釈結果に基づく処理結果をユーザに提供することと、
 を含む、情報処理方法。
(20)
 コンピュータを、
 表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
 前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
 を備える情報処理装置として機能させるためのプログラム。
 10  情報処理装置(エージェント)
 111 音出力部
 113 音声入力部
 114 非音声入力部
 115 距離検出部
 120 制御部
 121 データ取得部
 122 認識部
 123 提供部
 124 処理部
 130 記憶部
 131 辞書
 132 検索履歴
 133 購入履歴
 140 通信部
 150 表示部
 30  意図理解器
 40  サーバ装置

Claims (20)

  1.  表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
     前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
     を備える、情報処理装置。
  2.  前記表示情報は、第1の関連情報と関連する第1の表示情報および第2の関連情報と関連する第2の表示情報の少なくとも一方を含み、
     前記第1の関連情報に応じた意図解釈結果と、前記第1の関連情報とは異なる前記第2の関連情報に応じた意図解釈結果とは異なる、
     請求項1に記載の情報処理装置。
  3.  前記提供部は、前記関連情報に応じて音声認識結果の意図解釈モードが決定されると、前記意図解釈モードを示す情報をユーザに提供する、
     請求項1に記載の情報処理装置。
  4.  前記意図解釈モードを示す情報は、キャラクタ画像、アイコン画像、背景画像およびBGMのうち少なくともいずれか一つを含む、
     請求項3に記載の情報処理装置。
  5.  前記提供部は、前記処理結果を、視覚情報および音声情報の少なくとも一方によって前記ユーザに提供する、
     請求項1に記載の情報処理装置。
  6.  前記提供部は、前記ユーザが前記表示情報を見ている場合と、前記ユーザが前記表示情報を見ていない場合とにおいて、異なる音声情報を前記ユーザに提供する、
     請求項5に記載の情報処理装置。
  7.  前記提供部は、前記ユーザが前記表示情報を見ていない場合には、前記ユーザが前記表示情報を見ている場合よりも、詳細な音声情報を前記ユーザに提供する、
     請求項6に記載の情報処理装置。
  8.  前記提供部は、前記ユーザが前記表示情報を見ている場合には、前記処理結果を少なくとも視覚情報として前記ユーザに提供し、前記ユーザが前記表示情報を見ていない場合には、前記視覚情報に対応する音声情報を前記詳細な音声情報として前記ユーザに提供する、
     請求項7に記載の情報処理装置。
  9.  前記データ取得部は、前記関連情報に応じて第1の音声認識結果の意図解釈がなされると、意図解釈結果に含まれる第1の入力ワードに対応する1または複数の候補ワードを含む候補リストを取得し、
     前記提供部は、前記候補リストに基づいて、前記第1の音声認識結果の後に取得される第2の音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
     請求項1に記載の情報処理装置。
  10.  前記提供部は、前記第2の音声認識結果に含まれる第2の入力ワードが前記候補リストに含まれている場合、かつ、前記第2の音声認識結果に前記第2の入力ワードの処理に関する指示ワードが含まれていない場合、前記第2の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
     請求項9に記載の情報処理装置。
  11.  前記提供部は、前記第2の音声認識結果に含まれる第2の入力ワードが前記候補リストに含まれていない場合、かつ、前記第2の音声認識結果に前記第2の入力ワードの処理に関する指示ワードが含まれている場合、前記第2の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
     請求項9に記載の情報処理装置。
  12.  前記提供部は、前記第2の音声認識結果に含まれる前記第2の入力ワードが前記候補リストに含まれていない場合、かつ、前記第2の音声認識結果に前記指示ワードが含まれていない場合、前記第2の入力ワードを無視する、
     請求項10に記載の情報処理装置。
  13.  前記提供部は、前記候補リストの少なくとも一部を前記ユーザに提供し、
     前記提供部は、前記第2の音声認識結果の前に取得される第3の音声認識結果に属性情報が含まれる場合、前記属性情報に対応する前記候補リストの少なくとも一部を前記ユーザに提供する、
     請求項9に記載の情報処理装置。
  14.  前記提供部は、前記候補リストの少なくとも一部を前記候補リストに対応する属性情報ごとに前記ユーザに提供する、
     請求項9に記載の情報処理装置。
  15.  音声入力部と非音声入力部とを備え、
     前記データ取得部は、音声入力に関連付けられかつ前記表示装置によって表示されている少なくとも1つの属性情報が前記非音声入力部への入力により選択された場合、前記選択された属性情報に対応する1または複数の候補ワードを含む候補リストを取得し、
     前記提供部は、前記候補リストに基づいて、前記音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
     請求項1に記載の情報処理装置。
  16.  前記非音声入力部はタッチパネルであり、
     前記表示装置は、前記タッチパネルに第1の音声入力部を表示し、
     前記タッチパネルへのタッチ操作により前記第1の音声入力部が選択されている間、前記第1の音声入力部の隣接する位置に、前記属性情報に応じた少なくとも1つの第2の音声入力部を表示する、
     請求項15に記載の情報処理装置。
  17.  前記提供部は、前記音声認識結果に含まれる入力ワードが前記関連情報に対応している場合にのみ、前記処理結果を前記ユーザに提供する、
     請求項1に記載の情報処理装置。
  18.  前記提供部は、前記意図解釈結果に基づく処理に画像情報のロードが含まれる場合、前記画像情報のロード中に、前記意図解釈結果に含まれる入力ワードに対応する所定の補足情報を音声情報として前記ユーザに提供する、
     請求項1に記載の情報処理装置。
  19.  表示装置によって表示される表示情報に関連する関連情報を取得することと、
     前記関連情報に応じて音声認識結果の意図解釈がなされると、プロセッサにより、意図解釈結果に基づく処理結果をユーザに提供することと、
     を含む、情報処理方法。
  20.  コンピュータを、
     表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
     前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
     を備える情報処理装置として機能させるためのプログラム。
PCT/JP2016/074223 2016-05-12 2016-08-19 情報処理装置、情報処理方法およびプログラム WO2017195388A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP16901733.2A EP3457297A4 (en) 2016-05-12 2016-08-19 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM
US16/098,142 US11195517B2 (en) 2016-05-12 2016-08-19 Information processing apparatus and information processing method
JP2018516335A JPWO2017195388A1 (ja) 2016-05-12 2016-08-19 情報処理装置、情報処理方法およびプログラム
CN201680085327.0A CN109074364A (zh) 2016-05-12 2016-08-19 信息处理装置、信息处理方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662335419P 2016-05-12 2016-05-12
US62/335,419 2016-05-12

Publications (1)

Publication Number Publication Date
WO2017195388A1 true WO2017195388A1 (ja) 2017-11-16

Family

ID=60266977

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/074223 WO2017195388A1 (ja) 2016-05-12 2016-08-19 情報処理装置、情報処理方法およびプログラム

Country Status (5)

Country Link
US (1) US11195517B2 (ja)
EP (1) EP3457297A4 (ja)
JP (1) JPWO2017195388A1 (ja)
CN (1) CN109074364A (ja)
WO (1) WO2017195388A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185242A (ja) * 2018-04-05 2019-10-24 株式会社サウスポイント 自動選曲システム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222322B (zh) * 2019-12-31 2022-10-25 联想(北京)有限公司 信息处理方法和电子设备
JP2022050169A (ja) * 2020-09-17 2022-03-30 富士フイルムビジネスイノベーション株式会社 情報処理システム及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041460A (ja) * 2000-07-31 2002-02-08 Oki Electric Ind Co Ltd ネットワーク上での情報提供方法及びシステム
JP2015151059A (ja) * 2014-02-18 2015-08-24 本田技研工業株式会社 車載機器操作装置
WO2015146017A1 (ja) * 2014-03-28 2015-10-01 パナソニックIpマネジメント株式会社 音声検索装置、音声検索方法、および表示装置
JP2015191558A (ja) * 2014-03-28 2015-11-02 Kddi株式会社 電子機器、検索方法及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078552A1 (en) * 2006-01-13 2007-04-05 Outland Research, Llc Gaze-based power conservation for portable media players
US10437459B2 (en) * 2007-01-07 2019-10-08 Apple Inc. Multitouch data fusion
JP5616390B2 (ja) * 2012-03-27 2014-10-29 ヤフー株式会社 応答生成装置、応答生成方法および応答生成プログラム
US20140019462A1 (en) 2012-07-15 2014-01-16 Microsoft Corporation Contextual query adjustments using natural action input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10317992B2 (en) * 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US10423303B1 (en) * 2016-09-29 2019-09-24 A9.Com, Inc. Progressive information panels in a graphical user interface

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041460A (ja) * 2000-07-31 2002-02-08 Oki Electric Ind Co Ltd ネットワーク上での情報提供方法及びシステム
JP2015151059A (ja) * 2014-02-18 2015-08-24 本田技研工業株式会社 車載機器操作装置
WO2015146017A1 (ja) * 2014-03-28 2015-10-01 パナソニックIpマネジメント株式会社 音声検索装置、音声検索方法、および表示装置
JP2015191558A (ja) * 2014-03-28 2015-11-02 Kddi株式会社 電子機器、検索方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3457297A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185242A (ja) * 2018-04-05 2019-10-24 株式会社サウスポイント 自動選曲システム

Also Published As

Publication number Publication date
US11195517B2 (en) 2021-12-07
EP3457297A4 (en) 2019-08-14
EP3457297A1 (en) 2019-03-20
JPWO2017195388A1 (ja) 2019-03-07
CN109074364A (zh) 2018-12-21
US20200335087A1 (en) 2020-10-22

Similar Documents

Publication Publication Date Title
US11809886B2 (en) Intelligent automated assistant in a messaging environment
US11093045B2 (en) Systems and methods to augment user interaction with the environment outside of a vehicle
Khan et al. An insight into smartphone-based assistive solutions for visually impaired and blind people: issues, challenges and opportunities
US20230036798A1 (en) Systems and methods for providing search interface with contextual suggestions
US11853647B2 (en) Proactive assistance based on dialog communication between devices
AU2018282384B2 (en) Intelligent task discovery
US20210365161A1 (en) Digital assistant user interfaces and response modes
CN106104677B (zh) 所识别的语音发起的动作的视觉指示
JP6558364B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6229287B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
KR20180103136A (ko) 크리덴셜을 제공하는 음성 입력의 식별
US20130201215A1 (en) Accessing applications in a mobile augmented reality environment
KR20170139644A (ko) 디바이스 음성 제어
KR20170105581A (ko) 가상 어시스턴트 연속성
JP2014203207A (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
US10564712B2 (en) Information processing device, information processing method, and program
KR20190052162A (ko) 디지털 어시스턴트의 동기화 및 태스크 위임
JP2014203208A (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
Jylhä et al. A wearable multimodal interface for exploring urban points of interest
WO2017195388A1 (ja) 情報処理装置、情報処理方法およびプログラム
US20180196782A1 (en) Methods and devices for providing optimal viewing displays
WO2019231537A1 (en) Virtual assistant operation in multi-device environments
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR20160060385A (ko) 사용자 손가락들의 모션에 기반한 한글 입력 방법 및 장치
KR20180103547A (ko) 휴대 장치 및 휴대 장치의 화면 제어방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018516335

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16901733

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016901733

Country of ref document: EP

Effective date: 20181212