WO2018034028A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2018034028A1
WO2018034028A1 PCT/JP2017/017935 JP2017017935W WO2018034028A1 WO 2018034028 A1 WO2018034028 A1 WO 2018034028A1 JP 2017017935 W JP2017017935 W JP 2017017935W WO 2018034028 A1 WO2018034028 A1 WO 2018034028A1
Authority
WO
WIPO (PCT)
Prior art keywords
display
utterance
information processing
unit
processing apparatus
Prior art date
Application number
PCT/JP2017/017935
Other languages
English (en)
French (fr)
Inventor
長坂 英夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/094,712 priority Critical patent/US10795641B2/en
Priority to JP2018534269A priority patent/JP6451907B2/ja
Priority to EP17841256.5A priority patent/EP3502840B1/en
Publication of WO2018034028A1 publication Critical patent/WO2018034028A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing method, and a program.
  • Patent Document 1 describes a technology that enables a user to purchase a product with a product name by voice input of the product name during online shopping.
  • the present disclosure proposes a new and improved information processing apparatus, information processing method, and program capable of improving convenience in a scene where processing is executed based on an utterance.
  • predetermined processing is performed based on the acquisition unit that acquires the collected utterance, the plurality of display objects in the first display range corresponding to the current display range, and the utterance.
  • An information processing apparatus including a processing execution unit is provided.
  • the processor obtains a collected utterance, a plurality of display objects in the first display range corresponding to the current display range, and the utterance
  • an information processing method including processing.
  • the computer is based on the acquisition unit that acquires the collected utterance, the plurality of display objects in the first display range corresponding to the current display range, and the utterance.
  • a program for functioning as a process execution unit that performs a predetermined process is provided.
  • FIG. 5 is a sequence diagram showing a part of a processing flow according to the embodiment.
  • FIG. 5 is a sequence diagram showing a part of a processing flow according to the embodiment.
  • a plurality of constituent elements having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numeral.
  • a plurality of configurations having substantially the same functional configuration are distinguished as the agent device 10a and the agent device 10b as necessary.
  • the agent device 10a and the agent device 10b are simply referred to as the agent device 10 when it is not necessary to distinguish between them.
  • the information processing system includes an agent device 10, a server 20, and a communication network 22.
  • the server 20 is a device for managing EC services, for example.
  • the server 20 manages information on a plurality of products requested to be posted on a web page by a plurality of business operators. Further, each of the plurality of products may be associated with one or a plurality of display objects.
  • the display object may include one or more character strings, images, and / or GUI objects to be displayed.
  • the display object may further include information (metadata (for example, detailed product information) and link information) associated with the display object.
  • information for example, detailed product information
  • link information associated with the display object.
  • description will be made centering on an example in which a display object is displayed on, for example, a display screen (Web page or the like) related to an EC service.
  • the display object may include a character string such as the name and price of a product corresponding to the display object, an image of the product, a purchase button for the product, and the like.
  • the agent device 10 is an example of an information processing device according to the present disclosure.
  • the agent device 10 may be disposed on a desk, wall, ceiling, or the like in a predetermined building (for example, a user's home).
  • a predetermined building for example, a user's home.
  • the present invention is not limited to this example, and the agent device 10 may be a portable device.
  • the agent device 10 is capable of collecting sounds such as user utterances and performing voice recognition of the collected sounds. For example, the agent device 10 can perform speech recognition on the collected utterance and analyze the meaning of a character string obtained from the speech recognition result.
  • the agent device 10 has a function of displaying an image.
  • the agent device 10 can project an image on the projection surface 24.
  • the agent device 10 may have a photographing unit (not shown).
  • the agent device 10 can recognize a user's touch operation on the projection surface 24 based on, for example, an image obtained by photographing the direction of the projection surface 24.
  • the agent device 10 can mount an application (hereinafter referred to as an EC application) for a user to use an EC (Electronic Commerce) service.
  • an EC application an application for a user to use an EC (Electronic Commerce) service.
  • the agent device 10 can receive and display a list of display objects corresponding to each of a plurality of products registered in the server 20 from the server 20 via the communication network 22 described later. Is possible. Further, the agent device 10 selects and displays only some display objects from a plurality of display objects based on, for example, a user's natural speech or touch input, or changes the arrangement order of the display objects. It is possible.
  • the agent device 10 transmits a search keyword specified from the user's utterance to the server 20 via the communication network 22, and among the plurality of display objects based on the search result received from the server 20. Display only some display objects. Accordingly, the user can narrow down the products desired to be purchased (via the EC service) from the products corresponding to each of the plurality of display objects to be displayed.
  • FIG. 2 is an explanatory diagram showing a configuration example of the process definition DB 30 in which the type of user utterance and the type of process executed by the agent device 10 when acquiring voice data of the utterance are defined for the EC application. .
  • the process definition DB 30 for example, in the process definition DB 30, scenes, utterance types, and types of processes executed by the agent device 10 when acquiring voice data of the utterances are associated with each other.
  • scenes, utterance types, and types of processes executed by the agent device 10 when acquiring voice data of the utterances are associated with each other.
  • the agent device 10 activates the EC application, In addition, for example, a search result based on the keyword “xxx” is received from the display object corresponding to each of a plurality of products registered in the server 20 and displayed.
  • the agent device 10 projects the top screen of the EC app on the projection surface 24 (S13). ).
  • the agent device 10 transmits a search request for a display object corresponding to “XXX” to the server 20.
  • a list of search results is received from the server 20.
  • the agent device 10 projects a search result display screen including a list of received search results on the projection surface 24 (S17).
  • the agent device 10 may receive display control information of the search result display screen from the server 20. Then, the agent device 10 may project the search result display screen on the projection surface 24 based on the display control information.
  • the agent device 10 selects a display object corresponding to “XXX” from among the plurality of displayed objects. Then, identification information of the selected display object (or a product corresponding to the display object) is temporarily stored in the storage unit 130 described later.
  • the agent device 10 projects the product detail screen of the product indicated by the display object corresponding to “XXX” onto the projection plane 24 ( S21).
  • the agent device 10 temporarily stores the identification information of the corresponding product in the storage unit 130.
  • the agent device 10 displays a cart screen showing a list of products currently stored in the cart on the projection plane 24.
  • the image is projected upward (S25).
  • search result display screen 40a display objects 410 corresponding to each of a plurality of products are displayed on the search result display screen 40a.
  • the plurality of display objects 410 can be classified and displayed for each category column 400.
  • an utterance hint 420 can be further displayed on the search result display screen 40 a.
  • the utterance hint 420 includes search keyword candidates for the user to narrow down products to be purchased.
  • keyword candidates learned based on a past search history or the like can be displayed.
  • each category column 400 and / or utterance hint 420 different types of keyword candidates are listed for each narrowing down in the order of the type that the user has a high probability of using as a narrowing (search) keyword.
  • search narrowing
  • the first time is “content”
  • the second is “brand”
  • the third is “number”, etc.
  • Different types of keyword candidates may be displayed (every time the user instructs narrowing down in that order). According to this display example, the user can narrow down the products desired to be purchased efficiently.
  • the communication network 22 is a wired or wireless transmission path for information transmitted from a device connected to the communication network 22.
  • the communication network 22 may include a public line network such as a telephone line network, the Internet, and a satellite communication network, various LANs including the Ethernet (registered trademark), a wide area network (WAN), and the like.
  • the communication network 22 may include a dedicated network such as an IP-VPN (Internet Protocol-Virtual Private Network).
  • the agent device 10 according to the present embodiment acquires the collected utterance, and based on the plurality of display objects in the display range to be selected according to the current display range and the utterance, the plurality of the utterances.
  • a display object can be selected from the display objects. Therefore, for example, the user can easily select a desired display object from among a plurality of display objects currently visible.
  • the display range to be selected is an example of a first display range in the present disclosure. The specific contents of the display range to be selected will be described later.
  • FIG. 5 is a functional block diagram showing a configuration example of the agent device 10 according to the present embodiment.
  • the agent device 10 includes a control unit 100, a communication unit 120, a sensor unit 122, a sound collection unit 124, a display unit 126, an audio output unit 128, and a storage unit 130.
  • Control unit 100 The control unit 100 controls the operation of the agent device 10 using hardware such as a CPU (Central Processing Unit) 150 described later and a RAM (Random Access Memory) 154 described later. Control. As illustrated in FIG. 5, the control unit 100 includes a detection result acquisition unit 102, a voice recognition unit 104, a selection unit 106, and an output control unit 108.
  • a CPU Central Processing Unit
  • RAM Random Access Memory
  • the detection result acquisition unit 102 is an example of an acquisition unit in the present disclosure.
  • the detection result acquisition unit 102 acquires various types of information detected by a sensor unit 122 (to be described later) and sound information collected by the sound collection unit 124.
  • the voice recognition unit 104 is an example of a processing execution unit in the present disclosure.
  • the voice recognition unit 104 performs voice recognition on the utterance acquired by the detection result acquisition unit 102 based on, for example, a plurality of display objects currently displayed on the display unit 126.
  • the speech recognition unit 104 first identifies a plurality of speech recognition result candidates by performing speech recognition on the collected utterance.
  • the voice recognition unit 104 calculates the degree of matching of each of the plurality of identified voice recognition result candidates based on the plurality of currently displayed display objects.
  • the voice recognition unit 104 determines a candidate having the highest matching degree as a voice recognition result of the utterance.
  • FIG. 6 is an explanatory diagram showing an example of voice recognition by the voice recognition unit 104.
  • the user has made an utterance 50 “floor” while the search result display screen 40 including a plurality of display objects 410 is displayed.
  • the speech recognition unit 104 first specifies a plurality of speech recognition result candidates such as “flower” and “floor” based on the phoneme string of the collected utterances. Next, the speech recognition unit 104 calculates the degree of matching of each of the specified plurality of speech recognition result candidates based on the currently displayed display objects 410. In the example illustrated in FIG. 6, the display object 410 b includes a character string “floor”, and character strings corresponding to other speech recognition result candidates are not displayed in the search result screen 40. Therefore, the voice recognition unit 104 calculates the highest matching degree of “floor” among the plurality of identified voice recognition result candidates. Then, the voice recognition unit 104 determines “floor” as the voice recognition result of the utterance 50.
  • the output control unit 108 is an example of a processing execution unit in the present disclosure.
  • the output control unit 108 controls display on the display unit 126.
  • the output control unit 108 causes the display unit 126 to display a plurality of display objects by a display method according to the speech recognition result of the utterance.
  • the display by the display unit 126 is updated.
  • the output control unit 108 rearranges a plurality of display objects in the order corresponding to the utterances and causes the display unit 126 to display them. In the example shown in FIG.
  • the output control unit 108 displays the plurality of displays in ascending order of the price of the product corresponding to each of the plurality of display objects 410.
  • the objects 410 are rearranged and displayed on the display unit 126.
  • the output control unit 108 updates the display by the display unit 126 so that a plurality of display objects are displayed again with the classification according to the utterance.
  • the output control unit 108 for example, as shown in the search result display screen 40b shown in FIG.
  • the plurality of display objects 410 are classified again according to the “brand” of the product corresponding to each of the display objects 410 and are displayed on the display unit 126.
  • the output control unit 108 controls display on the display unit 126 based on the result of selection by the selection unit 106 described later. For example, when one or more display objects are selected from the plurality of display objects by the selection unit 106, the output control unit 108 displays the display unit so that only the selected display object is displayed. The display by 126 is updated.
  • the output control unit 108 controls sound output to the audio output unit 128. For example, when an utterance is collected, the output control unit 108 generates a response voice to the utterance based on, for example, an analysis result of the meaning of the utterance by the voice recognition unit 104, and the generated voice Is output to the audio output unit 128.
  • the output control unit 108 makes an inquiry for causing the user to select one or more of the five display objects 410, such as the voice 52 b “There are five”.
  • the sound 52b is output to the sound output unit 128.
  • the selection object 106 can select the display object 410d (from among the five display objects 410).
  • the output control unit 108 can display the current display range even if the user performs a scroll operation or the like. Can be controlled not to change. As a result, the five display objects 410 can be sufficiently confirmed by the user, and a desired display object can be accurately selected by the user.
  • the selection unit 106 is an example of a processing execution unit in the present disclosure.
  • the selection unit 106 selects a display object (or a product corresponding to the display object) corresponding to the speech recognition result of the utterance by the voice recognition unit 104 from a plurality of display objects within the display range to be selected.
  • the display range to be selected may include the current display range.
  • the selection unit 106 selects a display object corresponding to the voice recognition result from the plurality of display objects based on a comparison between the information related to each of the plurality of display objects and the voice recognition result. Pick out. As an example, the selection unit 106 selects, from among the plurality of display objects, only the display objects whose information related to each of the plurality of display objects matches the comparison result of the keyword included in the voice recognition result. .
  • the selection unit 106 first specifies a search word for extracting only the display object corresponding to the voice recognition result from the plurality of display objects. Then, the selection unit 106 acquires a display object corresponding to the voice recognition result from the server 20 by causing the communication unit 120 to transmit a search request including the specified search word to the server 20.
  • the information related to the display object includes the metadata associated with the display object, the image analysis result (color, shape, label type, etc.) of the display object, and / or the current display. Information on the display position of the corresponding display object in the range may be included.
  • the metadata may include an identification number associated with the corresponding display object, the name of the product corresponding to the corresponding display object, the number of the product, the manufacturer name of the product, the brand name of the product.
  • the selection unit 106 compares the number included in the speech recognition result of the utterance with the identification number associated with each of the plurality of display objects, respectively.
  • a display object corresponding to the voice recognition result is selected from the plurality of display objects.
  • the selection unit 106 associates the speech recognition result of the utterance with each of the plurality of display objects.
  • the display object corresponding to the voice recognition result is selected from the plurality of display objects by comparing the information in the existing metadata.
  • the selection unit 106 first extracts the keyword “6 cans” from the speech recognition result of the utterance 50 “make 6 cans”. Next, for each of the plurality of display objects 410 displayed on the display screen 40, the selection unit 106 includes information in the metadata 60 associated with the display object 410, a keyword “6 cans”, Are compared. Then, the selection unit 106 selects the display object 410 (display object 410a in the example shown in FIG. 9) corresponding to the product whose “sales unit” is “6 cans”.
  • the selection unit 106 selects the image analysis result from among one or more display objects existing at the position corresponding to “middle” in the current display range. Is selected as a display object corresponding to the voice recognition result.
  • the above selection example will be described in more detail with reference to FIGS.
  • the selection unit 106 first extracts the keyword “blue” from the speech recognition result of the utterance 50a.
  • the selection unit 106 selects two display objects 410 whose image analysis result is “blue” from the nine display objects 410.
  • the selection unit 106 first extracts the keyword “right” from the speech recognition result of the utterance 50 b. Then, the selection unit 106 further selects the display object 410b positioned on the “right” in the display screen 40b from the two display objects 410 displayed on the display screen 40b.
  • FIG. 12 is an explanatory diagram showing another example of selection.
  • the color of the product corresponding to each of the display object 410c and the display object 410d is a color other than blue, and that there is a blue type as a series of these products. Yes.
  • Other contents are the same as in the example shown in FIG.
  • the selection unit 106 first extracts the keyword “blue” from the speech recognition result of the utterance 50a. Next, the selection unit 106, like the display screen 40b shown in FIG. 12, among the nine display objects 410, the two display objects 410 whose image analysis results are “blue” (that is, the display object 410a). And the display object 410b) and two display objects 410 (that is, the display object 410c and the display object 410d) in which a blue-type product exists are selected.
  • the selection unit 106 first extracts the keyword “upper right” from the speech recognition result of the utterance 50b. Then, the selection unit 106 further selects the display object 410b positioned at “upper right” in the display screen 40b from the four display objects 410 displayed on the display screen 40b.
  • the selection unit 106 further corresponds to the voice recognition result from the plurality of display objects based on the attribute information (for example, age, sex, height, weight, address, etc.) of the user (speaker). It is also possible to select display objects. Further, the selection unit 106 further selects the speech recognition result from the plurality of display objects based on the designation of the genre and the usage (for example, a product for gifts) specified from the speech recognition result of the utterance. It is also possible to select a display object corresponding to. Further, the selection unit 106 further selects the voice recognition result from the plurality of display objects based on the detection result of the user's gaze position and gaze direction with respect to the current display range displayed on the display unit 126. It is also possible to select a display object corresponding to.
  • the attribute information for example, age, sex, height, weight, address, etc.
  • the selection unit 106 further selects the speech recognition result from the plurality of display objects based on the designation of the genre and the usage (for example,
  • the selection unit 106 selects one or more display objects from a plurality of display objects within the display range to be selected based on the speech recognition result of the utterance collected during the touch operation such as the scroll operation. It is also possible. For example, as illustrated in FIG. 13, it is assumed that the user performs an utterance 50 “make 6 cans” while the scroll operation 6 is being performed on the display screen 40. In this case, the selection unit 106 selects a display object 410 (for example, the display object 410a) corresponding to the utterance 50 from the plurality of display objects within the display range to be selected.
  • a display object 410 for example, the display object 410a
  • the display range 70 to be selected includes a current display range 72, a displayed display range 74 (other than the current display range), and a non-displayed display range 78. Further, the display range 70 to be selected may be a display range along the scroll direction 6 as shown in FIG.
  • the displayed display range 74 is an example of a second display range in the present disclosure.
  • the displayed display range 74 may be a display range continuously displayed by the display unit 126 before the display timing of the current display range 72.
  • the undisplayed display range 78 is an example of a third display range in the present disclosure.
  • the undisplayed display range 78 is a display range that is not displayed by the display timing of the current display range 72 and is assumed to be continuously displayed by the display unit 126 after the display timing. obtain.
  • the selection unit 106 can select both the display object 410a in the display range 74 that has been displayed and the display object 410b in the display range 78 that has not been displayed.
  • the current display range 72 can be determined according to the detection timing of the start of the utterance. For example, as shown in FIG. 15, when the user utters “XYZ” utterance 50 while scrolling from top to bottom, the top line of the current display range 72 detects the first phoneme of utterance 50.
  • the current display range 72 can be determined to be the same as the highest line at the timing (time t1 in the example shown in FIG. 15).
  • the priority of selection by the selection unit 106 can be determined to be different for each type of display range. For example, the priority of selection by the selection unit 106 is determined so that the priority becomes lower in the order of the current display range 72, the displayed display range 74 (other than the current display range), and the undisplayed display range 78. obtain. For example, in the example illustrated in FIG. 14, the selection unit 106 preferentially selects the display object 410 a in the displayed display range 74 over the display object 410 b in the non-displayed display range 78.
  • the present invention is not limited to such an example.
  • the selection unit 106 is selected. May preferentially select display objects in the displayed display range over display objects in the current display range.
  • Display objects within the display range of the display may be selected with priority over display objects within the current display range.
  • the selection unit 106 continuously displays the display object corresponding to the utterance as long as the speech recognition result of the utterance satisfies a predetermined condition. Can be selected. For example, each time an utterance is collected, the selection unit 106 first determines whether or not the speech recognition result of the utterance satisfies a predetermined condition. For each of all utterances acquired up to the timing when the speech recognition result of the utterance does not satisfy the predetermined condition, the selection unit 106 displays a plurality of displays (within the display range to be selected). A display object corresponding to the speech recognition result of the utterance is selected from the objects.
  • the user performs a predetermined start utterance 50 a such as “add to cart”. Thereafter, the user utters the product name and “and (and)” desired to be selected, such as the utterance 50b “AAA”, the utterance 50b “BBB”, and the utterance 50c “CCC”. Is performed continuously. In this case, each time the utterance 50 including “to” at the end of the utterance is continuously acquired, the selection unit 106 selects the voice recognition result of the utterance 50 from the plurality of display objects within the display range to be selected.
  • a predetermined start utterance 50 a such as “add to cart”.
  • the user utters the product name and “and (and)” desired to be selected, such as the utterance 50b “AAA”, the utterance 50b “BBB”, and the utterance 50c “CCC”. Is performed continuously.
  • the selection unit 106 selects the voice recognition result of the utterance 50 from the plurality of display objects within the display range to be
  • Corresponding display objects are sequentially selected, and the identification information of the selected display objects is temporarily stored in the storage unit 130, for example. Thereafter, when a predetermined end utterance 50e such as “end” is detected as shown in FIG. 16, for example, the selection unit 106 selects all display objects temporarily stored until the detection timing. Is determined as the display object selected by the user.
  • the selection unit 106 can also select a display object to which the finger is pointing. In this case, the selection unit 106 may further perform processing (for example, storing in a storage area for “cart”) that puts a product corresponding to the selected display object into the cart.
  • a touch operation requires a touch for selecting a display object and a touch for an operation to put in a cart.
  • a touch operation requires a touch for selecting a display object and a touch for an operation to put in a cart.
  • this modified example since a desired display object can be put into the cart with only one touch, it can be expected that the operation time is shortened compared with a normal touch operation.
  • the communication unit 120 transmits and receives information to and from other devices via the communication network 22, for example.
  • the communication unit 120 transmits a search request for extracting a display object corresponding to the voice recognition result of the collected utterance to the server 20 according to the control of the selection unit 106.
  • the communication unit 120 receives a list of search results from the server 20.
  • the sensor unit 122 may include, for example, an image sensor (camera) and / or a depth sensor.
  • the camera included in the sensor unit 122 captures a video in front of the camera at a predetermined timing (for example, a predetermined time interval).
  • the depth camera included in the sensor unit 122 measures the distance to each object positioned in front of the depth camera.
  • the sensor unit 122 may further include a triaxial acceleration sensor, a gyroscope, a magnetic sensor, and the like.
  • the sound collection unit 124 is, for example, a microphone.
  • the sound collecting unit 124 detects an external sound (air vibration) and converts it into an electrical signal.
  • the sound collecting unit 124 transmits the converted signal to the control unit 100.
  • the display unit 126 displays an image according to the control of the output control unit 108.
  • the display unit 126 includes a projector
  • the display unit 126 projects an image in the projection direction of the projector according to the control of the output control unit 108.
  • the display unit 126 has a display
  • the display unit 126 displays an image on the display according to the control of the output control unit 108.
  • Audio output unit 128 may include a speaker.
  • the audio output unit 128 outputs audio in accordance with the control of the output control unit 108.
  • Storage unit 130 stores various data and various software. For example, as illustrated in FIG. 5, the storage unit 130 stores a process definition DB 30.
  • the voice recognition unit 104 of the agent device 10 performs voice recognition on the collected utterance (S101).
  • the selection unit 106 generates a search request by setting the keyword “XX” specified from the speech recognition result in S101 as a search word. Then, the communication unit 120 transmits the generated search request to the server 20 (S103).
  • the server 20 performs a search based on the received search request with respect to a database in which information on a plurality of products is registered (S105). Then, the server 20 transmits a list of search results to the agent device 10 (S107).
  • the display unit 126 of the agent device 10 displays a list of received search results under the control of the output control unit 108 (S109).
  • the user 2 speaks to the agent device 10 as “Filter by YY and rearrange”. Then, the voice recognition unit 104 of the agent device 10 performs voice recognition on the collected utterance and analyzes the meaning of the utterance (S111).
  • the communication unit 120 transmits a status check and a GUI lock request to the server 20 according to the control of the control unit 100 (S113).
  • the server 20 locks all the GUIs, for example, based on the received lock request (S115). Then, the server 20 transmits the application state information to the agent device 10 (S117). Thereafter, the server 20 waits until a predetermined time elapses (S119). When the predetermined time has elapsed (S119: Yes), the server 20 performs the process of S137 described later.
  • the control unit 100 of the agent device 10 determines whether or not the value indicated by the received state information is “OK” (S121).
  • the value indicated by the state information is not “OK” (for example, “NG”) (S121: No)
  • the audio output unit 128 performs, for example, “narrow down on the cart screen” according to the control of the output control unit 108.
  • a voice indicating that the process corresponding to the utterance in S111 cannot be executed is output (S123). Then, this process ends.
  • the selection unit 106 of the agent device 10 searches for the keyword “XX” identified from the speech recognition result in S101 and the keyword “YY” identified from the speech recognition result in S111.
  • a search request is generated by setting a word.
  • the output control unit 108 generates instruction information for displaying the display object of the search result in the arrangement according to the voice recognition result of S111.
  • the communication unit 120 transmits the generated search request and instruction information to the server 20 (S131).
  • the server 20 searches the above database based on the received search request (S133). Then, the server 20 transmits a list of search results to the agent device 10 (S135).
  • the server 20 unlocks all the GUIs locked in S115 (S137).
  • the display unit 126 of the agent device 10 displays a list of received search results under the control of the output control unit 108 (S139).
  • the agent device 10 acquires a collected utterance, and a plurality of display objects in the display range to be selected according to the current display range, Based on the utterance, it is possible to select a display object from the plurality of display objects and change the display method of the plurality of display objects. For this reason, since the process is adaptively executed according to the relationship between the collected utterance and the plurality of display objects within the display range to be selected, the convenience for the user is high. For example, the user can easily select a desired display object from among a plurality of display objects currently visible by natural utterance. Even when the user is an elderly person or the like, it is possible to select a desired display object by natural utterance, so that more users can easily use EC.
  • the agent device 10 can accurately store the product corresponding to the utterance in the cart.
  • the GUI button corresponding to the desired product goes out of the display range during the scroll operation, the user can accurately select the product by utterance without changing the current display range.
  • the agent device 10 is a portable device having a display, the user can stably perform a desired operation.
  • the operation at the time of switching the site becomes easier as compared with the normal touch operation.
  • the user desires to search the site B for a character string displayed on the site A
  • the user copies the character string once and It is necessary to paste in.
  • the site A is displayed, for example, the user simply makes an utterance such as “Check XXX at the site B” to the agent device 10, and the corresponding character string (that is, XXX). ) Can be searched at the site B, and the operation is easy.
  • the search operation during the display of the Web page including the search window is facilitated as compared with the normal touch operation.
  • the user can perform a normal touch operation with the user. In this case, it is necessary to copy the character string once and then scroll the display range to the position of the search window, which is troublesome.
  • the user without changing the display range, for example, the user simply searches the agent device 10 for an utterance such as “Search for XXX”, and searches for the corresponding character string. Is easy to operate.
  • the output control unit 108 specifies information on an answer to the utterance based on one or more display objects in the current display range and a result of semantic analysis of the collected utterance, and It is possible to output information on the identified answer.
  • the above contents will be described in more detail with reference to FIG.
  • the user has made an utterance 50 “Where is the manufacturer of ABC?”
  • the display object 410 a including the character string “ABC” is displayed on the display screen 40.
  • the selection unit 106 of the agent device 10 displays the character string “ABC” in the product name from the meta information associated with each of one or more display objects in the current display range.
  • the object 410a is selected.
  • the output control unit 108 specifies an answer (“XDZ” in the example illustrated in FIG. 19) corresponding to the question indicated by the utterance 50, and then specifies the specified answer.
  • the voice output unit 128 outputs the voice 52 shown.
  • the output control unit 108 can specify the answer to the question by inquiring to the server 20, for example, instead of specifying the answer to the question from the meta information of the display object 410a.
  • the speech recognition unit 104 converts all phoneme strings corresponding to “floor” specified from the utterance into the same character string (“floor”). Thereby, the user can perform a plurality of operations efficiently.
  • FIG. 20 is an explanatory diagram illustrating an example of processing executed by the agent device 10 according to the application example 2 based on acquisition of collected utterances.
  • FIG. 20 it is assumed that the web page 40 of the recipe for cooking is currently displayed on the display unit 126. Then, when looking at the character string 430a “Paprika” included in the Web page 40, the user wants to send an email with the text “Tonight's Paprika ...” to the family, and It is assumed that the utterance 50a “e-mail to the family“ Tonight is paprika... ”is made to the agent device 10.
  • the agent device 10 performs a process of transmitting the text mail to the family without making a transition to another screen.
  • the agent apparatus 10 as shown in FIG. 20, for example, the GUI auxiliary screen 440 a including a character string “Send a mail to family with“ Tonight's paprika ... ”” Is displayed on the Web page 40.
  • the agent device 10 performs a process of registering “paprika” in the shopping memo without shifting to another screen.
  • the agent device 10 displays on the Web page 40 a GUI auxiliary screen 440b including, for example, a character string “Paprika registered in shopping memo”.
  • FIG. 21 shows an example of the flow of processing corresponding to the situation shown in FIG.
  • the agent device 10 activates the EC application based on, for example, acquisition of speech voice data. Then, the display unit 126 of the agent device 10 displays an EC application display screen (hereinafter referred to as an EC application screen) under the control of the output control unit 108 (S201). Note that the agent device 10 continues to display the EC application screen without changing the screen until S215, which will be described later.
  • an EC application screen an EC application display screen
  • the control unit 100 of the agent device 10 activates a mail application (S203).
  • the display unit 126 displays the GUI auxiliary screen 440a illustrated in FIG. 20 on the EC application screen for a predetermined time, for example, according to the control of the output control unit 108 (S205).
  • the control unit 100 of the agent device 10 activates a shopping memo (S207).
  • the display unit 126 displays the GUI auxiliary screen 440b shown in FIG. 20 on the EC application screen for a predetermined time, for example, according to the control of the output control unit 108 (S209).
  • the agent device 10 temporarily stacks (saves) the work information related to the registered shopping memo in the storage unit 130. As a result, as will be described later, the main screen of the shopping memo can be automatically displayed after the EC application screen ends.
  • the agent device 10 performs a process substantially similar to S207 to S209 described above (S211 to S213).
  • the output control unit 108 of the agent device 10 displays the shopping memos stacked in S209 as illustrated in FIG.
  • the screen is changed to the main screen 80 (S217).
  • the output control unit 108 of the agent device 10 stores the shopping memo.
  • the display content of the main screen 80 is updated.
  • the work corresponding to the utterance 50c in the stack is started (S219).
  • the agent device 10 Based on the voice recognition result, the corresponding product may be put in the shopping list.
  • the agent device 10 determines, based on the voice recognition result of the utterance, A search may be performed for the corresponding character string, and the search result may be output by voice.
  • the agent device 10 sets the voice recognition result of the voice in the second language (for example, preset).
  • the voice corresponding to the translation result may be output.
  • the agent device 10 may automatically read the message. Thereafter, when a reply utterance for the message is collected, the agent device 10 may automatically transmit a message obtained from the speech recognition result of the utterance to the other user.
  • SNS Social Networking Service
  • the agent device 10 includes a CPU 150, a ROM (Read Only Memory) 152, a RAM 154, a bus 156, an interface 158, an input device 160, an output device 162, a storage device 164, and a communication device 166.
  • the CPU 150 functions as an arithmetic processing device and a control device, and controls the overall operation in the agent device 10 according to various programs. In addition, the CPU 150 realizes the function of the control unit 100 in the agent device 10.
  • the CPU 150 is configured by a processor such as a microprocessor.
  • the ROM 152 stores programs used by the CPU 150 and control data such as calculation parameters.
  • the RAM 154 temporarily stores a program executed by the CPU 150, for example.
  • the bus 156 includes a CPU bus and the like.
  • the bus 156 connects the CPU 150, the ROM 152, and the RAM 154 to each other.
  • the interface 158 connects the input device 160, the output device 162, the storage device 164, and the communication device 166 with the bus 156.
  • the input device 160 includes, for example, an input means for a user to input information, such as a touch panel, a button, a switch, a lever, and a microphone, and an input control circuit that generates an input signal based on an input by the user and outputs the input signal to the CPU 150. Composed.
  • the output device 162 includes a display device such as a projector or a display such as an LCD (Liquid Crystal Display) or an OLED (Organic Light Emitting Diode).
  • the output device 162 includes an audio output device such as a speaker.
  • the storage device 164 is a data storage device that functions as the storage unit 130.
  • the storage device 164 includes, for example, a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, or a deletion device that deletes data recorded on the storage medium.
  • the communication device 166 is a communication interface composed of a communication device for connecting to the communication network 22 or the like, for example.
  • the communication device 166 may be a wireless LAN compatible communication device, an LTE (Long Term Evolution) compatible communication device, or a wire communication device that performs wired communication.
  • the communication device 166 functions as the communication unit 120.
  • the agent device 10 may compare the plurality of products with each other and generate a comparison result list. Further, the agent device 10 may compare the learning result of the type of product that the user has purchased in the past with each of the plurality of products stored in the cart, and generate a list of comparison results. . According to these modified examples, the agent device 10 can display the comparison list before the user settles the product. Thereby, it is possible to alert the user not to purchase an unintended product.
  • Modification 2 As another modification, sound collection is performed while, for example, a video captured in real time is displayed on a camera of the agent device 10 or a camera (hereinafter referred to as an environmental camera) of another device such as a robot. Based on the voice recognition result of the user's utterance and the analysis result of the video, the agent device 10 can select a product to be purchased. For example, when the environmental camera is photographing a product shelf in a store or a warehouse or the user's home, and the agent device 10 receives and displays a video photographed by the environmental camera. To do.
  • the agent device 10 A product corresponding to the speech recognition result of the utterance can be selected as a purchase target product.
  • the agent device 10 can also select a product to be purchased. For example, when an utterance saying “I want to buy a shirt worn by a man” is collected while a video of a man is displayed on a television receiver, the agent device 10 You may select the shirt you are wearing as the item to purchase.
  • ⁇ 4-3 Modification 3>
  • a vertical (vertical) slide operation 6a with respect to the display screen 40 is a display range scroll operation
  • a horizontal (left / right) slide operation 6b is a microphone activation gesture. It may be set.
  • FIG. 25 is an explanatory diagram showing an application example in the music playback application. As shown in FIG. 25, during the display of the music playback application display screen 90, the agent device 10 can create a playlist based on the acquisition of utterance voice data indicating music information. .
  • the user performs a predetermined start utterance 50a such as “create a playlist”.
  • a predetermined start utterance 50a such as “create a playlist”.
  • the user for example, an utterance 50b “Samday” and an utterance 50b “Nightlife”, etc., and the utterance consisting of information (music name etc.) and “and (and)” to be selected. Do it continuously.
  • the selection unit 106 corresponds to the voice recognition result of the utterance 50 from the information of a plurality of pieces of music in the display screen 90.
  • the information of the music to be selected is sequentially selected, and the information of the selected music is temporarily stored in the storage unit 130, for example. Thereafter, when a predetermined end utterance 50e such as “end” is detected, for example, as shown in FIG. 25, the selection unit 106 selects all types of temporarily stored by the detection timing. Create a playlist to include music. Note that the selection unit 106 is not limited to the utterance of the song name, and can select a song corresponding to the utterance based on, for example, an utterance such as “a song with a fast beat” or “a climax”. .
  • the configuration of the agent device 10 according to the present embodiment is not limited to the example shown in FIG.
  • one or more of the sensor unit 122, the sound collection unit 124, the display unit 126, and the audio output unit 128 are included in another device with which the agent device 10 can communicate instead of being included in the agent device 10. Also good.
  • the information processing apparatus may be a general-purpose PC (Personal Computer), a tablet terminal, a game machine, a mobile phone such as a smartphone, a portable music player, a television receiver, a robot, or an HMD (Head Mounted Display), It may be a headset or a wearable device such as a smart watch.
  • PC Personal Computer
  • HMD Head Mounted Display
  • the information processing apparatus may be the server 20.
  • the information processing apparatus wherein a display object is selected.
  • the processing execution unit is configured to display a display corresponding to the speech recognition result of the utterance from the plurality of display objects based on a result of image analysis of each of the plurality of display objects and a speech recognition result of the utterance.
  • the information processing apparatus according to (3) or (4), wherein an object is selected.
  • (6) Each time the collected utterance is acquired, the processing execution unit determines whether or not the speech recognition result of the utterance satisfies a predetermined condition, and The processing execution unit includes a display object corresponding to each speech recognition result of one or more utterances acquired by a first timing first determined that the speech recognition result of the utterance does not satisfy the predetermined condition.
  • the information processing apparatus according to any one of (3) to (5), wherein each is selected from the plurality of display objects.
  • the processing execution unit further causes the display unit to display the selected display object.
  • the processing execution unit further makes an inquiry for causing the user to select one or more of the selected display objects.
  • the information processing apparatus according to any one of (3) to (7), wherein the information output is controlled.
  • the information processing apparatus according to (2), wherein the processing execution unit performs voice recognition of the utterance based on the plurality of display objects.
  • the information processing unit changes a display classification of a plurality of display objects displayed by the display unit among the plurality of display objects based on a speech recognition result of the utterance. apparatus.
  • the first display range further includes any one of (2) to (13), including a second display range that is continuously displayed by the display unit before the display timing of the current display range.
  • the information processing apparatus according to one item.
  • the processing execution unit prioritizes a display object corresponding to the speech recognition result of the utterance from a plurality of display objects in the current display range over a plurality of display objects in the second display range.
  • the information processing apparatus according to (14), wherein the information processing apparatus is selected.
  • the first display range further includes a third display range that is not displayed by the display timing of the current display range and is estimated to be displayed by the display unit after the display timing.
  • the information processing apparatus according to any one of (2) to (15), including: (17) The processing execution unit prioritizes a display object corresponding to the speech recognition result of the utterance from a plurality of display objects in the current display range over a plurality of display objects in the third display range. The information processing device according to (16), wherein the information processing device is selected. (18) The information processing apparatus according to any one of (2) to (17), wherein the first display range is continuously displayed by a display unit along a direction specified by a user.
  • agent device 20 server 22 communication network 30 process definition DB DESCRIPTION OF SYMBOLS 100 Control part 102 Detection result acquisition part 104 Voice recognition part 106 Selection part 108 Output control part 120 Communication part 122 Sensor part 124 Sound collecting part 126 Display part 128 Voice output part 130 Storage part

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】発話に基いて処理が実行される場面における利便性を向上させることが可能な、情報処理装置、情報処理方法、およびプログラムを提案する。 【解決手段】集音された発話を取得する取得部と、現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 従来、例えばネットショッピングなどのEC(Electronic Commerce)に関する技術が各種開発されている。
 例えば、下記特許文献1には、ネットショッピングにおいてユーザが商品名を音声入力することにより、当該商品名の商品を購入可能とする技術が記載されている。
特開2014-229278号公報
 しかしながら、特許文献1に記載の技術では、音声入力の利用時の利便性が低い。例えば、特許文献1に記載の技術では、入力された音声の音声認識結果のみに依存して、実行される処理が決定されてしまう。
 そこで、本開示では、発話に基いて処理が実行される場面における利便性を向上させることが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、集音された発話を取得する取得部と、現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、を備える、情報処理装置が提供される。
 また、本開示によれば、集音された発話を取得することと、現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、プロセッサが所定の処理を行うことと、を含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータを、集音された発話を取得する取得部と、現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、発話に基いて処理が実行される場面における利便性を向上させることができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本開示の実施形態による情報処理システムの構成例を示した説明図である。 同実施形態による処理定義DB30の構成例を示した説明図である。 同実施形態によるECアプリを用いた商品の購入に関する全体的な処理の流れの一例を示したフローチャートである。 同実施形態による検索結果表示画面の表示例を示した図である。 同実施形態によるエージェント装置10の構成例を示した機能ブロック図である。 同実施形態による音声認識の一例を示した説明図である。 同実施形態による検索結果表示画面の別の表示例を示した図である。 同実施形態による複数の表示オブジェクトが選出された場合における問い合わせの情報の出力例を示した説明図である。 同実施形態による複数の表示オブジェクトの表示例、および、表示オブジェクトを選び出すための発話の例を示した説明図である。 同実施形態による複数の表示オブジェクトの中からの表示オブジェクトの選出例を示した説明図である。 同実施形態による複数の表示オブジェクトの中からの表示オブジェクトの別の選出例を示した説明図である。 同実施形態による複数の表示オブジェクトの中からの表示オブジェクトの別の選出例を示した説明図である。 表示画面40に対するスクロール操作と同時に発話が行われる例を示した説明図である。 同実施形態による選出対象の表示範囲の例を示した説明図である。 同実施形態による「現在の表示範囲」の例を示した説明図である。 同実施形態による、表示オブジェクトを連続的に選び出す発話の例を示した説明図である。 同実施形態による処理の流れの一部を示したシーケンス図である。 同実施形態による処理の流れの一部を示したシーケンス図である。 同実施形態の応用例による、発話に対する回答の情報の出力例を示した説明図である。 同実施形態の応用例による、発話に基づいて複数のタスクが並行的に実行される例を示した説明図である。 図20に示した状況に対応する処理の流れを示した説明図である。 同応用例による買い物メモのメイン画面の表示例を示した図である。 同実施形態によるエージェント装置10のハードウェア構成を示した説明図である。 同実施形態の変形例による、スクロールのためのスライド操作と、マイクロフォンの起動のためのスライド操作との区別の例を示した説明図である。 同変形例による、発話に基づくプレイリストの作成例を示した説明図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じてエージェント装置10aおよびエージェント装置10bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、エージェント装置10aおよびエージェント装置10bを特に区別する必要が無い場合には、単にエージェント装置10と称する。
 また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
 1.情報処理システムの構成
 2.実施形態の詳細な説明
 3.ハードウェア構成
 4.変形例
<<1.情報処理システムの構成>>
 まず、本開示の実施形態による情報処理システムの構成について、図1を参照して説明する。図1に示すように、当該情報処理システムは、エージェント装置10、サーバ20、および、通信網22を含む。
 <1-1.サーバ20>
 サーバ20は、例えばECサービスを管理するための装置である。サーバ20は、例えば複数の事業者からWebページなどへ掲載することを依頼された複数の商品の情報を管理する。また、当該複数の商品の各々と、一または複数の表示オブジェクトとが関連付けられ得る。
 ここで、表示オブジェクトは、表示される文字列、画像、および/または、GUIオブジェクトなどを一以上含み得る。なお、表示オブジェクトは、該当の表示オブジェクトに関連付けられている情報(メタデータ(例えば商品の詳細情報など)やリンク情報など)をさらに含んでもよい。なお、以下では、表示オブジェクトが、例えばECサービスに関する表示画面(Webページなど)上に表示される例を中心に説明を行う。例えば、表示オブジェクトは、当該表示オブジェクトに対応する商品の名前や価格などの文字列、当該商品の画像、および、当該商品の購入用ボタンなどを含み得る。
 <1-2.エージェント装置10>
 {1-2-1.概要}
 エージェント装置10は、本開示における情報処理装置の一例である。エージェント装置10は、例えば所定の建物(例えばユーザの自宅など)内の机、壁、または、天井などに配置され得る。但し、かかる例に限定されず、エージェント装置10は、携帯型の装置であってもよい。
 このエージェント装置10は、ユーザの発話などの音を集音すること、および、集音された音声の音声認識を行うことが可能である。例えば、エージェント装置10は、集音された発話に対して音声認識を行い、そして、音声認識結果から得られる文字列の意味を解析することが可能である。
 また、エージェント装置10は、画像を表示する機能を有する。例えば、図1に示すように、エージェント装置10は、画像を投影面24上に投影することが可能である。
 また、エージェント装置10は、撮影部(図示省略)を有し得る。そして、エージェント装置10は、例えば投影面24の方向を撮影した画像に基いて、投影面24に対するユーザのタッチ操作などを認識することが可能である。
 また、エージェント装置10は、ユーザがEC(Electronic Commerce)サービスを利用するためのアプリケーション(以下、ECアプリと称する)を実装することが可能である。エージェント装置10は、このECアプリを用いて、サーバ20に登録されている複数の商品の各々に対応する表示オブジェクトの一覧を後述する通信網22を介してサーバ20から受信し、表示することが可能である。また、エージェント装置10は、例えばユーザの自然発話やタッチ入力などに基いて、複数の表示オブジェクトの中から一部の表示オブジェクトのみを選び出して表示したり、または、表示オブジェクトの並び順を変更することが可能である。例えば、エージェント装置10は、ユーザの発話から特定される検索キーワードを通信網22を介してサーバ20へ送信し、そして、サーバ20から受信される検索結果に基いて当該複数の表示オブジェクトのうちの一部の表示オブジェクトのみを表示する。これにより、ユーザは、表示される複数の表示オブジェクトの各々に対応する商品の中から(ECサービスを介した)購入希望の商品を絞り込むことができる。
 図2は、ECアプリに関して、ユーザの発話の種類と、当該発話の音声データの取得時にエージェント装置10が実行する処理の種類とが定義された処理定義DB30の構成例を示した説明図である。図2に示したように、例えば、処理定義DB30では、シーンと、発話の種類と、当該発話の音声データの取得時にエージェント装置10が実行する処理の種類とが対応付けられている。図2の一レコード目に示した例では、ECアプリが起動していない状態において、「xxxが買いたい」という発話が集音された際には、エージェント装置10は、ECアプリを起動し、かつ、例えばサーバ20に登録されている複数の商品の各々に対応する表示オブジェクトの中から、「xxx」というキーワードに基いた検索結果をサーバ20から受信し、そして、表示する。
 {1-2-2.ECアプリに関する処理の流れ}
 ここで、図3を参照して、ECアプリを用いた商品の購入に関する全体的な処理の流れの一例について説明する。なお、図3に示したフローチャートは、処理定義DB30の登録内容によって変更され得る。
 図3に示したように、まず、「ECアプリを立ち上げて、買い物をしたい」とユーザが発話すると(S11)、エージェント装置10は、ECアプリのトップ画面を投影面24に投影する(S13)。
 また、最初に、もしくは、S13の後に、「XXXが買いたい」とユーザが発話すると(S15)、エージェント装置10は、「XXX」に対応する表示オブジェクトの検索要求をサーバ20へ送信することにより、検索結果の一覧をサーバ20から受信する。そして、エージェント装置10は、受信した検索結果の一覧を含む検索結果表示画面を投影面24上に投影する(S17)。あるいは、エージェント装置10は、当該検索結果表示画面の表示制御情報をサーバ20から受信してもよい。そして、エージェント装置10は、当該表示制御情報に基づいて検索結果表示画面を投影面24上に投影してもよい。
 なお、この検索結果表示画面の表示時に、例えば「XXXを買う」などとユーザが発話すると、エージェント装置10は、表示されている複数の表示オブジェクトのうち「XXX」に対応する表示オブジェクトを選び出し、そして、選び出した表示オブジェクト(または当該表示オブジェクトに対応する商品)の識別情報を、後述する記憶部130に一時的に格納する。
 S17の後、「XXXの詳細を見せて」とユーザが発話すると(S19)、エージェント装置10は、「XXX」に対応する表示オブジェクトが示す商品の商品詳細画面を投影面24上に投影する(S21)。なお、この商品詳細画面の表示時に、例えば「これ買う」などとユーザが発話すると、エージェント装置10は、該当の商品の識別情報を記憶部130に一時的に格納する。
 また、S17の後、もしくは、S21の後に、「カートを見せて」とユーザが発話すると(S23)、エージェント装置10は、現在カートに格納されている商品の一覧を示すカート画面を投影面24上に投影する(S25)。
 {1-2-3.検索結果表示画面}
 次に、図4を参照して、検索結果表示画面の表示例(検索結果表示画面40a)について説明する。図4に示したように、検索結果表示画面40aには、複数の商品の各々に対応する表示オブジェクト410が表示される。ここで、複数の表示オブジェクト410は、図4に示したように、カテゴリ欄400ごとに分類されて表示され得る。また、図4に示したように、検索結果表示画面40aには、さらに、発話ヒント420が表示され得る。ここで、発話ヒント420は、購入対象の商品をユーザが絞り込むための検索キーワードの候補を含む。なお、個々のカテゴリ欄400、および/または、発話ヒント420には、過去の検索履歴などに基いて学習されたキーワードの候補が表示され得る。例えば、個々のカテゴリ欄400、および/または、発話ヒント420には、絞り込み(検索)のキーワードとしてユーザが使用する確率が高い種類の順番で、一回の絞り込みごとに異なる種類のキーワードの候補が表示され得る。図4に示した例では、1回目は「内容量」、2回目は「ブランド」、3回目は「個数」などのように、絞り込みのキーワードとしてユーザが使用する確率が高い種類の順番で、(当該順番に沿ってユーザが絞り込みを指示する度に)異なる種類のキーワードの候補が表示され得る。この表示例によれば、購入希望の商品をユーザは効率的に絞り込んでいくことができる。
 <1-3.通信網22>
 通信網22は、通信網22に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網22は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網22は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 <1-4.課題の整理>
 以上、本実施形態による情報処理システムの構成について説明した。ところで、例えば図4に示したような検索結果一覧画面の表示中に、当該検索結果一覧画面に含まれる複数の表示オブジェクトの中から特定の表示オブジェクト(例えば、表示オブジェクト410eなど)を自然発話により直接指定可能であると利便性が高く、望ましい。特に、検索結果一覧画面が表示されている投影面(または当該検索結果一覧画面を表示するディスプレイ)とユーザとの間の距離が大きいなど、当該検索結果一覧画面に対してユーザがタッチすることが非常に困難な場面では、特定の表示オブジェクトを自然発話により指定可能であることが一層望まれる。
 そこで、上記事情を一着眼点にして、本実施形態によるエージェント装置10を創作するに至った。本実施形態によるエージェント装置10は、集音された発話を取得し、そして、現在の表示範囲に応じた選出対象の表示範囲内の複数の表示オブジェクトと、当該発話とに基いて、当該複数の表示オブジェクトの中から表示オブジェクトを選び出すことが可能である。このため、ユーザは、例えば、現在見えている複数の表示オブジェクトの中から所望の表示オブジェクトを容易に選び出すことができる。ここで、選出対象の表示範囲は、本開示における第1の表示範囲の一例である。なお、選出対象の表示範囲の具体的な内容については後述する。
<<2.実施形態の詳細な説明>>
 <2-1.構成>
 次に、本実施形態による構成について詳細に説明する。図5は、本実施形態によるエージェント装置10の構成例を示した機能ブロック図である。図5に示すように、エージェント装置10は、制御部100、通信部120、センサ部122、集音部124、表示部126、音声出力部128、および、記憶部130を有する。
 {2-1-1.制御部100}
 制御部100は、エージェント装置10に内蔵される、例えば、後述するCPU(Central Processing Unit)150や、後述するRAM(Random Access Memory)154などのハードウェアを用いて、エージェント装置10の動作を統括的に制御する。また、図5に示すように、制御部100は、検出結果取得部102、音声認識部104、選出部106、および、出力制御部108を有する。
 {2-1-2.検出結果取得部102}
 検出結果取得部102は、本開示における取得部の一例である。検出結果取得部102は、後述するセンサ部122により検出された各種の情報、および、集音部124により集音された音情報を取得する。
 {2-1-3.音声認識部104}
 音声認識部104は、本開示における処理実行部の一例である。音声認識部104は、例えば表示部126により現在表示されている複数の表示オブジェクトに基いて、検出結果取得部102により取得された発話に対して音声認識を行う。例えば、音声認識部104は、まず、集音された発話に対して音声認識を行うことにより、音声認識結果の候補を複数特定する。そして、音声認識部104は、現在表示されている複数の表示オブジェクトに基づいて、特定した複数の音声認識結果の候補の各々のマッチ度を算出する。そして、音声認識部104は、マッチ度が最も高い候補を、当該発話の音声認識結果として決定する。
 図6は、音声認識部104による音声認識の一例を示した説明図である。図6に示した例では、複数の表示オブジェクト410を含む検索結果表示画面40が表示されている際に、ユーザが「flour」という発話50を行ったことを前提とする。
 この場合、例えば、音声認識部104は、まず、集音された発話の音素列に基いて、「flower」や「flour」など複数の音声認識結果の候補を特定する。次に、音声認識部104は、現在表示されている複数の表示オブジェクト410に基づいて、特定した複数の音声認識結果の候補の各々のマッチ度を算出する。図6に示した例では、表示オブジェクト410bは、「flour」という文字列を含んでおり、かつ、他の音声認識結果の候補に対応する文字列は検索結果画面40内に表示されていない。そこで、音声認識部104は、特定した複数の音声認識結果の候補のうち「flour」のマッチ度を最も高く算出する。そして、音声認識部104は、「flour」を発話50の音声認識結果として決定する。
 {2-1-4.出力制御部108}
 (2-1-4-1.表示制御)
 出力制御部108は、本開示における処理実行部の一例である。出力制御部108は、表示部126に対する表示を制御する。例えば、表示方法に関する指示を含む発話が集音された場合には、出力制御部108は、当該発話の音声認識結果に応じた表示方法で複数の表示オブジェクトを表示部126に表示させるように、表示部126による表示を更新する。例えば、表示オブジェクトの並び替えを指示する発話が集音された場合には、出力制御部108は、当該発話に応じた順序で複数の表示オブジェクトを並べ替えて、表示部126に表示させる。図4に示した例において、「安い順に並べて」という発話が集音された場合には、出力制御部108は、複数の表示オブジェクト410の各々に対応する商品の価格の安い順に当該複数の表示オブジェクト410を並べ替えて、表示部126に表示させる。
 また、分類の変更を指示する発話が集音された場合には、出力制御部108は、当該発話に応じた分類で複数の表示オブジェクトを表示し直すように、表示部126による表示を更新する。図4に示した例において、「ブランド別で表示して」という発話が集音された場合には、出力制御部108は、例えば図7に示した検索結果表示画面40bのように、複数の表示オブジェクト410の各々に対応する商品の「ブランド」別に当該複数の表示オブジェクト410を分類し直して、表示部126に表示させる。
 また、出力制御部108は、後述する選出部106による選出の結果に基いて、表示部126に対する表示を制御する。例えば、複数の表示オブジェクトの中から一以上の表示オブジェクトが選出部106により選び出された場合には、出力制御部108は、当該選び出された表示オブジェクトのみが表示されるように、表示部126による表示を更新する。
 (2-1-4-2.音の出力制御)
 また、出力制御部108は、音声出力部128に対する音の出力を制御する。例えば、発話が集音された際に、出力制御部108は、例えば音声認識部104による当該発話の意味の解析結果などに基づいて、当該発話に対する応答の音声を生成し、そして、生成した音声を音声出力部128に出力させる。
 また、出力制御部108は、選出部106による選出の結果に基いて、音声出力部128に対する音の出力を制御する。例えば、選出部106により複数の表示オブジェクトが選び出された場合には、出力制御部108は、当該選び出された複数の表示オブジェクトのうちのいずれを選択するかに関する問い合わせの情報を音声出力部128(または表示部126)に出力させることが可能である。
 ここで、図8を参照して、上記の機能についてより詳細に説明する。図8に示したように、「ABC」という文字列を含む表示オブジェクト410が5個、表示画面40に表示されている状況において、ユーザが、まず、「カートに入れて」という発話50aを行い、その後「ABC」という発話50bを行ったとする。そして、集音された発話50bに基いて、5個の表示オブジェクト410(表示オブジェクト410a~表示オブジェクト410e)が選出部106により選び出されたことを想定する。
 この場合、出力制御部108は、図8に示したように、「5個あるよ」という音声52bのような、5個の表示オブジェクト410の中から一以上をユーザに選択させるための問い合わせの音声52bを音声出力部128に出力させる。なお、その後、ユーザが例えば「ABC4をカートに入れて」という発話50cを行うと、(5個の表示オブジェクト410の中から)表示オブジェクト410dが選出部106により選び出され得る。なお、問い合わせの音声52bの出力時から、音声52bに対するユーザの回答の発話50cが取得されるまでの間は、出力制御部108は、仮にユーザがスクロール操作などを行っても、現在の表示範囲を変更しないように制御し得る。これにより、5個の表示オブジェクト410をユーザに十分確認させ、所望の表示オブジェクトをユーザに正確に選択させることができる。
 {2-1-5.選出部106}
 (2-1-5-1.基本的な選出例)
 選出部106は、本開示における処理実行部の一例である。選出部106は、選出対象の表示範囲内の複数の表示オブジェクトの中から、音声認識部104による発話の音声認識結果に対応する表示オブジェクト(または当該表示オブジェクトに対応する商品)を選び出す。ここで、選出対象の表示範囲は、現在の表示範囲を含み得る。
 例えば、選出部106は、当該複数の表示オブジェクトの各々に関連する情報と、当該音声認識結果との比較に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出す。一例として、選出部106は、当該複数の表示オブジェクトの各々に関連する情報と、当該音声認識結果に含まれるキーワードとの比較結果が一致する表示オブジェクトのみを、当該複数の表示オブジェクトの中から選び出す。
 例えば、選出部106は、まず、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトのみを抽出するための検索ワードを特定する。そして、選出部106は、特定した検索ワードを含む検索要求をサーバ20へ通信部120に送信させることにより、当該音声認識結果に対応する表示オブジェクトをサーバ20から取得する。
 ここで、表示オブジェクトに関連する情報は、該当の表示オブジェクトに関連付けられているメタデータ、該当の表示オブジェクトの画像解析の結果(色、形状、ラベルの種類など)、および/または、現在の表示範囲における該当の表示オブジェクトの表示位置の情報を含み得る。また、メタデータは、該当の表示オブジェクトに関連付けられている識別番号、該当の表示オブジェクトに対応する商品の名称、当該商品の個数、当該商品のメーカー名、当該商品のブランド名などを含み得る。
 -具体例1
 例えば、発話が集音された際に、選出部106は、当該発話の音声認識結果に含まれる番号と、当該複数の表示オブジェクトの各々に関連付けられている識別番号とをそれぞれ比較することにより、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出す。また、例えば、「ブランドAの200ml」のような、特徴に関する発話が集音された場合には、選出部106は、当該発話の音声認識結果と、当該複数の表示オブジェクトの各々に関連付けられているメタデータ内の情報とをそれぞれ比較することにより、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出す。
 ここで、図9~図10を参照して、上記の選出例についてより詳細に説明する。例えば、図9に示したように、複数の表示オブジェクト410を含む表示画面40が表示されている状況において、ユーザが「6缶のにする」という発話50を行ったとする。この場合、図10に示したように、選出部106は、まず、「6缶のにする」という発話50の音声認識結果から「6缶」というキーワードを抽出する。次に、選出部106は、表示画面40中に表示されている複数の表示オブジェクト410の各々に関して、当該表示オブジェクト410に関連付けられているメタデータ60内の情報と、「6缶」というキーワードとをそれぞれ比較する。そして、選出部106は、「販売単位」が「6缶」である商品に対応する表示オブジェクト410(図9に示した例では表示オブジェクト410a)を選び出す。
 -具体例2
 また、例えば「真ん中の赤いやつ」という発話が集音された場合には、選出部106は、現在の表示範囲における「真ん中」に対応する位置に存在する一以上の表示オブジェクトのうち画像解析結果が「赤色」である表示オブジェクトを、当該音声認識結果に対応する表示オブジェクトとして選び出す。
 ここで、図11~図12を参照して、上記の選出例についてより詳細に説明する。例えば、図11に示したように、9個の表示オブジェクト410を含む表示画面40aが表示されている状況において、ユーザが「青いやつ」という発話50aを行ったとする。この場合、図11に示したように、選出部106は、まず、発話50aの音声認識結果から「青」というキーワードを抽出する。次に、選出部106は、表示画面40bに示したように、当該9個の表示オブジェクト410のうち、画像解析結果が「青色」である2個の表示オブジェクト410を選び出す。
 その後、ユーザが「右」という発話50bを行ったとする。この場合、図11に示したように、選出部106は、まず、発話50bの音声認識結果から「右」というキーワードを抽出する。そして、選出部106は、表示画面40bに表示されている2個の表示オブジェクト410のうち、表示画面40bにおける「右」に位置する表示オブジェクト410bをさらに選び出す。
 また、図12は、別の選出例を示した説明図である。なお、図12に示した例では、表示オブジェクト410cおよび表示オブジェクト410dにそれぞれ対応する商品の色は青以外の色であり、かつ、これらの商品のシリーズとして青色タイプがそれぞれ存在することを前提としている。なお、その他の内容に関しては、図11に示した例と同様である。
 図12に示したように、表示画面40aが表示されている状況において、ユーザが「青いやつ」という発話50aを行ったとする。この場合、選出部106は、まず、発話50aの音声認識結果から「青」というキーワードを抽出する。次に、選出部106は、図12に示した表示画面40bのように、当該9個の表示オブジェクト410のうち、画像解析結果が「青色」である2個の表示オブジェクト410(つまり表示オブジェクト410aおよび表示オブジェクト410b)、および、青色タイプの商品が存在する2個の表示オブジェクト410(つまり表示オブジェクト410cおよび表示オブジェクト410d)を選び出す。
 その後、ユーザが「右上」という発話50bを行ったとする。この場合、図12に示したように、選出部106は、まず、発話50bの音声認識結果から「右上」というキーワードを抽出する。そして、選出部106は、表示画面40bに表示されている4個の表示オブジェクト410のうち、表示画面40bにおける「右上」に位置する表示オブジェクト410bをさらに選び出す。
 -具体例3
 また、選出部106は、さらに、ユーザ(発話者)の属性情報(例えば年齢、性別、身長、体重、住所など)に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出すことも可能である。また、選出部106は、さらに、当該発話の音声認識結果から特定される、ジャンルや用途(例えばプレゼント向けの商品など)の指定に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出すことも可能である。また、選出部106は、さらに、表示部126により表示されている、現在の表示範囲に対するユーザの注視位置や注視方向の検出結果に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出すことも可能である。
 (2-1-5-2.スクロールしながらの選出例)
 また、選出部106は、例えばスクロール操作などのタッチ操作中に集音された発話の音声認識結果に基いて、選出対象の表示範囲内の複数の表示オブジェクトの中から一以上の表示オブジェクトを選び出すことも可能である。例えば、図13に示したように、表示画面40に対してスクロール操作6を行っている最中に、「6缶のにする」という発話50をユーザが行ったとする。この場合、選出部106は、当該選出対象の表示範囲内の複数の表示オブジェクトの中から、発話50に対応する表示オブジェクト410(例えば表示オブジェクト410a)を選び出す。
 ‐選出対象の表示範囲
 ここで、図14および図15を参照して、選出対象の表示範囲の一例(選出対象の表示範囲70)について詳細に説明する。図14に示したように、選出対象の表示範囲70は、現在の表示範囲72、(現在の表示範囲以外の)表示済みの表示範囲74、および、未表示の表示範囲78を含む。また、選出対象の表示範囲70は、図14に示したように、スクロールの方向6に沿った表示範囲であり得る。ここで、表示済みの表示範囲74は、本開示における第2の表示範囲の一例である。表示済みの表示範囲74は、現在の表示範囲72の表示タイミングよりも前に表示部126により連続的に表示された表示範囲であり得る。また、未表示の表示範囲78は、本開示における第3の表示範囲の一例である。未表示の表示範囲78は、現在の表示範囲72の表示タイミングまでには表示されておらず、かつ、当該表示タイミング後に表示部126により連続的に表示されることが推定される表示範囲であり得る。
 例えば、図14に示したように、ユーザが「XYZの」という発話50を行ったとする。また、「XYZ」という文字列に対応する表示オブジェクト410が、表示済みの表示範囲74内、および、未表示の表示範囲78内にそれぞれ一つずつ含まれているとする。この場合、選出部106は、表示済みの表示範囲74内の表示オブジェクト410a、および、未表示の表示範囲78内の表示オブジェクト410bをともに選び出すことが可能である。
 なお、現在の表示範囲72は、発話の開始の検出タイミングに応じて定められ得る。例えば、図15に示したように、上から下へとスクロール中にユーザが「XYZの」という発話50を行う場合、現在の表示範囲72の最上位ラインが、発話50の最初の音素の検出タイミング(図15に示した例では時刻t1)における最上位ラインと同一になるように現在の表示範囲72は定められ得る。
 また、選出部106による選出の優先度は、表示範囲の種類ごとに異なるように定められ得る。例えば、現在の表示範囲72、(現在の表示範囲以外の)表示済みの表示範囲74、未表示の表示範囲78の順に優先度が低くなるように、選出部106による選出の優先度は定められ得る。例えば、図14に示した例では、選出部106は、表示済みの表示範囲74内の表示オブジェクト410aを、未表示の表示範囲78内の表示オブジェクト410bよりも優先的に選び出す。但し、かかる例に限定されず、例えば、「さっきの赤いやつ」や「さっき見た、6缶入りのモノ」など、過去を示すキーワードが含む発話が集音された場合には、選出部106は、表示済みの表示範囲内の表示オブジェクトを、現在の表示範囲内の表示オブジェクトよりも優先的に選び出してもよい。また、「XXの6缶入りのものない?」など、ユーザがまだ閲覧していないと推定される表示オブジェクトを選び出すことを指示する発話が集音された場合には、選出部106は、未表示の表示範囲内の表示オブジェクトを、現在の表示範囲内の表示オブジェクトよりも優先的に選び出してもよい。
 (2-1-5-3.連続発話による選出例)
 また、発話が連続になされる場合には、選出部106は、発話が集音される度に、当該発話の音声認識結果が所定の条件を満たす限り、当該発話に対応する表示オブジェクトを連続的に選び出すことが可能である。例えば、発話が集音される度に、選出部106は、まず、当該発話の音声認識結果が所定の条件を満たすか否かを判定する。そして、当該発話の音声認識結果が所定の条件を満たさないと最初に判定したタイミングまでに取得された全ての発話の各々に関して、選出部106は、(選出対象の表示範囲内の)複数の表示オブジェクトの中から当該発話の音声認識結果に対応する表示オブジェクトをそれぞれ選び出す。
 ここで、図16を参照して、上記の機能についてより詳細に説明する。図16に示したように、ユーザは、例えば「カートに入れて」などの所定の開始の発話50aを行う。その後、ユーザは、例えば「AAAと」という発話50b、「BBBと」という発話50b、および「CCCと」という発話50cのように、選択を希望する商品名および「と(and)」からなる発話を連続的に行う。この場合、語尾に「と」を含む発話50が連続的に取得される度に、選出部106は、選出対象の表示範囲内の複数の表示オブジェクトの中から、当該発話50の音声認識結果に対応する表示オブジェクトを逐次選び出し、かつ、選び出した表示オブジェクトの識別情報を例えば記憶部130に一時的に保存する。その後、例えば図16に示したように「終わり」などの所定の終了の発話50eが検出された際には、選出部106は、当該検出タイミングまでに一時的に保存されている全ての表示オブジェクトを、ユーザにより選択された表示オブジェクトとして確定する。
 (2-1-5-4.変形例)
 なお、変形例として、表示部126により現在表示されている複数の表示オブジェクトのうちいずれかが指でポインティング(例えばタッチなど)されながら、かつ、例えば「これ」という発話が集音された場合には、選出部106は、当該指のポインティング先の表示オブジェクトを選び出すことも可能である。この場合、選出部106は、さらに、選び出した表示オブジェクトに対応する商品をカートに入れる処理(例えば、「カート」用の保存領域に格納すること)を行ってもよい。
 一般的にタッチ操作では、表示オブジェクトを選択するためのタッチと、カートに入れる操作のためのタッチとが必要になる。一方、この変形例によれば、一回のタッチだけで所望の表示オブジェクトをカートに入れることができるので、通常のタッチ操作と比較して、操作時間が短縮することが期待できる。
 {2-1-6.通信部120}
 通信部120は、例えば通信網22を介して他の装置との間で情報の送受信を行う。例えば、通信部120は、選出部106の制御に従って、集音された発話の音声認識結果に対応する表示オブジェクトを抽出するための検索要求をサーバ20へ送信する。また、通信部120は、検索結果の一覧をサーバ20から受信する。
 {2-1-7.センサ部122}
 センサ部122は、例えばイメージセンサ(カメラ)、および/または、デプスセンサなどを含み得る。例えば、センサ部122に含まれるカメラは、当該カメラの前方の映像を所定のタイミング(例えば所定時間間隔など)で撮影する。また、センサ部122に含まれるデプスカメラは、当該デプスカメラの前方に位置する各物体までの距離を計測する。また、センサ部122は、さらに、3軸加速度センサ、ジャイロスコープ、および、磁気センサなどを含んでもよい。
 {2-1-8.集音部124}
 集音部124は、例えばマイクロフォンである。集音部124は、外部の音(空気振動)を検出し、そして、電気信号に変換する。また、集音部124は、変換後の信号を制御部100へ伝達する。
 {2-1-9.表示部126}
 表示部126は、出力制御部108の制御に従って、画像を表示する。例えば、表示部126がプロジェクタを有する場合、表示部126は、出力制御部108の制御に従って、画像を当該プロジェクタの投影方向へ投影する。また、表示部126がディスプレイを有する場合、表示部126は、出力制御部108の制御に従って、画像を当該ディスプレイに表示する。
 {2-1-10.音声出力部128}
 音声出力部128は、スピーカを含み得る。音声出力部128は、出力制御部108の制御に従って、音声を出力する。
 {2-1-11.記憶部130}
 記憶部130は、各種のデータや各種のソフトウェアを記憶する。例えば、図5に示したように、記憶部130は、処理定義DB30を記憶する。
 <2-2.処理の流れ>
 以上、本実施形態の構成について説明した。次に、本実施形態による処理の流れについて、図17および図18を参照して説明する。なお、ここでは、ユーザがエージェント装置10に対する発話により、サーバ20に登録されている複数の商品の中から所望の商品を検索する場面における処理の流れの例について説明する。
 図17に示したように、まず、ユーザ2は、エージェント装置10に対して「XXを買いたい」と発話する。そして、エージェント装置10の音声認識部104は、集音された発話に対して音声認識を行う(S101)。
 続いて、選出部106は、S101の音声認識結果から特定される「XX」というキーワードを検索ワードに設定することにより、検索要求を生成する。そして、通信部120は、生成された検索要求をサーバ20へ送信する(S103)。
 その後、サーバ20は、複数の商品の情報が登録されているデータベースに対して、受信された検索要求に基いて検索を行う(S105)。そして、サーバ20は、検索結果の一覧をエージェント装置10へ送信する(S107)。
 その後、エージェント装置10の表示部126は、出力制御部108の制御に従って、受信された検索結果の一覧を表示する(S109)。
 その後、ユーザ2は、エージェント装置10に対して「YYで絞り込んで、並び替えて」と発話する。そして、エージェント装置10の音声認識部104は、集音された発話に対して音声認識を行い、そして、当該発話の意味を解析する(S111)。
 続いて、通信部120は、制御部100の制御に従って、状態確認およびGUIのロック依頼をサーバ20へ送信する(S113)。
 その後、サーバ20は、受信されたロック依頼に基いて、例えば全てのGUIをロックする(S115)。そして、サーバ20は、アプリケーションのステート情報をエージェント装置10へ送信する(S117)。その後、サーバ20は、所定の時間が経過するまで待機する(S119)。所定の時間が経過した場合には(S119:Yes)、サーバ20は、後述するS137の処理を行う。
 また、S117の後、エージェント装置10の制御部100は、受信されたステート情報が示す値が「OK」であるか否かを判定する(S121)。当該ステート情報が示す値が「OK」ではない場合(例えば「NG」である場合)には(S121:No)、音声出力部128は、出力制御部108の制御に従って、例えば「カート画面では絞り込みできません」など、S111の発話に対応する処理が実行不可能であることを示す音声を出力する(S123)。そして、本処理は終了する。
 ここで、図18を参照して、S121において、当該ステート情報が示す値が「OK」である場合(S121:Yes)における処理の流れについて説明する。
 図18に示したように、エージェント装置10の選出部106は、S101の音声認識結果から特定される「XX」というキーワード、および、S111の音声認識結果から特定される「YY」というキーワードを検索ワードに設定することにより、検索要求を生成する。また、出力制御部108は、S111の音声認識結果に応じた並べ方で、検索結果の表示オブジェクトを表示させるための指示情報を生成する。そして、通信部120は、生成された検索要求および指示情報をサーバ20へ送信する(S131)。
 その後、サーバ20は、上記のデータベースに対して、受信された検索要求に基いて検索を行う(S133)。そして、サーバ20は、検索結果の一覧をエージェント装置10へ送信する(S135)。
 S135の後、もしくは、S119の条件が成立した場合には、サーバ20は、S115でロックされた全てのGUIのロックを解除する(S137)。
 また、S135の後、エージェント装置10の表示部126は、出力制御部108の制御に従って、受信された検索結果の一覧を表示する(S139)。
 <2-3.効果>
 {2-3-1.効果1}
 以上説明したように、本実施形態によれば、エージェント装置10は、集音された発話を取得し、そして、現在の表示範囲に応じた選出対象の表示範囲内の複数の表示オブジェクトと、当該発話とに基いて、当該複数の表示オブジェクトの中から表示オブジェクトを選び出したり、複数の表示オブジェクトの表示の仕方を変更することが可能である。このため、集音された発話と、選出対象の表示範囲内の複数の表示オブジェクトとの関係に適応的に処理が実行されるので、ユーザの利便性が高い。例えば、ユーザは、現在見えている複数の表示オブジェクトの中から所望の表示オブジェクトを、自然発話により容易に選び出すことができる。そして、ユーザが高齢者などである場合でも、自然発話により所望の表示オブジェクトを選び出すことが可能であるので、より多くのユーザがECを容易に利用することができる。
 {2-3-2.効果2}
 なお、一般的に、GUIボタン(例えば図9に示したカートボタン412など)を含む表示画面では、スクロール操作時に当該GUIボタンをユーザが誤って押してしまう恐れがあるので、スクロール操作時には当該GUIボタンが無効になるように設定される場合が多い。このため、スクロール操作を一旦停止しないと所望のGUIボタンをユーザは選択することができず、不便になり得る。また、例えばスクロール操作中の手の位置と、所望のGUIボタンとの間の距離が大きい状況では手の移動距離が大きくなるので、操作し難い。特にエージェント装置10が、ディスプレイを有する携帯型装置である場合では操作が一層不安定になり得る。
 一方、本実施形態によれば、発話により表示オブジェクトを選び出すことが可能であるので、スクロール操作中でも誤操作が生じないことが期待できる。例えば「XXXをカートに入れて」のような発話が集音された場合には、エージェント装置10は、当該発話に対応する商品をカートに正確に格納することができる。また、スクロール操作中に、所望の商品に対応するGUIボタンが表示範囲外になった場合でも、ユーザは、現在の表示範囲を変更することなく、発話により当該商品を正確に選択することができるという利点がある。また、本実施形態によれば、エージェント装置10が、ディスプレイを有する携帯型装置である場合であっても、ユーザは所望の操作を安定的に行うことができる。
 {2-3-3.効果3}
 また、本実施形態によれば、通常のタッチ操作と比較して、サイトの切り替え時における操作が容易になる。例えば、サイトAに表示されている文字列をサイトBにおいて検索することをユーザが希望する場合、通常のタッチ操作では、ユーザは、当該文字列を一旦コピーして、そして、サイトBにおける該当箇所にペーストを行う必要がある。一方、本実施形態によれば、サイトAの表示時において、例えば「XXXをサイトBで調べて」のような発話をユーザはエージェント装置10に対して行うだけで、該当の文字列(つまりXXX)をサイトBで検索することができるので、操作が容易である。
 {2-3-4.効果4}
 また、本実施形態によれば、通常のタッチ操作と比較して、検索窓を含むWebページの表示中における検索操作が容易になる。例えば、現在表示されている表示範囲内の文字列を検索キーにすることをユーザが希望し、かつ、現在の表示範囲外に当該検索窓が位置する場合には、通常のタッチ操作では、ユーザは、該当の文字列を一旦コピーして、そして、当該検索窓の位置まで表示範囲をスクロールする必要があり、操作が面倒である。一方、本実施形態によれば、表示範囲を変更せずに、例えば「XXXを検索して」のような発話をユーザはエージェント装置10に対して行うだけで、該当の文字列を検索することができるので、操作が容易である。
 <2-4.応用例>
 以上、本実施形態について説明した。ところで、ある表示画面の閲覧時に、ユーザは、当該表示画面に表示されている内容から影響を受けることにより、別の作業をしたくなったり、別の作業をする必要があることを思い出すことがあり得る。
 次に、本実施形態の応用例について説明する。後述するように、本応用例によれば、ある表示画面の表示中において、他のタスクを実行させるための発話が集音されると、エージェント装置10は、当該表示画面を表示しながら、当該他のタスクを並行的に処理することができる。なお、以下では、上記の説明と重複する内容については説明を省略する。
 {2-4-1.応用例1}
 (2-4-1-1.出力制御部108)
 まず、応用例1について説明する。応用例1による出力制御部108は、現在の表示範囲内の一以上の表示オブジェクトと、集音された発話の意味解析の結果とに基いて、当該発話に対する回答の情報を特定し、かつ、特定した回答の情報を出力することが可能である。
 ここで、図19を参照して、上記の内容についてより詳細に説明する。図19に示した例では、「ABC」という文字列を含む表示オブジェクト410aが表示画面40に表示されている状況において、ユーザが「ABCのメーカはどこ?」という発話50を行ったとする。この場合、まず、エージェント装置10の選出部106は、現在の表示範囲内の一以上の表示オブジェクトの各々に関連付けられているメタ情報の中から、「ABC」という文字列を商品名に含む表示オブジェクト410aを選び出す。そして、出力制御部108は、表示オブジェクト410aのメタ情報に基づいて、当該発話50が示す質問に対応する回答(図19に示した例では「XDZ」)を特定し、そして、特定した回答を示す音声52を音声出力部128に出力させる。
 なお、出力制御部108は、表示オブジェクト410aのメタ情報から、当該質問に対する回答を特定する代わりに、例えばサーバ20へ問い合わせることにより、当該質問に対する回答を特定することも可能である。
 (2-4-1-2.音声認識部104)
 また、応用例1による音声認識部104は、集音された発話から特定される音素列に対応する文字列が現在の表示範囲内に存在する場合には、当該音素列が特定される度に、毎回当該音素列を当該文字列に変換するように音声認識を行うことが可能である。
 例えば、図6に示した検索結果表示画面40の表示中に、「flourって何?」や「flourをメモして」などのように、「flour」を含む発話が集音される度に、音声認識部104は、当該発話から特定される「flour」に対応する音素列を、全て同じ文字列(「flour」)に変換する。これにより、複数の作業をユーザは効率的に行うことができる。
 {2-4-2.応用例2}
 次に、応用例2について説明する。図20は、応用例2によるエージェント装置10により、集音された発話の取得に基づいて実行される処理の一例を示した説明図である。図20に示したように、例えば、料理のレシピのWebページ40が表示部126により現在表示されているとする。そして、当該Webページ40に含まれる「パプリカ」という文字列430aを見た際に、ユーザは、「今夜はパプリカの・・・」という文面のメールを家族に対して送信したくなり、そして、「「今夜はパプリカの・・・」と家族にメールして」という発話50aをエージェント装置10に対して行ったとする。この場合、エージェント装置10は、別の画面に遷移させずに、当該文面のメールを当該家族宛てに送信する処理を行う。そして、当該処理が完了すると、エージェント装置10は、図20に示したように、例えば「「今夜はパプリカの・・・」と家族にメールを送りました」という文字列を含むGUI補助画面440aを当該Webページ40上に表示する。
 その後、ユーザは、「パプリカ」を買い物メモに登録したくなり、そして、例えば「パプリカを買い物メモに入れて」という発話50bをエージェント装置10に対して行ったとする。この場合、エージェント装置10は、別の画面に遷移させずに、「パプリカ」を買い物メモに登録する処理を行う。そして、当該処理が完了すると、エージェント装置10は、例えば「パプリカを買い物メモに登録しました」という文字列を含むGUI補助画面440bをWebページ40上に表示する。
 (2-4-2-1.処理の流れ)
 次に、応用例2による処理の流れについて、図21を参照して説明する。なお、図21では、図20に示した状況に対応する処理の流れの例を示している。
 図21に示したように、まず、エージェント装置10は、例えば発話の音声データの取得に基いてECアプリを起動する。そして、エージェント装置10の表示部126は、出力制御部108の制御に従って、ECアプリの表示画面(以下、ECアプリ画面と称する)を表示する(S201)。なお、エージェント装置10は、後述するS215まで、画面遷移させずに、ECアプリ画面を表示し続ける。
 その後、図20に示した発話50aの音声データが取得されると、エージェント装置10の制御部100は、メールアプリケーションを起動する(S203)。そして、メールの送信処理が完了すると、表示部126は、出力制御部108の制御に従って、図20に示したGUI補助画面440aを例えば所定の時間だけECアプリ画面上に表示する(S205)。
 その後、図20に示した発話50bの音声データが取得されると、エージェント装置10の制御部100は、買い物メモを起動する(S207)。そして、買い物メモの登録処理が完了すると、表示部126は、出力制御部108の制御に従って、図20に示したGUI補助画面440bを例えば所定の時間だけECアプリ画面上に表示する(S209)。
 さらに、エージェント装置10は、登録された買い物メモに関するワークの情報を一時的に記憶部130にスタック(保存)する。これにより、後述するように、ECアプリ画面の終了後に、買い物メモのメイン画面を自動的に表示することが可能になる。
 その後、図20に示した発話50cの音声データが取得されると、エージェント装置10は、上述したS207~S209と概略同様の処理を行う(S211~S213)。
 その後、例えばECアプリ画面の表示を終了する操作をユーザが行うと、エージェント装置10の出力制御部108は、ECアプリ画面から、例えば図22に示したような、S209でスタックされた買い物メモのメイン画面80へ画面遷移させる(S217)。
 その後、スタック中の、発話50bに対応するワーク(例えば、「パプリカ」を購入するか否かを決定する入力を行うことなど)が終了すると、エージェント装置10の出力制御部108は、買い物メモのメイン画面80の表示内容を更新する。そして、スタック中の、発話50cに対応するワークが開始される(S219)。
 (2-4-2-2.効果)
 以上説明したように、応用例2によれば、他のタスクを実行させるための発話をユーザが行うだけで、現在表示されている表示画面が遷移されずに、同じ表示画面内で複数の作業を並行して行うことができる。例えば、ユーザは、メインの作業を中止せずに、サブの作業を次々に行うことができる。
 {2-4-3.変形例}
 なお、本応用例は、上述した例に限定されない。例えば、表示中のWebページ内に音楽に関する情報(画像や文字列など)が含まれており、かつ、当該音楽を再生するように指示する発話が集音された場合には、エージェント装置10は、当該発話の音声認識結果に基いて、該当の音楽を再生してもよい。
 また、表示中のWebページ内に広告が含まれており、かつ、当該広告に対応する商品を買い物リストへ入れるように指示する発話が集音された場合には、エージェント装置10は、当該発話の音声認識結果に基いて、該当の商品を買い物リストへ入れてもよい。
 また、表示中のWebページ内に含まれる文字列に関する検索結果を音声で出力するように指示する発話が集音された場合には、エージェント装置10は、当該発話の音声認識結果に基いて、該当の文字列に関して検索を行い、かつ、検索結果を音声で出力してもよい。
 また、表示部126により表示中の、第1の言語の文章をユーザが読み上げる音声が集音された際には、エージェント装置10は、当該音声の音声認識結果を第2の言語(例えば予め設定されている言語)で翻訳し、かつ、翻訳結果に対応する音声を出力してもよい。
 また、SNS(Social Networking Service)の表示画面の表示中に、当該SNS上で他のユーザからメッセージが届いた際には、エージェント装置10は、当該メッセージを自動的に読み上げてもよい。その後、当該メッセージに対する返信の発話が集音された場合には、さらに、エージェント装置10は、当該発話の音声認識結果から得られるメッセージを当該他のユーザ宛てに自動的に送信してもよい。
 (効果)
 一般的に、Webページ間ではリンクが張られているので、ユーザがリンクを辿ると、現在行っている作業が中断されてしまう。一方、これらの変形例によれば、例えばWebページの表示中であっても、エージェント装置10に対してユーザが発話により指示を行うことにより、作業が中断されることなく、他の作業を並行して進めることができる。
<<3.ハードウェア構成>>
 次に、本実施形態によるエージェント装置10のハードウェア構成について、図23を参照して説明する。図23に示すように、エージェント装置10は、CPU150、ROM(Read Only Memory)152、RAM154、バス156、インターフェース158、入力装置160、出力装置162、ストレージ装置164、および、通信装置166を備える。
 CPU150は、演算処理装置および制御装置として機能し、各種プログラムに従ってエージェント装置10内の動作全般を制御する。また、CPU150は、エージェント装置10において制御部100の機能を実現する。なお、CPU150は、マイクロプロセッサなどのプロセッサにより構成される。
 ROM152は、CPU150が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。
 RAM154は、例えば、CPU150により実行されるプログラムなどを一時的に記憶する。
 バス156は、CPUバスなどから構成される。このバス156は、CPU150、ROM152、および、RAM154を相互に接続する。
 インターフェース158は、入力装置160、出力装置162、ストレージ装置164、および、通信装置166を、バス156と接続する。
 入力装置160は、例えばタッチパネル、ボタン、スイッチ、レバー、マイクロフォンなどユーザが情報を入力するための入力手段、および、ユーザによる入力に基づいて入力信号を生成し、CPU150に出力する入力制御回路などから構成される。
 出力装置162は、プロジェクタや、例えばLCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)などのディスプレイなどの表示装置を含む。また、出力装置162は、スピーカなどの音声出力装置を含む。
 ストレージ装置164は、記憶部130として機能する、データ格納用の装置である。ストレージ装置164は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または、記憶媒体に記録されたデータを削除する削除装置などを含む。
 通信装置166は、例えば通信網22などに接続するための通信デバイス等で構成された通信インターフェースである。また、通信装置166は、無線LAN対応通信装置、LTE(Long Term Evolution)対応通信装置、または、有線による通信を行うワイヤー通信装置であってもよい。この通信装置166は、通信部120として機能する。
<<4.変形例>>
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 <4-1.変形例1>
 例えば、ユーザは、十分判断しないまま、発話により、とりあえずカートに商品を入れることも考えられる。そこで、例えば、同じカテゴリの商品がカートに格納された場合には、エージェント装置10は、当該複数の商品同士を比較し、かつ、比較結果のリストを生成してもよい。また、エージェント装置10は、ユーザが過去に購入している商品の種類の学習結果と、カートに格納された複数の商品の各々とを比較し、そして、比較結果のリストを生成してもよい。これらの変形例によれば、ユーザが商品の決済を行う前に、エージェント装置10が当該比較リストを表示することができる。これにより、意図しない商品を購入しないようにユーザに注意喚起することができる。
 <4-2.変形例2>
 また、別の変形例として、エージェント装置10のカメラ、または、ロボットなどの他の装置が有するカメラ(以下、環境カメラと称する)で例えばリアルタイムに撮影された映像が表示されている間において集音されたユーザの発話の音声認識結果と、当該映像の解析結果とに基いて、エージェント装置10は、購入対象の商品を選び出すことも可能である。例えば、当該環境カメラが店舗や倉庫における商品棚、または、ユーザの自宅内を撮影しており、かつ、当該環境カメラにより撮影された映像をエージェント装置10が受信し、そして、表示しているとする。この場合、例えば「XXXが買いたい」、「その洗剤が買いたい」、または、「真ん中のやつ」などのユーザの発話が集音された場合には、エージェント装置10は、当該映像における、当該発話の音声認識結果に対応する商品を購入対象の商品として選び出すことが可能である。
 または、テレビジョン受信機で表示されている映像をユーザが見ていることが推定される状況において、当該映像の表示中に集音された発話の音声認識結果と、当該映像に関する情報とに基いて、エージェント装置10は、購入対象の商品を選び出すことも可能である。例えば、テレビジョン受信機により男性の映像が表示されている際に、「男の人が着ているシャツを買いたい」という発話が集音された場合には、エージェント装置10は、当該男性が着ているシャツを購入対象の商品として選び出してもよい。
 <4-3.変形例3>
 また、一般的に、長い文章を発話する場合では、スクロール操作をしながら発話をすることは不便であり、通常のタッチ入力の方が容易な場合もある。そこで、変形例として、スクロール操作と、マイクロフォンの起動操作とが予め区別して設定されることが望ましい。例えば図24に示したように、表示画面40に対する縦方向(上下方向)のスライド操作6aが表示範囲のスクロール操作、また、横方向(左右方向)のスライド操作6bがマイクロフォンの起動のジェスチャーとしてそれぞれ設定されてもよい。
 <4-4.変形例4>
 また、上記の説明では、本実施形態がECにおいて適用される例を中心に説明したが、かかる例に限定されず、EC以外のサービスやアプリケーションにも適用可能である。図25は、音楽再生用アプリケーションにおける適用例を示した説明図である。図25に示したように、音楽再生用アプリケーションの表示画面90の表示中において、エージェント装置10は、楽曲の情報を示す発話の音声データの取得に基いてプレイリストを作成することが可能である。
 例えば、図25に示したように、まず、ユーザは、例えば「プレイリストを作って」などの所定の開始の発話50aを行う。その後、ユーザは、例えば「サムデイと」という発話50bや「ナイトライフと」という発話50bなどのように、選択を希望する楽曲の情報(楽曲名など)および「と(and)」からなる発話を連続的に行う。この場合、語尾に「と」を含む発話50が連続的に取得される度に、選出部106は、表示画面90内の複数の楽曲の情報の中から、当該発話50の音声認識結果に対応する楽曲の情報を逐次選び出し、かつ、選び出した楽曲の情報を例えば記憶部130に一時的に保存する。その後、例えば図25に示したように「終わり」などの所定の終了の発話50eが検出された際には、選出部106は、当該検出タイミングまでに一時的に保存されている全ての種類の楽曲を含むようにプレイリストを作成する。なお、楽曲名の発話に限定されず、選出部106は、例えば「ビートの早い曲」や「盛り上がるやつ」のような発話などに基いて、当該発話に対応する楽曲を選び出すことも可能である。
 <4-5.変形例5>
 また、本実施形態による情報処理システムの構成は、図1に示した例に限定されない。例えば、図1では、エージェント装置10が一台だけ図示されているが、かかる例に限定されず、複数台のコンピュータが協同して動作することにより、上述したエージェント装置10の機能が実現されてもよい。
 <4-6.変形例6>
 また、本実施形態によるエージェント装置10の構成は、図5に示した例に限定されない。例えば、センサ部122、集音部124、表示部126、および、音声出力部128のうちの一以上はエージェント装置10に含まれる代わりに、エージェント装置10が通信可能な他の装置に含まれてもよい。
 <4-7.変形例7>
 また、上述した実施形態では、本開示における情報処理装置がエージェント装置10である例について説明したが、本開示はかかる例に限定されない。例えば、当該情報処理装置は、汎用PC(Personal Computer)、タブレット型端末、ゲーム機、スマートフォンなどの携帯電話、携帯型音楽プレーヤ、テレビジョン受信機、ロボット、または、例えばHMD(Head Mounted Display)、ヘッドセット、または、スマートウォッチなどのウェアラブルデバイスであってもよい。
 また、上述した制御部100に含まれる各構成要素をサーバ20が含む場合には、当該情報処理装置は、サーバ20であってもよい。
 <4-8.変形例8>
 また、図17および図18に示した処理の流れにおける各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
 また、上述した実施形態によれば、例えばCPU150、ROM152、およびRAM154などのハードウェアを、上述した実施形態によるエージェント装置10の構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 集音された発話を取得する取得部と、
 現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、
を備える、情報処理装置。
(2)
 前記第1の表示範囲は、前記現在の表示範囲を含む、前記(1)に記載の情報処理装置。
(3)
 前記処理実行部は、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、前記(2)に記載の情報処理装置。
(4)
 前記処理実行部は、前記複数の表示オブジェクトの各々に関連する情報と、前記発話の音声認識結果との比較に基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、前記(3)に記載の情報処理装置。
(5)
 前記処理実行部は、前記複数の表示オブジェクトの各々の画像解析の結果と、前記発話の音声認識結果とに基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、前記(3)または(4)に記載の情報処理装置。
(6)
 集音された発話が取得される度に、前記処理実行部は、当該発話の音声認識結果が所定の条件を満たすか否かを判定し、かつ、
 前記処理実行部は、当該発話の音声認識結果が前記所定の条件を満たさないと最初に判定された第1のタイミングまでに取得された一以上の発話の各々の音声認識結果に対応する表示オブジェクトを前記複数の表示オブジェクトの中からそれぞれ選び出す、前記(3)~(5)のいずれか一項に記載の情報処理装置。
(7)
 前記処理実行部は、さらに、選び出した表示オブジェクトを表示部に表示させる、前記(3)~(6)のいずれか一項に記載の情報処理装置。
(8)
 前記発話の音声認識結果に対応する表示オブジェクトが複数選び出される場合には、前記処理実行部は、さらに、当該選び出された複数の表示オブジェクトのうちの一以上をユーザに選択させるための問い合わせの情報の出力を制御する、前記(3)~(7)のいずれか一項に記載の情報処理装置。
(9)
 前記処理実行部は、前記複数の表示オブジェクトに基づいて前記発話の音声認識を行う、前記(2)に記載の情報処理装置。
(10)
 前記処理実行部は、さらに、前記複数の表示オブジェクトの中から、前記音声認識の結果に対応する表示オブジェクトを選び出す、前記(9)に記載の情報処理装置。
(11)
 前記現在の表示範囲は、前記発話の開始の検出タイミングに応じたタイミングに、表示部により表示された表示範囲である、前記(2)~(10)のいずれか一項に記載の情報処理装置。
(12)
 前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示順を、前記発話の音声認識結果に基いて変更する、前記(11)に記載の情報処理装置。
(13)
 前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示分類を、前記発話の音声認識結果に基いて変更する、前記(11)に記載の情報処理装置。
(14)
 前記第1の表示範囲は、さらに、前記現在の表示範囲の表示タイミングよりも前に表示部により連続的に表示された第2の表示範囲を含む、前記(2)~(13)のいずれか一項に記載の情報処理装置。
(15)
 前記処理実行部は、前記第2の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、前記(14)に記載の情報処理装置。
(16)
 前記第1の表示範囲は、さらに、前記現在の表示範囲の表示タイミングまでには表示されておらず、かつ、当該表示タイミング後に表示部により表示されることが推定される第3の表示範囲を含む、前記(2)~(15)のいずれか一項に記載の情報処理装置。
(17)
 前記処理実行部は、前記第3の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、前記(16)に記載の情報処理装置。
(18)
 前記第1の表示範囲は、ユーザにより指定された方向に沿って表示部により連続的に表示される、前記(2)~(17)のいずれか一項に記載の情報処理装置。
(19)
 集音された発話を取得することと、
 現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、プロセッサが所定の処理を行うことと、
を含む、情報処理方法。
(20)
 コンピュータを、
 集音された発話を取得する取得部と、
 現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部、
として機能させるためのプログラム。
10 エージェント装置
20 サーバ
22 通信網
30 処理定義DB
100 制御部
102 検出結果取得部
104 音声認識部
106 選出部
108 出力制御部
120 通信部
122 センサ部
124 集音部
126 表示部
128 音声出力部
130 記憶部

Claims (20)

  1.  集音された発話を取得する取得部と、
     現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、
    を備える、情報処理装置。
  2.  前記第1の表示範囲は、前記現在の表示範囲を含む、請求項1に記載の情報処理装置。
  3.  前記処理実行部は、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、請求項2に記載の情報処理装置。
  4.  前記処理実行部は、前記複数の表示オブジェクトの各々に関連する情報と、前記発話の音声認識結果との比較に基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、請求項3に記載の情報処理装置。
  5.  前記処理実行部は、前記複数の表示オブジェクトの各々の画像解析の結果と、前記発話の音声認識結果とに基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、請求項3に記載の情報処理装置。
  6.  集音された発話が取得される度に、前記処理実行部は、当該発話の音声認識結果が所定の条件を満たすか否かを判定し、かつ、
     前記処理実行部は、当該発話の音声認識結果が前記所定の条件を満たさないと最初に判定された第1のタイミングまでに取得された一以上の発話の各々の音声認識結果に対応する表示オブジェクトを前記複数の表示オブジェクトの中からそれぞれ選び出す、請求項3に記載の情報処理装置。
  7.  前記処理実行部は、さらに、選び出した表示オブジェクトを表示部に表示させる、請求項3に記載の情報処理装置。
  8.  前記発話の音声認識結果に対応する表示オブジェクトが複数選び出される場合には、前記処理実行部は、さらに、当該選び出された複数の表示オブジェクトのうちの一以上をユーザに選択させるための問い合わせの情報の出力を制御する、請求項3に記載の情報処理装置。
  9.  前記処理実行部は、前記複数の表示オブジェクトに基づいて前記発話の音声認識を行う、請求項2に記載の情報処理装置。
  10.  前記処理実行部は、さらに、前記複数の表示オブジェクトの中から、前記音声認識の結果に対応する表示オブジェクトを選び出す、請求項9に記載の情報処理装置。
  11.  前記現在の表示範囲は、前記発話の開始の検出タイミングに応じたタイミングに、表示部により表示された表示範囲である、請求項2に記載の情報処理装置。
  12.  前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示順を、前記発話の音声認識結果に基いて変更する、請求項11に記載の情報処理装置。
  13.  前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示分類を、前記発話の音声認識結果に基いて変更する、請求項11に記載の情報処理装置。
  14.  前記第1の表示範囲は、さらに、前記現在の表示範囲の表示タイミングよりも前に表示部により連続的に表示された第2の表示範囲を含む、請求項2に記載の情報処理装置。
  15.  前記処理実行部は、前記第2の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、請求項14に記載の情報処理装置。
  16.  前記第1の表示範囲は、さらに、前記現在の表示範囲の表示タイミングまでには表示されておらず、かつ、当該表示タイミング後に表示部により表示されることが推定される第3の表示範囲を含む、請求項2に記載の情報処理装置。
  17.  前記処理実行部は、前記第3の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、請求項16に記載の情報処理装置。
  18.  前記第1の表示範囲は、ユーザにより指定された方向に沿って表示部により連続的に表示される、請求項2に記載の情報処理装置。
  19.  集音された発話を取得することと、
     現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、プロセッサが所定の処理を行うことと、
    を含む、情報処理方法。
  20.  コンピュータを、
     集音された発話を取得する取得部と、
     現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部、
    として機能させるためのプログラム。
PCT/JP2017/017935 2016-08-16 2017-05-11 情報処理装置、情報処理方法、およびプログラム WO2018034028A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/094,712 US10795641B2 (en) 2016-08-16 2017-05-11 Information processing device and information processing method
JP2018534269A JP6451907B2 (ja) 2016-08-16 2017-05-11 情報処理装置
EP17841256.5A EP3502840B1 (en) 2016-08-16 2017-05-11 Information processing device, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-159668 2016-08-16
JP2016159668 2016-08-16

Publications (1)

Publication Number Publication Date
WO2018034028A1 true WO2018034028A1 (ja) 2018-02-22

Family

ID=61196591

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/017935 WO2018034028A1 (ja) 2016-08-16 2017-05-11 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US10795641B2 (ja)
EP (1) EP3502840B1 (ja)
JP (2) JP6451907B2 (ja)
WO (1) WO2018034028A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020052833A (ja) * 2018-09-27 2020-04-02 大日本印刷株式会社 商品情報提供システム
CN111723281A (zh) * 2019-03-22 2020-09-29 北京京东尚科信息技术有限公司 信息获取方法及系统、计算机系统和介质
JP2021523467A (ja) * 2018-05-07 2021-09-02 グーグル エルエルシーGoogle LLC ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話
US11257086B2 (en) * 2017-09-25 2022-02-22 Capital One Services, Llc Automated sensor-based customer identification and authorization systems within a physical environment

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3502840B1 (en) * 2016-08-16 2020-11-04 Sony Corporation Information processing device, information processing method, and program
CN108346073B (zh) * 2017-01-23 2021-11-02 北京京东尚科信息技术有限公司 一种语音购物方法和装置
US10258295B2 (en) * 2017-05-09 2019-04-16 LifePod Solutions, Inc. Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication
US11301734B2 (en) * 2017-07-12 2022-04-12 Lenovo (Singapore) Pte. Ltd. Object association determination
JP7143665B2 (ja) * 2018-07-27 2022-09-29 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
US11568007B2 (en) * 2018-10-03 2023-01-31 Walmart Apollo, Llc Method and apparatus for parsing and representation of digital inquiry related natural language
US11954719B2 (en) * 2019-05-30 2024-04-09 Ncr Voyix Corporation Personalized voice-based assistance
TWI727521B (zh) * 2019-11-27 2021-05-11 瑞昱半導體股份有限公司 動態語音辨識方法及其裝置
WO2021234850A1 (ja) 2020-05-20 2021-11-25 日本電気株式会社 情報処理装置、情報処理方法及び記録媒体
US20220366911A1 (en) * 2021-05-17 2022-11-17 Google Llc Arranging and/or clearing speech-to-text content without a user providing express instructions
KR20230016513A (ko) * 2021-07-26 2023-02-02 주식회사 카카오 상담 서비스 제공 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0362293A (ja) * 1989-07-31 1991-03-18 Toshiba Corp 音声入力装置
JP2001092845A (ja) * 1999-09-27 2001-04-06 Toshiba Corp 文書取得方法及び記録媒体
JP2005500591A (ja) * 2001-03-22 2005-01-06 キヤノン株式会社 情報処理装置及びその方法、プログラム
JP2005322148A (ja) * 2004-05-11 2005-11-17 Mitsubishi Electric Corp ブラウザ装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110486A (ja) * 1992-09-25 1994-04-22 Toshiba Corp 音声入力手段を持つマルチメディア装置
JPH10198731A (ja) * 1997-01-08 1998-07-31 Hitachi Ltd 情報処理装置
JP2001034292A (ja) * 1999-07-26 2001-02-09 Denso Corp 単語列認識装置
JP4156563B2 (ja) * 2004-06-07 2008-09-24 株式会社デンソー 単語列認識装置
JP2006031200A (ja) * 2004-07-14 2006-02-02 Nec Corp 商品検索システム及びその方法並びにそれに用いる端末装置、サーバ装置及びプログラム
JP2007322370A (ja) * 2006-06-05 2007-12-13 Matsushita Electric Ind Co Ltd 地図表示装置
JP4938737B2 (ja) * 2008-09-11 2012-05-23 ヤフー株式会社 商品検索システム、商品検索方法、及びプログラム
RU2012113782A (ru) * 2009-10-13 2013-11-20 Эзсав Инк. Устройства, способы и компьютерные программные продукты, обеспечивающие возможность ассоциирования данных родственных продуктов с исполнением транзакций
JP5629890B2 (ja) * 2011-03-30 2014-11-26 日立マクセル株式会社 ネットスーパーシステムにおける画面表示方法
KR101793999B1 (ko) * 2011-07-22 2017-11-06 삼성전자주식회사 휴대용 단말기에서 사용자 인터페이스 객체를 배치하는 방법 및 장치
EP2783305A4 (en) * 2011-11-24 2015-08-12 Microsoft Technology Licensing Llc MULTIMODAL INTERACTIVE IMAGE SEARCH
KR20140132246A (ko) * 2013-05-07 2014-11-17 삼성전자주식회사 오브젝트 선택 방법 및 오브젝트 선택 장치
US10102561B2 (en) * 2014-02-26 2018-10-16 Amazon Technologies, Inc. Delivery service system
JP6114706B2 (ja) * 2014-02-28 2017-04-12 富士フイルム株式会社 検索システム及び検索システムの制御方法
US9412363B2 (en) * 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
KR102184272B1 (ko) * 2014-06-25 2020-11-30 엘지전자 주식회사 글래스 타입 단말기 및 이의 제어방법
EP3502840B1 (en) * 2016-08-16 2020-11-04 Sony Corporation Information processing device, information processing method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0362293A (ja) * 1989-07-31 1991-03-18 Toshiba Corp 音声入力装置
JP2001092845A (ja) * 1999-09-27 2001-04-06 Toshiba Corp 文書取得方法及び記録媒体
JP2005500591A (ja) * 2001-03-22 2005-01-06 キヤノン株式会社 情報処理装置及びその方法、プログラム
JP2005322148A (ja) * 2004-05-11 2005-11-17 Mitsubishi Electric Corp ブラウザ装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11257086B2 (en) * 2017-09-25 2022-02-22 Capital One Services, Llc Automated sensor-based customer identification and authorization systems within a physical environment
JP2021523467A (ja) * 2018-05-07 2021-09-02 グーグル エルエルシーGoogle LLC ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話
JP7203865B2 (ja) 2018-05-07 2023-01-13 グーグル エルエルシー ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話
US11735182B2 (en) 2018-05-07 2023-08-22 Google Llc Multi-modal interaction between users, automated assistants, and other computing services
JP2020052833A (ja) * 2018-09-27 2020-04-02 大日本印刷株式会社 商品情報提供システム
JP7177999B2 (ja) 2018-09-27 2022-11-25 大日本印刷株式会社 商品情報提供システム
CN111723281A (zh) * 2019-03-22 2020-09-29 北京京东尚科信息技术有限公司 信息获取方法及系统、计算机系统和介质

Also Published As

Publication number Publication date
JP6451907B2 (ja) 2019-01-16
US20190163437A1 (en) 2019-05-30
EP3502840A1 (en) 2019-06-26
JP2019075135A (ja) 2019-05-16
EP3502840A4 (en) 2019-06-26
EP3502840B1 (en) 2020-11-04
JPWO2018034028A1 (ja) 2019-03-28
US10795641B2 (en) 2020-10-06

Similar Documents

Publication Publication Date Title
JP6451907B2 (ja) 情報処理装置
JP7037602B2 (ja) デジタルアシスタントサービスの遠距離拡張
US11005787B2 (en) Answer message recommendation method and device therefor
US11157577B2 (en) Method for searching and device thereof
US9412363B2 (en) Model based approach for on-screen item selection and disambiguation
JP6502923B2 (ja) コンピューティングデバイスのための認識インターフェース
CN108733438A (zh) 应用程序与数字助理集成
US20160203194A1 (en) User terminal for displaying image and image display method thereof
CN107615276A (zh) 用于媒体回放的虚拟助理
JP2014120159A (ja) 情報検索方法、そのような機能を有するデバイス及び記録媒体
KR102276856B1 (ko) 컴퓨팅 디바이스와 상호작용하는 장치 및 방법
TW201721472A (zh) 資料處理方法、裝置和智慧終端機
JP2017211968A (ja) メッセージ提供方法を実行するために記録媒体に保存されたコンピュータプログラム、及びその方法
US9032316B1 (en) Value-based presentation of user-selectable computing actions
CN107015979B (zh) 一种数据处理方法、装置和智能终端
US20220155912A1 (en) Intelligent response using eye gaze
JP2016192121A (ja) 制御装置、制御方法及びコンピュータプログラム
KR102596841B1 (ko) 사용자의 발화에 응답하여 하나 이상의 아이템을 제공하기 위한 전자 장치 및 방법
KR20180079762A (ko) 컨텐트에 관한 정보를 제공하는 방법 및 디바이스
TW202004525A (zh) 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體
WO2017026146A1 (ja) 情報処理装置、情報処理方法及びプログラム
TWI695275B (zh) 搜索方法、電子裝置及電腦可讀記錄媒體
US11942081B2 (en) Information processing device and information processing method for response presentation
WO2020235538A1 (ja) システム及びストロークデータの処理方法
JP2018169661A (ja) 情報処理方法、装置、及びプログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018534269

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17841256

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017841256

Country of ref document: EP

Effective date: 20190318