WO2021230048A1 - 情報処理システム - Google Patents

情報処理システム Download PDF

Info

Publication number
WO2021230048A1
WO2021230048A1 PCT/JP2021/016515 JP2021016515W WO2021230048A1 WO 2021230048 A1 WO2021230048 A1 WO 2021230048A1 JP 2021016515 W JP2021016515 W JP 2021016515W WO 2021230048 A1 WO2021230048 A1 WO 2021230048A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
gesture
image
unit
Prior art date
Application number
PCT/JP2021/016515
Other languages
English (en)
French (fr)
Inventor
貴則 野村
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to JP2022521806A priority Critical patent/JP7402322B2/ja
Publication of WO2021230048A1 publication Critical patent/WO2021230048A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Definitions

  • One aspect of the present invention relates to an information processing system.
  • Patent Document 1 a command corresponding to a character string converted from an input-accepted voice signal is generated in each of the image forming apparatus and the portable terminal apparatus, and the image forming apparatus and the portable terminal apparatus match. An image forming apparatus that executes a command is described.
  • One aspect of the present invention is made in view of the above circumstances, and relates to an information processing system capable of performing appropriate processing according to a user's request.
  • the information processing system acquires an image visually recognized by the user by being displayed on a terminal worn by the user, user's line-of-sight information, and user voice which is voice emitted by the user.
  • the unit the gesture recognition unit that recognizes the user's gesture shown in the image acquired by the acquisition unit, the voice recognition unit that recognizes the user voice acquired by the acquisition unit, and the recognition by the line-of-sight information and the gesture recognition unit.
  • the first mode in which the first process related to the image is executed according to the user voice recognized by the voice recognition unit, and the processing related to the image according to the user voice recognized by the voice recognition unit ? It includes a determination unit that determines which of the second modes for executing different second processing is applied, and a processing execution unit that executes the processing of the first mode or the second mode determined to be applied by the determination unit. ..
  • the user voice, the image visually recognized by the user by being displayed on the terminal, and the user's line-of-sight information are acquired, and the user's gesture and the user voice are recognized. Then, which of the first mode and the second mode is applied is determined based on the user's line-of-sight information and the recognition result of the gesture.
  • the first mode is a mode in which the first process related to the image is executed according to the user's voice.
  • the second mode is a mode in which a second process different from the process related to the image is executed according to the user's voice.
  • the information processing system determines whether to apply the first mode or the second mode only by voice recognition
  • the information processing system recognizes the user's voice, but the voice will eventually be used. It may be difficult to grasp whether the voice is related to the processing of. In this case, for example, even if the sound is a sound related to a process related to an image, a process different from the process related to the image may be executed.
  • the mode in which the processing related to the image is executed based on the user's line-of-sight information and gesture, which is considered to reflect the intention of the user, and the image. Since it is determined which of the modes in which the processing other than the related processing is executed is applied, it is possible to perform appropriate processing according to the user's request.
  • FIG. 1 is a diagram illustrating an outline of an information processing system according to the present embodiment.
  • FIG. 2 is a block diagram showing a functional configuration of the information processing system object information server of FIG.
  • FIG. 3 is a diagram illustrating an example of information display by an information processing system.
  • FIG. 4 is a diagram illustrating an example of information display by an information processing system.
  • FIG. 5 is a diagram illustrating an example of information display by an information processing system.
  • FIG. 6 is a diagram illustrating an example of information display by an information processing system.
  • FIG. 7 is a diagram illustrating an example of information display by an information processing system.
  • FIG. 8 is a sequence diagram showing the processing performed by the information processing system.
  • FIG. 9 is a diagram showing a hardware configuration of a smart glass, an object information server, and a voice recognition server included in an information processing system.
  • FIG. 1 is a diagram illustrating an outline of the information processing system 1 according to the present embodiment.
  • FIG. 2 is a block diagram showing a functional configuration of an information processing system.
  • the information processing system 1 performs various information processing in the smart glasses (terminal) 2 worn by the user according to the processing requested by the user.
  • the image related to the processing requested by the user is displayed on the smart glasses 2.
  • the information processing system 1 includes a smart glass 2, an object information server 10 (specific unit, storage unit), and a voice recognition server 50 (voice recognition unit).
  • the smart glasses 2, the object information server 10, and the voice recognition server 50 are configured to be able to communicate with each other.
  • the smart glasses 2 considers the processing results of the object information server 10 and the voice recognition server 50, executes processing according to the user voice, and displays the information generated according to the user voice.
  • the object information server 10 processes according to the user's voice based on the range indicated by the user's gesture (second gesture) recognized in the captured image captured by the smart glasses 2. Specify the target object that is the target object of 1 process). The target object may be further specified (or narrowed down) based on the recognition result of the user voice by the voice recognition server 50. Further, in the information processing system 1, the voice recognition server 50 recognizes the user voice.
  • the smart glasses 2 executes the processing according to the processing content included in the user voice recognized by the voice recognition server 50 on the target object specified by the object information server 10.
  • the smart glasses 2 generate, for example, a superimposed image in which information about the target object is associated with the target object and displayed in a superimposed manner in response to a user's voice, and the superimposed image is displayed on the screen.
  • FIG. 3 illustrates the image P1 captured by the smart glasses 2.
  • Objects such as the signboard H1 and the chair H2 are displayed on the image P1.
  • the smart glasses 2 recognize the gesture HJ2 (second gesture) which is the user's hand gesture.
  • the object information server 10 is based on the range indicated by the gesture HJ2, among the objects included in the image P1, for example, the signboard H1 and the signboard H1 which is an object whose area overlaps with the gesture HJ2 or is within a predetermined range from the gesture HJ2.
  • the chair H2 is specified as a target object.
  • the smart glass 2 targets only the signboard H1 among the candidates of the target object specified by the object information server 10.
  • the presentation information I is superimposed on the image P1 (specifically, the presentation information I is superimposed on the signboard H1 which is the target object).
  • the image P2 (displayed in association with each other) is generated, and the image P2 is displayed on the screen.
  • the processing requested by the user (specifically, the processing related to the image requested by the user by voice) is executed in the smart glasses 2 worn by the user.
  • the processed image is displayed on the screen.
  • the number of smart glasses 2 shown in FIGS. 1 and 2 is one, the number of smart glasses 2 may be plural.
  • the voice recognition server 50 functions as a voice recognition unit that recognizes the user's voice.
  • the voice recognition server 50 may simply have a function of recognizing a user voice and converting it into a character string, and may not have a function of identifying a user based on the user voice.
  • the voice recognition server 50 may use a well-known voice recognition technique.
  • the voice recognition server 50 transmits the voice recognition result (that is, information obtained by converting the user voice into a character string) to the object information server 10.
  • the object information server 10 acquires the voice recognition result from the voice recognition server 50, but for example, the object information server 10 may function as a voice recognition unit for recognizing the user voice.
  • the object information server 10 is a server that identifies a target object or the like based on the information acquired from the smart glasses 2 and the voice recognition server 50, and provides the specified information to the smart glasses 2.
  • the target object is an object included in the captured image acquired from the smart glasses 2 and is the target object of the first processing related to the image.
  • the object information server 10 stores various information acquired from the smart glasses 2 and the voice recognition server 50, that is, captured images, user voice recognition results, positioning results of the smart glasses 2, and the like. Further, the object information server 10 functions as a storage unit that stores object information related to a plurality of objects in advance.
  • Object information is information on an object that exists in the real space.
  • an object ID that is information indicating (uniquely specifying) the object
  • type information that is information that specifies the type of the object
  • position information in which the object exists are used.
  • the image of the object and the detailed information related to the object (information about the object) are stored in association with each other.
  • the type information may include the name of the object.
  • only a part of the above-mentioned information may be associated and stored. That is, for example, only the type information, the image of the object, and the detailed information related to the object may be associated and stored.
  • the detailed information related to the object is, for example, information about the contents of the object.
  • the object is a store sign, the name of the store, the business hours of the store, the product name sold / provided at the store, and the store.
  • prices for products and services to be sold store phone numbers, store URLs, etc.
  • the detailed information related to the object is, for example, the price of the product, the price of the product, the specifications of the product, the URL explaining the product, and the like.
  • Each item of detailed information related to the object may be associated with the user voice. That is, for example, when the object is a sign of a store, the information of the store itself (business hours of the store, telephone number of the store, etc.) is associated with the user voice including "store", and "(product name). ) ”Is included in the store's product information (product price, product specifications, etc.), and the user voice with“ information display ”is associated with all detailed information items.
  • the type of user voice and the item of detailed information may be associated with each other.
  • the object information server 10 may store information on an object existing in the virtual space as object information.
  • the object information server 10 functions as a specific unit for specifying the target object.
  • the object information server 10 identifies the target object based on the range indicated by the user's gesture (second gesture, gesture HJ2 shown in FIG. 3) in the captured image acquired from the smart glasses 2.
  • the range indicated by the user's gesture (second gesture) is a designated range specified by the user in the captured image, for example, a range in which the gesture and the region overlap or are close to the gesture.
  • the object information server 10 acquires, for example, information in a range (designated range) indicated by a gesture (second gesture) from the smart glasses 2.
  • the object information server 10 may acquire only the captured image in the range indicated by the user's gesture from the smart glasses 2.
  • the object information server 10 specifies, for example, an object whose area overlaps with the gesture or is within a predetermined range from the gesture among the objects included in the captured image as the target object.
  • the object information server 10 identifies a target object by using a conventionally known image recognition process.
  • the object information server 10 identifies a target object by, for example, collating an image of each object included in the stored object information with an image in a range (designated range) indicated by a user's gesture. In this case, the object information server 10 collates the positioning result in the smart glasses 2 with the position information in which the object included in the object information exists, and the image of the object existing in the position close to the smart glasses 2 (included in the object information). Only the image of the object) may be matched with the image in the range specified by the user.
  • the object information server 10 specifies the target object, the object information server 10 may specify the name of the target object based on the object information.
  • the object information server 10 identifies the target object within the designated range A based on the stored object information. Specifically, the object information server 10 identifies the target object by, for example, collating the image of the object included in the object information with the image corresponding to the designated range A among the captured images. In the example shown in FIG. 5, the object information server 10 specifies the signboard H1 and the chair H2 as target objects. The object information server 10 transmits information indicating an object specified as a target object (information that can determine which is the target object in the smart glasses 2) to the smart glasses 2 in association with the name of the object.
  • the object information server 10 When the user voice recognized by the voice recognition server 50 contains information indicating an object, the object information server 10 includes the object in the range indicated by the above-mentioned gesture (second gesture) in the user voice.
  • the object may be specified as the target object. That is, for example, as shown in FIG. 6, when the user voice of the "signboard" is recognized by the voice recognition server 50, the object information server 10 is the signboard H1 and the chair H2 which are candidates for the target object. Of these, only the signboard H1 may be specified as the target object.
  • the object information server 10 transmits information indicating an object specified as a target object (information that can determine which is the target object in the smart glasses 2) to the smart glasses 2.
  • the object information server 10 further specifies detailed information (information about the object) related to the specified target object based on the stored object information.
  • the object information server 10 stores, for example, when the user voice recognized by the voice recognition server 50 includes the processing content related to the first processing (specifically, the display of detailed information related to the target object). Based on the object information that is being used, the detailed information related to the target object is specified. That is, for example, in a situation where the signboard H1 is specified as the target object as shown in FIG. 6, when the user voice of "information display" is recognized by the voice recognition server 50, the object information server 10 is used. Based on the stored object information, the detailed information related to the signboard H1 is specified as the presentation information. In the example shown in FIG.
  • the object information server 10 presents information I as a store name (“XXXX”), a product name, and a product price (“ ⁇ B perfumese: 1,000 yen ⁇ Genovese: 1,100 yen”. ⁇ Margherita: 800 yen ”) is specified.
  • the object information server 10 transmits detailed information related to the target object specified as presentation information to the smart glasses 2.
  • the object information server 10 transmits a processing request according to the change instruction to the smart glasses 2. Specifically, for example, when the user voice of "enlarged display" is recognized by the voice recognition server 50, the object information server 10 transmits an enlarged display request for the presented information to the smart glasses 2. ..
  • the smart glasses 2 is a goggle-type wearable device worn by the user, and is a terminal configured to perform wireless communication.
  • the smart glasses 2 are configured to be able to display an image visually recognized by the user.
  • the smart glasses 2 have an imaging function, and for example, display an captured image (captured image) in real time.
  • the smart glasses 2 are described as displaying the captured image in the present embodiment, the smart glasses 2 may display an image other than the captured image.
  • the smart glasses 2 have a function of acquiring the line-of-sight information of the wearing user and a function of acquiring the voice (user voice) emitted by the wearing user.
  • the smart glasses 2 may perform positioning by itself or by communicating with another server (not shown). In this embodiment, it will be described that the smart glasses 2 perform positioning.
  • the positioning method of the smart glasses 2 is not limited, and may be GPS (Global Positioning System) positioning, base station positioning, or stored in the captured image and another server (not shown). The positioning may be performed by collating the map data with the existing map data.
  • the smart glasses 2 continuously transmit the positioning result to the object information server 10.
  • the smart glass 2 includes an acquisition unit 21, a gesture recognition unit 22, a determination unit 23, a generation unit 24, and an output unit 25 (processing execution unit).
  • the smart glasses 2 may further include a storage unit (not shown) for storing various information and the like acquired by the acquisition unit 21.
  • the acquisition unit 21 acquires the captured image visually recognized by the user, the user's line-of-sight information, and the user's voice.
  • the captured image is an image captured by the smart glasses 2 as described above, and is an image displayed on the screen of the smart glasses 2 and visually recognized by the user.
  • the user's line-of-sight information is information on the line-of-sight of the user wearing the smart glasses 2 as described above.
  • the user voice is a voice emitted by a user wearing the smart glasses 2 as described above.
  • the acquisition unit 21 transmits the acquired user voice to the voice recognition server 50.
  • the gesture recognition unit 22 recognizes the user's gesture shown in the captured image acquired by the acquisition unit 21.
  • the gesture recognition unit 22 recognizes the user's gesture, for example, by using a conventionally known image recognition technique.
  • the gesture recognition unit 22 recognizes a predetermined first gesture as a gesture related to the first process.
  • the first gesture is a gesture relating to the determination of whether to execute the first process related to the image or the second process different from the process related to the image.
  • the first gesture is, for example, a hand gesture (gesture HJ1 shown in FIG. 4) in which the user is holding a fist.
  • the gesture recognition unit 22 further recognizes a second gesture predetermined as a gesture indicating a range in which the target object can be included.
  • the second gesture is, for example, a series of hand gestures (gesture HJ2 shown in FIG. 5) in which the user changes from a state in which the user is holding a fist to a state in which the user is open.
  • the second gesture represents the range in which the target object is included depending on how the fist is opened. That is, as shown in FIG. 5, when the gesture recognition unit 22 recognizes the gesture HJ2 that gradually opens the fist from the state where the user is holding the fist, the gesture recognition unit 22 responds to the opening degree (opening method) of the fist in the gesture HJ2.
  • the range indicated by the gesture HJ2 (the range including the target object) is specified.
  • the range indicated by the gesture HJ2 specified by the gesture recognition unit 22 is indicated by a "frame F" (see FIG. 5) in the image generated by the generation unit 24 described later.
  • the first gesture and the second gesture may be other hand gestures or gestures of other parts of the user's body.
  • the gesture recognition unit 22 recognizes the second gesture, the gesture recognition unit 22 transmits the captured image in which the second gesture is recognized and the information in the range indicated by the second gesture to the object information server 10.
  • the gesture recognition unit 22 may transmit only the captured image in the range indicated by the second gesture to the object information server 10.
  • the determination unit 23 determines whether to apply the first mode or the second mode based on the user's line-of-sight information and the recognition result by the gesture recognition unit 22.
  • the first mode is a mode in which the first process related to the image is executed according to the user voice recognized by the voice recognition server 50.
  • the second mode is a mode in which a second process different from the process related to the image is executed according to the user voice recognized by the voice recognition server 50.
  • the determination unit 23 determines whether or not the user is gazing at the first gesture shown in the captured image based on the line-of-sight information and the recognition result of the first gesture by the gesture recognition unit 22. , It is determined to apply the first mode when gazing, and it is determined to apply the second mode when not gazing. That is, the determination unit 23 first determines whether or not the first gesture is recognized by the gesture recognition unit 22. Then, when the first gesture is recognized, the determination unit 23 determines whether or not the user is gazing at the first gesture in the captured image based on the line-of-sight information. When the deviation of the user's line of sight from the first gesture is within a predetermined range (for example, within 15 °), the determination unit 23 determines that the user is gazing at the first gesture.
  • a predetermined range for example, within 15 °
  • the gesture recognition unit 22 recognizes the first gesture. Then, when the determination unit 23 determines that the user is gazing at the gesture HJ1 based on the line-of-sight information, it is determined that the user has requested the process related to the captured image (first process), and the first process is performed. It is decided to apply one mode. On the other hand, when the determination unit 23 determines that the user is not gazing at the gesture HJ1 based on the line-of-sight information, the user causes the user to display a second process (for example, a message on the screen) other than the process related to the captured image. Processing) is determined to be required and it is determined to apply the second mode.
  • a second process for example, a message on the screen
  • the determination unit 23 After deciding to apply the first mode, the determination unit 23 continues to apply the first mode while the gesture recognition unit 22 recognizes the second gesture related to the first process. do. This is because it is considered that the user is requesting the first process instead of the second process while the user represents the second gesture related to the first process. On the other hand, after deciding to apply the first mode, the determination unit 23 decides to apply the second mode when the gesture recognition unit 22 no longer recognizes the second gesture. This is because when the user stops the second gesture related to the first process, it is considered that the user has not requested the first process.
  • the generation unit 24 generates information to be displayed (output) on the screen of the smart glasses 2 based on the information acquired from the object information server 10.
  • the generation unit 24 receives the information indicating the object specified as the target object and the name of the object from the object information server 10
  • the generation unit 24 generates the first image in which the name of the target object is superimposed on the captured image.
  • the generation unit 24 further superimposes a frame indicating the range indicated by the second gesture in the first image.
  • the generation unit 24 indicates a frame indicating a range indicated by the second gesture on the image P5, which is an captured image, based on the information acquired from the object information server 10 and the recognition result by the gesture recognition unit 22.
  • an image P6 (first image) in which the name "signboard" of the signboard H1 which is the target object and the name "chair” of the chair H2 are superimposed is generated.
  • the generation unit 24 may generate the first image so that the name of each target object is located in the vicinity of the corresponding target object.
  • the generation unit 24 When the generation unit 24 receives the information indicating the object specified as the target object and the detailed information related to the target object specified as the presentation information from the object information server 10, the presentation information is superimposed on the captured image. 2 Generate an image. In the example shown in FIG. 6, the generation unit 24 superimposes the presentation information I presented by the signboard H1 on the image P7, which is an captured image, and emphasizes the signboard H1 based on the information acquired from the object information server 10. The displayed image P8 (second image) is generated. The generation unit 24 may generate the second image so that the presentation information of the target object is located in the vicinity of the corresponding target object.
  • the generation unit 24 When the generation unit 24 receives a request for changing the display mode of the presentation information in the second image from the object information server 10, the generation unit 24 generates a third image in which the display mode of the presentation information of the second image is changed.
  • the generation unit 24 receives an enlarged display request for the presented information from the object information server 10.
  • the generation unit 24 generates an image P10 (third image) in which the presentation information I in the manner in which the characters are enlarged is superimposed on the image P9 which is the captured image.
  • the generation unit 24 functions as a processing execution unit that executes the processing of the first mode determined to be applied by the determination unit 23. That is, when the user voice recognized by the voice recognition server 50 includes the processing content (for example, information presentation) related to the first processing, the generation unit 24 is the second processing according to the processing content. The generation of an image or the like is executed as the first process. Further, as described above, the generation unit 24 generates output information based on the information regarding the target object specified by the object information server 10. More specifically, the generation unit 24 generates a second image, which is a superimposed image in which information about the target object is associated with the target object and displayed in an superimposed manner, as output information.
  • a second image which is a superimposed image in which information about the target object is associated with the target object and displayed in an superimposed manner, as output information.
  • the output unit 25 outputs the information generated by the generation unit 24 (displayed on the screen of the smart glasses 2). That is, the output unit 25 displays the above-mentioned first image, second image, and third image on the screen of the smart glasses 2.
  • the output unit 25 functions as a process execution unit that executes the process of the first mode determined to be applied by the determination unit 23. That is, when the user voice recognized by the voice recognition server 50 includes the processing content (for example, information presentation) related to the first processing, the output unit 25 is the second processing according to the processing content. Output of an image or the like is executed as the first process.
  • the second mode is executed. It may function as a process execution unit that executes a process. That is, for example, when the determination unit 23 determines to execute a process (second process) for displaying a new arrival message on the screen, the generation unit 24 generates an image on which the new arrival message is superimposed, and the output unit 25 generates an image. The image may be output.
  • FIG. 8 is a sequence diagram showing the processing performed by the information processing system 1.
  • the smart glasses 2 first determine the application of the first mode based on the user's line-of-sight information and the first gesture (step S1). Specifically, the smart glasses 2 determine the application of the first mode when the user is gazing at the first gesture.
  • the smart glasses 2 recognize the second gesture and specify the range in which the target object can exist based on the range indicated by the second gesture (step S2). Subsequently, the smart glasses 2 transmit the captured image to the object information server 10 (step S3). The smart glasses 2 may transmit only the captured image in the range in which the target object specified in step S2 can exist to the object information server 10.
  • the object information server 10 identifies the target object and its name based on the captured image (including the information in the range indicated by the second gesture) acquired from the smart glasses 2 and the stored target object information. (Step S4).
  • the smart glasses 2 transmits the specified information to the smart glasses 2 (step S5).
  • the smart glass 2 is a first image (image P6 shown in FIG. 5) in which the name of the target object is superimposed on the captured image based on the information (target object and its name) acquired from the object information server 10. Is generated and displayed on the screen (step S6).
  • the image P6 the frame F indicating the range indicated by the second gesture, the name “signboard” of the signboard H1 which is the target object, and the name “chair” of the chair H2 are displayed.
  • the smart glasses 2 acquires the user voice, which is the voice emitted by the user, and transmits it to the voice recognition server 50 (step S7).
  • the smart glasses 2 has acquired a user voice including a name (“signboard”) for narrowing down a target object and a processing content (“information display”) from a user who has viewed the image P6.
  • the voice recognition server 50 recognizes the terms "signboard” and "information display” by voice recognition (step S8). Then, the voice recognition server 50 transmits the voice recognition result to the object information server 10 (step S9).
  • the object information server 10 receives the voice recognition result, narrows down the target object to the signboard H1 based on the information indicating the object with the "signboard", and stores it based on the processing content of the "information display”.
  • Detailed information (presentation information) related to the signboard H1 is specified from the object information, and the specified information is transmitted to the smart glass 2 (step S10).
  • the smart glasses 2 generate a second image (image P8 shown in FIG. 6) in which the presented information is superimposed on the captured image based on the information (target object and presented information) acquired from the object information server 10. And display it on the screen (step S11).
  • image P8 the presentation information I presented by the signboard H1 is displayed and the signboard H1 is highlighted.
  • the smart glasses 2 acquires further user voice and transmits it to the voice recognition server 50 (step S12).
  • the voice recognition server 50 recognizes the term "enlarged display” by voice recognition (step S13). Then, the voice recognition server 50 transmits the voice recognition result to the object information server 10 (step S14).
  • the object information server 10 receives the voice recognition result, specifies the processing content of "enlarged display”, and transmits the enlarged display request to the smart glasses 2 (step S15). Then, the smart glasses 2 are an image (image P10 shown in FIG. 7) in which the presentation information I in the manner in which the characters are enlarged is superimposed on the captured image based on the information (enlarged display request) acquired from the object information server 10. ) Is generated and displayed on the screen (step S16).
  • the information processing system 1 acquires an image visually recognized by the user by being displayed on the smart glass 2 worn by the user, user's line-of-sight information, and user voice which is voice emitted by the user.
  • the first mode that executes the first process related to the image according to the user voice recognized by the voice recognition server 50 based on the recognition result by the gesture recognition unit 22, and the user voice recognized by the voice recognition server 50.
  • determination unit 23 which determines which of the second modes for executing the second processing different from the processing related to the image is applied, and the first mode or the second mode determined to be applied by the determination unit 23.
  • a generation unit 24 and an output unit 25 for executing processing are provided.
  • the user's voice, the image (image captured) visually recognized by the user by being displayed on the smart glasses 2, and the user's line-of-sight information are acquired, and the user's gesture and the user's voice are recognized. Will be done.
  • which of the first mode and the second mode is applied is determined based on the user's line-of-sight information and the recognition result of the gesture.
  • the first mode is a mode for executing processing related to an image according to a user's voice.
  • the second mode is a mode in which a process different from the process related to the image is executed according to the user's voice.
  • the information processing system determines whether to apply the first mode or the second mode only by voice recognition, first, a voice input is accepted from the user. Then, the information processing system recognizes the voice of the user, but it may be difficult to grasp which process the voice is related to. In this case, for example, even if the sound is a sound related to a process related to an image, a process different from the process related to the image may be executed.
  • the mode in which the processing related to the image is executed based on the user's line-of-sight information and gesture, which is considered to reflect the intention of the user, and the processing other than the processing related to the image are performed. Since it is determined which of the modes to be executed is applied, appropriate processing can be performed according to the user's request. Further, in the information processing system 1, since processing that does not meet the user's intention (that is, unnecessary processing) is suppressed, the processing load can be reduced, which is a technical effect.
  • the gesture recognition unit 22 recognizes the first gesture predetermined as the gesture related to the first process, and the determination unit 23 uses the line-of-sight information and the gesture recognition unit 22 as the recognition result of the first gesture. Based on this, it is determined whether or not the user is gazing at the first gesture shown in the image, and if the user is gazing at the first gesture, it is determined to apply the first mode.
  • the first gesture predetermined as the gesture related to the first process, it is highly likely that the user is requesting the first process (process for the image).
  • the first mode of executing the processing on the image according to the user's voice is applied, so that when the user requests the processing on the image. , The possibility that the first mode is applied can be increased.
  • the processing when the generation unit 24 and the output unit 25, which function as the processing execution unit, include the processing content related to the first processing in the user voice recognized by the voice recognition server 50, the processing is concerned.
  • the process according to the content is executed as the first process.
  • the processing content requested by the user is determined based on the user voice, and the image is generated and displayed (output) according to the processing content, so that appropriate processing according to the user's request is performed. It can be performed.
  • the information processing system 1 includes an object information server 10 that executes a process of specifying a target object that is an object included in an image and is a target object of the first process, and the gesture recognition unit 22 includes the target object. Further recognizing the second gesture predetermined as the gesture indicating the range to be obtained, the object information server 10 identifies the target object based on the range indicated by the second gesture in the image. In this way, by specifying the target object based on the range indicated by the gesture that reflects the user's intention, it is possible to appropriately specify the object that the user wants to be the target object (the target of processing). ..
  • the object information server 10 stores object information in which at least information indicating an object and information about the object are associated with each of a plurality of objects, and the specified target object is an object based on the object information.
  • the generation unit 24 further specifies the information regarding the target object, and generates output information (image P8, etc. in FIG. 6) based on the information regarding the target object specified by the object information server 10 as the first process of the first mode.
  • the output unit 25 displays the output information generated by the generation unit 24 on the screen of the smart glass 2.
  • the generation unit 24 generates a superimposed image (image P8 in FIG. 6) in which information about the target object specified by the object information server 10 is associated with the target object and displayed in an superimposed manner as output information. ..
  • a superimposed image image P8 in FIG. 6
  • the information about the target object can be displayed in a manner that is easier for the user to understand.
  • the object information server 10 when the object information server 10 includes information indicating an object in the user voice recognized by the voice recognition server 50, among the objects in the range indicated by the second gesture, the user voice is included. Specify the contained object as the target object. In this way, by further considering the information of the user voice and specifying the target object, it is possible to more reliably and easily specify the object that the user wants to be the target object.
  • the determination unit 23 After deciding to apply the first mode, the determination unit 23 continues to apply the first mode while the gesture recognition unit 22 recognizes the second gesture.
  • the determination unit 23 decides to apply the second mode when the gesture recognition unit 22 no longer recognizes the second gesture.
  • the first mode for executing the first process (process related to the image) is switched to the second mode for executing the second process (process different from the process related to the image). Therefore, it is possible to reliably execute the process requested by the user.
  • the above-mentioned smart glass 2, voice recognition server 50, and object information server 10 are physically computers including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like. It may be configured as a device.
  • the word “device” can be read as a circuit, device, unit, etc.
  • the hardware configuration of the smart glasses 2, the voice recognition server 50, and the object information server 10 may be configured to include one or more of the devices shown in FIG. 9, or may not include some of the devices. It may be configured.
  • the processor 1001 For each function in the smart glass 2, the voice recognition server 50, and the object information server 10, the processor 1001 performs calculations and communicates by loading predetermined software (programs) on hardware such as the processor 1001 and the memory 1002. It is realized by controlling communication by the device 1004 and reading and / or writing of data in the memory 1002 and the storage 1003.
  • the processor 1001 operates, for example, an operating system to control the entire computer.
  • the processor 1001 may be configured by a central processing unit (CPU: Central Processing Unit) including an interface with a peripheral device, a control device, an arithmetic unit, a register, and the like.
  • CPU Central Processing Unit
  • the control function of the acquisition unit 21 of the smart glasses 2 may be realized by the processor 1001.
  • the processor 1001 reads a program (program code), a software module and data from the storage 1003 and / or the communication device 1004 into the memory 1002, and executes various processes according to these.
  • program program code
  • a program that causes a computer to execute at least a part of the operations described in the above-described embodiment is used.
  • control function of the acquisition unit 21 of the smart glasses 2 may be realized by a control program stored in the memory 1002 and operated by the processor 1001, and other functional blocks may be similarly realized.
  • processor 1001 may be executed simultaneously or sequentially by two or more processors 1001.
  • Processor 1001 may be mounted on one or more chips.
  • the program may be transmitted from the network via a telecommunication line.
  • the memory 1002 is a computer-readable recording medium, and is composed of at least one such as a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (Electrically Erasable Programmable ROM), and a RAM (Random Access Memory). May be done.
  • the memory 1002 may be referred to as a register, a cache, a main memory (main storage device), or the like.
  • the memory 1002 can store a program (program code), a software module, and the like that can be executed to implement the wireless communication method according to the embodiment of the present invention.
  • the storage 1003 is a computer-readable recording medium, and is, for example, an optical disk such as a CDROM (Compact Disc ROM), a hard disk drive, a flexible disk, an optical magnetic disk (for example, a compact disk, a digital versatile disk, or a Blu-ray (registration)). It may consist of at least one such as a (trademark) disk), a smart card, a flash memory (eg, a card, stick, key drive), a floppy (registered trademark) disk, a magnetic strip, and the like.
  • the storage 1003 may be referred to as an auxiliary storage device.
  • the storage medium described above may be, for example, a database, server or other suitable medium containing memory 1002 and / or storage 1003.
  • the communication device 1004 is hardware (transmission / reception device) for communicating between computers via a wired and / or wireless network, and is also referred to as, for example, a network device, a network controller, a network card, a communication module, or the like.
  • the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that accepts an input from the outside.
  • the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that outputs to the outside.
  • the input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).
  • each device such as the processor 1001 and the memory 1002 is connected by the bus 1007 for communicating information.
  • the bus 1007 may be composed of a single bus or may be composed of different buses between the devices.
  • the smart glass 2, the voice recognition server 50, and the object information server 10 are a microprocessor, a digital signal processor (DSP: Digital Signal Processor), ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), FPGA (Field). It may be configured to include hardware such as Programmable Gate Array), and a part or all of each functional block may be realized by the hardware.
  • the processor 1001 may be implemented on at least one of these hardware.
  • the information information system 1 has been described as being configured to include the smart glasses 2, the voice recognition server 50, and the object information server 10, but the present invention is not limited to this, and each function of the information information system 1 is smart. It may be realized only by the glass 2. Further, among the functions of the information processing system 1, the object information server 10 may realize the determination process of the first mode by the determination unit 23 and the definition process of the designated range based on the second gesture.
  • Each aspect / embodiment described in the present specification includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA. (Registered Trademark), GSM (Registered Trademark), CDMA2000, UMB (Ultra Mobile Broad-band), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-Wide) Band), WiMAX®, and other systems that utilize suitable systems and / or extended next-generation systems based on them may be applied.
  • the input / output information and the like may be saved in a specific place (for example, a memory) or may be managed by a management table. Information to be input / output may be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
  • the determination may be made by a value represented by 1 bit (0 or 1), by a boolean value (Boolean: true or false), or by comparing numerical values (for example, a predetermined value). It may be done by comparison with the value).
  • the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit one, but is performed implicitly (for example, the notification of the predetermined information is not performed). May be good.
  • Software whether referred to as software, firmware, middleware, microcode, hardware description language, or other names, is an instruction, instruction set, code, code segment, program code, program, subprogram, software module.
  • Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, features, etc. should be broadly interpreted.
  • software, instructions, etc. may be transmitted and received via a transmission medium.
  • the software may use wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to website, server, or other.
  • wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to website, server, or other.
  • DSL digital subscriber line
  • wireless technology such as infrared, wireless and microwave to website, server, or other.
  • the information, signals, etc. described herein may be represented using any of a variety of different techniques.
  • data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
  • information, parameters, etc. described in the present specification may be represented by an absolute value, a relative value from a predetermined value, or another corresponding information. ..
  • the smart glass 2 is a mobile communication terminal, a subscriber station, a mobile unit, a subscriber unit, a wireless unit, a remote unit, a mobile device, a wireless device, a wireless communication device, a remote device, a mobile subscriber station, and an access terminal, depending on the person in the art. , Mobile device, wireless device, remote device, handset, user agent, mobile client, client, or some other suitable term.
  • any reference to that element does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted there, or that the first element must somehow precede the second element.
  • 1 Information processing system
  • 2 Smart glasses (terminal), 10 ... Object information server (specific unit, storage unit), 21 ... Acquisition unit, 22 ... Gesture recognition unit, 23 ... Decision unit, 24 ... Generation unit (processing execution) Section), 25 ... Output section (processing execution section), 50 ... Voice recognition server (voice recognition section), H1 ... Sign (target object), H2 ... Chair (target object), HJ1 ... Gesture (first gesture), HJ2 ... Gesture (second gesture), P8 ... Image (superimposed image).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

情報処理システムは、ユーザに装着された端末において表示されることによりユーザに視認される画像、ユーザの視線情報、及びユーザが発した音声であるユーザ音声を取得する取得部と、撮像画像に示されているユーザのジェスチャを認識するジェスチャ認識部と、視線情報及びジェスチャ認識部によるジェスチャの認識結果に基づいて、ユーザ音声に応じて画像に係る第1処理を実行する第1モード、及びユーザ音声に応じて画像に係る処理とは異なる第2処理を実行する第2モードのいずれを適用するかを決定する決定部と、を備える。

Description

情報処理システム
 本発明の一態様は、情報処理システムに関する。
 特許文献1には、画像形成装置及び携帯端末装置のそれぞれにおいて、入力が受け付けられた音声信号から変換された文字列に対応するコマンドが生成され、画像形成装置と携帯端末装置とで一致した当該コマンドを実行する画像形成装置が記載されている。
特開2019-74608号公報
 近年では、例えばユーザに装着される端末において、ユーザによる音声の入力に応じて、端末において表示される画像に係る処理、及び、当該画像に係る処理とは異なる処理が実行される技術が知られている。しかしながら、例えば、当該音声が、画像に係る処理及び画像に係る処理とは異なる処理のいずれにも適用され得る内容である場合、音声のみによってユーザがいずれの処理を要求しているのか判断が困難な場合がある。この場合、例えば、ユーザは画像に係る処理を意図して音声を発したにもかかわらず、画像に係る処理とは異なる処理が実行されてしまうおそれがあった。
 本発明の一態様は上記実情に鑑みてなされたものであり、ユーザの要求に沿った適切な処理を行うことができる情報処理システムに関する。
 本発明の一態様に係る情報処理システムは、ユーザに装着される端末において表示されることによりユーザに視認される画像、ユーザの視線情報、及びユーザが発した音声であるユーザ音声を取得する取得部と、取得部によって取得された画像に示されているユーザのジェスチャを認識するジェスチャ認識部と、取得部によって取得されたユーザ音声を認識する音声認識部と、視線情報及びジェスチャ認識部による認識結果に基づいて、音声認識部によって認識されたユーザ音声に応じて画像に係る第1処理を実行する第1モード、及び、音声認識部によって認識されたユーザ音声に応じて画像に係る処理とは異なる第2処理を実行する第2モードのいずれを適用するかを決定する決定部と、決定部によって適用すると決定された第1モード又は第2モードの処理を実行する処理実行部と、を備える。
 本発明の一態様に係る情報処理システムでは、ユーザ音声、端末において表示されることでユーザに視認される画像、及びユーザの視線情報が取得され、ユーザのジェスチャ及びユーザ音声が認識される。そして、ユーザの視線情報、及びジェスチャの認識結果に基づいて、第1モード及び第2モードのいずれを適用するかが決定される。第1モードは、ユーザ音声に応じて画像に係る第1処理を実行するモードである。第2モードは、ユーザ音声に応じて画像に係る処理とは異なる第2処理を実行するモードである。例えば、情報処理システムが、単に音声認識のみによって第1モード及び第2モードのいずれを適用するかを決定する場合においては、情報処理システムは、ユーザの音声を認識するが、当該音声が、いずれの処理に係る音声なのかを把握することが困難である場合がある。この場合、例えば、当該音声が画像に係る処理に係る音声であっても、画像に係る処理とは異なる処理が実行されるおそれがある。この点、本発明の一態様に係る情報処理システムでは、ユーザの意思を反映していると考えられる、ユーザの視線情報及びジェスチャに基づいて、画像に係る処理が実行されるモード、及び画像に係る処理以外の処理が実行されるモードのいずれが適用されるかが決定されるため、ユーザの要求に沿った適切な処理を行うことができる。
 本発明によれば、ユーザの要求に沿った適切な処理を行うことができる。
図1は、本実施形態に係る情報処理システムの概要を説明する図である。 図2は、図1の情報処理システム物体情報サーバの機能構成を示すブロック図である。 図3は、情報処理システムによる情報表示の一例を説明する図である。 図4は、情報処理システムによる情報表示の一例を説明する図である。 図5は、情報処理システムによる情報表示の一例を説明する図である。 図6は、情報処理システムによる情報表示の一例を説明する図である。 図7は、情報処理システムによる情報表示の一例を説明する図である。 図8は、情報処理システムが行う処理を示すシーケンス図である。 図9は、情報処理システムに含まれるスマートグラス、物体情報サーバ、及び音声認識サーバのハードウェア構成を示す図である。
 以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。
 図1は、本実施形態に係る情報処理システム1の概要を説明する図である。図2は、情報処理システムの機能構成を示すブロック図である。情報処理システム1は、ユーザに装着されるスマートグラス(端末)2において、ユーザが要求する処理にしたがって種々の情報処理を実施する。本実施形態に係る情報処理システム1では、スマートグラス2において、ユーザが要求する処理に係る画像が表示される。図1に示されるように、情報処理システム1は、スマートグラス2と、物体情報サーバ10(特定部、記憶部)と、音声認識サーバ50(音声認識部)と、を備えている。情報処理システム1では、スマートグラス2と、物体情報サーバ10と、音声認識サーバ50とが相互に通信可能に構成されている。
 情報処理システム1では、スマートグラス2が、物体情報サーバ10及び音声認識サーバ50における処理結果を考慮して、ユーザ音声に応じた処理を実行し、ユーザ音声に応じて生成した情報を表示する。一例として、情報処理システム1では、物体情報サーバ10が、スマートグラス2が撮像した撮像画像において認識されたユーザのジェスチャ(第2ジェスチャ)が示す範囲に基づいて、ユーザ音声に応じた処理(第1処理)の対象のオブジェクトである対象オブジェトを特定する。なお、対象オブジェクトは、更に、音声認識サーバ50によるユーザ音声の認識結果に基づき特定されてもよい(絞り込まれてもよい)。また、情報処理システム1では、音声認識サーバ50が、ユーザ音声を認識する。そして、スマートグラス2は、音声認識サーバ50によって認識されたユーザ音声に含まれる処理内容に応じた処理を、物体情報サーバ10によって特定された対象オブジェクトに対して実行する。スマートグラス2は、例えば、ユーザ音声に応じて、対象オブジェクトに関する情報を対象オブジェクトに対応付けて重畳表示した重畳画像を生成し、該重畳画像を画面に表示する。
 図3には、スマートグラス2において撮像された画像P1が例示されている。画像P1には、看板H1及び椅子H2等のオブジェクトが表示されている。この場合、スマートグラス2は、ユーザのハンドジェスチャであるジェスチャHJ2(第2ジェスチャ)を認識する。そして、物体情報サーバ10は、ジェスチャHJ2が示す範囲に基づいて、画像P1に含まれる各オブジェクトのうち、例えばジェスチャHJ2と領域が重なる或いはジェスチャHJ2から所定の範囲内にあるオブジェクトである看板H1及び椅子H2を、対象オブジェクトとして特定する。さらに、音声認識サーバ50によって「看板、情報表示」とのユーザ音声が認識された場合には、スマートグラス2は、物体情報サーバ10によって特定された対象オブジェクトの候補のうち看板H1のみを対象オブジェクトとして絞り込み、看板H1に関する情報(看板H1が提示する情報である提示情報I)を表示すべく、提示情報Iを画像P1に重畳した(詳細には、提示情報Iを対象オブジェクトである看板H1に対応付けて表示した)画像P2を生成し、該画像P2を画面に表示する。
 以上の処理を行うことにより、情報処理システム1では、ユーザに装着されるスマートグラス2において、ユーザが要求する処理(具体的には、ユーザが音声によって要求した画像に係る処理)が実行され、処理後の画像が画面に表示される。なお、図1及び図2に示されるスマートグラス2の数は1台であるが、スマートグラス2の数は複数であってもよい。
 図1に戻り、音声認識サーバ50は、ユーザ音声を認識する音声認識部として機能する。音声認識サーバ50は、単にユーザ音声を認識して文字列に変換する機能を有していればよく、ユーザ音声に基づくユーザの識別等の機能を有していなくてもよい。音声認識サーバ50は、周知の音声認識技術を利用してもよい。音声認識サーバ50は、音声認識結果(すなわち、ユーザ音声を文字列に変換した情報)を物体情報サーバ10に送信する。なお、本実施形態では、物体情報サーバ10が音声認識サーバ50より音声認識結果を取得するとして説明するが、例えば、物体情報サーバ10がユーザ音声を認識する音声認識部として機能してもよい。
 物体情報サーバ10は、スマートグラス2及び音声認識サーバ50から取得した情報に基づき、対象オブジェクト等を特定し、特定した情報をスマートグラス2に提供するサーバである。対象オブジェクトとは、スマートグラス2から取得した撮像画像に含まれるオブジェクトであって画像に係る第1処理の対象のオブジェクトである。
 物体情報サーバ10は、スマートグラス2及び音声認識サーバ50から取得した各種情報、すなわち、撮像画像、ユーザ音声認識結果、スマートグラス2の測位結果等を記憶する。また、物体情報サーバ10は、複数のオブジェクトに係るオブジェクト情報を予め記憶する記憶部として機能する。オブジェクト情報とは、現実空間に存在する物体(オブジェクト)の情報である。オブジェクト情報では、例えば、複数のオブジェクトのそれぞれについて、オブジェクトを示す(一意に特定する)情報であるオブジェクトIDと、オブジェクトの種別を特定する情報である種別情報と、オブジェクトが存在する位置情報と、オブジェクトの画像と、オブジェクトに係る詳細情報(オブジェクトに関する情報)と、が対応付けられて記憶されている。種別情報は、オブジェクトの名称を含んでいてもよい。なお、オブジェクト情報では、上述した情報の一部だけが対応付けられて記憶されていてもよい。すなわち、例えば、種別情報、オブジェクトの画像、及びオブジェクトに係る詳細情報のみが対応付けられて記憶されていてもよい。
 オブジェクトに係る詳細情報とは、例えばオブジェクトの内容に関する情報であり、例えばオブジェクトが店の看板である場合には、当該店の名称、店の営業時間、店で販売・提供する商品名、店で販売する商品・サービスの料金、店の電話番号、店のURL等である。また、オブジェクトが商品そのものである場合には、オブジェクトに係る詳細情報とは、例えば当該商品の料金、当該商品の価格、当該商品のスペック、当該商品が説明されたURL等である。
 オブジェクトに係る詳細情報の各項目は、ユーザ音声と紐づけられていてもよい。すなわち、例えば、オブジェクトが店の看板である場合において、「店」を含んだユーザ音声に対して店自体の情報(店の営業時間、店の電話番号等)が紐づけられ、「(商品名)」を含んだユーザ音声に対して店の商品の情報(商品の価格、商品のスペック等)が紐づけられ、「情報表示」とのユーザ音声に対して全ての詳細情報の項目が紐づけられる、というように、ユーザ音声の種別と詳細情報の項目とが紐づけられていてもよい。なお、物体情報サーバ10は、オブジェクト情報として仮想空間に存在する物体の情報を記憶していてもよい。
 物体情報サーバ10は、対象オブジェクトを特定する特定部として機能する。物体情報サーバ10は、スマートグラス2から取得した撮像画像においてユーザのジェスチャ(第2ジェスチャ,図3に示されるジェスチャHJ2)が示す範囲に基づいて、対象オブジェクトを特定する。ユーザのジェスチャ(第2ジェスチャ)が示す範囲とは、撮像画像においてユーザが指定する指定範囲であり、例えばジェスチャと領域が重なる或いはジェスチャに近接する範囲である。物体情報サーバ10は、例えば、スマートグラス2からジェスチャ(第2ジェスチャ)が示す範囲(指定範囲)の情報を取得する。物体情報サーバ10は、スマートグラス2から、ユーザのジェスチャが示す範囲の撮像画像のみを取得してもよい。物体情報サーバ10は、撮像画像に含まれる各オブジェクトのうち例えばジェスチャと領域が重なる或いはジェスチャから所定の範囲内にあるオブジェクトを対象オブジェクトとして特定する。物体情報サーバ10は、従来から周知の画像認識処理を利用することによって、対象オブジェクトを特定する。物体情報サーバ10は、例えば、記憶しているオブジェクト情報に含まれる各オブジェクトの画像と、ユーザのジェスチャが示す範囲(指定範囲)の画像とを照合することによって、対象オブジェクトを特定する。この場合、物体情報サーバ10は、スマートグラス2における測位結果とオブジェクト情報に含まれるオブジェクトが存在する位置情報とを照合し、スマートグラス2に近い位置に存在するオブジェクトの画像(オブジェクト情報に含まれるオブジェクトの画像)のみを、ユーザの指定範囲の画像と照合してもよい。物体情報サーバ10は、対象オブジェクトを特定すると、オブジェクト情報に基づき、当該対象オブジェクトの名称を特定してもよい。
 図5を参照して、対象オブジェクトの特定方法について説明する。いま、スマートグラス2によって、枠F内が、ジェスチャHJ2が示す範囲(指定範囲A)であると特定されているとする。この場合、物体情報サーバ10は、記憶しているオブジェクト情報に基づいて、指定範囲A内にある対象オブジェクトを特定する。具体的には、物体情報サーバ10は、例えば、オブジェクト情報に含まれるオブジェクトの画像と、撮像画像のうち指定範囲Aに対応する画像とを照合することによって、対象オブジェクトを特定する。図5に示される例では、物体情報サーバ10は、看板H1及び椅子H2を対象オブジェクトとして特定する。物体情報サーバ10は、対象オブジェクトとして特定したオブジェクトを示す情報(スマートグラス2においてどれが対象オブジェクトであるかを判別できる情報)と、該オブジェクトの名称とを対応付けてスマートグラス2に送信する。
 物体情報サーバ10は、音声認識サーバ50によって認識されたユーザ音声にオブジェクトを示す情報が含まれている場合においては、上述したジェスチャ(第2ジェスチャ)が示す範囲のオブジェクトのうち、ユーザ音声に含まれているオブジェクトを対象オブジェクトとして特定してもよい。すなわち、例えば図6に示されるように、「看板」とのユーザ音声が音声認識サーバ50によって認識されている場合においては、物体情報サーバ10は、対象オブジェクトの候補である看板H1及び椅子H2のうち、看板H1のみを対象オブジェクトとして特定してもよい。物体情報サーバ10は、対象オブジェクトとして特定したオブジェクトを示す情報(スマートグラス2においてどれが対象オブジェクトであるかを判別できる情報)をスマートグラス2に送信する。
 物体情報サーバ10は、特定した対象オブジェクトについて、記憶しているオブジェクト情報に基づき、オブジェクトに係る詳細情報(オブジェクトに関する情報)を更に特定する。物体情報サーバ10は、例えば、音声認識サーバ50によって認識されたユーザ音声に第1処理に係る処理内容(具体的には、対象オブジェクトに係る詳細情報の表示)が含まれている場合において、記憶しているオブジェクト情報に基づき、対象オブジェクトに係る詳細情報の特定処理を行う。すなわち、例えば図6に示されるように看板H1が対象オブジェクトとして特定されている状況において、「情報表示」とのユーザ音声が音声認識サーバ50によって認識された場合においては、物体情報サーバ10は、記憶しているオブジェクト情報に基づき、看板H1に係る詳細情報を提示情報として特定する。図6に示される例では、物体情報サーバ10は、提示情報Iとして、店の名称(「XXXX」)、商品名及び商品の料金(「・ボロネーゼ:1,000円 ・ジェノベーゼ:1,100円 ・マルゲリータ:800円」)を特定している。物体情報サーバ10は、提示情報として特定した対象オブジェクトに係る詳細情報をスマートグラス2に送信する。
 物体情報サーバ10は、例えば、音声認識サーバ50によって認識されたユーザ音声に表示態様の変更指示が含まれている場合には、当該変更指示に応じた処理要求をスマートグラス2に送信する。具体的には、物体情報サーバ10は、例えば、「拡大表示」とのユーザ音声が音声認識サーバ50によって認識された場合においては、スマートグラス2に対して、提示情報の拡大表示要求を送信する。
 スマートグラス2は、ユーザに装着されるゴーグル型のウェアラブル機器であり、無線通信を行うように構成された端末である。スマートグラス2は、ユーザに視認される画像を表示可能に構成されている。スマートグラス2は、撮像機能を有しており、例えば、撮像した画像(撮像画像)をリアルタイムに表示する。なお、本実施形態ではスマートグラス2が撮像画像を表示するとして説明しているが、スマートグラス2は、撮像画像以外の画像を表示するものであってもよい。また、スマートグラス2は、装着したユーザの視線情報を取得する機能及び装着したユーザが発した音声(ユーザ音声)を取得する機能を有している。
 スマートグラス2は、自身で又は他のサーバ(不図示)と通信を行うことによって、測位を行うものであってもよい。本実施形態では、スマートグラス2が測位を行うとして説明する。スマートグラス2の測位方法は、限定されず、GPS(Global Positioning System)測位であってもよいし、基地局測位であってもよいし、撮像した画像と他のサーバ(不図示)において記憶されているマップデータとを突合させて行う測位であってもよい。スマートグラス2は、測位結果を継続的に物体情報サーバ10に送信する。
 スマートグラス2は、図2に示されるように、取得部21と、ジェスチャ認識部22と、決定部23と、生成部24及び出力部25(処理実行部)と、を備えている。なお、スマートグラス2は、取得部21が取得する各種情報等を記憶する記憶部(不図示)を更に備えていてもよい。
 取得部21は、ユーザに視認される撮像画像、ユーザの視線情報、及びユーザ音声を取得する。撮像画像とは、上述したようにスマートグラス2において撮像される画像であり、スマートグラス2の画面に表示されてユーザに視認される画像である。ユーザの視線情報とは、上述したようにスマートグラス2を装着したユーザの視線の情報である。ユーザ音声とは、上述したようにスマートグラス2を装着したユーザが発した音声である。取得部21は、取得したユーザ音声を音声認識サーバ50に送信する。
 ジェスチャ認識部22は、取得部21によって取得された撮像画像に示されているユーザのジェスチャを認識する。本実施形態では、ジェスチャ認識部22は、例えば従来から周知の画像認識技術を利用することにより、ユーザのジェスチャを認識する。ジェスチャ認識部22は、第1処理に係るジェスチャとして予め定められた第1ジェスチャを認識する。第1ジェスチャは、画像に係る第1処理を実行するか、或いは、画像に係る処理とは異なる第2処理を実行するか、の決定に係るジェスチャである。第1ジェスチャは、例えば、ユーザが拳を握りしめているハンドジェスチャ(図4に示されるジェスチャHJ1)である。
 また、ジェスチャ認識部22は、対象オブジェクトが含まれ得る範囲を示すジェスチャとして予め定められた第2ジェスチャを更に認識する。第2ジェスチャは、例えば、ユーザが拳を握りしめている状態から開いた状態に変化する一連のハンドジェスチャ(図5に示されるジェスチャHJ2)である。第2ジェスチャは、拳の開き方によって対象オブジェクトが含まれる範囲を表している。すなわち、ジェスチャ認識部22は、図5に示されるように、ユーザが拳を握りしめている状態から徐々に拳を開くジェスチャHJ2を認識すると、ジェスチャHJ2における拳の開き具合(開き方)に応じて、ジェスチャHJ2が示す範囲(対象オブジェクトが含まれる範囲)を特定する。ジェスチャ認識部22によって特定されたジェスチャHJ2が示す範囲は、後述する生成部24によって生成される画像において「枠F」(図5参照)で示される。なお、第1ジェスチャ及び第2ジェスチャは、他のハンドジェスチャ、又はユーザの身体の他の部位のジェスチャであってもよい。ジェスチャ認識部22は、第2ジェスチャを認識した場合において、第2ジェスチャを認識した撮像画像と、該第2ジェスチャが示す範囲の情報とを物体情報サーバ10に送信する。なお、ジェスチャ認識部22は、第2ジェスチャが示す範囲の撮像画像のみを物体情報サーバ10に送信してもよい。
 決定部23は、ユーザの視線情報及びジェスチャ認識部22による認識結果に基づいて、第1モード及び第2モードのいずれを適用するかを決定する。第1モードとは、音声認識サーバ50によって認識されたユーザ音声に応じて画像に係る第1処理を実行するモードである。第2モードとは、音声認識サーバ50によって認識されたユーザ音声に応じて画像に係る処理とは異なる第2処理を実行するモードである。
 具体的には、決定部23は、視線情報及びジェスチャ認識部22による第1ジェスチャの認識結果に基づいて、ユーザが撮像画像に示されている第1ジェスチャを注視しているか否かを判定し、注視している場合に、第1モードを適用すると決定し、注視していない場合に、第2モードを適用すると決定する。すなわち、決定部23は、まず、ジェスチャ認識部22によって第1ジェスチャが認識されているか否かを判定する。そして、決定部23は、第1ジェスチャが認識されている場合において、視線情報に基づき撮像画像においてユーザが第1ジェスチャを注視しているか否かを判定する。決定部23は、第1ジェスチャからのユーザの視線のずれが所定の範囲内(例えば15°以内)である場合には、ユーザが第1ジェスチャを注視していると判定する。
 図4を参照して、対象オブジェクトの特定方法について説明する。いま、スマートグラス2において、メッセージが受信されており、撮像画像である画像P3に「新着メッセージあり」との、ユーザがメッセージを受信した旨の情報が重畳された画像P4が表示されているとする。画像P3には、看板H1、椅子H2、及びユーザのジェスチャHJ1(第1ジェスチャ)が表示されている。この場合、ユーザにより撮像画像に係る処理(第1処理)が要求され得る状況であると共に、ユーザによりメッセージを画面に表示させる処理(第2処理に含まれる処理)が要求され得る状況であるといえる。
 図4に示される例では、ユーザによって拳が握られたジェスチャHJ1が示されているため、ジェスチャ認識部22によって第1ジェスチャが認識される。そして、決定部23によって、視線情報に基づきユーザがジェスチャHJ1を注視していると判定された場合には、ユーザにより撮像画像に係る処理(第1処理)が要求されていると判断され、第1モードを適用することが決定される。一方で、決定部23によって、視線情報に基づきユーザがジェスチャHJ1を注視していないと判定された場合には、ユーザにより撮像画像に係る処理以外の第2処理(例えば、メッセージを画面に表示させる処理)が要求されていると判断され、第2モードを適用することが決定される。
 なお、決定部23は、第1モードを適用することを決定した後において、ジェスチャ認識部22によって、第1処理に係る第2ジェスチャが認識されている間においては、第1モードの適用を継続する。これは、第1処理に係る第2ジェスチャをユーザが表している間は、ユーザは、第2処理ではなく第1処理を要求していると考えられるためである。一方、決定部23は、第1モードを適用することを決定した後において、ジェスチャ認識部22によって第2ジェスチャが認識されなくなった場合においては、第2モードを適用することを決定する。これは、第1処理に係る第2ジェスチャをユーザが止めた場合は、ユーザは、第1処理を要求していないと考えられるためである。
 生成部24は、物体情報サーバ10から取得した情報に基づいて、スマートグラス2の画面に表示(出力)する情報を生成する。生成部24は、物体情報サーバ10から対象オブジェクトとして特定したオブジェクトを示す情報及び該オブジェクトの名称を受信した場合において、撮像画像に対象オブジェクトの名称が重畳された第1画像を生成する。生成部24は、ジェスチャ認識部22によって第2ジェスチャが認識されている場合においては、第1画像において第2ジェスチャが示す範囲を示す枠を更に重畳させる。図5に示される例では、生成部24は、物体情報サーバ10から取得した情報及びジェスチャ認識部22による認識結果に基づいて、撮像画像である画像P5に、第2ジェスチャが示す範囲を示す枠F、対象オブジェクトである看板H1の名称「看板」及び椅子H2の名称「椅子」が重畳された画像P6(第1画像)を生成している。なお、生成部24は、各対象オブジェクトの名称が、対応する対象オブジェクトの近傍に位置するように第1画像を生成してもよい。
 生成部24は、物体情報サーバ10から、対象オブジェクトとして特定したオブジェクトを示す情報、及び、提示情報として特定した対象オブジェクトに係る詳細情報を受信した場合において、撮像画像に提示情報が重畳された第2画像を生成する。図6に示される例では、生成部24は、物体情報サーバ10から取得した情報に基づいて、撮像画像である画像P7に、看板H1が提示する提示情報Iが重畳されると共に看板H1が強調表示された画像P8(第2画像)を生成している。なお、生成部24は、対象オブジェクトの提示情報が、対応する対象オブジェクトの近傍に位置するように第2画像を生成してもよい。
 生成部24は、物体情報サーバ10から、第2画像における提示情報の表示態様の変更要求を受信した場合において、第2画像の提示情報の表示態様を変更した第3画像を生成する。図7に示される例では、生成部24は、物体情報サーバ10から、提示情報の拡大表示要求を受信している。この場合、生成部24は、撮像画像である画像P9に、文字が拡大された態様の提示情報Iが重畳された画像P10(第3画像)を生成する。
 生成部24は、上述したように、決定部23によって適用すると決定された第1モードの処理を実行する処理実行部として機能している。すなわち、生成部24は、音声認識サーバ50によって認識されたユーザ音声に第1処理に係る処理内容(例えば、情報提示)が含まれている場合において、該処理内容に応じた処理である第2画像等の生成を第1処理として実行している。また、生成部24は、上述したように、物体情報サーバ10により特定された対象オブジェクトに関する情報に基づいて、出力情報を生成している。より具体的には、生成部24は、対象オブジェクトに関する情報が対象オブジェクトに対応付けられて重畳表示された重畳画像である第2画像を出力情報として生成している。
 出力部25は、生成部24が生成した情報を出力(スマートグラス2の画面に表示)する。すなわち、出力部25は、上述した第1画像、第2画像、及び第3画像をスマートグラス2の画面に表示する。出力部25は、このように、決定部23によって適用すると決定された第1モードの処理を実行する処理実行部として機能している。すなわち、出力部25は、音声認識サーバ50によって認識されたユーザ音声に第1処理に係る処理内容(例えば、情報提示)が含まれている場合において、該処理内容に応じた処理である第2画像等の出力を第1処理として実行している。
 なお、生成部24及び出力部25は、決定部23によって第2モードの処理を実行する(すなわち、撮像画像に係る処理以外の第2処理を実行する)と決定された場合において、当該第2処理を実行する処理実行部として機能してもよい。すなわち、例えば、決定部23によって、新着メッセージを画面に表示させる処理(第2処理)を実行すると決定された場合において、生成部24が新着メッセージを重畳させた画像を生成し、出力部25が当該画像を出力してもよい。
 次に、本実施形態に係る情報処理システム1が行う処理について、図8を参照して説明する。図8は、情報処理システム1が行う処理を示すシーケンス図である。
 図8に示されるように、情報処理システム1では、最初にスマートグラス2がユーザの視線情報及び第1ジェスチャに基づき第1モードの適用を決定する(ステップS1)。具体的には、スマートグラス2は、第1ジェスチャをユーザが注視している場合に、第1モードの適用を決定する。
 つづいて、スマートグラス2は、第2ジェスチャを認識し、第2ジェスチャが示す範囲に基づいて対象オブジェクトが存在し得る範囲を特定する(ステップS2)。つづいて、スマートグラス2は、物体情報サーバ10に、撮像画像を送信する(ステップS3)。スマートグラス2は、ステップS2において特定した対象オブジェクトが存在し得る範囲の撮像画像のみを物体情報サーバ10に送信してもよい。
 つづいて、物体情報サーバ10は、スマートグラス2から取得した撮像画像(第2ジェスチャが示す範囲の情報を含む)と、記憶している対象オブジェクト情報とに基づいて、対象オブジェクト及びその名称を特定する(ステップS4)。スマートグラス2は、特定した情報をスマートグラス2に送信する(ステップS5)。
 つづいて、スマートグラス2は、物体情報サーバ10から取得した情報(対象オブジェクト及びその名称)に基づいて、撮像画像に対象オブジェクトの名称が重畳された第1画像(図5に示される画像P6)を生成し、画面に表示する(ステップS6)。画像P6においては、第2ジェスチャが示す範囲を示す枠F、対象オブジェクトである看板H1の名称「看板」及び椅子H2の名称「椅子」が表示されている。
 この状態において、スマートグラス2は、ユーザが発する音声であるユーザ音声を取得し、音声認識サーバ50に送信する(ステップS7)。いま、スマートグラス2は、画像P6を閲覧したユーザから、対象オブジェクトを絞り込むための名称(「看板」)、及び、処理内容(「情報表示」)を含んだユーザ音声を取得したとする。この場合、音声認識サーバ50は、音声認識によって「看板」「情報表示」との用語を認識する(ステップS8)。そして、音声認識サーバ50は、音声認識結果を物体情報サーバ10に送信する(ステップS9)。
 つづいて、物体情報サーバ10は、音声認識結果を受信し、「看板」とのオブジェクトを示す情報に基づき対象オブジェクトを看板H1に絞り込むと共に、「情報表示」との処理内容に基づき記憶しているオブジェクト情報から看板H1に係る詳細情報(提示情報)を特定し、特定した情報をスマートグラス2に送信する(ステップS10)。
 つづいて、スマートグラス2は、物体情報サーバ10から取得した情報(対象オブジェクト及び提示情報)に基づいて、撮像画像に提示情報が重畳された第2画像(図6に示される画像P8)を生成し、画面に表示する(ステップS11)。画像P8においては、看板H1が提示する提示情報Iが表示されると共に看板H1が強調表示される。
 この状態において、スマートグラス2は、更なるユーザ音声を取得し、音声認識サーバ50に送信する(ステップS12)。いま、スマートグラス2は、画像P8を閲覧したユーザから、更なる処理内容(拡大表示)を含んだユーザ音声を取得したとする。この場合、音声認識サーバ50は、音声認識によって「拡大表示」との用語を認識する(ステップS13)。そして、音声認識サーバ50は、音声認識結果を物体情報サーバ10に送信する(ステップS14)。
 つづいて、物体情報サーバ10は、音声認識結果を受信し、「拡大表示」との処理内容を特定し、拡大表示要求をスマートグラス2に送信する(ステップS15)。そして、スマートグラス2は、物体情報サーバ10から取得した情報(拡大表示要求)に基づいて、撮像画像に文字が拡大された態様の提示情報Iが重畳された画像(図7に示される画像P10)を生成し、画面に表示する(ステップS16)。
 次に、本実施形態に係る情報処理システム1の作用効果について説明する。
 本実施形態に係る情報処理システム1は、ユーザに装着されるスマートグラス2において表示されることによりユーザに視認される画像、ユーザの視線情報、及びユーザが発した音声であるユーザ音声を取得する取得部21と、取得部21によって取得された画像に示されているユーザのジェスチャを認識するジェスチャ認識部22と、取得部21によって取得されたユーザ音声を認識する音声認識サーバ50と、視線情報及びジェスチャ認識部22による認識結果に基づいて、音声認識サーバ50によって認識されたユーザ音声に応じて画像に係る第1処理を実行する第1モード、及び、音声認識サーバ50によって認識されたユーザ音声に応じて画像に係る処理とは異なる第2処理を実行する第2モードのいずれを適用するかを決定する決定部23と、決定部23によって適用すると決定された第1モード又は第2モードの処理を実行する生成部24及び出力部25と、を備える。
 本実施形態に係る情報処理システム1では、ユーザ音声、スマートグラス2において表示されることでユーザに視認される画像(撮像画像)及びユーザの視線情報が取得され、ユーザのジェスチャ及びユーザ音声が認識される。そして、ユーザの視線情報、及びジェスチャの認識結果に基づいて、第1モード及び第2モードのいずれを適用するかが決定される。第1モードは、ユーザ音声に応じて画像に係る処理を実行するモードである。第2モードは、ユーザ音声に応じて画像に係る処理とは異なる処理を実行するモードである。例えば、情報処理システムが、単に音声認識のみによって第1モード及び第2モードのいずれを適用するかを決定する場合において、まず、ユーザから音声の入力が受け付けられる。そして、情報処理システムは、ユーザの音声を認識するが、当該音声が、いずれの処理に係る音声なのかを把握することが困難である場合がある。この場合、例えば、当該音声が画像に係る処理に係る音声であっても、画像に係る処理とは異なる処理が実行されるおそれがある。
 この点、情報処理システム1では、ユーザの意思を反映していると考えられる、ユーザの視線情報及びジェスチャに基づいて、画像に係る処理が実行されるモード、及び画像に係る処理以外の処理が実行されるモードのいずれが適用されるかが決定されるため、ユーザの要求に沿った適切な処理を行うことができる。また、情報処理システム1では、ユーザの意思に沿わない処理(すなわち、不要な処理)が行われることが抑制されるので、処理負荷を軽減することができるという技術的効果を奏する。
 情報処理システム1では、ジェスチャ認識部22が、第1処理に係るジェスチャとして予め定められた第1ジェスチャを認識し、決定部23は、視線情報及びジェスチャ認識部22による第1ジェスチャの認識結果に基づいて、ユーザが、画像に示されている第1ジェスチャを注視しているか否かを判定し、第1ジェスチャをユーザが注視している場合に、第1モードを適用することを決定する。
 一般的に、ある領域をユーザが注視している場合、ユーザは当該領域に関心をもっていると考えられる。そして、第1処理に係るジェスチャとして予め定められた第1ジェスチャをユーザが注視している場合、ユーザは第1処理(画像に対する処理)を要求している可能性が高いと考えられる。情報処理システム1では第1ジェスチャをユーザが注視している場合に、ユーザ音声に応じて画像に対する処理を実行する第1モードが適用されるため、ユーザが画像に対する処理を要求している場合において、第1モードが適用される可能性を高めることができる。
 情報処理システム1では、処理実行部として機能する生成部24及び出力部25が、音声認識サーバ50によって認識されたユーザ音声に第1処理に係る処理内容が含まれている場合においては、当該処理内容に応じた処理を第1処理として実行する。このように、ユーザ音声に基づいてユーザが要求している処理内容が判断されて該処理内容に応じた画像の生成及び表示(出力)がなされることにより、ユーザの要求に沿った適切な処理を行うことができる。
 情報処理システム1は、画像に含まれるオブジェクトであって第1処理の対象のオブジェクトである対象オブジェクトを特定する処理を実行する物体情報サーバ10を備え、ジェスチャ認識部22は、対象オブジェクトが含まれ得る範囲を示すジェスチャとして予め定められた第2ジェスチャを更に認識し、物体情報サーバ10は、画像において第2ジェスチャが示す範囲に基づいて、対象オブジェクトを特定する。このように、ユーザの意思が反映されているジェスチャが示す範囲に基づいて対象オブジェクトが特定されることにより、ユーザが対象オブジェクトとしたい(処理の対象としたい)オブジェクトを適切に特定することができる。
 情報処理システム1では、物体情報サーバ10が、複数のオブジェクトのそれぞれについてオブジェクトを示す情報とオブジェクトに関する情報とが少なくとも対応付けられたオブジェクト情報を記憶すると共に、特定した対象オブジェクトについてオブジェクト情報に基づきオブジェクトに関する情報を更に特定し、生成部24が、第1モードの第1処理として、物体情報サーバ10により特定された対象オブジェクトに関する情報に基づいて出力情報(図6の画像P8等)を生成し、出力部25が、生成部24が生成した出力情報をスマートグラス2の画面に表示する。このような構成によれば、ユーザがジェスチャを行うことによって対象オブジェクトに関する情報が容易に取得される。すなわち、このような構成によれば、ユーザにとって簡易な方法によってユーザが知りたい情報を取得することができる。
 情報処理システム1では、生成部24が、物体情報サーバ10により特定された対象オブジェクトに関する情報が対象オブジェクトに対応付けられて重畳表示された重畳画像(図6の画像P8)を出力情報として生成する。このように、対象オブジェクトと対象オブジェクトに関する情報とが対応付けられて表示されることによって、対象オブジェクトに関する情報を、よりユーザが把握し易い態様で表示することができる。
 情報処理システム1では、物体情報サーバ10が、音声認識サーバ50によって認識されたユーザ音声にオブジェクトを示す情報が含まれている場合においては、第2ジェスチャが示す範囲のオブジェクトのうち、ユーザ音声に含まれているオブジェクトを対象オブジェクトとして特定する。このように、ユーザ音声の情報を更に考慮して対象オブジェクトが特定されることにより、ユーザが対象オブジェクトとしたいオブジェクトをより確実且つ容易に特定することができる。
 決定部23は、第1モードを適用することを決定した後において、ジェスチャ認識部22によって第2ジェスチャが認識されている間においては、第1モードの適用を継続する。
 ユーザの意思が反映されている第2ジェスチャをユーザが継続している状態においては、ユーザは、画像に係る処理を継続して要求している可能性が高いと考えられる。情報処理システム1では、そのような状態において第1モードを継続するため、ユーザの要求する処理を確実に実行することができる。
 決定部23は、第1モードを適用することを決定した後において、ジェスチャ認識部22によって第2ジェスチャが認識されなくなった場合においては、第2モードを適用することを決定する。
 ユーザの意思が反映されている第2ジェスチャをユーザが中断した場合には、ユーザは、画像に対する処理を要求しなくなった可能性が高いと考えられる。情報処理システム1では、そのような状態において、第1処理(画像に係る処理)を実行する第1モードから、第2処理(画像に係る処理とは異なる処理)を実行する第2モードに切り替えられるため、ユーザの要求する処理を確実に実行することができる。
 次に、情報処理システム1に含まれたスマートグラス2、音声認識サーバ50、及び物体情報サーバ10のハードウェア構成について、図9を参照して説明する。上述のスマートグラス2、音声認識サーバ50、及び物体情報サーバ10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。スマートグラス2、音声認識サーバ50、及び物体情報サーバ10のハードウェア構成は、図9に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 スマートグラス2、音声認識サーバ50、及び物体情報サーバ10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインタフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、スマートグラス2の取得部21等の制御機能はプロセッサ1001で実現されてもよい。
 また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。
 例えば、スマートグラス2の取得部21等の制御機能は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CDROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
 通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
 また、スマートグラス2、音声認識サーバ50、及び物体情報サーバ10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
 以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
 例えば、情報処理システム1は、スマートグラス2、音声認識サーバ50、及び物体情報サーバ10を含んで構成されているとして説明したが、これに限定されず、情報処理システム1の各機能が、スマートグラス2のみによって実現されてもよい。また、情報処理システム1の各機能のうち、決定部23による第1モードの決定処理、及び第2ジェスチャに基づいた指定範囲の画定処理が物体情報サーバ10によって実現されてもよい。
 本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broad-band)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-Wide Band)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
 本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
 本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
 なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
 また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
 スマートグラス2は、当業者によって、移動通信端末、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。
 本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
 本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
 「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
 本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。
 本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
 1…情報処理システム、2…スマートグラス(端末)、10…物体情報サーバ(特定部,記憶部)、21…取得部、22…ジェスチャ認識部、23…決定部、24…生成部(処理実行部)、25…出力部(処理実行部)、50…音声認識サーバ(音声認識部)、H1…看板(対象オブジェクト)、H2…椅子(対象オブジェクト)、HJ1…ジェスチャ(第1ジェスチャ)、HJ2…ジェスチャ(第2ジェスチャ)、P8…画像(重畳画像)。

Claims (9)

  1.  ユーザに装着された端末において表示されることにより前記ユーザに視認される画像、前記ユーザの視線情報、及び前記ユーザが発した音声であるユーザ音声を取得する取得部と、
     前記取得部によって取得された前記画像に示されている前記ユーザのジェスチャを認識するジェスチャ認識部と、
     前記取得部によって取得された前記ユーザ音声を認識する音声認識部と、
     前記視線情報、及び前記ジェスチャ認識部による認識結果に基づいて、前記音声認識部によって認識された前記ユーザ音声に応じて前記画像に係る第1処理を実行する第1モード、及び、前記音声認識部によって認識された前記ユーザ音声に応じて前記画像に係る処理とは異なる第2処理を実行する第2モードのいずれを適用するかを決定する決定部と、
     前記決定部によって適用すると決定された前記第1モード又は前記第2モードの処理を実行する処理実行部と、を備える、情報処理システム。
  2.  前記ジェスチャ認識部は、前記第1処理に係る前記ジェスチャとして予め定められた第1ジェスチャを認識し、
     前記決定部は、
     前記視線情報、及び前記ジェスチャ認識部による前記第1ジェスチャの認識結果に基づいて、前記ユーザが、前記画像に示されている前記第1ジェスチャを注視しているか否かを判定し、
     前記第1ジェスチャを前記ユーザが注視している場合に、前記第1モードを適用すると決定する、請求項1に記載の情報処理システム。
  3.  前記処理実行部は、前記音声認識部によって認識された前記ユーザ音声に前記第1処理に係る処理内容が含まれている場合においては、該処理内容に応じた処理を前記第1処理として実行する、請求項1又は2に記載の情報処理システム。
  4.  前記画像に含まれるオブジェクトであって前記第1処理の対象のオブジェクトである対象オブジェクトを特定する特定部を更に備え、
     前記ジェスチャ認識部は、前記対象オブジェクトが含まれ得る範囲を示す前記ジェスチャとして予め定められた第2ジェスチャを更に認識し、
     前記特定部は、前記画像において前記第2ジェスチャが示す範囲に基づいて、前記対象オブジェクトを特定する、請求項1~3のいずれか一項に記載の情報処理システム。
  5.  複数のオブジェクトのそれぞれについて、オブジェクトを示す情報とオブジェクトに関する情報とが少なくとも対応付けられたオブジェクト情報を記憶する記憶部を更に備え、
     前記特定部は、特定した前記対象オブジェクトについて、前記オブジェクト情報に基づき前記オブジェクトに関する情報を更に特定し、
     前記処理実行部は、前記第1モードの第1処理として、前記特定部により特定された前記対象オブジェクトに関する情報に基づいて出力情報を生成すると共に、生成した該出力情報を出力する、請求項4に記載の情報処理システム。
  6.  前記処理実行部は、前記特定部により特定された前記対象オブジェクトに関する情報が前記対象オブジェクトに対応付けられて重畳表示された重畳画像を前記出力情報として生成する、請求項5に記載の情報処理システム。
  7.  前記特定部は、前記音声認識部によって認識された前記ユーザ音声にオブジェクトを示す情報が含まれている場合においては、前記第2ジェスチャが示す範囲のオブジェクトのうち、前記ユーザ音声に含まれているオブジェクトを前記対象オブジェクトとして特定する、請求項4~6のいずれか一項に記載の情報処理システム。
  8.  前記決定部は、前記第1モードを適用することを決定した後において、前記ジェスチャ認識部によって前記第2ジェスチャが認識されている間においては、前記第1モードの適用を継続する、請求項4~7のいずれか一項に記載の情報処理システム。
  9.  前記決定部は、前記第1モードを適用することを決定した後において、前記ジェスチャ認識部によって前記第2ジェスチャが認識されなくなった場合においては、前記第2モードを適用することを決定する、請求項4~8のいずれか一項に記載の情報処理システム。
PCT/JP2021/016515 2020-05-15 2021-04-23 情報処理システム WO2021230048A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022521806A JP7402322B2 (ja) 2020-05-15 2021-04-23 情報処理システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-085941 2020-05-15
JP2020085941 2020-05-15

Publications (1)

Publication Number Publication Date
WO2021230048A1 true WO2021230048A1 (ja) 2021-11-18

Family

ID=78525636

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/016515 WO2021230048A1 (ja) 2020-05-15 2021-04-23 情報処理システム

Country Status (2)

Country Link
JP (1) JP7402322B2 (ja)
WO (1) WO2021230048A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091433A (ja) * 2015-11-17 2017-05-25 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置を制御する方法、コンピュータープログラム
JP2018516422A (ja) * 2015-05-28 2018-06-21 アイサイト モバイル テクノロジーズ エルティーディー. スマートホームのためのジェスチャ制御システム及び方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6795806B1 (en) 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
JP6127839B2 (ja) 2013-09-02 2017-05-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
KR20180071092A (ko) 2016-12-19 2018-06-27 삼성전자주식회사 사용자의 시선 및 입력에 기반하여 제어되는 전자 장치, 모바일 전자 장치 및 디스플레이 장치
CN110785688B (zh) 2017-04-19 2021-08-27 奇跃公司 可穿戴系统的多模式任务执行和文本编辑
WO2019026616A1 (ja) 2017-08-01 2019-02-07 ソニー株式会社 情報処理装置および方法
US10540015B2 (en) 2018-03-26 2020-01-21 Chian Chiu Li Presenting location related information and implementing a task based on gaze and voice detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018516422A (ja) * 2015-05-28 2018-06-21 アイサイト モバイル テクノロジーズ エルティーディー. スマートホームのためのジェスチャ制御システム及び方法
JP2017091433A (ja) * 2015-11-17 2017-05-25 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置を制御する方法、コンピュータープログラム

Also Published As

Publication number Publication date
JPWO2021230048A1 (ja) 2021-11-18
JP7402322B2 (ja) 2023-12-20

Similar Documents

Publication Publication Date Title
US10614172B2 (en) Method, apparatus, and system for providing translated content
US11120630B2 (en) Virtual environment for sharing information
US20150242065A1 (en) Method and apparatus for displaying screen on electronic device
US9791963B2 (en) Method and apparatus for detecting user input in an electronic device
KR102178892B1 (ko) 정보 제공 방법 및 그 전자 장치
US20150271175A1 (en) Method for performing communication via fingerprint authentication and electronic device thereof
EP3190527A1 (en) Multimedia data processing method of electronic device and electronic device thereof
US10034151B2 (en) Method for providing point of interest and electronic device thereof
US20160077621A1 (en) Electronic device and control method thereof
KR20160011388A (ko) 전자 장치의 화면 표시 방법 및 그 전자 장치
JP6853152B2 (ja) 情報処理装置、端末装置および情報処理システム
KR102177802B1 (ko) 멀티 심이 구비된 전자 장치 및 방법
EP2998855A1 (en) Method and apparatus for inputting object in electronic device
US9959598B2 (en) Method of processing image and electronic device thereof
KR20170060567A (ko) 전자 장치 및 그 제어 방법
WO2021230048A1 (ja) 情報処理システム
US9510167B2 (en) Electronic device and method for changing alarm mode
WO2021235147A1 (ja) 情報処理システム
US10496715B2 (en) Method and device for providing information
US10482151B2 (en) Method for providing alternative service and electronic device thereof
US20160112474A1 (en) Method for providing content and electronic device thereof
US20160028669A1 (en) Method of providing content and electronic device thereof
CN108475367B (zh) 用于显示支付方式的指示的方法和装置
EP3519773B1 (en) Electronic device and location-based information service method therewith
JP7525741B2 (ja) コンテンツ共有システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21805308

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022521806

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21805308

Country of ref document: EP

Kind code of ref document: A1