WO2013179985A1 - 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム - Google Patents
情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム Download PDFInfo
- Publication number
- WO2013179985A1 WO2013179985A1 PCT/JP2013/064238 JP2013064238W WO2013179985A1 WO 2013179985 A1 WO2013179985 A1 WO 2013179985A1 JP 2013064238 W JP2013064238 W JP 2013064238W WO 2013179985 A1 WO2013179985 A1 WO 2013179985A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- instruction
- user
- information
- voice
- search range
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims description 47
- 238000004891 communication Methods 0.000 title claims description 45
- 238000003672 processing method Methods 0.000 title claims description 4
- 230000033001 locomotion Effects 0.000 claims abstract description 35
- 238000001514 detection method Methods 0.000 claims description 32
- 230000005540 biological transmission Effects 0.000 claims description 24
- 238000010586 diagram Methods 0.000 description 32
- 238000003780 insertion Methods 0.000 description 28
- 230000037431 insertion Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 10
- 210000003811 finger Anatomy 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 2
- 210000004247 hand Anatomy 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 208000010415 Low Vision Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004303 low vision Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/0304—Detection arrangements using opto-electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Definitions
- the present invention relates to a technique for recognizing user instruction contents from a plurality of different instruction information.
- Patent Document 1 discloses an operation instruction candidate based on a user's gesture photographed by a camera and an operation instruction candidate based on a user's voice collected by a microphone. A technique for outputting one operation instruction is disclosed.
- the analysis of the operation instruction candidate based on the user's gesture and the analysis of the operation instruction candidate based on the user's voice are performed independently. I could not squeeze it effectively.
- An object of the present invention is to provide a technique for solving the above-described problems.
- an information processing apparatus provides: Instruction information receiving means for receiving instruction voice information indicating the user's instruction voice acquired via the user's voice and instruction operation information indicating the user's instruction action acquired via the user's action
- Instruction information receiving means for receiving instruction voice information indicating the user's instruction voice acquired via the user's voice and instruction operation information indicating the user's instruction action acquired via the user's action
- Search range determining means for determining a search range for recognizing the instruction action information according to the instruction voice information, or for determining a search range for recognizing the instruction voice information according to the instruction action information
- User instruction recognition means for searching the instruction voice information or the instruction operation information in the search range determined by the search range determination means and recognizing the user instruction from the search result; Is provided.
- a method for controlling an information processing apparatus includes: Instruction information receiving step for receiving instruction voice information indicating the user's instruction voice acquired via the user's voice and instruction action information indicating the user's instruction action acquired via the user's action
- a search range determining step for determining a search range for recognizing the instruction action information according to the instruction voice information, or for determining a search range for recognizing the instruction voice information according to the instruction action information
- a control program for an information processing apparatus provides: Instruction information receiving step for receiving instruction voice information indicating the user's instruction voice acquired via the user's voice and instruction action information indicating the user's instruction action acquired via the user's action
- a search range determining step for determining a search range for recognizing the instruction action information according to the instruction voice information, or for determining a search range for recognizing the instruction voice information according to the instruction action information
- a user instruction recognition step of searching the instruction voice information or the instruction operation information in the search range determined in the search range determination step and recognizing the user's instruction from a search result; Is executed on the computer.
- a communication terminal provides: Voice detection means for detecting the user's voice; Action detecting means for detecting the action of the user; Instruction voice information indicating the user's instruction voice is acquired via the voice detection means, instruction operation information indicating the user's instruction action is acquired via the action detection means, the instruction voice information and the instruction action Instruction information transmission means for transmitting information to the information processing apparatus together with device information of the device that is the instruction target of the user; An operation command receiving means for receiving, from the information processing device, an operation command of the device according to the user's instruction recognized by the information processing device from the instruction voice information and the instruction operation information; An operation command output unit that outputs the operation command received by the operation command receiving unit to the device that is an instruction target of the user; Is provided.
- a communication terminal control method includes: Instruction voice information indicating the user's instruction voice is obtained via voice detection means for detecting the user's voice, and instruction operation information indicating the user's instruction action is obtained via the action detection means for detecting the user's action.
- a communication terminal control program provides: Instruction voice information indicating the user's instruction voice is obtained via voice detection means for detecting the user's voice, and instruction operation information indicating the user's instruction action is obtained via the action detection means for detecting the user's action.
- a communication terminal provides: Voice detection means for detecting the user's voice; Action detecting means for detecting the action of the user; Instruction information acquisition means for acquiring instruction voice information indicating the user's instruction voice acquired via the user's voice and instruction operation information indicating the user's instruction action acquired via the user's action
- Search range determining means for determining a search range for recognizing the instruction action information according to the instruction voice information, or for determining a search range for recognizing the instruction voice information according to the instruction action information
- User instruction recognition means for searching the instruction voice information or the instruction operation information in the search range determined by the search range determination means and recognizing the user instruction from the search result; Is provided.
- a communication terminal control method includes: A voice detection step for detecting the voice of the user; An action detecting step for detecting the action of the user; Instruction information acquisition step for acquiring instruction voice information indicating the user's instruction voice acquired via the user's voice and instruction operation information indicating the user's instruction action acquired via the user's action
- a search range determining step for determining a search range for recognizing the instruction action information according to the instruction voice information, or for determining a search range for recognizing the instruction voice information according to the instruction action information
- a communication terminal control program provides: A voice detection step for detecting the voice of the user; An action detecting step for detecting the action of the user; Instruction information acquisition step for acquiring instruction voice information indicating the user's instruction voice acquired via the user's voice and instruction operation information indicating the user's instruction action acquired via the user's action
- a search range determining step for determining a search range for recognizing the instruction action information according to the instruction voice information, or for determining a search range for recognizing the instruction voice information according to the instruction action information
- a system provides: An information processing system including an information processing apparatus and a communication terminal connected via a network,
- the information processing apparatus is Instruction voice information indicating the user's instruction voice acquired via the user's voice and instruction operation information indicating the user's instruction action acquired via the user's action are the target of the user.
- Instruction information receiving means for receiving together with device information of the device, Search range determining means for determining a search range for recognizing the instruction action information according to the instruction voice information, or for determining a search range for recognizing the instruction voice information according to the instruction action information; , User instruction recognition means for searching the instruction voice information or the instruction operation information in the search range determined by the search range determination means and recognizing the user instruction from the search result; An operation command transmission means for transmitting an operation command of the device according to the user's instruction recognized by the user instruction recognition means; With The communication terminal is Voice detection means for detecting the user's voice; Action detecting means for detecting the action of the user; Instruction voice information indicating the user's instruction voice is acquired via the voice detection means, instruction operation information indicating the user's instruction action is acquired via the action detection means, the instruction voice information and the instruction action Instruction information transmission means for transmitting information to the information processing apparatus together with device information of the device that is the instruction target of the user; An operation command receiving means for receiving, from the information processing device, an operation command of the
- the method according to the present invention comprises: An information processing method for an information processing system including an information processing apparatus and a communication terminal connected via a network,
- the information processing apparatus is Instruction voice information indicating the user's instruction voice acquired via the user's voice, and instruction operation information indicating the user's instruction action acquired via the user's action,
- An instruction information receiving step to be received together with device information of the device
- a search range determining step for determining a search range for recognizing the instruction action information according to the instruction voice information, or for determining a search range for recognizing the instruction voice information according to the instruction action information
- a user instruction recognition step of searching the instruction voice information or the instruction operation information in the search range determined in the search range determination step and recognizing the user's instruction from a search result
- An operation command transmission step of transmitting an operation command of the device according to the user's instruction recognized in the user instruction recognition step
- the communication terminal is Instruction voice information indicating the user's instruction voice is obtained via voice detection means for detecting the user's voice, and instruction operation
- the mutual search range is determined from a plurality of different instruction information, so that even if the operation instruction candidates are expanded, the operation instruction candidates corresponding to the user can be narrowed down effectively.
- the information processing apparatus 100 is an apparatus that recognizes instruction contents of the users 111 to 11n.
- the information processing apparatus 100 includes an instruction information receiving unit 101, a search range determining unit 102, and a user instruction recognizing unit 103.
- the instruction information receiving unit 101 includes instruction voice information 101a indicating the user instruction voice acquired via the voices of the users 111 to 11n, and an instruction indicating the user instruction action acquired via the actions of the users 111 to 11n.
- the operation information 101b is received.
- the search range determination unit 102 determines a search range for recognizing the instruction action information 101b according to the instruction voice information 101a or a search range for recognizing the instruction voice information 101a according to the instruction action information 101b. decide.
- the user instruction recognition unit 103 searches the instruction voice information 101a or the instruction operation information 101b in the search range determined by the search range determination unit 102, and recognizes the user instruction from the search result.
- the mutual search range is determined from a plurality of different instruction information, so that even if the operation instruction candidates are expanded, the operation instruction candidates corresponding to the user can be effectively narrowed down.
- the information processing system acquires instruction voice information based on a user's voice and instruction operation information based on a user's gesture and motion, and determines a search range in which operation instruction candidates are searched for each other.
- the information processing system in the information processing system according to the present embodiment, as a specific example, a case where a store clerk instructs to drive a tray insertion slot in automatic collection of plates in a rotating sushi is shown.
- the store clerk gives voice instructions at the same time as gesture instructions and motion instructions by hand and fingers.
- a tablet for ordering prepared in the sushi bar seats is equipped with a camera and a microphone to acquire instruction operation information and instruction voice information based on gestures and motion.
- the cloud server as the information processing apparatus determines a range of mutual operation instruction candidates to be searched based on the instruction operation information and the instruction voice information from the accumulated past history.
- the search range is determined based on the instructions at the conveyor belt sushi
- the operation instruction search range is determined based on the language or nationality used by the instruction voice
- the voice instruction is searched based on the race or habit based on the instruction operation.
- a range determination is made.
- the search for operation instruction candidates is performed by narrowing down the search range corresponding to the attribute of the user who has instructed the operation. Therefore, a large number of operation instruction candidates including different user attributes can be prepared. It is possible to effectively narrow down operation instruction candidates corresponding to the user.
- FIG. 2 is a block diagram illustrating a configuration of the information processing system 200 according to the present embodiment.
- the information processing system 200 includes a cloud server 210 that is an information processing device, an order tablet 220 that is a communication terminal connected to the cloud server 210 via a network 250, and a tray loading port drive unit 230 to which the order tablet 220 is connected. And a tray insertion port 240.
- the order tablet 220 has a function of ordering sushi by the user instructing the touch panel 221, captures the images of the user and the store clerk in the audience with the camera 222, and acquires the audio of the user and the store clerk with the microphone 223. .
- the video and audio of the user and the store clerk are transmitted to the cloud server 210 via the network 250.
- the cloud server 210 includes an instruction information reception unit 211, a search range determination unit 212, and a user instruction recognition unit 213. In addition, it has an instruction history learning database (instruction history learning DB in the figure) 214 which is an instruction history storage unit for storing user and store clerk instruction histories.
- instruction history learning database instruction history learning DB in the figure
- FIG. 3 is a diagram for explaining an operation concept of the information processing system 200 according to the present embodiment.
- the shop assistants 251 and 252 of the carousel sushi restaurant give instructions to open the dish slot 240 by driving the dish slot driver 230, voice instructions, and operation instructions (motion and gestures).
- the cloud server 210 recognizes the content of the instruction and drives the tray loading slot drive unit 230.
- the left and right diagrams show voice instructions and operation instructions by the clerk 251 and 252, and the central view shows a state in which the dish insertion port drive unit 230 is driven and the dish insertion port 240 is opened.
- the store clerk 251 gives a voice instruction “OPEN” in English, and gives an operation instruction to point at the tray insertion port 240 with the index finger.
- the camera 222 of the order tablet 220 that images the clerk 251 captures an image of the operation of the clerk 251 that points to the tray insertion port 240.
- the microphone 223 of the order tablet 220 that acquires the voice of the salesclerk 251 acquires the voice of the salesclerk 251 with “OPEN”.
- the order tablet 220 transmits the captured image of the operation of the clerk 251 and the sound “OPEN” to the cloud server 210.
- the cloud server 210 refers to the instruction history learning database 214 that accumulates the history of past instruction information and recognition results, and recognizes that the clerk 251 has instructed to open the tray insertion slot 240. Then, as shown in the center diagram, the dish insertion slot driving unit 230 is driven to open the dish insertion slot 240 and the dish 260 is loaded via the order tablet 220 that has received the instruction from the salesclerk 251.
- the store clerk 252 gives a voice instruction in Japanese with “Hirake” and gives an operation instruction to make a ring with the thumb and index finger.
- the camera 222 of the order tablet 220 that images the clerk 252 captures an image of the operation of the clerk 252 that creates a ring with the thumb and index finger.
- the microphone 223 of the order tablet 220 that acquires the voice of the clerk 252 acquires the voice of the clerk 252 “open”.
- the order tablet 220 transmits the captured image of the operation of the clerk 252 and the voice of “open” to the cloud server 210.
- the cloud server 210 refers to the instruction history learning database 214 that accumulates the history of past instruction information and recognition results, and recognizes that the clerk 252 has instructed to open the tray insertion port 240. Then, as shown in the center diagram, the tray insertion slot driving unit 230 is driven to open the tray insertion slot 240 and the tray 260 is inserted via the order tablet 220 that has received the instruction from the store 252.
- the instruction history learning database 214 of the cloud server 210 is determined so as to determine a search range for searching for user instructions from each other's instruction information based on the voice instructions and operation instructions of the store clerk 251 or the store clerk 252. Is accumulated. For example, as a simple example, if it is recognized that the scene in which the instruction is being given is a scene of the clerk's dish being cleaned up at the sushi bar, the search range by voice or video is included in the contents of the clerk's instruction in that scene. Squeeze.
- the search range of the clerk's operation instructions is characterized by nationality, language, race, etc.
- the search range of the store clerk's voice instructions is characteristic of nationality, race, etc. Narrow the search range of voice recognition.
- the cloud server 210 of this embodiment accumulates voice instructions and operation instructions of other nationalities and races in various scenes in the world, and is based on transmission of voice instructions and operation instructions from communication terminals all over the world. By determining the search range for each instruction recognition, it is possible to recognize the instructions quickly and accurately. Further, the instruction history learning database 214 of the cloud server 210 also accumulates when the acquired voice instruction and operation instruction do not match the instruction of the recognition result, and when the number of appearances that do not match exceeds the threshold, the voice is recorded. Add to the search range for recognizing instructions and operation instructions. In this way, it is possible to recognize instructions with flexibility by accepting instructions from people who have learned wrong words and actions.
- FIG. 3 the operation instruction of the clerk using the touch panel 221 is not illustrated because it is complicated, but the operation instruction from the touch panel 221 is also included in this embodiment (see FIGS. 15 and 18). .
- FIG. 4 is a sequence diagram showing an operation procedure of the information processing system 200 according to the present embodiment.
- step S401 an instruction input from a user or a store clerk is acquired from the touch panel 221 of the order tablet 220.
- step S ⁇ b> 403 a gesture video of the user or a store clerk is acquired from the camera 222 of the order tablet 220.
- step S405 the voice instruction of the user or the store clerk is acquired from the microphone 223 of the order tablet 220.
- step S407 the order tablet 220 transmits the acquired instruction information (including instruction voice information and instruction operation information) to the cloud server 210.
- 4 shows an instruction input from the touch panel 221, a gesture video from the camera 222, and a voice instruction from the microphone 223, it is sufficient that at least two are combined, and the acquisition order is also shown in FIG. 4. It is not limited. Further, as in this example, when the instruction is an instruction to the tray loading slot drive unit 230 connected to the order tablet 220, the device information that is the target of the user is also transmitted.
- the cloud server 210 that has received the instruction information refers to the instruction history learning database 214 and determines a search range of each other's instruction information. Such determination of the search range includes narrowing down the search range and extending the search range, as described with reference to FIG.
- the cloud server 210 refers to the instruction history learning database 214 and performs instruction recognition processing in the determined search range.
- the cloud server 210 generates an operation command corresponding to the recognized instruction, and transmits the operation command to the device via the order tablet 220.
- the device is the dish insertion slot drive unit 230
- the instruction operation command is a drive command for opening the dish insertion slot 240 to the dish insertion slot drive unit 230.
- the instruction information and the recognition result are associated with each other and stored in the instruction history learning database 214, and are referred to in the subsequent search range determination and instruction recognition processing.
- steps S401 to S415 are repeated, the instruction history learning database 214 is referred to, and the instruction content is recognized more quickly and reliably from the instruction information. Is possible.
- FIG. 5 is a block diagram showing a functional configuration of the cloud server 210 according to the present embodiment. In practice, a configuration for performing user registration and the like is also included, but in FIG. 5, the description is omitted to avoid complexity.
- the cloud server 210 includes a communication control unit 501 that communicates with the order tablet 220 via the network 250.
- the instruction information receiving unit 211 receives the instruction information acquired from the touch panel 221, the camera 222, or the microphone 223 of the order tablet 220 from the message received by the communication control unit 501 from the order tablet 220.
- the instruction information storage unit 502 stores the instruction information received by the instruction information receiving unit 211 in the instruction history learning database 214 (see FIG. 7).
- the search range determination unit 212 has a search range determination table 212a (see FIG. 9A), and refers to the instruction history learning database 214 based on the instruction information received by the instruction information reception unit 211, so as to recognize each other's instructions. Determine the search range.
- the user instruction recognition unit 213 has a user instruction recognition table 213a (see FIG. 9C), and combines the instruction information received by the instruction information reception unit 211 with the search range determined by the search range determination unit 212 as an instruction history. A search is made with reference to the learning database 214 to recognize user instructions.
- the instruction operation command generation unit 503 has an instruction operation command generation table 503a (see FIG. 10), and generates an instruction operation command according to the user instruction recognized by the user instruction recognition unit 213. Then, the instruction operation command transmission unit 504 transmits the instruction operation command generated by the instruction operation command generation unit 503 to the dish insertion port driving unit 230 via the order tablet 220.
- FIG. 6 is a block diagram showing a functional configuration of the order tablet 220 according to the present embodiment.
- the order tablet 220 which is a communication terminal according to the present embodiment, includes a communication control unit 604 that controls communication with the cloud server 210 via a network.
- the order tablet 220 includes an operation unit 601 including a touch panel 221 and an input / output unit 606.
- the input / output unit 606 includes a display unit 607 that displays a screen from the cloud server 210 received by the screen receiving unit 605 or an order input screen of the order tablet 220, and a microphone 223 that is a voice detection unit.
- a voice input / output unit 608 for output and a camera 222 as an operation detection unit are included.
- it has the instruction information transmission part 603 which transmits several instruction information to the cloud server 210.
- the order tablet 220 has a USB connector 610 to which the tray insertion slot drive unit 230 is connected via USB.
- the instruction operation command receiving unit 612 receives an instruction operation command corresponding to the instruction information of the recognition result from the cloud server 210 via the communication control unit 604. Then, the USB driver execution unit 611 that is an operation command output unit transmits an instruction operation command to the dish insertion port drive unit 230 via the USB connector 610.
- FIG. 6 shows USB connection via the USB connector 610, the present invention is not limited to USB connection.
- FIG. 7 is a diagram showing a configuration of the instruction history learning database 214 according to the present embodiment.
- the instruction history learning database 214 is not limited to the configuration shown in FIG.
- the instruction history learning database 214 stores the following data in association with the voice instruction data 701 acquired by the microphone 223, the gesture instruction data 702 acquired by the camera 222, and the operation instruction data 703 acquired by the touch panel 221. .
- the accumulated data includes the occurrence count 704 of the combination, the instruction recognition success count 705 in which the instruction recognition matches the instruction, the instruction recognition failure count 706 in which the instruction recognition is different from the instruction, the instruction recognition result 707, and the instruction recognition success rate. 708 is stored.
- FIG. 8 is a block diagram showing a hardware configuration of the cloud server 210 according to the present embodiment.
- a CPU (Central Processing Unit) 810 is a processor for arithmetic control, and implements each functional component of the cloud server 210 of FIG. 5 by executing a program.
- a ROM (Read Only Memory) 820 stores fixed data and programs such as initial data and programs.
- the communication control unit 501 is a communication control unit, and communicates with the order tablet 220 via the network 250 in this embodiment.
- the number of CPUs 810 is not limited to one, and may be a plurality of CPUs or may include a GPU (Graphics Processing Unit) for image processing.
- a RAM (Random Access Memory) 840 is a random access memory that the CPU 810 uses as a work area for temporary storage.
- the RAM 840 has an area for storing data necessary for realizing the present embodiment.
- the user ID / user authentication information 841 is an identifier of the user who is communicating and the authentication information thereof.
- the terminal ID / terminal authentication information 842 is an identifier of the mobile terminal in communication and its authentication information.
- the instruction information 843 is information received from the order tablet 220 and includes any one of the instruction voice 844, the gesture video 845, and the operation input 846.
- the search range determination table 212a is a table used by the search range determination unit 212 to determine the search range (see FIG. 9A).
- the user instruction recognition table 213a is a table used by the user instruction recognition unit 213 to recognize user instructions (see FIG. 9C).
- the instruction operation command generation table 503a is a table used by the instruction operation command generation unit 503 to generate an instruction operation command according to the recognition result of the user instruction (see FIG. 10).
- Transmission / reception data 847 is data to be transmitted / received to / from the order tablet 220 via the communication control unit 501.
- the storage 850 stores a database, various parameters, or the following data or programs necessary for realizing the present embodiment.
- the instruction history learning database 214 is the database shown in FIG.
- the storage 850 stores the following programs.
- the cloud server control program 851 is a program that controls the entire cloud server 210.
- the search range determination module 852 is a module that determines a search range for recognizing each instruction information in the cloud server control program 851 (see FIG. 12A).
- the user instruction recognition module 853 is a module that recognizes a user instruction in the determined search range in the cloud server control program 851 (see FIG. 12B).
- the instruction operation command generation module 854 is a module that generates an instruction operation command corresponding to the recognized user instruction in the cloud server control program 851.
- RAM 840 and the storage 850 in FIG. 8 do not show data and programs related to general-purpose functions and other realizable functions that the cloud server 210 has.
- FIG. 9A is a diagram showing a configuration of the search range determination table 212a according to the present embodiment.
- the search range determination table 212a is used for determining the search range of the search range determination unit 212 with reference to the instruction history learning database 214 based on the instruction information.
- the search range determination table 212a includes a search range determination table 910 based on voice instructions, a search range determination table 920 based on gesture video, and a search range determination table 930 based on operation input.
- the search range determination table 910 by voice instruction is used to determine the search range of gesture video and the search range of operation input based on the voice instruction.
- the search range determination table 920 based on gesture video is used to determine a search range for voice instructions and a search range for operation input based on the gesture video.
- the search range determination table 930 based on operation input is used to determine a search range for voice instructions and a search range for gesture videos based on the operation input.
- the search range determination table 910 by voice instruction stores the search range of the gesture video 912, outside the search range, or the additional search range in association with the received voice, the recognition language, or other attributes in the voice instruction 911. Further, the search range of the operation input 913, the outside of the search range, or the additional search range is stored. In addition, the search range determination table 920 based on the gesture video stores the search range of the voice instruction 922, outside the search range, or the additional search range in association with the received video, the recognized nationality, or other attributes in the gesture video 921. . Further, the search range of the operation input 923, the outside of the search range, or the additional search range is stored.
- the search range determination table 930 by operation input stores the search range of the voice instruction 932, the search range outside, or the additional search range in association with the reception operation, the recognition scene, or other attributes in the operation input 931. . Further, the search range of the gesture video 933, the outside of the search range, or the additional search range is stored.
- FIG. 9B is a diagram showing a user attribute 940 according to the present embodiment.
- the information for determining the search range the recognition language by the received voice, the recognition nationality from the received video, and the recognition scene from the reception operation are shown as representative examples. However, other information can be used as information for determining the search range.
- FIG. 9B shows an example of user attributes as usable information. Note that the information for determining the search range is not limited to user attributes.
- the user's nationality 942, the user's place of birth 943, the user's voice language 944, the user's race 945, the user's occupation 946, and the user are placed in association with the user ID 941.
- the user's dialect or the like may be included as the user attribute 940 or the user's trap 949.
- FIG. 9C is a diagram showing a configuration of the user instruction recognition table 213a according to the present embodiment.
- the user instruction recognition table 213a is used by the user instruction recognition unit 213 to recognize a user instruction within the search range determined by the search range determination unit 212.
- the user instruction recognition table 213a includes the received voice of the voice instruction 951, the search range, the instruction prediction, the received video of the gesture video 952, the search range, the instruction prediction, the reception operation of the operation input 953, the search range, and the instruction prediction. And memorize. Based on the instruction prediction, the instruction recognition result 954 and the success rate 955 are stored.
- FIG. 10 is a diagram showing a configuration of the instruction operation command generation table 503a according to the present embodiment.
- the instruction operation command generation table 503 a is used by the instruction operation command generation unit 503 to generate an instruction operation command according to the recognition result of the user instruction recognition unit 213.
- the instruction operation command generation table 503a is associated with the operation command transmission destination ID 1001, the instruction recognition result 1002, the success rate 1003, the threshold 1004 for determining the success rate of the instruction recognition result 1002, and the success rate 1003 is the threshold 1004.
- the instruction operation command 1005 generated when the number exceeds is stored.
- the operation command transmission destination ID 1001 includes the ID of the order tablet 220 or the ID of the tray loading slot driving unit 230.
- FIG. 11 is a flowchart showing a processing procedure of the cloud server 210 according to the present embodiment. This flowchart is executed by the CPU 810 of FIG. 8 using the RAM 840, and implements each functional component of FIG.
- the cloud server 210 determines whether or not the instruction information is received from the order tablet 220 in step S1101. If the instruction information is not received, other processing is performed. If the cloud server 210 receives instruction information, the cloud server 210 proceeds to step S1103, and acquires a voice instruction from the received instruction information. In step S1105, the cloud server 210 acquires a gesture video from the received instruction information. In step S1107, the cloud server 210 acquires an operation input from the received instruction information.
- step S1109 the cloud server 210 performs other instruction information search range determination processing based on the acquired instruction information (see FIG. 12A). Subsequently, in step S1111, the cloud server 210 performs a search within the search range determined by the search range determination process, and executes a user instruction recognition process (see FIG. 12B).
- step S1113 the cloud server 210 generates an instruction operation command according to the recognition result of the user instruction recognition process, and transmits the instruction operation command to the transmission destination of the instruction operation command. Then, the cloud server 210 associates the received instruction information with the determined search range, the user instruction of the recognition result, and the corresponding instruction operation instruction, and stores the instruction history in the instruction history learning database 214.
- FIG. 12A is a flowchart showing a processing procedure of search range determination processing S1109-1 according to the present embodiment.
- the search range determination processing S1109-1 in FIG. 12A shows a case where the operation input is not limited to the user's operation input on the touch panel.
- the user attribute is used for determining the search range, but the present invention is not limited to this.
- step S1211 the cloud server 210 acquires user attributes from voice instructions, gesture images, and operation inputs.
- step S ⁇ b> 1213 the cloud server 210 sets a search range for a voice instruction, a gesture video, or an operation input based on the acquired user attribute.
- step S1215 the cloud server 210 sets a non-search range for a voice instruction, a gesture video, or an operation input based on the acquired user attribute.
- step S1217 the cloud server 210 refers to the instruction history learning database 214 and adds a search range for voice instructions, gesture images, or operation inputs. That is, when the user or the store clerk repeats the same mistake, the cloud server 210 performs processing for recognizing the mistake as a user instruction from instruction history learning.
- FIG. 12B is a flowchart showing the processing procedure of the user instruction recognition processing S1111 according to the present embodiment.
- step S1221 the cloud server 210 acquires an instruction prediction recognition success count based on a combination of instruction information.
- step S1223 the cloud server 210 determines whether the recognition success count exceeds the threshold value ⁇ . When the recognition success count exceeds the threshold value ⁇ , the cloud server 210 proceeds to step S1229 and determines the instruction prediction as a user instruction.
- step S1225 the cloud server 210 determines whether or not the recognition failure count exceeds the threshold value ⁇ . If the recognition failure count exceeds the threshold value ⁇ , the cloud server 210 proceeds to step S1229 and determines the instruction prediction that has failed in recognition as the user instruction.
- the cloud server 210 proceeds to step S1231 and notifies the order tablet 220 of the user instruction recognition failure.
- FIG. 13 is a block diagram showing a hardware configuration of the order tablet 220 according to the present embodiment.
- a CPU 1310 is a processor for arithmetic control, and implements each functional component of the order tablet 220 in FIG. 6 by executing a program.
- the ROM 1320 stores fixed data and programs such as initial data and programs.
- the communication control unit 604 is a communication control unit, and in the present embodiment, communicates with the cloud server 210 via a network. Note that the number of CPUs 1310 is not limited to one, and may be a plurality of CPUs or may include a GPU for image processing.
- the RAM 1340 is a random access memory that the CPU 1310 uses as a work area for temporary storage.
- the RAM 1340 has an area for storing data necessary for realizing the present embodiment.
- the user ID / user authentication information 1341 is an identifier of the user who is using the order tablet 220 and its authentication information.
- the terminal ID / terminal authentication information 1342 is an identifier of the order tablet 220 and its authentication information.
- the instruction information 1343 is information acquired through each instruction information input unit and transmitted to the cloud server 210, and includes any one of instruction voice 1344, gesture video 1345, and operation input 1346.
- the instruction operation command 1347 is an operation command corresponding to the instruction received from the cloud server 210.
- Transmission / reception data 1348 is data to be transmitted / received to / from the cloud server 210 via the communication control unit 501.
- Input / output data 1349 indicates input / output data input / output via the input / output interface 1360.
- the storage 1350 stores a database, various parameters, or the following data or programs necessary for realizing the present embodiment.
- the order tablet information 1351 is information including the identifier of the order tablet 220.
- the storage 1350 stores the following programs.
- the order tablet control program 1352 is a control program for controlling the entire order tablet 220.
- the instruction information acquisition / transmission module 1353 is a module that acquires instruction information via each instruction information input unit in the order tablet control program 1352 and transmits the instruction information to the cloud server 210.
- the instruction operation command reception / execution module 1354 receives the instruction operation command from the cloud server 210 in the order tablet control program 1352 and transmits the instruction operation command to the tray loading slot drive unit 230 via the USB connector 610 to execute the instruction operation. It is a module to do.
- the input / output interface 1360 interfaces input / output data with input / output devices.
- An operation unit 601 including a display unit 607 and a touch panel 221 is connected to the input / output interface 1360.
- an audio input / output unit 608 such as a speaker or a microphone 223 is connected.
- a GPS position generation unit 1361, a camera 222, and the like are connected. Then, the USB connector 610 is connected.
- RAM 1340 and the storage 1350 in FIG. 13 do not show data and programs related to general-purpose functions and other realizable functions of the order tablet 220.
- FIG. 14 is a flowchart showing a processing procedure of the order tablet 220 according to the present embodiment. This flowchart is executed by the CPU 1310 of FIG. 13 using the RAM 1340, and implements each functional component of FIG.
- the order tablet 220 determines whether or not the user's order operation has been received from the touch panel 221 in step S1411. If the order tablet 220 does not receive the user's order operation from the touch panel 221, the order tablet 220 determines in step S1421 whether the operation is performed by a store clerk. If the order tablet 220 does not receive the user's order operation from the touch panel 221 and is not an operation by the store clerk, the order tablet 220 determines whether or not an instruction operation command has been received from the cloud server 210 in step S1431.
- step S1413 the order tablet 220 notifies the order information to the clerk who performs the order process.
- the order tablet 220 notifies the sushi chef of the contents of the order.
- step S1407 the order tablet 220 also notifies the order information to a POS (Point of sale: not shown) that performs sales accounting.
- POS Point of sale: not shown
- step S1423 if the order tablet 220 is operated by a store clerk, the process proceeds to step S1423, and a voice instruction is acquired by the microphone 223.
- the order tablet 220 acquires a gesture video by the camera 222 in step S1425.
- the order tablet 220 acquires an operation input from the touch panel 221 in step S1427. Note that the order of steps S1423 to S1427 may be any.
- the order tablet 220 transmits the acquired instruction information to the cloud server 210 in step S1429.
- step S1433 If the order tablet 220 receives an instruction operation command from the cloud server 210, the order tablet 220 proceeds to step S1433 and acquires the instruction operation command. Then, in step S1435, the order tablet 220 outputs an instruction operation command to the output destination device (in this example, the tray loading slot drive unit 230).
- the output destination device in this example, the tray loading slot drive unit 230.
- the search for operation instruction candidates is performed by narrowing down the search range corresponding to the attribute of the user who has instructed the operation. Therefore, a large number of operation instruction candidates including different user attributes can be prepared. It is possible to effectively narrow down operation instruction candidates corresponding to the user.
- employees who can read text may use a touch panel, and only employees who cannot read can give instructions by voice + motion.
- the present embodiment can be applied to other business types. For example, in a work by a hotel employee, when a tool is held, voice + motion can be used, and when moving, a hand can be used so that input can be switched using a touch panel.
- voice + motion can be used, and when moving, a hand can be used so that input can be switched using a touch panel.
- the operation input determination by voice + motion using the cloud server as described above is performed. Also good.
- the information processing system according to the present embodiment is different from the second embodiment in that a user's operation instruction on the touch panel of the order tablet is used as instruction operation information. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
- FIG. 15 is a diagram for explaining an operation concept of the information processing system 1500 according to the present embodiment.
- the sushi shop clerk 251 drives the dish insertion slot drive unit 230 to open the dish insertion slot 240 by voice instruction and operation instruction (operation instruction on the touch panel of the order tablet 1520).
- the cloud server 1510 recognizes the instruction content and drives the tray loading slot drive unit 230 when it is performed.
- the left diagram shows a voice instruction and an operation instruction by the clerk 251
- the right diagram shows a state in which the tray loading port 240 is opened by driving the tray loading port driving unit 230.
- the seats taken by the camera 222 are displayed on the display screen of the order tablet 1520.
- the store clerk 251 gives a voice instruction “OPEN” in English, and gives an operation instruction to point the tray insertion port 240 with the index finger at the position of the tray insertion port 240 on the display screen.
- the touch panel 221 of the order tablet 1520 obtains an operation instruction indicating the dish insertion port 240.
- FIG. 15 shows an operation 1521 for drawing a circle.
- the microphone 223 of the order tablet 1520 acquires the voice of “OPEN” of the store clerk 251.
- the order tablet 1520 transmits an operation instruction on the touch panel 221 and a sound “OPEN” to the cloud server 1510.
- the cloud server 1510 refers to the instruction history learning database 1514 that accumulates the history of past instruction information and recognition results, and recognizes that the store clerk 251 has instructed to open the tray insertion port 240. Then, as shown in the right figure, the tray insertion slot drive unit 230 is driven via the order tablet 1520 to open the tray insertion slot 240 and the tray 260 is inserted. Note that the determination of the search range based on the relationship between the shape of the operation instruction (circle, triangle, square, etc.) and the voice is also executed in this embodiment, as in the second embodiment.
- the functional configuration unit of the cloud server 1510 of the present embodiment has a functional configuration in which the instruction history learning database 214 in FIG. 5 is replaced with the instruction history learning database 1514, and the others are the same, so illustration and description are omitted.
- FIG. 16 is a diagram showing a configuration of the instruction history learning database 1514 according to the present embodiment.
- the instruction history learning database 1514 is not limited to the configuration of FIG.
- the instruction history learning database 1514 stores the following data in association with the camera image 1601 captured by the camera 222, the display image 1602 displayed on the order tablet 1520, and the audio input 1603 acquired by the microphone 223. .
- the accumulated data stores a motion search range 1604 on the touch panel 221 of the order tablet 1520, a motion 1605 on the touch panel 221, an instruction recognition result 1606, and a success rate 1607.
- an appearance count, an instruction recognition success count, and an instruction recognition failure count may be stored as shown in FIG.
- FIG. 17 is a flowchart showing a processing procedure of search range determination processing S1109-2 according to the present embodiment.
- the search range determination process S1109-2 of FIG. 17 is a flowchart that replaces the search range determination process S1109-2 of FIG. 12A of the second embodiment.
- step S1711 the cloud server 1510 acquires user attributes from voice instructions and display video.
- step S ⁇ b> 1713 the cloud server 1510 sets a touch panel / motion search range based on the acquired user attribute.
- step S1715 the cloud server 1510 sets a non-search range for touch panel motion based on the acquired user attribute.
- step S1717 the cloud server 1510 refers to the instruction history learning database 1514 and adds a touch panel / motion search range. That is, when the user or the store clerk repeats the same mistake, the cloud server 1510 performs processing for recognizing the mistake as a user instruction from instruction history learning.
- the user's touch trajectory on the touch panel can be input as the instruction operation information in addition to the operation instruction by the gesture or motion by hand or finger. .
- the information processing system according to the present embodiment uses the display of the room image captured from the camera of the tablet, and based on the instruction voice information and the instruction operation information, It differs in that it automatically controls electronic equipment. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
- FIG. 18 is a diagram for explaining an operation concept of the information processing system 1800 according to the present embodiment. Note that the instruction history learning database 1514 of the cloud server 1810 may be the same as that in FIG.
- a room image captured by the camera 222 is displayed on a communication terminal 1820 such as a tablet or a smartphone.
- the room has an air conditioner and a television. While instructing the operation of the control target from the video in the room, each user 1811 to 1813 instructs the control contents in the language of each country.
- an air conditioner instruction operation 1821 and a television instruction operation 1822 are input on the touch panel 221.
- the instruction operation 1821 and the instruction operation 1822 may have different shapes.
- Japanese 1811 is instructed to speak “room temperature 23 ° C., 3 channel image”.
- a voice instruction is given in Chinese as shown in FIG.
- a voice instruction “Room temperature to 23 degree. Televising of the channel 3.”
- the cloud server 1810 determines the search range of the instruction content and performs prompt and reliable instruction recognition regardless of the nationality or utterance language of the speaker of the voice instruction. And the operation
- indication is implement
- the operation instruction is the operation instruction on the touch panel 221, but the user's gesture and motion may be acquired from an image captured by the camera 222 as in the second embodiment.
- the information processing system according to the present embodiment recognizes the user's operation instruction based on the instruction voice information and the instruction operation information in the communication terminal instead of the cloud server.
- the same reference numerals are given to the same configurations and operations, and detailed descriptions thereof are omitted.
- communication instruction since the user's operation instruction is recognized by the communication terminal, communication instruction can be reduced and prompt instruction recognition can be performed.
- FIG. 19 is a sequence diagram showing an operation procedure of the information processing system 1900 according to this embodiment.
- steps similar to those in FIG. 4 of the second embodiment are denoted by the same step numbers, and description thereof is omitted.
- an instruction recognition application (hereinafter referred to as instruction recognition application) and a part of the instruction history learning DB 214 are downloaded from the cloud server 1910 to the order tablet 1920 which is a communication terminal.
- a part of the instruction history learning DB 214 may be data in a range corresponding to a user operation instruction recognized by the order tablet 1920.
- the order tablet 1920 stores a part of the received instruction history learning DB 214 in its instruction history learning DB 1924, and activates the downloaded instruction recognition application in step S1903.
- the order tablet 1920 obtains instruction input from the touch panel, gesture video from the camera, or voice instruction from the microphone in step S401, S403, or S405, as in FIG.
- the order tablet 1920 refers to the instruction history learning DB 1924, and acquires each instruction recognition based on instruction input acquisition from the touch panel, gesture video acquisition from the camera, or voice instruction acquisition from the microphone. Determine the search range for.
- the instruction history learning DB 1924 is referred to, the search range is searched, and the matched search result is recognized as an instruction.
- an instruction operation command corresponding to the recognized instruction is generated and transmitted to the target device.
- the target device is the tray insertion opening activation unit 230.
- the order tablet 1920 stores the recognized instruction history in the instruction history learning DB 1924 in association with the acquired instruction information in step S1915.
- the recognized instruction history is transmitted to the cloud server 1910 in association with the acquired instruction information.
- the cloud server 1910 stores the recognized instruction history as the entire learning history in the instruction history learning DB 214 in association with the acquired instruction information.
- the configuration of the instruction history learning DB 1924 is the same as that shown in FIG. 7 except that the amount of stored data is only the amount corresponding to the order tablet 1920, and the description thereof will be omitted.
- the content of the instruction history learning DB 1924 has been described as being downloaded from the cloud server 1910.
- the order tablet 1920 may have a configuration independently provided.
- FIG. 20 is a block diagram showing a functional configuration of an order tablet 1920 according to the fifth embodiment of the present invention.
- the same reference numerals are assigned to the same functional components as those in FIG. 6 of the second embodiment, and the description thereof is omitted.
- the instruction recognition application / instruction history learning DB receiving unit 2001 receives the instruction recognition application and the data of the instruction history learning DB related to the order tablet 1920 from the cloud server 1910 via the communication control unit 604.
- the data of the instruction history learning DB is stored in the instruction history learning DB 1925.
- the instruction recognition application execution unit 2002 executes the instruction recognition application downloaded from the cloud server 1910 to realize instruction recognition.
- the instruction recognition application execution unit 2002 includes an instruction information acquisition unit 2003, a search range determination unit 2004, a user instruction recognition unit 2005, and an instruction operation command generation unit 2006.
- the instruction information acquisition unit 2003 acquires user instruction information from the touch panel 221, the microphone 223, or the camera 222.
- the search range determination unit 2004 refers to the instruction history learning database 1924 from the instruction information acquired by the instruction information acquisition unit 2003, and determines a search range for mutual instruction recognition.
- the user instruction recognition unit 2005 combines the instruction information received by the instruction information acquisition unit 2003, searches the search range determined by the search range determination unit 2004 with reference to the instruction history learning database 1924, and recognizes the user instruction. To do.
- the instruction operation command generation unit 2006 generates an instruction operation command corresponding to the user instruction recognized by the user instruction recognition unit 2005. Then, the instruction operation command generated by the instruction operation command generation unit 2006 is transmitted by the USB driver execution unit 611 to the dish insertion port driving unit 230 via the USB connector 610. Also, the instruction operation command generated by the instruction operation command generation unit 2006 is transmitted to the cloud server 1910 via the communication control unit 604 and stored in association with the acquired instruction information.
- the search range determination unit 2004 of the order tablet 1920 of FIG. 20 has a search range determination table (not shown).
- the user instruction recognition unit 2005 has a user instruction recognition table (not shown).
- the instruction operation command generation unit 2006 has an instruction operation command generation table (not shown). The configuration of these tables is the same as in FIG. 9A, FIG. 9B, or FIG.
- communication instruction since the user's operation instruction is recognized by the communication terminal, communication instruction can be reduced and prompt instruction recognition can be performed.
- the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device. Furthermore, the present invention can also be applied to a case where a control program that realizes the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention on a computer, a control program installed in the computer, a medium storing the control program, and a WWW (World Wide Web) server that downloads the control program are also included in the scope of the present invention. include. In particular, at least non-transitory computer readable media are within the scope of the present invention.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本発明の装置は、複数の異なる指示情報から互いの検索範囲を決定し、操作指示候補を拡張してもユーザに対応した操作指示候補を効果的に絞る情報処理装置に関するものである。情報処理装置は、ユーザの音声を介して取得されたユーザの指示音声を示す指示音声情報と、ユーザの動作を介して取得されたユーザの指示動作を示す指示動作情報とを、受信する指示情報受信部と、指示音声情報に応じて指示動作情報を認識するための検索範囲を決定し、または、指示動作情報に応じて指示音声情報を認識するための検索範囲を決定する検索範囲決定部と、検索範囲決定部で決定された検索範囲において指示音声情報または指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識部と、を備える。
Description
本発明は、複数の異なる指示情報からユーザの指示内容を認識する技術に関する。
上記技術分野において、特許文献1には、カメラによって撮影されたユーザのジェスチャーに基づく操作指示候補と、マイクロフォンによって集音されたユーザの音声に基づく操作指示候補とを統合して、ユーザの意図する1つの操作指示を出力する技術が開示されている。
しかしながら、上記文献に記載の技術では、ユーザのジェスチャーに基づく操作指示候補の解析と、ユーザの音声に基づく操作指示候補の解析とはそれぞれ独立して行なわれるので、ユーザに対応した操作指示候補を効果的に絞ることができなかった。
本発明の目的は、上述の課題を解決する技術を提供することにある。
上記目的を達成するため、本発明に係る情報処理装置は、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
を備える。
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
を備える。
上記目的を達成するため、本発明に係る情報処理装置の制御方法は、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
を含む。
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
を含む。
上記目的を達成するため、本発明に係る情報処理装置の制御プログラムは、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
をコンピュータに実行させる。
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
をコンピュータに実行させる。
上記目的を達成するため、本発明に係る通信端末は、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備える。
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備える。
上記目的を達成するため、本発明に係る通信端末の制御方法は、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含む。
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含む。
上記目的を達成するため、本発明に係る通信端末の制御プログラムは、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
をコンピュータに実行させる。
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
をコンピュータに実行させる。
上記目的を達成するため、本発明に係る通信端末は、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
を備える。
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
を備える。
上記目的を達成するため、本発明に係る通信端末の制御方法は、
ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
を含む。
ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
を含む。
上記目的を達成するため、本発明に係る通信端末の制御プログラムは、
ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
をコンピュータに実行させる。
ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
をコンピュータに実行させる。
上記目的を達成するため、本発明に係るシステムは、
ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムであって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得されたユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記ユーザ指示認識手段が認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信手段と、
を備え、
前記通信端末が、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備える。
ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムであって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得されたユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記ユーザ指示認識手段が認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信手段と、
を備え、
前記通信端末が、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備える。
上記目的を達成するため、本発明に係る方法は、
ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムの情報処理方法であって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記ユーザ指示認識ステップにおいて認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信ステップと、を含み、
前記通信端末が、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含む。
ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムの情報処理方法であって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記ユーザ指示認識ステップにおいて認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信ステップと、を含み、
前記通信端末が、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含む。
本発明によれば、複数の異なる指示情報から互いの検索範囲を決定するので、操作指示候補を拡張してもユーザに対応した操作指示候補を効果的に絞ることができる。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
[第1実施形態]
本発明の第1実施形態としての情報処理装置100について、図1を用いて説明する。情報処理装置100は、ユーザ111~11nの指示内容を認識する装置である。
本発明の第1実施形態としての情報処理装置100について、図1を用いて説明する。情報処理装置100は、ユーザ111~11nの指示内容を認識する装置である。
図1に示すように、情報処理装置100は、指示情報受信部101と、検索範囲決定部102と、ユーザ指示認識部103と、を含む。指示情報受信部101は、ユーザ111~11nの音声を介して取得されたユーザの指示音声を示す指示音声情報101aと、ユーザ111~11nの動作を介して取得されたユーザの指示動作を示す指示動作情報101bとを、受信する。検索範囲決定部102は、指示音声情報101aに応じて指示動作情報101bを認識するための検索範囲を決定し、または、指示動作情報101bに応じて指示音声情報101aを認識するための検索範囲を決定する。ユーザ指示認識部103は、検索範囲決定部102で決定された検索範囲において指示音声情報101aまたは指示動作情報101bを検索し、検索結果からユーザの指示を認識する。
本実施形態によれば、複数の異なる指示情報から互いの検索範囲を決定するので、操作指示候補を拡張してもユーザに対応した操作指示候補を効果的に絞ることができる。
[第2実施形態]
次に、本発明の第2実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、ユーザの音声による指示音声情報や、ユーザのジェスチャーやモーションによる指示動作情報を取得し、互いに操作指示候補を検索する検索範囲を決定する。
次に、本発明の第2実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、ユーザの音声による指示音声情報や、ユーザのジェスチャーやモーションによる指示動作情報を取得し、互いに操作指示候補を検索する検索範囲を決定する。
本実施形態に係る情報処理システムにおいては、具体的な例として、回転寿司における皿の自動回収において、皿投入口の駆動を店員が指示する場合を示す。店員は、手や指によるジェスチャーやモーションによる動作指示と同時に、音声指示も行なう。回転寿司の客席に用意されたオーダ用タブレットには、カメラやマイクが搭載され、ジェスチャーやモーションによる指示動作情報と指示音声情報とを取得する。情報処理装置であるクラウドサーバは、蓄積された過去の履歴から、指示動作情報と指示音声情報とに基づき、検索する互いの操作指示候補の範囲を決定する。例えば、回転寿司の客席における指示であることに基づく検索範囲の決定や、指示音声による使用言語や国籍に基づく動作指示の検索範囲の決定や、指示動作による人種や癖に基づく音声指示の検索範囲の決定が、行なわれる。
本実施形態によれば、操作指示をしたユーザの属性に対応した検索範囲に絞って操作指示候補の検索を行なうので、異なるユーザの属性を含む膨大な操作指示候補を用意でき、その場合においてもユーザに対応した操作指示候補を効果的に絞ることができる。
なお、本実施形態においては、認識した操作指示に基づいてオーダ用タブレットに指示動作命令を返す例を示すが、本実施形態は、操作指示を認識する技術として有用である。
《情報処理システム》
図2~図4を参照して、本実施形態の情報処理システム200の動作について説明する。
図2~図4を参照して、本実施形態の情報処理システム200の動作について説明する。
(システム構成)
図2は、本実施形態に係る情報処理システム200の構成を示すブロック図である。
図2は、本実施形態に係る情報処理システム200の構成を示すブロック図である。
情報処理システム200は、情報処理装置であるクラウドサーバ210と、クラウドサーバ210にネットワーク250を介して接続する通信端末であるオーダ用タブレット220と、オーダ用タブレット220の接続する皿投入口駆動部230と、皿投入口240とを有する。
オーダ用タブレット220は、タッチパネル221をユーザが指示することによって、寿司をオーダする機能を有すると共に、カメラ222により客席のユーザおよび店員の映像を撮像し、マイク223によりユーザおよび店員の音声を取得する。ユーザおよび店員の映像および音声はネットワーク250を介してクラウドサーバ210に送信される。
クラウドサーバ210は、指示情報受信部211と、検索範囲決定部212と、ユーザ指示認識部213とを備える。また、ユーザおよび店員の指示履歴を蓄積する指示履歴蓄積部である指示履歴学習データベース(図中、指示履歴学習DB)214を有する。
(動作概念)
図3は、本実施形態に係る情報処理システム200の動作概念を説明する図である。
図3は、本実施形態に係る情報処理システム200の動作概念を説明する図である。
図3においては、回転寿司屋の店員251、252が、皿投入口駆動部230を駆動して皿投入口240を開く指示を、音声指示および動作指示(モーションやジェスチャー)
で行なった場合に、クラウドサーバ210が指示内容を認識して、皿投入口駆動部230を駆動する例を示している。図3においては、左右の図が店員251および252による音声指示および動作指示を示し、中央図が皿投入口駆動部230を駆動して皿投入口240を開いた状態を示している。
で行なった場合に、クラウドサーバ210が指示内容を認識して、皿投入口駆動部230を駆動する例を示している。図3においては、左右の図が店員251および252による音声指示および動作指示を示し、中央図が皿投入口駆動部230を駆動して皿投入口240を開いた状態を示している。
まず、左図において、店員251は、“OPEN”と英語で音声指示を行ない、人差し指で皿投入口240を指す動作指示を行なっている。店員251を撮像するオーダ用タブレット220のカメラ222は、皿投入口240を指す店員251の動作の映像を撮像する。また、店員251の音声を取得するオーダ用タブレット220のマイク223は、店員251の“OPEN”との音声を取得する。オーダ用タブレット220は、撮像した店員251の動作の映像と、“OPEN”との音声とを、クラウドサーバ210に送信する。クラウドサーバ210は、過去の指示情報と認識結果との履歴を蓄積する指示履歴学習データベース214を参照して、店員251が皿投入口240を開くように指示したことを認識する。そして、中央図のように、店員251の指示を取得したオーダ用タブレット220を介して、皿投入口駆動部230を駆動して皿投入口240を開き、皿260を投入する。
一方、右図において、店員252は、“ひらけ”と日本語で音声指示を行ない、親指と人差し指とで輪を作る動作指示を行なっている。店員252を撮像するオーダ用タブレット220のカメラ222は、親指と人差し指とで輪を作る店員252の動作の映像を撮像する。また、店員252の音声を取得するオーダ用タブレット220のマイク223は、店員252の“ひらけ”との音声を取得する。オーダ用タブレット220は、撮像した店員252の動作の映像と、“ひらけ”との音声とを、クラウドサーバ210に送信する。クラウドサーバ210は、過去の指示情報と認識結果との履歴を蓄積する指示履歴学習データベース214を参照して、店員252が皿投入口240を開くように指示したことを認識する。そして、中央図のように、店員252の指示を取得したオーダ用タブレット220を介して、皿投入口駆動部230を駆動して皿投入口240を開き、皿260を投入する。
ここで、クラウドサーバ210の指示履歴学習データベース214には、店員251あるいは店員252の音声指示や動作指示から、互いの指示情報からユーザ指示を検索するための検索範囲を決定するように、指示履歴が蓄積されている。例えば、簡単な例としては、指示を行なっているシーンが、回転寿司屋の客席における店員の皿の後片付けのシーンであると認識すれば、そのシーンにおける店員の指示内容に音声や映像による検索範囲を絞る。あるいは、店員の言葉から言語認識を行ない、店員の国籍や使用言語、人種などを判定すれば、店員の動作指示(モーションやジェステャー)の検索範囲を、国籍や使用言語、人種などに特徴的な動作認識の検索範囲に絞る。あるいは、店員の動作指示(モーションやジェステャー)や店員の顔映像から店員の国籍や人種、あるいは表現方法などを判定すれば、店員の音声指示の検索範囲を、国籍や人種などに特徴的な音声認識の検索範囲に絞る。
本実施形態のクラウドサーバ210は、世界の様々なシーンにおける、他国籍・他人種の音声指示および動作指示を集積しており、世界中の通信端末からの音声指示および動作指示の送信に基づいて、それぞれの指示認識のための検索範囲を決定することにより、迅速で正確な指示認識ができる。さらに、クラウドサーバ210の指示履歴学習データベース214には、取得した音声指示および動作指示と、認識結果の指示とが一致しない場合も集積しており、一致しない出現数が閾値を超える場合には音声指示および動作指示を認識するための検索範囲に追加する。このように間違った言葉や動作を覚えた人の指示も受け付けることにより、柔軟性のある指示認識を可能とする。
なお、図3には、タッチパネル221を使用した店員の動作指示については、煩雑なため図示していないが、タッチパネル221からの動作指示も本実施形態には含まれる(図15および図18参照)。
(動作手順)
図4は、本実施形態に係る情報処理システム200の動作手順を示すシーケンス図である。
図4は、本実施形態に係る情報処理システム200の動作手順を示すシーケンス図である。
まず、ステップS401において、オーダ用タブレット220のタッチパネル221からユーザまたは店員の指示入力を取得する。次に、ステップS403において、オーダ用タブレット220のカメラ222からユーザまたは店員のジェスチャー映像を取得する。次に、ステップS405においては、オーダ用タブレット220のマイク223からユーザまたは店員の音声指示を取得する。オーダ用タブレット220は、ステップS407において、取得した指示情報(指示音声情報および指示動作情報を含む)をクラウドサーバ210に送信する。なお、図4においては、タッチパネル221からの指示入力と、カメラ222からのジェスチャー映像と、マイク223からの音声指示とを示したが、少なくとも2つが組み合わされればよく、その取得順序も図4に限定されない。また、本例のように、指示がオーダ用タブレット220に接続する皿投入口駆動部230への指示である場合には、ユーザの指示対象となるデバイス情報も共に送信される。
指示情報を受信したクラウドサーバ210は、ステップS409において、指示履歴学習データベース214を参照して、互いの指示情報の検索範囲を決定する。かかる検索範囲の決定には、図3で説明したように、検索範囲の絞り込みと検索範囲の拡張とを含む。次に、クラウドサーバ210は、ステップS411において、指示履歴学習データベース214を参照して、決定した検索範囲において指示認識処理を行なう。次に、クラウドサーバ210は、ステップS413において、認識した指示に応じた動作命令を生成して、オーダ用タブレット220を介してデバイスに送信する。なお、本実施形態においては、デバイスは皿投入口駆動部230であり、指示動作命令は皿投入口駆動部230への皿投入口240を開く駆動命令である。そして、ステップS415において、指示情報と認識結果とを対応付けて、指示履歴学習データベース214に蓄積して、以降の検索範囲の決定および指示認識処理において参照する。
その後、他の店員などによる指示があれば、前述と同様に、ステップS401~S415を繰り返して、指示履歴学習データベース214を参照して、その指示情報からより迅速により確実に指示内容を認識することが可能になる。
《クラウドサーバの機能構成》
図5は、本実施形態に係るクラウドサーバ210の機能構成を示すブロック図である。なお、実際には、ユーザ登録などを行なう構成も含まれるが、図5においては煩雑さを避けるため省略する。
図5は、本実施形態に係るクラウドサーバ210の機能構成を示すブロック図である。なお、実際には、ユーザ登録などを行なう構成も含まれるが、図5においては煩雑さを避けるため省略する。
クラウドサーバ210は、ネットワーク250を介してオーダ用タブレット220と通信する通信制御部501を有する。通信制御部501がオーダ用タブレット220から受信したメッセージから、指示情報受信部211は、オーダ用タブレット220のタッチパネル221、カメラ222、あるいはマイク223から取得した指示情報を受信する。指示情報蓄積部502は、指示情報受信部211が受信した指示情報を指示履歴学習データベース214(図7参照)に蓄積する。
検索範囲決定部212は、検索範囲決定テーブル212a(図9A参照)を有し、指示情報受信部211が受信した指示情報から、指示履歴学習データベース214を参照して、お互いの指示認識のための検索範囲を決定する。ユーザ指示認識部213は、ユーザ指示認識テーブル213a(図9C参照)を有し、指示情報受信部211が受信した指示情報同士を組み合わせて、検索範囲決定部212が決定した検索範囲を、指示履歴学習データベース214を参照して検索し、ユーザ指示を認識する。
指示動作命令生成部503は、指示動作命令生成テーブル503a(図10参照)を有し、ユーザ指示認識部213が認識したユーザ指示に応じた指示動作命令を生成する。そして、指示動作命令送信部504は、指示動作命令生成部503が生成した指示動作命令を、オーダ用タブレット220を介して皿投入口駆動部230に送信する。
《オーダ用タブレットの機能構成》
図6は、本実施形態に係るオーダ用タブレット220の機能構成を示すブロック図である。
図6は、本実施形態に係るオーダ用タブレット220の機能構成を示すブロック図である。
本実施形態の通信端末であるオーダ用タブレット220は、クラウドサーバ210とのネットワークを介した通信を制御する通信制御部604を有する。また、オーダ用タブレット220は、タッチパネル221からなる操作部601と、入出力部606とを有する。入出力部606は、画面受信部605が受信したクラウドサーバ210からの画面、あるいはオーダ用タブレット220のオーダ入力用画面を表示する表示部607と、音声検出部であるマイク223を含み音声を入出力する音声入出力部608と、動作検出部であるカメラ222とを有する。そして、複数の指示情報をクラウドサーバ210に送信する指示情報送信部603を有する。
また、オーダ用タブレット220は、皿投入口駆動部230がUSB接続されたUSBコネクタ610を有する。指示動作命令受信部612は、通信制御部604を介してクラウドサーバ210から、認識結果の指示情報に応じた指示動作命令を受信する。そして、動作命令出力部であるUSBドライバ実行部611は、指示動作命令を、USBコネクタ610を介して、皿投入口駆動部230に送信する。なお、図6においては、USBコネクタ610を介したUSB接続を示したが、USB接続に限定されない。
(指示履歴学習データベース)
図7は、本実施形態に係る指示履歴学習データベース214の構成を示す図である。なお、指示履歴学習データベース214は、図7の構成に限定されない。
図7は、本実施形態に係る指示履歴学習データベース214の構成を示す図である。なお、指示履歴学習データベース214は、図7の構成に限定されない。
指示履歴学習データベース214は、マイク223が取得した音声指示データ701と、カメラ222が取得したジェスチャー指示データ702と、タッチパネル221が取得した操作指示データ703とに対応付けて、以下のデータを蓄積する。蓄積するデータは、かかる組合せの出現カウント704、指示認識が指示と一致した指示認識成功カウント705、指示認識が指示と異なった指示認識失敗カウント706、指示認識結果707、そして、指示認識の成功率708を記憶する。
《クラウドサーバのハードウェア構成》
図8は、本実施形態に係るクラウドサーバ210のハードウェア構成を示すブロック図である。
図8は、本実施形態に係るクラウドサーバ210のハードウェア構成を示すブロック図である。
図8で、CPU(Central Processing Unit)810は演算制御用のプロセッサであり、プログラムを実行することで図5のクラウドサーバ210の各機能構成部を実現する。ROM(Read Only Memory)820は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部501は通信制御部であり、本実施形態においては、ネットワーク250を介してオーダ用タブレット220と通信する。なお、CPU810は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPU(Graphics Processing Unit)を含んでもよい。
RAM(Random Access Memory)840は、CPU810が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM840には、本実施形態の実現に必要なデータを記憶する領域が確保されている。ユーザID/ユーザ認証情報841は、通信中のユーザの識別子とその認証情報などである。端末ID/端末認証情報842は、通信中の携帯端末の識別子とその認証情報などである。指示情報843は、オーダ用タブレット220から受信した情報であり、指示音声844と、ジェスチャー映像845、操作入力846のいずれかを含む。検索範囲決定テーブル212aは、検索範囲決定部212が検索範囲を決定するために使用するテーブルである(図9A参照)。ユーザ指示認識テーブル213aは、ユーザ指示認識部213がユーザ指示を認識するために使用するテーブルである(図9C参照)。指示動作命令生成テーブル503aは、指示動作命令生成部503がユーザ指示の認識結果に応じて指示動作命令を生成するために使用するテーブルである(図10参照)。送受信データ847は、通信制御部501を介してオーダ用タブレット220と送受信するデータである。
ストレージ850には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。指示履歴学習データベース214は、図7に示したデータベースである。ストレージ850には、以下のプログラムが格納される。クラウドサーバ制御プログラム851は、本クラウドサーバ210の全体を制御するプログラムである。検索範囲決定モジュール852は、クラウドサーバ制御プログラム851において、各指示情報を認識するための検索範囲を決定するモジュールである(図12A参照)。ユーザ指示認識モジュール853は、クラウドサーバ制御プログラム851において、決定された検索範囲においてユーザ指示を認識するモジュールである(図12B参照)。指示動作命令生成モジュール854は、クラウドサーバ制御プログラム851において、認識したユーザ指示に応じた指示動作命令を生成するモジュールである。
なお、図8のRAM840やストレージ850には、クラウドサーバ210が有する汎用の機能や他の実現可能な機能に関連するデータやプログラムは図示されていない。
(検索範囲決定テーブル)
図9Aは、本実施形態に係る検索範囲決定テーブル212aの構成を示す図である。検索範囲決定テーブル212aは、指示情報に基づき指示履歴学習データベース214を参照して、検索範囲決定部212の検索範囲決定のために使用される。
図9Aは、本実施形態に係る検索範囲決定テーブル212aの構成を示す図である。検索範囲決定テーブル212aは、指示情報に基づき指示履歴学習データベース214を参照して、検索範囲決定部212の検索範囲決定のために使用される。
検索範囲決定テーブル212aは、音声指示による検索範囲決定テーブル910と、ジェスチャー映像による検索範囲決定テーブル920と、操作入力による検索範囲決定テーブル930とを含む。音声指示による検索範囲決定テーブル910は、音声指示に基づいて、ジェスチャー映像の検索範囲や操作入力の検索範囲を決定するために使用される。また、ジェスチャー映像による検索範囲決定テーブル920は、ジェスチャー映像に基づいて、音声指示の検索範囲や操作入力の検索範囲を決定するために使用される。また、操作入力による検索範囲決定テーブル930は、操作入力に基づいて、音声指示の検索範囲やジェスチャー映像の検索範囲を決定するために使用される。
音声指示による検索範囲決定テーブル910は、音声指示911における受信音声、認識言語、あるいはその他の属性に対応付けて、ジェスチャー映像912の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、操作入力913の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、ジェスチャー映像による検索範囲決定テーブル920は、ジェスチャー映像921における受信映像、認識国籍、あるいはその他の属性に対応付けて、音声指示922の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、操作入力923の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、操作入力による検索範囲決定テーブル930は、操作入力931における受信操作、認識シーン、あるいはその他の属性に対応付けて、音声指示932の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。また、ジェスチャー映像933の検索範囲、検索範囲外、あるいは追加検索範囲、を記憶する。
(ユーザの属性)
図9Bは、本実施形態に係るユーザの属性940を示す図である。上記図9Aにおいては、検索範囲を決定する情報として、受信音声による認識言語や、受信映像からの認識国籍や、受信操作からの認識シーンを代表例として示した。しかしながら、検索範囲を決定する情報としては、他の情報を利用可能である。図9Bには、利用可能な情報として、ユーザの属性についてその例を示す。なお、検索範囲を決定する情報は、ユーザの属性に限定されない。
図9Bは、本実施形態に係るユーザの属性940を示す図である。上記図9Aにおいては、検索範囲を決定する情報として、受信音声による認識言語や、受信映像からの認識国籍や、受信操作からの認識シーンを代表例として示した。しかしながら、検索範囲を決定する情報としては、他の情報を利用可能である。図9Bには、利用可能な情報として、ユーザの属性についてその例を示す。なお、検索範囲を決定する情報は、ユーザの属性に限定されない。
ユーザの属性940としては、ユーザID941に対応付けて、ユーザの国籍942と、ユーザの出生地943、ユーザの発声言語944と、ユーザの人種945と、ユーザの職業946と、ユーザが置かれた環境947と、ユーザが遭遇したシーン948と、ユーザの癖949とを含む。さらに、ユーザの属性940やユーザの癖949として、ユーザの方言などが含まれてもよい。
(ユーザ指示認識テーブル)
図9Cは、本実施形態に係るユーザ指示認識テーブル213aの構成を示す図である。ユーザ指示認識テーブル213aは、ユーザ指示認識部213が、検索範囲決定部212が決定した検索範囲内で、ユーザ指示を認識するために使用される。
図9Cは、本実施形態に係るユーザ指示認識テーブル213aの構成を示す図である。ユーザ指示認識テーブル213aは、ユーザ指示認識部213が、検索範囲決定部212が決定した検索範囲内で、ユーザ指示を認識するために使用される。
ユーザ指示認識テーブル213aは、音声指示951の受信音声、検索範囲、そして指示予測と、ジェスチャー映像952の受信映像、検索範囲、そして指示予測と、操作入力953の受信操作、検索範囲、そして指示予測と、を記憶する。そして、指示予測に基づいて、指示認識結果954と成功率955とを記憶する。
(指示動作命令生成テーブル)
図10は、本実施形態に係る指示動作命令生成テーブル503aの構成を示す図である。指示動作命令生成テーブル503aは、指示動作命令生成部503が、ユーザ指示認識部213の認識結果に応じて、指示動作命令を生成するために使用される。
図10は、本実施形態に係る指示動作命令生成テーブル503aの構成を示す図である。指示動作命令生成テーブル503aは、指示動作命令生成部503が、ユーザ指示認識部213の認識結果に応じて、指示動作命令を生成するために使用される。
指示動作命令生成テーブル503aは、動作命令送信先ID1001に対応付けて、指示認識結果1002、成功率1003、指示認識結果1002の成功率を判定するための閾値1004、そして、成功率1003が閾値1004を超える場合に生成した指示動作命令1005を記憶する。なお、動作命令送信先ID1001は、オーダ用タブレット220のID、あるいは皿投入口駆動部230のIDを含む。
《クラウドサーバの処理手順》
図11は、本実施形態に係るクラウドサーバ210の処理手順を示すフローチャートである。このフローチャートは、図8のCPU810がRAM840を使用して実行し、図5の各機能構成部を実現する。
図11は、本実施形態に係るクラウドサーバ210の処理手順を示すフローチャートである。このフローチャートは、図8のCPU810がRAM840を使用して実行し、図5の各機能構成部を実現する。
クラウドサーバ210は、ステップS1101において、オーダ用タブレット220からの指示情報の受信か否かを判定する。指示情報の受信でなければ他の処理を行なう。クラウドサーバ210は、指示情報の受信であればステップS1103に進んで、受信した指示情報から音声指示を取得する。また、クラウドサーバ210は、ステップS1105において、受信した指示情報からジェスチャー映像を取得する。また、クラウドサーバ210は、ステップS1107において、受信した指示情報から操作入力を取得する。
そして、クラウドサーバ210は、ステップS1109において、取得したそれぞれの指示情報に基づいて、他の指示情報の検索範囲決定処理を行なう(図12A参照)。続いて、クラウドサーバ210は、ステップS1111において、検索範囲決定処理で決定された検索範囲で検索を行ない、ユーザ指示認識処理を実行する(図12B参照)。
その後、クラウドサーバ210は、ステップS1113において、ユーザ指示認識処理の認識結果に応じた、指示動作命令を生成して、指示動作命令の送信先に送信する。そして、クラウドサーバ210は、受信した指示情報と、決定した検索範囲、認識結果のユーザ指示、対応する指示動作命令、を対応付けて、指示履歴を指示履歴学習データベース214に蓄積する。
(検索範囲決定処理)
図12Aは、本実施形態に係る検索範囲決定処理S1109-1の処理手順を示すフローチャートである。図12Aの検索範囲決定処理S1109-1は、操作入力をタッチパネル上のユーザの動作入力に限定しない場合を示す。なお、図12Aにおいては、ユーザの属性を検索範囲決定のために使用するが、これに限定されない。
図12Aは、本実施形態に係る検索範囲決定処理S1109-1の処理手順を示すフローチャートである。図12Aの検索範囲決定処理S1109-1は、操作入力をタッチパネル上のユーザの動作入力に限定しない場合を示す。なお、図12Aにおいては、ユーザの属性を検索範囲決定のために使用するが、これに限定されない。
クラウドサーバ210は、ステップS1211において、音声指示、ジェスチャー映像、操作入力からユーザの属性を取得する。次に、クラウドサーバ210は、ステップS1213において、取得したユーザの属性に基づいて、音声指示、ジェスチャー映像、または操作入力の検索範囲を設定する。次に、クラウドサーバ210は、ステップS1215において、取得したユーザの属性に基づいて、音声指示、ジェスチャー映像、または操作入力の非検索範囲を設定する。そして、クラウドサーバ210は、ステップS1217において、指示履歴学習データベース214を参照して、音声指示、ジェスチャー映像、または操作入力の検索範囲を追加する。すなわち、クラウドサーバ210は、ユーザあるいは店員が同じ間違いを繰り返す場合には、指示履歴学習からその間違いをユーザ指示と認識する処理を行なう。
(ユーザ指示認識処理)
図12Bは、本実施形態に係るユーザ指示認識処理S1111の処理手順を示すフローチャートである。
図12Bは、本実施形態に係るユーザ指示認識処理S1111の処理手順を示すフローチャートである。
クラウドサーバ210は、ステップS1221において、指示情報の組合せによる指示予測の認識成功カウントを取得する。クラウドサーバ210は、ステップS1223においては、認識成功カウントが閾値αを超えるか否かを判定する。クラウドサーバ210は、認識成功カウントが閾値αを超える場合はステップS1229に進んで、指示予測をユーザ指示と決定する。
一方、クラウドサーバ210は、認識成功カウントが閾値αを超えない場合はステップS1225に進んで、指示情報の組合せによる指示予測の認識失敗カウントを取得する。クラウドサーバ210は、ステップS1227において、認識失敗カウントが閾値βを超えるか否かを判定する。クラウドサーバ210は、認識失敗カウントが閾値βを超える場合はステップS1229に進んで、認識失敗した指示予測をユーザ指示と決定する。
クラウドサーバ210は、認識失敗カウントが閾値βを超えない場合はステップS1231に進んで、ユーザ指示の認識失敗をオーダ用タブレット220に通知する。
《オーダ用タブレットのハードウェア構成》
図13は、本実施形態に係るオーダ用タブレット220のハードウェア構成を示すブロック図である。
図13は、本実施形態に係るオーダ用タブレット220のハードウェア構成を示すブロック図である。
図13で、CPU1310は演算制御用のプロセッサであり、プログラムを実行することで図6のオーダ用タブレット220の各機能構成部を実現する。ROM1320は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部604は通信制御部であり、本実施形態においては、ネットワークを介してクラウドサーバ210と通信する。なお、CPU1310は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPUを含んでもよい。
RAM1340は、CPU1310が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM1340には、本実施形態の実現に必要なデータを記憶する領域が確保されている。ユーザID/ユーザ認証情報1341は、オーダ用タブレット220を使用中のユーザの識別子とその認証情報である。端末ID/端末認証情報1342は、当該オーダ用タブレット220の識別子とその認証情報である。指示情報1343は、各指示情報入力部を介して取得し、クラウドサーバ210に送信する情報であり、指示音声1344と、ジェスチャー映像1345、操作入力1346のいずれかを含む。指示動作命令1347は、クラウドサーバ210から受信したユーザに指示に応じた動作命令である。送受信データ1348は、通信制御部501を介してクラウドサーバ210と送受信するデータである。入出力データ1349は、入出力インタフェース1360を介して入出力される入出力データを示す。
ストレージ1350には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。オーダ用タブレット情報1351は、本オーダ用タブレット220の識別子を含む情報である。ストレージ1350には、以下のプログラムが格納される。オーダ用タブレット制御プログラム1352は、本オーダ用タブレット220の全体を制御する制御プログラムである。指示情報取得・送信モジュール1353は、オーダ用タブレット制御プログラム1352において、各指示情報入力部を介して指示情報を取得し、クラウドサーバ210に送信するモジュールである。指示動作命令受信・実行モジュール1354は、オーダ用タブレット制御プログラム1352において、クラウドサーバ210から指示動作命令を受信し、USBコネクタ610を介して皿投入口駆動部230に送信して、指示動作を実行するモジュールである。
入出力インタフェース1360は、入出力機器との入出力データをインタフェースする。入出力インタフェース1360には、表示部607、タッチパネル221などからなる操作部601が接続される。また、スピーカやマイク223などの音声入出力部608が接続される。さらに、GPS位置生成部1361やカメラ222などが接続される。そして、USBコネクタ610が接続される。
なお、図13のRAM1340やストレージ1350には、オーダ用タブレット220が有する汎用の機能や他の実現可能な機能に関連するデータやプログラムは図示されていない。
《オーダ用タブレットの処理手順》
図14は、本実施形態に係るオーダ用タブレット220の処理手順を示すフローチャートである。このフローチャートは、図13のCPU1310がRAM1340を使用して実行し、図6の各機能構成部を実現する。
図14は、本実施形態に係るオーダ用タブレット220の処理手順を示すフローチャートである。このフローチャートは、図13のCPU1310がRAM1340を使用して実行し、図6の各機能構成部を実現する。
オーダ用タブレット220は、ステップS1411において、タッチパネル221からユーザのオーダ操作を受けたか否かを判定する。また、オーダ用タブレット220は、タッチパネル221からユーザのオーダ操作を受けてない場合、ステップS1421において、店員による操作か否かを判定する。また、オーダ用タブレット220は、タッチパネル221からユーザのオーダ操作を受けてなく、かつ、店員による操作でない場合、ステップS1431において、クラウドサーバ210から指示動作命令を受信したか否かを判定する。
オーダ用タブレット220は、タッチパネル221からユーザのオーダ操作を受けた場合は、ステップS1413に進んで、タッチパネル221からオーダ情報を取得する。そして、オーダ用タブレット220は、ステップS1415において、オーダ情報を、オーダ処理をする店員に通知する。本実施形態の回転寿司屋であれば、オーダ用タブレット220は、オーダ内容を寿司職人に通知する。また、オーダ用タブレット220は、ステップS1407において、売上げの勘定を行なうPOS(Point of sale:図示せず)に対してもオーダ情報を通知する。
また、オーダ用タブレット220は、店員の操作であればステップS1423に進んで、マイク223により音声指示を取得する。次に、オーダ用タブレット220は、ステップS1425において、カメラ222によりジェスチャー映像を取得する。そして、オーダ用タブレット220は、ステップS1427において、タッチパネル221からの操作入力を取得する。なお、ステップS1423~S1427の順序はいずれでもよい。オーダ用タブレット220は、ステップS1429において、取得した指示情報をクラウドサーバ210に送信する。
また、オーダ用タブレット220は、クラウドサーバ210からの指示動作命令の受信であればステップS1433に進んで、指示動作命令を取得する。そして、オーダ用タブレット220は、ステップS1435において、出力先デバイス(本例では、皿投入口駆動部230)に指示動作命令を出力する。
本実施形態によれば、操作指示をしたユーザの属性に対応した検索範囲に絞って操作指示候補の検索を行なうので、異なるユーザの属性を含む膨大な操作指示候補を用意でき、その場合においてもユーザに対応した操作指示候補を効果的に絞ることができる。
なお、文字が読める従業員はタッチパネルを用いて、読めない従業員のみが音声+モーションで指示を行なってもよい。また、本実施形態を他の業態に適用することも可能である。例えば、ホテルの従業員による作業において、道具を持ったときは、音声+モーション、移動時は、手が使えるのでタッチパネルで入力という切り替えを行なってもよい。さらに、さらに、コンタクトセンタにおいて、手や足が不自由な人や、視力が弱い人の業務遂行を容易にするために上記のようなクラウドサーバを利用した音声+モーションによる操作入力判定を行なってもよい。
[第3実施形態]
次に、本発明の第3実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第2実施形態と比べると、オーダ用タブレットのタッチパネル上のユーザの動作指示を指示動作情報とする点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
次に、本発明の第3実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第2実施形態と比べると、オーダ用タブレットのタッチパネル上のユーザの動作指示を指示動作情報とする点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、手や指によるジェスチャーやモーションによる動作指示に加えて、タッチパネル上のユーザのタッチ軌跡を指示動作情報として入力できる。
《情報処理システムの動作概念》
図15は、本実施形態に係る情報処理システム1500の動作概念を説明する図である。
図15は、本実施形態に係る情報処理システム1500の動作概念を説明する図である。
図15においては、回転寿司屋の店員251が、皿投入口駆動部230を駆動して皿投入口240を開く指示を、音声指示および動作指示(オーダ用タブレット1520のタッチパネル上の動作指示)で行なった場合に、クラウドサーバ1510が指示内容を認識して、皿投入口駆動部230を駆動する例を示している。図15においては、左図が店員251による音声指示および動作指示を示し、右図が皿投入口駆動部230を駆動して皿投入口240を開いた状態を示している。
まず、左図において、オーダ用タブレット1520の表示画面には、カメラ222で撮像された客席が表示される。店員251は、“OPEN”と英語で音声指示を行ない、表示画面の皿投入口240の位置を、人差し指によって皿投入口240を指す動作指示を行なっている。オーダ用タブレット1520のタッチパネル221は、皿投入口240を指す動作指示を取得する。図15においては、丸を描く動作1521を示している。また、オーダ用タブレット1520のマイク223は、店員251の“OPEN”との音声を取得する。オーダ用タブレット1520は、タッチパネル221上の動作指示と、“OPEN”との音声とを、クラウドサーバ1510に送信する。クラウドサーバ1510は、過去の指示情報と認識結果との履歴を蓄積する指示履歴学習データベース1514を参照して、店員251が皿投入口240を開くように指示したことを認識する。そして、右図のように、オーダ用タブレット1520を介して、皿投入口駆動部230を駆動して皿投入口240を開き、皿260を投入する。なお、動作指示の形状(丸や三角、四角など)と音声との関連による検索範囲の決定は、第2実施形態と同様に、本実施形態においても実行される。
なお、本実施形態のクラウドサーバ1510の機能構成部は、図5の指示履歴学習データベース214を指示履歴学習データベース1514に置き換えた機能構成となり、他は同様であるので、図示および説明は省略する。
(指示履歴学習データベース)
図16は、本実施形態に係る指示履歴学習データベース1514の構成を示す図である。なお、指示履歴学習データベース1514は、図16の構成に限定されない。
図16は、本実施形態に係る指示履歴学習データベース1514の構成を示す図である。なお、指示履歴学習データベース1514は、図16の構成に限定されない。
指示履歴学習データベース1514は、カメラ222が撮像したカメラ映像1601と、そのオーダ用タブレット1520への表示映像1602と、マイク223が取得した音声入力1603と、に対応付けて、以下のデータを蓄積する。蓄積するデータは、オーダ用タブレット1520のタッチパネル221上のモーション検索範囲1604、タッチパネル221上のモーション1605、指示認識結果1606、成功率1607を記憶する。
なお、図16には図示しないが、図7のように、出現カウントや指示認識成功カウントや指示認識失敗カウントを記憶してもよい。
(検索範囲決定処理)
図17は、本実施形態に係る検索範囲決定処理S1109-2の処理手順を示すフローチャートである。この図17の検索範囲決定処理S1109-2は、第2実施形態の図12Aの検索範囲決定処理S1109-2を代替するフローチャートである。
図17は、本実施形態に係る検索範囲決定処理S1109-2の処理手順を示すフローチャートである。この図17の検索範囲決定処理S1109-2は、第2実施形態の図12Aの検索範囲決定処理S1109-2を代替するフローチャートである。
クラウドサーバ1510は、ステップS1711において、音声指示、表示映像からユーザの属性を取得する。次に、クラウドサーバ1510は、ステップS1713において、取得したユーザの属性に基づいて、タッチパネル・モーションの検索範囲を設定する。次に、クラウドサーバ1510は、ステップS1715において、取得したユーザの属性に基づいて、タッチパネル・モーションの非検索範囲を設定する。そして、クラウドサーバ1510は、ステップS1717において、指示履歴学習データベース1514を参照して、タッチパネル・モーションの検索範囲を追加する。すなわち、クラウドサーバ1510は、ユーザあるいは店員が同じ間違いを繰り返す場合には、指示履歴学習からその間違いをユーザ指示と認識する処理を行なう。
本実施形態によれば、ユーザのタッチ軌跡をも指示履歴学習データベースに格納したので、手や指によるジェスチャーやモーションによる動作指示に加えて、タッチパネル上のユーザのタッチ軌跡を指示動作情報として入力できる。
[第4実施形態]
次に、本発明の第4実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第2および第3実施形態と比べると、タブレットのカメラから撮像した部屋の映像の表示を使って、指示音声情報と指示動作情報とに基づいて部屋の電子機器を自動制御する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
次に、本発明の第4実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第2および第3実施形態と比べると、タブレットのカメラから撮像した部屋の映像の表示を使って、指示音声情報と指示動作情報とに基づいて部屋の電子機器を自動制御する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、指示音声情報と指示動作情報とを組み合わせて、部屋の電子機器の自動制御を指示できる。
《情報処理システムの動作概念》
図18は、本実施形態に係る情報処理システム1800の動作概念を説明する図である。なお、クラウドサーバ1810の有する指示履歴学習データベース1514は、図16と同様であってよい。
図18は、本実施形態に係る情報処理システム1800の動作概念を説明する図である。なお、クラウドサーバ1810の有する指示履歴学習データベース1514は、図16と同様であってよい。
図18においては、タブレットあるいはスマートフォンなどの通信端末1820に、カメラ222で撮像した部屋の映像が表示されている。部屋には、空調機とテレビが存在する。この部屋の映像から制御対象を動作指示しながら、各ユーザ1811~1813が各国の言語で、制御内容を指示している。
映像上では、タッチパネル221上で、空調機の指示動作1821とテレビの指示動作1822とが入力される。なお、指示動作1821と指示動作1822は異なる形状であってもよい。
そして、日本人1811は、“室温23℃、3チャンネル受像”との音声指示が行なわれる。また、中国人1812の場合は、図18に示すように中国語で音声指示が行なわれる。また、米国人1813に場合は、“Room temperature to 23 degree. Televising of the channel 3.”との音声指示が行なわれる。
本実施形態によれば、音声指示の話者の国籍や発声言語によらず、クラウドサーバ1810が、指示内容の検索範囲を決定して、迅速で確実な指示認識を行なう。そして、ユーザ指示に応じた指示動作命令をクラウドサーバ1810から送信することによって、ユーザ指示に従う動作を実現する。
なお、図18においては、動作指示をタッチパネル221上の動作指示としたが、第2実施形態のように、ユーザのジェスチャーやモーションをカメラ222で撮像した映像から取得してもよい。
本実施形態によれば、指示音声情報と指示動作情報とを組み合わせて、部屋の電子機器の自動制御を指示できる。
[第5実施形態]
次に、本発明の第5実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第2および第4実施形態と比べると、指示音声情報と指示動作情報とに基づいてユーザの操作指示を、クラウドサーバではなく通信端末において認識する点で異なる。その他の構成および動作は、第2および第4実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
次に、本発明の第5実施形態に係る情報処理システムについて説明する。本実施形態に係る情報処理システムは、上記第2および第4実施形態と比べると、指示音声情報と指示動作情報とに基づいてユーザの操作指示を、クラウドサーバではなく通信端末において認識する点で異なる。その他の構成および動作は、第2および第4実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
本実施形態によれば、ユーザの操作指示を通信端末において認識するので、通信のトラフィックを軽減して迅速な指示認識ができる。
《情報処理システムの動作手順》
図19は、本実施形態に係る情報処理システム1900の動作手順を示すシーケンス図である。なお、図19において、第2実施形態の図4と同様のステップには同じステップ番号を付して、説明は省略する。
図19は、本実施形態に係る情報処理システム1900の動作手順を示すシーケンス図である。なお、図19において、第2実施形態の図4と同様のステップには同じステップ番号を付して、説明は省略する。
まず、ステップS1901においては、クラウドサーバ1910から通信端末であるオーダ用タブレット1920に対して、指示認識アプリケーション(以下、指示認識アプリ)と指示履歴学習DB214の一部をダウンロードする。なお、指示履歴学習DB214の一部は、オーダ用タブレット1920において認識するユーザの操作指示に対応する範囲のデータであってよい。
オーダ用タブレット1920は、受信した指示履歴学習DB214の一部を自分の指示履歴学習DB1924に格納して、ステップS1903において、ダウンロードされた指示認識アプリを起動する。そして、オーダ用タブレット1920は、図4と同様に、ステップS401、S403、または、S405において、タッチパネルからの指示入力取得、カメラからのジェスチャー映像取得、または、マイクからの音声指示取得をする。
オーダ用タブレット1920は、ステップS1909において、指示履歴学習DB1924を参照して、タッチパネルからの指示入力取得、カメラからのジェスチャー映像取得、または、マイクからの音声指示取得に基づいて、それぞれの指示認識のための検索範囲を決定する。そして、ステップS1911において、指示履歴学習DB1924を参照して、検索範囲を検索して合致した検索結果を指示として認識する。そして、ステップS1913において、認識した指示に対応する指示動作命令を生成して、対象機器に送信する。本例では、対象機器は、皿投入口起動部230である。
次に、オーダ用タブレット1920は、ステップS1915において、認識した指示履歴を取得した指示情報に対応付けて、指示履歴学習DB1924に蓄積する。また、ステップS1917において、認識した指示履歴を取得した指示情報に対応付けてクラウドサーバ1910に送信する。クラウドサーバ1910は、ステップS1919において、認識した指示履歴を取得した指示情報に対応付けて、指示履歴学習DB214に全体の学習履歴として蓄積する。
なお、指示履歴学習DB1924の構成は、その蓄積データ量がオーダ用タブレット1920に対応する量だけであることを除いて、図7と同様であるので、説明は省略する。また、図19においては、指示履歴学習DB1924の内容は、クラウドサーバ1910からダウンロードされるように説明したが、オーダ用タブレット1920が独立して有する構成であってもよい。
《オーダ用タブレットの機能構成》
図20は、本発明の第5実施形態に係るオーダ用タブレット1920の機能構成を示すブロック図である。なお、図20において、第2実施形態の図6と同様の機能構成部には同じ参照番号を付して、説明を省略する。
図20は、本発明の第5実施形態に係るオーダ用タブレット1920の機能構成を示すブロック図である。なお、図20において、第2実施形態の図6と同様の機能構成部には同じ参照番号を付して、説明を省略する。
指示認識アプリ/指示履歴学習DB受信部2001は、クラウドサーバ1910から通信制御部604を介して、指示認識アプリと、オーダ用タブレット1920に関連する指示履歴学習DBのデータとを受信する。そして、指示履歴学習DBのデータは、指示履歴学習DB1925に格納される。
指示認識アプリ実行部2002は、クラウドサーバ1910からダウンロードされた指示認識アプリを実行して、指示認識を実現する。指示認識アプリ実行部2002は、指示情報取得部2003と、検索範囲決定部2004と、ユーザ指示認識部2005と、指示動作命令生成部2006と、を有する。
指示情報取得部2003は、タッチパネル221、マイク223、または、カメラ222からのユーザの指示情報を取得する。検索範囲決定部2004は、指示情報取得部2003が取得した指示情報から、指示履歴学習データベース1924を参照して、お互いの指示認識のための検索範囲を決定する。ユーザ指示認識部2005は、指示情報取得部2003が受信した指示情報同士を組み合わせて、検索範囲決定部2004が決定した検索範囲を、指示履歴学習データベース1924を参照して検索し、ユーザ指示を認識する。
指示動作命令生成部2006は、ユーザ指示認識部2005が認識したユーザ指示に応じた指示動作命令を生成する。そして、指示動作命令生成部2006が生成した指示動作命令は、USBドライバ実行部611により、USBコネクタ610を介して皿投入口駆動部230に送信される。また、指示動作命令生成部2006が生成した指示動作命令は、取得した指示情報と対応付けて通信制御部604を介してクラウドサーバ1910に送信され、蓄積される。
なお、第2実施形態のクラウドサーバ210と同様に、図20のオーダ用タブレット1920の検索範囲決定部2004は、検索範囲決定テーブル(図示せず)を有する。また、ユーザ指示認識部2005は、ユーザ指示認識テーブル(図示せず)を有する。また、指示動作命令生成部2006は、指示動作命令生成テーブル(図示せず)を有する。これらテーブルの構成は、図9A、図9Bまたは図10と同様であるので、説明は省略する。
本実施形態によれば、ユーザの操作指示を通信端末において認識するので、通信のトラフィックを軽減して迅速な指示認識ができる。
[他の実施形態]
なお、上記実施形態においては、店舗における店員の操作指示、あるいは部屋内に設置された電子機器への操作指示を音声と動作とに基づいて認識する例を示した。しかしながら、本発明のユーザの操作指示を音声と動作とに基づいて認識する技術は、カメラやマイクを併用する通信端末に対するユーザの操作指示を認識する種々の技術に適用ができる。例えば、クラウドサーバが、ユーザが参加する会議システムを管理している場合に、ユーザによる会議システムへの指示を、会議システムを構成する通信端末が取得したユーザの音声と動作とに基づいて認識する技術に、容易に適用される。
なお、上記実施形態においては、店舗における店員の操作指示、あるいは部屋内に設置された電子機器への操作指示を音声と動作とに基づいて認識する例を示した。しかしながら、本発明のユーザの操作指示を音声と動作とに基づいて認識する技術は、カメラやマイクを併用する通信端末に対するユーザの操作指示を認識する種々の技術に適用ができる。例えば、クラウドサーバが、ユーザが参加する会議システムを管理している場合に、ユーザによる会議システムへの指示を、会議システムを構成する通信端末が取得したユーザの音声と動作とに基づいて認識する技術に、容易に適用される。
また、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。
この出願は、2012年05月30日に出願された日本国特許出願 特願2012-123804号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
Claims (21)
- ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
を備える情報処理装置。 - 前記指示情報受信手段は、さらに、前記ユーザの指示対象となるデバイスのデバイス情報を受信し、
前記ユーザ指示認識手段が認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信手段をさらに備える請求項1に記載の情報処理装置。 - 前記指示動作情報は、ユーザの指示動作を撮像するカメラを介して、前記ユーザのジェスチャーあるいはモーションに基づいて取得される請求項1または2に記載の情報処理装置。
- 前記指示動作情報は、ユーザの指示動作を入力するタッチパネルを介して、前記ユーザの指の前記タッチパネルでのモーションに基づいて取得される請求項1乃至3のいずれか1項に記載の情報処理装置。
- 前記検索範囲決定手段は、前記指示音声情報または前記指示動作情報に基づいてユーザの属性を取得し、前記ユーザの属性に応じて前記検索範囲を決定する請求項1乃至4のいずれか1項に記載の情報処理装置。
- 前記ユーザの属性は、前記ユーザの国籍と、前記ユーザの発声言語と、前記ユーザの人種と、前記ユーザの職業と、前記ユーザが置かれた環境と、前記ユーザが遭遇したシーンと、前記ユーザの癖と、前記ユーザの方言とのいずれかを含む請求項5に記載の情報処理装置。
- 前記指示情報受信手段が受信した指示音声情報および指示動作情報と、前記検索範囲と、前記ユーザ指示認識手段が認識したユーザの指示とを対応付けて蓄積する指示履歴蓄積手段をさらに備え、
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記指示音声情報または前記指示動作情報を認識するための検索範囲を決定する請求項1乃至6のいずれか1項に記載の情報処理装置。 - 前記指示履歴蓄積手段は、さらに、前記指示情報受信手段が受信した指示情報と前記ユーザ指示認識手段がユーザの指示を誤って認識した認識失敗とを対応付けて蓄積し、
前記検索範囲決定手段は、前記指示履歴蓄積手段を参照して、前記認識失敗の出現数が閾値を超える場合に、前記認識失敗の認識結果を前記指示音声情報または前記指示動作情報を認識するための検索範囲に追加する請求項7に記載の情報処理装置。 - 前記ユーザは店の店員であって、前記ユーザ指示認識手段は、前記店員の指示を認識する請求項1乃至8のいずれか1項に記載の情報処理装置。
- 前記ユーザ指示認識手段は、部屋に設置された機器に対する操作指示を認識する請求項1乃至8のいずれか1項に記載の情報処理装置。
- 前記情報処理装置は前記ユーザが参加する会議システムを管理し、
前記ユーザ指示認識手段は、前記ユーザによる前記会議システムへの指示を認識する請求項1乃至8のいずれか1項に記載の情報処理装置。 - ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
を含む情報処理装置の制御方法。 - ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
をコンピュータに実行させる情報処理装置の制御プログラム。 - ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備える通信端末。 - ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含む通信端末の制御方法。 - ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
をコンピュータに実行させる通信端末の制御プログラム。 - ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
を備える通信端末。 - ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
を含む通信端末の制御方法。 - ユーザの音声を検出する音声検出ステップと、
前記ユーザの動作を検出する動作検出ステップと、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、取得する指示情報取得ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
をコンピュータに実行させる通信端末の制御プログラム。 - ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムであって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得されたユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信手段と、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定手段と、
前記検索範囲決定手段で決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識手段と、
前記ユーザ指示認識手段が認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信手段と、
を備え、
前記通信端末が、
ユーザの音声を検出する音声検出手段と、
前記ユーザの動作を検出する動作検出手段と、
前記音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信手段と、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信手段と、
前記動作命令受信手段が受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力手段と、
を備える情報処理システム。 - ネットワークを介して接続された情報処理装置と通信端末とを含む情報処理システムの情報処理方法であって、
前記情報処理装置が、
ユーザの音声を介して取得された前記ユーザの指示音声を示す指示音声情報と、前記ユーザの動作を介して取得された前記ユーザの指示動作を示す指示動作情報とを、前記ユーザの指示対象となるデバイスのデバイス情報と共に、受信する指示情報受信ステップと、
前記指示音声情報に応じて前記指示動作情報を認識するための検索範囲を決定し、または、前記指示動作情報に応じて前記指示音声情報を認識するための検索範囲を決定する検索範囲決定ステップと、
前記検索範囲決定ステップにおいて決定された検索範囲において前記指示音声情報または前記指示動作情報を検索し、検索結果から前記ユーザの指示を認識するユーザ指示認識ステップと、
前記ユーザ指示認識ステップにおいて認識した前記ユーザの指示に応じた前記デバイスの動作命令を送信する動作命令送信ステップと、を含み、
前記通信端末が、
ユーザの音声を検出する音声検出手段を介して前記ユーザの指示音声を示す指示音声情報を取得し、前記ユーザの動作を検出する動作検出手段を介して前記ユーザの指示動作を示す指示動作情報を取得し、前記指示音声情報および前記指示動作情報を、前記ユーザの指示対象であるデバイスのデバイス情報と共に、情報処理装置に送信する指示情報送信ステップと、
前記指示音声情報および前記指示動作情報から前記情報処理装置において認識した前記ユーザの指示に応じた前記デバイスの動作命令を、前記情報処理装置から受信する動作命令受信ステップと、
前記動作命令受信ステップにおいて受信した動作命令を、前記ユーザの指示対象である前記デバイスに出力する動作命令出力ステップと、
を含む情報処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13797821.9A EP2857958A4 (en) | 2012-05-30 | 2013-05-22 | INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING METHOD, COMMUNICATION TERMINAL, INFORMATION PROCESSING DEVICE AND CONTROL METHOD AND CONTROL PROGRAM THEREFOR |
US14/403,268 US9489951B2 (en) | 2012-05-30 | 2013-05-22 | Information processing system, information processing method, communication terminal, information processing apparatus, and control method and control program thereof |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012123804A JP6044819B2 (ja) | 2012-05-30 | 2012-05-30 | 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム |
JP2012-123804 | 2012-05-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013179985A1 true WO2013179985A1 (ja) | 2013-12-05 |
Family
ID=49673186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/064238 WO2013179985A1 (ja) | 2012-05-30 | 2013-05-22 | 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9489951B2 (ja) |
EP (1) | EP2857958A4 (ja) |
JP (1) | JP6044819B2 (ja) |
WO (1) | WO2013179985A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015165257A1 (zh) * | 2014-04-30 | 2015-11-05 | 中兴通讯股份有限公司 | 语音识别方法、装置、系统及计算机存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6155555B2 (ja) * | 2012-05-30 | 2017-07-05 | 日本電気株式会社 | 情報処理システム、情報処理方法、情報処理装置、携帯端末およびその制御方法と制御プログラム |
US9730671B2 (en) * | 2014-10-03 | 2017-08-15 | David Thomas Gering | System and method of voice activated image segmentation |
JP6316214B2 (ja) * | 2015-01-14 | 2018-04-25 | シャープ株式会社 | システム、サーバ、電子機器、サーバの制御方法、およびプログラム |
JP6841232B2 (ja) * | 2015-12-18 | 2021-03-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2017113903A (ja) * | 2015-12-21 | 2017-06-29 | キヤノン株式会社 | 画像形成装置、画像形成装置の制御方法、及び、プログラム |
US10960540B2 (en) * | 2017-05-05 | 2021-03-30 | Accenture Global Solutions Limited | Robot orchestration architecture |
US20230113524A1 (en) * | 2021-10-07 | 2023-04-13 | International Business Machines Corporation | Reactive voice device management |
CN116580826B (zh) * | 2023-05-25 | 2024-04-19 | 深圳市米软科技有限公司 | 基于人工智能的住院管理系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10214258A (ja) * | 1997-01-28 | 1998-08-11 | Victor Co Of Japan Ltd | データ処理システム |
JP2002182680A (ja) | 2000-12-19 | 2002-06-26 | Alpine Electronics Inc | 操作指示装置 |
JP2002251234A (ja) * | 2001-02-23 | 2002-09-06 | Fujitsu Ltd | 複数のセンサによるヒューマンインタフェースシステム |
JP2004317604A (ja) * | 2003-04-14 | 2004-11-11 | Mitsubishi Electric Corp | 表示制御装置及び表示制御方法及び表示制御プログラム |
JP2007079624A (ja) * | 2005-09-09 | 2007-03-29 | Toyota Central Res & Dev Lab Inc | 発話検出装置、方法及びプログラム |
JP2012123804A (ja) | 2010-12-08 | 2012-06-28 | Hyundai Motor Co Ltd | 顔認証システム及びその方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020036617A1 (en) | 1998-08-21 | 2002-03-28 | Timothy R. Pryor | Novel man machine interfaces and applications |
US6185529B1 (en) * | 1998-09-14 | 2001-02-06 | International Business Machines Corporation | Speech recognition aided by lateral profile image |
JP2001188555A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 情報処理装置および方法、並びに記録媒体 |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
JP4311190B2 (ja) * | 2003-12-17 | 2009-08-12 | 株式会社デンソー | 車載機器用インターフェース |
JP4572615B2 (ja) * | 2004-07-27 | 2010-11-04 | ソニー株式会社 | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2007293595A (ja) * | 2006-04-25 | 2007-11-08 | Canon Inc | 情報処理装置及び情報処理方法 |
JP2008058409A (ja) * | 2006-08-29 | 2008-03-13 | Aisin Aw Co Ltd | 音声認識方法及び音声認識装置 |
JP5636888B2 (ja) * | 2010-11-09 | 2014-12-10 | ソニー株式会社 | 情報処理装置、プログラムおよびコマンド生成方法 |
-
2012
- 2012-05-30 JP JP2012123804A patent/JP6044819B2/ja not_active Expired - Fee Related
-
2013
- 2013-05-22 US US14/403,268 patent/US9489951B2/en active Active
- 2013-05-22 WO PCT/JP2013/064238 patent/WO2013179985A1/ja active Application Filing
- 2013-05-22 EP EP13797821.9A patent/EP2857958A4/en not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10214258A (ja) * | 1997-01-28 | 1998-08-11 | Victor Co Of Japan Ltd | データ処理システム |
JP2002182680A (ja) | 2000-12-19 | 2002-06-26 | Alpine Electronics Inc | 操作指示装置 |
JP2002251234A (ja) * | 2001-02-23 | 2002-09-06 | Fujitsu Ltd | 複数のセンサによるヒューマンインタフェースシステム |
JP2004317604A (ja) * | 2003-04-14 | 2004-11-11 | Mitsubishi Electric Corp | 表示制御装置及び表示制御方法及び表示制御プログラム |
JP2007079624A (ja) * | 2005-09-09 | 2007-03-29 | Toyota Central Res & Dev Lab Inc | 発話検出装置、方法及びプログラム |
JP2012123804A (ja) | 2010-12-08 | 2012-06-28 | Hyundai Motor Co Ltd | 顔認証システム及びその方法 |
Non-Patent Citations (1)
Title |
---|
See also references of EP2857958A4 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015165257A1 (zh) * | 2014-04-30 | 2015-11-05 | 中兴通讯股份有限公司 | 语音识别方法、装置、系统及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2013250683A (ja) | 2013-12-12 |
JP6044819B2 (ja) | 2016-12-14 |
EP2857958A4 (en) | 2016-03-23 |
US9489951B2 (en) | 2016-11-08 |
EP2857958A1 (en) | 2015-04-08 |
US20150142437A1 (en) | 2015-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6044819B2 (ja) | 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム | |
CN111556278B (zh) | 一种视频处理的方法、视频展示的方法、装置及存储介质 | |
EP3188034A1 (en) | Display terminal-based data processing method | |
EP3341851B1 (en) | Gesture based annotations | |
JP6986187B2 (ja) | 人物識別方法、装置、電子デバイス、記憶媒体、及びプログラム | |
US20080300854A1 (en) | Camera dictionary based on object recognition | |
CN107479691A (zh) | 一种交互方法及其智能眼镜和存储装置 | |
CN112632349B (zh) | 展区指示方法、装置、电子设备及存储介质 | |
US10971152B2 (en) | Imaging control method and apparatus, control device, and imaging device | |
US11789998B2 (en) | Systems and methods for using conjunctions in a voice input to cause a search application to wait for additional inputs | |
CN109922352A (zh) | 一种数据处理方法、装置、电子设备及可读存储介质 | |
CN111026949A (zh) | 一种基于电子设备的搜题方法及系统 | |
CN108804971A (zh) | 一种图像识别系统、增强现实显示设备和图像识别方法 | |
US20210158031A1 (en) | Gesture Recognition Method, and Electronic Device and Storage Medium | |
CN112052784A (zh) | 物品的搜索方法、装置、设备及计算机可读存储介质 | |
CN111079030A (zh) | 一种群组搜索方法及电子设备 | |
CN113553946A (zh) | 信息提示方法及装置、电子设备和存储介质 | |
CN111782041A (zh) | 打字方法及装置、设备、存储介质 | |
CN106407386B (zh) | 提高题目搜索效率的方法和装置 | |
Voronin et al. | Action recognition algorithm from visual sensor data for contactless robot control systems | |
US11604830B2 (en) | Systems and methods for performing a search based on selection of on-screen entities and real-world entities | |
CN109084750B (zh) | 一种导航方法及电子设备 | |
CN112579868A (zh) | 多模态识图搜索方法、装置、设备以及存储介质 | |
CN105930525A (zh) | 内容搜索方法及装置 | |
CN111858855A (zh) | 信息查询方法、装置、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13797821 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 14403268 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
REEP | Request for entry into the european phase |
Ref document number: 2013797821 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2013797821 Country of ref document: EP |