WO2016190060A1 - 情報処理装置および情報処理方法、並びにプログラム - Google Patents
情報処理装置および情報処理方法、並びにプログラム Download PDFInfo
- Publication number
- WO2016190060A1 WO2016190060A1 PCT/JP2016/063631 JP2016063631W WO2016190060A1 WO 2016190060 A1 WO2016190060 A1 WO 2016190060A1 JP 2016063631 W JP2016063631 W JP 2016063631W WO 2016190060 A1 WO2016190060 A1 WO 2016190060A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- activation word
- user
- vocabulary
- unit
- information processing
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 84
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 230000004913 activation Effects 0.000 claims abstract description 244
- 238000001514 detection method Methods 0.000 claims abstract description 59
- 230000009471 action Effects 0.000 claims abstract description 18
- 230000007423 decrease Effects 0.000 claims abstract description 14
- 230000033001 locomotion Effects 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 19
- 230000003247 decreasing effect Effects 0.000 claims description 9
- 230000001133 acceleration Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000012544 monitoring process Methods 0.000 description 36
- 238000000034 method Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 30
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/1613—Constructional details or arrangements for portable computers
- G06F1/163—Wearable computers, e.g. on a belt
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/1613—Constructional details or arrangements for portable computers
- G06F1/1633—Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
- G06F1/1684—Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
- G06F1/1694—Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being a single or a set of motion sensors for pointer control or gesture input obtained by sensing movements of the portable computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Definitions
- the present disclosure relates to an information processing device, an information processing method, and a program, and particularly relates to an information processing device, an information processing method, and a program that can provide a better user experience.
- wearable terminals such as glasses and watches have been developed as small devices that can be worn and carried by the user. For example, many wearable terminals recognize voices spoken by the user. The function is installed. By making the voice recognition function in such a wearable terminal available at all times, the convenience of the user can be improved. However, it is assumed that the wearable terminal recognizes speech in response to the user's monologue or ambient noise, and if the speech recognition function is always available, there is a concern that malfunction may occur.
- Patent Literature 1 discloses an instruction instructed by a gesture by associating a speech recognition result obtained by speech recognition of an utterance speech and a trajectory of a gesture with respect to a screen based on a temporal relationship in which the utterance speech and the gesture are input.
- An information processing apparatus that can output information on an object is disclosed.
- the user experience provided by the application is impaired by uttering an activation word for activating the voice recognition function.
- the application is a game that provides a specific view of the world, and a vocabulary that is not related to the world view is set as the activation word, the user can be released from the world view provided by the application by speaking the vocabulary. Give a feeling of pulling apart.
- the present disclosure has been made in view of such a situation, and is intended to provide a better user experience.
- An information processing apparatus uses a vocabulary used as an activation word so that an activation word spoken by a user in order to activate a predetermined function is increased or decreased based on a detection result obtained by detecting a user operation.
- An activation word setting unit that sets voice, and an activation word that recognizes speech spoken by the user and recognizes that a vocabulary set to be used as the activation word by the activation word setting unit is spoken A recognition unit.
- An information processing method or program is configured as the activation word so that the activation word spoken by the user to activate a predetermined function is increased or decreased based on a detection result in which the user's operation is detected. Setting a vocabulary to be used, performing speech recognition on the speech uttered by the user, and recognizing that the vocabulary set to be used as the activation word is spoken.
- a vocabulary used as an activation word is set so that the activation word spoken by the user to activate a predetermined function is increased or decreased based on a detection result obtained by detecting the user's action, Voice recognition is performed on the voice spoken by the user, and it is recognized that a vocabulary set to be used as an activation word is spoken.
- a better user experience can be provided.
- FIG. 18 is a block diagram which shows the structural example of 1st Embodiment of the information processing apparatus to which this technique is applied. It is a figure explaining the vocabulary and sensor pattern which are registered into a corresponding
- FIG. 1 is a block diagram illustrating a configuration example of a first embodiment of an information processing apparatus to which the present technology is applied.
- the information processing apparatus 11 includes a detection unit 12, a voice input unit 13, an application execution unit 14, an output unit 15, and an activation word recognition control unit 16.
- the information processing apparatus 11 is a wearable terminal that can be worn and carried by the user.
- the information processing apparatus 11 activates a voice recognition function according to the user's voice and operation, and various user experiences depending on applications using voice recognition. Can be provided.
- the detection unit 12 includes various sensors such as a position sensor, a geomagnetic sensor, and a gyro sensor, and the detection results detected by these sensors are used as the application execution unit 14 and the activation word recognition control unit 16. To supply. For example, the detection unit 12 supplies the current position information of the information processing apparatus 11 detected by the position sensor to the application execution unit 14 and the activation word recognition control unit 16 as a detection result. In addition, the detection unit 12 uses the operation information of the information processing apparatus 11 detected by the geomagnetic sensor and the gyro sensor (information indicating in which direction and what movement) as the detection result, and the application execution unit 14 and the activation This is supplied to the word recognition control unit 16.
- various sensors such as a position sensor, a geomagnetic sensor, and a gyro sensor, and the detection results detected by these sensors are used as the application execution unit 14 and the activation word recognition control unit 16.
- the detection unit 12 supplies the current position information of the information processing apparatus 11 detected by the position sensor to the application execution unit
- the voice input unit 13 includes, for example, a microphone, converts voice uttered by the user into an electric signal, and supplies the electric signal to the application execution unit 14 and the activation word recognition control unit 16.
- the application execution unit 14 executes various applications using voice recognition. For example, the application execution unit 14 activates the speech recognition function for a certain period from the timing at which the activation word set to be used for activation of the speech recognition function is recognized. Then, the application execution unit 14 recognizes the user's voice during the period when the voice recognition function is activated, and supplies an output corresponding to the application to be executed to the output unit 15 based on the recognition result.
- the configuration of the application execution unit 14 will be described later with reference to FIG.
- the output unit 15 is configured by, for example, a display, a speaker, and the like, and outputs sound from the speaker and displays an image on the display according to the recognition result by the application executed in the application execution unit 14.
- the activation word recognition control unit 16 includes a sensor monitoring unit 21, a correspondence database 22, an activation word control unit 23, an activation word vocabulary database 24, and an activation word recognition unit 25. Then, the activation word recognition control unit 16 performs control to increase or decrease the vocabulary used as the activation word for activating the speech recognition function of the application execution unit 14 based on the detection result supplied from the detection unit 12.
- the sensor monitoring unit 21 monitors the state of various sensors included in the detection unit 12 and refers to the sensor pattern and vocabulary registered in the correspondence database 22 and gives an instruction to the activation word control unit 23.
- the sensor monitoring unit 21 has a situation in which the user's action based on the detection result supplied from the detection unit 12 corresponds to a sensor pattern indicating a start condition for starting to use a predetermined vocabulary as an activation word.
- the activation word control unit 23 is instructed to use the vocabulary as the activation word.
- the sensor monitoring unit 21 reads out from the correspondence database 22 and holds a sensor pattern indicating an end condition for ending use of the vocabulary as an activation word.
- the activation word control unit 23 terminates the use of the vocabulary as the activation word. Instructions.
- the correspondence database 22 registers various vocabularies used as activation words and sensor patterns indicating start conditions and end conditions of the vocabularies in association with each other.
- the activation word control unit 23 registers the vocabulary in the activation word vocabulary database 24 according to the instruction from the sensor monitoring unit 21, and deletes the vocabulary from the activation word vocabulary database 24, thereby increasing or decreasing the vocabulary used as the activation word. Control.
- the activation word recognition unit 25 performs voice recognition processing on the voice input from the voice input unit 13.
- the activation word recognition unit 25 recognizes that the user has spoken the activation word registered in the activation word vocabulary database 24 as a result of the speech recognition processing, the activation word recognition unit 25 notifies the application execution unit 14 to that effect. .
- the sensor monitoring unit 21 and the activation word control unit 23 allow the user to activate the voice recognition function of the application execution unit 14 based on the detection result by the detection unit 12.
- the vocabulary used as the activation word can be controlled so that the activation word to be spoken increases or decreases. Thereby, compared with the structure which always starts the speech recognition function of the application execution part 14, it can suppress that malfunctioning generate
- a vocabulary along the world view provided by the application can be used as the activation word. Therefore, it is possible to avoid giving a sense of separating the user from the world view provided by the application, and to provide a better user experience.
- FIG. 2 shows vocabulary and sensor patterns registered in the correspondence database 22.
- the correspondence database 22 all vocabularies used as activation words in the information processing apparatus 11 are registered.
- a sensor pattern indicating a start condition for starting use as an activation word and a sensor pattern indicating an end condition for ending use as an activation word are registered in association with those vocabularies. Yes.
- the sensor pattern for example, an operation of a user detected by the detection unit 12, an elapsed time since the start of using a vocabulary as an activation word, and the like are registered.
- the position information supplied from the detection unit 12 to the sensor monitoring unit 21 as a detection result indicates a situation corresponding to the sensor pattern indicating the start condition. become.
- the sensor monitoring unit 21 instructs the activation word control unit 23 to use the vocabulary “Abracadabura” as the activation word.
- the position information supplied from the detection unit 12 to the sensor monitoring unit 21 as a detection result indicates a situation corresponding to the sensor pattern indicating the end condition. become. Accordingly, the sensor monitoring unit 21 instructs the activation word control unit 23 to end using the vocabulary “Abracadabura” as the activation word.
- a sensor pattern “the user has jumped three times” indicating the start condition and a sensor pattern “10 seconds have passed since the start” indicating the end condition are registered in association with the vocabulary “jump”. Has been.
- the sensor monitoring unit 21 corresponds to a sensor pattern indicating the start condition of the vocabulary “jump”. It is judged that the situation has been reached.
- the sensor monitoring unit 21 then instructs the activation word control unit 23 to use the vocabulary “jump” as the activation word.
- the sensor monitoring unit 21 measures the elapsed time from the start of using the vocabulary “jump” as the activation word.
- the sensor monitoring unit 21 determines that the situation corresponding to the sensor pattern indicating the end condition has been reached at the timing when the elapsed time has passed 10 seconds, and ends using the vocabulary “jump” as the activation word. Then, an instruction is given to the activation word control unit 23.
- the sensor monitoring unit 21 controls the use of the vocabulary “accelerator” as the activation word according to the walking speed of the user determined from the outputs of the acceleration sensor, the gyro sensor, and the position sensor of the detection unit 12.
- the gyro sensor of the detection unit 12 can detect the orientation of the user's face, and the sensor monitoring unit 21 can detect the vocabulary “ Controls use of "accelerator” as activation word.
- the sensor monitoring unit 21 can control the use of the vocabulary associated with each sensor pattern as the activation word.
- a predetermined vocabulary can be used as an activation word for a predetermined time.
- a predetermined vocabulary may be used as the activation word after the user's operation performs the first operation until the second operation is performed.
- the sensor pattern can be a period from when the user tilts his / her face to the right side and tilts to the left side, or after the user swings his arm up and down.
- FIG. 3 shows vocabularies registered in the activation word vocabulary database 24.
- the user moves to the sensor pattern “North latitude 35.6197, east longitude 139.728553, within 10 m” shown in FIG. 2.
- the sensor monitoring unit 21 instructs the activation word control unit 23 to use the vocabulary “Abracadabura” as the activation word.
- the activation word control unit 23 adds the vocabulary “Abracadabra” to the activation word vocabulary database 24 as shown in the middle part of FIG.
- the sensor monitoring unit 21 terminates the use of the vocabulary “Abracadabura” as the activation word. 23 is instructed.
- the activation word control unit 23 deletes the vocabulary “Abracadabra” from the activation word vocabulary database 24, as shown in the lower part of FIG.
- the activation word recognizing unit 25 uses the vocabulary “Abracadabra” as an activation word only when the user is in the sensor pattern “within 35.6197 north latitude, 139.728553 east longitude, 10 m” corresponding to the vocabulary “Abracadabra” shown in FIG. Can be recognized.
- the information processing apparatus 11 allows the user to move to a place where a predetermined door is displayed in the game.
- the vocabulary “Aburakadabura” can be used as an activation word only when he / she is present.
- the spell recognition function of the application execution unit 14 recognizes the spell and can display an image that opens the door.
- the information processing apparatus 11 can activate the voice recognition function of the application execution unit 14 when the user speaks the vocabulary “Abracadabura” that matches the world view provided by the game. It is possible to provide a user experience that remains in line with the view.
- FIG. 4 is a flowchart for explaining the activation word recognition control process executed in the activation word recognition control unit 16.
- step S ⁇ b> 11 the sensor monitoring unit 21 determines based on the detection result supplied from the detection unit 12 whether the situation corresponds to the sensor pattern start condition registered in the correspondence database 22. .
- step S11 when the sensor monitoring unit 21 determines that the situation corresponding to the start condition of the sensor pattern is reached, the process proceeds to step S12.
- step S12 the sensor monitoring unit 21 instructs the activation word control unit 23 to use, as the activation word, the vocabulary associated with the sensor pattern determined to be in the situation corresponding to the start condition. Accordingly, the activation word control unit 23 registers the activation word vocabulary database 24 so that the vocabulary instructed by the sensor monitoring unit 21 is used as the activation word.
- step S13 the sensor monitoring unit 21 internally retains the vocabulary instructed to be used as the activation word in step S12 and the sensor pattern end condition associated with the vocabulary.
- step S13 or when it is determined in step S11 that the situation does not correspond to the sensor pattern start condition, the process proceeds to step S14.
- step S ⁇ b> 14 the sensor monitoring unit 21 determines based on the detection result supplied from the detection unit 12 whether or not a situation corresponding to the end condition of the sensor pattern registered in the correspondence database 22 has been reached.
- step S14 when the sensor monitoring unit 21 determines that the situation corresponding to the start condition of the sensor pattern is reached, the process proceeds to step S15.
- step S15 the sensor monitoring unit 21 instructs the activation word control unit 23 to exclude from the activation word the vocabulary associated with the sensor pattern determined to be in the situation corresponding to the start condition.
- the activation word control unit 23 deletes the vocabulary instructed from the sensor monitoring unit 21 from the activation word vocabulary database 24.
- step S16 the sensor monitoring unit 21 deletes the vocabulary instructed to be excluded from the activation word in step S15 and the sensor pattern end condition associated with the vocabulary from the inside.
- step S16 After the process of step S16, or when it is determined in step S14 that the situation does not correspond to the sensor pattern end condition, the process proceeds to step S17.
- step S ⁇ b> 17 the activation word recognition unit 25 determines whether or not an activation word registered in the activation word vocabulary database 24 has been uttered as a result of performing speech recognition processing on the voice input from the voice input unit 13. .
- step S17 If it is determined in step S17 that the activation word has been uttered, the process proceeds to step S18 to notify the application execution unit 14 that the activation word has been uttered, and instruct the voice recognition function to be activated. Thereby, the speech recognition process is started in the application execution unit 14.
- step S18 After the process of step S18 or when it is determined in step S17 that the activation word has not been spoken, the process returns to step S11, and thereafter, the same process is performed until the application execution unit 14 finishes executing the application. Repeated.
- the information processing apparatus 11 registers the vocabulary associated with the start condition to be used as the activation word, and the user action is the sensor pattern. If the ending condition is satisfied, the vocabulary associated with the ending condition is excluded from the activation word, so that the increase / decrease of the activation word can be reliably controlled according to the user's action.
- a vocabulary registered in the activation word database 24 and recognizable as an activation word can be displayed on the display of the output unit 15. This allows the user to recognize usable activation words.
- FIG. 5 is a block diagram illustrating a configuration example of the second embodiment of the information processing apparatus to which the present technology is applied.
- the information processing apparatus 11A includes a detection unit 12, a voice input unit 13, an application execution unit 14, an output unit 15, and an activation word recognition control unit 16A.
- the configurations of the detection unit 12, the voice input unit 13, the application execution unit 14, and the output unit 15 are the same as those of the information processing apparatus 11 in FIG. 1, and detailed descriptions thereof are omitted.
- the activation word recognition control unit 16A includes a sensor monitoring unit 21, a correspondence database 22, an activation word vocabulary database 24, an activation word recognition unit 25, and an activation word filter unit 26.
- the sensor monitoring unit 21 monitors the state of various sensors included in the detection unit 12, refers to the sensor pattern registered in the correspondence database 22, and increases or decreases the vocabulary used as the activation word with respect to the activation word filter unit 26. Control. As described above with reference to FIG. 2, sensor patterns and vocabulary are registered in the correspondence database 22.
- the activation word vocabulary database 24 vocabularies to be all activation words that may be used in the information processing apparatus 11A are registered in advance.
- the activation word recognition unit 25 performs speech recognition processing on the voice input from the voice input unit 13 and recognizes that a vocabulary registered in the activation word vocabulary database 24 has been input, the activation word filter To the unit 26.
- the activation word filter unit 26 filters the activation word by determining whether or not the vocabulary supplied from the activation word recognition unit 25 is a vocabulary instructed by the sensor monitoring unit 21 to be used as an activation word. Do. Then, when the vocabulary supplied from the activation word recognition unit 25 is a vocabulary instructed to be used as the activation word by the sensor monitoring unit 21, the activation word filter unit 26 instructs the application execution unit 14 to Notify that the user has spoken the activation word. On the other hand, if the vocabulary supplied from the activation word recognition unit 25 is not the vocabulary instructed by the sensor monitoring unit 21 to be used as the activation word, the activation word filter unit 26 does not utter the activation word. Judge.
- the information processing apparatus 11A configured in this way can reliably recognize the activation word.
- the number of vocabularies can be kept to a minimum, so that high recognition can be maintained.
- the information processing apparatus 11 of FIG. 1 since the activation word is registered in the activation word vocabulary database 24 after the detection result of the detection unit 12 has changed, if it takes time to register the activation word, The response corresponding to the increase / decrease is delayed. Therefore, for example, if the activation word is spoken during registration of the activation word, there is a possibility that it cannot be recognized.
- the process of registering the activation word in the activation word vocabulary database 24 is not performed. A situation where the activation word cannot be recognized can be avoided. Thereby, the information processing apparatus 11A can recognize the activation word more reliably.
- FIG. 6 is a block diagram illustrating a configuration example of the application execution unit 14.
- the application execution unit 14 includes a voice recognition unit 31, an operation recognition unit 32, a sensor information storage unit 33, a command database 34, and a control unit 35.
- the voice recognition unit 31 starts voice recognition under the control of the control unit 35 and performs voice recognition processing on the voice input from the voice input unit 13. For example, when a user utters a command used in an application executed by the application execution unit 14, the voice recognition unit 31 recognizes the voice of the command, and recognizes the recognition result and time information related to the utterance by the control unit. 35.
- the motion recognition unit 32 performs a motion recognition process based on detection results detected by various sensors included in the detection unit 12, and recognizes the user's motion. For example, the motion recognition unit 32 recognizes the direction in which the user swings his hand down, the direction in which the user's face and body are facing, and the like according to the type of sensor included in the detection unit 12. The result is stored in the sensor information storage unit 33 as sensor information. In addition, when there is an inquiry about the sensor information from the control unit 35, the motion recognition unit 32, from the current sensor information supplied from the detection unit 12 and the sensor information stored in the sensor information storage unit 33, The operation recognition result corresponding to the inquired sensor information is supplied to the control unit 35.
- the sensor information storage unit 33 stores sensor information obtained by the motion recognition process performed by the motion recognition unit 32.
- a command used in an application executed by the application execution unit 14 a time range, and sensor information are registered in association with each other.
- the control unit 35 When the activation word is recognized by the activation word recognition unit 25 of the activation word recognition control unit 16 and an instruction is input from the activation word recognition unit 25 to activate speech recognition, the control unit 35 starts the speech recognition process. Thus, the activation control for the voice recognition unit 31 is performed. Then, the control unit 35 refers to the command database 34 based on the voice recognition result of the command supplied from the voice recognition unit 31 and the time information, and recognizes the motion of the sensor information associated with the recognized command. An inquiry about the operation recognition result is made to the unit 32. Thereafter, the control unit 35 supplies the output according to the operation recognition result from the operation recognition unit 32 to the output unit 15. For example, in the configuration of the information processing apparatus 11A illustrated in FIG. 5, an instruction to activate speech recognition is input from the activation word filter unit 26 (FIG. 5) to the control unit 35, and similar processing is performed. Is done.
- FIG. 7 shows an example of the command database 34.
- commands, time ranges, and sensor information are registered in association with each other.
- the command “beam launch” is associated with a time range “within 3 seconds after voice utterance” and sensor information “direction in which the right hand is swung down”. That is, in response to the command “beam emission” uttered by the user, the voice recognition unit 31 recognizes that the command “beam emission” has been uttered, and the user's right arm swings down within 3 seconds from the time when the utterance ends.
- the motion recognition unit 32 supplies the determined direction to the control unit 35 as a motion recognition result.
- the control unit 35 performs output (for example, display of beam effect) in accordance with the command “beam emission” in the direction in which the user's right arm is swung down.
- the command “rocket launch” is associated with the time range “immediately after utterance” and sensor information “the direction the body is facing”. That is, in response to the command “rocket launch” uttered by the user, the voice recognition unit 31 recognizes that the command “rocket launch” has been uttered, and immediately after the utterance is finished, the direction in which the user is facing, The motion recognition unit 32 supplies the control unit 35 with the motion recognition result. In accordance with the motion recognition result, the control unit 35 performs an output corresponding to the command “rocket launch” in a direction in which the user's body is facing (for example, display of an effect that the launched rocket travels).
- the time range “from 0.1 seconds before the start of the voice segment to the end of the voice” and the sensor information “the range of the direction in which the right hand is directed” are associated with the command “Naguri-e”. That is, with respect to the command “nagashi” that is uttered by the user, from the time immediately before the voice recognition unit 31 recognizes that the command “nagashi” is uttered (0.1 seconds before), the time when the utterance ends
- the motion recognition unit 32 supplies the range in which the user's right hand is facing to the control unit 35 as the motion recognition result.
- the command “mark here” is associated with the time range “the end time of the word“ word ”in the speech recognition result” and the sensor information “the direction of the user's face, the user's position”. ing. That is, for the command “mark here” uttered by the user, at the time when the utterance of the word “coco” is completed, the voice recognition unit 31 recognizes that the command “mark here” is spoken.
- the motion recognition unit 32 supplies the direction in which the user's face is facing and the position of the user to the control unit 35 as a motion recognition result.
- control unit 35 outputs an output corresponding to the command “mark here” (for example, fixing a mark) to a front position (a position in front of the user's eyes) in the direction in which the user's body is facing. Display).
- the command database 34 associates the command recognized by the voice recognition unit 31 with the time range based on the time when the command was uttered, and the sensor information ( Azimuth, azimuth range, orientation, altitude, etc.) are registered.
- the information processing apparatus 11 is a wristwatch-type wearable terminal and can detect the movement and direction of the user's arm by a geomagnetic sensor and a gyro sensor included in the detection unit 12.
- the utterance of the activation word is detected and the speech recognition processing of the speech recognition unit 31 is started, and it is detected that the user raises the right hand as shown in the uppermost part of FIG. Then, the voice recognition process of the voice recognition unit 31 can be started.
- the control unit 35 recognizes that the activation word has been uttered by the user or that the user has performed a predetermined action (in this example, raising the right hand), and the speech recognition processing is performed from the activation word recognition control unit 16. Is instructed to start the speech recognition processing to the speech recognition unit 31. Then, the control unit 35 stands by for processing until the voice command spoken by the user is recognized by the voice recognition unit 31.
- a predetermined action in this example, raising the right hand
- the speech recognition unit 31 recognizes the command “beam emission” and the command Time information indicating the time when “beam emission” is spoken is supplied to the control unit 35.
- control unit 35 reads the time range and sensor information associated with the command “beam emission” recognized by the voice recognition unit 31 from the command database 34 and operates the sensor information in the time range. Request to the recognition unit 32.
- the operation recognition unit 32 obtains the direction in which the user's right hand is swung down as the operation recognition result, and the control unit 35.
- control unit 35 outputs an image representing the effect of the beam being emitted in the direction in which the user's right hand is swung down in an augmented reality manner. It is displayed on the display of the unit 15.
- the application execution unit 14 can recognize the user's operation based on the time when the user uttered the command, and can perform an output suitable for the user's operation.
- the process is started, and in step S21, the control unit 35 starts the speech recognition process for the speech recognition unit 31. To control.
- step S22 the control unit 35 determines whether or not the command is recognized by the voice recognition unit 31, and waits for processing until it is determined that the command is recognized by the voice recognition unit 31. Then, when the voice recognition result of the command and the time information are supplied from the voice recognition unit 31, the control unit 35 determines that the command has been recognized, and the process proceeds to step S23.
- step S23 the control unit 35 refers to the command database 34 and inquires the motion recognition unit 32 about the sensor information associated with the recognized command.
- step S ⁇ b> 24 the motion recognition unit 32 supplies the motion recognition result corresponding to the inquired sensor information to the control unit 35, and the control unit 35 supplies the output according to the motion recognition result to the output unit 15. .
- step S24 After the process of step S24, the process returns to step S22, and the same process is repeated thereafter.
- the application execution unit 14 can execute a process in which a command uttered by the user and a user operation based on the time when the command is uttered are integrated. Thereby, the application execution part 14 can perform the output according to the command and operation
- the information processing apparatus 11 is a glasses-type wearable terminal and the output unit 15 can display an image superimposed on the user's field of view
- the command “acceleration device” is displayed while the user is running.
- the visual effect related to the running direction can be displayed on the output unit 15. It should be noted that a visual effect related to the running direction may be displayed when it is detected that the user has started running after speaking the command “accelerator”.
- the information processing apparatus 11 when the information processing apparatus 11 is a wristwatch-type wearable terminal, the user can input a voice command using the right hand as a trigger from the top (for example, “beam emission”), and then recognize it thereafter.
- the direction in which information is output in accordance with the voice command (for example, “the direction of the beam”) can be the direction of the right hand that has been swung down.
- the position information is acquired and the device corresponding to the command is executed on the game executed by the application execution unit 14. Can be set.
- the information processing apparatus 11 performs various outputs according to the application executed by the application execution unit 14 by detecting the user's operation (gesture) based on the time when the user uttered the command. Can do. Further, the information processing apparatus 11 determines the time at which each “kore” is recognized according to the word “kore, kore, kore” uttered by the user and the direction of the user's hand at that time. Can be used to recognize an object designated by the user. That is, the control unit 35 utters a word indicating the object, and at the time when the speech recognition unit 31 recognizes the word, the control unit 35 determines the object ahead of the user's hand recognized by the motion recognition unit 32. It is recognized as an object to be pointed by the user. As described above, the information processing apparatus 11 can set the display object displayed on the screen as an instruction target, not an actual object.
- the information processing apparatus 11 can use the user's action detected by the detection unit 12 to determine a word break when the voice recognition unit 31 recognizes the voice.
- an altitude sensor can be used so that a predetermined vocabulary is used as an activation word only when the user is at a location above or below a certain height.
- a predetermined vocabulary can be used as an activation word only when heading in a certain direction using a geomagnetic sensor.
- a predetermined vocabulary can be used as an activation word only in a bright place or only in a dark place by using an optical sensor.
- a predetermined vocabulary is used as an activation word only when the user is hungry when using a blood glucose sensor, only at a predetermined time when using a clock, and after walking a predetermined number of steps when using a pedometer. can do.
- a predetermined vocabulary may be used as an activation word when a specific object is imaged.
- the information processing apparatus 11 when a specific application is executed in the application execution unit 14, for example, when a game using a spell is executed, a vocabulary used as an activation word during normal operation (see FIG. 3). It is possible to prohibit the use of the indicated vocabulary “Harosmaho”) as an activation word that activates speech recognition. Further, the information processing apparatus 11 may automatically activate the voice recognition function when a situation corresponding to the sensor pattern described above with reference to FIG.
- the processes described with reference to the flowcharts described above do not necessarily have to be processed in chronological order in the order described in the flowcharts, but are performed in parallel or individually (for example, parallel processes or objects). Processing).
- the program may be processed by one CPU, or may be distributedly processed by a plurality of CPUs.
- the above-described series of processing can be executed by hardware or can be executed by software.
- a program constituting the software executes various functions by installing a computer incorporated in dedicated hardware or various programs.
- the program is installed in a general-purpose personal computer from a program recording medium on which the program is recorded.
- FIG. 10 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- An input / output interface 105 is further connected to the bus 104.
- the input / output interface 105 includes an input unit 106 including a keyboard, a mouse, and a microphone, an output unit 107 including a display and a speaker, a storage unit 108 including a hard disk and nonvolatile memory, and a communication unit 109 including a network interface.
- a drive 110 for driving a removable medium 111 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is connected.
- the CPU 101 loads, for example, the program stored in the storage unit 108 to the RAM 103 via the input / output interface 105 and the bus 104 and executes the program. Is performed.
- the program executed by the computer (CPU 101) is, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.), a magneto-optical disc, or a semiconductor.
- the program is recorded on a removable medium 111 that is a package medium including a memory or the like, or is provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
- the program can be installed in the storage unit 108 via the input / output interface 105 by attaching the removable medium 111 to the drive 110. Further, the program can be received by the communication unit 109 via a wired or wireless transmission medium and installed in the storage unit 108. In addition, the program can be installed in the ROM 102 or the storage unit 108 in advance.
- An activation word setting unit that sets a vocabulary to be used as the activation word so as to increase or decrease the activation word spoken by the user in order to activate a predetermined function based on the detection result of detecting the user's action;
- An information processing apparatus comprising: an activation word recognition unit that performs voice recognition on a voice spoken by the user and recognizes that a vocabulary set to be used as the activation word by the activation word setting unit is spoken.
- the activation word setting unit uses a vocabulary associated with the start condition as the activation word when the user's action corresponds to a start condition for starting to use a predetermined vocabulary as the activation word.
- the activation word setting unit corresponds to an ending condition for ending use of the predetermined vocabulary as the activation word when the predetermined vocabulary is registered to be used as the activation word. Then, the information processing apparatus according to (2), wherein the predetermined vocabulary is excluded from the activation word. (4) When the elapsed time from the time when the start condition is set is set as an end condition for ending use of the predetermined vocabulary as the start word, the start word setting unit sets the start word to the start word The information processing apparatus according to (2), wherein a time after registration for use as a word is counted and the predetermined vocabulary is excluded from the activation word when the elapsed time has elapsed.
- the activation word setting unit controls increase / decrease of a vocabulary used as the activation word according to the position of the user based on position information supplied as the detection result. Any one of (1) to (4) The information processing apparatus described. (6) The activation word setting unit controls increase / decrease of a vocabulary used as the activation word according to the operation of the user based on at least acceleration information supplied as the detection result. Any one of (1) to (5) The information processing apparatus described in 1. (7) When the activation word recognition unit recognizes that the user has uttered the activation word, the activation word recognition unit further includes an application execution unit that starts a speech recognition process in an application using speech recognition. The information processing apparatus according to any one of the above.
- the activation word recognition unit performs voice recognition for recognizing all vocabulary that may be used as the activation word
- the activation word setting unit performs filtering based on whether or not the vocabulary recognized by the activation word recognition unit is the vocabulary decided to be used as the activation word according to a detection result of detecting the user's action.
- the information processing apparatus according to (1) wherein the information processing apparatus corresponds to increase / decrease in the activation word by performing.
- the application execution unit A voice recognition unit for recognizing that the user has uttered a predetermined command; An operation recognition unit for recognizing a user's operation corresponding to the command in a time range based on a time when the command recognized by the voice recognition unit is uttered;
- the information processing apparatus according to (7), further comprising: a control unit that performs output according to the command in accordance with a result of motion recognition by the motion recognition unit.
- the motion recognition unit recognizes the direction in which the user's body is facing when the utterance of the command recognized by the voice recognition unit ends.
- the information processing apparatus according to (9), wherein the control unit performs output according to the command in a direction recognized by the motion recognition unit.
- the motion recognition unit recognizes the direction in which the user's arm is swung down within a predetermined time range from the time when the command recognized by the voice recognition unit is uttered, The information processing apparatus according to (9) or (10), wherein the control unit performs output according to the command in a direction recognized by the motion recognition unit.
- the control unit is configured to use, as a user's instruction target, an object ahead of the user's hand recognized by the motion recognition unit at a time when a word indicating an arbitrary object is recognized by the voice recognition unit.
- the information processing apparatus according to any one of (9) to (11) above.
- 11 Information processing device 12 detection unit, 13 voice input unit, 14 application execution unit, 15 output unit, 16 activation word recognition control unit, 21 sensor monitoring unit, 22 compatible database, 23 activation word control unit, 24 activation word vocabulary database , 25 activation word recognition unit, 26 activation word filter unit, 31 voice recognition unit, 32 operation recognition unit, 33 sensor information storage unit, 34 command database, 35 control unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Abstract
本開示は、より良いユーザ体験を提供することができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。 情報処理装置は、ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、起動ワードとして用いる語彙を設定する起動ワード設定部と、ユーザの発話する音声に対する音声認識を行って、起動ワード設定部により起動ワードとして用いるように設定されている語彙が発話されたことを認識する起動ワード認識部とを備える。本技術は、例えば、音声認識機能を備えたウェアラブル端末に適用できる。
Description
本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より良いユーザ体験を提供することができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。
近年、ユーザが身に着けて持ち歩くことができる小型デバイスとして、例えば、眼鏡型や時計型などのウェアラブル端末が開発されており、多くのウェアラブル端末には、ユーザが発話する音声を認識する音声認識機能が搭載されている。このようなウェアラブル端末における音声認識機能を、常時、利用可能とすることによって、ユーザの利便性を向上させることができる。しかしながら、ウェアラブル端末が、ユーザの独り言や周囲のノイズなどに反応して音声認識することも想定され、音声認識機能を常に利用可能とした場合には、誤作動が発生することが懸念される。
そのため、通常時には音声認識機能を停止させておき、音声認識機能を起動させるための起動ボタンをウェアラブル端末に設けることが検討される。しかしながら、小型のウェアラブル端末では、起動ボタンを設けることが困難であったり、起動ボタンに対する良好な操作性を提供することが困難であったりすることが想定される。これに対し、ユーザの利便性を考慮して、所定の起動ワードをウェアラブル端末に設定しておき、その起動ワードが認識されたときに一定期間だけ、音声認識機能を起動する技術が開発されている。
一方、ユーザが発話する音声だけでなく、ユーザのジェスチャも組み合わせた解析を行うことによって、より複雑で具体的な入力情報に対応することができる技術が開発されている。
例えば、特許文献1には、発話音声を音声認識した音声認識結果と、画面に対するジェスチャの軌道とを、発話音声およびジェスチャが入力された時間関係に基づいて対応付けることにより、ジェスチャによって指示された指示物の情報を出力することができる情報処理装置が開示されている。
ところで、従来のウェアラブル端末において、音声認識を利用したアプリケーションを実行しているときに、音声認識機能を起動させるための起動ワードを発話することによって、アプリケーションにより提供されるユーザ体験を損ねてしまうことがある。例えば、アプリケーションが特定の世界観を提供するゲームである場合に、その世界観と無関係の語彙が起動ワードとして設定されていると、その語彙を発話することによって、アプリケーションが提供する世界観からユーザを引き離すような感覚を与えてしまう。このようなユーザ体験を損ねるようなことを回避して、より良いユーザ体験を提供することが求められている。
本開示は、このような状況に鑑みてなされたものであり、より良いユーザ体験を提供することができるようにするものである。
本開示の一側面の情報処理装置は、ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定する起動ワード設定部と、前記ユーザの発話する音声に対する音声認識を行って、前記起動ワード設定部により前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する起動ワード認識部とを備える。
本開示の一側面の情報処理方法またはプログラムは、ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識するステップを含む。
本開示の一側面においては、ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、起動ワードとして用いる語彙が設定され、ユーザの発話する音声に対する音声認識を行って、起動ワードとして用いるように設定されている語彙が発話されたことが認識される。
本開示の一側面によれば、より良いユーザ体験を提供することができる。
以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
図1は、本技術を適用した情報処理装置の第1の実施の形態の構成例を示すブロック図である。
図1に示すように、情報処理装置11は、検出部12、音声入力部13、アプリケーション実行部14、出力部15、および起動ワード認識制御部16を備えて構成される。例えば、情報処理装置11は、ユーザが身に着けて持ち歩くことが可能なウェアラブル端末であり、ユーザの音声および動作に応じて音声認識機能を起動し、音声認識を利用したアプリケーションによって様々なユーザ体験を提供することができる。
検出部12は、例えば、位置センサや、地磁気センサ、ジャイロセンサなどの各種のセンサを有して構成され、それらのセンサにより検出された検出結果を、アプリケーション実行部14および起動ワード認識制御部16に供給する。例えば、検出部12は、位置センサにより検出される情報処理装置11の現在位置情報を、検出結果としてアプリケーション実行部14および起動ワード認識制御部16に供給する。また、検出部12は、地磁気センサおよびジャイロセンサにより検出される情報処理装置11の動作情報(どの方向に、どのような動きをしたかを示す情報)を、検出結果としてアプリケーション実行部14および起動ワード認識制御部16に供給する。
音声入力部13は、例えば、マイクロホンにより構成され、ユーザが発話する音声を電気信号に変換して、アプリケーション実行部14および起動ワード認識制御部16に供給する。
アプリケーション実行部14は、音声認識を利用した各種のアプリケーションを実行する。例えば、アプリケーション実行部14は、音声認識機能の起動に用いるように設定された起動ワードが認識されたタイミングから一定期間だけ、音声認識機能を起動する。そして、アプリケーション実行部14は、音声認識機能が起動している期間におけるユーザの音声を認識し、その認識結果に基づいて、実行するアプリケーションに応じた出力を出力部15に供給する。なお、アプリケーション実行部14の構成については、図6を参照して後述する。
出力部15は、例えば、ディスプレイやスピーカなどにより構成され、アプリケーション実行部14において実行されるアプリケーションによる認識結果に応じて、スピーカから音声を出力し、ディスプレイに画像を表示する。
起動ワード認識制御部16は、センサ監視部21、対応データベース22、起動ワード制御部23、起動ワード語彙データベース24、および起動ワード認識部25を備えて構成される。そして、起動ワード認識制御部16は、検出部12から供給される検出結果に基づいて、アプリケーション実行部14の音声認識機能を起動するための起動ワードとして用いる語彙を増減する制御を行う。
センサ監視部21は、検出部12が備える各種のセンサの状態を監視し、対応データベース22に登録されているセンサパタンおよび語彙を参照して、起動ワード制御部23に対する指示を行う。例えば、センサ監視部21は、検出部12から供給される検出結果に基づくユーザの動作が、所定の語彙を起動ワードとして用いることを開始する開始条件を示すセンサパタンに該当する状況となったとき、その語彙を起動ワードとして用いるように、起動ワード制御部23に対する指示を行う。また、このとき、センサ監視部21は、その語彙を起動ワードとして用いることを終了する終了条件を示すセンサパタンを対応データベース22から読み出して保持しておく。そして、センサ監視部21は、起動ワードとして用いている語彙の終了条件を示すセンサパタンに該当する状況となったとき、その語彙を起動ワードとして用いることを終了するように、起動ワード制御部23に対する指示を行う。
対応データベース22は、図2を参照して後述するように、起動ワードとして用いられる様々な語彙と、それらの語彙の開始条件および終了条件を示すセンサパタンとが対応付けられて登録されている。
起動ワード制御部23は、センサ監視部21からの指示に従って、起動ワード語彙データベース24に語彙を登録し、また、起動ワード語彙データベース24から語彙を削除することにより、起動ワードとして用いる語彙の増減を制御する。
起動ワード語彙データベース24には、起動ワードとして用いられる語彙が登録される。
起動ワード認識部25は、音声入力部13から入力される音声に対する音声認識処理を行う。そして、起動ワード認識部25は、音声認識処理を行った結果、起動ワード語彙データベース24に登録されている起動ワードをユーザが発話したことを認識した場合、その旨をアプリケーション実行部14に通知する。
以上のように構成される情報処理装置11では、センサ監視部21および起動ワード制御部23により、検出部12による検出結果に基づいて、アプリケーション実行部14の音声認識機能を起動させるためにユーザが発話する起動ワードが増減するように、起動ワードとして用いる語彙を制御することができる。これにより、例えば、アプリケーション実行部14の音声認識機能を常に起動させる構成と比較して、雑音などによって誤作動が発生することを抑制することができる。
また、情報処理装置11では、アプリケーション実行部14が実行するアプリケーションに応じて、そのアプリケーションにより提供される世界観に沿った語彙を起動ワードとすることができる。これにより、アプリケーションが提供する世界観からユーザを引き離すような感覚を与えることを回避することができ、より良いユーザ体験を提供することができる。
次に、図2には、対応データベース22に登録される語彙およびセンサパタンが示されている。
対応データベース22には、情報処理装置11において起動ワードとして用いられる全ての語彙が登録されている。そして、対応データベース22では、それらの語彙に対応付けて、起動ワードとして用いることを開始する開始条件を示すセンサパタン、および、起動ワードとして用いることを終了する終了条件を示すセンサパタンが登録されている。センサパタンとしては、例えば、検出部12により検出されるユーザの動作や、語彙を起動ワードとして用い始めてからの経過時間などが登録される。
例えば、対応データベース22には、語彙「アブラカダブラ」に対応付けて、開始条件を示すセンサパタン「北緯35.6197、東経139.728553、10mの範囲内である」と、終了条件を示すセンサパタン「北緯35.6197、東経139.728553、10mの範囲外である」とが登録されている。
従って、例えば、センサパタンで規定される範囲内にユーザが移動すると、検出部12から検出結果としてセンサ監視部21に供給される位置情報が、開始条件を示すセンサパタンに該当する状況を示すことになる。これに従い、センサ監視部21は、語彙「アブラカダブラ」を起動ワードとして用いるように、起動ワード制御部23に対する指示を行う。その後、例えば、センサパタンで規定される範囲外にユーザが移動すると、検出部12から検出結果としてセンサ監視部21に供給される位置情報が、終了条件を示すセンサパタンに該当する状況を示すことになる。これに従い、センサ監視部21は、語彙「アブラカダブラ」を起動ワードとして用いることを終了するように、起動ワード制御部23に対する指示を行う。
また、対応データベース22には、語彙「ジャンプ」に対応付けて、開始条件を示すセンサパタン「ユーザが3回ジャンプした」と、終了条件を示すセンサパタン「開始から10秒経過した」とが登録されている。
従って、例えば、検出部12の加速度センサの出力に従って、ユーザが3回ジャンプしたことを示す検出結果が供給されると、センサ監視部21は、語彙「ジャンプ」の開始条件を示すセンサパタンに該当する状況になったと判断する。そして、センサ監視部21は、語彙「ジャンプ」を起動ワードとして用いるように、起動ワード制御部23に対する指示を行う。このとき、センサ監視部21は、語彙「ジャンプ」を起動ワードとして用い始めてからの経過時刻を計時する。その後、センサ監視部21は、経過時刻が10秒を経過したタイミングで、終了条件を示すセンサパタンに該当する状況になったと判断し、語彙「ジャンプ」を起動ワードとして用いることを終了するように、起動ワード制御部23に対する指示を行う。
同様に、対応データベース22には、語彙「加速装置」に対応付けて、開始条件を示すセンサパタン「ユーザの歩行速度が25km/h以上である」と、終了条件を示すセンサパタン「ユーザの歩行速度が25km/h未満である」とが登録されている。従って、例えば、センサ監視部21は、検出部12の加速度センサ、ジャイロセンサ、および位置センサの出力から求められるユーザの歩行速度に従って、語彙「加速装置」を起動ワードとして用いることを制御する。
また、対応データベース22には、語彙「召喚」に対応付けて、開始条件を示すセンサパタン「ユーザが顔を上に向けた」と、終了条件を示すセンサパタン「ユーザが顔を前に向けた」とが登録されている。例えば、情報処理装置11が眼鏡型のウェアラブル端末である場合、検出部12のジャイロセンサによりユーザの顔の向きを検出することができ、センサ監視部21は、ユーザの顔の向きに従って、語彙「加速装置」を起動ワードとして用いることを制御する。
このように、対応データベース22に登録されているセンサパタンを参照し、センサ監視部21は、それぞれのセンサパタンに対応付けられている語彙を、起動ワードとして用いることを制御することができる。
なお、図2に示したようなセンサパタンの他、例えば、加速度センサなどにより検知されるユーザの動作が所定の条件を満たした場合、一定時間だけ、所定の語彙を起動ワードとして用いることができる。また、ユーザの動作が第1の動作を行ってから、第2の動作を行うまでの間、所定の語彙を起動ワードとして用いるようにしてもよい。例えば、ユーザが、顔を右側に傾けてから左側に傾けるまでの間や、腕を振り上げてから振り下ろすまでの間などをセンサパタンとすることができる。
次に、図3には、起動ワード語彙データベース24に登録される語彙が示されている。
例えば、起動ワード語彙データベース24には、常に起動ワードとして用いるように設定されている語彙「ハロースマホ」が登録されている。
そして、図3の上段に示すように、語彙「ハロースマホ」だけが登録されているときに、例えば、図2に示したセンサパタン「北緯35.6197、東経139.728553、10mの範囲内」にユーザが移動したとする。この場合、センサ監視部21は、語彙「アブラカダブラ」を起動ワードとして用いるように、起動ワード制御部23に対する指示を行う。この指示に応じて、起動ワード制御部23は、図3の中段に示すように、起動ワード語彙データベース24に語彙「アブラカダブラ」を追加する。
その後、ユーザが移動し、センサパタン「北緯35.6197、東経139.728553、10mの範囲外」となると、センサ監視部21は、語彙「アブラカダブラ」を起動ワードとして用いることを終了するように、起動ワード制御部23に対する指示を行う。これに従い、起動ワード制御部23は、図3の下段に示すように、起動ワード語彙データベース24から語彙「アブラカダブラ」を削除する。
従って、起動ワード認識部25は、図3に示した語彙「アブラカダブラ」に対応するセンサパタン「北緯35.6197、東経139.728553、10mの範囲内」にユーザが居るときだけ、語彙「アブラカダブラ」を起動ワードとして認識することができる。
これにより、例えば、アプリケーション実行部14が実行するアプリケーションが、呪文を使って冒険を行うようなゲームである場合、情報処理装置11は、ゲーム内で所定のドアが表示されている場所にユーザが居る時だけ、語彙「アブラカダブラ」を起動ワードとすることができる。そして、そのドアを開けるための呪文をユーザが発話すると、アプリケーション実行部14の音声認識機能により呪文を認識して、ドアが開くような画像を表示させることができる。一方、例えば、音声認識機能を起動するために、情報処理装置11に対する通常の語彙「ハロースマホ」をユーザが発話した場合には、そのゲームの世界観からユーザを引き離すような感覚を与えてしまうことが想定される。これに対し、情報処理装置11は、ゲームが提供する世界観に合った語彙「アブラカダブラ」をユーザが発話することで、アプリケーション実行部14の音声認識機能を起動することができるため、ゲームの世界観に沿ったままのユーザ体験を提供することができる。
次に、図4は、起動ワード認識制御部16において実行される起動ワード認識制御処理を説明するフローチャートである。
例えば、情報処理装置11に対してアプリケーション実行部14による音声認識を利用したアプリケーションを実行するように操作が行われると、起動ワード認識制御部16において起動ワード認識制御処理が開始される。そして、ステップS11において、センサ監視部21は、検出部12から供給される検出結果に基づいて、対応データベース22に登録されているセンサパタンの開始条件に該当する状況になったか否かを判定する。
ステップS11において、センサ監視部21が、センサパタンの開始条件に該当する状況になったと判定した場合、処理はステップS12に進む。
ステップS12において、センサ監視部21は、開始条件に該当する状況になったと判定されたセンサパタンに対応付けられている語彙を起動ワードとして用いるように、起動ワード制御部23に対する指示を行う。これに従い、起動ワード制御部23は、センサ監視部21から指示された語彙が起動ワードとして用いられるように、起動ワード語彙データベース24に登録する。
ステップS13において、センサ監視部21は、ステップS12で起動ワードとして用いるように指示した語彙と、その語彙に対応付けられているセンサパタンの終了条件を、内部に保持する。
ステップS13の処理後、または、ステップS11でセンサパタンの開始条件に該当する状況になっていないと判定された場合、処理はステップS14に進む。
ステップS14において、センサ監視部21は、検出部12から供給される検出結果に基づいて、対応データベース22に登録されているセンサパタンの終了条件に該当する状況になったか否かを判定する。
ステップS14において、センサ監視部21が、センサパタンの開始条件に該当する状況になったと判定した場合、処理はステップS15に進む。
ステップS15において、センサ監視部21は、開始条件に該当する状況になったと判定されたセンサパタンに対応付けられている語彙を起動ワードから除外するように、起動ワード制御部23に対する指示を行う。これに従い、起動ワード制御部23は、センサ監視部21から指示された語彙を、起動ワード語彙データベース24から削除する。
ステップS16において、センサ監視部21は、ステップS15で起動ワードから除外するように指示した語彙と、その語彙に対応付けられているセンサパタンの終了条件を、内部から消去する。
ステップS16の処理後、または、ステップS14でセンサパタンの終了条件に該当する状況になっていないと判定された場合、処理はステップS17に進む。
ステップS17において、起動ワード認識部25は、音声入力部13から入力される音声に対する音声認識処理を行った結果、起動ワード語彙データベース24に登録されている起動ワードが発話されたか否かを判定する。
ステップS17において、起動ワードが発話されたと判定された場合、処理はステップS18に進み、起動ワードが発話された旨をアプリケーション実行部14に通知し、音声認識機能を起動するように指示を行う。これにより、アプリケーション実行部14において音声認識処理が開始される。
ステップS18の処理後、または、ステップS17で起動ワードが発話されていないと判定された場合、処理はステップS11に戻り、以下、アプリケーション実行部14がアプリケーションの実行を終了するまで、同様の処理が繰り返される。
以上のように、情報処理装置11は、ユーザの行動がセンサパタンの開始条件に該当すると、その開始条件に対応付けられている語彙を起動ワードとして用いるように登録し、ユーザの行動がセンサパタンの終了条件に該当すると、その終了条件に対応付けられている語彙を起動ワードから除外することで、ユーザの行動に従って、起動ワードの増減を確実に制御することができる。
なお、情報処理装置11では、例えば、起動ワードデータベース24に登録され、起動ワードとして認識可能な語彙を、出力部15のディスプレイに表示することができる。これにより、使用可能な起動ワードをユーザに認識させることができる。
次に、図5は、本技術を適用した情報処理装置の第2の実施の形態の構成例を示すブロック図である。
図5に示すように、情報処理装置11Aは、検出部12、音声入力部13、アプリケーション実行部14、出力部15、および起動ワード認識制御部16Aを備えて構成される。なお、検出部12、音声入力部13、アプリケーション実行部14、および出力部15の構成は、図1の情報処理装置11と同様であり、その詳細な説明は省略する。
起動ワード認識制御部16Aは、センサ監視部21、対応データベース22、起動ワード語彙データベース24、起動ワード認識部25、および起動ワードフィルタ部26を備えて構成される。
センサ監視部21は、検出部12が備える各種のセンサの状態を監視し、対応データベース22に登録されているセンサパタンを参照し、起動ワードフィルタ部26に対して、起動ワードとして用いる語彙を増減する制御を行う。対応データベース22には、図2を参照して上述したように、センサパタンおよび語彙が登録されている。
起動ワード語彙データベース24には、情報処理装置11Aにおいて利用する可能性のある全ての起動ワードとなる語彙が、予め登録されている。起動ワード認識部25は、音声入力部13から入力される音声に対する音声認識処理を行い、起動ワード語彙データベース24に登録されている語彙が入力されたことを認識した場合、その語彙を起動ワードフィルタ部26に供給する。
起動ワードフィルタ部26は、起動ワード認識部25から供給される語彙が、センサ監視部21から起動ワードとして用いるように指示された語彙であるか否かを判定することにより、起動ワードのフィルタリングを行う。そして、起動ワードフィルタ部26は、起動ワード認識部25から供給される語彙が、センサ監視部21から起動ワードとして用いるように指示された語彙である場合には、アプリケーション実行部14に対して、ユーザが起動ワードを発話した旨を通知する。一方、起動ワードフィルタ部26は、起動ワード認識部25から供給される語彙が、センサ監視部21から起動ワードとして用いるように指示された語彙でない場合には、ユーザが起動ワードを発話していないと判断する。
このように構成される情報処理装置11Aは、起動ワードを確実に認識することができる。
つまり、図1の情報処理装置11では、起動ワード認識部25が起動ワードとして認識する語彙を増減させることで、語彙数を最小限に保つことができることより、高い認識性を維持することができる。しかしながら、図1の情報処理装置11では、検出部12による検出結果が変化した後に起動ワードを起動ワード語彙データベース24に登録するため、起動ワードを登録する処理に時間がかかった場合、起動ワードの増減に対応する反応が遅くなってしまう。そのため、例えば、起動ワードの登録中に、その起動ワードが発話されると、認識することができない恐れがある。
これに対し、情報処理装置11Aでは、起動ワードを起動ワード語彙データベース24に登録する処理が行われないので、情報処理装置11と比較して、起動ワードの増減に対して確実に対応して、起動ワードを認識することができないような状況を回避することができる。これにより、情報処理装置11Aは、より確実に、起動ワードを認識することができる。
次に、図6は、アプリケーション実行部14の構成例を示すブロック図である。
図6に示すように、アプリケーション実行部14は、音声認識部31、動作認識部32、センサ情報記憶部33、コマンドデータベース34、および制御部35を備えて構成される。
音声認識部31は、制御部35の制御に従って音声認識を開始し、音声入力部13から入力される音声に対する音声認識処理を行う。例えば、ユーザが、アプリケーション実行部14で実行されるアプリケーションで用いられるコマンドを発話すると、音声認識部31は、そのコマンドの音声を認識し、認識結果と、その発話に関連する時刻情報を制御部35に供給する。
動作認識部32は、検出部12が備える各種のセンサにより検出された検出結果に基づいた動作認識処理を行い、ユーザの動作を認識する。例えば、動作認識部32は、検出部12が備えるセンサの種類に応じて、ユーザが手を振り下ろした方向や、ユーザの顔および体の向いている方向などを認識して、それらの動作認識結果を、センサ情報としてセンサ情報記憶部33に記憶させる。また、動作認識部32は、制御部35からセンサ情報について問い合わせがあると、検出部12から供給される現在のセンサ情報、および、センサ情報記憶部33に記憶されているセンサ情報の中から、問い合わせられたセンサ情報に対応する動作認識結果を、制御部35に供給する。
センサ情報記憶部33は、動作認識部32による動作認識処理により求められるセンサ情報を記憶する。
コマンドデータベース34には、後述する図7に示すように、アプリケーション実行部14において実行されるアプリケーションで用いられるコマンドと、時刻範囲およびセンサ情報とが対応付けられて登録されている。
制御部35は、起動ワード認識制御部16の起動ワード認識部25により起動ワードが認識され、音声認識を起動するように起動ワード認識部25から指示が入力されると、音声認識処理を開始するように音声認識部31に対する起動制御を行う。そして、制御部35は、音声認識部31から供給されるコマンドの音声の認識結果および時刻情報に基づいて、コマンドデータベース34を参照し、認識されたコマンドに対応付けられているセンサ情報を動作認識部32に対して、動作認識結果の問い合わせを行う。その後、制御部35は、動作認識部32からの動作認識結果に従った出力を、出力部15に供給する。なお、例えば、図5に示した情報処理装置11Aの構成においては、起動ワードフィルタ部26(図5)から制御部35に対して、音声認識を起動するように指示が入力され、同様の処理が行われる。
例えば、図7には、コマンドデータベース34の一例が示されている。
図7に示すように、コマンドデータベース34では、コマンド、時刻範囲、およびセンサ情報が対応付けられて登録されている。
例えば、コマンド「ビーム発射」には、時刻範囲「音声発話後3秒以内」およびセンサ情報「右手が振り下ろされた方向」が対応付けられている。即ち、ユーザにより発話されるコマンド「ビーム発射」に対して、音声認識部31によりコマンド「ビーム発射」が発話されたと認識され、その発話が終了した時刻から3秒以内にユーザの右腕が振り下ろされた方向を、動作認識部32は、動作認識結果として制御部35に供給する。この動作認識結果に応じ、制御部35は、ユーザの右腕が振り下ろされた方向に、コマンド「ビーム発射」に応じた出力(例えば、ビームのエフェクトの表示)を行う。
また、コマンド「ロケット発射」には、時刻範囲「発話直後」およびセンサ情報「体の向いている方向」が対応付けられている。即ち、ユーザにより発話されるコマンド「ロケット発射」に対して、音声認識部31によりコマンド「ロケット発射」が発話されたと認識され、その発話が終了した直後にユーザの体が向いている方向を、動作認識部32は、動作認識結果として制御部35に供給する。この動作認識結果に応じ、制御部35は、ユーザの体が向いている方向に、コマンド「ロケット発射」に応じた出力(例えば、発射されたロケットが進行するエフェクトの表示)を行う。
また、コマンド「なぎ払え」には、時刻範囲「音声区間開始0.1秒前から音声終了まで」およびセンサ情報「右手が向いていた方向の範囲」が対応付けられている。即ち、ユーザにより発話されるコマンド「なぎ払え」に対して、音声認識部31によりコマンド「なぎ払え」が発話されたと認識される直前の時刻(0.1秒前)から、その発話が終了する時刻までに、ユーザの右手が向いていた範囲を、動作認識部32は、動作認識結果として制御部35に供給する。
また、コマンド「ココをマーク」には、時刻範囲「音声認識結果中の単語「ココ」の単語の終端時刻」およびセンサ情報「ユーザの顔の向いていた方向、ユーザの位置」が対応付けられている。即ち、ユーザにより発話されるコマンド「ココをマーク」に対して、音声認識部31によりコマンド「ココをマーク」が発話されたと認識されたうちの、単語「ココ」の発話が終了した時刻に、ユーザの顔の向いていた方向とユーザの位置とを、動作認識部32は、動作認識結果として制御部35に供給する。この動作認識結果に応じ、制御部35は、ユーザの体が向いている方向の前方箇所(ユーザの目の前の位置)に、コマンド「ココをマーク」に応じた出力(例えば、マークの固定的な表示)を行う。
このように、コマンドデータベース34には、音声認識部31により認識されるコマンドに対応付けて、そのコマンドが発話された時刻を基準とした時刻範囲と、動作認識部32により認識されるセンサ情報(方位や、方位の範囲、向き、高度など)とが登録される。
ここで、図8を参照して、ユーザがコマンド「ビーム発射」を発話したときに、アプリケーション実行部14において行われる処理の例について説明する。
例えば、情報処理装置11は、腕時計型のウェアラブル端末であって、検出部12が備える地磁気センサおよびジャイロセンサにより、ユーザの腕の動きや方向を検出することができるものとする。この場合、例えば、上述したように、起動ワードの発話を検出して音声認識部31の音声認識処理を開始する他、図8の最上段に示すように、ユーザが右手を上げたことを検出したときに、音声認識部31の音声認識処理を開始することができる。
制御部35は、ユーザにより起動ワードが発話されたこと、または、ユーザにより所定の動作(この例では、右手を上げる)が行われたことが認識され、起動ワード認識制御部16から音声認識処理を起動するように指示されると、音声認識部31に対して音声認識処理を開始するように指示する処理を行う。そして、制御部35は、ユーザにより発話された音声コマンドが音声認識部31により認識されるまで処理を待機する。
そして、図8の上から2段目に示すように、ユーザが、コマンド「ビーム発射」を発話すると、音声認識部31は、そのコマンド「ビーム発射」を認識したことを示す認識結果と、コマンド「ビーム発射」が発話された時刻を示す時刻情報を制御部35に供給する。
これに応じて、制御部35は、音声認識部31により認識されたコマンド「ビーム発射」に対応付けられている時刻範囲およびセンサ情報をコマンドデータベース34から読み出して、その時刻範囲におけるセンサ情報を動作認識部32に対して要求する。
その後、図8の上から3段目に示すように、ユーザが、上げていた右手を振り下ろす動作を行う。このような動作が行われたことを示す検出結果を検出部12が動作認識部32に供給すると、動作認識部32は、ユーザの右手が振り下ろされた方向を動作認識結果として求め、制御部35に供給する。
そして、制御部35は、図8の上から4段目に示すように、ユーザの右手が振り下ろされた方向に、ビームが発射されたようなエフェクトを表現する画像を、拡張現実的に出力部15のディスプレイに表示させる。
このように、アプリケーション実行部14は、ユーザがコマンドを発話した時刻に基づいて、ユーザの動作を認識し、そのユーザの動作に合った出力を行うことができる。
次に、図9のフローチャートを参照して、アプリケーション実行部14において実行される音声認識を利用したアプリケーションの処理について説明する。
例えば、起動ワード認識制御部16の起動ワード認識部25により起動ワードが認識されると処理が開始され、ステップS21において、制御部35は、音声認識部31に対して音声認識処理を開始するように制御を行う。
ステップS22において、制御部35は、音声認識部31によりコマンドが認識されたか否かを判定し、音声認識部31によりコマンドが認識されたと判定するまで処理を待機する。そして、制御部35は、音声認識部31からコマンドの音声の認識結果および時刻情報が供給されると、コマンドが認識されたと判定して、処理はステップS23に進む。
ステップS23において、制御部35は、コマンドデータベース34を参照して、認識されたコマンドに対応付けられているセンサ情報を動作認識部32に対して問い合わせを行う。
ステップS24において、動作認識部32は、問い合わせられたセンサ情報に対応する動作認識結果を制御部35に供給し、制御部35は、その動作認識結果に従った出力を、出力部15に供給する。
ステップS24の処理後、処理はステップS22に戻り、以下、同様の処理が繰り返される。
以上のように、アプリケーション実行部14は、ユーザが発話するコマンドと、そのコマンドが発話された時刻を基準としたユーザの動作とを統合した処理を実行することができる。これにより、アプリケーション実行部14は、アプリケーションが提供する世界観に合わせたコマンドおよび動作をユーザに行わせることで、そのコマンドおよび動作に従った出力を行うことができる。
例えば、情報処理装置11が、眼鏡型のウェアラブル端末であって、出力部15が、ユーザの視界に重畳させて画像を表示することができる場合、ユーザが走っている途中にコマンド「加速装置」を発話すると、走っている方向に関連するビジュアルイフェクトを出力部15に表示させることができる。なお、コマンド「加速装置」を発話した後、ユーザが走り出したのを検出したときに、走っている方向に関連するビジュアルイフェクトを表示してもよい。
また、例えば、情報処理装置11が、腕時計型のウェアラブル端末である場合、右手をある方向に上から振り出し、それをトリガとして音声コマンドが入力可能になり(例えば「ビーム発射」)、その後に認識される音声コマンドに応じて情報を出力する方向(例えば「ビームの方向」)を、振り下ろした右手の方向とすることもできる。また、情報処理装置11では、所定の位置で、ユーザがコマンド「罠を仕掛ける」を発話すると、その位置情報を取得して、アプリケーション実行部14が実行するゲーム上に、そのコマンドに対応する仕掛けを設定することができる。
このように、情報処理装置11では、ユーザがコマンドを発話した時刻を基準としたユーザの動作(ジェスチャ)を検出することで、アプリケーション実行部14が実行するアプリケーションに応じた様々な出力を行うことができる。また、情報処理装置11は、ユーザが連続して発話する単語「コレと、コレと、コレ」に応じて、それぞれの「コレ」が認識された時刻と、その時刻におけるユーザの手の方向とを連動して、ユーザが指示した物体を認識することができる。即ち、制御部35は、ユーザが物体を指示する単語を発話し、その単語を音声認識部31が認識した時刻において、動作認識部32により認識されたユーザの手の方向の先にある物体を、ユーザの指示対象物として認識する。このように、情報処理装置11は、画面上に表示される表示物を指示対象とするのではなく、実際の物体を指示対象とすることができる。
また、情報処理装置11は、検出部12により検出されたユーザの動作を、音声認識部31が音声認識する際の単語の切れ目を判断するのに利用することができる。
なお、情報処理装置11の検出部12が備えるセンサとしては、高度センサ、地磁気センサ、光センサ、血糖センサ、体温センサ、時計、および歩数計を用いることができる。例えば、高度センサを利用して、ある高さ以上または以下の場所にユーザがいる時のみ、所定の語彙が起動ワードとして用いられるようにすることができる。また、地磁気センサを利用して、ある方向に向かっている時のみ、所定の語彙が起動ワードとして用いられるようにすることができる。また、光センサを利用して、明るい場所でのみ、または、暗い場所でのみ、所定の語彙が起動ワードとして用いられるようにすることができる。また、血糖センサを利用したときにはユーザが空腹である時のみ、時計を利用したときには所定の時刻のみ、歩数計を利用したときには所定歩数を歩いた後に、所定の語彙が起動ワードとして用いられるようにすることができる。
また、これらを組み合わせても利用してもよく、例えば、高度センサと位置センサを組み合わせて利用することで、所定の位置にある建物の屋上にユーザが移動したときに、所定の語彙を起動ワードとして用いることができるようにしてもよい。また、情報処理装置11が撮像装置を備えている場合には、特定の対象物を撮像したときに、所定の語彙を起動ワードとして用いることができるようにしてもよい。
なお、情報処理装置11では、アプリケーション実行部14において特定のアプリケーションが実行されているとき、例えば、呪文を使用したゲームが実行されているとき、通常時に起動ワードとして使用される語彙(図3に示した語彙「ハロースマホ」)を、音声認識を起動させる起動ワードとして用いることを禁止することができる。また、情報処理装置11では、図2を参照して上述したようなセンサパタンに該当する状況となったときに、自動的に、音声認識機能を起動するようにしてもよい。
なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、1のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
また、上述した一連の処理(情報処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
図10は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU101)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
なお、本技術は以下のような構成も取ることができる。
(1)
ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定する起動ワード設定部と、
前記ユーザの発話する音声に対する音声認識を行って、前記起動ワード設定部により前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する起動ワード認識部と
を備える情報処理装置。
(2)
前記起動ワード設定部は、前記ユーザの動作が、所定の語彙を前記起動ワードとして用いることを開始する開始条件に該当すると、その開始条件に対応付けられている語彙を、前記起動ワードとして用いるように登録する
上記(1)に記載の情報処理装置。
(3)
前記起動ワード設定部は、前記所定の語彙が前記起動ワードとして用いるように登録されている場合に、前記ユーザの動作が、前記所定の語彙を前記起動ワードとして用いることを終了する終了条件に該当すると、前記所定の語彙を前記起動ワードから除外する
上記(2)に記載の情報処理装置。
(4)
前記起動ワード設定部は、前記所定の語彙を前記起動ワードとして用いることを終了する終了条件として、前記開始条件となった時刻からの経過時間が設定されている場合、その所定の語彙を前記起動ワードとして用いるように登録してからの時刻を計時し、前記経過時間が経過すると、その所定の語彙を前記起動ワードから除外する
上記(2)に記載の情報処理装置。
(5)
前記起動ワード設定部は、前記検出結果として供給される位置情報に基づいて、前記ユーザの位置に従い、前記起動ワードとして用いる語彙の増減を制御する
上記(1)から(4)までのいずれかに記載の情報処理装置。
(6)
前記起動ワード設定部は、前記検出結果として供給される少なくとも加速度情報に基づいて、前記ユーザの動作に従い、前記起動ワードとして用いる語彙の増減を制御する
上記(1)から(5)までのいずれかに記載の情報処理装置。
(7)
前記起動ワード認識部により前記ユーザが前記起動ワードを発話したことが認識された場合に、音声認識を利用したアプリケーションにおける音声認識処理を開始するアプリケーション実行部をさらに備える
上記(1)から(6)までのいずれかに記載の情報処理装置。
(8)
前記起動ワード認識部は、前記起動ワードとして利用する可能性のある全ての語彙を認識する音声認識を行い、
前記起動ワード設定部は、前記起動ワード認識部により認識された語彙に対して、前記ユーザの動作が検出された検出結果に従って前記起動ワードとして用いることとした前記語彙であるか否かによるフィルタリングを行うことにより、前記起動ワードの増減に対応する
上記(1)に記載の情報処理装置。
(9)
前記アプリケーション実行部は、
ユーザが所定のコマンドを発話したことを認識する音声認識部と、
前記音声認識部により認識されたコマンドが発話された時刻を基準とした時刻範囲における、前記コマンドに対応するユーザの動作を認識する動作認識部と、
前記動作認識部による動作認識結果に従って、前記コマンドに応じた出力を行う制御部と
を有する
上記(7)に記載の情報処理装置。
(10)
前記動作認識部は、前記音声認識部により認識されたコマンドの発話が終了したときに、ユーザの体が向いている方向を認識し、
前記制御部は、前記動作認識部により認識された方向に、前記コマンドに応じた出力を行う
上記(9)に記載の情報処理装置。
(11)
前記動作認識部は、前記音声認識部により認識されたコマンドが発話された時刻から所定の時刻範囲内に、ユーザの腕が振り下ろされた方向を認識し、
前記制御部は、前記動作認識部により認識された方向に、前記コマンドに応じた出力を行う
上記(9)または(10)に記載の情報処理装置。
(12)
前記制御部は、前記音声認識部により任意の物体を指示する単語が認識された時刻において、前記動作認識部により認識されたユーザの手の方向の先にある物体を、ユーザの指示対象物として認識する
上記(9)乃至(11)までのいずれかに記載の情報処理装置。
(13)
ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、
前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する
ステップを含む情報処理方法。
(14)
ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、
前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する
ステップを含む情報処理をコンピュータに実行させるプログラム。
(1)
ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定する起動ワード設定部と、
前記ユーザの発話する音声に対する音声認識を行って、前記起動ワード設定部により前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する起動ワード認識部と
を備える情報処理装置。
(2)
前記起動ワード設定部は、前記ユーザの動作が、所定の語彙を前記起動ワードとして用いることを開始する開始条件に該当すると、その開始条件に対応付けられている語彙を、前記起動ワードとして用いるように登録する
上記(1)に記載の情報処理装置。
(3)
前記起動ワード設定部は、前記所定の語彙が前記起動ワードとして用いるように登録されている場合に、前記ユーザの動作が、前記所定の語彙を前記起動ワードとして用いることを終了する終了条件に該当すると、前記所定の語彙を前記起動ワードから除外する
上記(2)に記載の情報処理装置。
(4)
前記起動ワード設定部は、前記所定の語彙を前記起動ワードとして用いることを終了する終了条件として、前記開始条件となった時刻からの経過時間が設定されている場合、その所定の語彙を前記起動ワードとして用いるように登録してからの時刻を計時し、前記経過時間が経過すると、その所定の語彙を前記起動ワードから除外する
上記(2)に記載の情報処理装置。
(5)
前記起動ワード設定部は、前記検出結果として供給される位置情報に基づいて、前記ユーザの位置に従い、前記起動ワードとして用いる語彙の増減を制御する
上記(1)から(4)までのいずれかに記載の情報処理装置。
(6)
前記起動ワード設定部は、前記検出結果として供給される少なくとも加速度情報に基づいて、前記ユーザの動作に従い、前記起動ワードとして用いる語彙の増減を制御する
上記(1)から(5)までのいずれかに記載の情報処理装置。
(7)
前記起動ワード認識部により前記ユーザが前記起動ワードを発話したことが認識された場合に、音声認識を利用したアプリケーションにおける音声認識処理を開始するアプリケーション実行部をさらに備える
上記(1)から(6)までのいずれかに記載の情報処理装置。
(8)
前記起動ワード認識部は、前記起動ワードとして利用する可能性のある全ての語彙を認識する音声認識を行い、
前記起動ワード設定部は、前記起動ワード認識部により認識された語彙に対して、前記ユーザの動作が検出された検出結果に従って前記起動ワードとして用いることとした前記語彙であるか否かによるフィルタリングを行うことにより、前記起動ワードの増減に対応する
上記(1)に記載の情報処理装置。
(9)
前記アプリケーション実行部は、
ユーザが所定のコマンドを発話したことを認識する音声認識部と、
前記音声認識部により認識されたコマンドが発話された時刻を基準とした時刻範囲における、前記コマンドに対応するユーザの動作を認識する動作認識部と、
前記動作認識部による動作認識結果に従って、前記コマンドに応じた出力を行う制御部と
を有する
上記(7)に記載の情報処理装置。
(10)
前記動作認識部は、前記音声認識部により認識されたコマンドの発話が終了したときに、ユーザの体が向いている方向を認識し、
前記制御部は、前記動作認識部により認識された方向に、前記コマンドに応じた出力を行う
上記(9)に記載の情報処理装置。
(11)
前記動作認識部は、前記音声認識部により認識されたコマンドが発話された時刻から所定の時刻範囲内に、ユーザの腕が振り下ろされた方向を認識し、
前記制御部は、前記動作認識部により認識された方向に、前記コマンドに応じた出力を行う
上記(9)または(10)に記載の情報処理装置。
(12)
前記制御部は、前記音声認識部により任意の物体を指示する単語が認識された時刻において、前記動作認識部により認識されたユーザの手の方向の先にある物体を、ユーザの指示対象物として認識する
上記(9)乃至(11)までのいずれかに記載の情報処理装置。
(13)
ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、
前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する
ステップを含む情報処理方法。
(14)
ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、
前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する
ステップを含む情報処理をコンピュータに実行させるプログラム。
なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
11 情報処理装置, 12 検出部, 13 音声入力部, 14 アプリケーション実行部, 15 出力部, 16 起動ワード認識制御部, 21 センサ監視部, 22 対応データベース, 23 起動ワード制御部, 24 起動ワード語彙データベース, 25 起動ワード認識部, 26 起動ワードフィルタ部, 31 音声認識部, 32 動作認識部, 33 センサ情報記憶部, 34 コマンドデータベース, 35 制御部
Claims (14)
- ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定する起動ワード設定部と、
前記ユーザの発話する音声に対する音声認識を行って、前記起動ワード設定部により前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する起動ワード認識部と
を備える情報処理装置。 - 前記起動ワード設定部は、前記ユーザの動作が、所定の語彙を前記起動ワードとして用いることを開始する開始条件に該当すると、その開始条件に対応付けられている語彙を、前記起動ワードとして用いるように登録する
請求項1に記載の情報処理装置。 - 前記起動ワード設定部は、前記所定の語彙が前記起動ワードとして用いるように登録されている場合に、前記ユーザの動作が、前記所定の語彙を前記起動ワードとして用いることを終了する終了条件に該当すると、前記所定の語彙を前記起動ワードから除外する
請求項2に記載の情報処理装置。 - 前記起動ワード設定部は、前記所定の語彙を前記起動ワードとして用いることを終了する終了条件として、前記開始条件となった時刻からの経過時間が設定されている場合、その所定の語彙を前記起動ワードとして用いるように登録してからの時刻を計時し、前記経過時間が経過すると、その所定の語彙を前記起動ワードから除外する
請求項2に記載の情報処理装置。 - 前記起動ワード設定部は、前記検出結果として供給される位置情報に基づいて、前記ユーザの位置に従い、前記起動ワードとして用いる語彙の増減を制御する
請求項1に記載の情報処理装置。 - 前記起動ワード設定部は、前記検出結果として供給される少なくとも加速度情報に基づいて、前記ユーザの動作に従い、前記起動ワードとして用いる語彙の増減を制御する
請求項1に記載の情報処理装置。 - 前記起動ワード認識部により前記ユーザが前記起動ワードを発話したことが認識された場合に、音声認識を利用したアプリケーションにおける音声認識処理を開始するアプリケーション実行部をさらに備える
請求項1に記載の情報処理装置。 - 前記起動ワード認識部は、前記起動ワードとして利用する可能性のある全ての語彙を認識する音声認識を行い、
前記起動ワード設定部は、前記起動ワード認識部により認識された語彙に対して、前記検出結果に従って前記起動ワードとして用いることとした前記語彙であるか否かによるフィルタリングを行うことにより、前記起動ワードの増減に対応する
請求項1に記載の情報処理装置。 - 前記アプリケーション実行部は、
ユーザが所定のコマンドを発話したことを認識する音声認識部と、
前記音声認識部により認識されたコマンドが発話された時刻を基準とした時刻範囲における、前記コマンドに対応するユーザの動作を認識する動作認識部と、
前記動作認識部による動作認識結果に従って、前記コマンドに応じた出力を行う制御部と
を有する
請求項7に記載の情報処理装置。 - 前記動作認識部は、前記音声認識部により認識されたコマンドの発話が終了したときに、ユーザの体が向いている方向を認識し、
前記制御部は、前記動作認識部により認識された方向に、前記コマンドに応じた出力を行う
請求項9に記載の情報処理装置。 - 前記動作認識部は、前記音声認識部により認識されたコマンドが発話された時刻から所定の時刻範囲内に、ユーザの腕が振り下ろされた方向を認識し、
前記制御部は、前記動作認識部により認識された方向に、前記コマンドに応じた出力を行う
請求項9に記載の情報処理装置。 - 前記制御部は、前記音声認識部により任意の物体を指示する単語が認識された時刻において、前記動作認識部により認識されたユーザの手の方向の先にある物体を、ユーザの指示対象物として認識する
請求項9に記載の情報処理装置。 - ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、
前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する
ステップを含む情報処理方法。 - ユーザの動作が検出された検出結果に基づいて、所定の機能を起動させるためにユーザが発話する起動ワードが増減するように、前記起動ワードとして用いる語彙を設定し、
前記ユーザの発話する音声に対する音声認識を行って、前記起動ワードとして用いるように設定されている語彙が発話されたことを認識する
ステップを含む情報処理をコンピュータに実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/571,392 US10706844B2 (en) | 2015-05-22 | 2016-05-06 | Information processing system and information processing method for speech recognition |
DE112016002321.9T DE112016002321T5 (de) | 2015-05-22 | 2016-05-06 | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015-104706 | 2015-05-22 | ||
JP2015104706A JP2016218852A (ja) | 2015-05-22 | 2015-05-22 | 情報処理装置および情報処理方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016190060A1 true WO2016190060A1 (ja) | 2016-12-01 |
Family
ID=57393211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2016/063631 WO2016190060A1 (ja) | 2015-05-22 | 2016-05-06 | 情報処理装置および情報処理方法、並びにプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10706844B2 (ja) |
JP (1) | JP2016218852A (ja) |
DE (1) | DE112016002321T5 (ja) |
WO (1) | WO2016190060A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12062360B2 (en) | 2018-06-12 | 2024-08-13 | Sony Corporation | Information processing device and information processing method |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11003417B2 (en) * | 2016-12-15 | 2021-05-11 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus with activation word based on operating environment of the apparatus |
US10276161B2 (en) | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
JP6942995B2 (ja) * | 2017-03-31 | 2021-09-29 | ブラザー工業株式会社 | 情報処理プログラム、情報処理装置、および情報処理装置の制御方法 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
JP6844472B2 (ja) | 2017-08-24 | 2021-03-17 | トヨタ自動車株式会社 | 情報処理装置 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10466962B2 (en) * | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10789940B2 (en) * | 2018-03-27 | 2020-09-29 | Lenovo (Singapore) Pte. Ltd. | Dynamic wake word identification |
JP2019175159A (ja) | 2018-03-28 | 2019-10-10 | カシオ計算機株式会社 | 電子機器、音声入力感度制御方法、及び音声入力感度制御プログラム |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
JP7159773B2 (ja) * | 2018-10-12 | 2022-10-25 | 住友電気工業株式会社 | 音声操作装置、音声操作方法、および音声操作システム |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
JP7266432B2 (ja) * | 2019-03-14 | 2023-04-28 | 本田技研工業株式会社 | エージェント装置、エージェント装置の制御方法、およびプログラム |
JP7236919B2 (ja) * | 2019-04-12 | 2023-03-10 | 三菱電機株式会社 | 音声入力装置、音声操作システム、音声操作方法及びプログラム |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US20220357915A1 (en) * | 2019-10-30 | 2022-11-10 | Sony Group Corporation | Information processing apparatus and command processing method |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
JP7440742B2 (ja) * | 2019-12-24 | 2024-02-29 | 株式会社ノーリツ | 給湯システム |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0764480A (ja) * | 1993-08-25 | 1995-03-10 | Honda Motor Co Ltd | 車載情報処理用音声認識装置 |
JPH09114634A (ja) * | 1995-10-16 | 1997-05-02 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | マルチモーダル情報統合解析装置 |
JP2002132290A (ja) * | 2000-10-24 | 2002-05-09 | Kenwood Corp | 車載用音声認識装置 |
JP2005178473A (ja) * | 2003-12-17 | 2005-07-07 | Denso Corp | 車載機器用インターフェース |
WO2013188002A1 (en) * | 2012-06-15 | 2013-12-19 | Honda Motor Co., Ltd. | Depth based context identification |
JP2015076877A (ja) * | 2013-10-04 | 2015-04-20 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | ウェアラブル端末及びウェアラブル端末の制御方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2433002A (en) * | 2003-09-25 | 2007-06-06 | Canon Europa Nv | Processing of Text Data involving an Ambiguous Keyboard and Method thereof. |
US8886521B2 (en) * | 2007-05-17 | 2014-11-11 | Redstart Systems, Inc. | System and method of dictation for a speech recognition command system |
WO2008144638A2 (en) * | 2007-05-17 | 2008-11-27 | Redstart Systems Inc. | Systems and methods of a structured grammar for a speech recognition command system |
US8538757B2 (en) * | 2007-05-17 | 2013-09-17 | Redstart Systems, Inc. | System and method of a list commands utility for a speech recognition command system |
US8504373B2 (en) * | 2009-07-02 | 2013-08-06 | Nuance Communications, Inc. | Processing verbal feedback and updating digital video recorder (DVR) recording patterns |
KR101641448B1 (ko) * | 2012-03-16 | 2016-07-20 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 사용자 전용 자동 음성 인식 |
US9329695B2 (en) | 2013-10-04 | 2016-05-03 | Panasonic Intellectual Property Corporation Of America | Wearable terminal and method for controlling the same |
US9430186B2 (en) * | 2014-03-17 | 2016-08-30 | Google Inc | Visual indication of a recognized voice-initiated action |
US9946862B2 (en) * | 2015-12-01 | 2018-04-17 | Qualcomm Incorporated | Electronic device generating notification based on context data in response to speech phrase from user |
-
2015
- 2015-05-22 JP JP2015104706A patent/JP2016218852A/ja active Pending
-
2016
- 2016-05-06 WO PCT/JP2016/063631 patent/WO2016190060A1/ja active Application Filing
- 2016-05-06 US US15/571,392 patent/US10706844B2/en not_active Expired - Fee Related
- 2016-05-06 DE DE112016002321.9T patent/DE112016002321T5/de not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0764480A (ja) * | 1993-08-25 | 1995-03-10 | Honda Motor Co Ltd | 車載情報処理用音声認識装置 |
JPH09114634A (ja) * | 1995-10-16 | 1997-05-02 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | マルチモーダル情報統合解析装置 |
JP2002132290A (ja) * | 2000-10-24 | 2002-05-09 | Kenwood Corp | 車載用音声認識装置 |
JP2005178473A (ja) * | 2003-12-17 | 2005-07-07 | Denso Corp | 車載機器用インターフェース |
WO2013188002A1 (en) * | 2012-06-15 | 2013-12-19 | Honda Motor Co., Ltd. | Depth based context identification |
JP2015076877A (ja) * | 2013-10-04 | 2015-04-20 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | ウェアラブル端末及びウェアラブル端末の制御方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12062360B2 (en) | 2018-06-12 | 2024-08-13 | Sony Corporation | Information processing device and information processing method |
Also Published As
Publication number | Publication date |
---|---|
DE112016002321T5 (de) | 2018-03-01 |
JP2016218852A (ja) | 2016-12-22 |
US20180137861A1 (en) | 2018-05-17 |
US10706844B2 (en) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016190060A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
JP6635049B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP7243625B2 (ja) | 情報処理装置、及び情報処理方法 | |
JP6848881B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
KR102292546B1 (ko) | 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치 | |
KR20220031610A (ko) | 멀티-모달 사용자 인터페이스 | |
JP2008058409A (ja) | 音声認識方法及び音声認識装置 | |
US20190019512A1 (en) | Information processing device, method of information processing, and program | |
US9704484B2 (en) | Speech recognition method and speech recognition device | |
JPWO2019087811A1 (ja) | 情報処理装置、及び情報処理方法 | |
JP6589514B2 (ja) | 対話装置及び対話制御方法 | |
JP6350903B2 (ja) | 操作補助装置および操作補助方法 | |
CN107430856B (zh) | 信息处理系统和信息处理方法 | |
JP7533472B2 (ja) | 情報処理装置、及びコマンド処理方法 | |
CN111326152A (zh) | 语音控制方法及装置 | |
US11398221B2 (en) | Information processing apparatus, information processing method, and program | |
US10522140B2 (en) | Information processing system and information processing method | |
JP2019175432A (ja) | 対話制御装置、対話システム、対話制御方法及びプログラム | |
US20180203506A1 (en) | Control method, control device, system and motor vehicle comprising such a control device | |
WO2019198299A1 (ja) | 情報処理装置及び情報処理方法 | |
EP3886088A1 (en) | System and methods for incremental natural language understanding | |
KR20170029390A (ko) | 음성 명령 모드 진입 방법 | |
KR20180134337A (ko) | 정보 처리 장치, 정보 처리 방법 및 프로그램 | |
JP2016180778A (ja) | 情報処理システムおよび情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16799768 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 15571392 Country of ref document: US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 112016002321 Country of ref document: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16799768 Country of ref document: EP Kind code of ref document: A1 |