WO2015167008A1 - 案内装置、案内方法、プログラム及び情報記憶媒体 - Google Patents

案内装置、案内方法、プログラム及び情報記憶媒体 Download PDF

Info

Publication number
WO2015167008A1
WO2015167008A1 PCT/JP2015/063064 JP2015063064W WO2015167008A1 WO 2015167008 A1 WO2015167008 A1 WO 2015167008A1 JP 2015063064 W JP2015063064 W JP 2015063064W WO 2015167008 A1 WO2015167008 A1 WO 2015167008A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
information
guidance
input
recognition
Prior art date
Application number
PCT/JP2015/063064
Other languages
English (en)
French (fr)
Inventor
幸太郎 今村
Original Assignee
株式会社ソニー・コンピュータエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・コンピュータエンタテインメント filed Critical 株式会社ソニー・コンピュータエンタテインメント
Priority to KR1020167030516A priority Critical patent/KR101883414B1/ko
Priority to JP2016516421A priority patent/JP6383409B2/ja
Priority to US15/303,642 priority patent/US9870772B2/en
Priority to EP15785826.7A priority patent/EP3139377B1/en
Publication of WO2015167008A1 publication Critical patent/WO2015167008A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • the present invention relates to a guide device, a guide method, a program, and an information storage medium.
  • a speech recognition technology in which a plurality of pieces of information ranked by an index such as likelihood is identified as a recognition result of received speech.
  • a voice recognition technology if the volume of the input voice is too low, the voice recognition accuracy is lowered due to the influence of the environmental sound. Moreover, even if the volume of the input voice is too high, the voice recognition accuracy is lowered. If the speech recognition accuracy is low, information that the user wants to recognize is specified as a recognition result with a low recognition rank, or is not specified as a recognition result. Therefore, in order to specify the information to be recognized as a recognition result having a high recognition rank, the user needs to input sound at a sound volume to be input.
  • the volume of the input voice when the volume of the input voice is low, if the guidance regarding the volume of the voice to be input is output, such as “If you speak loudly, the voice will be easily recognized.” You can grasp the volume.
  • the guidance is output in a manner corresponding to the recognition order of given information such as a magic word input by voice by the user.
  • the lower the speech recognition accuracy the lower the recognition order of the information. Therefore, the user can know the speech recognition accuracy using the guidance output mode as a clue, and as a result, the speech to be input. It will be possible to grasp the volume of the sound more accurately.
  • the recognition order of given information has not been used for the output control of guidance related to the volume of voice to be input.
  • the present invention has been made in view of the above problems, and one of its purposes is a guidance device capable of performing guidance output control on the volume of voice to be input using the recognition order of voice to be accepted, guidance It is to provide a method, a program, and an information storage medium.
  • the guidance device inputs a reception unit that receives voice and a mode according to the recognition order of the information when given information is specified as the voice recognition result. And an output control unit that controls to output guidance related to the volume of the sound to be output.
  • another guidance device includes a receiving unit that receives voice and a normal state in which a predetermined command cannot be input by voice when given information is identified as the voice recognition result.
  • a state changing unit for changing to a voice recognition state in which the command can be input by voice, and an output for controlling so that guidance regarding the volume of the voice to be input according to the recognized volume of the voice is output after the change
  • a control unit for controlling the control unit.
  • the guidance method according to the present invention includes a step of accepting voice and guidance on the volume of voice to be input in a manner corresponding to the recognition order of the information when given information is specified as the voice recognition result. Is controlled to be output.
  • the program according to the present invention outputs a guidance regarding the volume of the voice to be input in a manner corresponding to the recognition order of the information when the procedure for accepting the sound and the predetermined information is specified as the recognition result of the sound.
  • the computer is caused to execute a procedure for controlling to perform the control.
  • the information storage medium provides a procedure for accepting sound, and guidance regarding sound volume to be input in a manner corresponding to the recognition order of the information when given information is specified as the recognition result of the sound.
  • a computer-readable information storage medium storing a program characterized by causing a computer to execute a procedure for controlling the output of a computer.
  • the recognition order of the information is first And a state changing unit that changes to a voice recognition state in which the command can be input by voice, and the output control unit controls the guidance to be output after the state is changed to the voice recognition state.
  • the output control unit when the given information is specified as a speech recognition result received in the normal state and the recognition order of the information is other than the first, the normal state You may control so that the said guidance may be output as it is.
  • the output control unit controls the guidance to be output only when the condition that the volume of the recognized voice is smaller than a predetermined volume is further satisfied.
  • FIG. 1 is a diagram illustrating an example of the overall configuration of an information processing system 10 according to an embodiment of the present invention.
  • the information processing system 10 includes an information processing device 12, a display 14, a camera microphone unit 16, and a controller 18.
  • the information processing apparatus 12 is a computer such as an entertainment apparatus such as a game console, and includes a control unit 20, a storage unit 22, a communication unit 24, and an input / output unit 26 as shown in FIG. It is out.
  • the control unit 20 is a program control device such as a CPU that operates according to a program installed in the information processing apparatus 12, for example.
  • the storage unit 22 is, for example, a storage element such as a ROM or a RAM, a hard disk drive, or the like.
  • the storage unit 22 stores a program executed by the control unit 20.
  • the communication unit 24 is, for example, a communication interface such as a network board or a wireless LAN module.
  • the input / output unit 26 is an input / output port such as an HDMI (registered trademark) (High-Definition Multimedia Interface) port or a USB port.
  • the display 14 according to the present embodiment is a liquid crystal display or the like, and displays a screen or the like generated by the information processing apparatus 12.
  • the display 14 according to the present embodiment also includes a speaker that outputs sound represented by the sound data generated by the information processing apparatus 12.
  • the camera microphone unit 16 according to the present embodiment acquires, for example, a camera 16a that outputs an image obtained by capturing a subject to the information processing apparatus 12 and surrounding sound, converts the sound into sound data, and outputs the sound data to the information processing apparatus 12. Including a microphone 16b.
  • the information processing apparatus 12 and the display 14 are connected via, for example, an AV cable or an HDMI cable.
  • the information processing apparatus 12 and the camera microphone unit 16 are connected via, for example, a USB cable, an AV cable, an HDMI (registered trademark) (High-Definition Multimedia Interface) cable, or the like.
  • the controller 18 according to the present embodiment is an operation input device for performing an operation input to the information processing device 12.
  • the controller 18 according to the present embodiment is provided with operators such as buttons, a touch panel, and operation sticks.
  • the controller 18 according to the present embodiment includes sensors such as a gyro sensor that detects angular velocity and an acceleration sensor that detects acceleration.
  • the controller 18 includes a jack, and by inserting a plug included in the microphone into the jack, voice input by the microphone can be performed.
  • the sound input to the microphone inserted into the controller 18 is converted into sound data by the controller 18 and output to the information processing apparatus 12.
  • the information processing apparatus 12 when the user inputs voice to the microphone 16b included in the camera microphone unit 16, the information processing apparatus 12 recognizes the voice and executes various processes according to the recognition result of the voice. In this way, in the present embodiment, the user can operate the information processing apparatus 12 by voice.
  • the recognition result of the voice input to the microphone 16b is the recognition result of the voice input to the microphone 16 of the camera microphone unit 16. It has been given priority over handling.
  • the user can perform various operation inputs using the controller 18 by pressing a button or tilting an operation stick.
  • the controller 18 outputs input data associated with the operation input to the information processing apparatus 12.
  • the controller 18 includes a USB port.
  • the controller 18 can output input data to the information processing device 12 by wire via the input / output unit 26 by connecting to the information processing device 12 with a USB cable.
  • the controller 18 according to the present embodiment includes a wireless communication module and the like, and can output input data to the information processing apparatus 12 wirelessly via the communication unit 24.
  • a known speech recognition engine is installed in the information processing apparatus 12 according to the present embodiment.
  • the speech recognition engine identifies a plurality of pieces of information ranked by an index such as likelihood as a recognition result of speech input to the information processing device 12, that is, speech received by the information processing device 12. It has become.
  • the voice recognition engine can identify the relative volume of the sound recognized by the information processing apparatus 12 as the user's voice based on the input voice.
  • the ratio of the sound volume recognized by the information processing apparatus 12 as the user's voice to the sound volume recognized by the information processing apparatus 12 as ambient noise, that is, environmental sound can be specified. It is like that.
  • the ratio specified in this way is referred to as SNR (signal-to-noise ratio).
  • the information processing apparatus 12 executes various processes in an execution state of either a normal state where a predetermined command cannot be input by voice or a voice recognition state where a predetermined command can be input by voice. To do. The user can switch the execution state of the information processing apparatus 12 as appropriate.
  • FIG. 3 is a diagram illustrating an example of the home screen 30 displayed on the display 14 according to the present embodiment.
  • the user can select one of programs installed in the information processing apparatus 12.
  • the home screen 30 has program icon images 32 (program icon images 32-1 to 32-5 in the example of FIG. 3) associated with the programs as shown in FIG.
  • program icon images 32 for at least a part of programs installed in the information processing apparatus 12 are arranged.
  • any one of the program icon images 32 that is, the program icon image 32-1 in the example of FIG. 3, is selected.
  • the selected program icon image 32-1 is displayed in a different form from the other program icon images 32.
  • the option that has been selected is referred to as an option of interest.
  • the program icon image 32-1 is the attention option.
  • a character string representing the name of the program associated with the program icon image 32-1 is arranged at the lower right of the program icon image 32-1 as the option of interest.
  • the program icon image 32-1 which is the option of interest is highlighted more than the other program icon images 32 (32-2 to 32-5).
  • the program icon image 32-1 is larger in size than the other program icon images 32 (32-2 to 32-5), and a frame is arranged around the program icon image 32-1.
  • the above indicates that the program icon image 32-1 is selected, that is, the program icon image 32-1 is the option of interest.
  • the method for indicating that the program icon image 32 is the option of interest is not limited to that shown in FIG.
  • a predetermined time for example, 10 seconds elapses after the home screen 30 shown in FIG. 3 is displayed.
  • the home screen 30 displayed on the display 14 is in the state shown in FIG.
  • the home screen 30 switches between the state shown in FIG. 4 and the state shown in FIG. 5 at a predetermined time interval, for example, every 3 seconds.
  • a controller operation guide image 34 is arranged on the home screen 30.
  • operation guide information OI for guiding operation contents by the controller 18 is arranged.
  • the magic word guidance image 36 is arranged on the home screen 30.
  • magic word guidance information MI for prompting voice input of given information representing a voice for starting voice recognition is arranged.
  • the magic word guidance information MI includes given information representing a voice for starting voice recognition.
  • FIG. 5 shows a phrase “starting speech recognition” as an example of the given information.
  • a given phrase representing a voice for starting voice recognition is referred to as a magic word MW.
  • both the operation to be performed on the controller 18 and the sound to be input are both determined by the user. Will be guided to.
  • the home screen 30 is not switched to the state where the magic word guidance image 36 is arranged.
  • the home screen 30 is in a state where the magic word guidance image 36 is arranged. Will not switch.
  • the execution state of the information processing apparatus 12 is in the normal state.
  • the information processing apparatus 12 receives the user's voice when the displayed home screen 30 is in the state illustrated in FIG. 3, FIG. 4, or FIG. 5.
  • the rank processing relation data shown in FIG. 6 the SNR value identified based on the voice and the recognition rank of the magic word MW identified based on the sound recognized as the user's voice. Processing corresponding to the combination of the above will be executed.
  • the order process relation data shown in FIG. 6 shows the relation between the recognition order of predetermined information such as the magic word MW and the name of the process to be executed.
  • the combination of the condition related to the volume and the recognition rank of the predetermined information is managed in association with the name of the process to be executed. More specifically, for example, a combination of the condition regarding the SNR value specified based on the received speech and the recognition rank of the magic word MW is managed in association with the name of the process to be executed.
  • the identified SNR value is larger than a predetermined value L1 (here, greater than 5 dB, for example), and the recognition result having the first recognition rank is the magic word MW (here, “voice recognition start”, for example).
  • L1 a predetermined value
  • MW the magic word
  • the execution state of the information processing apparatus 12 is changed to the voice recognition state.
  • the guidance regarding the volume of the voice to be input is displayed as it is changed. In this case, the home screen 30 is switched to the state shown in FIG.
  • guidance regarding the volume of the voice to be input is output.
  • the execution state of the information processing apparatus 12 remains in the normal state.
  • the home screen 30 is switched to the state shown in FIG.
  • the execution state of the information processing apparatus 12 is the voice recognition state, as shown in FIGS. 7 and 8, the voice to be input when performing the voice input of the command on the home screen 30 is guided to the user.
  • a voice input guidance image 38 is arranged.
  • the execution state of the information processing apparatus 12 is a voice recognition state
  • the information processing apparatus 12 recognizes information represented by the voice and based on the recognition result.
  • the command represented by the voice is specified. Then, the information processing apparatus 12 executes processing according to the command.
  • At least one command information CI indicating a command is arranged.
  • a word indicating a command is arranged as the command information CI.
  • other information such as an icon image symbolizing a command may be arranged as the command information CI instead of a word.
  • the command information CI is associated with a command that can be received by the information processing apparatus 12.
  • processing corresponding to the command associated with the command information CI is executed.
  • command information CIs are arranged on the home screen 30 illustrated in FIGS.
  • a command identification image CIP is arranged on the left side of the command information CI arranged on the home screen 30.
  • the command identification image CIP allows the user to recognize that processing corresponding to the command associated with the command information CI is executed by inputting the voice represented by the command information CI on the right side.
  • the home screen 30 shown in FIG. 7 or 8 is displayed on the display 14.
  • the information processing apparatus 12 receives a voice representing the phrase “begin”
  • the execution of the program associated with the program icon image 32 that is the option of interest is started.
  • a screen that can be controlled to turn off the information processing apparatus 12 is displayed on the display 14.
  • the information processing apparatus 12 receives a voice representing the phrase “take a screen shot”
  • a captured image obtained by capturing the display content of the home screen 30 as a still image is stored in the storage unit 22 of the information processing apparatus 12. Is done.
  • the information processing apparatus 12 When the information processing apparatus 12 receives a voice representing the phrase “login”, a screen showing a list of users is displayed on the display 14. And the user's login is performed by carrying out the voice input of the identifier of the user registered into the information processing apparatus 12 on the said screen.
  • an operator such as a button of the controller 18 is assigned to the command represented by the command information CI.
  • processing corresponding to a command associated with the button is executed.
  • the process according to the command represented by the command information CI can be executed either by operating the operator or by voice input.
  • the displayed program icon image 32 is associated with at least one piece of information such as the name, abbreviation, and common name of the program associated with the program icon image 32.
  • program name input guidance information PI for prompting voice input of the name of a program such as a game is arranged in the voice input guidance image 38 shown in FIGS.
  • the program icon image 32 associated with the program is specified as the option of interest.
  • the program icon image 32 associated with any one of the plurality of programs is specified as the attention option.
  • the home screen 30 shown in FIG. 7 is displayed and the information processing apparatus 12 receives a voice representing the phrase “dragon game”
  • the program icon image 32-4 is identified as the attention option. Will be.
  • the home screen 30 displayed so that the program icon image 32-4 is highlighted is updated.
  • the command corresponding to the received voice may be specified when the volume of the received voice is within a predetermined volume range.
  • the lower limit of the predetermined volume range may be larger than the predetermined volume L1.
  • volume guidance information VI that is guidance regarding the volume of the voice to be inputted in this embodiment is displayed.
  • the voice input guidance image 38 is arranged.
  • a character string “speaking with a louder voice becomes easier to recognize” is arranged in the voice input guidance image 38.
  • the volume guidance information VI may be displayed for the timing when the execution state of the information processing apparatus 12 is changed from the normal state to the voice recognition state.
  • the volume guidance is provided when the execution state of the information processing apparatus 12 is the voice recognition state even if the SNR value specified based on the received voice is equal to or less than the predetermined value L1. Information VI is not displayed.
  • volume guidance information VI is arranged instead of the magic word guidance information MI shown in FIG.
  • guidance regarding the sound volume to be input is output in a manner corresponding to the recognition order of given information such as the magic word MW identified as the speech recognition result.
  • the recognition order of given information such as the magic word MW
  • the voice input guide image 38 displayed when the execution state of the information processing apparatus 12 is the voice recognition state.
  • the above-mentioned volume guidance information VI is arranged.
  • the recognition order of given information such as the magic word MW
  • the above-described volume guidance is displayed in the magic word guidance image 36 displayed when the execution state of the information processing apparatus 12 is the normal state.
  • Information VI is arranged.
  • the user can output the guidance regarding the volume of the voice to be input in a manner corresponding to the recognition order of the given information specified as the voice recognition result. This makes it possible to know the accuracy of speech recognition using the output mode as a clue. As a result, the user can more accurately grasp the sound volume to be input.
  • the volume of the recognized user's voice when the volume of the recognized user's voice is relatively small compared to the volume of the ambient noise, that is, the environmental sound, guidance is provided to prompt the user to input with a louder voice. Will be output.
  • the voice recognition accuracy is lowered even if the volume of the input voice is too high. Therefore, for example, when the volume of the recognized voice is higher than a predetermined volume, the volume of the voice to be input in a manner corresponding to the recognition order of given information such as the magic word MW specified as the voice recognition result.
  • a guidance may be output.
  • a character string “speaking with a small voice makes it easier to recognize the voice” may be displayed.
  • guidance regarding the volume of the voice to be input is output in a manner corresponding to the recognition order of given information such as the magic word MW identified as the voice recognition result. It may be.
  • guidance regarding the volume of the voice to be input may be output as a voice.
  • the SNR value specified based on the input voice is equal to or less than a predetermined value L1.
  • the recognition order of given information such as the magic word MW is first, the execution state of the information processing apparatus 12 is changed to the voice recognition state, and then “speech A voice representing the content “can be easily recognized” may be output.
  • the recognition order of the given information such as the magic word MW is the second, the execution state of the information processing device 12 remains in the normal state.
  • a voice representing the content of "" may be output as a voice.
  • the information processing apparatus 12 is also provided when a predetermined operation element is pressed while the home screen 30 is in the state shown in FIG. 3, FIG. 4, or FIG. 5.
  • the execution state is changed to the voice recognition state.
  • the home screen 30 is switched to the state shown in FIG.
  • the execution state of the information processing apparatus 12 can be set to the voice recognition state either by an operation by the controller 18 or by voice input of the magic word MW.
  • the execution state of the information processing apparatus 12 becomes the voice recognition state and the state in which neither the operation by the controller 18 nor the voice input is performed for a predetermined time, for example, 10 seconds
  • the execution of the information processing apparatus 12 is performed.
  • the state is changed to the normal state.
  • the operation by the controller 18 is performed after the execution state of the information processing apparatus 12 becomes the voice recognition state
  • the execution state of the information processing apparatus 12 is changed to the normal state.
  • the home screen 30 shown in FIG. 7 or FIG. 8 is displayed on the display 14 and the execution state of the information processing apparatus 12 becomes the normal state
  • the displayed home screen 30 is the one shown in FIG. Changed to
  • the home screen 30 may be updated to that shown in FIG. 7 where the volume guidance information VI is not arranged. Further, it is assumed that a state in which neither the operation by the controller 18 nor the voice input is performed from the state in which the home screen 30 in the normal state is displayed as illustrated in FIG. In this case, the home screen 30 may be updated to the one shown in FIG. 5 in which the volume guidance information VI is not arranged.
  • the volume of the sound output from the speaker may be controlled to be small.
  • the information processing apparatus 12 may be able to recognize the voice represented by the command information CI when the execution state of the information processing apparatus 12 is the normal state.
  • the displayed home screen 30 is in the state shown in FIG. 3, FIG. 4, or FIG. It is assumed that the SNR value specified based on the voice is equal to or less than the predetermined value L1.
  • the recognition result having the first recognition rank is one of the command information CI described above, and the recognition result having the second recognition rank is the magic word MW
  • the home screen 30 is displayed as shown in FIG. You may make it switch to the state shown to.
  • the home screen 30 is in the state shown in FIG. You may make it switch. Further, the home screen 30 may be switched to the state shown in FIG. 8 even when the recognition rank of the magic word MW is 3rd or lower.
  • FIG. 10 is a functional block diagram illustrating an example of functions related to execution state change control and volume guidance information VI display control of the information processing apparatus 12 implemented in the information processing apparatus 12 according to the present embodiment. Note that the information processing apparatus 12 according to the present embodiment does not have to include all the functions illustrated in FIG. 10, and functions other than the functions illustrated in FIG. 10 may be mounted.
  • the information processing apparatus 12 functionally includes, for example, a rank processing relation data storage unit 40, a state management data storage unit 42, an operation reception unit 44, a voice reception unit 46, and a voice.
  • a recognition unit 48, a process specifying unit 50, a state changing unit 52, a process executing unit 54, a screen generating unit 56, and an output control unit 58 are included.
  • the rank processing relation data storage unit 40 and the state management data storage unit 42 are mainly implemented by the storage unit 22.
  • the operation reception unit 44 is mainly mounted with the communication unit 24 or the input / output unit 26.
  • the voice receiving unit 46 is mainly mounted with the input / output unit 26.
  • the output control unit 58 is mainly mounted with the input / output unit 26.
  • Other functions are mainly implemented by the control unit 20.
  • the voice recognition unit 48 corresponds to a function implemented by the voice recognition engine described above.
  • the above functions are implemented by causing the control unit 20 to execute a program that is installed in the information processing apparatus 12 that is a computer and that includes instructions corresponding to the above functions.
  • This program is supplied to the information processing apparatus 12 via a computer-readable information storage medium such as an optical disk, a magnetic disk, a magnetic tape, a magneto-optical disk, or a flash memory, or via communication means such as the Internet.
  • the rank process relation data storage unit 40 stores rank process relation data exemplified in FIG.
  • the state management data storage unit 42 stores state management data for managing the execution state of the information processing apparatus 12.
  • the state management data takes a value of either “normal state” or “voice recognition state”.
  • the operation reception unit 44 receives an operation on the controller 18.
  • the operation reception unit 44 receives, for example, a signal indicating a pressed button.
  • the voice reception unit 46 receives voice.
  • the voice receiving unit 46 receives voice input to the microphone 16b by the user.
  • the voice recognition unit 48 recognizes the voice received by the voice reception unit 46.
  • the speech recognition unit 48 specifies at least one piece of information ranked by an index such as likelihood as a speech recognition result received by the speech reception unit 46.
  • an index such as likelihood
  • the voice recognition unit 48 specifies the relative volume of the sound volume recognized by the information processing apparatus 12 as the user's voice based on the voice received by the voice reception unit 46.
  • the speech recognition unit 48 specifies, for example, the above-described SNR value.
  • the process specifying unit 50 specifies a process to be executed.
  • the process specifying unit 50 is specified as rank processing relation data stored in the rank process relation data storage unit 40, the SNR value specified by the voice recognition unit 48, and the recognition result by the voice recognition unit 48.
  • the name of the process to be executed is specified based on the information.
  • the process specifying unit 50 specifies a process corresponding to the command associated with the command information CI described above based on the recognition result by the voice recognition unit 48 or the operation received by the operation receiving unit 44.
  • the state changing unit 52 changes the execution state of the information processing apparatus 12.
  • the state changing unit 52 changes the value of the state management data stored in the state management data storage unit 42 based on the recognition result by the voice recognition unit 48 or the operation received by the operation receiving unit 44.
  • the state change unit 52 executes the execution state of the information processing device 12.
  • the voice recognition state For example, when given information such as the magic word MW is in a predetermined order, for example, when it is first, the value of the state management data may be changed to “voice recognition state”.
  • the process executing unit 54 executes the process when the process specifying unit 50 specifies a process corresponding to the command associated with the command information CI described above.
  • the screen generation unit 56 generates data indicating a screen such as the home screen 30.
  • the screen generation unit 56 generates data indicating a screen at a predetermined frame rate. Further, the screen generation unit 56 selects the screen based on the SNR value identified by the voice recognition unit 48, the value of the state management data stored in the state management data storage unit 42, the execution result of the process by the process execution unit 54, and the like. Generate data indicating
  • the output control unit 58 relates to the sound volume to be input in a manner corresponding to the recognition order of the information when the given information such as the magic word MW is specified as the speech recognition result recognized by the speech recognition unit 48. Control to output guidance. For example, it is assumed that given information is identified as a speech recognition result received when the execution state of the information processing apparatus 12 is the normal state, and the recognition rank of the information is first. In this case, the output control unit 58 according to the present embodiment controls to output guidance related to the volume of the voice to be input after the execution state of the information processing apparatus 12 is changed from the normal state to the voice recognition state.
  • the output control unit 58 performs control so that guidance regarding the sound volume to be input is output while the execution state of the information processing apparatus 12 is in the normal state.
  • the output control unit 58 may perform control so that guidance regarding the volume of the voice to be input is output only when the condition that the volume of the recognized voice is lower than the predetermined volume is satisfied.
  • the output control unit 58 performs control so that the screen generated by the screen generation unit 56 is output.
  • the output control unit 58 outputs data indicating the screen to the display 14 every time the screen generation unit 56 generates data indicating the screen at a predetermined frame rate.
  • the display 14 displays a screen corresponding to the data.
  • the screen is displayed on the display 14 at a predetermined frame rate.
  • the output control unit 58 may perform control to output a guidance regarding the volume of the voice to be input.
  • the screen generation unit 56 changes the execution state of the information processing apparatus 12 to the voice recognition state, and then corresponds to the volume of the recognized voice.
  • Data indicating a screen on which the volume guidance information VI is arranged may be generated.
  • the output control unit 58 performs control so that guidance related to the volume of the voice to be input according to the recognized volume of the voice is output after the execution state of the information processing apparatus 12 is changed.
  • the voice receiving unit 46 receives the voice, it is performed by the information processing apparatus 12 according to the present embodiment.
  • An example of the flow of processing will be described with reference to the flowchart shown in FIG. In this situation, since the execution state of the information processing apparatus 12 is the normal state, the value of the state management data stored in the state management data storage unit 42 is “normal state”.
  • the voice recognition unit 48 specifies the value of the SNR based on the voice received by the voice reception unit 46 (S101). Then, the voice recognition unit 48 identifies at least one ranked information as a recognition result based on the voice received by the voice reception unit 46 (S102).
  • the process specifying unit 50 is based on the rank process relation data stored in the rank process relation data storage unit 40, the SNR value specified in the process shown in S101, and the information specified in the process shown in S102.
  • the name of the process to be executed is specified (S103).
  • the SNR value specified in the process shown in S101 is larger than 5 dB, and the magic word MW is specified as the recognition result of the first recognition rank in the process shown in S102. In this case, it is specified as the name of the process to be executed by “change to voice recognition state”. Further, for example, it is assumed that the SNR value specified in the process shown in S101 is 5 dB or less and the magic word MW is specified as the recognition result of the first recognition rank in the process shown in S102. In this case, it is specified as the name of the process to be executed by “change to voice recognition state” and “display guidance”.
  • the state change unit 52 checks whether or not “change to voice recognition state” is included in the name of the process specified in the process shown in S103 (S104). When it is confirmed that it is included (S104: Y), the state changing unit 52 changes the value of the state management data stored in the state management data storage unit 42 to “voice recognition state” (S105).
  • the screen generator 56 When it is confirmed in the process shown in S104 that the name of the process specified in the process shown in S103 does not include “change to voice recognition state” (S104: N), or the process shown in S105 is ended. If so, the screen generator 56 generates the home screen 30 (S106). In the process shown in S106, the screen generation unit 56 determines whether or not “guidance display” is included in the value of the state management data stored in the state management data storage unit 42 and the name of the process specified in the process shown in S103. Based on this, the home screen 30 is generated. For example, when the value of the state management data stored in the state management data storage unit 42 is “voice recognition state”, the home screen 30 on which the voice input guidance image 38 is arranged is generated.
  • the home screen 30 on which the magic word guidance image 36 is arranged is generated. Further, when “guidance display” is included in the name of the process specified in the process shown in S103, the home screen 30 on which the volume guidance information VI is arranged is generated. In the present processing example, if none of the above conditions is applicable, the screen generation unit 56 generates the same screen as the displayed screen in the processing shown in S106.
  • the output control unit 58 outputs the data indicating the home screen 30 generated in the process shown in S106 to the display 14 (S107), and ends the process shown in this process example.
  • the display 14 displays a screen corresponding to the data.
  • voice data representing the voice of guidance related to the volume of the voice to be input may be output to the display 14.
  • the display 14 outputs the voice represented by the voice data.
  • the screen generator 56 may generate the home screen 30 in which the volume guidance information VI is not arranged in the process shown in S106.
  • the information processing device 12 may be a portable game device including a camera 16a and a microphone 16b. Further, the information processing apparatus 12 may be a personal computer, a tablet terminal, a smartphone, or the like. Further, the division of roles of the information processing apparatus 12, the display 14, and the camera microphone unit 16 is not limited to the above. Further, the information processing apparatus 12 may be composed of a plurality of cases.

Abstract

 受け付ける音声の認識順位を用いて入力すべき音声の音量に関する案内の出力制御を行うことができる案内装置、案内方法、プログラム及び情報記憶媒体を提供する。音声受付部(46)は、音声を受け付ける。出力制御部(58)は、音声の認識結果として所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する。

Description

案内装置、案内方法、プログラム及び情報記憶媒体
 本発明は、案内装置、案内方法、プログラム及び情報記憶媒体に関する。
 受け付ける音声の認識結果として尤度等の指標によって順位付けられた複数の情報が特定される音声認識技術が存在する。このような音声認識技術では入力される音声の音量が小さすぎると環境音の影響によって音声の認識精度が低くなる。また入力される音声の音量が大きすぎても音声の認識精度が低くなる。そして音声の認識精度が低いと、ユーザが認識させたい情報は低い認識順位の認識結果として特定される、あるいは、認識結果として特定されないこととなる。そのため認識させたい情報が高い認識順位の認識結果として特定されるようにするためにはユーザは入力すべき音量で音声を入力する必要がある。
 例えば入力された音声の音量が小さい場合に「大きな声で言うと音声が認識されやすくなります。」などといった入力すべき音声の音量に関する案内が出力されるようにするとユーザは入力すべき音声の音量を把握できる。
 ここで例えばユーザによって音声入力されたマジックワードなどの所与の情報の認識順位に応じた態様で当該案内が出力されるようにしたとする。すると上述のように音声の認識精度が低いほど、当該情報の認識順位は低くなるため、当該案内の出力態様を手がかりにしてユーザは音声の認識精度を知ることができ、その結果入力すべき音声の音量をより的確に把握できることとなる。しかし従来技術では、入力すべき音声の音量に関する案内の出力制御に所与の情報の認識順位が用いられてはいなかった。
 本発明は上記課題に鑑みてなされたものであって、その目的の1つは、受け付ける音声の認識順位を用いて入力すべき音声の音量に関する案内の出力制御を行うことができる案内装置、案内方法、プログラム及び情報記憶媒体を提供することにある。
 上記課題を解決するために、本発明に係る案内装置は、音声を受け付ける受付部と、前記音声の認識結果として所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する出力制御部と、を含むことを特徴とする。
 また、本発明に係る別の案内装置は、音声を受け付ける受付部と、前記音声の認識結果として所与の情報が特定される場合に、音声による所定のコマンドの入力が不可能な通常状態から音声による当該コマンドの入力が可能な音声認識状態に変更する状態変更部と、認識された前記音声の音量に応じた入力すべき音声の音量に関する案内が当該変更の後に出力されるよう制御する出力制御部と、を含むことを特徴とする。
 また、本発明に係る案内方法は、音声を受け付けるステップと、前記音声の認識結果として所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御するステップと、を含むことを特徴とする。
 また、本発明に係るプログラムは、音声を受け付ける手順、所定の情報が前記音声の認識結果として特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する手順、をコンピュータに実行させることを特徴とする。
 また、本発明に係る情報記憶媒体は、音声を受け付ける手順、所与の情報が前記音声の認識結果として特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する手順、をコンピュータに実行させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体である。
 本発明の一態様では、音声による所定のコマンドの入力が不可能な通常状態である際に受け付ける音声の認識結果として前記所与の情報が特定され当該情報の認識順位が第1位である場合に、音声による前記コマンドの入力が可能な音声認識状態に変更する状態変更部、をさらに含み、前記出力制御部は、前記音声認識状態に変更された後に前記案内が出力されるよう制御する。
 この態様では、前記出力制御部は、前記通常状態である際に受け付ける音声の認識結果として前記所与の情報が特定され当該情報の認識順位が第1位以外である場合に、前記通常状態のままで前記案内が出力されるよう制御してもよい。
 また、本発明の一態様では、前記出力制御部は、認識された前記音声の音量が所定の音量よりも小さいという条件をさらに満足する場合に限って前記案内が出力されるよう制御する。
本発明の一実施形態に係る情報処理システムの全体構成の一例を示す図である。 本発明の一実施形態に係る情報処理装置のハードウェア構成の一例を示す図である。 ホーム画面の一例を示す図である。 ホーム画面の一例を示す図である。 ホーム画面の一例を示す図である。 順位処理関係データの一例を示す図である。 ホーム画面の一例を示す図である。 ホーム画面の一例を示す図である。 ホーム画面の一例を示す図である。 本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。 本実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。
 以下、本発明の一実施形態について図面に基づき詳細に説明する。
 図1は、本発明の一実施形態に係る情報処理システム10の全体構成の一例を示す図である。図1に示すように、本実施形態に係る情報処理システム10は、情報処理装置12とディスプレイ14とカメラマイクユニット16とコントローラ18とを含んでいる。
 本実施形態に係る情報処理装置12は、例えばゲームコンソールなどといったエンタテインメント装置等のコンピュータであり、例えば図2に示すように、制御部20、記憶部22、通信部24、入出力部26を含んでいる。制御部20は、例えば情報処理装置12にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。記憶部22は、例えばROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部22には、制御部20によって実行されるプログラムなどが記憶される。通信部24は、例えばネットワークボードや無線LANモジュールなどの通信インタフェースなどである。入出力部26は、HDMI(登録商標)(High-Definition Multimedi Interface)ポートやUSBポートなどの入出力ポートである。
 本実施形態に係るディスプレイ14は、液晶ディスプレイ等であり、情報処理装置12が生成する画面などを表示させる。また、本実施形態に係るディスプレイ14は、情報処理装置12が生成する音声データが表す音声を出力するスピーカも備えている。本実施形態に係るカメラマイクユニット16は、例えば被写体を撮像した画像を情報処理装置12に出力するカメラ16a及び周囲の音声を取得して当該音声を音声データに変換して情報処理装置12に出力するマイク16bを含んでいる。
 情報処理装置12とディスプレイ14とは、例えば、AVケーブルや、HDMIケーブル等を介して接続されている。情報処理装置12とカメラマイクユニット16とは、例えば、USBケーブルや、AVケーブルや、HDMI(登録商標)(High-Definition Multimedia Interface)ケーブル等を介して接続されている。
 本実施形態に係るコントローラ18は、情報処理装置12に対する操作入力を行うための操作入力装置である。本実施形態に係るコントローラ18は、例えばボタン、タッチパネル、操作スティックなどの操作子が設けられている。また、本実施形態に係るコントローラ18は、角速度を検出するジャイロセンサ、加速度を検出する加速度センサ等のセンサを備えている。
 また、本実施形態に係るコントローラ18はジャックを備えており、当該ジャックにマイクが備えるプラグを差し込むことにより、当該マイクによる音声入力も行うことができるようになっている。コントローラ18に差し込まれたマイクに入力された音声はコントローラ18で音声データに変換されて情報処理装置12に出力される。
 本実施形態では、カメラマイクユニット16が備えるマイク16bにユーザが音声を入力することにより、情報処理装置12は当該音声を認識して、当該音声の認識結果に応じた各種処理を実行する。このようにして本実施形態では、ユーザは音声によって情報処理装置12に対する操作を行うことができるようになっている。なお本実施形態では、コントローラ18のジャックにマイクのプラグが差し込まれている際には、当該マイクに入力された音声の認識結果をカメラマイクユニット16が備えるマイク16bに入力された音声の認識結果よりも優先して取り扱うようになっている。
 またユーザは、ボタンを押下したり、操作スティックを傾けたりすることで、コントローラ18を用いて各種の操作入力を行うことができる。そして本実施形態では、コントローラ18は、操作入力に対応付けられる入力データを情報処理装置12に出力する。
 また、本実施形態に係るコントローラ18は、USBポートを備えている。コントローラ18は、USBケーブルで情報処理装置12と接続することで、入出力部26を介して有線で入力データを情報処理装置12に出力することができる。また、本実施形態に係るコントローラ18は、無線通信モジュール等を備えており、通信部24を介して無線で入力データを情報処理装置12に出力することができるようにもなっている。
 また本実施形態に係る情報処理装置12には公知の音声認識エンジンがインストールされている。そして当該音声認識エンジンにより、当該情報処理装置12に入力される音声、すなわち当該情報処理装置12が受け付ける音声の認識結果として、尤度等の指標によって順位付けられた複数の情報が特定されるようになっている。なお本実施形態では、ある認識順位の認識結果として特定される情報がない、具体的には例えば、認識順位が第1位である認識結果に該当する情報がない場合があり得る。
 また当該音声認識エンジンは、入力される音声に基づいて情報処理装置12がユーザの音声として認識した音の音量の相対的な大きさを特定できるようになっている。本実施形態では具体的には例えば、情報処理装置12が周囲の雑音すなわち環境音として認識した音の音量に対する情報処理装置12がユーザの音声として認識した音の音量の比を特定することができるようになっている。以下、このようにして特定される比をSNR(signal-to-noise ratio)と呼ぶこととする。
 また本実施形態に係る情報処理装置12は、音声による所定のコマンドの入力が不可能な通常状態又は音声による所定のコマンドの入力が可能な音声認識状態のいずれかの実行状態で各種処理を実行する。そしてユーザは情報処理装置12の実行状態を適宜切り替えることができるようになっている。
 図3は、本実施形態に係るディスプレイ14に表示されるホーム画面30の一例を示す図である。本実施形態では、ホーム画面30において、ユーザは情報処理装置12にインストールされているプログラムのうちのいずれかを選択できるようになっている。
 ホーム画面30には、初期状態では、図3に示すようにそれぞれプログラムに対応付けられるプログラムアイコン画像32(図3の例ではプログラムアイコン画像32-1~32-5)が配置されている。図3に示すホーム画面30には、情報処理装置12にインストールされているプログラムの少なくとも一部についてのプログラムアイコン画像32が配置されている。そして当該プログラムアイコン画像32のうちいずれかのプログラムアイコン画像32、図3の例ではプログラムアイコン画像32-1が、選択されている状態であることが示される。本実施形態では選択されている状態であるプログラムアイコン画像32-1は、他のプログラムアイコン画像32とは異なる態様で表示される。以下、選択されている状態となった選択肢を注目選択肢と呼ぶこととする。上述の例では、プログラムアイコン画像32-1が注目選択肢である。
 本実施形態では、図3に示すように、注目選択肢であるプログラムアイコン画像32-1の右下に、当該プログラムアイコン画像32-1に対応付けられるプログラムの名称を表す文字列が配置される。また、注目選択肢であるプログラムアイコン画像32-1が他のプログラムアイコン画像32(32-2~32-5)よりも強調表示されている。具体的には、例えば、プログラムアイコン画像32-1は他のプログラムアイコン画像32(32-2~32-5)よりもサイズが大きく、また、プログラムアイコン画像32-1の周囲には枠が配置されている。本実施形態では、以上のことによって、プログラムアイコン画像32-1が選択されている状態であること、すなわちプログラムアイコン画像32-1が注目選択肢であることが示されている。なお、プログラムアイコン画像32が注目選択肢であることを示す手法は図3に示すものには限定されない。
 ここで、図3に示すホーム画面30が表示されてから所定時間、例えば10秒経過したとする。すると、ディスプレイ14に表示されているホーム画面30は、図4に示す状態となる。そして、ホーム画面30は、所定時間間隔、例えば3秒間隔で、図4に示す状態と図5に示す状態とが切り替わる。図4に示す状態では、ホーム画面30にコントローラ操作案内画像34が配置される。当該コントローラ操作案内画像34には、コントローラ18による操作内容を案内する操作案内情報OIが配置されている。一方、図5に示す状態では、ホーム画面30にマジックワード案内画像36が配置される。当該マジックワード案内画像36には、音声認識を開始するための音声を表す所与の情報の音声入力を促すマジックワード案内情報MIが配置されている。そしてマジックワード案内情報MIには、音声認識を開始するための音声を表す所与の情報が含まれている。図5には、当該所与の情報の一例として、「音声認識開始」との語句が示されている。以下、音声認識を開始するための音声を表す所与の語句をマジックワードMWと呼ぶこととする。
 このようにして本実施形態では、ホーム画面30が表示されてから所定時間が経過すると、コントローラ18でどのような操作をすればよいかと、どのような音声を入力すればよいかの両方がユーザに案内されることとなる。なお、本実施形態では、ユーザによる音声入力ができない場合には、ホーム画面30はマジックワード案内画像36が配置された状態には切り替わらない。例えば、カメラマイクユニット16が情報処理装置12と接続されておらず、コントローラ18のジャックにマイクのプラグが差し込まれていない場合には、ホーム画面30はマジックワード案内画像36が配置された状態には切り替わらない。
 ホーム画面30が図3、図4、又は、図5に示す状態となっている際には、本実施形態に係る情報処理装置12の実行状態は通常状態となっている。そして表示されているホーム画面30が図3、図4、又は、図5に示す状態となっている際に、情報処理装置12がユーザの音声を受け付けたとする。この場合本実施形態では、図6に示す順位処理関係データに従って、当該音声に基づいて特定されるSNRの値とユーザの音声として認識された音に基づいて特定されるマジックワードMWの認識順位との組合せに応じた処理が実行されることとなる。図6に示す順位処理関係データには、マジックワードMW等の所定の情報の認識順位と実行される処理の名称との関係が示されている。なお本実施形態に係る順位処理関係データでは、音量に関する条件と所定の情報の認識順位との組合せが実行される処理の名称と関連付けて管理されている。より具体的には例えば、受け付ける音声に基づいて特定されるSNRの値に関する条件とマジックワードMWの認識順位との組合せが実行される処理の名称と関連付けて管理されている。
 例えば特定されるSNRの値が所定値L1より大きく(ここでは例えば5dBより大きく)、認識順位が第1位である認識結果がマジックワードMW(ここでは例えば「音声認識開始」)である場合は、情報処理装置12の実行状態が音声認識状態に変更される。この場合は、ホーム画面30が図7に示す状態に切り替わる。
 また例えば特定されるSNRの値が上述の所定値L1以下であり、認識順位が第1位である認識結果がマジックワードMWである場合は、情報処理装置12の実行状態が音声認識状態へと変更されるとともに入力すべき音声の音量に関する案内が表示される。この場合は、ホーム画面30が図8に示す状態に切り替わる。
 また例えば特定されるSNRの値が上述の所定値L1以下であり、認識順位が第1位である認識結果に該当する情報がなく、認識順位が第2位である認識結果がマジックワードMWである場合は、入力すべき音声の音量に関する案内が出力される。この場合は、情報処理装置12の実行状態は通常状態のままである。この場合は、ホーム画面30が図9に示す状態に切り替わる。
 情報処理装置12の実行状態が音声認識状態である場合には、図7及び図8に示すように、ホーム画面30に、コマンドの音声入力を行うにあたって入力すべき音声をユーザに案内するための音声入力案内画像38が配置される。
 本実施形態では、情報処理装置12の実行状態が音声認識状態である際には、ユーザが音声を入力すると、情報処理装置12は、当該音声が表す情報を認識して、その認識結果に基づいて、当該音声が表すコマンドを特定する。そして、情報処理装置12は、当該コマンドに応じた処理を実行する。
 図7及び図8に例示する音声入力案内画像38には、コマンドを示すコマンド情報CIが少なくとも1つ配置されている。本実施形態では、コマンド情報CIとしてコマンドを示す語句が配置される。なお、コマンド情報CIとして語句の代わりにコマンドを象徴するアイコン画像などの他の情報が配置されても構わない。
 コマンド情報CIは、情報処理装置12が受付可能なコマンドに対応付けられている。そして本実施形態では、コマンド情報CIが表す音声がユーザにより入力されると、当該コマンド情報CIに対応付けられるコマンドに応じた処理が実行されることとなる。
 図7及び図8に例示するホーム画面30には4つのコマンド情報CIが配置されている。本実施形態では、ホーム画面30に配置されているコマンド情報CIの左側にはコマンド識別画像CIPが配置されている。そして、当該コマンド識別画像CIPにより、ユーザは、その右側のコマンド情報CIが表す音声を入力することで当該コマンド情報CIに対応付けられるコマンドに応じた処理が実行されることを認識できることとなる。
 ここで例えば、図7又は図8に示すホーム画面30がディスプレイ14に表示されていることとする。この場合に、「はじめる」との語句を表す音声を情報処理装置12が受け付けた際には、注目選択肢であるプログラムアイコン画像32に対応付けられるプログラムの実行が開始される。また、「電源」との語句を表す音声を情報処理装置12が受け付けた際には、情報処理装置12の電源が切れるよう制御することができる画面がディスプレイ14に表示される。また「スクリーンショットを撮る」との語句を表す音声を情報処理装置12が受け付けた際には、ホーム画面30の表示内容を静止画像としてキャプチャしたキャプチャ画像が情報処理装置12の記憶部22に保存される。また「ログインする」との語句を表す音声を情報処理装置12が受け付けた際には、ディスプレイ14にはユーザの一覧が示された画面が表示される。そして、当該画面で情報処理装置12に登録されているユーザの識別子を音声入力することで当該ユーザによるログインが行われる。
 また本実施形態では、コマンド情報CIが表すコマンドには、コントローラ18のボタン等の操作子が割り当てられている。そしてボタンを押下することで、当該ボタンに対応付けられるコマンドに応じた処理が実行されることとなる。このように、本実施形態では、コマンド情報CIが表すコマンドに応じた処理は、操作子の操作によっても音声入力によっても実行することができるようになっている。
 また本実施形態では、表示されているプログラムアイコン画像32は、当該プログラムアイコン画像32に対応付けられるプログラムの名称、略称、通称等の情報が少なくとも1つ関連付けられている。また本実施形態では、図7及び図8に示す音声入力案内画像38には、ゲーム等のプログラムの名称の音声入力を促すプログラム名称入力案内情報PIが配置されている。そして本実施形態では、プログラムの名称等を表す音声をユーザが音声入力すると、当該プログラムに対応付けられるプログラムアイコン画像32が注目選択肢として特定される。ここで、入力された音声が複数のプログラムについての名称等を表している場合は、これら複数のプログラムのうちのいずれかに対応付けられるプログラムアイコン画像32が注目選択肢として特定される。本実施形態では、図7に示すホーム画面30が表示されている際に、情報処理装置12が「ドラゴンゲーム」との語句を表す音声を受け付けると、プログラムアイコン画像32-4が注目選択肢として特定されることとなる。そして本実施形態ではプログラムアイコン画像32-4が強調表示されるよう表示されているホーム画面30が更新される。
 なお音声認識状態では、受け付ける音声の音量が所定の音量の範囲内である場合に、受け付ける音声に応じたコマンドの特定が行われるようにしてもよい。ここで当該所定の音量の範囲の下限が、上述の所定の音量L1よりも大きくてもよい。
 本実施形態では、図8に示すホーム画面30では、図7に示されているプログラム名称入力案内情報PIの代わりに、本実施形態における入力すべき音声の音量に関する案内である音量案内情報VIが音声入力案内画像38に配置される。ここでは例えば、より大きな声での入力をユーザに促す案内である音量案内情報VIとして「大きな声で言うと音声が認識されやすくなります。」との文字列が音声入力案内画像38に配置される。
 このように本実施形態では、情報処理装置12の実行状態が通常状態から音声認識状態に変更されたタイミングについては音量案内情報VIが表示されることがある。しかし本実施形態では、当該タイミングを除いては、受け付ける音声に基づいて特定されるSNRの値が所定値L1以下であっても情報処理装置12の実行状態が音声認識状態である場合に音量案内情報VIは表示されないようになっている。
 また図9に示すホーム画面30では、図5に示されているマジックワード案内情報MIの代わりに上述の音量案内情報VIが配置される。
 以上のようにして本実施形態では、音声の認識結果として特定されるマジックワードMW等の所与の情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力される。具体的には例えば、マジックワードMW等の所与の情報の認識順位が第1位である場合は情報処理装置12の実行状態が音声認識状態である場合に表示される音声入力案内画像38内に上述の音量案内情報VIが配置される。一方、マジックワードMW等の所与の情報の認識順位が第2位である場合は情報処理装置12の実行状態が通常状態である場合に表示されるマジックワード案内画像36内に上述の音量案内情報VIが配置される。
 一般的な音声認識技術では入力される音声の音量が小さすぎると環境音の影響によって音声の認識精度が低くなる。そして音声の認識精度が低いほど、ユーザが認識させたい情報の認識順位は低くなる。そのため本実施形態のように、音声の認識結果として特定される所与の情報の認識順位に応じた態様で入力すべき音声の音量に関する案内を出力されるようにすることで、ユーザは当該案内の出力態様を手がかりにして音声の認識精度を知ることができる。その結果ユーザは入力すべき音声の音量をより的確に把握できることとなる。
 また以上説明したように本実施形態では、認識されるユーザの音声の音量が周囲の雑音すなわち環境音の音量に比べて相対的に小さい場合に、より大きな声での入力をユーザに促す案内が出力されることとなる。なお入力される音声の音量が大きすぎても音声の認識精度が低くなる。そこで例えば、認識された音声の音量が所定の音量より大きい場合に、音声の認識結果として特定されるマジックワードMW等の所与の情報の認識順位に応じた態様で入力すべき音声の音量に関する案内を出力されるようにしてもよい。ここで例えばより小さな声での入力をユーザに促す案内として「小さな声で言うと音声が認識されやすくなります。」との文字列が表示されるようにしてもよい。また、認識された音声の音量に関わらず、音声の認識結果として特定されるマジックワードMW等の所与の情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるようにしてもよい。
 また、入力すべき音声の音量に関する案内が音声出力されるようにしてもよい。ここで例えば入力された音声に基づいて特定されるSNRの値が所定値L1以下であることとする。この場合に例えば、マジックワードMW等の所与の情報の認識順位が第1位である場合は情報処理装置12の実行状態が音声認識状態に変更された上で「大きな声で言うと音声が認識されやすくなります。」との内容を表す音声が音声出力されてもよい。一方、マジックワードMW等の所与の情報の認識順位が第2位である場合は情報処理装置12の実行状態が通常状態であるままで「大きな声で言うと音声が認識されやすくなります。」との内容を表す音声が音声出力されてもよい。
 また本実施形態では、ホーム画面30が、図3、図4、又は、図5に示す状態となっている際に、所定の操作子に対する押下操作が行われた場合にも、情報処理装置12の実行状態は音声認識状態へと変更される。この場合は、ホーム画面30は、図7に示す状態に切り替わる。このように本実施形態では、コントローラ18による操作によってもマジックワードMWを音声入力することによっても情報処理装置12の実行状態を音声認識状態とすることができるようになっている。
 そして本実施形態では、情報処理装置12の実行状態が音声認識状態となってから、コントローラ18による操作も音声入力も行われない状態が所定時間、例えば10秒間経過したら、情報処理装置12の実行状態は通常状態に変更される。また、情報処理装置12の実行状態が音声認識状態となってから、コントローラ18による操作が行われた場合も同様に、情報処理装置12の実行状態は通常状態に変更される。図7又は図8に示すホーム画面30がディスプレイ14に表示されている場合に情報処理装置12の実行状態が通常状態となった際には、表示されているホーム画面30は図5に示すものに変更される。
 また、図8に示す、音声認識状態におけるホーム画面30が表示されている状態からコントローラ18による操作も音声入力も行われない状態が所定時間、例えば5秒間経過したとする。この場合、当該ホーム画面30は音量案内情報VIが配置されていない図7に示すものに更新されてもよい。また、図9に示す、通常状態におけるホーム画面30が表示されている状態からコントローラ18による操作も音声入力も行われない状態が所定時間、例えば5秒間経過したとする。この場合、当該ホーム画面30は音量案内情報VIが配置されていない図5に示すものに更新されてもよい。
 なお、情報処理装置12が音声認識状態である間は、スピーカから出力される音の音量が小さくなるよう制御されても構わない。
 また、本実施形態に係る情報処理装置12は、当該情報処理装置12の実行状態が通常状態である場合に上述のコマンド情報CIが表す音声が認識可能であっても構わない。ここで例えば表示されているホーム画面30が図3、図4、又は、図5に示す状態となっている際に、情報処理装置12がユーザの音声を受け付けたとする。そして当該音声に基づいて特定されるSNRの値が所定値L1以下であったとする。この場合、認識順位が第1位である認識結果が上述のコマンド情報CIのいずれかであり、認識順位が第2位である認識結果がマジックワードMWである場合に、ホーム画面30が図8に示す状態に切り替わるようにしてもよい。ここでもちろん認識順位が第1位である認識結果に該当する情報がなく、認識順位が第2位である認識結果がマジックワードMWである場合についても、ホーム画面30が図8に示す状態に切り替わるようにしてもよい。またマジックワードMWの認識順位が第3位以下である場合についても、ホーム画面30が図8に示す状態に切り替わるようにしてもよい。
 以下、情報処理装置12の実行状態の変更制御及び音量案内情報VIの表示制御についてさらに説明する。
 図10は、本実施形態に係る情報処理装置12で実装される、情報処理装置12の実行状態の変更制御及び音量案内情報VIの表示制御に関する機能の一例を示す機能ブロック図である。なお、本実施形態に係る情報処理装置12で、図10に示す機能のすべてが実装される必要はなく、また、図10に示す機能以外の機能が実装されていても構わない。
 本実施形態に係る情報処理装置12は、図10に示すように、機能的には例えば、順位処理関係データ記憶部40、状態管理データ記憶部42、操作受付部44、音声受付部46、音声認識部48、処理特定部50、状態変更部52、処理実行部54、画面生成部56、出力制御部58、を含んでいる。順位処理関係データ記憶部40、状態管理データ記憶部42は、記憶部22を主として実装される。操作受付部44は、通信部24又は入出力部26を主として実装される。音声受付部46は、入出力部26を主として実装される。出力制御部58は、入出力部26を主として実装される。その他の機能は、制御部20を主として実装される。なお音声認識部48は、上述の音声認識エンジンで実装される機能に相当する。
 そして、以上の機能は、コンピュータである情報処理装置12にインストールされた、以上の機能に対応する指令を含むプログラムを制御部20で実行することにより実装されている。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどの通信手段を介して情報処理装置12に供給される。
 順位処理関係データ記憶部40は、図6に例示する順位処理関係データを記憶する。
 状態管理データ記憶部42は、情報処理装置12の実行状態を管理する状態管理データを記憶する。本実施形態では状態管理データは「通常状態」又は「音声認識状態」のいずれかの値をとることとする。
 操作受付部44は、コントローラ18に対する操作を受け付ける。本実施形態では操作受付部44は、例えば押下されたボタンを表す信号等を受け付ける。
 音声受付部46は、音声を受け付ける。音声受付部46は、本実施形態では例えば、ユーザによりマイク16bに入力される音声を受け付ける。
 音声認識部48は、音声受付部46が受け付ける音声を認識する。音声認識部48は、本実施形態では、音声受付部46が受け付ける音声の認識結果として、尤度等の指標によって順位付けられた少なくとも1つの情報を特定する。なお上述のように本実施形態では、ある認識順位の認識結果として特定される情報がない、具体的には例えば、認識順位が第1位である認識結果に該当する情報がない場合があり得る。また音声認識部48は、音声受付部46が受け付ける音声に基づいて情報処理装置12がユーザの音声として認識した音の音量の相対的な大きさを特定する。本実施形態では音声認識部48は、例えば上述のSNRの値を特定する。
 処理特定部50は、実行する処理を特定する。処理特定部50は、本実施形態では例えば、順位処理関係データ記憶部40に記憶されている順位処理関係データ、音声認識部48が特定したSNRの値、音声認識部48により認識結果として特定された情報、に基づいて実行する処理の名称を特定する。また処理特定部50は、本実施形態では例えば、音声認識部48による認識結果又は操作受付部44が受け付ける操作に基づいて、上述のコマンド情報CIに対応付けられるコマンドに応じた処理を特定する。
 状態変更部52は、情報処理装置12の実行状態を変更する。本実施形態では、状態変更部52は、音声認識部48による認識結果又は操作受付部44が受け付ける操作に基づいて、状態管理データ記憶部42に記憶されている状態管理データの値を変更する。状態変更部52は例えば、情報処理装置12の実行状態が通常状態である際に受け付ける音声の認識結果としてマジックワードMW等の所与の情報が特定された場合に、情報処理装置12の実行状態を音声認識状態に変更する。ここで例えば、マジックワードMW等の所与の情報が所定の順位である場合、例えば第1位である場合に状態管理データの値が「音声認識状態」に変更されるようにしてもよい。
 処理実行部54は、処理特定部50が上述のコマンド情報CIに対応付けられるコマンドに応じた処理を特定した場合に当該処理を実行する。
 画面生成部56は、ホーム画面30等の画面を示すデータを生成する。本実施形態では、画面生成部56は、所定のフレームレートで画面を示すデータを生成する。また画面生成部56は、音声認識部48が特定したSNRの値、状態管理データ記憶部42に記憶されている状態管理データの値、処理実行部54による処理の実行結果などに基づいて、画面を示すデータを生成する。
 出力制御部58は、音声認識部48が認識する音声の認識結果としてマジックワードMW等の所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する。例えば情報処理装置12の実行状態が通常状態である際に受け付ける音声の認識結果として所与の情報が特定され当該情報の認識順位が第1位であったとする。この場合は、本実施形態に係る出力制御部58は、情報処理装置12の実行状態が通常状態から音声認識状態に変更された後に入力すべき音声の音量に関する案内が出力されるよう制御する。また例えば情報処理装置12の実行状態が通常状態である際に受け付ける音声の認識結果として所与の情報が特定され当該情報の認識順位が第1位以外であったとする。この場合は、本実施形態に係る出力制御部58は、情報処理装置12の実行状態が通常状態のままで入力すべき音声の音量に関する案内が出力されるよう制御する。なお上述のように出力制御部58は認識された音声の音量が所定の音量よりも小さいという条件を満足する場合に限って入力すべき音声の音量に関する案内が出力されるよう制御してもよい。また出力制御部58は、本実施形態では画面生成部56が生成した画面が出力されるよう制御する。なお出力制御部58は本実施形態では例えば、画面生成部56が所定のフレームレートで画面を示すデータを生成する度に、当該画面を示すデータをディスプレイ14に出力する。そしてディスプレイ14は当該データに応じた画面を表示する。このようにして本実施形態では、所定のフレームレートでディスプレイ14に画面が表示されることとなる。また出力制御部58は、入力すべき音声の音量に関する案内が音声出力される制御してもよい。
 なお画面生成部56が、受け付ける音声の認識結果として所与の情報が特定される場合に、情報処理装置12の実行状態が音声認識状態に変更された後に、認識された音声の音量に応じた音量案内情報VIが配置された画面を示すデータを生成してもよい。この場合は、出力制御部58が、認識された音声の音量に応じた入力すべき音声の音量に関する案内が情報処理装置12の実行状態の変更の後に出力されるよう制御することとなる。
 ここで、ホーム画面30が図3、図4、又は、図5に示す状態となっている際に音声受付部46が音声を受け付けた際に、本実施形態に係る情報処理装置12で行われる処理の流れの一例を、図11に示すフロー図を参照しながら説明する。この状況では情報処理装置12の実行状態は通常状態であるため、状態管理データ記憶部42に記憶されている状態管理データの値は「通常状態」であることとなる。
 まず音声認識部48が、音声受付部46が受け付けた音声に基づいて、SNRの値を特定する(S101)。そして音声認識部48が、音声受付部46が受け付けた音声に基づいて、順位付けられた少なくとも1つの情報を認識結果として特定する(S102)。
 そして処理特定部50が、順位処理関係データ記憶部40に記憶されている順位処理関係データ、S101に示す処理で特定されたSNRの値、及び、S102に示す処理で特定された情報、に基づいて実行する処理の名称を特定する(S103)。
 ここで例えばS101に示す処理で特定されたSNRの値が5dBより大きく、S102に示す処理で第1位の認識順位の認識結果としてマジックワードMWが特定されたとする。この場合は、「音声認識状態への変更」が実行する処理の名称として特定される。また例えばS101に示す処理で特定されたSNRの値が5dB以下でありS102に示す処理で第1位の認識順位の認識結果としてマジックワードMWが特定されたとする。この場合は、「音声認識状態への変更」と「案内の表示」の2つが実行する処理の名称として特定される。また例えばS101に示す処理で特定されたSNRの値が5dB以下でありS102に示す処理で認識順位が第1位である認識結果に該当する情報がなく認識順位が第2位である認識結果としてマジックワードMWが特定されたとする。この場合は、「案内の表示」が実行する処理の名称として特定される。
 そして状態変更部52は、S103に示す処理で特定された処理の名称に「音声認識状態への変更」が含まれるか否かを確認する(S104)。含まれることが確認された場合は(S104:Y)、状態変更部52は、状態管理データ記憶部42に記憶されている状態管理データの値を「音声認識状態」に変更する(S105)。
 S104に示す処理でS103に示す処理で特定された処理の名称に「音声認識状態への変更」が含まれていないことが確認された場合(S104:N)、又は、S105に示す処理が終了した場合は、画面生成部56がホーム画面30を生成する(S106)。S106に示す処理では画面生成部56は、状態管理データ記憶部42に記憶されている状態管理データの値及びS103に示す処理で特定された処理の名称に「案内の表示」が含まれるか否かに基づいてホーム画面30を生成する。例えば状態管理データ記憶部42に記憶されている状態管理データの値が「音声認識状態」である場合は、音声入力案内画像38が配置されたホーム画面30が生成される。一方、状態管理データ記憶部42に記憶されている状態管理データの値が「通常状態」である場合は、マジックワード案内画像36が配置されたホーム画面30が生成される。また、S103に示す処理で特定された処理の名称に「案内の表示」が含まれる場合は音量案内情報VIが配置されたホーム画面30が生成される。なお本処理例では以上のいずれの条件にも場合にもあてはまらない場合には、S106に示す処理で画面生成部56は表示されている画面と同一の画面を生成することとする。
 そして出力制御部58が、S106に示す処理で生成されたホーム画面30を示すデータをディスプレイ14に出力して(S107)、本処理例に示す処理を終了する。ディスプレイ14は当該データに応じた画面を表示する。
 なお上述のようにS107に示す処理で例えば入力すべき音声の音量に関する案内の音声を表す音声データがディスプレイ14に出力されるようにしてもよい。この場合は、ディスプレイ14は当該音声データが表す音声を出力する。なおこの場合は、画面生成部56がS106に示す処理で音量案内情報VIが配置されていないホーム画面30を生成してもよい。
 なお、本発明は上述の実施形態に限定されるものではない。
 例えば、情報処理装置12が、カメラ16aやマイク16bを備えた携帯型ゲーム装置であってもよい。また、情報処理装置12は、パーソナルコンピュータ、タブレット端末、スマートフォン、などであっても構わない。また、情報処理装置12、ディスプレイ14、カメラマイクユニット16、の役割分担は上述のものに限定されない。また、情報処理装置12が複数の筐体から構成されていてもよい。
 また、上記の具体的な文字列や図面中の具体的な文字列は例示であり、これらの文字列には限定されない。

Claims (8)

  1.  音声を受け付ける受付部と、
     前記音声の認識結果として所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する出力制御部と、
     を含むことを特徴とする案内装置。
  2.  音声による所定のコマンドの入力が不可能な通常状態である際に受け付ける音声の認識結果として前記所与の情報が特定され当該情報の認識順位が第1位である場合に、音声による前記コマンドの入力が可能な音声認識状態に変更する状態変更部、をさらに含み、
     前記出力制御部は、前記音声認識状態に変更された後に前記案内が出力されるよう制御する、
     ことを特徴とする請求項1に記載の案内装置。
  3.  前記出力制御部は、前記通常状態である際に受け付ける音声の認識結果として前記所与の情報が特定され当該情報の認識順位が第1位以外である場合に、前記通常状態のままで前記案内が出力されるよう制御する、
     ことを特徴とする請求項2に記載の案内装置。
  4.  前記出力制御部は、認識された前記音声の音量が所定の音量よりも小さいという条件をさらに満足する場合に限って前記案内が出力されるよう制御する、
     ことを特徴とする請求項1から3のいずれか一項に記載の案内装置。
  5.  音声を受け付ける受付部と、
     前記音声の認識結果として所与の情報が特定される場合に、音声による所定のコマンドの入力が不可能な通常状態から音声による当該コマンドの入力が可能な音声認識状態に変更する状態変更部と、
     認識された前記音声の音量に応じた入力すべき音声の音量に関する案内が当該変更の後に出力されるよう制御する出力制御部と、
     を含むことを特徴とする案内装置。
  6.  音声を受け付けるステップと、
     前記音声の認識結果として所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御するステップと、
     を含むことを特徴とする案内方法。
  7.  音声を受け付ける手順、
     所定の情報が前記音声の認識結果として特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する手順、
     をコンピュータに実行させることを特徴とするプログラム。
  8.  音声を受け付ける手順、
     所与の情報が前記音声の認識結果として特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する手順、
     をコンピュータに実行させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体。
PCT/JP2015/063064 2014-05-02 2015-05-01 案内装置、案内方法、プログラム及び情報記憶媒体 WO2015167008A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020167030516A KR101883414B1 (ko) 2014-05-02 2015-05-01 안내 장치, 안내 방법, 프로그램 및 정보 저장 매체
JP2016516421A JP6383409B2 (ja) 2014-05-02 2015-05-01 案内装置、案内方法、プログラム及び情報記憶媒体
US15/303,642 US9870772B2 (en) 2014-05-02 2015-05-01 Guiding device, guiding method, program, and information storage medium
EP15785826.7A EP3139377B1 (en) 2014-05-02 2015-05-01 Guidance device, guidance method, program, and information storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014095233 2014-05-02
JP2014-095233 2014-05-02

Publications (1)

Publication Number Publication Date
WO2015167008A1 true WO2015167008A1 (ja) 2015-11-05

Family

ID=54358729

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/063064 WO2015167008A1 (ja) 2014-05-02 2015-05-01 案内装置、案内方法、プログラム及び情報記憶媒体

Country Status (5)

Country Link
US (1) US9870772B2 (ja)
EP (1) EP3139377B1 (ja)
JP (1) JP6383409B2 (ja)
KR (1) KR101883414B1 (ja)
WO (1) WO2015167008A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11170768B2 (en) * 2017-04-17 2021-11-09 Samsung Electronics Co., Ltd Device for performing task corresponding to user utterance

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06236196A (ja) * 1993-02-08 1994-08-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法および装置
JP2000081891A (ja) * 1998-09-03 2000-03-21 Seiko Epson Corp 認識対象音声の入力状態報知方法及び音声認識装置並びに認識対象音声の入力状態報知処理プログラムを記録した記録媒体
JP2000322078A (ja) * 1999-05-14 2000-11-24 Sumitomo Electric Ind Ltd 車載型音声認識装置
JP2001042891A (ja) * 1999-07-27 2001-02-16 Suzuki Motor Corp 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体
JP2003148987A (ja) * 2001-11-09 2003-05-21 Mitsubishi Electric Corp ナビゲーション装置
JP2006227499A (ja) * 2005-02-21 2006-08-31 Toyota Motor Corp 音声認識装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
DE19956747C1 (de) * 1999-11-25 2001-01-11 Siemens Ag Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
GB2417812B (en) * 2003-05-08 2007-04-18 Voice Signal Technologies Inc A signal-to-noise mediated speech recognition algorithm
US7480618B2 (en) * 2004-09-02 2009-01-20 Microsoft Corporation Eliminating interference of noisy modality in a multimodal application
JP4786384B2 (ja) * 2006-03-27 2011-10-05 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
US8140325B2 (en) 2007-01-04 2012-03-20 International Business Machines Corporation Systems and methods for intelligent control of microphones for speech recognition applications
US20110166862A1 (en) * 2010-01-04 2011-07-07 Eyal Eshed System and method for variable automated response to remote verbal input at a mobile device
KR101661767B1 (ko) * 2010-08-19 2016-09-30 현대모비스 주식회사 음성을 이용한 사용자 인터페이스를 제공하는 음성인식 방법 및 장치
US20120089392A1 (en) 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
JP5790238B2 (ja) 2011-07-22 2015-10-07 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US9047857B1 (en) * 2012-12-19 2015-06-02 Rawles Llc Voice commands for transitioning between device states
US20140257799A1 (en) * 2013-03-08 2014-09-11 Daniel Shepard Shout mitigating communication device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06236196A (ja) * 1993-02-08 1994-08-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法および装置
JP2000081891A (ja) * 1998-09-03 2000-03-21 Seiko Epson Corp 認識対象音声の入力状態報知方法及び音声認識装置並びに認識対象音声の入力状態報知処理プログラムを記録した記録媒体
JP2000322078A (ja) * 1999-05-14 2000-11-24 Sumitomo Electric Ind Ltd 車載型音声認識装置
JP2001042891A (ja) * 1999-07-27 2001-02-16 Suzuki Motor Corp 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体
JP2003148987A (ja) * 2001-11-09 2003-05-21 Mitsubishi Electric Corp ナビゲーション装置
JP2006227499A (ja) * 2005-02-21 2006-08-31 Toyota Motor Corp 音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3139377A4 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11314214B2 (en) 2017-09-15 2022-04-26 Kohler Co. Geographic analysis of water conditions
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US11892811B2 (en) 2017-09-15 2024-02-06 Kohler Co. Geographic analysis of water conditions
US11921794B2 (en) 2017-09-15 2024-03-05 Kohler Co. Feedback for water consuming appliance
US11949533B2 (en) 2017-09-15 2024-04-02 Kohler Co. Sink device

Also Published As

Publication number Publication date
EP3139377A1 (en) 2017-03-08
KR20160138572A (ko) 2016-12-05
EP3139377A4 (en) 2018-01-10
KR101883414B1 (ko) 2018-07-31
US20170032782A1 (en) 2017-02-02
JPWO2015167008A1 (ja) 2017-04-20
EP3139377B1 (en) 2024-04-10
JP6383409B2 (ja) 2018-08-29
US9870772B2 (en) 2018-01-16

Similar Documents

Publication Publication Date Title
JP6383409B2 (ja) 案内装置、案内方法、プログラム及び情報記憶媒体
JP5955299B2 (ja) 表示制御装置、表示制御方法、プログラム及び情報記憶媒体
KR102111983B1 (ko) 제어 장치, 제어 방법, 및 정보 기억 매체
JP6405316B2 (ja) エンタテインメント装置、表示制御方法、プログラム及び情報記憶媒体
JP6482911B2 (ja) 機器制御方法および電気機器
US20140267933A1 (en) Electronic Device with Embedded Macro-Command Functionality
JP2015509680A (ja) 音声認識を通じる端末機のロック/ロック解除状態を制御する方法及び装置
US10678563B2 (en) Display apparatus and method for controlling display apparatus
JP6229071B2 (ja) 制御装置、制御方法、プログラム及び情報記憶媒体
WO2017020373A1 (zh) 一种终端应用的启动方法及终端
JP6216892B2 (ja) キャプチャ装置、キャプチャ方法、プログラム及び情報記憶媒体
JPWO2019235013A1 (ja) 情報処理装置および情報処理方法
WO2018045882A1 (zh) 控制智能终端应用的软操作键的方法及系统
US20180350359A1 (en) Methods, systems, and media for controlling a media content presentation device in response to a voice command
KR102662558B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
US20140085187A1 (en) Display apparatus and control method thereof
JP2007219600A (ja) マルチモーダル入力装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15785826

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016516421

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2015785826

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015785826

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15303642

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20167030516

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE