WO2016136044A1 - 情報処理システムおよび情報処理方法 - Google Patents

情報処理システムおよび情報処理方法 Download PDF

Info

Publication number
WO2016136044A1
WO2016136044A1 PCT/JP2015/081751 JP2015081751W WO2016136044A1 WO 2016136044 A1 WO2016136044 A1 WO 2016136044A1 JP 2015081751 W JP2015081751 W JP 2015081751W WO 2016136044 A1 WO2016136044 A1 WO 2016136044A1
Authority
WO
WIPO (PCT)
Prior art keywords
output
unit
information
sound
voice recognition
Prior art date
Application number
PCT/JP2015/081751
Other languages
English (en)
French (fr)
Inventor
真一 河野
祐平 滝
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2015033059A external-priority patent/JP2016156877A/ja
Priority claimed from JP2015059566A external-priority patent/JP2016180778A/ja
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP15883334.3A priority Critical patent/EP3264413B1/en
Priority to US15/548,977 priority patent/US10522140B2/en
Publication of WO2016136044A1 publication Critical patent/WO2016136044A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Definitions

  • This disclosure relates to an information processing system and an information processing method.
  • a technique for obtaining a result of speech recognition processing by performing speech recognition processing on sound information collected by a microphone is known.
  • the result of the speech recognition process is output in a manner that can be perceived by the user.
  • the voice recognition process for sound information collected by a microphone can be started with a start operation input from the user as a trigger (see, for example, Patent Document 1).
  • the output control unit is configured to cause the output unit to output a start condition of a voice recognition process performed by the voice recognition unit on the sound information input from the sound collection unit, and the output control unit includes the output control unit, There is provided an information processing system that dynamically changes the start condition of the voice recognition processing to be output to an output unit.
  • the output unit includes outputting a start condition of a voice recognition process performed by the voice recognition unit on the sound information input from the sound collection unit, and causing the output unit to output the sound recognition process.
  • An information processing method including dynamically changing the start condition of the speech recognition process is provided.
  • FIG. 3 is a block diagram illustrating a functional configuration example of an information processing system according to an embodiment of the present disclosure.
  • FIG. It is a figure which shows the example of a screen transition until it detects the starting trigger of a speech recognition process from the display of an initial screen. It is a figure which shows the example of the screen transition after the remaining time until a speech recognition process is started as a start condition until a speech recognition process is started. It is a figure which shows the example of a screen transition after the information regarding user operation required in order to start a speech recognition process is output as a start condition until a speech recognition process is started.
  • the remaining time until the voice recognition process is started is dynamically shortened based on past sound information collected at a predetermined time after the activation trigger is detected in the past until the voice recognition process is started. It is a figure for demonstrating the example to do.
  • the remaining time until the voice recognition process is started is dynamically shortened based on past sound information collected at a predetermined time after the activation trigger is detected in the past until the voice recognition process is started. It is a figure for demonstrating the example to do.
  • the remaining time until the voice recognition process is started is dynamically lengthened based on past sound information collected at a predetermined time after the activation trigger is detected in the past until the voice recognition process is started. It is a figure for demonstrating the example to do.
  • the remaining time until the voice recognition process is started is dynamically lengthened based on past sound information collected at a predetermined time after the activation trigger is detected in the past until the voice recognition process is started. It is a figure for demonstrating the example to do. It is a figure which shows the example of the display information when the remaining time until a speech recognition process is started becomes short. It is a figure which shows the example of the display information when the remaining time until a speech recognition process is started becomes long.
  • Flow of operation for dynamically changing the start condition to be output to the output unit based on past sound information collected in a predetermined time from when the activation trigger is detected in the past to when the voice recognition process is started It is a flowchart which shows the example of.
  • Flow of operation for dynamically changing the start condition to be output to the output unit based on past sound information collected in a predetermined time from when the activation trigger is detected in the past to when the voice recognition process is started It is a flowchart which shows the example of. It is a figure which shows the example of the correspondence of a filler and its audio
  • FIG. 3 is a block diagram illustrating a functional configuration example of an information processing system according to an embodiment of the present disclosure.
  • FIG. It is a figure which shows the example of the screen transition displayed during execution of the speech recognition process from the display of an initial screen. It is a figure for demonstrating the function detail of the information processing system which concerns on embodiment of this indication. It is another figure for demonstrating the function detail of the information processing system which concerns on embodiment of this indication.
  • FIG. 10 is a flowchart illustrating an example of the overall operation flow of the information processing system according to the embodiment of the present disclosure. It is a figure which shows the modification of the display form by an output part. 10 is a flowchart illustrating an example of the overall operation flow of the information processing system according to the embodiment of the present disclosure. It is a figure which shows the modification of the system configuration
  • a plurality of constituent elements having substantially the same functional configuration may be distinguished by adding different numerals after the same reference numerals. However, when it is not necessary to particularly distinguish each of a plurality of constituent elements having substantially the same functional configuration, only the same reference numerals are given.
  • FIG. 1 is a diagram for explaining speech recognition processing in a general system.
  • a voice voice or speech
  • a sound are used separately.
  • the utterance indicates a state in which the user is uttering sound
  • the silence indicates a state in which sound information is collected with a volume smaller than the threshold.
  • system when an operation for selecting a speech recognition start operation object G14A for starting speech recognition processing is input from a user, Such an operation is detected as an activation trigger for the voice recognition process, and a sound collection start screen G91A is displayed (time T91A).
  • the sound collection start screen G91A is displayed, the user starts speaking (time T92A), and the system performs sound recognition processing on the collected sound information while collecting sound with the microphone (S91A).
  • a silent state is started. Then, the system detects a section (hereinafter also referred to as a “silent section”) MaA in which the duration of the sound information collected by the microphone continues to reach a predetermined target time that is below the reference volume. (Time T94A), a predetermined execution operation is executed based on the result of the speech recognition process performed on the sound information collected in the utterance section HaA (S92A).
  • the execution operation based on the result of the speech recognition process is not particularly limited.
  • the execution operation based on the result of the speech recognition process includes an operation of outputting a search result corresponding to a character string as a result of the speech recognition process, an operation of outputting a character string as a result of the speech recognition process, Any one of an operation of outputting the processing result candidate obtained in the process and an operation of outputting a character string for replying to the utterance content extracted from the character string as a result of the speech recognition process may be included.
  • the method of extracting the utterance content from the character string as a result of the speech recognition process is not limited.
  • a technique for extracting utterance contents from a character string as a result of speech recognition processing is performed by performing natural language processing (for example, language analysis, semantic analysis, etc.) on a character string as a result of speech recognition processing.
  • the content may be extracted.
  • the system displays a screen G92A indicating that the execution operation is being processed.
  • the system displays a screen G93A indicating the result of the execution operation.
  • “collar”, “bid”, and “kick” are included in the screen G93A showing the result of the execution operation as a search result corresponding to the character string as the result of the speech recognition process.
  • the voice recognition process is started before the voice recognition process start condition is output. Therefore, when there is a user who considers the utterance content after performing the operation of selecting the voice recognition start operation object G14A, the sound information collected before the start of the utterance is also subject to the voice recognition process. The voice recognition process may be affected.
  • the sound information collected before the start of the utterance there may be fillers or extra utterances uttered by the user.
  • the filler means a word that is sandwiched between the utterances between the utterances, such as “um”, “that”, “well”.
  • noise or the like may exist in the sound information collected before the start of utterance.
  • the noise may mean sound information obtained by excluding a user's voice from sound information input from the sound collection unit 120A.
  • the result of the speech recognition process for the sound information collected before the start of utterance may affect the speech recognition process for the sound information collected after the utterance is started.
  • voice recognition processing is performed based on sound information collected before the start of utterance and a silent section is detected before the start of utterance
  • an execution operation based on the result of the voice recognition processing is started before the start of utterance. There is also a possibility that.
  • the present specification proposes a technique for outputting the start condition of the voice recognition process before the voice recognition process is started. Furthermore, if a certain start condition is output regardless of the situation, it is difficult to start the voice recognition process flexibly according to the situation. Therefore, in the present specification, a technique capable of flexibly starting the speech recognition processing according to the situation is proposed.
  • FIG. 2 is a diagram illustrating a configuration example of the information processing system 10A according to the embodiment of the present disclosure.
  • the information processing system 10A according to the embodiment of the present disclosure includes an image input unit 110A, an operation input unit 115A, a sound collection unit 120A, and an output unit 130A.
  • the information processing system 10A can perform a voice recognition process on a voice uttered by a user UA (hereinafter also simply referred to as “user”).
  • the image input unit 110A has a function of inputting an image.
  • the image input unit 110A includes two cameras embedded in the table TblA.
  • the number of cameras included in the image input unit 110A is not particularly limited as long as it is one or more. In such a case, the position where each of the one or more cameras included in the image input unit 110A is provided is not particularly limited.
  • the one or more cameras may include a monocular camera or a stereo camera.
  • the operation input unit 115A has a function of inputting an operation of the user UA.
  • the operation input unit 115A includes one camera suspended from the ceiling that exists above the table TblA.
  • the position where the camera included in the operation input unit 115A is provided is not particularly limited.
  • the camera may include a monocular camera or a stereo camera.
  • the operation input unit 115A may not be a camera as long as it has a function of inputting the operation of the user U.
  • the operation input unit 115A may be a touch panel or a hardware button.
  • the output unit 130A has a function of displaying a screen on the table TblA.
  • the output unit 130A is suspended from the ceiling above the table TblA.
  • the position where the output unit 130A is provided is not particularly limited.
  • the output unit 130A may be a projector capable of projecting a screen onto the top surface of the table TblA.
  • the output unit 130A may be a display of another form. May be.
  • the display surface of the screen may be other than the top surface of the table TblA.
  • the display surface of the screen may be a wall, a building, a floor surface, the ground, or a ceiling.
  • the display surface of the screen may be a non-planar surface such as a curtain fold, or may be a surface in another place.
  • the output unit 130A has a display surface
  • the display surface of the screen may be the display surface of the output unit 130A.
  • the sound collection unit 120A has a function of collecting sound.
  • the sound collection unit 120A includes a total of six microphones including three microphones existing above the table TblA and three microphones existing on the upper surface of the table TblA.
  • the number of microphones included in the sound collection unit 120A is not particularly limited as long as it is one or more. In such a case, the position where each of the one or more microphones included in the sound collection unit 120A is provided is not particularly limited.
  • the arrival direction of the sound can be estimated based on sound information collected by each of the plurality of microphones. If the sound collection unit 120A includes a microphone having directivity, the direction of arrival of sound can be estimated based on sound information collected by the microphone having directivity.
  • FIG. 3 is a block diagram illustrating a functional configuration example of the information processing system 10A according to the embodiment of the present disclosure.
  • an information processing system 10A according to an embodiment of the present disclosure includes an image input unit 110A, an operation input unit 115A, a sound collection unit 120A, an output unit 130A, and an information processing device 140A (hereinafter referred to as “information processing device 140A”). , Also referred to as “control unit 140 ⁇ / b> A”).
  • the information processing apparatus 140A executes control of each unit of the information processing system 10A. For example, the information processing apparatus 140A generates information output from the output unit 130A. Further, for example, the information processing apparatus 140A reflects information input by the image input unit 110A, the operation input unit 115A, and the sound collection unit 120A in information output from the output unit 130A. As shown in FIG. 3, the information processing apparatus 140A includes an input image acquisition unit 141A, a sound information acquisition unit 142A, an operation detection unit 143A, a recognition control unit 144A, a voice recognition unit 145A, and an output control unit 146A. With. Details of these functional blocks will be described later.
  • the information processing apparatus 140A may be configured by, for example, a CPU (Central Processing Unit).
  • a CPU Central Processing Unit
  • the processing device can be configured by an electronic circuit.
  • FIG. 4 is a diagram illustrating an example of screen transition from the display of the initial screen to the detection of the activation trigger for the voice recognition process.
  • the output control unit 146A displays an initial screen G10-1A.
  • a recognition field which is a display column for a voice recognition start operation object G14A for starting voice recognition processing and a character string obtained by the voice recognition processing (hereinafter also referred to as “recognized character string”).
  • a character string display field G11A is included.
  • the initial screen G10-1A includes a delete all operation object G12A for deleting all recognized character strings and a confirm operation object G13A for confirming recognized character strings.
  • the initial screen G10-1A also includes a forward movement operation object G15A for returning the cursor position in the recognized character string to the front, a backward movement operation object G16A for moving the cursor position in the recognized character string backward, and a character at the cursor position.
  • a deletion operation object G17A for deleting a word is included.
  • the operation is detected by the operation detection unit 143A as a start trigger of the voice recognition process.
  • the output control unit 146A outputs a voice recognition process start condition when a voice recognition process activation trigger is detected.
  • an operation for selecting the speech recognition start operation object G14A will be described as an example as a start trigger for the speech recognition process, but the start trigger for the speech recognition process is not limited to this example.
  • the activation trigger for the speech recognition process may be an operation of pressing a hardware button for activating the speech recognition process.
  • the voice recognition process may be started between the start of pressing the hardware button and the release of pressing (Push To Talk type).
  • the activation trigger for the voice recognition process may be an execution of a voice recognition process activation command (for example, an utterance “voice”).
  • the voice recognition process activation trigger is a predetermined voice recognition process activation gesture (for example, raising a hand, swinging a hand down, moving a face (for example, nodding, tilting the face to the left or right, etc.)). May be.
  • the activation trigger of the voice recognition process may include that the sound information whose voice likelihood exceeds the threshold is acquired from the sound collection unit 120A.
  • FIG. 5 is a diagram showing an example of screen transition from when the remaining time until the voice recognition process is started as a start condition until the voice recognition process is started.
  • the output control unit 146A starts outputting the remaining time notification screen G21-1A (time T11A).
  • the remaining time notification screen G21-1A includes a remaining time G23-1A until the voice recognition process is started and a cancel object G22A for stopping the output of the start condition.
  • the output control unit 146A decreases the remaining time G23-1A as time elapses. For example, the output control unit 146A causes the remaining time notification screen G21-2A including the remaining time G23-2A after being reduced from the remaining time G23-1A to be output. Subsequently, when the remaining time until the voice recognition process is started becomes zero and the start condition is satisfied (time T12A), the output control unit 146A stops outputting the start condition (time T13A). When the output of the start condition is stopped, the user starts speaking toward the sound collection unit 120A (time T14A).
  • the output control unit 146A displays a predetermined object (hereinafter also referred to as “display object”) MuA.
  • the display object MuA may be stationary or may have movement.
  • the moving direction DeA of the display object MuA may be determined according to the arrival direction from the sound source of the uttered voice by the user to the sound collection unit 120A.
  • the estimation method of the arrival direction of the uttered voice by the user is not particularly limited.
  • the recognition control unit 144A utters one arrival direction that matches or is similar to the finger direction (for example, the direction from the base of the finger to the fingertip) of the user who performed the operation of selecting the voice recognition start operation object G14A. It may be estimated as the voice arrival direction. The similarity range may be determined in advance.
  • the finger direction may be obtained by analyzing the input image.
  • the recognition control unit 144A may estimate the arrival direction of the sound input by the sound collection unit 120A as the arrival direction of the uttered voice by the user.
  • the arrival direction of the sound input first among the plurality of arrival directions may be estimated as the arrival direction of the uttered voice by the user.
  • One arrival direction that matches or is similar to the direction of the finger of the user who has performed the operation of selecting the recognition start operation object G14A may be estimated as the arrival direction of the uttered voice by the user.
  • the recognition control unit 144A may estimate the arrival direction of the sound input by the sound collecting unit 120A at the highest volume among the plurality of arrival directions as the arrival direction of the uttered voice by the user. In this way, the arrival direction of the uttered voice by the user can be estimated.
  • the recognition control unit 144A may acquire the sound input by the sound collection unit 120A from a direction other than the arrival direction of the uttered voice by the user as noise. Therefore, the noise may include an output sound from the information processing system 10A.
  • FIG. 5 shows an example in which the output control unit 146A moves the display object MuA in the direction of arrival of the uttered voice (movement direction DeA) by the user.
  • movement direction DeA movement direction
  • the user can intuitively understand that his / her speech is being collected by the sound collection unit 120A.
  • the movement of the display object MuA is not limited to such movement.
  • FIG. 5 shows an example in which the movement destination of the display object MuA is the voice recognition start operation object G14A.
  • the movement destination of the display object MuA is not limited to this example.
  • FIG. 5 shows an example in which the output control unit 146A moves the circular display object MuA that appears one after another according to the sound collection by the sound collection unit 120A.
  • the display mode of the display object MuA is shown. Is not limited to such an example.
  • the output control unit 146A may control various parameters of the display object MuA based on predetermined information corresponding to the sound information (for example, sound quality, sound volume, etc. of the sound information).
  • the sound information used at this time may be sound information from the direction of arrival of the uttered voice by the user.
  • the parameter of the display object MuA may include at least one of the shape, transparency, color, size, and movement of the display object MuA.
  • a technique described in a patent document Japanese Patent Laid-Open No. 2010-38943 can be employed as a technique for evaluating the likelihood of sound from sound information.
  • a method for evaluating the likelihood of sound from sound information a method described in a patent document (Japanese Patent Laid-Open No. 2007-328228) can be adopted.
  • the speech likelihood evaluation is performed by the output control unit 146A, but the speech likelihood evaluation may be performed by a server (not shown).
  • the recognition control unit 144A causes the voice recognition unit 145A to start voice recognition processing on the sound information acquired by the sound information acquisition unit 142A.
  • the timing for starting the speech recognition process is not limited.
  • the recognition control unit 144A may cause the voice recognition unit 145A to start after the sound information whose voice likelihood exceeds a predetermined threshold is collected, or the display object MuA reaches the voice recognition start operation object G14A. Then, the voice recognition unit 145A may start the voice recognition process for the sound information corresponding to the display object MuA.
  • cancellation object G22A when a user wants to cancel the start of a speech recognition process.
  • the operation is input as an output stop operation by the operation input unit 115A, and the output detection operation is detected by the operation detection unit 143A.
  • the output control unit 146A stops the output of the start condition.
  • the example in which the remaining time until the voice recognition process is started is output as the start condition.
  • information related to a user operation necessary for starting the speech recognition process is output as a start condition.
  • FIG. 6 is a diagram illustrating an example of screen transition from when information related to a user operation necessary for starting the voice recognition process is output as a start condition until the voice recognition process is started.
  • the output control unit 146A starts outputting the utterance start confirmation screen G24-1A (time T11A).
  • the utterance start confirmation screen G24-1A includes a speech recognition processing start object G25-1A and a cancellation object G22A as information related to user operations necessary for starting the speech recognition processing.
  • the operation is input by the operation input unit 115A and detected by the operation detection unit 143A.
  • the output control unit 146A stops outputting the start condition (time T13A).
  • the output of the start condition is stopped, the user starts speaking toward the sound collection unit 120A (time T14A). Subsequent operations can be executed in the same manner as in the example in which the remaining time until the voice recognition process already described is started is output as the start condition.
  • the example in which the information related to the user operation necessary for starting the voice recognition process is output as the start condition has been described.
  • the user collects sound information (for example, filler and extra utterances) collected before the start of utterance as shown in FIG. 5 and FIG. It is possible to reduce the influence on the recognition process.
  • the output control unit 146A dynamically changes the start condition of the voice recognition process to be output to the output unit 130A.
  • the voice recognition process can be started flexibly according to the situation.
  • the output control unit 146A may dynamically change the start condition of the speech recognition process to be output to the output unit 130A based on predetermined information.
  • Specified information is not particularly limited.
  • First, an example will be described in which the start condition to be output to the output unit 130A is dynamically changed based on sound information input from the sound collection unit 120A after the activation trigger for the speech recognition process is detected.
  • FIG. 7 is a diagram for explaining an example in which the start condition is dynamically changed based on the sound information input from the sound collection unit 120A after the activation trigger for the speech recognition process is detected.
  • the operation detection unit 143A As shown in FIG. 7, when an operation for selecting the voice recognition start operation object G14A by the user is input by the operation input unit 115A, the operation is detected by the operation detection unit 143A as a start trigger of the voice recognition process (time). T10A).
  • the output control unit 146A causes the output unit 130A to output based on the first type of sound information included in the sound information input from the sound collection unit 120A. To change dynamically.
  • the first type of sound information is not particularly limited.
  • the first type of sound information may include at least noise. This is because the noise may interfere with the voice recognition process for the user's utterance.
  • the description will be continued by taking as an example the case where the first type of sound information is noise.
  • the output control unit 146A preferably changes the start condition to information related to user operation necessary for starting the speech recognition process.
  • the output control unit 146A may output the utterance start confirmation screen G24-1A when the noise level exceeds the first threshold value n1A.
  • the speech start confirmation screen G24-1A includes a speech recognition processing start object G25-1A and a cancellation object G22A as information related to user operations necessary for starting the speech recognition processing. Yes.
  • the operation is input by the operation input unit 115A and detected by the operation detection unit 143A.
  • the output control unit 146A stops outputting the start condition (time T13A). The subsequent operation is as described above.
  • the output control unit 146A starts at the remaining time until the voice recognition process is started when the volume of the noise is lower than the first threshold value n1A and the noise level is higher than the second threshold value n2A. It is better to change the conditions.
  • the remaining time notification screen G21-1A includes a remaining time G23-1A until the voice recognition process is started and a cancellation object G22A for stopping the output of the start condition.
  • the output control unit 146A stops outputting the start condition (time T13A). The start condition output is stopped. The subsequent operation is as described above.
  • the output control unit 146A omits outputting the start condition to the output unit 130A when the noise level falls below the second threshold value n2A.
  • the noise level when the noise level is equal to the first threshold value n1A, it is handled in the same manner as when the noise level is equal to or lower than the first threshold value n1A and when the noise level is equal to or higher than the second threshold value n2A. However, it may be handled in the same manner as when the noise level exceeds the first threshold value n1A. Further, in the above, when the noise level is equal to the second threshold value n2A, it is handled in the same manner as when the noise level is equal to or lower than the first threshold value n1A and when the noise level is equal to or higher than the second threshold value n2A. However, it may be handled in the same manner as when the noise level is lower than the second threshold value n2A.
  • the output control unit 146A may cause the output unit 130A to output predetermined display information as a start condition.
  • 8 and 9 are diagrams illustrating an example in which display information is output to the output unit 130A as a start condition.
  • FIG. 8 shows an example in which the display contents gradually appear in the voice recognition start operation object G14A (time T31A to time T36A).
  • FIG. 9 shows an example in which the color of the voice recognition start operation object G14A is gradually changed (time T41A to time T46A).
  • the output control unit 146A may cause the output unit 130A to output predetermined audio information as a start condition.
  • 10 and 11 are diagrams illustrating an example in which audio information is output to the output unit 130A as a start condition.
  • FIG. 10 shows an example in which voice information notifying the start timing (time T54A) of voice recognition processing is output from time T51A to time T54A.
  • FIG. 11 shows an example in which voice information that informs the start timing (time T64A) of the voice recognition process is output from time T61A to time T64A.
  • the start condition to be output to the output unit 130A is dynamically determined based on the sound information input from the sound collection unit 120A after the activation trigger of the voice recognition process is detected.
  • the operation flow to be changed will be described.
  • the flowcharts of FIGS. 12 and 13 dynamically change the start condition to be output to the output unit 130A based on the sound information input from the sound collection unit 120A after the activation trigger of the speech recognition process is detected. Since this is merely an example of the flow of operation, the flow of such operation is not limited to the examples shown in the flowcharts of FIGS.
  • the operation detection unit 143A detects the activation trigger for the voice recognition processing (S11A), and the sound information v1A is input from the sound collection unit 120A (S12A). Subsequently, the output control unit 146A dynamically determines the start condition of the speech recognition process based on the noise (S13A).
  • the details of the operation for dynamically determining the start condition of the speech recognition process based on noise will be described with reference to FIG.
  • the output control unit 146A acquires the sound information v1A (S131A), and when the noise level of the sound information v1A exceeds the threshold value n1A (“Yes” in S132A), the modal UI (in the above example, the utterance start) It is determined to output the confirmation screen G24-1A) (S133A).
  • the output control unit 146A proceeds to S134A, and if the noise level of the sound information v1A is lower than the threshold value n2A (in S134A) “Yes”), it is determined not to output the start condition (S135A), and if the noise level of the sound information v1A does not fall below the threshold value n2A (“No” in S134A), the timer UI (remaining time notification screen G21- 1A) is determined to be output (S136A).
  • the output control unit 146A shifts the operation to S18A.
  • the output control unit 146A outputs the start condition (S15A).
  • the operation detection unit 143A detects the output stop trigger of the start condition (S16A).
  • the output stop trigger of the start condition can include an operation that the start condition is satisfied and an operation of selecting the cancel object G22A for stopping the output of the start condition.
  • the output control unit 146A stops outputting the start condition. If the start condition is not satisfied (“No” in S17A), the voice recognition unit 145A ends the operation without starting the voice recognition process (S19A). On the other hand, when the start condition is satisfied (“Yes” in S17A), the voice recognition unit 145A starts the voice recognition process (S18A).
  • FIGS. 14 and 15 show the time until the voice recognition process is started based on the past sound information collected at a predetermined time after the activation trigger is detected in the past until the voice recognition process is started. It is a figure for demonstrating the example which shortens remaining time dynamically.
  • the operation is used as a start trigger for the speech recognition process. It is detected by the operation detection unit 143A (time T10A).
  • the output control unit 146A starts accumulating the sound information input from the sound collection unit 120A and starts outputting the remaining time notification screen G21-1A (time T11A).
  • the remaining time notification screen G21-1A includes the remaining time G23-1A until the voice recognition process is started and the cancel object G22A for stopping the output of the start condition.
  • the output control unit 146A decreases the remaining time G23-1A as time elapses. For example, the output control unit 146A causes the remaining time notification screen G21-2A including the remaining time G23-2A after being reduced from the remaining time G23-1A to be output. Subsequently, when the remaining time until the voice recognition process is started becomes zero and the start condition is satisfied (time T12A), the output control unit 146A stops outputting the start condition (time T13A).
  • the output control unit 146A ends the accumulation of the sound information input from the sound collection unit 120A.
  • the sound information accumulated in this way is used as the past sound information in the next speech recognition process.
  • the user starts speaking toward the sound collection unit 120A (time T14A). Subsequent operations can be executed in the same manner as in the example in which the remaining time until the voice recognition process already described is started is output as the start condition.
  • the operation detection unit 143A detects the activation trigger (time T10A).
  • the output control unit 146A acquires the accumulated past sound information, starts accumulating the sound information input from the sound collecting unit 120A, and displays the remaining time notification screen
  • the output of G21-1A is started (time T11A).
  • the output control unit 146A dynamically changes the start condition to be output to the output unit 130A based on the second type of sound information included in the past sound information.
  • the second type of sound information is not particularly limited.
  • the second type of sound information may include at least noise. This is because the noise may interfere with the voice recognition process for the user's utterance.
  • the description will be continued by taking as an example the case where the second type of sound information is noise.
  • the noise level was lower than the threshold until the start condition output was stopped after the start trigger of the speech recognition processing was detected.
  • the noise level at the time of the first voice recognition process acquired at the time of the second voice recognition process is smaller than the threshold value.
  • the output control unit 146A shortens the remaining time until the voice recognition process to be output as the start condition is started compared to the time of the first voice recognition process.
  • the output control unit 146A sets the remaining time G23-1A until the voice recognition process is started as “3” seconds in the first voice recognition process.
  • the time is shortened to “1” seconds.
  • the remaining time G23-1A until the voice recognition process is started is immediately shortened during the second voice recognition process, but the state where the noise level is smaller than the threshold value continues several times.
  • the remaining time G23-1A until the voice recognition process is started may be shortened.
  • the operation starts the speech recognition process. It is detected by the operation detection unit 143A as a trigger (time T10A).
  • the output control unit 146A starts accumulating the sound information input from the sound collection unit 120A during the accumulated second speech recognition process (time T11A).
  • the noise level is lower than the threshold until the start condition output is stopped after the start trigger of the speech recognition process is detected.
  • the noise level at the time of the second day speech recognition processing acquired at the time of the third speech recognition processing is smaller than the threshold value.
  • the output control unit 146A shortens the remaining time until the voice recognition process to be output as the start condition is started compared to the time of the voice recognition process on the second day.
  • the output control unit 146A sets the remaining time G23-1A until the voice recognition process is started as “1” seconds at the time of the voice recognition process on the second day.
  • the output of the remaining time notification screen G21-1A is omitted.
  • the output of the remaining time notification screen G21-1A is immediately omitted at the time of the third speech recognition process.
  • the output of the notification screen G21-1A may be omitted.
  • FIG. 16 and FIG. 17 show the time until the voice recognition process is started based on the past sound information collected at a predetermined time after the activation trigger is detected in the past until the voice recognition process is started. It is a figure for demonstrating the example which lengthens remaining time dynamically.
  • the operation is used as a start trigger for the speech recognition process. It is detected by the operation detection unit 143A (time T10A).
  • the output control unit 146A starts accumulating the sound information input from the sound collection unit 120A and starts outputting the remaining time notification screen G21-1A (time T11A). . Subsequent operations can be executed in the same manner as in the example in which the remaining time until the voice recognition process already described is started is output as the start condition.
  • the operation detection unit 143A detects the activation trigger (time T10A).
  • the output control unit 146A acquires the accumulated past sound information, starts accumulating the sound information input from the sound collecting unit 120A, and displays the remaining time notification screen
  • the output of G21-1A is started (time T11A).
  • the noise level was larger than the threshold until the start condition output was stopped after the start trigger of the speech recognition processing was detected.
  • the noise level at the time of the first voice recognition process acquired at the time of the second voice recognition process is larger than the threshold value.
  • the output control unit 146A makes the remaining time until the voice recognition process to be output as the start condition is started longer than that in the first voice recognition process.
  • the output control unit 146A sets the remaining time G23-1A until the voice recognition process is started as “3” seconds at the time of the first voice recognition process.
  • the second speech recognition process it is set to “5” seconds.
  • the remaining time G23-1A until the voice recognition process is started is immediately increased during the second voice recognition process, but the state in which the noise level is larger than the threshold value continues several times. For the first time, the remaining time G23-1A until the voice recognition process is started may be longer.
  • the operation is activated by the speech recognition process. It is detected by the operation detection unit 143A as a trigger (time T10A).
  • the output control unit 146A starts accumulating the sound information input from the sound collection unit 120A during the accumulated second speech recognition process (time T11A).
  • the noise level is higher than the threshold until the start condition output is stopped after the start trigger of the speech recognition process is detected.
  • the noise level at the time of the voice recognition process on the second day acquired at the time of the third voice recognition process is larger than the threshold value.
  • the output control unit 146A makes the remaining time until the voice recognition process to be output as the start condition is started longer than that in the voice recognition process on the second day.
  • the output control unit 146A sets the remaining time G23-1A until the voice recognition process is started as “5” seconds at the time of the voice recognition process on the second day.
  • the utterance start confirmation screen G24-2A is output.
  • the utterance start confirmation screen G24-2A is immediately output at the time of the third speech recognition process.
  • the utterance start confirmation screen is not displayed until the state where the noise level is greater than the threshold value is continued a plurality of times.
  • G24-2A may be output.
  • the remaining time until the voice recognition process is started may change.
  • the output unit 130A is based on past sound information collected in a predetermined time from when the activation trigger is detected in the past until the voice recognition process is started.
  • the flow of the operation for dynamically changing the start condition to be output to will be described.
  • the flowcharts of FIGS. 20 and 21 are output to the output unit 130A based on past sound information collected in a predetermined time after the activation trigger is detected in the past until the voice recognition process is started. Since this is merely an example of an operation flow for dynamically changing the starting condition to be performed, the operation flow is not limited to the examples shown in the flowcharts of FIGS. 20 and 21.
  • the operation detection unit 143A detects the activation trigger of the voice recognition process (S21A). Further, if there is past sound information h1A, the output control unit 146A acquires the past sound information h1 (S22A), and starts acquiring the sound information v1A from the sound collection unit 120A (S23A). Subsequently, the output control unit 146A dynamically determines the start condition of the speech recognition process according to the past sound information h1A (S24A).
  • the details of the operation for dynamically determining the start condition of the speech recognition process based on the past sound information h1A will be described with reference to FIG.
  • the output control unit 146A acquires the past sound information h1A (S241A), and acquires the timeout value t1A (in the above example, the remaining time G23-1A until the voice recognition process is started) (S242A). . Subsequently, when the volume of the past sound information h1A exceeds the threshold value m1A (“Yes” in S243A), the output control unit 146A shifts the operation to S244A. On the other hand, when the volume of the past sound information h1A does not exceed the threshold value m1A (“No” in S243A), the output control unit 146A shifts the operation to S248A.
  • the output control unit 146A When the operation is shifted to S244A, the output control unit 146A, when the timeout value t1A exceeds the threshold value t_maxA (“Yes” in S244A), the modal UI (in the above example, the utterance start confirmation screen G24- 1A) is output (S245A), and if the timeout value t1A does not exceed the threshold value t_maxA (“No” in S244A), the timeout value t1A is increased (S246A), and the timeout value t1A is set. It is determined to output the timer UI (in the above, the remaining time notification screen G21-1A) (S247A).
  • the output control unit 146A determines not to output the start condition when the timeout value t1A is lower than the threshold value t_minA (“Yes” in S248A) (S251A). If the timeout value t1A is not less than the threshold value t_minA (“No” in S248A), the timeout value t1A is decreased (S249A), and the timer UI (the remaining time notification screen G21 in the above) is set with the timeout value t1A. -1A) is determined to be output (S247A).
  • the output control unit 146A shifts the operation to S30A.
  • the output control unit 146A outputs the start condition (S26A).
  • the operation detection unit 143A detects the output stop trigger of the start condition (S27A).
  • the output stop trigger of the start condition can include an operation that the start condition is satisfied and an operation of selecting the cancel object G22A for stopping the output of the start condition.
  • the output control unit 146A stops outputting the start condition, and stores the continuously acquired sound information v1A as past sound information h1A (S28A). If the start condition is not satisfied (“No” in S29A), the voice recognition unit 145A ends the operation without starting the voice recognition process (S31A). On the other hand, when the start condition is satisfied (“Yes” in S29A), the voice recognition unit 145A starts the voice recognition process (S30A).
  • the start condition to be output to the output unit 130A is dynamically changed based on the past sound information collected in a predetermined time from when the activation trigger is detected in the past until the voice recognition process is started. An example was explained.
  • FIG. 22 is a diagram illustrating an example of a correspondence relationship between a filler and its speech waveform. As shown in FIG. 22, information in which fillers and their speech waveforms are associated with each other is stored in advance. When the voice waveform is included in the sound information input from the sound collection unit 120A, a filler corresponding to the voice waveform is acquired as a result of the voice recognition process.
  • FIG. 23 is a diagram for explaining an example in which the operation is different depending on whether or not the sound information input from the sound collection unit 120A includes a filler.
  • the output control unit 146A starts outputting the remaining time notification screen G21-1A (time T11A).
  • the recognition control unit 144A starts accumulating sound information input from the sound collection unit 120A.
  • the recognition control unit 144A determines whether the recognition result of the sound information P1A accumulated until the start condition is satisfied is a filler. If it is a filler, the voice recognition process is performed by the voice recognition unit 145A by excluding P1A accumulated until the start condition is satisfied from the sound information P2A accumulated so far. On the other hand, if the recognition result is not a filler, the recognition control unit 144A performs the speech recognition processing without excluding P1A accumulated until the start condition is satisfied from the sound information P2A accumulated up to the present time. To do. Further, when the start condition is satisfied (time T12A), the output control unit 146A stops outputting the start condition (time T13A). The subsequent operation is as described above.
  • the output control unit 146A may dynamically change the start condition to be output to the output unit 130A based on the number of arrival directions of sound information whose sound quality exceeds a threshold value to the sound collection unit 120A. This is because if the number of directions of arrival of sound information whose sound quality exceeds the threshold exceeds the predetermined value, the speech recognition process may be difficult.
  • the output control unit 146A may output the utterance start confirmation screen G24-1A when the number of arrival directions of sound information whose sound quality exceeds the threshold exceeds the predetermined value. Good. Further, the output control unit 146A may cause the remaining time notification screen G21-1A to be output when the number of arrival directions of sound information whose sound quality exceeds the threshold value to the sound collection unit 120A is equal to or less than a predetermined value. .
  • the predetermined value is not limited, but may be “1”.
  • FIG. 24 is a diagram illustrating a first modification of the configuration of the information processing system 10A.
  • the output unit 130A may be included in the mobile terminal.
  • the kind of portable terminal is not specifically limited, A tablet terminal may be sufficient, a smart phone may be sufficient, and a mobile phone may be sufficient.
  • the output unit 130A may be a television device
  • the information processing device 140A may be a game machine
  • the operation input unit 115A may be a controller that operates the game machine.
  • the sound collection unit 120A and the output unit 130A may be connected to the operation input unit 115A.
  • the image input unit 110A and the sound collection unit 120A may be connected to the information processing apparatus 140A.
  • the operation input unit 115A, the sound collection unit 120A, and the output unit 130A may be provided in a smartphone connected to the information processing apparatus 140A.
  • the sound collecting unit 120A may be provided in a television apparatus.
  • FIGS. 29 to 32 are diagrams showing a third modification of the configuration of the information processing system 10A.
  • the information processing system 10A may be mounted on an in-vehicle navigation system that can be attached to an automobile and used by a user UA who is driving the automobile.
  • the information processing system 10A may be mounted on a mobile terminal and used by a user UA who is driving a car.
  • the type of mobile terminal is not particularly limited.
  • the image input unit 110A, the operation input unit 115A, and the output unit 130A are provided by a mobile terminal, and the sound collection unit 120A is a user UA. It may be a microphone that can be attached to the body.
  • the information processing system 10A may be mounted on a vehicle-mounted navigation system built in a vehicle and used by a user UA who is driving the vehicle.
  • FIG. 33 is a block diagram illustrating a hardware configuration example of the information processing system 10A according to the embodiment of the present disclosure.
  • the information processing system 10A includes a CPU (Central Processing unit) 901A, a ROM (Read Only Memory) 903A, and a RAM (Random Access Memory) 905A.
  • the information processing system 10A may include a host bus 907A, a bridge 909A, an external bus 911A, an interface 913A, an input device 915A, an output device 917A, a storage device 919A, a drive 921A, a connection port 923A, and a communication device 925A.
  • the information processing system 10A may include an imaging device 933A and a sensor 935A as necessary.
  • the information processing system 10A may include a processing circuit called a DSP (Digital Signal Processor) or ASIC (Application Specific Integrated Circuit) instead of or in addition to the CPU 901A.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • the CPU 901A functions as an arithmetic processing unit and a control unit, and controls the overall operation or a part of the information processing system 10A according to various programs recorded in the ROM 903A, the RAM 905A, the storage device 919A, or the removable recording medium 927A.
  • the ROM 903A stores programs used by the CPU 901A, calculation parameters, and the like.
  • the RAM 905A temporarily stores programs used in the execution of the CPU 901A, parameters that change as appropriate during the execution, and the like.
  • the CPU 901A, the ROM 903A, and the RAM 905A are connected to each other by a host bus 907A configured by an internal bus such as a CPU bus. Further, the host bus 907A is connected to an external bus 911A such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 909A.
  • PCI Peripheral Component Interconnect / Interface
  • the input device 915A is a device operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever.
  • the input device 915A may include a microphone that detects a user's voice.
  • the input device 915A may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device 929A such as a mobile phone corresponding to the operation of the information processing system 10A.
  • the input device 915A includes an input control circuit that generates an input signal based on information input by the user and outputs the input signal to the CPU 901A. The user operates the input device 915A to input various data and instruct processing operations to the information processing system 10A.
  • an imaging device 933A described later can also function as an input device by imaging a user's hand movement, a user's finger, and the like. At this time, the pointing position may be determined according to the movement of the hand or the direction of the finger.
  • the output device 917A is a device that can notify the user of the acquired information visually or audibly.
  • the output device 917A includes, for example, a display device such as an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL (Electro-Luminescence) display, a projector, a hologram display device, an audio output device such as a speaker and headphones, As well as a printer device.
  • the output device 917A outputs the result obtained by the processing of the information processing system 10A as video such as text or an image, or outputs it as audio such as voice or sound.
  • the output device 917A may include a light or the like to brighten the surroundings.
  • the storage device 919A is a data storage device configured as an example of a storage unit of the information processing system 10A.
  • the storage device 919A includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919A stores programs executed by the CPU 901A, various data, various data acquired from the outside, and the like.
  • the drive 921A is a reader / writer for a removable recording medium 927A such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and is built in or externally attached to the information processing system 10A.
  • the drive 921A reads information recorded on the attached removable recording medium 927A and outputs the information to the RAM 905A.
  • the drive 921A writes a record in the mounted removable recording medium 927A.
  • connection port 923A is a port for directly connecting the device to the information processing system 10A.
  • the connection port 923A may be, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or the like.
  • the connection port 923A may be an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, or the like.
  • Various data can be exchanged between the information processing system 10A and the external connection device 929A by connecting the external connection device 929A to the connection port 923A.
  • the communication device 925A is a communication interface configured with, for example, a communication device for connecting to the communication network 931A.
  • the communication device 925A can be, for example, a communication card for wired or wireless LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 925A may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various communication.
  • the communication device 925A transmits and receives signals and the like with a predetermined protocol such as TCP / IP with the Internet and other communication devices, for example.
  • the communication network 931A connected to the communication device 925A is a wired or wireless network, such as the Internet, home LAN, infrared communication, radio wave communication, or satellite communication.
  • the imaging device 933A uses various members such as an imaging element such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor) and a lens for controlling the formation of a subject image on the imaging element. It is an apparatus that images a real space and generates a captured image.
  • the imaging device 933A may capture a still image or may capture a moving image.
  • the sensor 935A is various sensors such as an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, and a sound sensor.
  • the sensor 935A acquires information about the state of the information processing system 10A itself, such as the attitude of the housing of the information processing system 10A, and information about the surrounding environment of the information processing system 10A, such as brightness and noise around the information processing system 10A.
  • the sensor 935A may include a GPS sensor that receives a GPS (Global Positioning System) signal and measures the latitude, longitude, and altitude of the device.
  • GPS Global Positioning System
  • Each component described above may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Such a configuration can be appropriately changed according to the technical level at the time of implementation.
  • An information processing system 10A is provided that includes a control unit 146A, and the output control unit 146A dynamically changes a start condition of a speech recognition process to be output to the output unit 130A. According to such a configuration, it is possible to flexibly start the voice recognition process according to the situation.
  • the speech recognition process can be started after the user determines the utterance content. Further, according to such a configuration, it is possible to exclude noise included in the collected sound information from the target of speech recognition processing. In addition, the success rate of the speech recognition process can be improved by presenting the user with the start conditions of the speech recognition process.
  • the output unit 130A may be a display provided in a wearable terminal (for example, a watch, glasses, etc.) other than the head mounted display.
  • the output unit 130A may be a display used in the healthcare field.
  • the output control unit 146A generates display control information for causing the output unit 130A to display the display content, and outputs the generated display control information to the output unit 130A, whereby the display content is displayed on the output unit 130A.
  • the output unit 130A can be controlled.
  • the contents of the display control information may be changed as appropriate according to the system configuration.
  • the program for realizing the information processing apparatus 140A may be a web application.
  • the display control information may be realized by a markup language such as HTML (HyperText Markup Language), SGML (Standard Generalized Markup Language), XML (Extensible Markup Language), or the like.
  • the position of each component is not particularly limited as long as the operation of the information processing system 10A described above is realized.
  • the image input unit 110A, the operation input unit 115A, the sound collection unit 120A, the output unit 130A, and the information processing device 140A may be provided in different devices connected via a network.
  • the information processing apparatus 140A corresponds to a server such as a web server or a cloud server, for example, and the image input unit 110A, the operation input unit 115A, the sound collection unit 120A, and the output unit 130A are connected to the server. It may correspond to a client connected via
  • the constituent elements of the information processing apparatus 140A may not be accommodated in the same apparatus.
  • some of the input image acquisition unit 141A, the sound information acquisition unit 142A, the operation detection unit 143A, the recognition control unit 144A, the voice recognition unit 145A, and the output control unit 146A are part of the information processing device 140A. May be present on different devices.
  • the voice recognition unit 145A is a server different from the information processing apparatus 140A including the input image acquisition unit 141A, the sound information acquisition unit 142A, the operation detection unit 143A, the recognition control unit 144A, and the output control unit 146A. May be present.
  • An output control unit that causes the output unit to output a start condition of voice recognition processing performed by the voice recognition unit on the sound information input from the sound collecting unit;
  • the output control unit dynamically changes the start condition of the voice recognition processing to be output to the output unit;
  • Information processing system (2)
  • the output control unit causes the output unit to output the start condition when a start trigger of the voice recognition process is detected.
  • the information processing system according to (1) (3)
  • the information processing system includes a recognition control unit that causes the voice recognition unit to start the voice recognition processing when the start condition is satisfied.
  • the output control unit stops the output of the start condition when the start condition is satisfied or when an output stop operation of the start condition is detected,
  • the output control unit dynamically changes the start condition of the voice recognition processing to be output to the output unit based on predetermined information.
  • the output control unit dynamically changes the start condition to be output to the output unit based on sound information input from the sound collection unit after the activation trigger is detected.
  • the output control unit dynamically changes the start condition to be output to the output unit based on the first type of sound information included in the sound information input from the sound collection unit.
  • the output control unit changes the start condition to information related to a user operation necessary to start the voice recognition process when the volume of the first type of sound information exceeds a first threshold.
  • the information processing system according to (7). The output control unit changes the start condition to a remaining time until the voice recognition process is started when a volume of the first type of sound information is lower than the first threshold.
  • the information processing system according to (8). (10) The output control unit omits outputting the start condition to the output unit when the volume of the sound information of the first type is lower than a second threshold value that is smaller than the first threshold value;
  • the first type of sound information includes at least noise.
  • the output control unit sets the start condition to be output to the output unit based on past sound information collected at a predetermined time from when the activation trigger is detected in the past to when the voice recognition process is started. Change dynamically, The information processing system according to (6). (13) The output control unit dynamically changes the start condition to be output to the output unit based on the second type of sound information included in the past sound information. The information processing system according to (12). (14) When the volume of the second type of sound information exceeds a threshold, the output control unit determines the remaining time until the voice recognition process to be output as the start condition is started at the time of the previous voice recognition process. Longer than, The information processing system according to (13).
  • the output control unit uses the remaining time until the voice recognition process to be output as the start condition is started as the previous voice recognition process. Shorter than time, The information processing system according to (14).
  • the second type of sound information includes at least noise.
  • the output control unit dynamically changes the start condition to be output to the output unit based on the number of arrival directions of sound information whose sound quality exceeds a threshold value to the sound collection unit.
  • the output control unit causes the output unit to output at least one of predetermined display information and predetermined audio information as the start condition.
  • the recognition control unit starts speech recognition processing before the start condition is satisfied, and when the start condition is satisfied, if the filler is included in the result of the speech recognition processing, it corresponds to the filler. Causing the voice recognition unit to start voice recognition processing on the sound information after the part to be removed is excluded.
  • a predetermined execution operation is executed based on the recognition result of the voice recognition processing performed on the sound collection information.
  • An information processing apparatus includes an output control unit that causes the output unit to output a start condition.
  • the speech recognition unit starts a predetermined execution operation based on the recognition result of the speech recognition process performed by the speech recognition unit on the collected sound information collected by the sound collection unit.
  • An information processing method is provided that includes causing an output unit to output a start condition for the output.
  • the voice recognition unit starts a predetermined execution operation based on the recognition result of the voice recognition process performed by the voice recognition unit on the collected sound information collected by the sound collection unit.
  • a program for causing an information processing apparatus to include an output control unit that causes the output unit to output a start condition for output.
  • a technique is provided that allows the user to easily grasp the timing at which the execution operation is started.
  • the above effects are not necessarily limited, and any of the effects shown in the present specification, or other effects that can be grasped from the present specification, together with or in place of the above effects. May be played.
  • FIG. 34 is a diagram for explaining speech recognition processing in a general system.
  • an utterance indicates a state in which the volume of collected sound information is larger than a threshold value.
  • silence indicates a state where sound is collected with a volume of collected sound information that is lower than a threshold.
  • voice recognition processing is performed while collecting sound (S101B).
  • a screen G91B indicating that sound is being collected is displayed.
  • a silent section hereinafter also referred to as a “silent section”
  • a silent section detection notification is made from the system (S103B).
  • a predetermined execution operation is executed based on the recognition result of the voice recognition process performed on the collected sound information collected in the utterance section HaB.
  • the execution operation based on the recognition result of the voice recognition processing is not particularly limited.
  • the execution operation based on the recognition result of the speech recognition processing includes an operation for outputting a search result corresponding to a character string of the recognition result, an operation for outputting a character string of the recognition result, and a recognition result obtained in the recognition result recognition process. Any one of an operation of outputting a candidate and an operation of outputting a character string for replying to the utterance content extracted from the character string of the recognition result may be included.
  • the method for extracting the utterance content from the recognition result character string is not limited.
  • the utterance content is extracted by performing natural language processing (for example, language analysis, semantic analysis, etc.) on the recognition result character string. Good.
  • a screen G92B indicating that the execution operation process is in progress is displayed.
  • the system notifies the voice recognition process end (S105B).
  • a screen G93B showing the result of the execution operation is displayed.
  • Screen G93B showing the result of the execution operation includes “collar”, “bid”, and “kick” as search results corresponding to the character string of the recognition result.
  • FIG. 35 is another diagram for explaining speech recognition processing in a general system.
  • the user may not be aware of the switching.
  • the execution operation may start before the sound actually spoken by the user is collected. . Furthermore, it may be difficult for the user to grasp the timing of the switching.
  • the user may utter (speech section HbB).
  • speech section HbB the cancellation of the silent state is detected (S111B), the silent state cancellation notification is made (S112B), and the screen G91B indicating that the sound is being collected continues to be displayed, but the voice uttered in the utterance section HbB is executed. Loss of opportunity that may not be reflected in After that, when the user stops speaking, the silent section MbB is detected (S104B), and the same operation is similarly performed when the silent section is detected.
  • FIG. 36 is a diagram illustrating a configuration example of the information processing system 10B according to the embodiment of the present disclosure.
  • the information processing system 10B according to the embodiment of the present disclosure includes an image input unit 110B, an operation input unit 115B, a sound collection unit 120B, and an output unit 130B.
  • the information processing system 10 ⁇ / b> B can perform voice recognition processing on a voice uttered by a user UB (hereinafter, also simply referred to as “user”). In the following description, a voice (voice or speech) and a sound are used separately.
  • the image input unit 110B has a function of inputting an image.
  • the image input unit 110B includes two cameras embedded in the table TblB.
  • the number of cameras included in the image input unit 110B is not particularly limited as long as it is one or more.
  • the position where each of the one or more cameras included in the image input unit 110B is provided is not particularly limited.
  • the one or more cameras may include a monocular camera or a stereo camera.
  • the operation input unit 115B has a function of inputting a user U operation.
  • the operation input unit 115B includes one camera suspended from the ceiling existing above the table TblB.
  • the position where the camera included in the operation input unit 115B is provided is not particularly limited.
  • the camera may include a monocular camera or a stereo camera.
  • the operation input unit 115B may not be a camera as long as it has a function of inputting the operation of the user UB, and may be a touch panel or a hardware button, for example.
  • the output unit 130B has a function of displaying a screen on the table TblB.
  • the output unit 130B is suspended from the ceiling above the table TblB.
  • the position where the output unit 130B is provided is not particularly limited.
  • the output unit 130B may be a projector capable of projecting a screen onto the top surface of the table TblB.
  • the output unit 130B may be a display of another form. May be.
  • the display surface of the screen may be other than the top surface of the table TblB.
  • the display surface of the screen may be a wall, a building, a floor, a ground, a ceiling, and others It may be the surface at the location.
  • the display surface of the screen may be the display surface of the output unit 130B.
  • the sound collection unit 120B has a function of collecting sound.
  • the sound collection unit 120B includes a total of six microphones including three microphones existing above the table TblB and three microphones existing on the upper surface of the table TblB.
  • the number of microphones included in the sound collection unit 120B is not particularly limited as long as it is one or more. In such a case, the position where each of the one or more microphones included in the sound collection unit 120B is provided is not particularly limited.
  • the arrival direction of the sound can be estimated based on the sound collection information collected by each of the plurality of microphones. Further, if the sound collection unit 120B includes a microphone having directivity, the arrival direction of the sound can be estimated based on sound collection information collected by the microphone having directivity.
  • FIG. 37 is a block diagram illustrating a functional configuration example of the information processing system 10B according to the embodiment of the present disclosure.
  • the information processing system 10B according to the embodiment of the present disclosure includes an image input unit 110B, an operation input unit 115B, a sound collection unit 120B, an output unit 130B, and an information processing device 140B (hereinafter referred to as “information processing device 140B”). , Also referred to as “control unit 140B”).
  • the information processing apparatus 140B executes control of each unit of the information processing system 10B. For example, the information processing apparatus 140B generates information output from the output unit 130B. Further, for example, the information processing apparatus 140B reflects information input by the image input unit 110B, the operation input unit 115B, and the sound collection unit 120B in information output from the output unit 130B. As shown in FIG. 37, the information processing apparatus 140B includes an input image acquisition unit 141B, a sound collection information acquisition unit 142B, an operation detection unit 143B, a recognition control unit 144B, a voice recognition unit 145B, and an output control unit. 146B. Details of these functional blocks will be described later.
  • the information processing device 140B may be configured by, for example, a CPU (Central Processing Unit).
  • a CPU Central Processing Unit
  • the processing device can be configured by an electronic circuit.
  • FIG. 38 is a diagram illustrating an example of screen transition displayed during the execution of the voice recognition process from the initial screen display.
  • the output control unit 146B displays an initial screen G10-1B.
  • the initial screen G10-1B includes a recognition character string that is a display column for a voice recognition start operation object G14B for starting voice recognition, and a character string obtained by voice recognition (hereinafter also referred to as “recognized character string”).
  • a display field G11B is included.
  • the initial screen G10-1B includes a delete all operation object G12B for deleting all recognized character strings and a confirm operation object G13B for confirming recognized character strings.
  • the initial screen G10-1B also includes a moving operation object G15B for returning the cursor position in the recognized character string to the front, a moving operation object G16B for moving the cursor position in the recognized character string backward, and the character or word at the cursor position.
  • Delete operation object G17B for deleting.
  • the output control unit 146B displays the sound collection start screen G10-3B.
  • the output control unit 146B displays the sound collection start screen G10-3B, the user starts speaking toward the sound collection unit 120B.
  • the output control unit 146B displays a predetermined object (hereinafter, “also called “display object.”) MuB is displayed.
  • the display object MuB may be stationary or may have a movement as shown on the screen G10-4B.
  • the moving direction DeB of the display object MuB may be determined according to the arrival direction from the sound source of the uttered voice by the user to the sound collection unit 120B.
  • the estimation method of the arrival direction of the uttered voice by the user is not particularly limited.
  • the recognition control unit 144B utters one arrival direction that matches or is similar to the finger direction (for example, the direction from the base of the finger to the fingertip) of the user who performed the operation of selecting the voice recognition start operation object G14B. It may be estimated as the voice arrival direction. The similarity range may be determined in advance.
  • the finger direction may be obtained by analyzing the input image.
  • the recognition control unit 144B may estimate the arrival direction of the sound input by the sound collection unit 120B as the arrival direction of the uttered voice by the user.
  • the arrival direction of the sound input first among the plurality of arrival directions may be estimated as the arrival direction of the uttered voice by the user.
  • One arrival direction that matches or is similar to the direction of the finger of the user who has performed the operation of selecting the recognition start operation object G14B may be estimated as the arrival direction of the uttered voice by the user.
  • the recognition control unit 144B may estimate the arrival direction of the sound input by the sound collecting unit 120B at the highest volume among the plurality of arrival directions as the arrival direction of the speech voice by the user. In this way, the arrival direction of the uttered voice by the user can be estimated. On the other hand, the recognition control unit 144B may acquire, as noise, sound input by the sound collection unit 120B from a direction other than the arrival direction of the uttered voice by the user.
  • FIG. 38 shows an example in which the output control unit 146B moves the display object MuB in the direction of arrival of the uttered voice by the user (movement direction DeB).
  • the user can intuitively grasp that his / her speech is being collected by the sound collection unit 120B.
  • the movement of the display object MuB is not limited to such movement.
  • FIG. 38 shows an example in which the movement destination of the display object MuB is the voice recognition start operation object G14B.
  • the movement destination of the display object MuB is not limited to this example.
  • FIG. 38 shows an example in which the output control unit 146B moves the circular display objects MuB that appear one after another in response to the sound collection by the sound collection unit 120B, but the display mode of the display object MuB is shown. Is not limited to such an example.
  • the output control unit 146B may control various parameters of the display object MuB based on predetermined information corresponding to the sound collection information (for example, sound quality, sound volume, etc. of the sound collection information).
  • the sound collection information used at this time may be sound collection information from the direction of arrival of the uttered voice by the user.
  • the parameter of the display object MuB may include at least one of the shape, transparency, color, size, and movement of the display object Mu.
  • the recognition control unit 144B causes the voice recognition unit 145B to start voice recognition for the sound collection information acquired by the sound collection information acquisition unit 142B.
  • the timing for starting speech recognition is not limited.
  • the recognition control unit 144B may cause the voice recognition unit 145B to start voice recognition for the sound collection information corresponding to the display object MuB after the display object MuB reaches the voice recognition start operation object G14B.
  • FIG. 39 is a diagram for describing functional details of the information processing system 10B according to the embodiment of the present disclosure. As shown in FIG. 39, when the user starts speaking and collected sound information whose sound quality exceeds a predetermined threshold is collected, the speech recognition process is started, and the output control unit 146B displays the display object MuB. (Time T10B).
  • the output control unit 146B causes the output unit 130B to output the start of the duration (eg, timeout bar G21-1B) (time T12B). Then, the output control unit 146B causes the output unit 130B to output a start condition for the execution operation to be started by the voice recognition unit 145B (time T13B). According to this configuration, the user can easily grasp the timing at which the execution operation is started.
  • the start condition information regarding the remaining time until the duration of silence reaches the target time may be displayed.
  • the information regarding the remaining time may include a display object (timeout bar G21-2B) indicating the ratio of the remaining time to the target time.
  • the information regarding the remaining time may include the remaining time itself.
  • the start condition may include information related to a user operation necessary for starting the execution operation.
  • the output control unit 146B starts the start condition as shown in the timeout bar G21-3B. Is updated (time T14B). At this time, sound quality may be taken into consideration. That is, the output control unit 146B may update the start condition when new sound collection information whose sound quality exceeds a predetermined sound quality is not collected before the silent duration reaches the target time.
  • the output control unit 146B stops the output of the start condition (timeout bar G21-4B) by the output unit 130B (time T15B), The output unit 130B is made to output that the silent duration has reached the target time (time T16B).
  • “Please wait” is displayed on the speech recognition start operation object G22B.
  • the recognition control unit 144B causes the voice recognition unit 145B to perform voice recognition processing, but causes the voice recognition unit 145B to start an execution operation when the duration of silence has reached the target time.
  • FIG. 40 is another diagram for describing the functional details of the information processing system 10B according to the embodiment of the present disclosure.
  • the example shown in FIG. 40 is different from the example shown in FIG. 39 in that new sound collection information whose sound volume exceeds the reference sound volume is collected before the silent duration reaches the target time. is there.
  • the user resumes speaking (time T21B), and the output control unit 146B collects new sound collection information whose volume exceeds the reference volume before the silent duration has reached the target time.
  • time T22B the output of the start condition (timeout bar G21-3B) is stopped.
  • the output control unit 146B determines that the start condition (time-out bar G21-3B) is detected when new sound collection information whose sound quality exceeds the predetermined sound quality is collected before the silent duration has reached the target time. ) May be stopped.
  • the output control unit 146B displays the display object MuB.
  • the output control unit 146B does not have to output the start condition to the output unit 130B when the target time is shorter than the predetermined reference time. Further, the output control unit 146B may control the length of the remaining time according to the amount of the recognition result. For example, it is considered that the result of the speech recognition process becomes unsuitable for the execution operation based on the recognition result of the speech recognition process as the amount increases. Therefore, the output control unit 146B may shorten the remaining time as the result of the voice recognition process increases.
  • the output control unit 146B may cause the output unit 130B to output predetermined display information as a start condition.
  • 41 and 42 are diagrams illustrating an example in which display information is output to the output unit 130B as a start condition.
  • FIG. 41 shows an example in which the display contents included in the speech recognition start operation object G14B are gradually deleted.
  • FIG. 42 shows an example in which the color of the voice recognition start operation object G14B is gradually changed.
  • the output control unit 146B may cause the output unit 130B to output predetermined display information as a start condition.
  • 43 and 44 are diagrams illustrating an example in which audio information is output to the output unit 130B as a start condition.
  • FIG. 43 shows an example in which voice information notifying the start timing (time T54B) of voice recognition processing is output from time T51B to time T54B.
  • FIG. 44 shows an example in which voice information that informs the start timing (time T64B) of the voice recognition process is output from time T61B to time T64B.
  • FIG. 45 is a flowchart showing an example of the overall operation flow of the information processing system 10B according to the embodiment of the present disclosure. Note that the flowchart of FIG. 45 is merely an example of the overall operation flow of the information processing system 10B according to the embodiment of the present disclosure, and thus the overall operation of the information processing system 10B according to the embodiment of the present disclosure. The flow is not limited to the example shown in the flowchart of FIG.
  • the output control unit 146B When a sound-like sound is detected (S121B), the output control unit 146B outputs that a sound is being input (S122B). When silence is not detected (“No” in S123B), the output control unit 146B shifts the operation to S122B, but when silence is detected (“Yes” in S123B), the output control unit 146B outputs that silence has been detected. (S124B), the start condition of the execution operation is output (S125B).
  • the output control unit 146B stops outputting the start condition (S127B), and shifts the operation to S122B, but no sound-like sound is detected. In this case (“No” in S126B), the start condition is updated and output again (S128B). Subsequently, when the start condition is not satisfied (“No” in S129B), the output control unit 146B shifts the operation to S126B, but when the start condition is satisfied (“Yes” in S129B), The start of the execution operation is output (S130B), and the result of the execution operation is output (S131B).
  • FIG. 46 is a diagram showing a modification of the display form by the output unit 130B.
  • the output unit 130B may be included in the mobile terminal.
  • the kind of portable terminal is not specifically limited, A tablet terminal may be sufficient, a smart phone may be sufficient, and a mobile phone may be sufficient.
  • the output unit 130B is a projector capable of projecting a screen onto the top surface of the table TblB.
  • the configuration of the information processing system 10B is not limited to such an example.
  • 47 to 50 are diagrams showing a first modification of the system configuration of the information processing system 10B.
  • the output unit 130B may be a television device
  • the information processing device 140B may be a game machine
  • the operation input unit 115B may be a controller that operates the game machine.
  • the sound collection unit 120B and the output unit 130B may be connected to the operation input unit 115B.
  • the image input unit 110B and the sound collection unit 120B may be connected to the information processing apparatus 140B.
  • the operation input unit 115B, the sound collection unit 120B, and the output unit 130B may be provided in a smartphone connected to the information processing device 140B.
  • the sound collection unit 120B may be provided in a television device.
  • FIG. 51 is a block diagram illustrating a hardware configuration example of the information processing system 10B according to the embodiment of the present disclosure.
  • the information processing system 10B includes a CPU (Central Processing unit) 901B, a ROM (Read Only Memory) 903B, and a RAM (Random Access Memory) 905B.
  • the information processing system 10B may include a host bus 907B, a bridge 909B, an external bus 911B, an interface 913B, an input device 915B, an output device 917B, a storage device 919B, a drive 921B, a connection port 923B, and a communication device 925B.
  • the information processing system 10B may include an imaging device 933B and a sensor 935B as necessary.
  • the information processing system 10B may include a processing circuit called DSP (Digital Signal Processor) or ASIC (Application Specific Integrated Circuit) instead of or in addition to the CPU 901B.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • the CPU 901B functions as an arithmetic processing unit and a control unit, and controls all or a part of the operation in the information processing system 10B according to various programs recorded in the ROM 903B, the RAM 905B, the storage device 919B, or the removable recording medium 927B.
  • the ROM 903B stores programs used by the CPU 901B, calculation parameters, and the like.
  • the RAM 905B temporarily stores programs used in the execution of the CPU 901B, parameters that change as appropriate during the execution, and the like.
  • the CPU 901B, the ROM 903B, and the RAM 905B are connected to each other by a host bus 907B configured by an internal bus such as a CPU bus. Further, the host bus 907B is connected to an external bus 911B such as a PCI (Peripheral Component Interconnect / Interface) bus via the bridge 909B.
  • PCI Peripheral Component Interconnect / Interface
  • the input device 915B is a device operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever.
  • the input device 915B may include a microphone that detects the user's voice.
  • the input device 915B may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device 929B such as a mobile phone that supports the operation of the information processing system 10B.
  • the input device 915B includes an input control circuit that generates an input signal based on information input by the user and outputs the input signal to the CPU 901B.
  • the user operates the input device 915B to input various data or instruct processing operations to the information processing system 10B.
  • An imaging device 933B described later can also function as an input device by imaging a user's hand movement, a user's finger, and the like. At this time, the pointing position may be determined according to the movement of the hand or the direction of the finger
  • the output device 917B is a device that can notify the user of the acquired information visually or audibly.
  • the output device 917B includes, for example, an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL (Electro-Luminescence) display, a display device such as a projector, a hologram display device, an audio output device such as a speaker and headphones, As well as a printer device.
  • the output device 917B outputs the result obtained by the processing of the information processing system 10B as video such as text or an image, or outputs it as audio such as voice or sound.
  • the output device 917B may include a light or the like to brighten the surroundings.
  • the storage device 919B is a data storage device configured as an example of a storage unit of the information processing system 10B.
  • the storage device 919B includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919B stores programs executed by the CPU 901B, various data, various data acquired from the outside, and the like.
  • the drive 921B is a reader / writer for a removable recording medium 927B such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and is built in or externally attached to the information processing system 10B.
  • the drive 921B reads the information recorded on the mounted removable recording medium 927B and outputs it to the RAM 905B. Further, the drive 921B writes a record to the mounted removable recording medium 927B.
  • connection port 923B is a port for directly connecting the device to the information processing system 10B.
  • the connection port 923B can be, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or the like.
  • the connection port 923B may be an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, or the like.
  • Various data can be exchanged between the information processing system 10B and the external connection device 929B by connecting the external connection device 929B to the connection port 923B.
  • the communication device 925B is a communication interface configured with a communication device for connecting to the communication network 931B, for example.
  • the communication device 925B can be, for example, a communication card for wired or wireless LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 925B may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various communication.
  • the communication device 925B transmits and receives signals and the like using a predetermined protocol such as TCP / IP with the Internet and other communication devices, for example.
  • the communication network 931B connected to the communication device 925B is a wired or wireless network, such as the Internet, home LAN, infrared communication, radio wave communication, or satellite communication.
  • the imaging device 933B uses, for example, various elements such as an imaging element such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor), and a lens for controlling the formation of a subject image on the imaging element. It is an apparatus that images a real space and generates a captured image.
  • the imaging device 933B may capture a still image, or may capture a moving image.
  • the sensor 935B is, for example, various sensors such as an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, and a sound sensor.
  • the sensor 935B acquires information about the state of the information processing system 10B itself, such as the attitude of the information processing system 10B, and information about the surrounding environment of the information processing system 10B, such as brightness and noise around the information processing system 10B. To do.
  • the sensor 935B may include a GPS sensor that receives a GPS (Global Positioning System) signal and measures the latitude, longitude, and altitude of the device.
  • GPS Global Positioning System
  • Each component described above may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Such a configuration can be appropriately changed according to the technical level at the time of implementation.
  • the predetermined execution operation based on the recognition result of the speech recognition process performed by the speech recognition unit 145B on the sound collection information collected by the sound collection unit 120B Is provided with an output control unit 146B that causes the output unit 130B to output a start condition for the voice recognition unit 145B to start. According to this configuration, the user can easily grasp the timing at which the execution operation is started.
  • the display form by the output unit 130B is not limited to the above example.
  • the output unit 130B may be a display provided in a wearable terminal (for example, a watch, glasses, etc.) other than the head mounted display.
  • the output unit 130B may be a display provided in an in-vehicle navigation system.
  • the output unit 130B may be a display used in the healthcare field.
  • the output control unit 146B generates display control information for causing the output unit 130B to display the display content, and outputs the generated display control information to the output unit 130B, so that the display content is displayed on the output unit 130B.
  • the output unit 130B can be controlled.
  • the contents of the display control information may be changed as appropriate according to the system configuration.
  • the program for realizing the information processing apparatus 140B may be a web application.
  • the display control information may be realized by a markup language such as HTML (HyperText Markup Language), SGML (Standard Generalized Markup Language), XML (Extensible Markup Language), or the like.
  • the position of each component is not particularly limited as long as the operation of the information processing system 10B described above is realized.
  • the image input unit 110B, the operation input unit 115B, the sound collection unit 120B, the output unit 130B, and the information processing device 140B may be provided in different devices connected via a network.
  • the information processing apparatus 140B corresponds to a server such as a web server or a cloud server, for example, and the image input unit 110B, the operation input unit 115B, the sound collection unit 120B, and the output unit 130B are connected to the server. It may correspond to a client connected via
  • the input image acquisition unit 141B, the sound collection information acquisition unit 142B, the operation detection unit 143B, the recognition control unit 144B, the voice recognition unit 145B, and the output control unit 146B are part of the information processing device 140B. It may be present in a different device.
  • the voice recognition unit 145B is a server different from the information processing apparatus 140B including the input image acquisition unit 141B, the sound collection information acquisition unit 142B, the operation detection unit 143B, the recognition control unit 144B, and the output control unit 146B. May be present.
  • a start condition for starting a predetermined execution operation by the voice recognition unit based on the recognition result of the voice recognition process performed by the voice recognition unit on the collected sound information collected by the sound collecting unit is set as an output unit.
  • Output control unit to output An information processing apparatus comprising: (2) The information processing apparatus includes a recognition control unit that causes the voice recognition unit to perform the voice recognition process. The information processing apparatus according to (1). (3) The recognition control unit causes the voice recognition unit to start the execution operation when the start condition is satisfied. The information processing apparatus according to (2). (4) The recognition control unit performs the execution operation when the duration of the volume of the sound collection information continuously below a reference volume reaches a predetermined target time after the voice recognition process is started.
  • the information processing apparatus includes information regarding a remaining time until the duration reaches the target time.
  • the information processing apparatus according to (4).
  • the information on the remaining time includes at least one of a predetermined display object indicating the ratio of the remaining time to the target time and the remaining time itself.
  • the information processing apparatus according to (5).
  • the output control unit when the volume of the sound collection information continues from the start of the voice recognition processing and the duration that falls below a reference volume reaches a predetermined target time, the output condition of the start condition by the output unit Stop the output, The information processing apparatus according to (2) or (3).
  • the output control unit causes the output unit to output the start of the duration when the volume of the sound collection information falls below the reference volume after the voice recognition process is started.
  • the information processing apparatus according to any one of (4) to (7).
  • the output control unit updates the start condition output by the output unit when new sound collection information whose volume exceeds the reference volume is not collected before the duration reaches the target time.
  • the information processing apparatus according to any one of (4) to (8).
  • the output control unit determines the start condition output by the output unit when new sound collection information whose sound quality exceeds a predetermined sound quality is not collected before the duration time reaches the target time. Update, The information processing apparatus according to any one of (4) to (8).
  • the output control unit stops output of the start condition by the output unit when new sound collection information whose volume exceeds the reference volume is collected before the duration time reaches the target time. , The information processing apparatus according to any one of (4) to (8). (12) The output control unit outputs the start condition by the output unit when new sound collection information having a sound quality exceeding a predetermined sound quality is collected before the duration time reaches the target time. To stop, The information processing apparatus according to any one of (4) to (8). (13) The output control unit does not cause the output unit to output the start condition when the target time is shorter than a predetermined reference time. The information processing apparatus according to any one of (4) to (12). (14) The output control unit controls the length of the remaining time according to the amount of the recognition result.
  • the information processing apparatus causes the sound recognition processing to be performed on the sound collection information when the sound quality of the sound collection information exceeds a threshold.
  • the information processing apparatus according to any one of (2) to (14).
  • the output control unit causes the output unit to output at least one of predetermined display information and predetermined audio information as the start condition.
  • the information processing apparatus according to any one of (1) to (15).
  • the execution operation includes an operation of outputting a search result corresponding to the character string of the recognition result, an operation of outputting the character string of the recognition result, an operation of outputting a recognition result candidate obtained in the recognition result recognition process, and Including any one of operations for outputting a character string for replying to the utterance content extracted from the character string of the recognition result,
  • the information processing apparatus according to any one of (1) to (16).
  • the start condition includes information related to a user operation necessary to start the execution operation.
  • the information processing apparatus according to any one of (1) to (3).

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供されることが望まれる。 【解決手段】集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、情報処理システムが提供される。

Description

情報処理システムおよび情報処理方法
 本開示は、情報処理システムおよび情報処理方法に関する。
 近年、マイクロフォンによって集音された音情報に対して音声認識処理を施して音声認識処理の結果を得る技術が知られている。音声認識処理の結果は、ユーザに知覚可能な態様によって出力される。例えば、マイクロフォンによって集音された音情報に対する音声認識処理は、ユーザから開始操作が入力されたことをトリガとして開始され得る(例えば、特許文献1参照。)。
特開2004-094077号公報
 ここで、マイクロフォンによって集音された音情報に対する音声認識処理の開始される条件が不変である場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供されることが望まれる。
 本開示によれば、集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、情報処理システムが提供される。
 本開示によれば、集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、情報処理方法が提供される。
 以上説明したように本開示によれば、音声認識処理を状況に応じて柔軟に開始させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
一般的なシステムにおける音声認識処理を説明するための図である。 本開示の実施形態に係る情報処理システムの構成例を示す図である。 本開示の実施形態に係る情報処理システムの機能構成例を示すブロック図である。 初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。 音声認識処理が開始されるまでの残り時間が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。 音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。 音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、開始条件を動的に変更する例を説明するための図である。 開始条件として表示情報を出力部に出力させる例を示す図である。 開始条件として表示情報を出力部に出力させる例を示す図である。 開始条件として音声情報を出力部に出力させる例を示す図である。 開始条件として音声情報を出力部に出力させる例を示す図である。 音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。 音声認識処理の起動トリガが検出された後に集音部から入力された音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。 音声認識処理が開始されるまでの残り時間が短くなった場合における表示情報の例を示す図である。 音声認識処理が開始されるまでの残り時間が長くなった場合における表示情報の例を示す図である。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。 過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部に出力させる開始条件を動的に変更する動作の流れの例を示すフローチャートである。 フィラーとその音声波形との対応関係の例を示す図である。 集音部から入力される音情報にフィラーが含まれているか否かによって動作を異ならせる例を説明するための図である。 情報処理システムの構成の変形例1を示す図である。 情報処理システムの構成の変形例2を示す図である。 情報処理システムの構成の変形例2を示す図である。 情報処理システムの構成の変形例2を示す図である。 情報処理システムの構成の変形例2を示す図である。 情報処理システムの構成の変形例3を示す図である。 情報処理システムの構成の変形例3を示す図である。 情報処理システムの構成の変形例3を示す図である。 情報処理システムの構成の変形例3を示す図である。 情報処理システムのハードウェア構成例を示すブロック図である。 一般的なシステムにおける音声認識処理を説明するための図である。 一般的なシステムにおける音声認識処理を説明するための他の図である。 本開示の実施形態に係る情報処理システムの構成例を示す図である。 本開示の実施形態に係る情報処理システムの機能構成例を示すブロック図である。 初期画面の表示から音声認識処理の実行中に表示される画面遷移の例を示す図である。 本開示の実施形態に係る情報処理システムの機能詳細について説明するための図である。 本開示の実施形態に係る情報処理システムの機能詳細について説明するための他の図である。 開始条件として表示情報を出力部に出力させる例を示す図である。 開始条件として表示情報を出力部に出力させる例を示す図である。 開始条件として音声情報を出力部に出力させる例を示す図である。 開始条件として音声情報を出力部に出力させる例を示す図である。 本開示の実施形態に係る情報処理システムの全体的な動作の流れの例を示すフローチャートである。 出力部による表示形態の変形例を示す図である。 本開示の実施形態に係る情報処理システムの全体的な動作の流れの例を示すフローチャートである。 情報処理システムのシステム構成の変形例を示す図である。 情報処理システムのシステム構成の変形例を示す図である。 情報処理システムのシステム構成の変形例を示す図である。 情報処理システムのハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
 なお、説明は以下の順序で行うものとする。
 0.背景
 1.本開示の実施形態
  1.1.システム構成例
  1.2.機能構成例
  1.3.情報処理システムの機能詳細
  1.4.システム構成の変形例
  1.5.ハードウェア構成例
 2.むすび
 <0.背景>
 まず、図面を参照しながら本開示の実施形態の背景を説明する。図1は、一般的なシステムにおける音声認識処理を説明するための図である。以下の説明において、音声(voiceまたはspeech)と音(sound)とは区別して用いられる。また、発話は、ユーザが音声を発している状態を示し、無音は、閾値よりも小さい音量によって音情報が集音されている状態を示す。
 図1に示すように、一般的なシステム(以下、単に「システム」とも言う。)は、音声認識処理を開始させるための音声認識開始操作オブジェクトG14Aを選択する操作がユーザから入力されると、かかる操作を音声認識処理の起動トリガとして検出し、集音開始画面G91Aを表示する(時刻T91A)。集音開始画面G91Aが表示されると、ユーザは発話を開始し(時刻T92A)、システムはマイクロフォンによって集音しつつ、集音された音情報に対する音声認識処理を行う(S91A)。
 発話区間HaAが終了すると(時刻T93A)、無音状態が開始される。そして、システムは、マイクロフォンによって集音される音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した区間(以下、「無音区間」とも言う。)MaAが検出されると(時刻T94A)、発話区間HaAにおいて集音された音情報に対して施される音声認識処理の結果に基づいて所定の実行動作を実行する(S92A)。
 ここで、音声認識処理の結果に基づく実行動作は特に限定されない。例えば、音声認識処理の結果に基づく実行動作は、音声認識処理の結果としての文字列に応じた検索結果を出力させる動作、音声認識処理の結果としての文字列を出力させる動作、音声認識処理の過程において得られた処理結果候補を出力させる動作、音声認識処理の結果の文字列から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含んでよい。
 ここで、音声認識処理の結果としての文字列から発話内容を抽出する手法は限定されない。例えば、音声認識処理の結果としての文字列から発話内容を抽出する手法は、音声認識処理の結果としての文字列に対して自然言語処理(例えば、言語解析、意味解析など)を施すことによって発話内容が抽出されてよい。
 システムは、実行動作の処理中には、実行動作の処理中である旨を示す画面G92Aを表示する。そして、システムは、実行動作が終了すると(時刻T95A)、実行動作の結果を示す画面G93Aを表示する。図1に示した例においては、実行動作の結果を示す画面G93Aに、音声認識処理の結果としての文字列に応じた検索結果として、「襟」「競り」「蹴り」が含まれている。
 以上に説明したように、一般的なシステムにおいては、音声認識処理の開始条件が出力されないうちに音声認識処理が開始されてしまう。そのため、音声認識開始操作オブジェクトG14Aを選択する操作を行った後に発話内容を考えるユーザが存在した場合などには、発話開始までに集音された音情報も音声認識処理の対象となってしまい、音声認識処理に影響を与えてしまう可能性がある。
 例えば、発話開始までに集音される音情報の中には、ユーザ自身によって発せられるフィラーや余計な発話などが存在し得る。フィラーは、「ええと」「あの」「まあ」などといった言葉のように、発話と発話との合間にユーザによって挟み込まれる言葉を意味する。また、発話開始までに集音される音情報の中には、雑音なども存在し得る。なお、上記したように、雑音は、集音部120Aから入力される音情報からユーザの発する音声を除いた音情報を意味してよい。
 また、発話開始までに集音された音情報に対する音声認識処理の結果が、発話が開始されてから集音された音情報に対する音声認識処理に影響を与えてしまう場合もあり得る。また、発話開始までに集音された音情報に基づいて音声認識処理がなされ、発話開始までに無音区間が検出されてしまった場合、発話開始前に音声認識処理の結果に基づく実行動作が始まってしまう可能性もある。
 そこで、本明細書においては、音声認識処理が開始される前に音声認識処理の開始条件を出力させる技術を提案する。さらに、仮に状況に依らず一定の開始条件を出力させるようにした場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、本明細書においては、音声認識処理を状況に応じて柔軟に開始させることが可能な技術を提案する。
 以上、本開示の実施形態の背景を説明した。
 <1.本開示の実施形態>
 [1.1.システム構成例]
 続いて、図面を参照しながら本開示の実施形態に係る情報処理システム10Aの構成例について説明する。図2は、本開示の実施形態に係る情報処理システム10Aの構成例を示す図である。図2に示したように、本開示の実施形態に係る情報処理システム10Aは、画像入力部110Aと、操作入力部115Aと、集音部120Aと、出力部130Aとを備える。情報処理システム10Aは、ユーザUA(以下、単に「ユーザ」とも言う。)によって発せられた音声に対して音声認識処理を行うことが可能である。
 画像入力部110Aは、画像を入力する機能を有する。図2に示した例では、画像入力部110Aは、テーブルTblAに埋め込まれた2つのカメラを含んでいる。しかし、画像入力部110Aに含まれるカメラの数は1以上であれば特に限定されない。かかる場合、画像入力部110Aに含まれる1以上のカメラそれぞれが設けられる位置も特に限定されない。また、1以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。
 操作入力部115Aは、ユーザUAの操作を入力する機能を有する。図2に示した例では、操作入力部115Aは、テーブルTblAの上方に存在する天井から吊り下げられた1つのカメラを含んでいる。しかし、操作入力部115Aに含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部115AはユーザUの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。
 出力部130Aは、テーブルTblAに画面を表示する機能を有する。図2に示した例では、出力部130Aは、テーブルTblAの上方に天井から吊り下げられている。しかし、出力部130Aが設けられる位置は特に限定されない。また、典型的には、出力部130Aは、テーブルTblAの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。
 なお、本明細書では、テーブルTblAの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルTblAの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよい。あるいは、画面の表示面は、カーテンのヒダなどの非平面であってもよいし、他の場所にある面であってもよい。また、出力部130Aが表示面を有する場合には、画面の表示面は、出力部130Aが有する表示面であってもよい。
 集音部120Aは、集音する機能を有する。図2に示した例では、集音部120Aは、テーブルTblAの上方に存在する3つのマイクロフォンとテーブルTblAの上面に存在する3つのマイクロフォンとの合計6つのマイクロフォンを含んでいる。しかし、集音部120Aに含まれるマイクロフォンの数は1以上であれば特に限定されない。かかる場合、集音部120Aに含まれる1以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。
 ただし、集音部120Aが、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された音情報に基づいて音の到来方向が推定され得る。また、集音部120Aが指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された音情報に基づいて音の到来方向が推定され得る。
 以上、本開示の実施形態に係る情報処理システム10Aの構成例について説明した。
 [1.2.機能構成例]
 続いて、本開示の実施形態に係る情報処理システム10Aの機能構成例について説明する。図3は、本開示の実施形態に係る情報処理システム10Aの機能構成例を示すブロック図である。図3に示したように、本開示の実施形態に係る情報処理システム10Aは、画像入力部110Aと、操作入力部115Aと、集音部120Aと、出力部130Aと、情報処理装置140A(以下、「制御部140A」とも言う。)と、を備える。
 情報処理装置140Aは、情報処理システム10Aの各部の制御を実行する。例えば、情報処理装置140Aは、出力部130Aから出力する情報を生成する。また、例えば、情報処理装置140Aは、画像入力部110A、操作入力部115Aおよび集音部120Aそれぞれが入力した情報を、出力部130Aから出力する情報に反映させる。図3に示したように、情報処理装置140Aは、入力画像取得部141Aと、音情報取得部142Aと、操作検出部143Aと、認識制御部144Aと、音声認識部145Aと、出力制御部146Aとを備える。これらの各機能ブロックについての詳細は、後に説明する。
 なお、情報処理装置140Aは、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてもよい。情報処理装置140AがCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。
 以上、本開示の実施形態に係る情報処理システム10Aの機能構成例について説明した。
 [1.3.情報処理システムの機能詳細]
 続いて、本開示の実施形態に係る情報処理システム10Aの機能詳細について説明する。図4は、初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。図4を参照すると、出力制御部146Aは、初期画面G10-1Aを表示させている。初期画面G10-1Aには、音声認識処理を開始させるための音声認識開始操作オブジェクトG14A、音声認識処理によって得られた文字列(以下、「認識文字列」とも言う。)の表示欄である認識文字列表示欄G11Aが含まれる。
 また、初期画面G10-1Aには、認識文字列を全部削除するための全削除操作オブジェクトG12A、認識文字列を確定するための確定操作オブジェクトG13Aが含まれる。また、初期画面G10-1Aには、認識文字列におけるカーソル位置を前に戻すための前方移動操作オブジェクトG15A、認識文字列におけるカーソル位置を後ろに進めるための後方移動操作オブジェクトG16A、カーソル位置の文字または単語を削除するための削除操作オブジェクトG17Aが含まれる。
 まず、画面G10-2Aに示すように、ユーザによる音声認識開始操作オブジェクトG14Aを選択する操作が操作入力部115Aによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143Aによって検出される(時刻T10A)。出力制御部146Aは、音声認識処理の起動トリガが検出されると、音声認識処理の開始条件を出力させる。なお、ここでは、音声認識処理の起動トリガとして音声認識開始操作オブジェクトG14Aを選択する操作を例に挙げて説明するが、音声認識処理の起動トリガは、かかる例に限定されない。
 例えば、音声認識処理の起動トリガは、音声認識処理を起動するためのハードウェアボタンを押下する操作であってもよい。このとき、音声認識処理は、ハードウェアボタンの押下開始から押下解除までの間に起動されてもよい(Push To Talk型)。あるいは、音声認識処理の起動トリガは、音声認識処理の起動コマンド(例えば、「音声」という発話など)の実行であってもよい。
 あるいは、音声認識処理の起動トリガは、所定の音声認識処理の起動ジェスチャ(例えば、手の振り上げ、手の振り下ろし、顔の動き(例えば、うなずき、左右に顔を傾ける動作など)など)であってもよい。また、音声認識処理の起動トリガは、音声らしさが閾値を上回る音情報が集音部120Aから取得されたことを含んでもよい。
 まず、音声認識処理が開始されるまでの残り時間が開始条件として出力される例を説明する。
 図5は、音声認識処理が開始されるまでの残り時間が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。出力制御部146Aは、音声認識処理の起動トリガが検出されると、残り時間通知画面G21-1Aの出力を開始させる(時刻T11A)。残り時間通知画面G21-1Aには、音声認識処理が開始されるまでの残り時間G23-1Aと開始条件の出力を停止させるための取り消しオブジェクトG22Aとが含まれている。
 続いて、出力制御部146Aは、時間の経過に伴って残り時間G23-1Aを減らしていく。例えば、出力制御部146Aは、残り時間G23-1Aから減らされた後の残り時間G23-2Aを含んだ残り時間通知画面G21-2Aを出力させる。続いて、出力制御部146Aは、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると(時刻T12A)、開始条件の出力を停止させる(時刻T13A)。開始条件の出力が停止されると、ユーザは集音部120Aに向かって発話を開始する(時刻T14A)。
 集音部120Aによって集音された音情報が音情報取得部142Aによって取得されると、出力制御部146Aは、所定のオブジェクト(以下、「表示オブジェクト」とも言う。)MuAを表示させる。表示オブジェクトMuAは、静止していてもよいし、動きを有していてもよい。例えば、表示オブジェクトMuAが動きを有する場合、表示オブジェクトMuAの移動方向DeAは、ユーザによる発話音声の音源から集音部120Aへの到来方向に応じて決まってよい。なお、ユーザによる発話音声の到来方向の推定手法も特に限定されない。
 例えば、認識制御部144Aは、音声認識開始操作オブジェクトG14Aを選択する操作を行ったユーザの指方向(例えば、指の根元から指先への方向)に一致または類似する1の到来方向をユーザによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。
 あるいは、認識制御部144Aは、集音部120Aによって入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち音声認識開始操作オブジェクトG14Aを選択する操作を行ったユーザの指方向に一致または類似する1の到来方向をユーザによる発話音声の到来方向として推定してもよい。
 あるいは、認識制御部144Aは、複数の到来方向のうち集音部120Aによって最も大きな音量で入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。このようにしてユーザによる発話音声の到来方向が推定され得る。一方において、認識制御部144Aは、ユーザによる発話音声の到来方向以外の方向から集音部120Aによって入力された音を雑音として取得してよい。したがって、雑音には、情報処理システム10Aからの出力音も含まれ得る。
 また、図5には、出力制御部146Aが、ユーザによる発話音声の到来方向(移動方向DeA)に表示オブジェクトMuAを移動させる例が示されている。これによって、ユーザは自分の発話音声が集音部120Aによって集音されていることを直感的に把握することが可能となる。しかし、表示オブジェクトMuAの動きは、かかる動きに限定されない。また、図5には、表示オブジェクトMuAの移動先が、音声認識開始操作オブジェクトG14Aである例が示されている。しかし、表示オブジェクトMuAの移動先は、かかる例に限定されない。
 また、図5には、出力制御部146Aが、集音部120Aによる集音に応じて次々と出現した円形状の表示オブジェクトMuAを移動させる例が示されているが、表示オブジェクトMuAの表示態様はかかる例に限定されない。例えば、出力制御部146Aは、音情報に応じた所定の情報(例えば、音情報の音声らしさ、音量など)に基づいて表示オブジェクトMuAの各種パラメータを制御してよい。このときに用いられる音情報は、ユーザによる発話音声の到来方向からの音情報であるとよい。また、表示オブジェクトMuAのパラメータは、表示オブジェクトMuAの形状、透明度、色、サイズおよび動きのうち、少なくともいずれか一つを含んでもよい。
 なお、音情報から音声らしさを評価する手法は特に限定されない。例えば、音情報から音声らしさを評価する手法として、特許文献(特開2010-38943号公報)に記載されている手法を採用することも可能である。また、例えば、音情報から音声らしさを評価する手法として、特許文献(特開2007-328228号公報)に記載されている手法を採用することも可能である。ここでは、音声らしさの評価が、出力制御部146Aによって行われる例を説明するが、音声らしさの評価は、図示しないサーバによって行われてもよい。
 認識制御部144Aは、開始条件が満たされると、音情報取得部142Aによって取得された音情報に対する音声認識処理を音声認識部145Aに開始させる。音声認識処理を開始させるタイミングは限定されない。例えば、認識制御部144Aは、音声らしさが所定の閾値を超える音情報が集音されてから、音声認識部145Aに開始させてもよいし、表示オブジェクトMuAが音声認識開始操作オブジェクトG14Aに到達してから、表示オブジェクトMuAに対応する音情報に対する音声認識処理を音声認識部145Aに開始させてもよい。
 なお、ユーザは音声認識処理の開始を取り消したい場合には、取り消しオブジェクトG22Aを選択すればよい。ユーザが、取り消しオブジェクトG22Aを選択すると、かかる操作は、出力停止操作として操作入力部115Aによって入力され、操作検出部143Aによって出力停止操作が検出される。操作検出部143Aによって出力停止操作が検出されると、出力制御部146Aは、開始条件の出力を停止させる。
 以上、音声認識処理が開始されるまでの残り時間が開始条件として出力される例を説明した。続いて、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力される例を説明する。
 図6は、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力されてから音声認識処理が開始されるまでの画面遷移の例を示す図である。出力制御部146Aは、音声認識処理の起動トリガが検出されると、発話開始確認画面G24-1Aの出力を開始させる(時刻T11A)。発話開始確認画面G24-1Aには、音声認識処理を開始させるために必要なユーザ操作に関する情報としての音声認識処理開始オブジェクトG25-1Aと取り消しオブジェクトG22Aとが含まれている。
 続いて、ユーザによって音声認識処理開始オブジェクトG25-1Aを選択する操作がなされると(発話開始確認画面G24-2A)、その操作が操作入力部115Aによって入力され、操作検出部143Aによって検出される。出力制御部146Aは、音声認識処理開始オブジェクトG25-1Aを選択する操作が検出されて開始条件が満たされると(時刻T12A)、開始条件の出力を停止させる(時刻T13A)。開始条件の出力が停止されると、ユーザは集音部120Aに向かって発話を開始する(時刻T14A)。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。
 以上、音声認識処理を開始させるために必要なユーザ操作に関する情報が開始条件として出力される例を説明した。音声認識処理の開始条件が出力されることによって、ユーザは、図5および図6にも示されるように、発話開始までに集音される音情報(例えば、フィラーや余計な発話など)が音声認識処理に与える影響を低減することが可能となる。
 このようにして開始条件が出力され得るが、開始条件が不変である場合には、音声認識処理を状況に応じて柔軟に開始させることが困難である。そこで、本開示の実施形態において、出力制御部146Aは、出力部130Aに出力させる音声認識処理の開始条件を動的に変更する。かかる構成によって、音声認識処理を状況に応じて柔軟に開始させることが可能となる。例えば、出力制御部146Aは、所定の情報に基づいて、出力部130Aに出力させる音声認識処理の開始条件を動的に変更すればよい。
 所定の情報は特に限定されない。まず、音声認識処理の起動トリガが検出された後に集音部120Aから入力された音情報に基づいて、出力部130Aに出力させる開始条件を動的に変更する例を説明する。図7は、音声認識処理の起動トリガが検出された後に集音部120Aから入力された音情報に基づいて、開始条件を動的に変更する例を説明するための図である。
 図7に示すように、ユーザによる音声認識開始操作オブジェクトG14Aを選択する操作が操作入力部115Aによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143Aによって検出される(時刻T10A)。出力制御部146Aは、音声認識処理の起動トリガが検出されると、集音部120Aから入力された音情報に含まれる第1の種類の音情報に基づいて、出力部130Aに出力させる開始条件を動的に変更する。
 ここで、第1の種類の音情報は特に限定されない。例えば、第1の種類の音情報は、少なくとも雑音を含んでよい。雑音は、ユーザの発話に対する音声認識処理の妨げになる可能性があるからである。ここでは、第1の種類の音情報が雑音である場合を例として説明を続ける。
 一つ目として、雑音の音量(以下、「雑音レベル」とも言う。)が第1の閾値n1Aを上回る場合には、ユーザの発話に対する音声認識処理の成功率は低めであるため、ユーザに音声認識処理の開始タイミングを入力させるのが望ましいと考えられる。そこで、出力制御部146Aは、雑音レベルが第1の閾値n1Aを上回る場合には、音声認識処理を開始させるために必要なユーザ操作に関する情報に開始条件を変更するのがよい。
 より具体的には、出力制御部146Aは、雑音レベルが第1の閾値n1Aを上回る場合には、発話開始確認画面G24-1Aを出力させるのがよい。上記した例と同様に、発話開始確認画面G24-1Aには、音声認識処理を開始させるために必要なユーザ操作に関する情報としての音声認識処理開始オブジェクトG25-1Aと取り消しオブジェクトG22Aとが含まれている。
 続いて、ユーザによって音声認識処理開始オブジェクトG25-1Aを選択する操作がなされると、その操作が操作入力部115Aによって入力され、操作検出部143Aによって検出される。出力制御部146Aは、音声認識処理開始オブジェクトG25-1Aを選択する操作が検出されて開始条件が満たされると(時刻T12A)、開始条件の出力を停止させる(時刻T13A)。以降の動作は、既に説明した通りである。
 二つ目として、雑音レベルが第1の閾値n1A以下である場合、かつ、雑音レベルが(第1の閾値n1Aより小さい)第2の閾値n2A以上である場合には、ユーザの発話に対する音声認識処理の成功率は中程度であるため、所定時間の経過後に自動的に音声認識処理を開始させるのが望ましいと考えられる。そこで、出力制御部146Aは、雑音の音量が第1の閾値n1Aを下回る場合、かつ、雑音レベルが第2の閾値n2Aを上回る場合には、音声認識処理が開始されるまでの残り時間に開始条件を変更するのがよい。
 上記した例と同様に、残り時間通知画面G21-1Aには、音声認識処理が開始されるまでの残り時間G23-1Aと開始条件の出力を停止させるための取り消しオブジェクトG22Aとが含まれている。出力制御部146Aは、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると(時刻T12A)、開始条件の出力を停止させる(時刻T13A)。開始条件の出力が停止される。以降の動作は、既に説明した通りである。
 三つ目として、雑音レベルが第2の閾値n2Aを下回る場合には、ユーザの発話に対する音声認識処理の成功率は高めであるため、開始条件を出力させずに音声認識処理が開始されるのが望ましい。そこで、出力制御部146Aは、雑音レベルが第2の閾値n2Aを下回る場合には、開始条件を出力部130Aに出力させることを省略するのが望ましい。
 なお、上記では、雑音レベルが第1の閾値n1Aと等しい場合は、雑音レベルが第1の閾値n1A以下である場合、かつ、雑音レベルが第2の閾値n2A以上である場合と同様に扱われたが、雑音レベルが第1の閾値n1Aを上回る場合と同様に扱われてもよい。また、上記では、雑音レベルが第2の閾値n2Aと等しい場合は、雑音レベルが第1の閾値n1A以下である場合、かつ、雑音レベルが第2の閾値n2A以上である場合と同様に扱われたが、雑音レベルが第2の閾値n2Aを下回る場合と同様に扱われてもよい。
 出力制御部146Aは、開始条件として所定の表示情報を出力部130Aに出力させてよい。図8および図9は、開始条件として表示情報を出力部130Aに出力させる例を示す図である。図8には、音声認識開始操作オブジェクトG14Aに表示内容を徐々に出現させる例が示されている(時刻T31A~時刻T36A)。また、図9には、音声認識開始操作オブジェクトG14Aの色を徐々に変化させていく例が示されている(時刻T41A~時刻T46A)。
 また、出力制御部146Aは、開始条件として所定の音声情報を出力部130Aに出力させてもよい。図10および図11は、開始条件として音声情報を出力部130Aに出力させる例を示す図である。図10には、時刻T51Aから時刻T54Aまでに、音声認識処理の開始タイミング(時刻T54A)を知らせる音声情報が出力される例が示されている。また、図11には、時刻T61Aから時刻T64Aまでに、音声認識処理の開始タイミング(時刻T64A)を知らせる音声情報が出力される例が示されている。
 続いて、図12および図13を参照しながら、音声認識処理の起動トリガが検出された後に集音部120Aから入力された音情報に基づいて、出力部130Aに出力させる開始条件を動的に変更する動作の流れについて説明する。なお、図12および図13のフローチャートは、音声認識処理の起動トリガが検出された後に集音部120Aから入力された音情報に基づいて、出力部130Aに出力させる開始条件を動的に変更する動作の流れの例に過ぎないため、かかる動作の流れは、図12および図13のフローチャートに示された例に限定されない。
 まず、図12に示すように、操作検出部143Aは、音声認識処理の起動トリガを検出し(S11A)、集音部120Aから音情報v1Aが入力される(S12A)。続いて、出力制御部146Aは、音声認識処理の開始条件を雑音に基づいて動的に決定する(S13A)。ここで、図13を参照しながら、音声認識処理の開始条件を雑音に基づいて動的に決定する動作の詳細を説明する。まず、出力制御部146Aは、音情報v1Aを取得し(S131A)、音情報v1Aの雑音レベルが閾値n1Aを上回る場合には(S132Aにおいて「Yes」)、モーダルUI(上記した例では、発話開始確認画面G24-1A)を出力させることを決定する(S133A)。
 一方、出力制御部146Aは、音情報v1Aの雑音レベルが閾値n1Aを上回らない場合(S132Aにおいて「No」)、S134Aに進み、音情報v1Aの雑音レベルが閾値n2Aを下回る場合には(S134Aにおいて「Yes」)、開始条件を出力させないことを決定し(S135A)、音情報v1Aの雑音レベルが閾値n2Aを下回らない場合には(S134Aにおいて「No」)、タイマUI(残り時間通知画面G21-1A)を出力させることを決定する(S136A)。
 図12に戻って説明を続ける。出力制御部146Aは、開始条件の出力を省略すると決定した場合には(S14Aにおいて「Yes」)、S18Aに動作を移行させる。一方、出力制御部146Aは、開始条件の出力を省略しないと決定した場合には(S14Aにおいて「No」)、開始条件を出力させる(S15A)。その後、操作検出部143Aは、開始条件の出力停止トリガを検出する(S16A)。開始条件の出力停止トリガには、開始条件が満たされたことと開始条件の出力を停止させるための取り消しオブジェクトG22Aを選択する操作とが含まれ得る。
 続いて、出力制御部146Aは、開始条件の出力を停止させる。そして、音声認識部145Aは、開始条件が満たされていない場合には(S17Aにおいて「No」)、音声認識処理を開始させずに(S19A)、動作を終了させる。一方、音声認識部145Aは、開始条件が満たされた場合には(S17Aにおいて「Yes」)、音声認識処理を開始させる(S18A)。
 以上においては、音声認識処理の起動トリガが検出された後に集音部120Aから入力された音情報に基づいて、出力部130Aに出力させる開始条件を動的に変更する例について説明した。
 続いて、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部130Aに出力させる開始条件を動的に変更する例を説明する。図14および図15は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に短くする例を説明するための図である。
 図14の上段に示すように、初回の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトG14Aを選択する操作が操作入力部115Aによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143Aによって検出される(時刻T10A)。出力制御部146Aは、音声認識処理の起動トリガが検出されると、集音部120Aから入力された音情報の蓄積を開始し、残り時間通知画面G21-1Aの出力を開始させる(時刻T11A)。上記したように、残り時間通知画面G21-1Aには、音声認識処理が開始されるまでの残り時間G23-1Aと開始条件の出力を停止させるための取り消しオブジェクトG22Aとが含まれている。
 続いて、出力制御部146Aは、時間の経過に伴って残り時間G23-1Aを減らしていく。例えば、出力制御部146Aは、残り時間G23-1Aから減らされた後の残り時間G23-2Aを含んだ残り時間通知画面G21-2Aを出力させる。続いて、出力制御部146Aは、音声認識処理が開始されるまでの残り時間がゼロになり開始条件が満たされると(時刻T12A)、開始条件の出力を停止させる(時刻T13A)。
 開始条件の出力が停止されると、出力制御部146Aは、集音部120Aから入力された音情報の蓄積を終了する。このようにして蓄積された音情報は、過去の音情報として次回の音声認識処理時に利用される。そして、ユーザは集音部120Aに向かって発話を開始する(時刻T14A)。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。
 続いて、図14の下段に示すように、二回目の音声処理時において、ユーザによる音声認識開始操作オブジェクトG14Aを選択する操作が操作入力部115Aによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143Aによって検出される(時刻T10A)。出力制御部146Aは、音声認識処理の起動トリガが検出されると、蓄積されている過去の音情報を取得し、集音部120Aから入力された音情報の蓄積を開始し、残り時間通知画面G21-1Aの出力を開始させる(時刻T11A)。
 このとき、出力制御部146Aは、過去の音情報に含まれる第2の種類の音情報に基づいて、出力部130Aに出力させる開始条件を動的に変更する。ここで、第2の種類の音情報は特に限定されない。例えば、第2の種類の音情報は、少なくとも雑音を含んでよい。雑音は、ユーザの発話に対する音声認識処理の妨げになる可能性があるからである。ここでは、第2の種類の音情報が雑音である場合を例として説明を続ける。
 ここで、図14の上段にも示すように、初回の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より小さかった場合を想定する。かかる場合、二回目の音声認識処理時において取得される初回の音声認識処理時における雑音レベルは閾値より小さいこととなる。かかる場合には、出力制御部146Aは、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、初回の音声認識処理時よりも短くする。
 より具体的には、図14を参照すると、出力制御部146Aは、音声認識処理が開始されるまでの残り時間G23-1Aを、初回の音声認識処理時においては「3」秒としているのに対し、二回目の音声認識処理時においては「1」秒と短くしている。なお、図14に示した例では、音声認識処理が開始されるまでの残り時間G23-1Aが二回目の音声認識処理時に直ちに短くなっているが、雑音レベルが閾値より小さい状態が複数回続いて初めて、音声認識処理が開始されるまでの残り時間G23-1Aが短くなってもよい。
 続いて、図15に示すように、三回目の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトG14Aを選択する操作が操作入力部115Aによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143Aによって検出される(時刻T10A)。出力制御部146Aは、音声認識処理の起動トリガが検出されると、蓄積されている二回目の音声認識処理時に集音部120Aから入力された音情報の蓄積を開始する(時刻T11A)。
 ここで、図14の下段にも示すように、二回目の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より小さかった場合を想定する。かかる場合、三回目の音声認識処理時において取得される二日目の音声認識処理時における雑音レベルは閾値より小さいこととなる。かかる場合には、出力制御部146Aは、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、二日目の音声認識処理時よりも短くする。
 より具体的には、図15を参照すると、出力制御部146Aは、音声認識処理が開始されるまでの残り時間G23-1Aを、二日目の音声認識処理時においては「1」秒としているのに対し、三回目の音声認識処理時においては、残り時間通知画面G21-1Aの出力を省略している。なお、図15に示した例では、残り時間通知画面G21-1Aの出力が三回目の音声認識処理時に直ちに省略されているが、雑音レベルが閾値より小さい状態が複数回続いて初めて、残り時間通知画面G21-1Aの出力が省略されてもよい。
 続いて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明する。図16および図17は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、音声認識処理が開始されるまでの残り時間を動的に長くする例を説明するための図である。
 図16の上段に示すように、初回の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトG14Aを選択する操作が操作入力部115によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143Aによって検出される(時刻T10A)。出力制御部146Aは、音声認識処理の起動トリガが検出されると、集音部120Aから入力された音情報の蓄積を開始し、残り時間通知画面G21-1Aの出力を開始させる(時刻T11A)。以降の動作は、既に説明した音声認識処理が開始されるまでの残り時間が開始条件として出力される例と同様に実行され得る。
 続いて、図16の下段に示すように、二回目の音声処理時において、ユーザによる音声認識開始操作オブジェクトG14Aを選択する操作が操作入力部115Aによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143Aによって検出される(時刻T10A)。出力制御部146Aは、音声認識処理の起動トリガが検出されると、蓄積されている過去の音情報を取得し、集音部120Aから入力された音情報の蓄積を開始し、残り時間通知画面G21-1Aの出力を開始させる(時刻T11A)。
 ここで、図16の上段にも示すように、初回の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より大きかった場合を想定する。かかる場合、二回目の音声認識処理時において取得される初回の音声認識処理時における雑音レベルは閾値より大きいこととなる。かかる場合には、出力制御部146Aは、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、初回の音声認識処理時よりも長くする。
 より具体的には、図16を参照すると、出力制御部146Aは、音声認識処理が開始されるまでの残り時間G23-1Aを、初回の音声認識処理時においては「3」秒としているのに対し、二回目の音声認識処理時においては「5」秒と長くしている。なお、図16に示した例では、音声認識処理が開始されるまでの残り時間G23-1Aが二回目の音声認識処理時に直ちに長くなっているが、雑音レベルが閾値より大きい状態が複数回続いて初めて、音声認識処理が開始されるまでの残り時間G23-1Aが長くなってもよい。
 続いて、図17に示すように、三回目の音声認識処理時において、ユーザによる音声認識開始操作オブジェクトG14Aを選択する操作が操作入力部115Aによって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143Aによって検出される(時刻T10A)。出力制御部146Aは、音声認識処理の起動トリガが検出されると、蓄積されている二回目の音声認識処理時に集音部120Aから入力された音情報の蓄積を開始する(時刻T11A)。
 ここで、図16の下段にも示すように、二回目の音声認識処理時においては、音声認識処理の起動トリガが検出されてから開始条件の出力が停止されるまで、雑音レベルが閾値より大きかった場合を想定する。かかる場合、三回目の音声認識処理時において取得される二日目の音声認識処理時における雑音レベルは閾値より大きいこととなる。かかる場合には、出力制御部146Aは、開始条件として出力させる音声認識処理が開始されるまでの残り時間を、二日目の音声認識処理時よりも長くする。
 より具体的には、図17を参照すると、出力制御部146Aは、音声認識処理が開始されるまでの残り時間G23-1Aを、二日目の音声認識処理時においては「5」秒としているのに対し、三回目の音声認識処理時においては、発話開始確認画面G24-2Aを出力させている。なお、図17に示した例では、三回目の音声認識処理時に直ちに発話開始確認画面G24-2Aを出力させているが、雑音レベルが閾値より大きい状態が複数回続いて初めて、発話開始確認画面G24-2Aが出力されてもよい。
 ここで、上記したように、音声認識処理が開始されるまでの残り時間は変化し得る。このとき、音声認識処理が開始されるまでの残り時間の変化とともに出力部130Aに出力される表示情報も変化させるのがよい。そうすれば、ユーザにとっても、開始条件が変更されたことを容易に把握することが可能となる。
 図18は、音声認識処理が開始されるまでの残り時間が短くなった場合における表示情報の例を示す図である。図18に示すように、音声認識開始操作オブジェクトG14Aに表示内容を徐々に出現させる例において、出力制御部146Aは、表示内容の出現速度を高くするようにしてもよい(時刻T31A~時刻T33A)。また、図19は、音声認識処理が開始されるまでの残り時間が長くなった場合における表示情報の例を示す図である。図19に示すように、音声認識開始操作オブジェクトG14Aに表示内容を徐々に出現させる例において、出力制御部146Aは、表示内容の出現速度を低くするようにしてもよい(時刻T31A~時刻T38A)。
 続いて、図20および図21を参照しながら、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部130Aに出力させる開始条件を動的に変更する動作の流れについて説明する。なお、図20および図21のフローチャートは、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部130Aに出力させる開始条件を動的に変更する動作の流れの例に過ぎないため、かかる動作の流れは、図20および図21のフローチャートに示された例に限定されない。
 まず、図20に示すように、操作検出部143Aは、音声認識処理の起動トリガを検出する(S21A)。また、出力制御部146Aは、過去の音情報h1Aがあれば過去の音情報h1を取得し(S22A)、集音部120Aから音情報v1Aの取得を開始する(S23A)。続いて、出力制御部146Aは、音声認識処理の開始条件を過去の音情報h1Aに応じて動的に決定する(S24A)。ここで、図21を参照しながら、音声認識処理の開始条件を過去の音情報h1Aに基づいて動的に決定する動作の詳細を説明する。
 まず、出力制御部146Aは、過去の音情報h1Aを取得し(S241A)、タイムアウト値t1A(上記した例では、音声認識処理が開始されるまでの残り時間G23-1A)を取得する(S242A)。続いて、出力制御部146Aは、過去の音情報h1Aの音量が閾値m1Aを上回っている場合には(S243Aにおいて「Yes」)、S244Aに動作を移行させる。一方、出力制御部146Aは、過去の音情報h1Aの音量が閾値m1Aを上回っていない場合には(S243Aにおいて「No」)、S248Aに動作を移行させる。
 S244Aに動作が移行された場合、出力制御部146Aは、タイムアウト値t1Aが閾値t_maxAを上回っている場合には(S244Aにおいて「Yes」)、モーダルUI(上記した例では、発話開始確認画面G24-1A)を出力させることを決定し(S245A)、タイムアウト値t1Aが閾値t_maxAを上回っていない場合には(S244Aにおいて「No」)、タイムアウト値t1Aを増加させ(S246A)、タイムアウト値t1Aが設定されたタイマUI(上記では、残り時間通知画面G21-1A)を出力させることを決定する(S247A)。
 一方、S248Aに動作が移行された場合、出力制御部146Aは、タイムアウト値t1Aが閾値t_minAを下回っている場合には(S248Aにおいて「Yes」)、開始条件を出力させないことを決定し(S251A)、タイムアウト値t1Aが閾値t_minAを下回っていない場合には(S248Aにおいて「No」)、タイムアウト値t1Aを減少させ(S249A)、タイムアウト値t1Aが設定されたタイマUI(上記では、残り時間通知画面G21-1A)を出力させることを決定する(S247A)。
 図20に戻って説明を続ける。出力制御部146Aは、開始条件の出力を省略すると決定した場合には(S25Aにおいて「Yes」)、S30Aに動作を移行させる。一方、出力制御部146Aは、開始条件の出力を省略しないと決定した場合には(S25Aにおいて「No」)、開始条件を出力させる(S26A)。その後、操作検出部143Aは、開始条件の出力停止トリガを検出する(S27A)。開始条件の出力停止トリガには、開始条件が満たされたことと開始条件の出力を停止させるための取り消しオブジェクトG22Aを選択する操作とが含まれ得る。
 続いて、出力制御部146Aは、開始条件の出力を停止させ、継続的に取得した音情報v1Aを過去の音情報h1Aとして保存する(S28A)。そして、音声認識部145Aは、開始条件が満たされていない場合には(S29Aにおいて「No」)、音声認識処理を開始させずに(S31A)、動作を終了させる。一方、音声認識部145Aは、開始条件が満たされた場合には(S29Aにおいて「Yes」)、音声認識処理を開始させる(S30A)。
 以上、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、出力部130Aに出力させる開始条件を動的に変更する例を説明した。
 以上においては、集音部120Aから入力される音情報にフィラーが含まれているか否かに依らずに動作する例を説明したが、集音部120Aから入力される音情報にフィラーが含まれているか否かによって動作を異ならせてもよい。まず、フィラーの例について説明する。図22は、フィラーとその音声波形との対応関係の例を示す図である。図22に示すように、フィラーとその音声波形とが対応付けられてなる情報があらかじめ記憶されている。この音声波形が集音部120Aから入力される音情報に含まれる場合、この音声波形に対応するフィラーが音声認識処理の結果として取得される。
 図23は、集音部120Aから入力される音情報にフィラーが含まれているか否かによって動作を異ならせる例を説明するための図である。出力制御部146Aは、音声認識処理の起動トリガが検出されると、残り時間通知画面G21-1Aの出力を開始させる(時刻T11A)。このとき、認識制御部144Aは、集音部120Aから入力される音情報の蓄積を開始する。
 続いて、認識制御部144Aは、開始条件が満たされると(時刻T12A)、開始条件が満たされるまでに蓄積された音情報P1Aの認識結果がフィラーであるか否かを判断し、認識結果がフィラーである場合、現時点までに蓄積された音情報P2Aから開始条件が満たされるまでに蓄積されたP1Aを除外して音声認識処理を音声認識部145Aに行わせる。一方、認識制御部144Aは、認識結果がフィラーではない場合、現時点までに蓄積された音情報P2Aから開始条件が満たされるまでに蓄積されたP1Aを除外せずに音声認識処理を音声認識部145に行わせる。また、出力制御部146Aは、開始条件が満たされると(時刻T12A)、開始条件の出力を停止させる(時刻T13A)。以降の動作は、既に説明した通りである。
 以上、出力部130Aに出力させる開始条件を動的に変更する例を説明したが、開始条件を動的に変更する例は、上記した例に限定されない。例えば、出力制御部146Aは、音声らしさが閾値を超える音情報の集音部120Aへの到来方向の数に基づいて、出力部130Aに出力させる開始条件を動的に変更してもよい。音声らしさが閾値を超える音情報の集音部120Aへの到来方向の数が所定値を超える場合には、音声認識処理が困難になる可能性があるからである。
 そこで、例えば、出力制御部146Aは、音声らしさが閾値を超える音情報の集音部120Aへの到来方向の数が所定値を超える場合には、発話開始確認画面G24-1Aを出力させてもよい。また、出力制御部146Aは、音声らしさが閾値を超える音情報の集音部120Aへの到来方向の数が所定値以下である場合には、残り時間通知画面G21-1Aを出力させてもよい。所定値は限定されないが、「1」であってもよい。
 以上、本開示の実施形態に係る情報処理システム10Aの機能詳細について説明した。
 [1.4.システム構成の変形例]
 上記においては、出力部130AがテーブルTblAの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、情報処理システム10Aのシステム構成は、かかる例に限定されない。以下では、情報処理システム10Aのシステム構成の変形例について説明する。図24は、情報処理システム10Aの構成の変形例1を示す図である。図24に示すように、情報処理システム10Aが携帯端末である場合に、出力部130Aは、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。
 また、図25~図28は、情報処理システム10Aの構成の変形例2を示す図である。図25~図28に示すように、出力部130Aは、テレビジョン装置であり、情報処理装置140Aは、ゲーム機であり、操作入力部115Aは、ゲーム機を操作するコントローラであってよい。
 また、図25に示すように、集音部120Aおよび出力部130Aは、操作入力部115Aに接続されていてもよい。また、図26に示すように、画像入力部110Aおよび集音部120Aは、情報処理装置140Aに接続されていてもよい。また、図27に示すように、操作入力部115A、集音部120Aおよび出力部130Aは、情報処理装置140Aに接続されたスマートフォンに備えられていてもよい。また、図28に示すように、集音部120Aは、テレビジョン装置に備えられていてもよい。
 また、図29~図32は、情報処理システム10Aの構成の変形例3を示す図である。図29に示すように、情報処理システム10Aは、自動車に取り付け可能な車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザUAによって利用されてもよい。また、図30に示すように、情報処理システム10Aは、携帯端末に搭載され、自動車を運転中のユーザUAによって利用されてもよい。上記したように、携帯端末の種類は特に限定されない。
 また、図31に示すように、情報処理システム10Aのうち、画像入力部110Aと、操作入力部115Aと、出力部130Aとは、携帯端末によって備えられており、集音部120Aは、ユーザUAの身体に取り付け可能なマイクロフォンであってもよい。また、図32に示すように、情報処理システム10Aは、自動車に内蔵されている車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザUAによって利用されてもよい。
 [1.5.ハードウェア構成例]
 次に、図33を参照して、本開示の実施形態に係る情報処理システム10Aのハードウェア構成について説明する。図33は、本開示の実施形態に係る情報処理システム10Aのハードウェア構成例を示すブロック図である。
 図33に示すように、情報処理システム10Aは、CPU(Central Processing unit)901A、ROM(Read Only Memory)903A、およびRAM(Random Access Memory)905Aを含む。また、情報処理システム10Aは、ホストバス907A、ブリッジ909A、外部バス911A、インターフェース913A、入力装置915A、出力装置917A、ストレージ装置919A、ドライブ921A、接続ポート923A、通信装置925Aを含んでもよい。さらに、情報処理システム10Aは、必要に応じて、撮像装置933A、およびセンサ935Aを含んでもよい。情報処理システム10Aは、CPU901Aに代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
 CPU901Aは、演算処理装置および制御装置として機能し、ROM903A、RAM905A、ストレージ装置919A、またはリムーバブル記録媒体927Aに記録された各種プログラムに従って、情報処理システム10A内の動作全般またはその一部を制御する。ROM903Aは、CPU901Aが使用するプログラムや演算パラメータなどを記憶する。RAM905Aは、CPU901Aの実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901A、ROM903A、およびRAM905Aは、CPUバスなどの内部バスにより構成されるホストバス907Aにより相互に接続されている。さらに、ホストバス907Aは、ブリッジ909Aを介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911Aに接続されている。
 入力装置915Aは、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915Aは、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915Aは、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム10Aの操作に対応した携帯電話などの外部接続機器929Aであってもよい。入力装置915Aは、ユーザが入力した情報に基づいて入力信号を生成してCPU901Aに出力する入力制御回路を含む。ユーザは、この入力装置915Aを操作することによって、情報処理システム10Aに対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933Aも、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
 出力装置917Aは、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917Aは、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro-Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917Aは、情報処理システム10Aの処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917Aは、周囲を明るくするためライトなどを含んでもよい。
 ストレージ装置919Aは、情報処理システム10Aの記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919Aは、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919Aは、CPU901Aが実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921Aは、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927Aのためのリーダライタであり、情報処理システム10Aに内蔵、あるいは外付けされる。ドライブ921Aは、装着されているリムーバブル記録媒体927Aに記録されている情報を読み出して、RAM905Aに出力する。また、ドライブ921Aは、装着されているリムーバブル記録媒体927Aに記録を書き込む。
 接続ポート923Aは、機器を情報処理システム10Aに直接接続するためのポートである。接続ポート923Aは、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923Aは、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923Aに外部接続機器929Aを接続することで、情報処理システム10Aと外部接続機器929Aとの間で各種のデータが交換され得る。
 通信装置925Aは、例えば、通信ネットワーク931Aに接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925Aは、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925Aは、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925Aは、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925Aに接続される通信ネットワーク931Aは、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
 撮像装置933Aは、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933Aは、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ935Aは、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935Aは、例えば情報処理システム10Aの筐体の姿勢など、情報処理システム10A自体の状態に関する情報や、情報処理システム10Aの周辺の明るさや騒音など、情報処理システム10Aの周辺環境に関する情報を取得する。また、センサ935Aは、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
 以上、情報処理システム10Aのハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
 <2.むすび>
 以上説明したように、本開示の実施形態によれば、集音部120Aから入力された音情報に対して音声認識部145Aによって施される音声認識処理の開始条件を出力部130Aに出力させる出力制御部146Aを備え、出力制御部146Aは、出力部130Aに出力させる音声認識処理の開始条件を動的に変更する、情報処理システム10Aが提供される。かかる構成によれば、音声認識処理を状況に応じて柔軟に開始させることが可能となる。
 また、かかる構成によれば、音声認識処理の開始前に発話内容をユーザに考えさせることが可能となる。換言すれば、発話内容をユーザに決めさせてから音声認識処理を開始させることが可能となる。また、かかる構成によれば、集音された音情報に含まれる雑音などを音声認識処理の対象から除外することが可能となる。また、音声認識処理の開始条件をユーザに提示することによって、音声認識処理の成功率を向上させることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記においては、情報処理システム10Aのシステム構成例およびシステム構成の変形例を説明したが、情報処理システム10Aのシステム構成例は、これらの例に限定されない。例えば、出力部130Aは、ヘッドマウントディスプレイ以外のウェアラブル端末(例えば、時計、眼鏡など)に備わるディスプレイであってもよい。また、例えば、出力部130Aは、ヘルスケア分野において利用されるディスプレイであってもよい。
 また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した情報処理装置140Aが有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
 また、出力制御部146Aは、出力部130Aに表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部130Aに出力することで、当該表示内容が出力部130Aに表示されるように出力部130Aを制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。
 具体的な一例として、情報処理装置140Aを実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
 なお、上述した情報処理システム10Aの動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部110A、操作入力部115Aおよび集音部120Aと出力部130Aと情報処理装置140Aとは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置140Aが、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部110A、操作入力部115Aおよび集音部120Aと出力部130Aとが当該サーバにネットワークを介して接続されたクライアントに相当し得る。
 また、情報処理装置140Aが有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部141Aと、音情報取得部142Aと、操作検出部143Aと、認識制御部144Aと、音声認識部145Aと、出力制御部146Aとのうち、一部は情報処理装置140Aとは異なる装置に存在していてもよい。例えば、音声認識部145Aは、入力画像取得部141Aと、音情報取得部142Aと、操作検出部143Aと、認識制御部144Aと、出力制御部146Aとを備える情報処理装置140Aとは異なるサーバに存在していてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、
 前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
 情報処理システム。
(2)
 前記出力制御部は、前記音声認識処理の起動トリガが検出された場合に、前記開始条件を前記出力部に出力させる、
 前記(1)に記載の情報処理システム。
(3)
 前記情報処理システムは、前記開始条件が満たされた場合に、前記音声認識処理を前記音声認識部に開始させる認識制御部を備える、
 前記(1)または(2)に記載の情報処理システム。
(4)
 前記出力制御部は、前記開始条件が満たされた場合または前記開始条件の出力停止操作が検出された場合に、前記開始条件の出力を停止させる、
 前記(1)~(3)のいずれか一項に記載の情報処理システム。
(5)
 前記出力制御部は、所定の情報に基づいて、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
 前記(2)に記載の情報処理システム。
(6)
 前記出力制御部は、前記起動トリガが検出された後に前記集音部から入力された音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
 前記(5)に記載の情報処理システム。
(7)
 前記出力制御部は、前記集音部から入力された前記音情報に含まれる第1の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
 前記(6)に記載の情報処理システム。
(8)
 前記出力制御部は、前記第1の種類の音情報の音量が第1の閾値を上回る場合には、前記音声認識処理を開始させるために必要なユーザ操作に関する情報に前記開始条件を変更する、
 前記(7)に記載の情報処理システム。
(9)
 前記出力制御部は、前記第1の種類の音情報の音量が前記第1の閾値を下回る場合には、前記音声認識処理が開始されるまでの残り時間に前記開始条件を変更する、
 前記(8)に記載の情報処理システム。
(10)
 前記出力制御部は、前記第1の種類の音情報の音量が前記第1の閾値より小さい第2の閾値を下回る場合には、前記開始条件を前記出力部に出力させることを省略する、
 前記(8)または(9)に記載の情報処理システム。
(11)
 前記第1の種類の音情報は、少なくとも雑音を含む、
 前記(7)~(10)のいずれか一項に記載の情報処理システム。
(12)
 前記出力制御部は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
 前記(6)に記載の情報処理システム。
(13)
 前記出力制御部は、前記過去の音情報に含まれる第2の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
 前記(12)に記載の情報処理システム。
(14)
 前記出力制御部は、前記第2の種類の音情報の音量が閾値を上回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも長くする、
 前記(13)に記載の情報処理システム。
(15)
 前記出力制御部は、前記第2の種類の音情報の音量が前記閾値を下回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも短くする、
 前記(14)に記載の情報処理システム。
(16)
 前記第2の種類の音情報は、少なくとも雑音を含む、
 前記(13)~(15)のいずれか一項に記載の情報処理システム。
(17)
 前記出力制御部は、音声らしさが閾値を超える音情報の前記集音部への到来方向の数に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
 前記(1)に記載の情報処理システム。
(18)
 前記出力制御部は、前記開始条件として所定の表示情報および所定の音声情報のうち少なくともいずれか一方を前記出力部に出力させる、
 前記(1)~(17)のいずれか一項に記載の情報処理システム。
(19)
 前記認識制御部は、前記開始条件が満たされる前から音声認識処理を開始させ、前記開始条件が満たされた場合に、前記音声認識処理の結果にフィラーが含まれる場合には、前記フィラーに対応する部分が除外された後の音情報に対する音声認識処理を前記音声認識部に開始させる、
 前記(3)に記載の情報処理システム。
(20)
 集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、
 プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、
 情報処理方法。
 続いて、他の実施形態について説明する。説明は以下の順序で行うものとする。
 3.背景
 4.本開示の実施形態
  4.1.システム構成例
  4.2.機能構成例
  4.3.情報処理システムの機能詳細
  4.4.表示形態の変形例
  4.5.システム構成の変形例
  4.6.ハードウェア構成例
 5.むすび
 <3.背景>
 近年、マイクロフォンによって集音された情報(以下、単に「集音情報」とも言う。)に対して音声認識処理を行うことによって認識結果を得る技術が存在する。例えば、ユーザが音声認識処理を停止させるための停止操作のタイミングを誤ったとしても、音声認識処理される集音情報の終端が短くなってしまう可能性を低減する技術が開示されている(例えば、特開2004-94077号公報参照)。
 ここで、集音情報に対して施される音声認識処理の認識結果に基づいて所定の実行動作が実行される。しかし、ユーザは実行動作が開始されるタイミングを把握するのが困難なことがある。そこで、実行動作が開始されるタイミングをユーザに容易に把握させるための技術が提供されることが望まれる。
 本開示によれば、集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させる出力制御部、を備える、情報処理装置が提供される。
 本開示によれば、プロセッサにより、集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させること、を含む、情報処理方法が提供される。
 本開示によれば、コンピュータを、集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させる出力制御部、を備える情報処理装置として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、実行動作が開始されるタイミングをユーザに容易に把握させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
 図34は、一般的なシステムにおける音声認識処理を説明するための図である。以下の説明において、発話は、集音された集音情報の音量が閾値よりも大きい状態を示す。また、無音は、集音された集音情報の音量が閾値よりも小さい音量によって集音されている状態を示す。
 図34に示すように、一般的なシステムにおいて、集音しつつ音声認識処理を行う(S101B)。まず、発話区間HaBにおいては、集音中である旨の画面G91Bが表示される。そして、音声認識処理が開始されてから集音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した区間(以下、「無音区間」とも言う。)が検出されると(S102B)、システムから無音区間検出通知がなされる(S103B)。無音区間検出通知がなされると、発話区間HaBにおいて集音された集音情報に対して施される音声認識処理の認識結果に基づいて所定の実行動作が実行される。
 ここで、音声認識処理の認識結果に基づく実行動作は特に限定されない。例えば、音声認識処理の認識結果に基づく実行動作は、認識結果の文字列に応じた検索結果を出力させる動作、認識結果の文字列を出力させる動作、認識結果の認識過程において得られた認識結果候補を出力させる動作、認識結果の文字列から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含んでよい。認識結果の文字列から発話内容を抽出する手法は限定されないが、例えば、認識結果の文字列に対して自然言語処理(例えば、言語解析、意味解析など)を施すことによって発話内容が抽出されてよい。
 実行動作の処理中には、実行動作の処理中である旨を示す画面G92Bが表示される。そして、音声認識処理が終了すると(S104B)、システムから音声認識処理終了通知がなされる(S105B)。音声認識処理終了通知がなされると、実行動作の結果を示す画面G93Bが表示される。実行動作の結果を示す画面G93Bには、認識結果の文字列に応じた検索結果として、「襟」「競り」「蹴り」が含まれている。
 図35は、一般的なシステムにおける音声認識処理を説明するための他の図である。ここで、図35のようにして、集音中である旨の画面G91Bから実行動作の処理中である旨を示す画面G92Bに切り替わっても、その切り替えにユーザは気づかないこともある。また、ユーザが発話しようとしたときには、集音中である旨の画面G91Bが表示されていても、実際にユーザが発した音声が集音されるまでに、実行動作が始まってしまうこともある。さらに、その切り替えのタイミングをユーザが把握することが難しいこともある。
 そのため、図35に示すように、無音区間MaBが検出されて実行動作が始まっても、ユーザが発話してしまうことがある(発話区間HbB)。その場合、無音状態の解除が検出され(S111B)、無音状態解除通知がなされ(S112B)、集音中である旨の画面G91Bが表示され続けるが、発話区間HbBに発せられた音声は実行動作に反映されないという機会損失が生じ得る。その後、ユーザが発話を止めると、無音区間MbBが検出され(S104B)、同様の動作が無音区間検出時の動作が同様に実行される。
 <4.本開示の実施形態>
 [4.1.システム構成例]
 続いて、図面を参照しながら本開示の実施形態に係る情報処理システム10Bの構成例について説明する。図36は、本開示の実施形態に係る情報処理システム10Bの構成例を示す図である。図36に示したように、本開示の実施形態に係る情報処理システム10Bは、画像入力部110Bと、操作入力部115Bと、集音部120Bと、出力部130Bとを備える。情報処理システム10Bは、ユーザUB(以下、単に「ユーザ」とも言う。)によって発せられた音声に対して音声認識処理を行うことが可能である。なお、以下の説明において、音声(voiceまたはspeech)と音(sound)とは区別して用いられる。
 画像入力部110Bは、画像を入力する機能を有する。図36に示した例では、画像入力部110Bは、テーブルTblBに埋め込まれた2つのカメラを含んでいる。しかし、画像入力部110Bに含まれるカメラの数は1以上であれば特に限定されない。かかる場合、画像入力部110Bに含まれる1以上のカメラそれぞれが設けられる位置も特に限定されない。また、1以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。
 操作入力部115Bは、ユーザUの操作を入力する機能を有する。図36に示した例では、操作入力部115Bは、テーブルTblBの上方に存在する天井から吊り下げられた1つのカメラを含んでいる。しかし、操作入力部115Bに含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部115BはユーザUBの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。
 出力部130Bは、テーブルTblBに画面を表示する機能を有する。図36に示した例では、出力部130Bは、テーブルTblBの上方に天井から吊り下げられている。しかし、出力部130Bが設けられる位置は特に限定されない。また、典型的には、出力部130Bは、テーブルTblBの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。
 なお、本明細書では、テーブルTblBの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルTblBの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよいし、他の場所にある面であってもよい。また、出力部130Bが表示面を有する場合には、画面の表示面は、出力部130Bが有する表示面であってもよい。
 集音部120Bは、集音する機能を有する。図36に示した例では、集音部120Bは、テーブルTblBの上方に存在する3つのマイクロフォンとテーブルTblBの上面に存在する3つのマイクロフォンとの合計6つのマイクロフォンを含んでいる。しかし、集音部120Bに含まれるマイクロフォンの数は1以上であれば特に限定されない。かかる場合、集音部120Bに含まれる1以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。
 ただし、集音部120Bが、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された集音情報に基づいて音の到来方向が推定され得る。また、集音部120Bが指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された集音情報に基づいて音の到来方向が推定され得る。
 以上、本開示の実施形態に係る情報処理システム10Bの構成例について説明した。
 [4.2.機能構成例]
 続いて、本開示の実施形態に係る情報処理システム10Bの機能構成例について説明する。図37は、本開示の実施形態に係る情報処理システム10Bの機能構成例を示すブロック図である。図37に示したように、本開示の実施形態に係る情報処理システム10Bは、画像入力部110Bと、操作入力部115Bと、集音部120Bと、出力部130Bと、情報処理装置140B(以下、「制御部140B」とも言う。)と、を備える。
 情報処理装置140Bは、情報処理システム10Bの各部の制御を実行する。例えば、情報処理装置140Bは、出力部130Bから出力する情報を生成する。また、例えば、情報処理装置140Bは、画像入力部110B、操作入力部115Bおよび集音部120Bそれぞれが入力した情報を、出力部130Bから出力する情報に反映させる。図37に示したように、情報処理装置140Bは、入力画像取得部141Bと、集音情報取得部142Bと、操作検出部143Bと、認識制御部144Bと、音声認識部145Bと、出力制御部146Bとを備える。これらの各機能ブロックについての詳細は、後に説明する。
 なお、情報処理装置140Bは、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてもよい。情報処理装置140BがCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。
 以上、本開示の実施形態に係る情報処理システム10Bの機能構成例について説明した。
 [4.3.情報処理システムの機能詳細]
 続いて、本開示の実施形態に係る情報処理システム10Bの機能詳細について説明する。図38は、初期画面の表示から音声認識処理の実行中に表示される画面遷移の例を示す図である。図38を参照すると、出力制御部146Bは、初期画面G10-1Bを表示させている。初期画面G10-1Bには、音声認識を開始させるための音声認識開始操作オブジェクトG14B、音声認識によって得られた文字列(以下、「認識文字列」とも言う。)の表示欄である認識文字列表示欄G11Bが含まれる。
 また、初期画面G10-1Bには、認識文字列を全部削除するための全削除操作オブジェクトG12B、認識文字列を確定するための確定操作オブジェクトG13Bが含まれる。また、初期画面G10-1Bには、認識文字列におけるカーソル位置を前に戻すための移動操作オブジェクトG15B、認識文字列におけるカーソル位置を後ろに進めるための移動操作オブジェクトG16B、カーソル位置の文字または単語を削除するための削除操作オブジェクトG17Bが含まれる。
 まず、画面G10-2Bに示すように、ユーザが音声認識開始操作オブジェクトG14Bを選択する操作を行い、音声認識開始操作オブジェクトG14Bを選択する操作が操作入力部115Bによって入力されると、操作検出部143Bによって検出され、出力制御部146Bは、集音開始画面G10-3Bを表示させる。出力制御部146Bが集音開始画面G10-3Bを表示させると、ユーザは集音部120Bに向かって発話を開始する。
 集音中画面G10-4Bに示すように、集音部120Bによって集音された集音情報が集音情報取得部142Bによって取得されると、出力制御部146Bは、所定のオブジェクト(以下、「表示オブジェクト」とも言う。)MuBを表示させる。表示オブジェクトMuBは、静止していてもよいし、画面G10-4Bに示したように動きを有していてもよい。例えば、表示オブジェクトMuBが動きを有する場合、表示オブジェクトMuBの移動方向DeBは、ユーザによる発話音声の音源から集音部120Bへの到来方向に応じて決まってよい。なお、ユーザによる発話音声の到来方向の推定手法も特に限定されない。
 例えば、認識制御部144Bは、音声認識開始操作オブジェクトG14Bを選択する操作を行ったユーザの指方向(例えば、指の根元から指先への方向)に一致または類似する1の到来方向をユーザによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。
 あるいは、認識制御部144Bは、集音部120Bによって入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち音声認識開始操作オブジェクトG14Bを選択する操作を行ったユーザの指方向に一致または類似する1の到来方向をユーザによる発話音声の到来方向として推定してもよい。
 あるいは、認識制御部144Bは、複数の到来方向のうち集音部120Bによって最も大きな音量で入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。このようにしてユーザによる発話音声の到来方向が推定され得る。一方において、認識制御部144Bは、ユーザによる発話音声の到来方向以外の方向から集音部120Bによって入力された音をノイズとして取得してよい。
 また、図38には、出力制御部146Bが、ユーザによる発話音声の到来方向(移動方向DeB)に表示オブジェクトMuBを移動させる例が示されている。これによって、ユーザは自分の発話音声が集音部120Bによって集音されていることを直感的に把握することが可能となる。しかし、表示オブジェクトMuBの動きは、かかる動きに限定されない。また、図38には、表示オブジェクトMuBの移動先が、音声認識開始操作オブジェクトG14Bである例が示されている。しかし、表示オブジェクトMuBの移動先は、かかる例に限定されない。
 また、図38には、出力制御部146Bが、集音部120Bによる集音に応じて次々と出現した円形状の表示オブジェクトMuBを移動させる例が示されているが、表示オブジェクトMuBの表示態様はかかる例に限定されない。例えば、出力制御部146Bは、集音情報に応じた所定の情報(例えば、集音情報の音声らしさ、音量など)に基づいて表示オブジェクトMuBの各種パラメータを制御してよい。このときに用いられる集音情報は、ユーザによる発話音声の到来方向からの集音情報であるとよい。また、表示オブジェクトMuBのパラメータは、表示オブジェクトMuの形状、透明度、色、サイズおよび動きのうち、少なくともいずれか一つを含んでもよい。
 なお、集音情報から音声らしさを評価する手法は特に限定されない。例えば、集音情報から音声らしさを評価する手法として、特許文献(特開2010-38943号公報)に記載されている手法を採用することも可能である。また、例えば、集音情報から音声らしさを評価する手法として、特許文献(特開2007-328228号公報)に記載されている手法を採用することも可能である。ここでは、音声らしさの評価が、出力制御部146Bによって行われる例を説明するが、音声らしさの評価は、図示しないサーバによって行われてもよい。
 認識制御部144Bは、集音情報取得部142Bによって取得された集音情報に対する音声認識を音声認識部145Bに開始させる。音声認識を開始させるタイミングは限定されない。例えば、認識制御部144Bは、表示オブジェクトMuBが音声認識開始操作オブジェクトG14Bに到達してから、表示オブジェクトMuBに対応する集音情報に対する音声認識を音声認識部145Bに開始させてよい。
 以上、初期画面の表示から音声認識処理の実行中に表示される画面遷移の例について説明した。図39は、本開示の実施形態に係る情報処理システム10Bの機能詳細について説明するための図である。図39に示すように、ユーザが発話を開始し、音声らしさが所定の閾値を超える集音情報が集音されると、音声認識処理が開始され、出力制御部146Bは、表示オブジェクトMuBを表示させる(時刻T10B)。
 ユーザが発話を終了し(時刻T11B)、無音が検出されると、出力制御部146Bは、継続時間の開始(例えば、タイムアウトバーG21-1B)を出力部130Bに出力させる(時刻T12B)。そして、出力制御部146Bは、実行動作が音声認識部145Bによって開始されるための開始条件を出力部130Bに出力させる(時刻T13B)。かかる構成によれば、実行動作が開始されるタイミングをユーザに容易に把握させることが可能となる。
 開始条件としては、無音の継続時間が目標時間に達するまでの残り時間に関する情報が表示されてもよい。残り時間に関する情報は、図39に示すように、目標時間に対する残り時間の割合を示す表示オブジェクト(タイムアウトバーG21-2B)を含んでもよい。あるいは、残り時間に関する情報は、残り時間自体を含んでもよい。あるいは、開始条件は、実行動作を開始させるために必要なユーザ操作に関する情報を含んでもよい。
 続いて、出力制御部146Bは、無音の継続時間が目標時間に達する前に、音量が基準音量を超える新たな集音情報が集音されない場合、タイムアウトバーG21-3Bに示すように、開始条件を更新する(時刻T14B)。このとき、音声らしさが考慮されてもよい。すなわち、出力制御部146Bは、無音の継続時間が目標時間に達する前に、音声らしさが所定の音声らしさを超える新たな集音情報が集音されない場合、開始条件を更新してもよい。
 出力制御部146Bは、無音の継続時間が目標時間に達した場合(開始条件が満たされた場合)、出力部130Bによる開始条件(タイムアウトバーG21-4B)の出力を停止させ(時刻T15B)、無音の継続時間が目標時間に達した旨を出力部130Bに出力させる(時刻T16B)。図39に示した例では、音声認識開始操作オブジェクトG22Bに「お待ちください」を表示させている。また、認識制御部144Bは、音声認識処理を音声認識部145Bに行わせるが、無音の継続時間が目標時間に達した場合に、実行動作を音声認識部145Bに開始させる。
 図40は、本開示の実施形態に係る情報処理システム10Bの機能詳細について説明するための他の図である。図40に示した例において、図39に示した例と異なる点は、無音の継続時間が目標時間に達しないうちに、音量が基準音量を超える新たな集音情報が集音される点である。図40に示すように、ユーザが発話を再開し(時刻T21B)、出力制御部146Bは、無音の継続時間が目標時間に達しないうちに、音量が基準音量を超える新たな集音情報が集音された場合(時刻T22B)、開始条件(タイムアウトバーG21-3B)の出力を停止させる。
 音声らしさが考慮されてもよい。すなわち、出力制御部146Bは、無音の継続時間が目標時間に達しないうちに、音声らしさが所定の音声らしさを超える新たな集音情報が集音された場合、開始条件(タイムアウトバーG21-3B)の出力を停止してもよい。音声認識処理が再開されると(時刻T23B)、出力制御部146Bは、表示オブジェクトMuBを表示させる。
 なお、出力制御部146Bは、目標時間が所定の基準時間よりも短い場合には、開始条件を出力部130Bに出力させなくてもよい。また、出力制御部146Bは、認識結果の量に応じて、残り時間の長さを制御してもよい。例えば、音声認識処理の結果は、分量が多くなるにつれて音声認識処理の認識結果に基づく実行動作に適さなくなると考えられる。そのため、出力制御部146Bは、音声認識処理の結果が多くなるほど残り時間の長さを短くしてもよい。
 出力制御部146Bは、開始条件として所定の表示情報を出力部130Bに出力させてよい。図41および図42は、開始条件として表示情報を出力部130Bに出力させる例を示す図である。図41には、音声認識開始操作オブジェクトG14Bに含まれる表示内容を徐々に消去する例が示されている。また、図42には、音声認識開始操作オブジェクトG14Bの色を徐々に変化させていく例が示されている。
 また、出力制御部146Bは、開始条件として所定の表示情報を出力部130Bに出力させてもよい。図43および図44は、開始条件として音声情報を出力部130Bに出力させる例を示す図である。図43には、時刻T51Bから時刻T54Bまでに、音声認識処理の開始タイミング(時刻T54B)を知らせる音声情報が出力される例が示されている。また、図44には、時刻T61Bから時刻T64Bまでに、音声認識処理の開始タイミング(時刻T64B)を知らせる音声情報が出力される例が示されている。
 以上、本開示の実施形態に係る情報処理システム10Bの機能詳細について説明した。
 続いて、本開示の実施形態に係る情報処理システム10Bの全体的な動作の流れについて説明する。図45は、本開示の実施形態に係る情報処理システム10Bの全体的な動作の流れの例を示すフローチャートである。なお、図45のフローチャートは、本開示の実施形態に係る情報処理システム10Bの全体的な動作の流れの例に過ぎないため、本開示の実施形態に係る情報処理システム10Bの全体的な動作の流れは、図47のフローチャートに示された例に限定されない。
 まず、出力制御部146Bは、音声らしい音が検出されると(S121B)、音声が入力されていることを出力させる(S122B)。出力制御部146Bは、無音が検出されない場合には(S123Bにおいて「No」)、S122Bに動作を移行するが、無音が検出された場合(S123Bにおいて「Yes」)、無音検出したことを出力させ(S124B)、実行動作の開始条件を出力する(S125B)。
 続いて、出力制御部146Bは、音声らしい音が検出されると(S126Bにおいて「Yes」)、開始条件の出力を停止させ(S127B)、S122Bに動作を移行させるが、音声らしい音が検出されない場合には(S126Bにおいて「No」)、開始条件を更新して出力させ直す(S128B)。続いて、出力制御部146Bは、開始条件が満たされない場合には(S129Bにおいて「No」)、S126Bに動作を移行させるが、開始条件が満たされた場合には(S129Bにおいて「Yes」)、実行動作を開始することを出力させ(S130B)、実行動作の結果を出力させる(S131B)。
 以上、情報処理システム10Bの全体的な動作の流れについて説明した。
 [4.4.表示形態の変形例]
 上記においては、出力部130BがテーブルTblBの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、出力部130Bによる表示形態は、かかる例に限定されない。以下では、出力部130Bによる表示形態の変形例について説明する。図46は、出力部130Bによる表示形態の変形例を示す図である。図46に示すように、情報処理システム10Bが携帯端末である場合に、出力部130Bは、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。
 [4.5.システム構成の変形例]
 上記においては、出力部130BがテーブルTblBの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、情報処理システム10Bの構成は、かかる例に限定されない。図47~図50は、情報処理システム10Bのシステム構成の変形例1を示す図である。図47~図50に示すように、出力部130Bは、テレビジョン装置であり、情報処理装置140Bは、ゲーム機であり、操作入力部115Bは、ゲーム機を操作するコントローラであってよい。
 また、図47に示すように、集音部120Bおよび出力部130Bは、操作入力部115Bに接続されていてもよい。また、図48に示すように、画像入力部110Bおよび集音部120Bは、情報処理装置140Bに接続されていてもよい。また、図49に示すように、操作入力部115B、集音部120Bおよび出力部130Bは、情報処理装置140Bに接続されたスマートフォンに備えられていてもよい。また、図50に示すように、集音部120Bは、テレビジョン装置に備えられていてもよい。
 [4.6.ハードウェア構成例]
 次に、図51を参照して、本開示の実施形態に係る情報処理システム10Bのハードウェア構成について説明する。図51は、本開示の実施形態に係る情報処理システム10Bのハードウェア構成例を示すブロック図である。
 図51に示すように、情報処理システム10Bは、CPU(Central Processing unit)901B、ROM(Read Only Memory)903B、およびRAM(Random Access Memory)905Bを含む。また、情報処理システム10Bは、ホストバス907B、ブリッジ909B、外部バス911B、インターフェース913B、入力装置915B、出力装置917B、ストレージ装置919B、ドライブ921B、接続ポート923B、通信装置925Bを含んでもよい。さらに、情報処理システム10Bは、必要に応じて、撮像装置933B、およびセンサ935Bを含んでもよい。情報処理システム10Bは、CPU901Bに代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
 CPU901Bは、演算処理装置および制御装置として機能し、ROM903B、RAM905B、ストレージ装置919B、またはリムーバブル記録媒体927Bに記録された各種プログラムに従って、情報処理システム10B内の動作全般またはその一部を制御する。ROM903Bは、CPU901Bが使用するプログラムや演算パラメータなどを記憶する。RAM905Bは、CPU901Bの実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901B、ROM903B、およびRAM905Bは、CPUバスなどの内部バスにより構成されるホストバス907Bにより相互に接続されている。さらに、ホストバス907Bは、ブリッジ909Bを介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911Bに接続されている。
 入力装置915Bは、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915Bは、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915Bは、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム10Bの操作に対応した携帯電話などの外部接続機器929Bであってもよい。入力装置915Bは、ユーザが入力した情報に基づいて入力信号を生成してCPU901Bに出力する入力制御回路を含む。ユーザは、この入力装置915Bを操作することによって、情報処理システム10Bに対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933Bも、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
 出力装置917Bは、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917Bは、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro-Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917Bは、情報処理システム10Bの処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917Bは、周囲を明るくするためライトなどを含んでもよい。
 ストレージ装置919Bは、情報処理システム10Bの記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919Bは、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919Bは、CPU901Bが実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921Bは、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927Bのためのリーダライタであり、情報処理システム10Bに内蔵、あるいは外付けされる。ドライブ921Bは、装着されているリムーバブル記録媒体927Bに記録されている情報を読み出して、RAM905Bに出力する。また、ドライブ921Bは、装着されているリムーバブル記録媒体927Bに記録を書き込む。
 接続ポート923Bは、機器を情報処理システム10Bに直接接続するためのポートである。接続ポート923Bは、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923Bは、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923Bに外部接続機器929Bを接続することで、情報処理システム10Bと外部接続機器929Bとの間で各種のデータが交換され得る。
 通信装置925Bは、例えば、通信ネットワーク931Bに接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925Bは、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925Bは、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925Bは、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925Bに接続される通信ネットワーク931Bは、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
 撮像装置933Bは、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933Bは、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ935Bは、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935Bは、例えば情報処理システム10Bの筐体の姿勢など、情報処理システム10B自体の状態に関する情報や、情報処理システム10Bの周辺の明るさや騒音など、情報処理システム10Bの周辺環境に関する情報を取得する。また、センサ935Bは、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
 以上、情報処理システム10Bのハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
 <5.むすび>
 以上説明したように、本開示の実施形態によれば、集音部120Bによって集音された集音情報に対して音声認識部145Bによって施される音声認識処理の認識結果に基づく所定の実行動作が音声認識部145Bによって開始されるための開始条件を出力部130Bに出力させる出力制御部146B、を備える、情報処理装置140Bが提供される。かかる構成によれば、実行動作が開始されるタイミングをユーザに容易に把握させることが可能となる。
 また、かかる構成によれば、実行動作の間にユーザに発話させる可能性を低減することが可能となる。また、かかる構成によれば、発話が有効になるタイミングをユーザに把握させることが可能となるため、複数の文章の音声入力を行わせることが容易になることが期待される。また、かかる構成によれば、実行動作がなされるタイミングをユーザに意識させながらユーザに発話を行わせることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記においては、出力部130Bによる表示形態の変形例を説明したが、出力部130Bによる表示形態は、上記した例に限定されない。例えば、出力部130Bは、ヘッドマウントディスプレイ以外のウェアラブル端末(例えば、時計、眼鏡など)に備わるディスプレイであってもよい。また、例えば、出力部130Bは、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、出力部130Bは、ヘルスケア分野において利用されるディスプレイであってもよい。
 また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した情報処理システム10Bが有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
 また、出力制御部146Bは、出力部130Bに表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部130Bに出力することで、当該表示内容が出力部130Bに表示されるように出力部130Bを制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。
 具体的な一例として、情報処理装置140Bを実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
 なお、上述した情報処理システム10Bの動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部110B、操作入力部115Bおよび集音部120Bと出力部130Bと情報処理装置140Bとは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置140Bが、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部110B、操作入力部115Bおよび集音部120Bと出力部130Bとが当該サーバにネットワークを介して接続されたクライアントに相当し得る。
 また、情報処理装置140Bが有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部141Bと、集音情報取得部142Bと、操作検出部143Bと、認識制御部144Bと、音声認識部145Bと、出力制御部146Bとのうち、一部は情報処理装置140Bとは異なる装置に存在していてもよい。例えば、音声認識部145Bは、入力画像取得部141Bと、集音情報取得部142Bと、操作検出部143Bと、認識制御部144Bと、出力制御部146Bとを備える情報処理装置140Bとは異なるサーバに存在していてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させる出力制御部、
 を備える、情報処理装置。
(2)
 前記情報処理装置は、前記音声認識処理を前記音声認識部に行わせる認識制御部を備える、
 前記(1)に記載の情報処理装置。
(3)
 前記認識制御部は、前記開始条件が満たされた場合に、前記実行動作を前記音声認識部に開始させる、
 前記(2)に記載の情報処理装置。
(4)
 前記認識制御部は、前記音声認識処理が開始されてから前記集音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した場合に、前記実行動作を前記音声認識部に開始させる、
 前記(2)または(3)に記載の情報処理装置。
(5)
 前記開始条件は、前記継続時間が前記目標時間に達するまでの残り時間に関する情報を含む、
 前記(4)に記載の情報処理装置。
(6)
 前記残り時間に関する情報は、前記目標時間に対する前記残り時間の割合を示す所定の表示オブジェクトおよび前記残り時間自体のうち少なくともいずれか一方を含む、
 前記(5)に記載の情報処理装置。
(7)
 前記出力制御部は、前記音声認識処理が開始されてから前記集音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した場合に、前記出力部による前記開始条件の出力を停止させる、
 前記(2)または(3)に記載の情報処理装置。
(8)
 前記出力制御部は、前記音声認識処理が開始されてから前記集音情報の音量が前記基準音量を下回った場合に、前記継続時間の開始を前記出力部に出力させる、
 前記(4)~(7)のいずれか一項に記載の情報処理装置。
(9)
 前記出力制御部は、前記継続時間が前記目標時間に達する前に、音量が前記基準音量を超える新たな集音情報が集音されない場合、前記出力部によって出力されている前記開始条件を更新する、
 前記(4)~(8)のいずれか一項に記載の情報処理装置。
(10)
 前記出力制御部は、前記継続時間が前記目標時間に達する前に、音声らしさが所定の音声らしさを超える新たな集音情報が集音されない場合、前記出力部によって出力されている前記開始条件を更新する、
 前記(4)~(8)のいずれか一項に記載の情報処理装置。
(11)
 前記出力制御部は、前記継続時間が前記目標時間に達しないうちに、音量が前記基準音量を超える新たな集音情報が集音された場合、前記出力部による前記開始条件の出力を停止させる、
 前記(4)~(8)のいずれか一項に記載の情報処理装置。
(12)
 前記出力制御部は、前記継続時間が前記目標時間に達しないうちに、音声らしさが所定の音声らしさを超える新たな集音情報が集音された場合、前記出力部による前記開始条件の出力を停止させる、
 前記(4)~(8)のいずれか一項に記載の情報処理装置。
(13)
 前記出力制御部は、前記目標時間が所定の基準時間よりも短い場合には、前記開始条件を前記出力部に出力させない、
 前記(4)~(12)のいずれか一項に記載の情報処理装置。
(14)
 前記出力制御部は、前記認識結果の量に応じて、前記残り時間の長さを制御する、
 前記(5)または(6)に記載の情報処理装置。
(15)
 前記認識制御部は、前記集音情報の音声らしさが閾値を超える場合に、前記集音情報に対して前記音声認識処理を行わせる、
 前記(2)~(14)のいずれか一項に記載の情報処理装置。
(16)
 前記出力制御部は、前記開始条件として所定の表示情報および所定の音声情報のうち少なくともいずれか一方を前記出力部に出力させる、
 前記(1)~(15)のいずれか一項に記載の情報処理装置。
(17)
 前記実行動作は、前記認識結果の文字列に応じた検索結果を出力させる動作、前記認識結果の文字列を出力させる動作、前記認識結果の認識過程において得られた認識結果候補を出力させる動作および前記認識結果の文字列から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含む、
 前記(1)~(16)のいずれか一項に記載の情報処理装置。
(18)
 前記開始条件は、前記実行動作を開始させるために必要なユーザ操作に関する情報を含む、
 前記(1)~(3)のいずれか一項に記載の情報処理装置。
(19)
 プロセッサにより、集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させること、
 を含む、情報処理方法。
(20)
 コンピュータを、
 集音部によって集音された集音情報に対して音声認識部によって施される音声認識処理の認識結果に基づく所定の実行動作が前記音声認識部によって開始されるための開始条件を出力部に出力させる出力制御部、
 を備える情報処理装置として機能させるためのプログラム。
 10A  情報処理システム
 110A 画像入力部
 115A 操作入力部
 120A 集音部
 130A 出力部
 140A 情報処理装置(制御部)
 141A 入力画像取得部
 142A 集音情報取得部
 143A 操作検出部
 144A 認識制御部
 145A 音声認識部
 146A 出力制御部
 10B  情報処理システム
 110B 画像入力部
 115B 操作入力部
 120B 集音部
 130B 出力部
 140B 情報処理装置(制御部)
 141B 入力画像取得部
 142B 音情報取得部
 143B 操作検出部
 144B 認識制御部
 145B 音声認識部
 146B 出力制御部
 G10B 初期画面
 G11B 認識文字列表示欄
 G12B 全削除操作オブジェクト
 G13B 確定操作オブジェクト
 G15B 前方移動操作オブジェクト
 G16B 後方移動操作オブジェクト
 G17B 削除操作オブジェクト

Claims (20)

  1.  集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させる出力制御部を備え、
     前記出力制御部は、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
     情報処理システム。
  2.  前記出力制御部は、前記音声認識処理の起動トリガが検出された場合に、前記開始条件を前記出力部に出力させる、
     請求項1に記載の情報処理システム。
  3.  前記情報処理システムは、前記開始条件が満たされた場合に、前記音声認識処理を前記音声認識部に開始させる認識制御部を備える、
     請求項1に記載の情報処理システム。
  4.  前記出力制御部は、前記開始条件が満たされた場合または前記開始条件の出力停止操作が検出された場合に、前記開始条件の出力を停止させる、
     請求項1に記載の情報処理システム。
  5.  前記出力制御部は、所定の情報に基づいて、前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更する、
     請求項2に記載の情報処理システム。
  6.  前記出力制御部は、前記起動トリガが検出された後に前記集音部から入力された音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
     請求項5に記載の情報処理システム。
  7.  前記出力制御部は、前記集音部から入力された前記音情報に含まれる第1の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
     請求項6に記載の情報処理システム。
  8.  前記出力制御部は、前記第1の種類の音情報の音量が第1の閾値を上回る場合には、前記音声認識処理を開始させるために必要なユーザ操作に関する情報に前記開始条件を変更する、
     請求項7に記載の情報処理システム。
  9.  前記出力制御部は、前記第1の種類の音情報の音量が前記第1の閾値を下回る場合には、前記音声認識処理が開始されるまでの残り時間に前記開始条件を変更する、
     請求項8に記載の情報処理システム。
  10.  前記出力制御部は、前記第1の種類の音情報の音量が前記第1の閾値より小さい第2の閾値を下回る場合には、前記開始条件を前記出力部に出力させることを省略する、
     請求項8に記載の情報処理システム。
  11.  前記第1の種類の音情報は、少なくとも雑音を含む、
     請求項7に記載の情報処理システム。
  12.  前記出力制御部は、過去に起動トリガが検出されてから音声認識処理が開始されるまでの所定の時間に集音された過去の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
     請求項6に記載の情報処理システム。
  13.  前記出力制御部は、前記過去の音情報に含まれる第2の種類の音情報に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
     請求項12に記載の情報処理システム。
  14.  前記出力制御部は、前記第2の種類の音情報の音量が閾値を上回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも長くする、
     請求項13に記載の情報処理システム。
  15.  前記出力制御部は、前記第2の種類の音情報の音量が前記閾値を下回る場合には、前記開始条件として出力させる前記音声認識処理が開始されるまでの残り時間を、前回の音声認識処理時よりも短くする、
     請求項14に記載の情報処理システム。
  16.  前記第2の種類の音情報は、少なくとも雑音を含む、
     請求項13に記載の情報処理システム。
  17.  前記出力制御部は、音声らしさが閾値を超える音情報の前記集音部への到来方向の数に基づいて、前記出力部に出力させる前記開始条件を動的に変更する、
     請求項1に記載の情報処理システム。
  18.  前記出力制御部は、前記開始条件として所定の表示情報および所定の音声情報のうち少なくともいずれか一方を前記出力部に出力させる、
     請求項1に記載の情報処理システム。
  19.  前記認識制御部は、前記開始条件が満たされる前から音声認識処理を開始させ、前記開始条件が満たされた場合に、前記音声認識処理の結果にフィラーが含まれる場合には、前記フィラーに対応する部分が除外された後の音情報に対する音声認識処理を前記音声認識部に開始させる、
     請求項3に記載の情報処理システム。
  20.  集音部から入力された音情報に対して音声認識部によって施される音声認識処理の開始条件を出力部に出力させることを含み、
     プロセッサにより前記出力部に出力させる前記音声認識処理の前記開始条件を動的に変更することを含む、
     情報処理方法。
PCT/JP2015/081751 2015-02-23 2015-11-11 情報処理システムおよび情報処理方法 WO2016136044A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP15883334.3A EP3264413B1 (en) 2015-02-23 2015-11-11 Information processing system and method
US15/548,977 US10522140B2 (en) 2015-02-23 2015-11-11 Information processing system and information processing method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2015-033059 2015-02-23
JP2015033059A JP2016156877A (ja) 2015-02-23 2015-02-23 情報処理装置、情報処理方法およびプログラム
JP2015059566A JP2016180778A (ja) 2015-03-23 2015-03-23 情報処理システムおよび情報処理方法
JP2015-059566 2015-03-23

Publications (1)

Publication Number Publication Date
WO2016136044A1 true WO2016136044A1 (ja) 2016-09-01

Family

ID=56788161

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/081751 WO2016136044A1 (ja) 2015-02-23 2015-11-11 情報処理システムおよび情報処理方法

Country Status (3)

Country Link
US (1) US10522140B2 (ja)
EP (1) EP3264413B1 (ja)
WO (1) WO2016136044A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108630202A (zh) * 2017-03-21 2018-10-09 株式会社东芝 语音识别装置、语音识别方法以及语音识别程序

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
US10403276B2 (en) * 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635497A (ja) * 1992-07-16 1994-02-10 Nippon Telegr & Teleph Corp <Ntt> 音声入力装置
JP2003177789A (ja) * 2001-12-12 2003-06-27 Matsushita Electric Ind Co Ltd 音声入力装置
WO2007077703A1 (ja) * 2006-01-06 2007-07-12 Pioneer Corporation 音声認識装置、表示方法及び表示処理プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58190994A (ja) * 1982-05-01 1983-11-08 日産自動車株式会社 車両用音声認識装置
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US8244536B2 (en) * 2003-08-27 2012-08-14 General Motors Llc Algorithm for intelligent speech recognition
JP2013080015A (ja) * 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
US9886968B2 (en) * 2013-03-04 2018-02-06 Synaptics Incorporated Robust speech boundary detection system and method
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US20140365225A1 (en) * 2013-06-05 2014-12-11 DSP Group Ultra-low-power adaptive, user independent, voice triggering schemes
CN110096253B (zh) * 2013-07-11 2022-08-30 英特尔公司 利用相同的音频输入的设备唤醒和说话者验证
US9418651B2 (en) * 2013-07-31 2016-08-16 Google Technology Holdings LLC Method and apparatus for mitigating false accepts of trigger phrases
TWI601032B (zh) * 2013-08-02 2017-10-01 晨星半導體股份有限公司 應用於聲控裝置的控制器與相關方法
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9940949B1 (en) * 2014-12-19 2018-04-10 Amazon Technologies, Inc. Dynamic adjustment of expression detection criteria

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635497A (ja) * 1992-07-16 1994-02-10 Nippon Telegr & Teleph Corp <Ntt> 音声入力装置
JP2003177789A (ja) * 2001-12-12 2003-06-27 Matsushita Electric Ind Co Ltd 音声入力装置
WO2007077703A1 (ja) * 2006-01-06 2007-07-12 Pioneer Corporation 音声認識装置、表示方法及び表示処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108630202A (zh) * 2017-03-21 2018-10-09 株式会社东芝 语音识别装置、语音识别方法以及语音识别程序
CN108630202B (zh) * 2017-03-21 2021-12-03 株式会社东芝 语音识别装置、语音识别方法以及记录介质

Also Published As

Publication number Publication date
EP3264413A1 (en) 2018-01-03
EP3264413B1 (en) 2020-10-21
EP3264413A4 (en) 2018-10-17
US20180033430A1 (en) 2018-02-01
US10522140B2 (en) 2019-12-31

Similar Documents

Publication Publication Date Title
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN108829235B (zh) 语音数据处理方法和支持该方法的电子设备
US10725733B2 (en) Information processing apparatus, information processing method, and program
EP3192072B1 (en) Dynamic thresholds for always listening speech trigger
CN107430856B (zh) 信息处理系统和信息处理方法
WO2017130486A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2016218852A (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2016152200A1 (ja) 情報処理システムおよび情報処理方法
US20200075008A1 (en) Voice data processing method and electronic device for supporting same
WO2016136044A1 (ja) 情報処理システムおよび情報処理方法
JP6772839B2 (ja) 情報処理装置、情報処理方法およびプログラム
KR20190068133A (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
CN107148614B (zh) 信息处理设备、信息处理方法和程序
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP6575518B2 (ja) 表示制御装置、表示制御方法およびプログラム
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
JP2016189121A (ja) 情報処理装置、情報処理方法およびプログラム
JP2016109726A (ja) 情報処理装置、情報処理方法およびプログラム
JP2016180778A (ja) 情報処理システムおよび情報処理方法
JPWO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
CN112558915A (zh) 语音播报的方法及装置、电子设备、介质和产品
WO2018056169A1 (ja) 対話装置、処理方法、プログラム
US20220393993A1 (en) Information processing apparatus, information processing system, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15883334

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2015883334

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE