WO2016088411A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2016088411A1
WO2016088411A1 PCT/JP2015/073747 JP2015073747W WO2016088411A1 WO 2016088411 A1 WO2016088411 A1 WO 2016088411A1 JP 2015073747 W JP2015073747 W JP 2015073747W WO 2016088411 A1 WO2016088411 A1 WO 2016088411A1
Authority
WO
WIPO (PCT)
Prior art keywords
processing
unit
processing unit
character string
information processing
Prior art date
Application number
PCT/JP2015/073747
Other languages
English (en)
French (fr)
Inventor
真一 河野
祐平 滝
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP15864434.4A priority Critical patent/EP3229231A4/en
Priority to CN201580064715.6A priority patent/CN107004406A/zh
Priority to US15/528,878 priority patent/US10540968B2/en
Publication of WO2016088411A1 publication Critical patent/WO2016088411A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Definitions

  • This disclosure relates to an information processing apparatus, an information processing method, and a program.
  • a processing unit acquisition unit that obtains one or a plurality of processing units based on noise from a first recognized character string obtained by performing speech recognition on a first input speech;
  • an information processing apparatus including a processing unit that processes the processing target when any of the plurality of processing units is selected as the processing target is provided.
  • one or more processing units are obtained based on noise from a first recognized character string obtained by performing speech recognition on a first input speech;
  • an information processing method including processing the processing target is provided.
  • the processing unit acquisition unit that obtains one or a plurality of processing units based on noise from the first recognized character string obtained by performing speech recognition on the first input speech.
  • a program is provided for causing the information processing apparatus to function as an information processing apparatus including a processing unit that processes the processing target.
  • a technique that can more efficiently perform processing on a character string recognized from input speech.
  • the above effects are not necessarily limited, and any of the effects shown in the present specification, or other effects that can be grasped from the present specification, together with or in place of the above effects. May be played.
  • a plurality of constituent elements having substantially the same functional configuration may be distinguished by attaching different alphabets or numbers after the same reference numeral.
  • it is not necessary to particularly distinguish each of a plurality of constituent elements having substantially the same functional configuration only the same reference numerals are given.
  • Embodiment of the present disclosure 1.1. System configuration example 1.2. Functional configuration example 1.3. Outline of operation 1.4. Example of screen configuration 1.5. Determination of processing unit 1.6. Presentation of character string 1.7. Control of length of processing target 1.8. Changing the number of processing units 1.9. Deleting a processing unit 1.10. Selection of caret position 1.11. Processing unit display area 1.12. Modification of display mode 1.13. 1. Hardware configuration example Conclusion
  • FIG. 1 is a diagram illustrating a configuration example of an information processing system 10 according to an embodiment of the present disclosure.
  • the information processing system 10 includes an image input unit 110, an operation input unit 115, a voice input unit 120, and a display unit 130.
  • the information processing system 10 can perform voice recognition on a voice uttered by a user U (hereinafter also simply referred to as “user”).
  • the image input unit 110 has a function of inputting an image.
  • the image input unit 110 includes two cameras embedded in the table Tbl.
  • the number of cameras included in the image input unit 110 is not particularly limited as long as it is one or more. In such a case, the position where each of the one or more cameras included in the image input unit 110 is provided is not particularly limited.
  • the one or more cameras may include a monocular camera or a stereo camera.
  • the operation input unit 115 has a function of inputting a user U operation.
  • the operation input unit 115 includes one camera suspended from the ceiling that exists above the table Tbl.
  • the position where the camera included in the operation input unit 115 is provided is not particularly limited.
  • the camera may include a monocular camera or a stereo camera.
  • the operation input unit 115 may not be a camera as long as it has a function of inputting the operation of the user U.
  • the operation input unit 115 may be a touch panel or a hardware button.
  • the display unit 130 has a function of displaying a screen on the table Tbl.
  • the display unit 130 is suspended from the ceiling above the table Tbl.
  • the position where the display unit 130 is provided is not particularly limited.
  • the display unit 130 may be a projector that can project a screen onto the top surface of the table Tbl.
  • the display unit 130 may be a display of another form. May be.
  • the display surface of the screen may be other than the top surface of the table Tbl.
  • the display surface of the screen may be a wall, a building, a floor, a ground, a ceiling, and others It may be the surface at the location.
  • the display surface of the screen may be a display surface that the display unit 130 has.
  • the voice input unit 120 has a function of inputting voice.
  • the audio input unit 120 includes a total of six microphones including three microphones existing above the table Tbl and three microphones existing on the upper surface of the table Tbl.
  • the number of microphones included in the voice input unit 120 is not particularly limited as long as it is one or more. In such a case, the position where each of the one or more microphones included in the audio input unit 120 is provided is not particularly limited.
  • the sound input unit 120 includes a plurality of microphones, the sound source direction can be estimated based on the sound input to each of the plurality of microphones. Further, if the sound input unit 120 includes a microphone having directivity, the sound source direction can be estimated based on the sound input to the microphone having directivity.
  • FIG. 2 is a block diagram illustrating a functional configuration example of the information processing system 10 according to the embodiment of the present disclosure.
  • the information processing system 10 according to the embodiment of the present disclosure includes an image input unit 110, an operation input unit 115, a voice input unit 120, a display unit 130, and an information processing device 140 (hereinafter referred to as “information processing device 140”). , Also referred to as “control unit 140”).
  • the information processing apparatus 140 executes control of each unit of the information processing system 10. For example, the information processing apparatus 140 generates information output from the display unit 130. Further, for example, the information processing apparatus 140 reflects information input by the image input unit 110, the operation input unit 115, and the voice input unit 120 in information output from the display unit 130. As illustrated in FIG. 2, the information processing apparatus 140 includes an input image acquisition unit 141, an input voice acquisition unit 142, an operation detection unit 143, a voice recognition unit 144, a processing unit acquisition unit 145, and a processing unit 146. And a display control unit 147. Details of these functional blocks will be described later.
  • the information processing apparatus 140 may be configured by, for example, a CPU (Central Processing Unit).
  • a CPU Central Processing Unit
  • the processing device can be configured by an electronic circuit.
  • 3A and 3B are flowcharts illustrating an outline of the operation of the information processing apparatus 140 according to the embodiment of the present disclosure.
  • the input voice acquisition unit 142 acquires the voice input by the voice input unit 120 as the input voice (S12).
  • the voice recognition unit 144 acquires a noise volume from the input voice (S13).
  • the noise may correspond to a voice other than the voice spoken by the user in the input voice. Details of the acquisition of the noise volume will be described later.
  • the voice recognition unit 144 obtains a character string (hereinafter also referred to as “recognized character string”) from the input voice by performing voice recognition on the input voice (S14) (S15).
  • the voice recognition technique used by the voice recognition unit 144 is not particularly limited, but a voice recognition technique such as a hidden Markov model may be used.
  • the character string may include one character.
  • the processing unit acquisition unit 145 obtains one or a plurality of processing units from the recognized character string based on the noise volume (S16). For example, the processing unit acquisition unit 145 may increase the processing unit per unit because the possibility of an error in speech recognition increases as the noise volume increases. If it does so, it will become possible to reduce the effort which makes a user select a processing unit.
  • the processing unit acquisition unit 145 may shorten the processing unit per unit because the possibility of an error in speech recognition decreases as the noise volume decreases. If it does so, it will become possible to reduce the effort which a user makes a voice input.
  • the processing unit may be a word unit or a combination of a plurality of words.
  • the processing unit is a morpheme unit obtained by performing morphological analysis on the recognized character string. Or, it may be a combination (sentence) unit of independent words and ancillary words, a character string unit divided by a predetermined number of characters, or a sentence unit inputted by voice. Good.
  • the processing unit acquisition unit 145 can obtain one or a plurality of processing units from the recognized character string based on the context of the recognized character string. For example, the processing unit acquisition unit 145 refers to pre-registered dictionary data, calculates the ease of connection with the previous or subsequent word for each word included in the recognized character string, and thus has one semantically A combination of one or more words determined as a group can be classified as a processing unit. Subsequently, the processing unit 146 acquires a correction candidate character string (S17). Various types of correction candidate character strings can exist as will be described later.
  • the display control unit 147 presents the correction candidate character string to the user by causing the display unit 130 to display the correction candidate character string (S18).
  • a desired recognized character string is obtained (“Yes” in S19)
  • the recognized character string is confirmed (S20). If the desired recognized character string cannot be obtained and deletion is selected as the processing type (“No (deletion)” in S19), the processing unit 146 deletes the processing target and performs S18. Return to. On the other hand, when the desired recognized character string cannot be obtained and correction is selected as the processing type (“No (correction)” in S19), the processing unit 146 corrects the processing target (S22). ).
  • the processing unit 146 performs a process of adding a new character string (S23) or a process of replacing the processing target with a character string (S24).
  • the processing unit 146 performs speech replacement on the processing target (that is, replacement by a character string recognized from speech)
  • the processing unit 146 performs processing on the recognized character string after the processing target is replaced. Rebuild the processing unit.
  • the processing unit 146 returns to S11, but correction by other than the voice (for example, correction by the correction character string selected from the correction candidate character strings) Etc.) ("No" in S26), the process returns to S15.
  • FIG. 4 is a diagram illustrating a configuration example of a screen displayed on the display unit 130 by the display control unit 147.
  • the screen G10 includes a character string display field G11 in which a character string is displayed, a character string all deletion operation object G12, a character string confirmation operation object G13, and a voice character string addition start operation object G14.
  • the screen G10 includes an operation object G15 for moving the caret position forward, an operation object G16 for moving the caret position backward, and an operation object G17 for deleting the processing target. Including.
  • FIG. 5 is a diagram illustrating an example of a screen displayed in a state where the user is speaking.
  • the voice character string addition start operation object G14 is changed to a voice character string addition end operation object G23.
  • the voice recognition unit 144 determines the utterance volume by the user U based on the input voice.
  • the determination method of the user utterance volume is not particularly limited.
  • the voice recognition unit 144 may estimate the sound source direction Du of the uttered voice by the user, and determine the volume input from the sound source direction Du of the uttered voice by the user as the user uttered volume.
  • the estimation method of the sound source direction Du of the speech sound by the user is not particularly limited.
  • the voice recognizing unit 144 may estimate the direction of arrival of the voice first input by the voice input unit 120 at a volume that exceeds the threshold as the sound source direction of the uttered voice by the user.
  • the voice recognition unit 144 performs an operation of selecting the character string addition start operation object G14 by voice among the plurality of directions of arrival.
  • One direction of arrival that matches or resembles the direction of the finger of the user who performed (for example, the direction from the fingertip to the base of the finger) may be estimated as the sound source direction of the uttered voice by the user.
  • the similarity range may be determined in advance.
  • the finger direction may be obtained by analyzing the input image.
  • the voice recognition unit 144 may estimate the direction of arrival of the voice input by the voice input unit 120 at the highest volume as the sound source direction Du of the uttered voice by the user.
  • the speech recognition unit 144 may estimate one arrival direction that matches or is similar to the finger direction of the user who performed the operation of selecting the character string addition start operation object G14 as the sound source direction Du of the uttered speech by the user.
  • the voice recognition unit 144 determines the voice input to the voice input unit 120 from a direction other than the sound source direction of the uttered voice by the user as noise, and the voice input unit from a direction other than the sound source direction Du of the uttered voice by the user
  • the volume input to 120 may be determined as the noise volume.
  • the display control unit 147 then moves toward the character string addition end operation object G23 when the user utterance volume exceeds the volume at which voice recognition is possible (hereinafter also referred to as “recognizable volume”).
  • One moving object Mu may be displayed on the display unit 130. If it does so, it will become possible to make a user grasp
  • the display control unit 147 may move the first moving object Mu toward the character string addition end operation object G23 in the direction opposite to the sound source direction Du of the uttered voice by the user.
  • circular objects that appear one after another in the vicinity of the user move in the direction opposite to the sound source direction Du of the uttered voice by the user and disappear when the character string addition end operation object G23 is reached.
  • the movement of the first moving object Mu is not limited to such an example.
  • the movement destination of the first moving object Mu is not limited to the character string addition end operation object G23, and may be any display object.
  • FIG. 6 is a diagram illustrating an example of a character string that the user wants to input and an example of a recognized character string obtained by voice recognition.
  • “I drive your car to airports” is shown as an example of a character string that the user wants to input
  • “I drove your car to airports” is shown as an example of a character string obtained by speech recognition. Has been. Therefore, it is preferable that some processing can be performed on the character string obtained by voice recognition.
  • FIG. 7 is a diagram illustrating an example of a screen on which a recognized character string is displayed.
  • the display control unit 147 can cause the display unit 130 to display the recognized character string “I drove your car to airports”.
  • the processing unit acquisition unit 145 generates the processing unit U1 “I from the recognized character string“ I drove your car to airports ”.
  • the display control unit 147 can display these processing units U1 to U3 on the display unit 130.
  • the processing unit 146 can cause the user to select one of the processing units U1 to U3 and process the processing target selected by the user.
  • the display control unit 147 displays the caret position selection object B1 in front of the processing unit U1, and displays the caret position selection object B2 between the processing unit U1 and the processing unit U2. It is possible to make it. Further, the display control unit 147 can display the caret position selection object B3 between the processing unit U2 and the processing unit U3, and can display the caret position selection object B4 in front of the processing unit U4. The display control unit 147 can place the caret CL on any of the caret position selection objects B1 to B4.
  • the processing unit U1 “I” from the recognition character string “I drove your car to airports” by the processing unit acquisition unit 145 has been described.
  • the processing unit acquisition unit 145 may obtain one or a plurality of processing units based on noise from the recognized character string “I drove your car to airports”. More specifically, the processing unit acquisition unit 145 may obtain one or a plurality of processing units based on the noise volume from the recognized character string “I drove your car to airports”.
  • FIG. 8 is a diagram for explaining an example of obtaining one or a plurality of processing units based on the noise volume from the recognized character string “I ⁇ drove your car to airports ”.
  • the processing unit acquisition unit 145 decreases the number of processing units as shown in “High noise volume” in FIG. 8 because the possibility of an error in speech recognition increases as the noise volume increases. It is good. If it does so, it will become possible to reduce the effort which makes a user select a processing unit.
  • the processing unit acquisition unit 145 increases the number of processing units as shown in “Small noise volume” in FIG. 8 because the possibility of an error in speech recognition decreases as the noise volume decreases. Good. If it does so, it will become possible to reduce the effort which a user makes a voice input.
  • FIGS 9 and 10 are flowcharts illustrating an example of processing unit determination operation. Note that since this flowchart only shows an example of the processing unit determination operation, the processing unit determination operation is not limited to the example shown in this flowchart.
  • the input voice acquisition unit 142 acquires an input voice (S101).
  • the voice recognition unit 144 acquires a noise volume from the input voice (S102).
  • the speech recognition unit 144 performs speech recognition on the input speech to obtain a recognized character string (S103).
  • the processing unit acquisition unit 145 divides the recognized character string into character units (S105), and proceeds to S113.
  • the processing unit acquisition unit 145 proceeds to S106.
  • the processing unit acquisition unit 145 divides the recognized character string into meaningful minimum units (S107), and proceeds to S113.
  • the processing unit acquisition unit 145 proceeds to S108.
  • the processing unit acquisition unit 145 divides the recognized character string into units Na that combine one or more meaningful minimum units ( S109), the process proceeds to S113.
  • the processing unit acquisition unit 145 proceeds to S110.
  • the processing unit acquisition unit 145 divides the recognized character string into units Nb obtained by combining one or more units Na (S111). The process proceeds to S113.
  • the processing unit acquisition unit 145 sets the entire recognized character string as a unit Nc (S112), and proceeds to S113.
  • the processing unit acquisition unit 145 determines each unit generated from the recognized character string as a processing unit as described above (S113). In the above description, the processing unit acquisition unit 145 may shift the operation to any process when the threshold value and the noise volume are equal. As described above, the processing unit acquisition unit 145 acquires one or a plurality of processing units from the recognized character string based on the noise volume, and the processing unit 146 determines whether one or a plurality of processing units is a processing target. Is selected, it is possible to process the selected processing target. With this configuration, it is possible to perform the processing on the recognized character string more efficiently.
  • the display control unit 147 displays the processing units U1 to U3 on the display unit 130, and the processing unit 146 is selected when any of the processing units U1 to U3 is selected as a processing target.
  • the target to be processed can be processed. For example, when an operation for selecting the replacement operation object G25 (see FIG. 18) by voice is detected by the operation detection unit 143 and a second input voice is acquired by the input voice acquisition unit 142, the processing unit 146 inputs the input again. It is possible to correct the processing target by replacing the processing target with a recognized character string obtained by performing voice recognition on the voice.
  • the processing unit acquisition unit 145 preferably increases the success rate of the speech recognition because the possibility that an error will occur in the speech recognition for the input speech again as the noise volume increases.
  • the processing unit 146 may correct the processing target by replacing the processing target with the correction character string. More specifically, the display control unit 147 may display one or a plurality of correction candidate character strings on the display unit 130 for each category. Then, the user can search for one or more correction candidate character strings for each category.
  • FIG. 11 to 17 are diagrams showing examples of databases for providing correction candidate character strings to users for each category.
  • FIG. 11 is a diagram illustrating an example of a predictive conversion category database. For example, collocations predicted from dictionary data based on morphemes or words belong to the prediction conversion category.
  • FIG. 12 is a diagram illustrating an example of a phrase category database. For example, when English is input, a character string in which a preposition is added to the input word, an idiom including the input word, and the like belong to the Phase category. For example, when Japanese is input, a character string in which a particle is added to a morpheme obtained by morpheme analysis belongs to the phrase category.
  • FIG. 13 shows an example of the original form category database.
  • the singular form of the noun for the plural form of the noun belongs to the original form category
  • the prototype of the verb for the past form of the verb belongs to the original form category.
  • a reading Hiragana or Katakana
  • a morpheme obtained by morpheme analysis belongs to the original form category.
  • FIG. 14 is a diagram showing an example of a past correction result category database. For example, correction results made in the past for the same word as the input word belong to the past correction result category.
  • FIG. 15 is a diagram illustrating an example of a similar sound category database.
  • FIG. 16 is a diagram illustrating an example of a similar meaning category database.
  • FIG. 17 is a diagram illustrating an example of a conversion form category database. For example, when English is input, the plural form, current progressive form, past tense, adjective word, adverbized word, comparative grade, superlative grade, etc., belong to the conversion form category for the word prototype. For example, when Japanese is input, other kanji candidates belong to the conversion form category.
  • FIG. 18 is a diagram illustrating an example of a correction candidate character string displayed for each category.
  • the user in order to correct the processing unit U1 “I drove” among the processing units U1 to U3 to “I drive”, the user performs an operation of selecting the processing unit U1 “I drove” as a processing target.
  • the display control unit 147 acquires a correction candidate character string corresponding to the processing unit U1 “I drove” from each database, and displays it in the character string display field G18.
  • the character string display field G18 illustrated in FIG. 18 correction candidate character strings belonging to the prediction conversion category, the Phase category, and the original category are displayed as the correction candidate character strings corresponding to the processing unit U1 “I drove”. .
  • the processing unit 146 may replace the processing target “I drove” with the selected correction candidate character string. For example, when an operation for selecting the correction candidate character string “I drive” displayed in the original form category is input, the processing unit 146 uses the selected correction candidate character string “I drive” to process the object “I drove”. "May be replaced.
  • the display control unit 147 scrolls and displays the correction candidate character strings belonging to the category based on the operation of selecting the scroll operation object G19 of the category in which all of the correction candidate character strings do not fit in the character string display field G18. Can be made.
  • FIG. 19 is a diagram illustrating another example of the correction candidate character string displayed for each category.
  • correction candidate character strings belonging to the past correction result category are displayed in the character string display field G18.
  • the processing unit 146 performs processing by the selected correction candidate character string “I drive”. drove "should be replaced.
  • FIG. 20 is a diagram illustrating another example of the correction candidate character string displayed for each category.
  • the processing unit acquisition unit 145 obtains the processing unit U1 “I live” and the processing unit U2 “in Tokyo” from the recognized character string “I live in Tokyo”.
  • the display control unit 147 can display these processing units U ⁇ b> 1 and U ⁇ b> 2 on the display unit 130.
  • the display control unit 147 acquires a correction candidate character string corresponding to the processing unit U1 “I live” from each database, and displays it in the character string display field G18.
  • the character string display field G18 shown in FIG. 20 correction candidate character strings belonging to the similar sound category and the other recognition result category are displayed as correction candidate character strings corresponding to the processing unit U1 “I live”.
  • the processing unit 146 may replace the processing target “I live” with the selected correction candidate character string. For example, when an operation for selecting the correction candidate character string “I leave” displayed in the similar sound category is input, the processing unit 146 performs processing by the selected correction candidate character string “I leave”. "May be replaced.
  • FIG. 21 is a diagram illustrating another example of the correction candidate character string displayed for each category.
  • the processing unit acquisition unit 145 obtains the processing unit U1 “I view”, the processing unit U2 “this”, and the processing unit U3 “as credible” from the recognized character string “I view this as credible”.
  • the display control unit 147 can cause the display unit 130 to display these processing units U1 to U3.
  • the display control unit 147 acquires a correction candidate character string corresponding to the processing unit U1 “I view” from each database, and displays it in the character string display field G18.
  • correction candidate character strings belonging to the similar meaning category are displayed as correction candidate character strings corresponding to the processing unit U1 “I view”.
  • the processing unit 146 may replace the processing target “I view” with the selected correction candidate character string. For example, when an operation for selecting the correction candidate character string “I consider” displayed in the similar meaning category is input, the processing unit 146 selects the selected correction candidate character string “I Replace “I live” with “conside”.
  • FIG. 22 is a diagram illustrating another example of the correction candidate character string displayed for each category. As illustrated in FIG. 22, it is assumed that the processing unit U1 “Help” and the processing unit U2 “me” are obtained from the recognized character string “Help me” by the processing unit acquisition unit 145. At this time, as shown in FIG. 22, the display control unit 147 can display these processing units U ⁇ b> 1 and U ⁇ b> 2 on the display unit 130.
  • the display control unit 147 acquires a correction candidate character string corresponding to the processing unit U1 “Help” from each database and displays it in the character string display field G18.
  • correction candidate character strings belonging to the conversion form category are displayed as correction candidate character strings corresponding to the processing unit U1 “Help”.
  • the processing unit 146 may replace the processing target “Help” with the selected correction candidate character string.
  • the user may perform an operation of selecting the character string confirmation operation object G13.
  • the processing unit 146 may confirm the recognized character string “Help me”.
  • an additional candidate character string may be shown to a user.
  • the additional candidate character string may be a single character such as a symbol, a number, or an alphabet, or may be an emoticon that is formed by a combination thereof.
  • Symbols, numbers, alpha bats, emoticons, etc. may not be input depending on the performance of the speech recognition engine, or may be difficult to input depending on the speech recognition engine. It is useful for the user to display alpha bats, emoticons and the like.
  • the processing unit 146 may add an additional character string to the recognized character string when the user selects an additional character string from one or more additional candidate character strings.
  • the addition destination of the additional character string may be a position where the caret CL exists.
  • the display control unit 147 may display one or more additional candidate character strings on the display unit 130 for each category. Then, the user can search for one or more additional candidate character strings for each category.
  • FIG. 23 to 26 are diagrams showing examples of databases for providing additional candidate character strings to users for each category.
  • FIG. 23 is a diagram illustrating an example of a symbol category database.
  • FIG. 24 is a diagram illustrating an example of a numeric category database.
  • FIG. 25 is a diagram illustrating an example of an alphabet category database.
  • FIG. 26 is a diagram illustrating an example of the emoticon category database.
  • FIG. 27 is a diagram showing another example of additional candidate character strings displayed for each category.
  • the display control unit 147 acquires additional candidate character strings from each database and displays them in the character string display field G18.
  • additional candidate character strings belonging to the numeric category, alphabet category, and emoticon category are displayed as additional candidate character strings.
  • the processing unit 146 adds the selected additional candidate character string to the position of the caret position selection object B4.
  • the processing unit 146 selects the selected additional candidate character string “(-_-)”. May be added to the caret position selection object B4.
  • the display control unit 147 scrolls and displays the additional candidate character strings belonging to the category based on an operation of selecting the scroll operation object G19 of the category in which all of the additional candidate character strings do not fit in the character string display field G18. Can be made.
  • FIG. 28 and FIG. 29 are flowcharts showing an example of the operation for acquiring the correction candidate character string. Note that this flowchart merely shows an example of the operation for acquiring the correction candidate character string, and therefore the operation for acquiring the correction candidate character string is not limited to the example shown in this flowchart.
  • the processing unit 146 obtains a character string A (processing unit) (S201), and obtains a character string group B having a minimum unit having meaning from the character string A. Subsequently, the processing unit 146 acquires an original form character string C corresponding to the character string A from the original form category database. (S203).
  • the processing unit 146 acquires the auxiliary additional character string E by adding the auxiliary character string D to the character strings belonging to the character string group B (S204).
  • the auxiliary character string D may correspond to a preposition or the like. Further, when the character string group B is Japanese, the auxiliary character string D may be a particle.
  • the processing unit 146 acquires a conversion form character string F corresponding to the original form character string C from the conversion form category database (S205).
  • the processing unit 146 acquires a prediction conversion form character string G corresponding to the character string A from the prediction conversion category database (S206).
  • the processing unit 146 acquires similar sound form information H corresponding to the character string group B from the similar sound category database (S207). Subsequently, the processing unit 146 acquires a recognized result other than the character string A as another recognized result J (S208). Subsequently, the processing unit 146 acquires the past correction result K corresponding to the character string A from the past correction result category database (S209). Subsequently, the processing unit 146 acquires the similar meaning character string L corresponding to the character string A from the similar meaning category database (S210).
  • Character strings obtained as described above can be displayed on the display unit 130 as a correction candidate character string.
  • recognition result J, past correction result K, similar meaning character string L, and the like can be displayed on the display unit 130 as a correction candidate character string.
  • the order in which each character string is acquired is not limited to the order shown in the flowcharts of FIGS.
  • the processing target can be corrected by recognizing the input voice again.
  • the correction success rate can be improved by correcting the processing target after lengthening the processing target. Therefore, the processing unit 146 may control the length of the processing target when it is selected that the processing target is to be corrected by the input voice again. For example, the processing unit 146 may lengthen the processing target when it is selected that the processing target is to be corrected by re-input speech.
  • FIG. 30 is a diagram for explaining an example of controlling the length of the processing target.
  • the processing unit acquisition unit 145 recognizes the recognized character string “I From “drove your car to airports”, processing unit U1 “I drove”, processing unit U2 “your car” and processing unit U3 “to airports” are obtained, and display control unit 147 displays these processing units U1 to U3. Displayed on the unit 130.
  • the processing unit 146 selects the processing target as the processing unit U2 and the processing unit U2. May be a new processing target including the processing units U1 and U3 before and after.
  • the processing unit 146 lengthens the processing target so as to include adjacent processing units before and after the processing target when it is selected that the processing target is to be corrected by re-input speech.
  • the length of the processing target is not particularly limited.
  • the display control unit 147 displays a message that prompts voice input according to the length of the controlled processing target after controlling the length of the processing target. You may display on the part 130. FIG. In the example shown in FIG. 30, the display control unit 147 displays the message “Please speak by connecting three processing units” because the processing target has been expanded to the processing units U1 to U3. Is displayed.
  • the processing unit 146 may control the length of the processing target based on the noise volume when it is selected that the processing target is corrected by voice. More specifically, it is considered that the higher the noise volume, the higher the possibility that an error will occur in speech recognition for the input speech again. Therefore, when it is selected that the processing target is to be corrected by voice, the processing unit 146 may increase the processing target as the noise volume increases.
  • the processing unit 146 when it is selected that the processing target is to be corrected by voice, the processing unit 146 includes words in the processing target according to the part of speech when determining whether or not to include the processing target sequentially from words close to the processing target. It may be determined whether or not. For example, since it is common to process a plurality of nouns at the same time rather than simultaneously, the display control unit 147 includes the word just before reaching the second noun as a processing target. May be excluded from the processing target.
  • FIG. 31 is a flowchart illustrating an example of the control operation of the length to be processed. Note that this flowchart merely shows an example of the control operation for the length of the processing target, and thus the control operation for the length of the processing target is not limited to the example shown in this flowchart.
  • the processing unit 146 activates a modified interaction in accordance with selection of a processing target (S301). When the noise volume is not used (“No” in S302), the processing unit 146 shifts the operation to S307.
  • the voice recognition unit 144 acquires the noise volume from the input voice (S303), and the processing unit 146 determines that the noise volume is below the threshold value Ha. (“Yes” in S304), the process is terminated without adding a processing unit to the selected processing target (S305). On the other hand, when the noise volume exceeds the threshold Ha (“No” in S304), the processing unit 146 shifts the operation to S306.
  • the processing unit acquisition unit 145 may change the number of processing units included in at least one of one or a plurality of processing units when a predetermined change operation is input. For example, the processing unit acquisition unit 145 may determine the processing unit to be divided and the division position of the processing unit based on the position where the predetermined change operation is performed, and divide the processing unit to be divided at the division position.
  • FIG. 32 is a diagram for explaining an example of changing the number of processing units.
  • the processing unit acquisition unit 145 causes the processing unit U0 “I drove your car to An example of “airports every day” is shown.
  • the user can process unit U0 “I If you want to divide “drove your car to airports every day” between “I drove your car” and “to airports every day”, as shown in FIG. 32, “I drove your car” and “to A predetermined change operation may be performed between “airports every day”.
  • the predetermined change operation is not particularly limited, and may be a double tap or a long tap, for example.
  • the processing unit acquisition unit 145 processes the processing unit to be divided based on the position where the predetermined change operation is performed. What is necessary is just to determine to the object U0, and to determine a division position between “I drove your car” and “to airports every day”. Then, the processing unit acquisition unit 145 may obtain the processing unit U1 “I drove your car” and the processing unit U2 “to airports every day” by dividing the processing unit U0 to be divided at the division position.
  • the processing unit acquisition unit 145 may determine a processing unit to be divided based on a position where a predetermined change operation has been performed, and divide the processing unit to be divided into predetermined division units.
  • the predetermined division unit may be a meaningful minimum unit.
  • the smallest meaningful unit may be a morpheme unit in the case of a language in which the language of the recognized character string is not shared, or a word unit in the language in which the language of the recognized character string is shared. Also good.
  • FIG. 34 is a diagram for explaining deletion of a processing unit.
  • the processing unit 146 detects an operation for selecting the operation object G17 for deleting the processing target in a state where the processing unit U3 “to airports” is selected as the processing target. In this case, the processing unit U3 “to airports” may be deleted.
  • the caret position can be specified by a selection operation (for example, a tap operation).
  • the display control unit 147 may select the position where the caret position selection object exists as the position of the caret.
  • FIG. 35 is a diagram for explaining the selection of the caret position. For example, as shown in FIG. 35, when a selection operation is performed on the caret position selection object B4 in a state where the processing unit U3 is selected as a processing target, the display control unit 147 displays the caret position as the position of the caret CL. The position of the selection object B4 may be selected.
  • FIG. 36 is a diagram for explaining the selection of the caret position.
  • the display control unit 147 displays the caret position as the position of the caret CL.
  • the position of the selection object B4 may be selected.
  • FIG. 37 is a diagram for explaining the selection of the caret position. As shown in FIG. 37, when a selection operation is performed on the operation object G15 to move the caret position forward in a state where the position of the caret CL is the position of the position selection object B4, the display control unit 147 The position of the caret position selection object B3 in front of the position selection object B4 may be selected as the position of the caret CL.
  • FIG. 38 is a diagram for explaining the operation when the central region R0 is selected.
  • the display area of the processing unit U1 includes a left area R1, a central area R0, and a right area R2.
  • the processing unit 146 may select the processing unit U1 as a processing target.
  • the lengths of the left region R1, the central region R0, and the right region R2 are not particularly limited, but the processing unit 146 determines the lengths of the left region R1 and the right region R2 according to the length of the processing unit U1. You may control.
  • the processing unit 146 may make the left region R1 and the right region R2 the same size.
  • the processing unit 146 may narrow a region on the opposite side to the dominant arm of the left region R1 and the right region R2 than the region on the user's dominant arm side. .
  • the processing unit 146 determines whether the finger of the user who has performed the operation of selecting the character string addition start operation object G14 by voice is the left or right finger.
  • the dominant arm may be determined by For example, the processing unit 146 determines the shape of the finger of the user who has performed an operation of selecting the character string addition start operation object G14 by voice from the input image input by the image input unit 110, and based on the shape of the finger It may be determined whether the user's finger is the left or right finger, and the dominant arm may be determined based on the determination result.
  • FIG. 41 and FIG. 42 are flowcharts showing an example of the operation when the display area of the processing unit is selected. Note that this flowchart only shows an example of the operation when the processing unit display area is selected, and therefore the operation when the processing unit display area is selected is not limited to the example shown in this flowchart.
  • the processing unit 146 sets False to false (S401), and acquires the length of the processing unit (S402). Subsequently, when the length of the processing unit is less than the threshold value Za (“No” in S403), the processing unit 146 sets the left region R1 and the right region R2 to the same size, and the region between the two regions is a central region.
  • the processing unit 146 acquires the interaction information by the user (S407), and acquires the left and right information of the interaction (S408).
  • the processing unit 146 shifts the operation to S412, but when the interaction is performed by the user's left hand (“No” in S409). If Flg is set to false (“No” in S410), the operation is shifted to S412. If Flg is set to true (“Yes” in S410), the right region R2 is set to the left region R1. A larger size is set, and the area between both areas is set as the central area R0 (S411).
  • the processing unit 146 acquires an interaction position (S412), and when the interaction position is inside the central region R0 (“Yes” in S413), selects a processing unit as a processing target (S414), End the operation.
  • the display control unit 147 moves the caret to the left side of the processing unit and ends the operation.
  • FIG. 43 is a diagram illustrating a modified example of the display form by the display unit 130.
  • the display unit 130 may be included in the mobile terminal.
  • the kind of portable terminal is not specifically limited, A tablet terminal may be sufficient, a smart phone may be sufficient, and a mobile phone may be sufficient.
  • FIG. 44 is a block diagram illustrating a hardware configuration example of the information processing system 10 according to the embodiment of the present disclosure.
  • the information processing system 10 includes a CPU (Central Processing unit) 901, a ROM (Read Only Memory) 903, and a RAM (Random Access Memory) 905.
  • the information processing system 10 may also include a host bus 907, a bridge 909, an external bus 911, an interface 913, an input device 915, an output device 917, a storage device 919, a drive 921, a connection port 923, and a communication device 925.
  • the information processing system 10 may include an imaging device 933 and a sensor 935 as necessary.
  • the information processing system 10 may include a processing circuit called DSP (Digital Signal Processor) or ASIC (Application Specific Integrated Circuit) instead of or in addition to the CPU 901.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • the CPU 901 functions as an arithmetic processing unit and a control unit, and controls all or part of the operation in the information processing system 10 according to various programs recorded in the ROM 903, the RAM 905, the storage device 919, or the removable recording medium 927.
  • the ROM 903 stores programs and calculation parameters used by the CPU 901.
  • the RAM 905 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like.
  • the CPU 901, the ROM 903, and the RAM 905 are connected to each other by a host bus 907 configured by an internal bus such as a CPU bus. Further, the host bus 907 is connected to an external bus 911 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 909.
  • PCI Peripheral Component Interconnect / Interface
  • the input device 915 is a device operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever.
  • the input device 915 may include a microphone that detects the user's voice.
  • the input device 915 may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device 929 such as a mobile phone that supports the operation of the information processing system 10.
  • the input device 915 includes an input control circuit that generates an input signal based on information input by the user and outputs the input signal to the CPU 901. The user operates the input device 915 to input various data to the information processing system 10 and instruct processing operations.
  • An imaging device 933 which will be described later, can also function as an input device by imaging a user's hand movement, a user's finger, and the like. At this time, the pointing position may be determined according to the movement of the hand or the direction of the finger.
  • the output device 917 is a device that can notify the user of the acquired information visually or audibly.
  • the output device 917 is, for example, a display device such as an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL (Electro-Luminescence) display, a projector, an audio output device such as a hologram display device, a speaker and headphones, As well as a printer device.
  • the output device 917 outputs the result obtained by the processing of the information processing system 10 as a video such as text or an image, or outputs it as a voice such as voice or sound.
  • the output device 917 may include a light or the like to brighten the surroundings.
  • the storage device 919 is a data storage device configured as an example of a storage unit of the information processing system 10.
  • the storage device 919 includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the connection port 923 is a port for directly connecting a device to the information processing system 10.
  • the connection port 923 can be, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or the like.
  • the connection port 923 may be an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, or the like.
  • Various data can be exchanged between the information processing system 10 and the external connection device 929 by connecting the external connection device 929 to the connection port 923.
  • the communication device 925 is a communication interface configured with, for example, a communication device for connecting to the communication network 931.
  • the communication device 925 can be, for example, a communication card for wired or wireless LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 925 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various communication.
  • the communication device 925 transmits and receives signals and the like using a predetermined protocol such as TCP / IP with the Internet and other communication devices, for example.
  • the communication network 931 connected to the communication device 925 is a wired or wireless network, such as the Internet, a home LAN, infrared communication, radio wave communication, or satellite communication.
  • the imaging device 933 uses various members such as an imaging element such as a CCD (Charge Coupled Device) or CMOS (Complementary Metal Oxide Semiconductor), and a lens for controlling the imaging of a subject image on the imaging element. It is an apparatus that images a real space and generates a captured image.
  • the imaging device 933 may capture a still image or may capture a moving image.
  • the sensor 935 is various sensors such as an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, and a sound sensor.
  • the sensor 935 obtains information related to the state of the information processing system 10 such as the posture of the information processing system 10, and information related to the surrounding environment of the information processing system 10 such as brightness and noise around the information processing system 10. To do.
  • the sensor 935 may include a GPS sensor that receives a GPS (Global Positioning System) signal and measures the latitude, longitude, and altitude of the apparatus.
  • GPS Global Positioning System
  • Each component described above may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Such a configuration can be appropriately changed according to the technical level at the time of implementation.
  • An information processing apparatus 140 includes a processing unit acquisition unit 145 that obtains the processing unit and a processing unit 146 that processes the processing target when any one or a plurality of processing units is selected as the processing target. According to such a configuration, it is possible to more efficiently perform processing on a character string recognized from input speech.
  • the display form by the display unit 130 is not limited to the above-described example.
  • the display unit 130 may be a display provided in a wearable terminal (for example, a watch, glasses, etc.) other than the head mounted display.
  • the display unit 130 may be a display provided in an in-vehicle navigation system.
  • the display unit 130 may be a display used in the healthcare field.
  • the processing unit acquisition unit 145 may obtain one or a plurality of processing units based on the sound pressure of noise from the recognized character string. In such a case, the processing unit acquisition unit 145 may reduce the number of processing units as the sound pressure of noise increases. For example, the processing unit acquisition unit 145 may obtain one or a plurality of processing units from the recognized character string based on the sound pressure level of noise. In such a case, the processing unit acquisition unit 145 may decrease the number of processing units as the noise pressure level of noise increases.
  • the processing unit acquisition unit 145 may obtain one or a plurality of processing units based on the noise frequency from the recognized character string.
  • the display control unit 147 generates display control information for causing the display unit 130 to display the display content, and outputs the generated display control information to the display unit 130, so that the display content is displayed on the display unit 130. In this way, the display unit 130 can be controlled.
  • the contents of the display control information may be changed as appropriate according to the system configuration.
  • the program for realizing the information processing apparatus 140 may be a web application.
  • the display control information may be realized by a markup language such as HTML (HyperText Markup Language), SGML (Standard Generalized Markup Language), XML (Extensible Markup Language), or the like.
  • the position of each component is not particularly limited as long as the operation of the information processing system 10 described above is realized.
  • the image input unit 110, the operation input unit 115, the voice input unit 120, the display unit 130, and the information processing device 140 may be provided in different devices connected via a network.
  • the information processing apparatus 140 corresponds to a server such as a web server or a cloud server, for example, and the image input unit 110, the operation input unit 115, the voice input unit 120, and the display unit 130 are connected to the server. It may correspond to a client connected via
  • a processing unit acquisition unit that obtains one or a plurality of processing units based on noise from a first recognized character string obtained by performing speech recognition on the first input speech; When one of the one or more processing units is selected as a processing target, a processing unit that processes the processing target;
  • An information processing apparatus comprising: (2) The processing unit acquisition unit obtains the one or more processing units based on a noise volume from the first recognized character string. The information processing apparatus according to (1). (3) The processing unit acquisition unit reduces the number of processing units as the noise volume increases. The information processing apparatus according to (2). (4) The information processing apparatus includes a display control unit that controls the display unit such that the one or more processing units are displayed on the display unit.
  • the information processing apparatus according to any one of (1) to (3). (5) When the correction character string is selected from one or a plurality of correction candidate character strings, the processing unit corrects the processing target by replacing the processing target with the correction character string. The information processing apparatus according to (4). (6) The display control unit causes the display unit to display the one or more correction candidate character strings for each category. The information processing apparatus according to (5). (7) When the additional character string is selected from one or a plurality of additional candidate character strings, the processing unit adds the additional character string to a position where the caret exists. The information processing apparatus according to (4). (8) The display control unit causes the display unit to display the one or more additional candidate character strings for each category. The information processing apparatus according to (7).
  • the processing unit acquisition unit changes the number of processing units included in at least one of the one or more processing units when a predetermined change operation is input.
  • the information processing apparatus according to any one of (1) to (8).
  • the processing unit replaces the processing target with a second recognition character string obtained by performing speech recognition on the second input speech. Correct the processing target, The information processing apparatus according to any one of (1) to (9).
  • the display control unit selects a position where the caret position selection object exists as the position of the caret.
  • the information processing apparatus according to (4).
  • the processing unit display area includes a left area, a center area, and a right area,
  • the left area is a selection area of the caret position selection object located on the left side of the processing unit
  • the central area is a selection area of the processing unit
  • the right area is on the right side of the processing unit. It is a selection area of the object for selecting the caret position that is located.
  • the processing unit controls the length of each of the left region and the right region according to the length of the processing unit.
  • the information processing apparatus according to any one of (1) to (13).
  • the processing unit controls the length of the processing target.
  • the information processing apparatus according to (4) (16) When the processing unit is selected to correct the processing target by voice, the processing unit controls the length of the processing target based on a noise volume. The information processing apparatus according to (15). (17) When the processing unit is selected to correct the processing target by voice, the processing target is lengthened as the noise volume increases. The information processing apparatus according to (16). (18) The display control unit, after controlling the length of the processing target, causes the display unit to display a message for prompting voice input according to the length of the processing target after being controlled. The information processing apparatus according to (16).
  • the processing unit acquisition unit obtains the one or more processing units based on sound pressure of noise from the first recognition character string.
  • the information processing apparatus according to (1) The processing unit acquisition unit obtains the one or a plurality of processing units based on a sound pressure level of noise from the first recognition character string. The information processing apparatus according to (1).
  • (22) Obtaining one or a plurality of processing units based on noise from a first recognized character string obtained by performing speech recognition on the first input speech; When one of the one or more processing units is selected as a processing target, processing the processing target; Including an information processing method.
  • (23) Computer A processing unit acquisition unit that obtains one or a plurality of processing units based on noise from a first recognized character string obtained by performing speech recognition on the first input speech; When one of the one or more processing units is selected as a processing target, a processing unit that processes the processing target; A program for causing an information processing apparatus to function.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】入力音声から認識された文字列に対する処理をより効率的に行うことが可能な技術を提供する。 【解決手段】第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズ音量に基づいて1または複数の処理単位を得る処理単位取得部と、前記1または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 近年、ユーザから発せられた音声を入力音声として受け付け、入力音声に対して音声認識を行うことによって入力音声から文字列を認識する技術が存在する。しかし、音声認識には誤りが生じる可能性もある。そこで、入力音声から認識された文字列から一部の文字列を除外した処理単位を複数生成してユーザに提示し、複数の処理単位からユーザによって選択された処理単位を処理対象とする技術が開示されている(例えば、特許文献1参照)。
特開2008-209717号公報
 しかし、入力音声から認識された文字列に対する処理をより効率的に行うことが可能な技術が提供されることが望まれる。
 本開示によれば、第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズに基づいて1または複数の処理単位を得る処理単位取得部と、前記1または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、を備える、情報処理装置が提供される。
 本開示によれば、第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズに基づいて1または複数の処理単位を得ることと、前記1または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理することと、を含む、情報処理方法が提供される。
 本開示によれば、コンピュータを、第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズに基づいて1または複数の処理単位を得る処理単位取得部と、前記1または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、を備える情報処理装置として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、入力音声から認識された文字列に対する処理をより効率的に行うことが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係る情報処理システムの機能構成例を示すブロック図である。 同実施形態に係る情報処理装置の動作の概要を示すフローチャートである。 同実施形態に係る情報処理装置の動作の概要を示すフローチャートである。 表示制御部が表示部に表示させる画面の構成例を示す図である。 ユーザが発話を行っている状態において表示される画面の例を示す図である。 ユーザが入力したい文字列の例と音声認識により得られた認識文字列の例とを示す図である。 認識文字列が表示された画面の例を示す図である。 認識文字列からノイズ音量に基づいて1または複数の処理単位を得る例を説明するための図である。 処理単位の決定動作の例を示すフローチャートである。 処理単位の決定動作の例を示すフローチャートである。 予測変換カテゴリデータベースの例を示す図である。 Phraseカテゴリデータベースの例を示す図である。 オリジナルフォームカテゴリデータベースの例を示す図である。 過去修正結果カテゴリデータベースの例を示す図である。 類似音カテゴリデータベースの例を示す図である。 類似意味カテゴリデータベースの例を示す図である。 変換フォームカテゴリデータベースの例を示す図である。 カテゴリごとに表示される修正候補文字列の一例を示す図である。 カテゴリごとに表示される修正候補文字列の他の一例を示す図である。 カテゴリごとに表示される修正候補文字列の他の一例を示す図である。 カテゴリごとに表示される修正候補文字列の他の一例を示す図である。 カテゴリごとに表示される修正候補文字列の他の一例を示す図である。 記号カテゴリデータベースの例を示す図である。 数字カテゴリデータベースの例を示す図である。 アルファベットカテゴリデータベースの例を示す図である。 顔文字カテゴリデータベースの例を示す図である。 カテゴリごとに表示される追加候補文字列の他の一例を示す図である。 修正候補文字列の取得動作の例を示すフローチャートである。 修正候補文字列の取得動作の例を示すフローチャートである。 処理対象の長さを制御する例を説明するための図である。 処理対象の長さの制御動作の例を示すフローチャートである。 処理単位の数を変更する例を説明するための図である。 処理単位の数を変更する他の例を説明するための図である。 処理単位の削除について説明するための図である。 キャレット位置の選択について説明するための図である。 キャレット位置の選択について説明するための図である。 キャレット位置の選択について説明するための図である。 中央領域が選択された場合における動作を説明するための図である。 左側領域が選択された場合における動作を説明するための図である。 右側領域が選択された場合における動作を説明するための図である。 処理単位の表示領域を選択したときの動作の例を示すフローチャートである。 処理単位の表示領域を選択したときの動作の例を示すフローチャートである。 表示部による表示形態の変形例を示す図である。 同実施形態に係る情報処理システムのハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
 なお、説明は以下の順序で行うものとする。
 1.本開示の実施形態
  1.1.システム構成例
  1.2.機能構成例
  1.3.動作の概要
  1.4.画面構成例
  1.5.処理単位の決定
  1.6.文字列の提示
  1.7.処理対象の長さの制御
  1.8.処理単位の数の変更
  1.9.処理単位の削除
  1.10.キャレット位置の選択
  1.11.処理単位の表示領域
  1.12.表示形態の変形例
  1.13.ハードウェア構成例
 2.むすび
 <1.本開示の実施形態>
 [1.1.システム構成例]
 まず、図面を参照しながら本開示の実施形態に係る情報処理システム10の構成例について説明する。図1は、本開示の実施形態に係る情報処理システム10の構成例を示す図である。図1に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、音声入力部120と、表示部130とを備える。情報処理システム10は、ユーザU(以下、単に「ユーザ」とも言う。)によって発せられた音声に対して音声認識を行うことが可能である。
 画像入力部110は、画像を入力する機能を有する。図1に示した例では、画像入力部110は、テーブルTblに埋め込まれた2つのカメラを含んでいる。しかし、画像入力部110に含まれるカメラの数は1以上であれば特に限定されない。かかる場合、画像入力部110に含まれる1以上のカメラそれぞれが設けられる位置も特に限定されない。また、1以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。
 操作入力部115は、ユーザUの操作を入力する機能を有する。図1に示した例では、操作入力部115は、テーブルTblの上方に存在する天井から吊り下げられた1つのカメラを含んでいる。しかし、操作入力部115に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部115はユーザUの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。
 表示部130は、テーブルTblに画面を表示する機能を有する。図1に示した例では、表示部130は、テーブルTblの上方に天井から吊り下げられている。しかし、表示部130が設けられる位置は特に限定されない。また、典型的には、表示部130は、テーブルTblの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。
 なお、本明細書では、テーブルTblの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルTblの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよいし、他の場所にある面であってもよい。また、表示部130が表示面を有する場合には、画面の表示面は、表示部130が有する表示面であってもよい。
 音声入力部120は、音声を入力する機能を有する。図1に示した例では、音声入力部120は、テーブルTblの上方に存在する3つのマイクとテーブルTblの上面に存在する3つのマイクとの合計6つのマイクを含んでいる。しかし、音声入力部120に含まれるマイクの数は1以上であれば特に限定されない。かかる場合、音声入力部120に含まれる1以上のマイクそれぞれが設けられる位置も特に限定されない。ただし、音声入力部120が、複数のマイクを含んでいれば、複数のマイクそれぞれに入力された音声に基づいて音源方向が推定され得る。また、音声入力部120が指向性を有するマイクを含んでいれば、指向性を有するマイクに入力された音声に基づいて音源方向が推定され得る。
 以上、本開示の実施形態に係る情報処理システム10の構成例について説明した。
 [1.2.機能構成例]
 続いて、本開示の実施形態に係る情報処理システム10の機能構成例について説明する。図2は、本開示の実施形態に係る情報処理システム10の機能構成例を示すブロック図である。図2に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、音声入力部120と、表示部130と、情報処理装置140(以下、「制御部140」とも言う。)と、を備える。
 情報処理装置140は、情報処理システム10の各部の制御を実行する。例えば、情報処理装置140は、表示部130から出力する情報を生成する。また、例えば、情報処理装置140は、画像入力部110、操作入力部115および音声入力部120それぞれが入力した情報を、表示部130から出力する情報に反映させる。図2に示したように、情報処理装置140は、入力画像取得部141と、入力音声取得部142と、操作検出部143と、音声認識部144と、処理単位取得部145と、処理部146と、表示制御部147とを備える。これらの各機能ブロックについての詳細は、後に説明する。
 なお、情報処理装置140は、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてもよい。情報処理装置140がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。
 以上、本開示の実施形態に係る情報処理システム10の機能構成例について説明した。
 [1.3.動作の概要]
 続いて、本開示の実施形態に係る情報処理装置140の動作の概要について説明する。図3Aおよび図3Bは、本開示の実施形態に係る情報処理装置140の動作の概要を示すフローチャートである。まず、ユーザが発話を行うと(S11)、入力音声取得部142は、音声入力部120によって入力された音声を入力音声として取得する(S12)。続いて、音声認識部144は、入力音声からノイズ音量を取得する(S13)。ノイズは、入力音声のうちユーザによる発話音声以外の音声に相当し得る。ノイズ音量の取得についての詳細は、後に説明する。
 続いて、音声認識部144は、入力音声に対して音声認識を行うことにより(S14)、入力音声から文字列(以下、「認識文字列」とも言う)を得る(S15)。音声認識部144により用いられる音声認識技術は特に限定されないが、隠れマルコフモデルなどの音声認識技術が用いられてよい。なお、本明細書においては、文字列には一つの文字も含まれ得る。続いて、処理単位取得部145は、ノイズ音量に基づいて認識文字列から1または複数の処理単位を得る(S16)。例えば、処理単位取得部145は、ノイズ音量が大きくなるほど音声認識に誤りが生じる可能性が高まるため、1つ当たりの処理単位は長くするのがよい。そうすれば、処理単位をユーザに選択させる手間を低減することが可能となる。
 一方、例えば、処理単位取得部145は、ノイズ音量が小さくなるほど音声認識に誤りが生じる可能性が低下するため、1つ当たりの処理単位は短くするのがよい。そうすれば、ユーザに音声入力をさせる手間を低減することが可能となる。例えば、認識文字列の言語が、英語、フランス語、ドイツ語などといった、分かち書きされる言語の場合には、処理単位は、単語単位であってもよいし、複数の単語の組み合わせであってもよい。また、認識文字列の言語が、日本語、中国語、韓国語など、分かち書きされない言語の場合には、処理単位は、認識文字列に対して形態素解析を行うことにより得られる形態素単位であってもよいし、自立語と付属語との組み合わせ(文節)単位であってもよいし、所定の文字数で区分された文字列単位であってもよいし、音声入力された文章単位であってもよい。
 また、処理単位取得部145は、認識文字列の文脈に基づいて認識文字列から1または複数の処理単位を得ることも可能である。例えば、処理単位取得部145は、予め登録された辞書データを参照し、認識文字列に含まれる各単語に関して前または後ろの単語との連結のしやすさを算出することにより、意味上一つのまとまりと判定される1以上の単語の組み合わせを、処理単位として区分することもできる。続いて、処理部146は、修正候補文字列を取得する(S17)。修正候補文字列の種類には、後に説明するように様々なカテゴリが存在し得る。
 続いて、表示制御部147は、修正候補文字列を表示部130に表示させることによって修正候補文字列をユーザに提示する(S18)。ここで、所望の認識文字列が得られた場合には(S19において「Yes」)、認識文字列が確定される(S20)。また、処理部146は、所望の認識文字列が得られない場合、かつ、処理種別として削除が選択された場合には(S19において「No(削除)」)、処理対象を削除して、S18に戻る。一方、処理部146は、所望の認識文字列が得られない場合、かつ、処理種別として修正が選択された場合には(S19において「No(修正)」)、処理対象に対する修正を行う(S22)。
 処理対象に対する修正において、処理部146は、新たな文字列を追加する処理(S23)、または、処理対象を文字列により置換する処理(S24)を行う。ここで、処理部146は、処理対象に対して音声による置換(すなわち、音声から認識された文字列による置換)を行った場合には、処理対象が置換された後の認識文字列に対して処理単位の再構築を行う。続いて、処理部146は、音声による修正を行った場合には(S26において「Yes」)、S11に戻るが、音声以外による修正(例えば、修正候補文字列から選択された修正文字列による修正など)を行った場合には(S26において「No」)、S15に戻る。
 以上、本開示の実施形態に係る情報処理装置140の動作の概要について説明した。
 [1.4.画面構成例]
 続いて、表示制御部147が表示部130に表示させる画面の構成例を説明する。図4は、表示制御部147が表示部130に表示させる画面の構成例を示す図である。図4に示すように、画面G10は、文字列が表示される文字列表示欄G11、文字列全削除操作オブジェクトG12、文字列確定操作オブジェクトG13および音声による文字列追加開始操作オブジェクトG14を含む。また、図4に示すように、画面G10は、キャレット位置を前方に移動させるための操作オブジェクトG15、キャレット位置を後方に移動させるための操作オブジェクトG16および処理対象を削除するための操作オブジェクトG17を含む。
 ここで、図4に示すように、音声による文字列追加開始操作オブジェクトG14を選択する操作が操作検出部143によって検出され、入力音声が入力音声取得部142によって取得されると、音声認識部144によって入力音声に対する音声認識が開始される。図5は、ユーザが発話を行っている状態において表示される画面の例を示す図である。図5に示した例では、音声による文字列追加開始操作オブジェクトG14が音声による文字列追加終了操作オブジェクトG23に変化している。
 音声認識部144による音声認識が開始されると、音声認識部144は、入力音声に基づいてユーザUによる発話音量を判定する。ここで、ユーザ発話音量の判定手法は特に限定されない。例えば、音声認識部144は、ユーザによる発話音声の音源方向Duを推定し、ユーザによる発話音声の音源方向Duから入力される音量をユーザ発話音量として判定してよい。なお、ユーザによる発話音声の音源方向Duの推定手法も特に限定されない。
 例えば、音声認識部144は、音声入力部120によって最初に閾値を超える大きさの音量で入力された音声の到来方向をユーザによる発話音声の音源方向として推定してもよい。また、音声認識部144は、閾値を超える大きさの音量で入力された音声の到来方向が複数あった場合には、複数の到来方向のうち音声による文字列追加開始操作オブジェクトG14を選択する操作を行ったユーザの指方向(例えば、指先から指の根元への方向)に一致または類似する1の到来方向をユーザによる発話音声の音源方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。
 また、例えば、音声認識部144は、音声入力部120によって最も大きな音量で入力された音声の到来方向をユーザによる発話音声の音源方向Duとして推定してもよい。あるいは、音声認識部144は、文字列追加開始操作オブジェクトG14を選択する操作を行ったユーザの指方向に一致または類似する1の到来方向をユーザによる発話音声の音源方向Duとして推定してもよい。このとき、音声認識部144は、ユーザによる発話音声の音源方向以外の方向から音声入力部120に入力された音声をノイズとして判定し、ユーザによる発話音声の音源方向Du以外の方向から音声入力部120に入力された音量をノイズ音量として判定してよい。
 そして、表示制御部147は、音声認識が可能な音量(以下、「認識可能音量」とも言う。)をユーザ発話音量が超えている場合に、文字列追加終了操作オブジェクトG23に向かって移動する第1の動きオブジェクトMuを表示部130に表示させればよい。そうすれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能となる。また、表示制御部147は、ユーザによる発話音声の音源方向Duに基づいて第1の動きオブジェクトMuを表示部130に表示させてもよい。そうすれば、自分自身の発話音量が音声認識可能な音量を超えているか否かをユーザにより確実に把握させることが可能となる。
 具体的には、表示制御部147は、ユーザによる発話音声の音源方向Duとは逆向きに第1の動きオブジェクトMuを文字列追加終了操作オブジェクトG23に向かって移動させるとよい。図5に示した例では、ユーザの近隣に次々と出現した円形状のオブジェクトが、ユーザによる発話音声の音源方向Duとは逆向きに移動し、文字列追加終了操作オブジェクトG23に到達すると消失する場合を想定しているが、第1の動きオブジェクトMuの動きは、かかる例に限定されない。また、第1の動きオブジェクトMuの移動先は、文字列追加終了操作オブジェクトG23に限定されず、何らかの表示オブジェクトであればよい。
 [1.5.処理単位の決定]
 このようにして入力音声に対して音声認識がなされることにより認識文字列が得られるが、入力音声に対する音声認識に誤りが生じる可能性もある。図6は、ユーザが入力したい文字列の例と音声認識により得られた認識文字列の例とを示す図である。図6を参照すると、ユーザが入力したい文字列の例として「I drive your car to airports」が示されており、音声認識により得られた文字列の例として「I drove your car to airports」が示されている。そこで、音声認識により得られた文字列に対しては、何らかの処理を施すことが可能であるとよい。
 図7は、認識文字列が表示された画面の例を示す図である。図7に示すように、表示制御部147は、認識文字列「I drove your car to airports」を表示部130に表示させることが可能である。このとき、処理単位取得部145によって認識文字列「I drove your car to airports」から、処理単位U1「I
drove」、処理単位U2「your car」および処理単位U3「to airports」が得られた場合、表示制御部147は、これらの処理単位U1~U3を表示部130に表示させることができる。そうすれば、処理部146は、処理単位U1~U3のいずれかをユーザに選択させ、ユーザによって選択された処理対象を処理することができる。
 なお、図7に示すように、表示制御部147は、処理単位U1の前方にキャレット位置選択用オブジェクトB1を表示させ、処理単位U1と処理単位U2との間にキャレット位置選択用オブジェクトB2を表示させることが可能である。また、表示制御部147は、処理単位U2と処理単位U3との間にキャレット位置選択用オブジェクトB3を表示させ、処理単位U4の前方にキャレット位置選択用オブジェクトB4を表示させることが可能である。そして、表示制御部147は、キャレットCLをキャレット位置選択用オブジェクトB1~B4のいずれかに配置することが可能である。
 図7に示した例では、処理単位取得部145によって認識文字列「I drove your car to airports」から、処理単位U1「I
drove」、処理単位U2「your car」および処理単位U3「to airports」が得られる例について説明した。しかし、入力音声に対する音声認識に誤りが生じる可能性はノイズに応じて変化し得るため、処理単位の数も変化させたほうが、入力音声から認識された文字列に対する処理が効率的になる。そこで、処理単位取得部145は、認識文字列「I drove your car to airports」からノイズに基づいて1または複数の処理単位を得るようにするのがよい。より具体的には、処理単位取得部145は、認識文字列「I drove your car to airports」からノイズ音量に基づいて1または複数の処理単位を得るようにするとよい。
 図8は、認識文字列「I drove your car to airports」からノイズ音量に基づいて1または複数の処理単位を得る例を説明するための図である。上記したように、処理単位取得部145は、ノイズ音量が大きくなるほど音声認識に誤りが生じる可能性が高まるため、図8の「ノイズ音量大」に示したように、処理単位の数を小さくするのがよい。そうすれば、処理単位をユーザに選択させる手間を低減することが可能となる。一方、処理単位取得部145は、ノイズ音量が小さくなるほど音声認識に誤りが生じる可能性が低下するため、図8の「ノイズ音量小」に示したように、処理単位の数を大きくするのがよい。そうすれば、ユーザに音声入力をさせる手間を低減することが可能となる。
 続いて、処理単位の決定動作について説明する。図9および図10は、処理単位の決定動作の例を示すフローチャートである。なお、このフローチャートは、処理単位の決定動作の例を示したに過ぎないため、処理単位の決定動作は、このフローチャートに示した例に限定されない。まず、入力音声取得部142は、入力音声を取得する(S101)。続いて、音声認識部144は、入力音声からノイズ音量を取得する(S102)。そして、音声認識部144は、入力音声に対して音声認識を行って認識文字列を取得する(S103)。
 続いて、処理単位取得部145は、ノイズ音量が閾値Taを下回る場合には(S104において「Yes」)、1文字単位に認識文字列を分割して(S105)、S113に進む。一方、処理単位取得部145は、ノイズ音量が閾値Taを上回る場合には(S104において「No」)、S106に進む。続いて、処理単位取得部145は、ノイズ音量が閾値Tbを下回る場合には(S106において「Yes」)、意味を持つ最小単位に認識文字列を分割して(S107)、S113に進む。一方、処理単位取得部145は、ノイズ音量が閾値Tbを上回る場合には(S106において「No」)、S108に進む。
 続いて、処理単位取得部145は、ノイズ音量が閾値Tcを下回る場合には(S108において「Yes」)、意味を持つ最小単位を一つ以上組み合わせた単位Naに認識文字列を分割して(S109)、S113に進む。一方、処理単位取得部145は、ノイズ音量が閾値Tcを上回る場合には(S108において「No」)、S110に進む。続いて、処理単位取得部145は、ノイズ音量が閾値Tdを下回る場合には(S110において「Yes」)、単位Naを一つ以上組み合わせた単位Nbに認識文字列を分割して(S111)、S113に進む。一方、処理単位取得部145は、ノイズ音量が閾値Tbを上回る場合には(S110において「No」)、認識文字列全体を単位Ncとして(S112)、S113に進む。
 続いて、処理単位取得部145は、上記のようにして認識文字列から生成された各単位を処理単位として決定する(S113)。なお、上記において、処理単位取得部145は、閾値とノイズ音量とが等しい場合、いずれの処理に動作を移行させてもよい。以上に説明したように、処理単位取得部145は、認識文字列からノイズ音量に基づいて1または複数の処理単位を取得し、処理部146は、1または複数の処理単位のいずれかが処理対象として選択された場合、選択された処理対象を処理することが可能である。かかる構成により、認識文字列に対する処理をより効率的に行うことが可能となる。
 [1.6.文字列の提示]
 以上に説明したように、表示制御部147は、処理単位U1~U3を表示部130に表示させ、処理部146は、処理単位U1~U3のいずれかが処理対象として選択された場合、選択された処理対象を処理することができる。例えば、音声による置換操作オブジェクトG25(図18参照)を選択する操作が操作検出部143によって検出され、再度の入力音声が入力音声取得部142によって取得されると、処理部146は、再度の入力音声に対して音声認識を行うことにより得られた認識文字列で処理対象を置換することによって処理対象を修正することが可能である。
 このとき、処理単位取得部145は、ノイズ音量が大きいほど再度の入力音声に対する音声認識に誤りが生じる可能性が高まるため、音声認識の成功率を上げるのがよい。ここで、再度の入力音声が長いほど再度の入力音声に対する音声認識が成功する可能性が高まる。したがって、処理単位取得部145は、ノイズ音量が大きいほど処理単位を長くするのがよい(ノイズ音量が大きいほど処理単位の数を小さくするのがよい)。一方、再度の入力音声が長いほど再度の音声入力に手間が掛かるため、処理単位取得部145は、ノイズ音量が小さいほど処理単位を短くするのがよい(ノイズ音量が小さいほど処理単位の数を大きくするのがよい)。
 しかし、音声認識に誤りが生じた処理対象を音声認識によって修正しようとしても、ユーザによる発話のくせ、ユーザによって発話がなされる環境、音声認識エンジンの性能などによって修正に成功しないことがあり得る。そこで、処理部146は、1または複数の修正候補文字列からユーザによって修正文字列が選択された場合、処理対象を修正文字列で置換することにより処理対象を修正するようにするとよい。より具体的には、表示制御部147は、1または複数の修正候補文字列をカテゴリごとに表示部130に表示させるのがよい。そうすれば、ユーザは1または複数の修正候補文字列をカテゴリごとに探すことが可能となる。
 ここで、修正候補文字列をカテゴリごとにユーザに提供するためのデータベースについて説明する。図11~図17は、修正候補文字列をカテゴリごとにユーザに提供するためのデータベースの例を示す図である。特に、図11は、予測変換カテゴリデータベースの例を示す図である。例えば、形態素または単語に基づいて辞書データなどから予測される連語などが予測変換カテゴリに属する。図12は、Phraseカテゴリデータベースの例を示す図である。例えば、英語が入力された場合、入力された単語に前置詞を追加した文字列、入力された単語を含む熟語などがPhraseカテゴリに属する。また、例えば、日本語が入力された場合、形態素解析によって得られた形態素に助詞を追加した文字列などがPhraseカテゴリに属する。
 図13は、オリジナルフォームカテゴリデータベースの例を示す図である。例えば、英語が入力された場合、名詞の複数形に対する名詞の単数形がオリジナルフォームカテゴリに属し、動詞の過去形に対する動詞の原型がオリジナルフォームカテゴリに属する。また、例えば、日本語が入力された場合、形態素解析によって得られた形態素に対応する読み(平仮名または片仮名)などがオリジナルフォームカテゴリに属する。
 図14は、過去修正結果カテゴリデータベースの例を示す図である。例えば、入力された単語と同一の単語に対して過去に行った修正結果が過去修正結果カテゴリに属する。図15は、類似音カテゴリデータベースの例を示す図である。図16は、類似意味カテゴリデータベースの例を示す図である。図17は、変換フォームカテゴリデータベースの例を示す図である。例えば、英語が入力された場合、単語の原型に対する、複数形、現在進行形、過去形、形容詞化した単語、副詞化した単語、比較級、最上級などが変換フォームカテゴリに属する。また、例えば、日本語が入力された場合、他の漢字候補などが変換フォームカテゴリに属する。
 図18は、カテゴリごとに表示される修正候補文字列の一例を示す図である。図18に示すように、処理単位U1~U3のうち処理単位U1「I drove」を「I drive」に修正するため、ユーザが処理対象として処理単位U1「I drove」を選択する操作を行った場合を想定する。かかる場合においては、表示制御部147は、処理単位U1「I drove」に対応する修正候補文字列を各データベースから取得して、文字列表示欄G18に表示させる。図18に示した文字列表示欄G18には、処理単位U1「I drove」に対応する修正候補文字列として、予測変換カテゴリ、Phraseカテゴリおよびオリジナルカテゴリそれぞれに属する修正候補文字列が表示されている。
 そして、処理部146は、このように表示された修正候補文字列のいずれかを選択する操作が入力された場合、選択された修正候補文字列によって処理対象「I drove」を置換すればよい。例えば、処理部146は、オリジナルフォームカテゴリに表示されている修正候補文字列「I drive」を選択する操作が入力された場合、選択された修正候補文字列「I drive」によって処理対象「I drove」を置換すればよい。なお、表示制御部147は、修正候補文字列のすべてが文字列表示欄G18に収まり切っていないカテゴリのスクロール操作オブジェクトG19を選択する操作に基づいて、そのカテゴリに属する修正候補文字列をスクロール表示させることができる。
 また、表示制御部147は、文字列表示欄G18に表示されるカテゴリを所定の操作に基づいてスクロール表示させることも可能である。図19は、カテゴリごとに表示される修正候補文字列の他の一例を示す図である。図19を参照すると、文字列表示欄G18に表示されるカテゴリがスクロールされた結果、過去修正結果カテゴリに属する修正候補文字列が文字列表示欄G18に表示されている。例えば、処理部146は、過去修正結果カテゴリに表示されている修正候補文字列「I drive」を選択する操作が入力された場合、選択された修正候補文字列「I drive」によって処理対象「I drove」を置換すればよい。
 以上においては、認識文字列「I drove your car to airports」が取得された場合を想定した。続いて、認識文字列「I live in Tokyo」が得られた場合を想定する。図20は、カテゴリごとに表示される修正候補文字列の他の一例を示す図である。図20に示すように、処理単位取得部145によって認識文字列「I live in Tokyo」から、処理単位U1「I live」および処理単位U2「in Tokyo」が得られた場合を想定する。このとき、図20に示したように、表示制御部147は、これらの処理単位U1、U2を表示部130に表示させることができる。
 ここで、処理単位U1、U2のうち処理単位U1「I live」を「I leave」に修正するため、ユーザが処理対象として処理単位U1「I live」を選択する操作を行った場合を想定する。かかる場合においては、表示制御部147は、処理単位U1「I live」に対応する修正候補文字列を各データベースから取得して、文字列表示欄G18に表示させる。図20に示した文字列表示欄G18には、処理単位U1「I live」に対応する修正候補文字列として、類似音カテゴリおよび他認識結果カテゴリそれぞれに属する修正候補文字列が表示されている。
 そして、処理部146は、このように表示された修正候補文字列のいずれかを選択する操作が入力された場合、選択された修正候補文字列によって処理対象「I live」を置換すればよい。例えば、処理部146は、類似音カテゴリに表示されている修正候補文字列「I leave」を選択する操作が入力された場合、選択された修正候補文字列「I leave」によって処理対象「I live」を置換すればよい。
 以上においては、認識文字列「I live in Tokyo」が取得された場合を想定した。続いて、認識文字列「I
view this as credible」が得られた場合を想定する。図21は、カテゴリごとに表示される修正候補文字列の他の一例を示す図である。図21に示すように、処理単位取得部145によって認識文字列「I view this as credible」から、処理単位U1「I view」、処理単位U2「this」および処理単位U3「as credible」が得られた場合を想定する。このとき、図21に示したように、表示制御部147は、これらの処理単位U1~U3を表示部130に表示させることができる。
 ここで、処理単位U1、U2のうち処理単位U1「I view」を修正するため、ユーザが処理対象として処理単位U1「I view」を選択する操作を行った場合を想定する。かかる場合においては、表示制御部147は、処理単位U1「I view」に対応する修正候補文字列を各データベースから取得して、文字列表示欄G18に表示させる。図21に示した文字列表示欄G18には、処理単位U1「I view」に対応する修正候補文字列として、類似意味カテゴリに属する修正候補文字列が表示されている。
 そして、処理部146は、このように表示された修正候補文字列のいずれかを選択する操作が入力された場合、選択された修正候補文字列によって処理対象「I view」を置換すればよい。例えば、処理部146は、類似意味カテゴリに表示されている修正候補文字列「I consider」を選択する操作が入力された場合、選択された修正候補文字列「I
consider」によって処理対象「I live」を置換すればよい。
 以上においては、認識文字列「I view this as credible」が取得された場合を想定した。続いて、認識文字列「Help me」が得られた場合を想定する。図22は、カテゴリごとに表示される修正候補文字列の他の一例を示す図である。図22に示すように、処理単位取得部145によって認識文字列「Help me」から、処理単位U1「Help」および処理単位U2「me」が得られた場合を想定する。このとき、図22に示したように、表示制御部147は、これらの処理単位U1、U2を表示部130に表示させることができる。
 ここで、ユーザが処理対象として処理単位U1「Help」を選択する操作を行った場合を想定する。かかる場合においては、表示制御部147は、処理単位U1「Help」に対応する修正候補文字列を各データベースから取得して、文字列表示欄G18に表示させる。図22に示した文字列表示欄G18には、処理単位U1「Help」に対応する修正候補文字列として、変換フォームカテゴリに属する修正候補文字列が表示されている。
 そして、処理部146は、このように表示された修正候補文字列のいずれかを選択する操作が入力された場合、選択された修正候補文字列によって処理対象「Help」を置換すればよい。しかし、ユーザは、認識文字列「Help me」に対して特に修正を施す必要がないと考え直したときは、文字列確定操作オブジェクトG13を選択する操作を行えばよい。文字列確定操作オブジェクトG13を選択する操作が検出された場合、処理部146は、認識文字列「Help me」を確定すればよい。
 以上、修正候補文字列の例について説明したが、追加候補文字列がユーザに提示されてもよい。追加候補文字列は、記号、数字、アルファベットなどといった一文字であってもよいし、これらの組み合わせにより成り立つ顔文字などであってもよい。記号、数字、アルファバット、顔文字などは、音声認識エンジンの性能によっては入力できない場合または音声認識エンジンによっては入力が困難である場合などがあるため、追加候補文字列として、これらの記号、数字、アルファバット、顔文字などを表示させることはユーザにとって有用である。
 具体的な処理として、処理部146は、1または複数の追加候補文字列からユーザによって追加文字列が選択された場合、認識文字列に追加文字列を追加するとよい。追加文字列の追加先は、キャレットCLが存在する位置であってよい。このとき、表示制御部147は、1または複数の追加候補文字列をカテゴリごとに表示部130に表示させるのがよい。そうすれば、ユーザは1または複数の追加候補文字列をカテゴリごとに探すことが可能となる。
 続いて、記号、数字、アルファバット、顔文字といった追加候補文字列をカテゴリごとにユーザに提供するためのデータベースについて説明する。図23~図26は、追加候補文字列をカテゴリごとにユーザに提供するためのデータベースの例を示す図である。特に、図23は、記号カテゴリデータベースの例を示す図である。図24は、数字カテゴリデータベースの例を示す図である。図25は、アルファベットカテゴリデータベースの例を示す図である。図26は、顔文字カテゴリデータベースの例を示す図である。
 図27は、カテゴリごとに表示される追加候補文字列の他の一例を示す図である。図27に示すように、キャレット位置選択用オブジェクトB4に顔文字を追加するため、ユーザが追加位置としてキャレット位置選択用オブジェクトB4を選択する操作を行った場合を想定する。かかる場合においては、表示制御部147は、追加候補文字列を各データベースから取得して、文字列表示欄G18に表示させる。図27に示した文字列表示欄G18には、追加候補文字列として、数字カテゴリ、アルファベットカテゴリおよび顔文字カテゴリそれぞれに属する追加候補文字列が表示されている。
 そして、処理部146は、このように表示された追加候補文字列のいずれかを選択する操作が入力された場合、選択された追加候補文字列をキャレット位置選択用オブジェクトB4の位置に追加すればよい。例えば、処理部146は、顔文字カテゴリに表示されている追加候補文字列「(-_-)」を選択する操作が入力された場合、選択された追加候補文字列「(-_-)」をキャレット位置選択用オブジェクトB4に追加すればよい。なお、表示制御部147は、追加候補文字列のすべてが文字列表示欄G18に収まり切っていないカテゴリのスクロール操作オブジェクトG19を選択する操作に基づいて、そのカテゴリに属する追加候補文字列をスクロール表示させることができる。
 続いて、修正候補文字列の取得動作について説明する。図28および図29は、修正候補文字列の取得動作の例を示すフローチャートである。なお、このフローチャートは、修正候補文字列の取得動作の例を示したに過ぎないため、修正候補文字列の取得動作は、このフローチャートに示した例に限定されない。まず、処理部146は、文字列A(処理単位)を取得し(S201)、文字列Aから意味を持つ最小単位の文字列群Bを取得する。続いて、処理部146は、オリジナルフォームカテゴリデータベースから文字列Aに対応するオリジナルフォーム文字列Cを取得する。(S203)。
 続いて、処理部146は、文字列群Bに属する文字列に補助文字列Dを追加して補助追加文字列Eを取得する(S204)。文字列群Bが英語の場合、補助文字列Dには、前置詞などが該当し得る。また、文字列群Bが日本語の場合、補助文字列Dには、助詞などが該当し得る。続いて、処理部146は、変換フォームカテゴリデータベースからオリジナルフォーム文字列Cに対応する変換フォーム文字列Fを取得する(S205)。続いて、処理部146は、予測変換カテゴリデータベースから文字列Aに対応する予測変換フォーム文字列Gを取得する(S206)。
 続いて、処理部146は、類似音カテゴリデータベースから文字列群Bに対応する類似音フォーム情報Hを取得する(S207)。続いて、処理部146は、文字列Aの他に認識された結果を他認識結果Jとして取得する(S208)。続いて、処理部146は、過去修正結果カテゴリデータベースから文字列Aに対応する過去修正結果Kを取得する(S209)。続いて、処理部146は、類似意味カテゴリデータベースから文字列Aに対応する類似意味文字列Lを取得する(S210)。
 以上のようにして取得された文字列(例えば、オリジナルフォーム文字列C、補助追加文字列E、変換フォーム文字列F、予測変換フォーム文字列G、類似音フォーム情報H、過去修正結果K、他認識結果J、過去修正結果K、類似意味文字列Lなど)は、修正候補文字列として、表示部130に表示され得る。なお、それぞれの文字列が取得される順序は、図28および図29のフローチャートに示した順序に限定されない。
 [1.7.処理対象の長さの制御]
 上記したように、処理対象は再度の入力音声に対する音声認識によって修正され得る。しかし、再度の入力音声に対する音声認識により処理対象を修正する場合、処理対象を長くしてから修正すると修正成功率が向上し得る。そこで、処理部146は、処理対象を再度の入力音声によって修正する旨が選択された場合、処理対象の長さを制御してよい。例えば、処理部146は、処理対象を再度の入力音声によって修正する旨が選択された場合、処理対象を長くしてもよい。
 図30は、処理対象の長さを制御する例を説明するための図である。図30を参照すると、処理単位取得部145によって認識文字列「I
drove your car to airports」から、処理単位U1「I drove」、処理単位U2「your car」および処理単位U3「to airports」が得られ、表示制御部147は、これらの処理単位U1~U3を表示部130に表示させている。ここで、音声による置換操作オブジェクトG24を選択する操作がなされ、図30に示すように、処理単位U2が処理対象として選択された場合、処理部146は、処理対象を処理単位U2と処理単位U2の前後にある処理単位U1、U3とを含んだ新たな処理対象としてよい。
 なお、ここでは、処理部146は、処理対象を再度の入力音声によって修正する旨が選択された場合、処理対象の前後に隣接する処理単位を含むように処理対象を長くする例について説明したが、処理対象をどの程度長くするかについては特に限定されない。また、処理対象の長さをユーザに把握させるため、表示制御部147は、処理対象の長さを制御した後、制御された後の処理対象の長さに応じた音声入力を促すメッセージを表示部130に表示させてもよい。図30に示された例では、表示制御部147は、処理対象が処理単位U1~処理単位U3の三処理単位分に拡張されたため、「三つの処理単位をつなげて発話してください」というメッセージを表示させている。
 また、ノイズ音量に応じて再度の入力音声に対する音声認識に誤りが生じる可能性が変化し得る。そこで、処理部146は、処理対象を音声によって修正する旨が選択された場合、ノイズ音量に基づいて処理対象の長さを制御してもよい。より具体的には、ノイズ音量が大きくなるほど再度の入力音声に対する音声認識に誤りが生じる可能性が高まると考えられる。そこで、処理部146は、処理対象を音声によって修正する旨が選択された場合、ノイズ音量が大きいほど処理対象を長くするとよい。
 また、処理部146は、処理対象を音声によって修正する旨が選択された場合、処理対象に近い単語から順次に処理対象に含めるか否かを決定するに際して品詞に応じて処理対象に単語を含めるか否かを決定してもよい。例えば、複数の名詞は同時ではなく別々に処理したいと考えるのが一般的であるため、表示制御部147は、2つ目の名詞にたどり着く手前の単語までは処理対象に含めるが、2つ目の名詞は処理対象に含めないようにしてよい。
 続いて、処理対象の長さの制御動作について説明する。図31は、処理対象の長さの制御動作の例を示すフローチャートである。なお、このフローチャートは、処理対象の長さの制御動作の例を示したに過ぎないため、処理対象の長さの制御動作は、このフローチャートに示した例に限定されない。まず、処理部146は、処理対象の選択に伴って修正インタラクションを起動する(S301)。処理部146は、ノイズ音量を利用しない場合には(S302において「No」)、S307に動作を移行させる。
 一方、音声認識部144は、ノイズ音量を利用する場合には(S303において「Yes」)、入力音声からノイズ音量を取得し(S303)、処理部146は、ノイズ音量が閾値Haを下回る場合には(S304において「Yes」)、選択された処理対象に処理単位を追加せずに(S305)、動作を終了させる。一方、処理部146は、ノイズ音量が閾値Haを上回る場合には(S304において「No」)、S306に動作を移行させる。
 続いて、処理部146は、ノイズ音量が閾値Hbを上回る場合には(S306において「No」)、認識文字列に含まれるすべての処理単位を1つの新たな処理単位とし(S308)、動作を終了させる。一方、処理部146は、ノイズ音量が閾値Hbを下回る場合には(S306において「Yes」)選択された処理対象の前後の処理対象を処理対象に追加して1つの新たな処理単位とし(S307)、動作を終了させる。
 [1.8.処理単位の数の変更]
 以上においては、ノイズ音量が大きいほど処理単位を長くする例(ノイズ音量が大きいほど処理単位の数を小さくする例)について説明したが、音声認識に誤りが生じていない文字列がユーザの想定よりも多く一つの処理単位に含まれてしまう場合もあり得る。そこで、処理単位取得部145は、所定の変更操作が入力された場合、1または複数の処理単位の少なくともいずれか一つに含まれる処理単位の数を変更してもよい。例えば、処理単位取得部145は、所定の変更操作がなされた位置に基づいて分割対象の処理単位および処理単位の分割位置を決定し、分割対象の処理単位を分割位置において分割すればよい。
 図32は、処理単位の数を変更する例を説明するための図である。図32を参照すると、処理単位取得部145によって、処理単位U0「I drove your car to
airports every day」が得られた例が示されている。かかる状況において、ユーザが処理単位U0「I
drove your car to airports every day」を「I drove your car」と「to airports every day」との間で分割したいと考えた場合、図32に示したように、「I drove your car」と「to airports every day」との間に対して所定の変更操作を行えばよい。所定の変更操作は特に限定されず、例えば、ダブルタップであってもよいし、ロングタップであってもよい。
 また、図32に示したように、処理単位取得部145は、操作検出部143によって所定の変更操作が検出された場合、所定の変更操作がなされた位置に基づいて分割対象の処理単位を処理対象U0に決定するとともに分割位置を「I drove your car」と「to airports every day」との間に決定すればよい。そして、処理単位取得部145は、分割対象の処理単位U0を分割位置において分割することによって、処理単位U1「I drove your car」および処理単位U2「to airports every day」を得ればよい。
 また、他の例として、処理単位取得部145は、所定の変更操作がなされた位置に基づいて分割対象の処理単位を決定し、分割対象の処理単位を所定の分割単位に分割してもよい。所定の分割単位は、意味を持つ最小単位であってよい。意味を持つ最小単位は、認識文字列の言語が分かち書きされない言語の場合には、形態素単位であってもよいし、認識文字列の言語が分かち書きされる言語の場合には、単語単位であってもよい。
 図33は、処理単位の数を変更する他の例を説明するための図である。図33を参照すると、処理単位取得部145によって、処理単位U0「I drove your car to
airports every day」が得られた例が示されている。かかる状況において、ユーザが処理単位U0「I
drove your car to airports every day」を分割したいと考えた場合、図33に示したように、処理単位U0「I drove your car to airports every day」に対して所定の変更操作を行えばよい。所定の変更操作は特に限定されず、例えば、ダブルタップであってもよいし、ロングタップであってもよい。
 また、図33に示したように、処理単位取得部145は、操作検出部143によって所定の変更操作が検出された場合、所定の変更操作がなされた位置に基づいて分割対象の処理単位を決定すればよい。そして、処理単位取得部145は、分割対象の処理単位U0を単語単位に分割することによって、処理単位U1「I」、処理単位U2「drove」、処理単位U3「your」、処理単位U4「car」、処理単位U5「to」、処理単位U6「airports」、処理単位U7「every」および処理単位U8「day」を得ればよい。
 [1.9.処理単位の削除]
 上記においては、処理対象を置換する例を説明したが、処理対象を削除できるようにするとユーザにとって利便性が高い。したがって、処理部146は、処理対象を削除すべき旨が選択された場合、処理対象を削除してもよい。図34は、処理単位の削除について説明するための図である。例えば、処理部146は、図34に示すように、処理対象として処理単位U3「to airports」が選択されている状態において、処理対象を削除するための操作オブジェクトG17を選択する操作が検出された場合、処理単位U3「to airports」を削除してもよい。
 [1.10.キャレット位置の選択]
 上記においては、キャレットが存在する位置に追加文字列を追加する例について説明した。かかる例において、ユーザが追加文字列の追加を行いたい場合などには、キャレットの位置を指定する必要が生じる。このとき、ユーザはドラッグ操作によってキャレットを指定しようとしてしまうことがある。特に画面上のオブジェクトを移動させるためにドラッグ操作を行うことが要求される端末(例えば、スマートフォンなど)に慣れているユーザは、キャレットの位置を指定するためにドラッグ操作を行おうとする可能性がある。
 しかし、ドラッグ操作を検出することが困難な状況もあり得る。例えば、ユーザの視線によってユーザの操作を検出する場合には、ユーザの視線に基づいてドラッグ操作を検出する必要がありドラッグ操作の検出精度が向上しない可能性がある。また、例えば、画像の解析によってユーザの操作を検出する場合には、画像の解析結果に基づいてユーザのドラッグ操作を検出する必要がありドラッグ操作の検出精度が向上しない可能性がある。そこで、キャレット位置の指定を選択操作(例えば、タップ操作)によって行うことができるようにするとよい。
 具体的には、表示制御部147は、表示されたキャレット位置選択用オブジェクトが選択された場合、キャレット位置選択用オブジェクトが存在する位置をキャレットの位置として選択するとよい。図35は、キャレット位置の選択について説明するための図である。例えば、図35に示すように、処理単位U3が処理対象として選択されている状態において、キャレット位置選択用オブジェクトB4に対する選択操作がなされると、表示制御部147は、キャレットCLの位置としてキャレット位置選択用オブジェクトB4の位置を選択するとよい。
 図36は、キャレット位置の選択について説明するための図である。例えば、図36に示すように、処理単位U3が処理対象として選択されている状態において、キャレット位置選択用オブジェクトB3に対する選択操作がなされると、表示制御部147は、キャレットCLの位置としてキャレット位置選択用オブジェクトB4の位置を選択するとよい。
 図37は、キャレット位置の選択について説明するための図である。図37に示すように、キャレットCLの位置が位置選択用オブジェクトB4の位置である状態において、キャレット位置を前方に移動させるための操作オブジェクトG15に対する選択操作がなされると、表示制御部147は、キャレットCLの位置として位置選択用オブジェクトB4の前方にあるキャレット位置選択用オブジェクトB3の位置を選択するとよい。
 [1.11.処理単位の表示領域]
 上記においては、ユーザによって選択操作がなされたキャレット位置選択用オブジェクトの位置がキャレットの位置として選択される例を説明した。しかし、キャレット位置選択用オブジェクトに対して正確に選択操作を行うことが困難な状況もあり得る。例えば、ユーザの視線によってユーザの操作を検出する場合には、ユーザの視線に基づいて選択操作を検出する必要があり選択操作の検出精度が向上しない可能性がある。また、例えば、画像の解析によってユーザの操作を検出する場合には、画像の解析結果に基づいてユーザの選択操作を検出する必要があり選択操作の検出精度が向上しない可能性がある。そこで、キャレット位置の指定をタップ操作によって行うことができるようにするとよい。
 具体的には、処理単位の表示領域が、左側領域、中央領域および右側領域を含むようにし、左側領域は、処理単位の左側に位置するキャレット位置選択用オブジェクトの選択領域であり、中央領域は、処理単位の選択領域であり、右側領域は、処理単位の右側に位置するキャレット位置選択用オブジェクトの選択領域であるとするのがよい。以下、左側領域、中央領域および右側領域それぞれが選択された場合における動作の例を順に説明する。
 図38は、中央領域R0が選択された場合における動作を説明するための図である。図38に示すように、処理単位U1の表示領域は、左側領域R1、中央領域R0および右側領域R2を含んでいる。ここで、図38に示すように、中央領域R0を選択する操作が検出された場合、処理部146は、処理単位U1を処理対象として選択してよい。なお、左側領域R1、中央領域R0および右側領域R2それぞれの長さは特に限定されないが、処理部146は、処理単位U1の長さに応じて、左側領域R1および右側領域R2それぞれの長さを制御してもよい。
 例えば、処理単位U1の長さが閾値を上回る場合には、左側領域R1および右側領域R2それぞれに対する選択操作が同じ程度に行いやすいと考えられる。そこで、処理部146は、処理単位U1の長さが閾値を上回る場合には、左側領域R1および右側領域R2を同サイズにしてよい。一方、例えば、処理単位U1の長さが閾値を下回る場合には、ユーザの利き腕側の領域に対する選択領域が行いやすいと考えられる。そこで、処理部146は、処理単位U1の長さが閾値を下回る場合には、左側領域R1および右側領域R2のうち、利き腕とは反対側の領域をユーザの利き腕側の領域よりも狭くするとよい。
 ユーザの利き腕はどのようにして取得されてもよいが、一例として、処理部146は、音声による文字列追加開始操作オブジェクトG14を選択する操作を行ったユーザの指が左右どちらの指であるかによって利き腕を判定してもよい。例えば、処理部146は、画像入力部110によって入力された入力画像から、音声による文字列追加開始操作オブジェクトG14を選択する操作を行ったユーザの指の形状を判定し、指の形状に基づいてユーザの指が左右どちらの指であるかを判定し、判定結果に基づいて利き腕を判定してもよい。
 図39は、左側領域R1が選択された場合における動作を説明するための図である。図39に示すように、左側領域R1を選択する操作が検出された場合、処理部146は、処理単位U1の左側に位置するキャレット位置選択用オブジェクトB1をキャレットCLの位置として選択してよい。図40は、右側領域R2が選択された場合における動作を説明するための図である。図40に示すように、右側領域R2を選択する操作が検出された場合、処理部146は、処理単位U1の右側に位置するキャレット位置選択用オブジェクトB2をキャレットCLの位置として選択してよい。
 続いて、処理単位の表示領域を選択したときの動作について説明する。図41および図42は、処理単位の表示領域を選択したときの動作の例を示すフローチャートである。なお、このフローチャートは、処理単位の表示領域を選択したときの動作の例を示したに過ぎないため、処理単位の表示領域を選択したときの動作は、このフローチャートに示した例に限定されない。まず、処理部146は、Flgにfalseを設定し(S401)、処理単位の長さを取得する(S402)。続いて、処理部146は、処理単位の長さが閾値Zaを下回る場合には(S403において「No」)、左側領域R1と右側領域R2とを同サイズに設定し、両領域間を中央領域R0として設定する(S404)。一方、処理部146は、処理単位の長さが閾値Zaを上回る場合には(S403において「Yes」)、左側領域R1を右側領域R2よりも広いサイズに設定し(S405)、両領域間を中央領域R0として設定し、Flgにtrueを設定する(S406)。
 続いて、処理部146は、ユーザによるインタラクション情報を取得し(S407)、インタラクションの左右情報を取得する(S408)。処理部146は、インタラクションがユーザの右手によってなされた場合には(S409において「Yes」)、S412に動作を移行させるが、インタラクションがユーザの左手によってなされた場合には(S409において「No」)、Flgにfalseが設定されている場合(S410において「No」)、S412に動作を移行させるが、Flgにtrueが設定されている場合(S410において「Yes」)、右側領域R2を左側領域R1よりも広いサイズに設定し、両領域間を中央領域R0として設定する(S411)。
 続いて、処理部146は、インタラクション位置を取得し(S412)、インタラクション位置が中央領域R0の内部である場合には(S413において「Yes」)、処理単位を処理対象として選択し(S414)、動作を終了させる。一方、表示制御部147は、インタラクション位置が左側領域R1の内部である場合には(S413において「No」、S415において「Yes」)、処理単位の左側にキャレットを移動させ、動作を終了させる。
 また、表示制御部147は、インタラクション位置が右側領域R2の内部である場合には(S413において「No」、S415において「No」、S417において「Yes」)、処理単位の右側にキャレットを移動させ、動作を終了させる。処理部146は、インタラクション位置が、中央領域R0、左側領域R1および右側領域R2のいずれの内部でもない場合には(S413において「No」、S415において「No」、S417において「No」)、動作を終了させる。
 [1.12.表示形態の変形例]
 上記においては、表示部130がテーブルTblの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、表示部130による表示形態は、かかる例に限定されない。図43は、表示部130による表示形態の変形例を示す図である。図43に示すように、情報処理システム10が携帯端末である場合に、表示部130は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。
 [1.13.ハードウェア構成例]
 次に、図44を参照して、本開示の実施形態に係る情報処理システム10のハードウェア構成について説明する。図44は、本開示の実施形態に係る情報処理システム10のハードウェア構成例を示すブロック図である。
 図44に示すように、情報処理システム10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理システム10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理システム10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理システム10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理システム10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
 入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理システム10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
 出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro-Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理システム10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
 ストレージ装置919は、情報処理システム10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理システム10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
 接続ポート923は、機器を情報処理システム10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理システム10と外部接続機器929との間で各種のデータが交換され得る。
 通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
 撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ935は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理システム10の筐体の姿勢など、情報処理システム10自体の状態に関する情報や、情報処理システム10の周辺の明るさや騒音など、情報処理システム10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
 以上、情報処理システム10のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
 <2.むすび>
 以上説明したように、本開示の実施形態によれば、第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズ音量に基づいて1または複数の処理単位を得る処理単位取得部145と、1または複数の処理単位のいずれかが処理対象として選択された場合、処理対象を処理する処理部146と、を備える、情報処理装置140が提供される。かかる構成によれば、入力音声から認識された文字列に対する処理をより効率的に行うことが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記においては、表示部130による表示形態の変形例を説明したが、表示部130による表示形態は、上記した例に限定されない。例えば、表示部130は、ヘッドマウントディスプレイ以外のウェアラブル端末(例えば、時計、眼鏡など)に備わるディスプレイであってもよい。また、例えば、表示部130は、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、表示部130は、ヘルスケア分野において利用されるディスプレイであってもよい。
 また、上記では、処理単位取得部145が認識文字列からノイズ音量に基づいて1または複数の処理単位を得る例を主に説明した。しかし、ノイズ音量の代わりに他のノイズに関する情報が用いられてもよい。例えば、処理単位取得部145は、認識文字列からノイズの音圧に基づいて1または複数の処理単位を得てもよい。かかる場合、処理単位取得部145は、ノイズの音圧が大きいほど処理単位の数を小さくしてよい。また、例えば、処理単位取得部145は、認識文字列からノイズの音圧レベルに基づいて1または複数の処理単位を得てもよい。かかる場合、処理単位取得部145は、ノイズの音圧レベルが大きいほど処理単位の数を小さくしてよい。
 あるいは、処理単位取得部145は、認識文字列からノイズの周波数に基づいて1または複数の処理単位を得てもよい。
 また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した情報処理システム10が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
 また、表示制御部147は、表示部130に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を表示部130に出力することで、当該表示内容が表示部130に表示されるように表示部130を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。
 具体的な一例として、情報処理装置140を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
 なお、上述した情報処理システム10の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部110、操作入力部115および音声入力部120と表示部130と情報処理装置140とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置140が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部110、操作入力部115および音声入力部120と表示部130とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズに基づいて1または複数の処理単位を得る処理単位取得部と、
 前記1または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、
 を備える、情報処理装置。
(2)
 前記処理単位取得部は、前記第1の認識文字列からノイズ音量に基づいて前記1または複数の処理単位を得る、
 前記(1)に記載の情報処理装置。
(3)
 前記処理単位取得部は、前記ノイズ音量が大きいほど前記処理単位の数を小さくする、
 前記(2)に記載の情報処理装置。
(4)
 前記情報処理装置は、前記1または複数の処理単位が表示部によって表示されるように前記表示部を制御する表示制御部を備える、
 前記(1)~前記(3)のいずれか一項に記載の情報処理装置。
(5)
 前記処理部は、1または複数の修正候補文字列から修正文字列が選択された場合、前記処理対象を前記修正文字列で置換することにより前記処理対象を修正する、
 前記(4)に記載の情報処理装置。
(6)
 前記表示制御部は、前記1または複数の修正候補文字列をカテゴリごとに前記表示部に表示させる、
 前記(5)に記載の情報処理装置。
(7)
 前記処理部は、1または複数の追加候補文字列から追加文字列が選択された場合、前記追加文字列をキャレットが存在する位置に追加する、
 前記(4)に記載の情報処理装置。
(8)
 前記表示制御部は、前記1または複数の追加候補文字列をカテゴリごとに前記表示部に表示させる、
 前記(7)に記載の情報処理装置。
(9)
 前記処理単位取得部は、所定の変更操作が入力された場合、前記1または複数の処理単位の少なくともいずれか一つに含まれる処理単位の数を変更する、
 前記(1)~前記(8)のいずれか一項に記載の情報処理装置。
(10)
 前記処理部は、第2の入力音声が入力された場合、前記第2の入力音声に対して音声認識を行うことにより得られた第2の認識文字列で前記処理対象を置換することにより前記処理対象を修正する、
 前記(1)~前記(9)のいずれか一項に記載の情報処理装置。
(11)
 前記表示制御部は、キャレット位置選択用オブジェクトが選択された場合、前記キャレット位置選択用オブジェクトが存在する位置をキャレットの位置として選択する、
 前記(4)に記載の情報処理装置。
(12)
 前記処理単位の表示領域は、左側領域、中央領域および右側領域を含み、
 前記左側領域は、前記処理単位の左側に位置する前記キャレット位置選択用オブジェクトの選択領域であり、前記中央領域は、前記処理単位の選択領域であり、前記右側領域は、前記処理単位の右側に位置する前記キャレット位置選択用オブジェクトの選択領域である、
 前記(11)に記載の情報処理装置。
(13)
 前記処理部は、前記処理単位の長さに応じて、前記左側領域および前記右側領域それぞれの長さを制御する、
 前記(12)に記載の情報処理装置。
(14)
 前記処理部は、前記処理対象を削除すべき旨が選択された場合、前記処理対象を削除する、
 前記(1)~前記(13)のいずれか一項に記載の情報処理装置。
(15)
 前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、前記処理対象の長さを制御する、
 前記(4)に記載の情報処理装置。
(16)
 前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、ノイズ音量に基づいて前記処理対象の長さを制御する、
 前記(15)に記載の情報処理装置。
(17)
 前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、ノイズ音量が大きいほど前記処理対象を長くする、
 前記(16)に記載の情報処理装置。
(18)
 前記表示制御部は、前記処理対象の長さを制御した後、制御された後の前記処理対象の長さに応じた音声入力を促すメッセージを前記表示部に表示させる、
 前記(16)に記載の情報処理装置。
(19)
 前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、前記処理対象の前方および後方の少なくともいずれか一方に存在する単語の品詞に応じて前記処理対象に前記単語を含めるか否かを決定する、
 前記(15)に記載の情報処理装置。
(20)
 前記処理単位取得部は、前記第1の認識文字列からノイズの音圧に基づいて前記1または複数の処理単位を得る、
 前記(1)に記載の情報処理装置。
(21)
 前記処理単位取得部は、前記第1の認識文字列からノイズの音圧レベルに基づいて前記1または複数の処理単位を得る、
 前記(1)に記載の情報処理装置。
(22)
 第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズに基づいて1または複数の処理単位を得ることと、
 前記1または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理することと、
 を含む、情報処理方法。
(23)
 コンピュータを、
 第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズに基づいて1または複数の処理単位を得る処理単位取得部と、
 前記1または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、
 を備える情報処理装置として機能させるためのプログラム。
 10  情報処理システム
 110 画像入力部
 115 操作入力部
 120 音声入力部
 130 表示部
 140 情報処理装置(制御部)
 141 入力画像取得部
 142 入力音声取得部
 143 操作検出部
 144 音声認識部
 145 処理単位取得部
 146 処理部
 147 表示制御部
 B1~B4 キャレット位置選択用オブジェクト
 CL  キャレット
 R0  中央領域
 R1  左側領域
 R2  右側領域
 U0~U8 処理単位

Claims (23)

  1.  第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズに基づいて1または複数の処理単位を得る処理単位取得部と、
     前記1または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、
     を備える、情報処理装置。
  2.  前記処理単位取得部は、前記第1の認識文字列からノイズ音量に基づいて前記1または複数の処理単位を得る、
     請求項1に記載の情報処理装置。
  3.  前記処理単位取得部は、前記ノイズ音量が大きいほど前記処理単位の数を小さくする、
     請求項2に記載の情報処理装置。
  4.  前記情報処理装置は、前記1または複数の処理単位が表示部によって表示されるように前記表示部を制御する表示制御部を備える、
     請求項1に記載の情報処理装置。
  5.  前記処理部は、1または複数の修正候補文字列から修正文字列が選択された場合、前記処理対象を前記修正文字列で置換することにより前記処理対象を修正する、
     請求項4に記載の情報処理装置。
  6.  前記表示制御部は、前記1または複数の修正候補文字列をカテゴリごとに前記表示部に表示させる、
     請求項5に記載の情報処理装置。
  7.  前記処理部は、1または複数の追加候補文字列から追加文字列が選択された場合、前記追加文字列をキャレットが存在する位置に追加する、
     請求項4に記載の情報処理装置。
  8.  前記表示制御部は、前記1または複数の追加候補文字列をカテゴリごとに前記表示部に表示させる、
     請求項7に記載の情報処理装置。
  9.  前記処理単位取得部は、所定の変更操作が入力された場合、前記1または複数の処理単位の少なくともいずれか一つに含まれる処理単位の数を変更する、
     請求項1に記載の情報処理装置。
  10.  前記処理部は、第2の入力音声が入力された場合、前記第2の入力音声に対して音声認識を行うことにより得られた第2の認識文字列で前記処理対象を置換することにより前記処理対象を修正する、
     請求項1に記載の情報処理装置。
  11.  前記表示制御部は、キャレット位置選択用オブジェクトが選択された場合、前記キャレット位置選択用オブジェクトが存在する位置をキャレットの位置として選択する、
     請求項4に記載の情報処理装置。
  12.  前記処理単位の表示領域は、左側領域、中央領域および右側領域を含み、
     前記左側領域は、前記処理単位の左側に位置する前記キャレット位置選択用オブジェクトの選択領域であり、前記中央領域は、前記処理単位の選択領域であり、前記右側領域は、前記処理単位の右側に位置する前記キャレット位置選択用オブジェクトの選択領域である、
     請求項11に記載の情報処理装置。
  13.  前記処理部は、前記処理単位の長さに応じて、前記左側領域および前記右側領域それぞれの長さを制御する、
     請求項12に記載の情報処理装置。
  14.  前記処理部は、前記処理対象を削除すべき旨が選択された場合、前記処理対象を削除する、
     請求項1に記載の情報処理装置。
  15.  前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、前記処理対象の長さを制御する、
     請求項4に記載の情報処理装置。
  16.  前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、ノイズ音量に基づいて前記処理対象の長さを制御する、
     請求項15に記載の情報処理装置。
  17.  前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、ノイズ音量が大きいほど前記処理対象を長くする、
     請求項16に記載の情報処理装置。
  18.  前記表示制御部は、前記処理対象の長さを制御した後、制御された後の前記処理対象の長さに応じた音声入力を促すメッセージを前記表示部に表示させる、
     請求項16に記載の情報処理装置。
  19.  前記処理部は、前記処理対象を音声によって修正する旨が選択された場合、前記処理対象の前方および後方の少なくともいずれか一方に存在する単語の品詞に応じて前記処理対象に前記単語を含めるか否かを決定する、
     請求項15に記載の情報処理装置。
  20.  前記処理単位取得部は、前記第1の認識文字列からノイズの音圧に基づいて前記1または複数の処理単位を得る、
     請求項1に記載の情報処理装置。
  21.  前記処理単位取得部は、前記第1の認識文字列からノイズの音圧レベルに基づいて前記1または複数の処理単位を得る、
     請求項1に記載の情報処理装置。
  22.  第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズに基づいて1または複数の処理単位を得ることと、
     前記1または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理することと、
     を含む、情報処理方法。
  23.  コンピュータを、
     第1の入力音声に対して音声認識を行うことにより得られた第1の認識文字列からノイズに基づいて1または複数の処理単位を得る処理単位取得部と、
     前記1または複数の処理単位のいずれかが処理対象として選択された場合、前記処理対象を処理する処理部と、
     を備える情報処理装置として機能させるためのプログラム。
PCT/JP2015/073747 2014-12-02 2015-08-24 情報処理装置、情報処理方法およびプログラム WO2016088411A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP15864434.4A EP3229231A4 (en) 2014-12-02 2015-08-24 Information-processing apparatus, information-processing method, and program
CN201580064715.6A CN107004406A (zh) 2014-12-02 2015-08-24 信息处理设备、信息处理方法及程序
US15/528,878 US10540968B2 (en) 2014-12-02 2015-08-24 Information processing device and method of information processing

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-243904 2014-12-02
JP2014243904A JP2016109725A (ja) 2014-12-02 2014-12-02 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2016088411A1 true WO2016088411A1 (ja) 2016-06-09

Family

ID=56091369

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/073747 WO2016088411A1 (ja) 2014-12-02 2015-08-24 情報処理装置、情報処理方法およびプログラム

Country Status (5)

Country Link
US (1) US10540968B2 (ja)
EP (1) EP3229231A4 (ja)
JP (1) JP2016109725A (ja)
CN (1) CN107004406A (ja)
WO (1) WO2016088411A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3506256A4 (en) * 2016-08-26 2019-08-21 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2018043137A1 (ja) * 2016-08-31 2019-06-24 ソニー株式会社 情報処理装置及び情報処理方法
WO2018043139A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP6700338B2 (ja) * 2018-06-19 2020-05-27 ソフトバンク株式会社 情報処理装置、情報処理方法、情報処理プログラム
JP7243106B2 (ja) * 2018-09-27 2023-03-22 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278591A (ja) * 2001-03-22 2002-09-27 Sharp Corp 情報処理装置および情報処理方法、並びに、プログラム記録媒体
JP2007264229A (ja) * 2006-03-28 2007-10-11 Toshiba Corp 対話装置
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3002204B2 (ja) * 1989-03-13 2000-01-24 株式会社東芝 時系列信号認識装置
JP3384478B2 (ja) * 1996-01-22 2003-03-10 富士ゼロックス株式会社 画像形成装置における騒音マスキング装置および騒音マスキング方法
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
EP1704558B8 (en) * 2004-01-16 2011-09-21 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
US7783028B2 (en) * 2004-09-30 2010-08-24 International Business Machines Corporation System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
US8510109B2 (en) * 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US7725316B2 (en) * 2006-07-05 2010-05-25 General Motors Llc Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle
JP4854630B2 (ja) * 2007-09-13 2012-01-18 富士通株式会社 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
US20090112588A1 (en) * 2007-10-31 2009-04-30 International Business Machines Corporation Method for segmenting communication transcripts using unsupervsed and semi-supervised techniques
US8224656B2 (en) * 2008-03-14 2012-07-17 Microsoft Corporation Speech recognition disambiguation on mobile devices
KR101616054B1 (ko) * 2009-04-17 2016-04-28 삼성전자주식회사 음성 검출 장치 및 방법
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
KR101695816B1 (ko) * 2010-07-19 2017-01-13 엘지전자 주식회사 이동 단말기 및 그 제어방법
WO2012102130A1 (ja) * 2011-01-27 2012-08-02 株式会社ニコン 撮像装置、プログラム、記録媒体およびノイズ低減方法
CN102629470B (zh) * 2011-02-02 2015-05-20 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
JP5768492B2 (ja) * 2011-05-18 2015-08-26 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2013068532A (ja) * 2011-09-22 2013-04-18 Clarion Co Ltd 情報端末、サーバー装置、検索システムおよびその検索方法
JP5845787B2 (ja) * 2011-09-30 2016-01-20 ブラザー工業株式会社 音声処理装置、音声処理方法、および音声処理プログラム
KR101457116B1 (ko) * 2011-11-07 2014-11-04 삼성전자주식회사 음성 인식 및 모션 인식을 이용한 전자 장치 및 그의 제어 방법
US9583108B2 (en) * 2011-12-08 2017-02-28 Forrest S. Baker III Trust Voice detection for automated communication system
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
US9070374B2 (en) * 2012-02-20 2015-06-30 JVC Kenwood Corporation Communication apparatus and condition notification method for notifying a used condition of communication apparatus by using a light-emitting device attached to communication apparatus
WO2013132926A1 (ja) * 2012-03-06 2013-09-12 日本電信電話株式会社 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
US9401140B1 (en) * 2012-08-22 2016-07-26 Amazon Technologies, Inc. Unsupervised acoustic model training
WO2014041607A1 (ja) * 2012-09-11 2014-03-20 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US20140278389A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
US9378737B2 (en) * 2012-11-05 2016-06-28 Mitsubishi Electric Corporation Voice recognition device
KR102023008B1 (ko) * 2012-12-10 2019-09-19 엘지전자 주식회사 음성-텍스트 변환 디스플레이 장치 및 그 방법
JP6263868B2 (ja) * 2013-06-17 2018-01-24 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9443507B2 (en) * 2013-07-15 2016-09-13 GM Global Technology Operations LLC System and method for controlling a speech recognition system
US9424843B2 (en) * 2013-09-24 2016-08-23 Starkey Laboratories, Inc. Methods and apparatus for signal sharing to improve speech understanding
US9779724B2 (en) * 2013-11-04 2017-10-03 Google Inc. Selecting alternates in speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278591A (ja) * 2001-03-22 2002-09-27 Sharp Corp 情報処理装置および情報処理方法、並びに、プログラム記録媒体
JP2007264229A (ja) * 2006-03-28 2007-10-11 Toshiba Corp 対話装置
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP3229231A4 *
TAKANOBU OBA: "Analysis of the Relation between Grammar and Recognition Accuracy in Spoken Dialogues under Different Noisy Environments", IEICE TECHNICAL REPORT, vol. 103, no. 517, 2003, XP009503361 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3506256A4 (en) * 2016-08-26 2019-08-21 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Also Published As

Publication number Publication date
US20170337920A1 (en) 2017-11-23
JP2016109725A (ja) 2016-06-20
EP3229231A4 (en) 2018-07-25
US10540968B2 (en) 2020-01-21
EP3229231A1 (en) 2017-10-11
CN107004406A (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
US10698604B2 (en) Typing assistance for editing
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
US11640503B2 (en) Input method, input device and apparatus for input
WO2016088411A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11935517B2 (en) Speech decoding method and apparatus, computer device, and storage medium
KR101819457B1 (ko) 음성 인식 장치 및 시스템
WO2016152200A1 (ja) 情報処理システムおよび情報処理方法
US20170270092A1 (en) System and method for predictive text entry using n-gram language model
JP6922920B2 (ja) 情報処理装置及び情報処理方法
WO2016103809A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11501504B2 (en) Method and apparatus for augmented reality
CN107424612B (zh) 处理方法、装置和机器可读介质
JP7208968B2 (ja) 情報処理方法、装置および記憶媒体
WO2017203764A1 (ja) 情報処理装置および情報処理方法
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
JP2018072509A (ja) 音声読み上げ装置、音声読み上げシステム、音声読み上げ方法、およびプログラム
JP6572969B2 (ja) 音声認識装置、音声認識システム、及び、プログラム
JP2005108079A (ja) かな文字入力装置、かな文字入力方法、プログラムおよび記録媒体
CN117669602A (zh) 语义评价模型的训练方法及流式文本的机器翻译方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15864434

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2015864434

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE