WO2017203764A1 - 情報処理装置および情報処理方法 - Google Patents
情報処理装置および情報処理方法 Download PDFInfo
- Publication number
- WO2017203764A1 WO2017203764A1 PCT/JP2017/006281 JP2017006281W WO2017203764A1 WO 2017203764 A1 WO2017203764 A1 WO 2017203764A1 JP 2017006281 W JP2017006281 W JP 2017006281W WO 2017203764 A1 WO2017203764 A1 WO 2017203764A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- calibration
- voice
- information processing
- result
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 70
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 61
- 238000004458 analytical method Methods 0.000 claims description 78
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 abstract description 18
- 238000004891 communication Methods 0.000 description 21
- 230000001915 proofreading effect Effects 0.000 description 20
- 238000003384 imaging method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 241000143060 Americamysis bahia Species 0.000 description 1
- 241000277269 Oncorhynchus masou Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Definitions
- the present disclosure relates to an information processing apparatus and an information processing method.
- a voice recognition system recognizes a user speech as text, parses the recognized text, and executes a command according to the analysis result.
- Patent Document 1 describes a speech recognition correction method for correcting a speech recognition result using context information.
- the context information includes a history of user input and a conversation history.
- the present disclosure proposes an information processing apparatus and an information processing method capable of realizing sentence correction by speech input.
- an information processing apparatus comprising: a transmission unit that transmits voice information including a text calibration command and a calibration target; and a receiving unit that receives the calibration command and a processing result based on the calibration target.
- an information processing apparatus comprising: a receiving unit that receives speech calibration commands and speech information including a calibration target; and a transmission unit that transmits processing results based on the calibration commands and the calibration targets.
- an information processing method including: transmitting, by a processor, voice information including a text calibration command and a calibration target; and receiving an analysis result based on the calibration command and the calibration target. Do.
- an information processing method including: receiving, by a processor, voice information including a text calibration command and a calibration target; and transmitting an analysis result based on the calibration command and the calibration target. Do.
- FIG. 1 It is a figure which shows an example of the analysis result of the calibration information which considered the user speech and context information by this embodiment. It is a figure which shows an example of the final output result with respect to the user speech shown in FIG. It is a flowchart which shows the operation processing of the information processing system by this embodiment. It is a figure which shows the other system configuration by this embodiment. It is a block diagram which shows an example of a structure of the edge server by this embodiment.
- FIG. 1 is a diagram for explaining an outline of an information processing system according to the present embodiment.
- the information processing system according to the present embodiment includes a client terminal 1 and a server 2.
- the client terminal 1 and the server 2 are connected, for example, via the network 3 to transmit and receive data.
- the information processing system is a speech recognition system that realizes character input by speech, and performs speech recognition and text analysis of user's speech collected by the client terminal 1, and transmits text to the client terminal 1 as an analysis result. Output.
- the client terminal 1 may be, for example, a smartphone, a tablet terminal, a mobile phone terminal, a wearable terminal, a personal computer, a game machine, a music player, or the like.
- kanji since kanji has homonyms, it is necessary to switch to a physical character input interface because the target kanji can not be output in one conversion or the kanji desired by the user can not be output.
- the information processing system realizes sentence correction by voice input, and does not require complicated operations such as switching to a physical character input interface at the time of correction. Specifically, the information processing system according to the present embodiment determines whether a calibration utterance or a normal utterance is performed in text analysis of a user utterance, and analyzes calibration information in the case of a calibration utterance.
- FIG. 2 is a block diagram showing an example of the configuration of the client terminal 1 according to the present embodiment.
- the client terminal 1 (information processing apparatus) includes a control unit 10, a voice input unit 11, an imaging unit 12, a sensor 13, a communication unit 14, a display unit 15, and a storage unit 16.
- the control unit 10 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the client terminal 1 according to various programs.
- the control unit 10 is realized by, for example, an electronic circuit such as a central processing unit (CPU) or a microprocessor.
- the control unit 10 may include a ROM (Read Only Memory) that stores programs to be used, operation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters and the like that appropriately change.
- ROM Read Only Memory
- RAM Random Access Memory
- the control unit 10 transmits the voice of the user speech input from the voice input unit 11 from the communication unit 14 to the server 2 via the network 3.
- the form of voice information to be transmitted may be collected voice data (raw data), or may be feature amount data (phoneme string, etc. processed to some extent) extracted from the collected voice data It may be a text analysis result of voice data collected.
- the text analysis result of the voice data is, for example, the result of analysis of the calibration command portion and the calibration target portion included in the voice of the user's speech. Such analysis may be performed by the local text analysis unit 102 described below.
- “calibration command” indicates what kind of calibration should be performed on the calibration target, and, for example, correction of the input character string such as deletion, substitution, addition, etc.
- the “calibration target” indicates the target of the calibration command.
- control unit 10 uses the communication unit 14 as a context information from the communication unit 14 as context information, for a captured image of a user operation captured by the imaging unit 12 at the time of user utterance and sensor information (touch information to a screen, etc.) Transmit to server 2 via 3.
- the form of the context information to be transmitted may be the acquired captured image or sensor information (raw data), or feature amount data (processed to some extent such as vectorization) extracted from the acquired captured image or sensor information It may be an analysis result (recognition result) of the acquired captured image or sensor information.
- the analysis result of the captured image or the sensor information is, for example, a result of recognition of the user's operation or operation.
- the control unit 10 can also function as the local speech recognition unit 101, the local text analysis unit 102, and the local final output determination unit 103, as shown in FIG.
- the local speech recognition unit 101 performs speech recognition on the speech signal of the user speech input from the speech input unit 11, and converts the user speech into text.
- the local speech recognition unit 101 according to the present embodiment is a subset of the speech recognition unit 201 of the server 2 described later, and has a simple speech recognition function.
- the local text analysis unit 102 analyzes a character string converted into text by speech recognition. Specifically, the local text analysis unit 102 refers to the calibration utterance data stored in advance in the storage unit 16 and analyzes whether the character string is a simple character input utterance (normal utterance) or a calibration utterance. Do. The local text analysis unit 102 outputs a proof speech likelihood, a proof target in the case of a proof speech and a proof command. The corrected utterance likeness is calculated as a score indicating the certainty factor. Also, the local text analysis unit 102 may output a plurality of candidates together with the score.
- the local text analysis unit 102 may perform analysis in consideration of a captured image captured by the imaging unit 12 at the time of user utterance and other sensor information (acceleration sensor information, touch sensor information, etc.) detected by the sensor 13. Good. Further, the local text analysis unit 102 according to the present embodiment is a subset of the text analysis unit 202 of the server 2 described later, and has a simple analysis function. Specifically, since the amount of proofreading speech data used in the local text analysis unit 102 is smaller than the amount of data held in the server 2, for example, the proofreading term “deleted” can be understood, but “I want to delete” The words "I want you to erase them” can not be understood as proofreading terms.
- the local final output determination unit 103 has a function of determining what is ultimately output. For example, the local final output determination unit 103 determines whether the user utterance is a normal utterance or a calibration utterance based on a specific keyword (for example, “calibration mode” or “switch”) extracted by speech recognition or a text analysis result. . When it is determined that the speech is a normal utterance, the local final output determination unit 103 outputs the voice-recognized character string on the screen of the display unit 15 as it is.
- a specific keyword for example, “calibration mode” or “switch”
- the local final output determination unit 103 performs a calibration process of the input sentence based on the calibration target and the calibration command analyzed by the local text analysis unit 102, and displays the calibration result Output on 15 screens.
- the local final output determination unit 103 may determine which analysis result to use with reference to the score indicating the certainty factor of each candidate.
- the local final output determination unit 103 is a subset of the final output determination unit 203 of the server 2 described later, and has a simple determination function.
- the control unit 10 can increase the processing speed by performing processing with local subsets such as the local speech recognition unit 101, the local text analysis unit 102, and the local final output determination unit 103. It is not limited.
- the control unit 10 transmits data to the server 2 to make a processing request when a subset can not perform sufficient processing or an error occurs, and receives processing results from the server 2 and uses them. Good.
- the control unit 10 transmits data to the server 2 to make a processing request, performs processing also on a subset, waits for the processing result from the server 2 for a predetermined time, or refers to a score indicating the certainty factor of each processing result To select the data to be used.
- the voice input unit 11 picks up a user voice and surrounding environmental sound, and outputs a voice signal to the control unit 10.
- the voice input unit 11 is realized by a microphone, an amplifier, and the like.
- the voice input unit 11 may be realized by a microphone array composed of a plurality of microphones.
- the imaging unit 12 captures an area around the face of the user and an operation, and outputs a captured image to the control unit 10.
- the imaging unit 12 includes a lens system including an imaging lens, an aperture, a zoom lens, and a focus lens, a drive system that causes the lens system to perform a focusing operation and a zooming operation, and imaging light obtained by the lens system.
- a solid-state imaging element array that photoelectrically converts to generate an imaging signal.
- the solid-state imaging device array may be realized by, for example, a charge coupled device (CCD) sensor array or a complementary metal oxide semiconductor (CMOS) sensor array.
- CCD charge coupled device
- CMOS complementary metal oxide semiconductor
- the sensor 13 is a generic term for various sensors other than the imaging unit 12 (imaging sensor), and may be, for example, an acceleration sensor, a gyro sensor, or a touch sensor provided on the screen of the display unit 15.
- the sensor 13 outputs the detected sensor information to the control unit 10.
- the communication unit 14 is a communication module that transmits / receives data to / from another device by wired / wireless communication.
- the communication unit 14 is, for example, a wired LAN (Local Area Network), wireless LAN, Wi-Fi (Wireless Fidelity (registered trademark), infrared communication, Bluetooth (registered trademark), short distance / non-contact communication, etc. Communicate directly with or through a network access point.
- the display unit 15 is realized by, for example, a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device, or the like.
- the display unit 15 displays information on the display screen according to the control of the control unit 10.
- the storage unit 16 stores programs and the like for the control unit 10 to execute various processes.
- the storage unit 16 includes a storage medium, a recording apparatus for recording data in the storage medium, a reading apparatus for reading data from the storage medium, and a storage apparatus including a deletion apparatus for deleting data recorded in the storage medium. .
- the configuration of the client terminal 1 according to the present embodiment has been specifically described above.
- the configuration of the client terminal 1 according to the present embodiment is not limited to the example shown in FIG.
- the client terminal 1 may not have all or part of the local speech recognition unit 101, the local text analysis unit 102, and the local final output determination unit 103.
- the information processing system including the client terminal 1 and the server 2 is described in this embodiment, a single information processing apparatus having each configuration described with reference to FIGS. 2 to 3 as a client module and a server module. It may be realized by Alternatively, the configuration of the client terminal 1 has the same function as each configuration (the speech recognition unit 201, the text analysis unit 202, and the final output determination unit 203) of the control unit 20 of the server 2 described with reference to FIG. It may be
- FIG. 3 is a block diagram showing an example of the configuration of the server 2 according to the present embodiment.
- the server 2 information processing apparatus
- the server 2 includes a control unit 20, a communication unit 21, and a calibration utterance DB (database) 22.
- the control unit 20 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the server 2 according to various programs.
- the control unit 20 is realized by, for example, an electronic circuit such as a central processing unit (CPU) or a microprocessor.
- the control unit 20 may also include a ROM (Read Only Memory) that stores programs to be used, operation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters and the like that change appropriately.
- ROM Read Only Memory
- RAM Random Access Memory
- the control unit 20 performs voice recognition processing, text analysis processing, and final output determination processing based on the voice of the user's speech received from the client terminal 1, and the processing result (voice recognition result, text analysis result, or calibration information (for example, Control is performed to transmit the calibration result) to the client terminal 1.
- the control unit 20 can also function as a speech recognition unit 201, a text analysis unit 202, and a final output determination unit 203, as shown in FIG.
- the speech recognition unit 201 performs speech recognition on the speech signal of the user speech transmitted from the client terminal 1 and converts the user speech into text.
- the text analysis unit 202 analyzes a character string converted into text by speech recognition. Specifically, the text analysis unit 202 refers to the calibration utterance data stored in advance in the calibration utterance DB 22 and analyzes whether the character string is a simple character input utterance (normal utterance) or a calibration utterance. . The text analysis unit 202 outputs a proofreading likelihood, a proofreading target in the case of a proofreading utterance, and a proofreading command. The corrected utterance likeness is calculated as a score indicating the certainty factor. In addition, the text analysis unit 202 may output a plurality of candidates together with the score. Furthermore, the text analysis unit 202 may analyze in consideration of context information (captured image and sensor information) in the case of the user's utterance transmitted from the client terminal 1.
- context information captured image and sensor information
- the analysis of the calibration information is not limited to the method of using the calibration utterance DB 22 generated in advance. For example, it is possible to improve the analysis accuracy of the calibration information using machine learning.
- the final output determination unit 203 has a function of determining what will be output finally. For example, the final output determination unit 203 determines whether the user utterance is a normal utterance or a calibration utterance based on a specific keyword (for example, “calibration mode” or “switch”) extracted by speech recognition or a text analysis result. When there are a plurality of analysis results, the final output determination unit 203 may determine which analysis result to use with reference to the score indicating the certainty factor of each candidate.
- a specific keyword for example, “calibration mode” or “switch”
- the final output determination unit 203 transmits the voice-recognized character string from the communication unit 21 to the client terminal 1.
- the final output determination unit 203 is analyzed by the text analysis unit 202, processes the calibration target based on the calibration command finally determined, and uses the calibration result as calibration information from the communication unit 21 to the client terminal. Send to 1.
- the final output determination unit 203 analyzes a captured image obtained by capturing an action of the user by the imaging unit 12 transmitted from the client terminal 1 as context information, and detects a motion of the body registered in advance, The normal input mode and the sentence proofreading mode may be switched. Alternatively, the final output determination unit 203 analyzes sensor information detected by the sensor 13 transmitted from the client terminal 1 as context information, and performs a motion registered in advance (for example, shaking the screen, touching the screen, etc. ) May be detected, and switching between the normal input mode and the sentence proofreading mode may be performed.
- a motion registered in advance for example, shaking the screen, touching the screen, etc.
- the final output determination unit 203 can also determine whether or not it is a calibration utterance by combining the text analysis result of the user utterance with the captured image and the sensor information. For example, when the final output determination unit 203 utters “delete all from here” while showing the characters displayed on the screen, the final output determination unit 203 analyzes the uttered content and the operation showing the characters on the screen , Judge that the sentence proofreading mode.
- FIG. 4 is a diagram showing a specific example in the case of designating the type of character to be input by voice.
- the speech recognition unit 201 when the user's utterance is "Katana no Tokitawa", the speech recognition unit 201 outputs a character string such as "Katakana Tokyo Tower” by speech recognition.
- the speech recognition character string may be output as "Katakana's Tokyo Tower” as it is.
- the speech recognition unit 201 outputs a character string such as “M only capital Michael” by speech recognition.
- the character string which has been speech-recognized may be output as "M only uppercase Michael” as it is.
- text analysis is performed on the voice-recognized character string with reference to the calibration speech data, and from the speech recognition result, “M only upper case” is designated as the character type specification “alphabet upper case” calibration specification And analyze "Michael” as a calibration target.
- the final output result is “Michael”.
- FIG. 5 is a view showing a specific example in the case of designating the kanji conversion of the character to be inputted by speech.
- the voice recognition unit 201 uses a voice recognition to read characters such as "paid leave child child”. Output a column
- the voice-recognized character string may be output as "child of a paid vacation”.
- the speech recognition unit 201 recognizes the character "Swanbird is Tottori Tori" by speech recognition. Output a column
- the text of the speech recognition may be output as "the swan bird is taking a tottori" as it is.
- text analysis is performed on the voice-recognized character string with reference to the calibration utterance data, and "Swanbird is Tottori Toritake” is analyzed as the kanji calibration designation from the voice recognition result. Analyze swan as a calibration target.
- the final output result is “white-out” represented by the user-desired kanji. Even when there are other kanji candidates corresponding to the sound "Shiratori", it becomes possible to input the kanji desired by the user.
- FIG. 6 is a diagram showing an example of analysis results of user speech and calibration information according to the present embodiment.
- the speech recognition unit 201 uses speech recognition to “place the following case”. I'm going to erase the whole thing from the bottom and continue studying.
- the voice-recognized character string may be output as "It is under consideration and all the following matters are continuously considered.”
- text analysis is performed on the voice-recognized character string with reference to the calibration speech data, and from the speech recognition result, "Calibration designation: correction to" Continuous study "," Calibration target: " Analyze "After the case”.
- FIG. 7 is a diagram showing an example of the final output result for the user speech shown in FIG. As shown in FIG. 7, in the input sentence displayed on the screen 30, the screen 31 in which “following item” and the subsequent items are deleted and corrected to “continuing examination” is output as a final output result.
- calibration analysis can be performed by performing text analysis in consideration of a captured image and sensor information acquired at the time of user utterance.
- FIG. 8 is a view showing an example of the analysis result of the calibration information in consideration of the user utterance and the context information according to the present embodiment.
- the speech recognition unit 201 outputs a character string such as "here” in the morning by speech recognition.
- sensor information indicating position coordinates (x, y) on the screen detected by the touch sensor of the display unit 15 when the user speaks is acquired.
- FIG. 8 is a diagram showing an example of the final output result for the user speech shown in FIG. As shown in FIG. 8, in the input sentence displayed on the screen 32, the character “PM” corresponding to the coordinates (x, y) touched by the user is deleted and the screen is corrected to “AM” 33 is output as the final output result.
- the coordinate position on the screen is detected by the touch sensor, but the present embodiment is not limited to this, and can be similarly realized as long as the line of sight of the user can be accurately grasped. That is, for example, at the time of the user utterance "this place is in the morning", the position on the screen at which the user is gazing is detected by the line-of-sight sensor (line-of-sight tracker) and considered as context information.
- the line-of-sight sensor line-of-sight tracker
- the communication unit 21 is connected to an external device to transmit and receive data.
- the communication unit 21 receives voice information and context information of the user's speech from the client terminal 1, transmits the above-described voice recognition processing result, text analysis processing result, or final output determination processing result to the client terminal 1. Do.
- the calibration utterance DB 22 is a storage unit for storing calibration utterance data collected in large amounts in advance, and is stored in a storage medium, a recording device for recording data in the storage medium, a reading device for reading out data from the storage medium, and a storage medium It comprises a storage device including a deletion device and the like for deleting the stored data.
- the calibration utterance data includes, for example, a keyword or a sentence example used for the calibration utterance.
- FIG. 10 is a flowchart showing operation processing of the information processing system according to the present embodiment. The following process may be performed by at least one of the control unit 10 of the client terminal 1 and the control unit 20 of the server 2.
- a user utterance (voice information) is acquired (step S100), and voice recognition is performed on the user utterance (step S103).
- step S106 text analysis is performed on the character string output by speech recognition. Specifically, with reference to the proofreading utterance data, the proofreading likeliness of the character string and analysis of the proofreading information in the case of the proofreading utterance are performed. Context information acquired at the time of user utterance may be used.
- a final output is determined based on the text analysis result (step S109). Also in this case, context information acquired at the time of user utterance may be used.
- step S112 when it is determined to be a normal utterance by final output determination, the character string of the speech recognition result is output as it is (step S112).
- step S115 if it is determined that the final output is determined to be a proofreading utterance, sentence proofreading is performed, and a proofreading result is output (step S115).
- FIG. 11 is a diagram showing another system configuration according to the present embodiment. As shown in FIG. 11, as another system configuration, one including a client terminal 1, a server 2, and an edge server 4 can be considered.
- the edge server 4 includes a control unit 40, a communication unit 41, and an edge-side calibration utterance DB 42.
- the control unit 40 also functions as an edge side speech recognition unit 401, an edge side text analysis unit 402, and an edge side final output determination unit 403.
- the edge side speech recognition unit 401 is a subset of the speech recognition unit 201 of the server 2 (hereinafter referred to as an external subset), and the edge side text analysis unit 402 is an external subset of the text analysis unit 202 and is edge side
- the final output determination unit 403 is an external subset of the final output determination unit 203.
- the edge server 4 is a medium-sized processing server compared to the server 2, the edge server 4 is disposed near the client terminal 1 in terms of communication distance, and can reduce communication delay with higher accuracy than the client terminal 1. It is.
- the client terminal 1 transmits data to the edge server 4 to make a processing request when a sufficient process can not be performed with an own subset or when an error occurs, receives a processing result from the edge server 4, and uses it You may Alternatively, the client terminal 1 transmits data to the edge server 4 and the server 2 to make a processing request, performs processing even on a subset possessed by itself, and waits for the processing result from the edge server 4 and the server 2 for a predetermined time, The data to be used may be selected with reference to the score indicating the degree of certainty of each processing result.
- a computer program for causing the hardware such as the CPU, ROM, and RAM built in the above-described client terminal 1 or server 2 to exhibit the functions of the client terminal 1 or server 2.
- a computer readable storage medium storing the computer program is also provided.
- a transmitting unit that transmits voice information including a text calibration command and a calibration target
- a receiving unit that receives processing results based on the calibration command and the calibration target
- An information processing apparatus comprising: (2) The information processing apparatus according to (1), wherein the voice information is collected user voice data. (3) The information processing apparatus according to (1), wherein the voice information is feature amount data extracted from collected user voice data. (4) The information processing apparatus according to (1), wherein the voice information is data indicating a calibration command and a calibration target recognized from the collected user voice data.
- the transmission unit transmits context information at the time of voice input together with the voice information,
- the information processing apparatus according to any one of (1) to (4), wherein the receiving unit receives a processing result based on the calibration command, the calibration target, and the context information.
- the context information is sensor information in which an operation of a user is detected.
- the context information is feature amount data extracted from sensor information in which a user's operation is detected.
- the context information is data indicating a result of recognition from sensor information in which a user's operation is detected.
- the processing result received by the receiving unit may include at least one of a speech recognition result of the transmitted speech information, a text analysis result, or a calibration command included in the speech information and calibration information based on a calibration target.
- the information processing apparatus according to any one of (1) to (8).
- the calibration information includes a calibration result obtained by processing a calibration target based on a finally determined calibration command.
- a receiving unit that receives voice information including a text calibration command and a calibration target; A transmitting unit for transmitting processing results based on the calibration command and the calibration target;
- An information processing apparatus comprising: (13) The processing result transmitted by the transmission unit includes at least one of a voice recognition result of the received voice information, a text analysis result, or a calibration instruction included in the voice information and calibration information based on a calibration target (12 The information processing apparatus according to the above. (14) The information processing apparatus according to (13), wherein the processing result includes data indicating a certainty factor of the processing result. (15) The information processing apparatus according to (13) or (14), wherein the calibration information includes a calibration result obtained by processing a calibration target based on a finally determined calibration command.
- the receiving unit receives, together with the voice information, context information at the time of voice input, The information processing apparatus according to any one of (12) to (15), wherein the transmission unit transmits a processing result based on the calibration command, the calibration target, and the context information.
- Processor is Transmitting voice information including a text calibration command and a calibration target; Receiving an analysis result based on the calibration command and the calibration target;
- Information processing methods including: (18) Processor is Receiving voice information including a text calibration command and a calibration target; Transmitting an analysis result based on the calibration command and the calibration target;
- Information processing methods including:
- Reference Signs List 1 client terminal 10 control unit 101 local speech recognition unit 102 local text analysis unit 103 local final output determination unit 11 speech input unit 12 imaging unit 13 sensor 14 communication unit 15 display unit 16 storage unit 2 server 20 control unit 201 speech recognition unit 202 Text analysis unit 203 Final output determination unit 21 Communication unit 22 Calibration utterance DB Reference Signs List 3 network 4 edge server 40 control unit 401 edge side speech recognition unit 402 edge side text analysis unit 403 edge side final output determination unit 41 communication unit 42 edge side calibration utterance DB
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】音声入力による文章校正を実現することが可能な情報処理装置および情報処理方法を提供する。 【解決手段】文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、を備える、情報処理装置。
Description
本開示は、情報処理装置および情報処理方法に関する。
近年、音声によるコマンド入力の技術が発達してきている。音声によるコマンド入力では、例えば音声認識システムにより、ユーザ発話をテキスト認識し、認識したテキストの構文解析を行い、解析結果に従ってコマンドが実行される。このような音声認識システムに関し、例えば下記特許文献1には、音声認識結果をコンテキスト情報を用いて修正する音声認識修正方法が記載されている。コンテキスト情報には、ユーザ入力の履歴や会話履歴が含まれている。
しかしながら、音声により文字入力を行っている場合、文字の削除や訂正、入力する文字の種類の切り替え等は物理的な文字入力インターフェースからの操作が必要であったり、削除や訂正等を音声で行うと音声認識結果としてそのまま文字入力されてしまったりする。
そこで、本開示では、音声入力による文章校正を実現することが可能な情報処理装置および情報処理方法を提案する。
本開示によれば、文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、を備える、情報処理装置を提案する。
本開示によれば、文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、を備える、情報処理装置を提案する。
本開示によれば、プロセッサが、文章の校正指令と校正ターゲットを含む音声情報を送信することと、前記校正指令と校正ターゲットに基づく解析結果を受信することと、を含む、情報処理方法を提案する。
本開示によれば、プロセッサが、文章の校正指令と校正ターゲットを含む音声情報を受信することと、前記校正指令と校正ターゲットに基づく解析結果を送信することと、を含む、情報処理方法を提案する。
以上説明したように本開示によれば、音声入力による文章校正を実現することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、説明は以下の順序で行うものとする。
1.本開示の一実施形態による情報処理システムの概要
2.構成
2-1.クライアント端末の構成
2-2.サーバの構成
3.動作処理
4.他のシステム構成
5.まとめ
1.本開示の一実施形態による情報処理システムの概要
2.構成
2-1.クライアント端末の構成
2-2.サーバの構成
3.動作処理
4.他のシステム構成
5.まとめ
<<1.本開示の一実施形態による情報処理システムの概要>>
まず、本開示の一実施形態による情報処理システムの概要について説明する。図1は、本実施形態による情報処理システムの概要を説明する図である。図1に示すように、本実施形態による情報処理システムは、クライアント端末1とサーバ2を含む。クライアント端末1とサーバ2は、例えばネットワーク3を介して接続され、データの送受信を行う。
まず、本開示の一実施形態による情報処理システムの概要について説明する。図1は、本実施形態による情報処理システムの概要を説明する図である。図1に示すように、本実施形態による情報処理システムは、クライアント端末1とサーバ2を含む。クライアント端末1とサーバ2は、例えばネットワーク3を介して接続され、データの送受信を行う。
本実施形態による情報処理システムは、音声による文字入力を実現する音声認識システムであって、クライアント端末1で収音したユーザ発話の音声認識、テキスト解析を行い、解析結果としてテキストをクライアント端末1に出力する。
クライアント端末1は、例えばスマートフォン、タブレット端末、携帯電話端末、ウェアラブル端末、パーソナルコンピュータ、ゲーム機、音楽プレイヤー等であってもよい。
ここで、既存の音声認識システムでは、文字の種類の切り替え(大文字、小文字、ローマ字、数字、平仮名、片仮名等の切り替え)を音声で行うことが困難であり、物理的な文字入力インターフェースからの操作が必要であった。また、入力した文章の校正を行う際、文章の削除や挿入、訂正等の入力を音声で行うと、音声認識結果としてそのまま文字入力されてしまうため、音声での校正が困難であった。
また、漢字には同音異義語があるため、一度の変換では目的の漢字が出てこなかったり、ユーザが望む漢字が出せないため物理的な文字入力インターフェースへ切り替えたりしなければならなかった。
そこで、本実施形態による情報処理システムは、音声入力による文章校正を実現し、校正の際に物理的な文字入力インターフェースへ切り替えるといった煩雑な操作を不要にする。具体的には、本実施形態による情報処理システムは、ユーザ発話のテキスト解析において校正発話か通常発話かの判断を行い、校正発話だった場合の校正情報を分析する。
以上、本実施形態による情報処理システムの概要について説明した。続いて、本実施形態による情報処理システムに含まれる各装置の構成について図2~図3を参照して説明する。
<<2.構成>>
<2-1.クライアント端末の構成>
図2は、本実施形態によるクライアント端末1の構成の一例を示すブロック図である。図2に示すように、クライアント端末1(情報処理装置)は、制御部10、音声入力部11、撮像部12、センサ13、通信部14、表示部15、および記憶部16を有する。
<2-1.クライアント端末の構成>
図2は、本実施形態によるクライアント端末1の構成の一例を示すブロック図である。図2に示すように、クライアント端末1(情報処理装置)は、制御部10、音声入力部11、撮像部12、センサ13、通信部14、表示部15、および記憶部16を有する。
制御部10は、演算処理装置および制御装置として機能し、各種プログラムに従ってクライアント端末1内の動作全般を制御する。制御部10は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部10は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
制御部10は、音声入力部11から入力されたユーザ発話の音声を、通信部14からネットワーク3を介してサーバ2へ送信する。送信する音声情報の形態は、収音した音声データ(生データ)であってもよいし、収音した音声データから抽出した特徴量データ(音素列など、ある程度加工したもの)であってもよいし、収音した音声データのテキスト解析結果であってもよい。音声データのテキスト解析結果は、例えばユーザ発話の音声に含まれる校正指令部分と校正ターゲット部分を分析した結果である。かかる分析は、次に説明するローカルテキスト解析部102で行われ得る。なお、本明細書において、「校正指令」とは、校正ターゲットに対してどのような校正をすべきかを示すものであって、例えば削除、置換、追加等の入力された文字列の修正や、入力する文字種類の指定(アルファベット、大文字、小文字、平仮名、片仮名等)、入力する文字の表現指定(漢字、スペル等)が想定される。また、本明細書において、「校正ターゲット」とは、校正指令の対象となるものを示す。
また、制御部10は、ユーザ発話の際に撮像部12で撮像したユーザ動作の撮像画像やセンサ13で検知したセンサ情報(画面へのタッチ情報等)を、コンテキスト情報として、通信部14からネットワーク3を介してサーバ2へ送信する。送信するコンテキスト情報の形態は、取得した撮像画像やセンサ情報(生データ)であってもよいし、取得した撮像画像やセンサ情報から抽出した特徴量データ(ベクター化など、ある程度加工したもの)であってもよいし、取得した撮像画像やセンサ情報の解析結果(認識結果)であってもよい。撮像画像やセンサ情報の解析結果は、例えばユーザの動作や操作を認識した結果である。
制御部10は、図2に示すように、ローカル音声認識部101、ローカルテキスト解析部102、およびローカル最終出力決定部103としても機能し得る。
ローカル音声認識部101は、音声入力部11から入力されたユーザ発話の音声信号に対して音声認識を行い、ユーザ発話をテキスト化する。本実施形態によるローカル音声認識部101は、後述するサーバ2の音声認識部201のサブセットであって、簡易の音声認識機能を有する。
ローカルテキスト解析部102は、音声認識によりテキスト化された文字列を解析する。具体的には、ローカルテキスト解析部102は、記憶部16に予め記憶されている校正発話データを参照し、文字列が単なる文字入力の発話(通常発話)であるか校正発話であるかを分析する。ローカルテキスト解析部102は、校正発話らしさや、校正発話だった場合の校正ターゲットと校正指令を出力する。校正発話らしさは、確信度を示すスコアとして算出される。また、ローカルテキスト解析部102は、複数の候補をスコアと共に出力してもよい。さらに、ローカルテキスト解析部102は、ユーザ発話の際に撮像部12で撮像した撮像画像や、その他センサ13により検知したセンサ情報(加速度センサ情報、タッチセンサ情報等)を考慮して分析してもよい。また、本実施形態によるローカルテキスト解析部102は、後述するサーバ2のテキスト解析部202のサブセットであって、簡易の解析機能を有する。具体的には、ローカルテキスト解析部102で用いる校正発話データの量がサーバ2で保有されているデータ量に比べて少ないため、例えば「削除」という校正用語は理解できるが、「消したい」「消して欲しいな」といった言葉は校正用語として理解できない。
ローカル最終出力決定部103は、最終的に出力するものを決定する機能を有する。例えばローカル最終出力決定部103は、音声認識により抽出された特定のキーワード(例えば「校正モード」「切替」など)や、テキスト解析結果に基づいて、ユーザ発話が通常発話か校正発話かを判断する。通常発話と判断した場合、ローカル最終出力決定部103は、音声認識された文字列をそのまま表示部15の画面上に出力する。一方、校正発話と判断した場合、ローカル最終出力決定部103は、ローカルテキスト解析部102により分析された校正ターゲットと校正指令に基づいて、入力された文章の校正処理を行い、校正結果を表示部15の画面上に出力する。なお複数の解析結果がある場合、ローカル最終出力決定部103は、各候補の確信度を示すスコアを参照してどの解析結果を用いるか決めてもよい。
なお本実施形態によるローカル最終出力決定部103は、後述するサーバ2の最終出力決定部203のサブセットであって、簡易の決定機能を有するものである。
以上、制御部10の機能構成について説明した。制御部10は、ローカル音声認識部101、ローカルテキスト解析部102、およびローカル最終出力決定部103といったローカルのサブセットで処理を行うことで処理速度を早くすることができるが、本実施形態はこれに限定されない。例えば制御部10は、サブセットで十分な処理ができなかった場合やエラーが出た場合にはサーバ2にデータを送信して処理要求を行い、サーバ2から処理結果を受信して利用してもよい。または、制御部10は、サーバ2にデータを送信して処理要求を行うと共に、サブセットでも処理を行い、サーバ2からの処理結果を所定時間待ったり、各処理結果の確信度を示すスコアを参照して、利用するデータを選択してもよい。
音声入力部11は、ユーザ音声や周辺の環境音を収音し、音声信号を制御部10に出力する。具体的には、音声入力部11は、マイクロホンおよびアンプ等により実現される。また、音声入力部11は、複数のマイクロホンから成るマイクアレイにより実現されてもよい。
撮像部12は、ユーザの顔周辺や動作を撮像し、撮像画像を制御部10に出力する。撮像部12は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系と、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系と、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等とを有する。固体撮像素子アレイは、例えばCCD(Charge Coupled Device)センサアレイや、CMOS(Complementary Metal Oxide Semiconductor)センサアレイにより実現されてもよい。
センサ13は、撮像部12(撮像センサ)以外の各種センサの総称であって、例えば加速度センサ、ジャイロセンサ、表示部15の画面上に設けられているタッチセンサ等が想定される。センサ13は、検知したセンサ情報を制御部10に出力する。
通信部14は、有線/無線により他の装置との間でデータの送受信を行う通信モジュールである。通信部14は、例えば有線LAN(Local Area Network)、無線LAN、Wi-Fi(Wireless Fidelity、登録商標)、赤外線通信、Bluetooth(登録商標)、近距離/非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して通信する。
表示部15は、例えば液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置等により実現される。表示部15は、制御部10の制御に従って表示画面に情報を表示する。
記憶部16は、制御部10が各種処理を実行するためのプログラム等を記憶する。また、記憶部16は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。
以上、本実施形態によるクライアント端末1の構成について具体的に説明した。なお本実施形態によるクライアント端末1の構成は、図2に示す例に限定されない。例えばクライアント端末1は、ローカル音声認識部101、ローカルテキスト解析部102、およびローカル最終出力決定部103の全てまたは一部を有さない構成であってもよい。
また、本実施形態ではクライアント端末1とサーバ2を含む情報処理システムとして説明しているが、図2~図3を参照して説明する各構成をクライアントモジュールおよびサーバモジュールとして有する単体の情報処理装置により実現されてもよい。若しくは、クライアント端末1の構成を、図3を参照して説明するサーバ2の制御部20の各構成(音声認識部201、テキスト解析部202、最終出力決定部203)と同様の機能を有するものとしてもよい。
<2-2.サーバの構成>
図3は、本実施形態によるサーバ2の構成の一例を示すブロック図である。図3に示すように、サーバ2(情報処理装置)は、制御部20、通信部21、および校正発話DB(データベース)22を有する。
図3は、本実施形態によるサーバ2の構成の一例を示すブロック図である。図3に示すように、サーバ2(情報処理装置)は、制御部20、通信部21、および校正発話DB(データベース)22を有する。
制御部20は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ2内の動作全般を制御する。制御部20は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部20は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
制御部20は、クライアント端末1から受信したユーザ発話の音声に基づいて音声認識処理、テキスト解析処理、および最終出力決定処理を行い、処理結果(音声認識結果、テキスト解析結果、または校正情報(例えば校正結果))をクライアント端末1に送信するよう制御する。
制御部20は、図3に示すように、音声認識部201、テキスト解析部202、および最終出力決定部203としても機能し得る。
音声認識部201は、クライアント端末1から送信されたユーザ発話の音声信号に対して音声認識を行い、ユーザ発話をテキスト化する。
テキスト解析部202は、音声認識によりテキスト化された文字列を解析する。具体的には、テキスト解析部202は、校正発話DB22に予め記憶されている校正発話データを参照し、文字列が単なる文字入力の発話(通常発話)であるか校正発話であるかを分析する。テキスト解析部202は、校正発話らしさや、校正発話だった場合の校正ターゲットと校正指令を出力する。校正発話らしさは、確信度を示すスコアとして算出される。また、テキスト解析部202は、複数の候補をスコアと共に出力してもよい。さらに、テキスト解析部202は、クライアント端末1から送信されたユーザ発話の際のコンテキスト情報(撮像画像やセンサ情報)を考慮して分析してもよい。
なお校正情報の分析は、予め生成された校正発話DB22を利用する方法に限定されず、例えば機械学習を用いて校正情報の分析精度を高めていくことも可能である。
最終出力決定部203は、最終的に出力するものを決定する機能を有する。例えば最終出力決定部203は、音声認識により抽出された特定のキーワード(例えば「校正モード」「切替」など)や、テキスト解析結果に基づいて、ユーザ発話が通常発話か校正発話かを判断する。複数の解析結果がある場合、最終出力決定部203は、各候補の確信度を示すスコアを参照してどの解析結果を用いるか決めてもよい。
通常発話と判断した場合、最終出力決定部203は、音声認識された文字列を通信部21からクライアント端末1に送信する。一方、校正発話と判断した場合、最終出力決定部203は、テキスト解析部202により分析され、最終決定した校正指令に基づいて校正ターゲットを処理し、校正結果を校正情報として通信部21からクライアント端末1に送信する。
また、最終出力決定部203は、コンテキスト情報としてクライアント端末1から送信された、撮像部12でユーザの動作を撮像した撮像画像を解析し、事前に登録されている身体の動きを検出して、通常入力モードと文章校正モードの切り替えを行ってもよい。若しくは、最終出力決定部203は、コンテキスト情報としてクライアント端末1から送信された、センサ13で検知したセンサ情報を解析して、事前に登録されている動き(例えば画面を振る、画面にタッチする等)を検出し、通常入力モードと文章校正モードの切り替えを行ってもよい。
また、最終出力決定部203は、ユーザ発話のテキスト解析結果と、撮像画像やセンサ情報とを組み合わせて、校正発話であるか否かを判断することもできる。例えば最終出力決定部203は、ユーザが画面に表示されている文字を示しながら「ここから先を全て削除」と発話した場合、発話内容の解析結果と、画面上の文字を示している動作から、文章校正モードであると判断する。
ここで、本実施形態によるユーザ発話例と各発話の最終出力例について、図4~図9を参照して具体的に説明する。
(A)文字の種類の指定
図4は、入力する文字の種類の指定を音声で行う場合の具体例を示す図である。例えば図4の1行目に示すように、ユーザ発話が「かたかなのとうきょうたわー」の場合、音声認識部201は、音声認識により「カタカナの東京タワー」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「カタカナの東京タワー」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「カタカナの」を文字の種類『片仮名』の校正指定と分析し、「東京タワー」を校正ターゲットと分析する。これにより、図4の1行目に示すように最終出力結果が片仮名で表現される「トウキョウタワー」となる。
図4は、入力する文字の種類の指定を音声で行う場合の具体例を示す図である。例えば図4の1行目に示すように、ユーザ発話が「かたかなのとうきょうたわー」の場合、音声認識部201は、音声認識により「カタカナの東京タワー」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「カタカナの東京タワー」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「カタカナの」を文字の種類『片仮名』の校正指定と分析し、「東京タワー」を校正ターゲットと分析する。これにより、図4の1行目に示すように最終出力結果が片仮名で表現される「トウキョウタワー」となる。
また、図4の2行目に示すように、ユーザ発話が「えむだけおおもじのまいける」の場合、音声認識部201は、音声認識により「エムだけ大文字のマイケル」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「エムだけ大文字のマイケル」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「エムだけ大文字の」を文字の種類の指定『アルファベット大文字』の校正指定と分析し、「マイケル」を校正ターゲットと分析する。これにより、図4の2行目に示すように最終出力結果が「Michael」となる。
(B)音やトランスクリプションの利用
図5は、入力する文字の漢字変換の指定を音声で行う場合の具体例を示す図である。例えば図5の1行目に示すように、ユーザ発話が「ゆうきゅうきゅうかのゆうにこどものこ」の場合、音声認識部201は、音声認識により「有給休暇の有に子供の子」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「有給休暇の有に子供の子」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「有給休暇の有」を漢字の校正指定と分析し、「有」を校正ターゲットと分析する。また、「子供の子」を漢字の校正指定と分析し、「子」を校正ターゲットと分析する。これにより、図5の1行目に示すように最終出力結果がユーザ希望の漢字で表現される「有子」となる。「ユウコ」という音に対応する漢字候補が他にある場合でも、ユーザ希望の漢字で入力することが可能となる。
図5は、入力する文字の漢字変換の指定を音声で行う場合の具体例を示す図である。例えば図5の1行目に示すように、ユーザ発話が「ゆうきゅうきゅうかのゆうにこどものこ」の場合、音声認識部201は、音声認識により「有給休暇の有に子供の子」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「有給休暇の有に子供の子」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「有給休暇の有」を漢字の校正指定と分析し、「有」を校正ターゲットと分析する。また、「子供の子」を漢字の校正指定と分析し、「子」を校正ターゲットと分析する。これにより、図5の1行目に示すように最終出力結果がユーザ希望の漢字で表現される「有子」となる。「ユウコ」という音に対応する漢字候補が他にある場合でも、ユーザ希望の漢字で入力することが可能となる。
また、図5の2行目に示すように、ユーザ発話が「しらとりのとりはとっとりのとり」の場合、音声認識部201は、音声認識により「白鳥の鳥は鳥取の取」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「白鳥の鳥は鳥取の取」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から「白鳥の鳥は鳥取の取」を漢字の校正指定と分析し、「白鳥」を校正ターゲットと分析する。これにより、図5の2行目に示すように最終出力結果がユーザ希望の漢字で表現される「白取」となる。「シラトリ」という音に対応する漢字候補が他にある場合でも、ユーザ希望の漢字で入力することが可能となる。
(C)校正箇所と動作命令
また、校正ターゲットの範囲や校正内容を音声で命令することも可能である。例えば、以下に示すようなユーザ発話と校正情報の分析結果の一例が挙げられる。
また、校正ターゲットの範囲や校正内容を音声で命令することも可能である。例えば、以下に示すようなユーザ発話と校正情報の分析結果の一例が挙げられる。
さらに、図6および図7を参照して一例を説明する。図6は、本実施形態によるユーザ発話と校正情報の分析結果の一例を示す図である。図6に示すように、ユーザ発話が「かきあんけんってところからしたをぜんぶけしてけいぞくけんとうっていれて」の場合、音声認識部201は、音声認識により「下記案件って所から下を全部消して継続検討っていれて」といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに「下記案件って所から下を全部消して継続検討っていれて」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から、「校正指定:『継続検討』に修正」、「校正ターゲット:『下記案件』以降」と分析する。
図7は、図6に示すユーザ発話に対する最終出力結果の一例を示す図である。図7に示すように、画面30に表示されている入力された文章中、「下記案件」以降が削除されて「継続検討」に修正された画面31が最終出力結果として出力される。
(D)コンテキスト情報の活用
続いて、コンテキスト情報を考慮した校正処理の一例について説明する。本実施形態では、ユーザ発話の際に取得された撮像画像やセンサ情報を考慮してテキスト解析を行い、校正分析を行うことが可能である。
続いて、コンテキスト情報を考慮した校正処理の一例について説明する。本実施形態では、ユーザ発話の際に取得された撮像画像やセンサ情報を考慮してテキスト解析を行い、校正分析を行うことが可能である。
ここで、図8および図9を参照して表示部15に設けられたタッチセンサにより検知されるセンサ情報を用いた例について説明する。図8は、本実施形態によるユーザ発話とコンテキスト情報を考慮した校正情報の分析結果の一例を示す図である。図8に示すように、ユーザ発話が「ここをごぜんにして」の場合、音声認識部201は、音声認識により「ここを午前にして」といった文字列を出力する。また、ユーザ発話の際に表示部15のタッチセンサにより検知された画面上の位置座標(x,y)を示すセンサ情報が取得される。
この場合、既存の音声認識システムでは、音声認識した文字列そのままに「ここを午前にして」と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データとタッチセンサ情報を参照してテキスト解析を行い、「校正指定:『午前』に修正」、「校正ターゲット:座標(x,y)」と分析する。
図8は、図8に示すユーザ発話に対する最終出力結果の一例を示す図である。図8に示すように、画面32に表示されている入力された文章中、ユーザによりタッチされた座標(x,y)に対応する文字「午後」が削除されて「午前」に修正された画面33が最終出力結果として出力される。
上述した例では、タッチセンサにより画面上の座標位置を検知しているが、本実施形態はこれに限定されず、ユーザの視線を的確に捉えることができれば同様に実現できる。すなわち、例えば「ここを午前にして」というユーザ発話の際にユーザが注視している画面上の位置を視線センサ(視線トラッカー)により検知し、コンテキスト情報として考慮する。
また、ユーザの視線により画面上の注目箇所、範囲、領域を特定できれば、画面上に表示された複数候補ある選択肢等から自動的にユーザ希望の候補を絞ることが可能である。
また、本実施形態では、「ここ」「この辺」というように画面上の位置が指定された場合に、座標(x,y)に対応する文字列部分の背景色を変える等してユーザにフィードバックし、注目個所や範囲の確認を行うようにしてもよい。ユーザは、「そこでOK」「違う」等の回答を口頭で行い得る。
(E)キーワードの利用
次に、音声認識したユーザ発話から特定のキーワードが抽出された場合の校正処理の一例について説明する。ユーザ発話が"A, as in Adam. D, as in Denver. T, as in Thomas."の場合、音声認識部201は、音声認識により"A, as in Adam. D, as in Denver. T, as in Thomas."といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに"A, as in Adam. D, as in Denver. T, as in Thomas."と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から、"Adam" "Denver" "Thomas"といった、アルファベットのスペルを伝えるために用いられるキーワードが抽出された場合、「校正指定:アルファベット」、「校正ターゲット:"A" "D" "T"」と分析する。これにより、最終出力結果がユーザ希望のスペルで表現される「ADT」となる。
次に、音声認識したユーザ発話から特定のキーワードが抽出された場合の校正処理の一例について説明する。ユーザ発話が"A, as in Adam. D, as in Denver. T, as in Thomas."の場合、音声認識部201は、音声認識により"A, as in Adam. D, as in Denver. T, as in Thomas."といった文字列を出力する。この場合、既存の音声認識システムでは、音声認識した文字列そのままに"A, as in Adam. D, as in Denver. T, as in Thomas."と出力してしまう恐れがある。一方、本実施形態では、音声認識した文字列に対して校正発話データを参照してテキスト解析を行い、音声認識結果から、"Adam" "Denver" "Thomas"といった、アルファベットのスペルを伝えるために用いられるキーワードが抽出された場合、「校正指定:アルファベット」、「校正ターゲット:"A" "D" "T"」と分析する。これにより、最終出力結果がユーザ希望のスペルで表現される「ADT」となる。
通信部21は、外部装置と接続し、データの送受信を行う。例えば通信部21は、クライアント端末1からユーザ発話の音声情報やコンテキスト情報を受信したり、上述した音声認識処理結果や、テキスト解析処理結果、または最終出力決定処理結果をクライアント端末1に送信したりする。
校正発話DB22は、事前に大量に集められた校正発話データを記憶する記憶部であって、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。校正発話データは、例えば校正発話に用いられるキーワードや文例を含む。
<<3.動作処理>>
続いて、本実施形態による情報処理システムの動作処理について図10を参照して説明する。図10は、本実施形態による情報処理システムの動作処理を示すフローチャートである。下記処理は、クライアント端末1の制御部10およびサーバ2の制御部20の少なくともいずれかで行われ得る。
続いて、本実施形態による情報処理システムの動作処理について図10を参照して説明する。図10は、本実施形態による情報処理システムの動作処理を示すフローチャートである。下記処理は、クライアント端末1の制御部10およびサーバ2の制御部20の少なくともいずれかで行われ得る。
図10に示すように、まず、ユーザ発話(音声情報)が取得され(ステップS100)、ユーザ発話に対して音声認識が行われる(ステップS103)。
次に、音声認識により出力された文字列に対してテキスト解析が行われる(ステップS106)。具体的には、校正発話データを参照して文字列の校正発話らしさ、および校正発話だった場合における校正情報の分析が行われる。ユーザ発話の際に取得されたコンテキスト情報が用いられてもよい。
次いで、テキスト解析結果に基づいて最終的な出力が決定される(ステップS109)。この際も、ユーザ発話の際に取得されたコンテキスト情報が用いられてもよい。
次に、最終出力決定により通常発話と判断された場合、音声認識結果の文字列がそのまま出力される(ステップS112)。
一方、最終出力決定により校正発話と判断された場合、文章校正が行われ、校正結果が出力される(ステップS115)。
以上、本実施形態による情報処理システムの動作処理について説明した。
<<4.他のシステム構成>>
本実施形態による情報処理システムの構成は、図1に示す例に限定されず、例えば図11に示すように、処理分散を可能とするエッジサーバ4を含むシステム構成であってもよい。図11は、本実施形態による他のシステム構成を示す図である。図11に示すように、他のシステム構成として、クライアント端末1、サーバ2、およびエッジサーバ4を含むものが考えられる。
本実施形態による情報処理システムの構成は、図1に示す例に限定されず、例えば図11に示すように、処理分散を可能とするエッジサーバ4を含むシステム構成であってもよい。図11は、本実施形態による他のシステム構成を示す図である。図11に示すように、他のシステム構成として、クライアント端末1、サーバ2、およびエッジサーバ4を含むものが考えられる。
本実施形態によるエッジサーバ4の構成例を図12に示す。図12に示すように、エッジサーバ4は、制御部40、通信部41、およびエッジ側校正発話DB42を含む。制御部40は、エッジ側音声認識部401、エッジ側テキスト解析部402、およびエッジ側最終出力決定部403としても機能する。エッジ側音声認識部401は、サーバ2の音声認識部201のサブセット(以下、外部サブセットと称す)であって、エッジ側テキスト解析部402は、テキスト解析部202の外部サブセットであって、エッジ側最終出力決定部403は、最終出力決定部203の外部サブセットである。
エッジサーバ4は、サーバ2に比較して中規模の処理サーバであるが、通信距離的にクライアント端末1の近くに配置され、クライアント端末1よりも高精度かつ、通信遅延を短縮することが可能である。
クライアント端末1は、自身が持つサブセットで十分な処理ができなかった場合やエラーが出た場合にエッジサーバ4にデータを送信して処理要求を行い、エッジサーバ4から処理結果を受信して利用してもよい。または、クライアント端末1は、エッジサーバ4およびサーバ2にデータを送信して処理要求を行うと共に、自身が持つサブセットでも処理を行い、エッジサーバ4およびサーバ2からの処理結果を所定時間待ったり、各処理結果の確信度を示すスコアを参照して、利用するデータを選択してもよい。
<<5.まとめ>>
上述したように、本実施形態による情報処理システムによれば、音声入力による文章校正を実現することを可能とする。
上述したように、本実施形態による情報処理システムによれば、音声入力による文章校正を実現することを可能とする。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上述したクライアント端末1、またはサーバ2に内蔵されるCPU、ROM、およびRAM等のハードウェアに、クライアント端末1、またはサーバ2の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、本技術は以下のような構成も取ることができる。
(1)
文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、
前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、
を備える、情報処理装置。
(2)
前記音声情報は、収音したユーザ音声データである、前記(1)に記載の情報処理装置。
(3)
前記音声情報は、収音したユーザ音声データから抽出した特徴量データである、前記(1)に記載の情報処理装置。
(4)
前記音声情報は、収音したユーザ音声データから認識した校正指令と校正ターゲットを示すデータである、前記(1)に記載の情報処理装置。
(5)
前記送信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を送信し、
前記受信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を受信する、前記(1)~(4)のいずれか1項に記載の情報処理装置。
(6)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報である、前記(5)に記載の情報処理装置。
(7)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から抽出した特徴量データである、前記(5)に記載の情報処理装置。
(8)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から認識した結果を示すデータである、前記(5)に記載の情報処理装置。
(9)
前記受信部により受信する処理結果は、前記送信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、前記(1)~(8)のいずれか1項に記載の情報処理装置。
(10)
前記処理結果は、当該処理結果の確信度を示すデータを含む、前記(9)に記載の情報処理装置。
(11)
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、前記(9)または(10)に記載の情報処理装置。
(12)
文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、
前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、
を備える、情報処理装置。
(13)
前記送信部により送信する処理結果は、前記受信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、前記(12)に記載の情報処理装置。
(14)
前記処理結果は、当該処理結果の確信度を示すデータを含む、前記(13)に記載の情報処理装置。
(15)
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、前記(13)または(14)に記載の情報処理装置。
(16)
前記受信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を受信し、
前記送信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を送信する、前記(12)~(15)のいずれか1項に記載の情報処理装置。
(17)
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を送信することと、
前記校正指令と校正ターゲットに基づく解析結果を受信することと、
を含む、情報処理方法。
(18)
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を受信することと、
前記校正指令と校正ターゲットに基づく解析結果を送信することと、
を含む、情報処理方法。
(1)
文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、
前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、
を備える、情報処理装置。
(2)
前記音声情報は、収音したユーザ音声データである、前記(1)に記載の情報処理装置。
(3)
前記音声情報は、収音したユーザ音声データから抽出した特徴量データである、前記(1)に記載の情報処理装置。
(4)
前記音声情報は、収音したユーザ音声データから認識した校正指令と校正ターゲットを示すデータである、前記(1)に記載の情報処理装置。
(5)
前記送信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を送信し、
前記受信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を受信する、前記(1)~(4)のいずれか1項に記載の情報処理装置。
(6)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報である、前記(5)に記載の情報処理装置。
(7)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から抽出した特徴量データである、前記(5)に記載の情報処理装置。
(8)
前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から認識した結果を示すデータである、前記(5)に記載の情報処理装置。
(9)
前記受信部により受信する処理結果は、前記送信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、前記(1)~(8)のいずれか1項に記載の情報処理装置。
(10)
前記処理結果は、当該処理結果の確信度を示すデータを含む、前記(9)に記載の情報処理装置。
(11)
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、前記(9)または(10)に記載の情報処理装置。
(12)
文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、
前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、
を備える、情報処理装置。
(13)
前記送信部により送信する処理結果は、前記受信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、前記(12)に記載の情報処理装置。
(14)
前記処理結果は、当該処理結果の確信度を示すデータを含む、前記(13)に記載の情報処理装置。
(15)
前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、前記(13)または(14)に記載の情報処理装置。
(16)
前記受信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を受信し、
前記送信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を送信する、前記(12)~(15)のいずれか1項に記載の情報処理装置。
(17)
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を送信することと、
前記校正指令と校正ターゲットに基づく解析結果を受信することと、
を含む、情報処理方法。
(18)
プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を受信することと、
前記校正指令と校正ターゲットに基づく解析結果を送信することと、
を含む、情報処理方法。
1 クライアント端末
10 制御部
101 ローカル音声認識部
102 ローカルテキスト解析部
103 ローカル最終出力決定部
11 音声入力部
12 撮像部
13 センサ
14 通信部
15 表示部
16 記憶部
2 サーバ
20 制御部
201 音声認識部
202 テキスト解析部
203 最終出力決定部
21 通信部
22 校正発話DB
3 ネットワーク
4 エッジサーバ
40 制御部
401 エッジ側音声認識部
402 エッジ側テキスト解析部
403 エッジ側最終出力決定部
41 通信部
42 エッジ側校正発話DB
10 制御部
101 ローカル音声認識部
102 ローカルテキスト解析部
103 ローカル最終出力決定部
11 音声入力部
12 撮像部
13 センサ
14 通信部
15 表示部
16 記憶部
2 サーバ
20 制御部
201 音声認識部
202 テキスト解析部
203 最終出力決定部
21 通信部
22 校正発話DB
3 ネットワーク
4 エッジサーバ
40 制御部
401 エッジ側音声認識部
402 エッジ側テキスト解析部
403 エッジ側最終出力決定部
41 通信部
42 エッジ側校正発話DB
Claims (18)
- 文章の校正指令と校正ターゲットを含む音声情報を送信する送信部と、
前記校正指令と校正ターゲットに基づく処理結果を受信する受信部と、
を備える、情報処理装置。 - 前記音声情報は、収音したユーザ音声データである、請求項1に記載の情報処理装置。
- 前記音声情報は、収音したユーザ音声データから抽出した特徴量データである、請求項1に記載の情報処理装置。
- 前記音声情報は、収音したユーザ音声データから認識した校正指令と校正ターゲットを示すデータである、請求項1に記載の情報処理装置。
- 前記送信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を送信し、
前記受信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を受信する、請求項1に記載の情報処理装置。 - 前記コンテキスト情報は、ユーザの動作を検知したセンサ情報である、請求項5に記載の情報処理装置。
- 前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から抽出した特徴量データである、請求項5に記載の情報処理装置。
- 前記コンテキスト情報は、ユーザの動作を検知したセンサ情報から認識した結果を示すデータである、請求項5に記載の情報処理装置。
- 前記受信部により受信する処理結果は、前記送信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、請求項1に記載の情報処理装置。
- 前記処理結果は、当該処理結果の確信度を示すデータを含む、請求項9に記載の情報処理装置。
- 前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、請求項9に記載の情報処理装置。
- 文章の校正指令と校正ターゲットを含む音声情報を受信する受信部と、
前記校正指令と校正ターゲットに基づく処理結果を送信する送信部と、
を備える、情報処理装置。 - 前記送信部により送信する処理結果は、前記受信した音声情報の音声認識結果、テキスト解析結果、または前記音声情報に含まれる校正指令と校正ターゲットに基づく校正情報の少なくともいずれかを含む、請求項12に記載の情報処理装置。
- 前記処理結果は、当該処理結果の確信度を示すデータを含む、請求項13に記載の情報処理装置。
- 前記校正情報は、最終決定された校正指令に基づいて校正ターゲットを処理した校正結果を含む、請求項13に記載の情報処理装置。
- 前記受信部は、前記音声情報と共に、音声入力の際のコンテキスト情報を受信し、
前記送信部は、前記校正指令、校正ターゲット、および前記コンテキスト情報に基づく処理結果を送信する、請求項12に記載の情報処理装置。 - プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を送信することと、
前記校正指令と校正ターゲットに基づく解析結果を受信することと、
を含む、情報処理方法。 - プロセッサが、
文章の校正指令と校正ターゲットを含む音声情報を受信することと、
前記校正指令と校正ターゲットに基づく解析結果を送信することと、
を含む、情報処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17802366.9A EP3467820A4 (en) | 2016-05-23 | 2017-02-21 | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
US16/301,058 US20190189122A1 (en) | 2016-05-23 | 2017-02-21 | Information processing device and information processing method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016102755A JP2017211430A (ja) | 2016-05-23 | 2016-05-23 | 情報処理装置および情報処理方法 |
JP2016-102755 | 2016-05-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017203764A1 true WO2017203764A1 (ja) | 2017-11-30 |
Family
ID=60412429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2017/006281 WO2017203764A1 (ja) | 2016-05-23 | 2017-02-21 | 情報処理装置および情報処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20190189122A1 (ja) |
EP (1) | EP3467820A4 (ja) |
JP (1) | JP2017211430A (ja) |
WO (1) | WO2017203764A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021064886A1 (ja) * | 2019-10-02 | 2021-04-08 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210099629A (ko) * | 2018-12-06 | 2021-08-12 | 베스텔 일렉트로닉 사나이 베 티카레트 에이에스 | 음성제어가능 전자 장치에 대한 커맨드를 생성하는 기술 |
KR20210133600A (ko) * | 2020-04-29 | 2021-11-08 | 현대자동차주식회사 | 차량 음성 인식 방법 및 장치 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09266510A (ja) * | 1996-03-28 | 1997-10-07 | Mitsubishi Electric Corp | ページャへのメッセージ作成方式 |
JPH11184495A (ja) * | 1997-12-24 | 1999-07-09 | Toyota Motor Corp | 音声認識装置 |
JP2010197709A (ja) * | 2009-02-25 | 2010-09-09 | Nec Corp | 音声認識応答方法、音声認識応答システム、及びそのプログラム |
JP2014149612A (ja) * | 2013-01-31 | 2014-08-21 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り修正装置およびそのプログラム |
JP2015018265A (ja) | 2011-09-28 | 2015-01-29 | アップル インコーポレイテッド | コンテキスト情報を使用した音声認識修正 |
JP2015175983A (ja) * | 2014-03-14 | 2015-10-05 | キヤノン株式会社 | 音声認識装置、音声認識方法及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101394253B1 (ko) * | 2012-05-16 | 2014-05-13 | 광주과학기술원 | 음성 인식 오류 보정 장치 |
CN103885743A (zh) * | 2012-12-24 | 2014-06-25 | 大陆汽车投资(上海)有限公司 | 结合注视跟踪技术的语音文本输入方法和系统 |
GB2518002B (en) * | 2013-09-10 | 2017-03-29 | Jaguar Land Rover Ltd | Vehicle interface system |
US9684827B2 (en) * | 2014-03-26 | 2017-06-20 | Microsoft Technology Licensing, Llc | Eye gaze tracking based upon adaptive homography mapping |
-
2016
- 2016-05-23 JP JP2016102755A patent/JP2017211430A/ja active Pending
-
2017
- 2017-02-21 US US16/301,058 patent/US20190189122A1/en not_active Abandoned
- 2017-02-21 EP EP17802366.9A patent/EP3467820A4/en not_active Withdrawn
- 2017-02-21 WO PCT/JP2017/006281 patent/WO2017203764A1/ja unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09266510A (ja) * | 1996-03-28 | 1997-10-07 | Mitsubishi Electric Corp | ページャへのメッセージ作成方式 |
JPH11184495A (ja) * | 1997-12-24 | 1999-07-09 | Toyota Motor Corp | 音声認識装置 |
JP2010197709A (ja) * | 2009-02-25 | 2010-09-09 | Nec Corp | 音声認識応答方法、音声認識応答システム、及びそのプログラム |
JP2015018265A (ja) | 2011-09-28 | 2015-01-29 | アップル インコーポレイテッド | コンテキスト情報を使用した音声認識修正 |
JP2014149612A (ja) * | 2013-01-31 | 2014-08-21 | Nippon Hoso Kyokai <Nhk> | 音声認識誤り修正装置およびそのプログラム |
JP2015175983A (ja) * | 2014-03-14 | 2015-10-05 | キヤノン株式会社 | 音声認識装置、音声認識方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
See also references of EP3467820A4 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021064886A1 (ja) * | 2019-10-02 | 2021-04-08 | ||
WO2021064886A1 (ja) * | 2019-10-02 | 2021-04-08 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
JP6991409B2 (ja) | 2019-10-02 | 2022-01-12 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3467820A1 (en) | 2019-04-10 |
JP2017211430A (ja) | 2017-11-30 |
EP3467820A4 (en) | 2019-06-26 |
US20190189122A1 (en) | 2019-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210074277A1 (en) | Transcription revision interface for speech recognition system | |
KR102081925B1 (ko) | 디스플레이 디바이스 및 스피치 검색 방법 | |
US10741172B2 (en) | Conference system, conference system control method, and program | |
WO2018141144A1 (zh) | 一种文本和语音信息的处理方法以及终端 | |
CN110827826B (zh) | 语音转换文字方法、电子设备 | |
US20190019512A1 (en) | Information processing device, method of information processing, and program | |
CN107291704B (zh) | 处理方法和装置、用于处理的装置 | |
CN108803890B (zh) | 一种输入方法、输入装置和用于输入的装置 | |
WO2016103415A1 (ja) | ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 | |
WO2016152200A1 (ja) | 情報処理システムおよび情報処理方法 | |
KR20210037857A (ko) | 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템 | |
WO2017203764A1 (ja) | 情報処理装置および情報処理方法 | |
JP2022503255A (ja) | 音声情報処理方法、装置、プログラム及び記録媒体 | |
US20180288110A1 (en) | Conference support system, conference support method, program for conference support device, and program for terminal | |
CN109215660A (zh) | 语音识别后文本纠错方法及移动终端 | |
CN110837734A (zh) | 文本信息处理方法、移动终端 | |
US10540968B2 (en) | Information processing device and method of information processing | |
US10720154B2 (en) | Information processing device and method for determining whether a state of collected sound data is suitable for speech recognition | |
WO2014181508A1 (en) | Information processing apparatus, information processing method, and program | |
CN114154459A (zh) | 语音识别文本处理方法、装置、电子设备及存储介质 | |
US11900931B2 (en) | Information processing apparatus and information processing method | |
US11545144B2 (en) | System and method supporting context-specific language model | |
JP6798258B2 (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
CN108491471A (zh) | 一种文本信息的处理方法、移动终端 | |
JP7468360B2 (ja) | 情報処理装置および情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17802366 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2017802366 Country of ref document: EP Effective date: 20190102 |