WO2018135302A1 - 情報処理装置および情報処理方法、並びにプログラム - Google Patents

情報処理装置および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2018135302A1
WO2018135302A1 PCT/JP2018/000014 JP2018000014W WO2018135302A1 WO 2018135302 A1 WO2018135302 A1 WO 2018135302A1 JP 2018000014 W JP2018000014 W JP 2018000014W WO 2018135302 A1 WO2018135302 A1 WO 2018135302A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
voice
voice recognition
speech
Prior art date
Application number
PCT/JP2018/000014
Other languages
English (en)
French (fr)
Inventor
真一 河野
祐平 滝
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP18742238.1A priority Critical patent/EP3573052A4/en
Priority to JP2018563262A priority patent/JP7107228B2/ja
Priority to US16/463,776 priority patent/US11107469B2/en
Publication of WO2018135302A1 publication Critical patent/WO2018135302A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program, and more particularly, to an information processing device, an information processing method, and a program that can provide a more convenient voice recognition service.
  • Patent Document 1 describes the accuracy of a sentence obtained as a speech recognition result by replacing a word included in a speech-recognized sentence based on a language model based on the context before and after the sentence. Techniques for improving are disclosed.
  • the present disclosure has been made in view of such circumstances, and is intended to provide a more convenient voice recognition service.
  • An information processing apparatus includes a speech recognition unit that performs speech recognition on speech information based on a user's utterance, and the content of a sentence obtained as a speech recognition result by the speech recognition unit.
  • a correction portion estimation unit that estimates a correction portion that needs to be corrected with respect to the sentence by collating with the collation information necessary for determination, and the sentence obtained as the voice recognition result is the correction portion estimation.
  • a presentation unit for presenting to the user together with the corrected portion estimated by the unit.
  • An information processing method or program performs speech recognition on speech information based on a user's utterance, and collates necessary to determine the accuracy of the content of a sentence obtained as a speech recognition result It includes a step of estimating a correction portion that needs to be corrected with respect to the sentence by collating with the information, and presenting the sentence obtained as the voice recognition result to the user together with the estimated correction portion.
  • speech recognition is performed on speech information based on a user's utterance, and the content of a sentence obtained as a speech recognition result is compared with verification information necessary to determine the accuracy of the content. As a result, a correction location that requires correction to the sentence is estimated. Then, the sentence obtained as a voice recognition result is presented to the user together with the estimated correction portion.
  • FIG. 18 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present technology is applied.
  • FIG. 1 is a block diagram illustrating a configuration example of an embodiment of a speech recognition system to which the present technology is applied.
  • a speech recognition system 11 is connected to a plurality of (N in the example of FIG. 1) client terminals 13-1 to 13-N and a speech recognition server 14 via a network 12 such as the Internet. Configured. Note that the client terminals 13-1 to 13-N are configured in the same manner, and will be referred to as the client terminal 13 as appropriate when it is not necessary to distinguish them from each other.
  • a news server 15 that provides information on general news and weather
  • an encyclopedia server 16 that provides information on knowledge and commentary on various fields.
  • information provided by the news server 15 and the encyclopedia server 16 is also referred to as fact information.
  • voice information based on the utterances of the users holding the respective client terminals 13 is transmitted to the voice recognition server 14 via the network 12, and voice recognition processing is executed in the voice recognition server 14.
  • the voice recognition server 14 transmits a sentence (character information) including a word string obtained as a voice recognition result to the client terminal 13 of the user who made the utterance via the network 12.
  • the client terminal 13 can display the voice recognition result for the user's utterance and present it to the user.
  • the voice recognition system 11 configured as described above is more favorable even when the processing capability of each client terminal 13 is low, for example, by implementing higher performance and latest voice recognition processing in the voice recognition server 14.
  • a voice recognition process that enables voice input can be provided.
  • FIG. 2 is a block diagram illustrating a configuration example of the client terminal 13.
  • the client terminal 13 includes an audio information acquisition unit 21, a video output unit 22, an operation input unit 23, an audio output unit 24, a behavior information acquisition unit 25, an environment information acquisition unit 26, and a line-of-sight information acquisition unit 27. , An object recognition unit 28, a recording unit 29, a communication unit 30, and a speech recognition result correspondence processing unit 31.
  • the voice information acquisition unit 21 includes, for example, a microphone for acquiring voice information, acquires voice information based on the voice spoken by the user, and supplies the voice information to the communication unit 30. Then, the voice information is transmitted to the voice recognition server 14 by the communication unit 30 via the network 12 of FIG.
  • the video output unit 22 includes, for example, a display for outputting video, and displays a voice recognition result for voice information based on the user's utterance and presents it to the user.
  • the video output unit 22 displays various user interfaces used in processing for correcting or editing a voice recognition result, as will be described with reference to FIGS.
  • the operation input unit 23 is constituted by, for example, a touch panel for inputting a user's touch operation on the display constituting the video output unit 22. Then, when a user touch operation is performed on the user interface displayed on the video output unit 22, the operation input unit 23 displays operation information indicating the content of the operation input by the touch operation as a voice recognition result corresponding process. To the unit 31.
  • the voice output unit 24 includes, for example, a speaker for outputting voice, and outputs a voice recognition result for voice information based on the user's utterance as synthesized voice (TSS: Text-to-Speech).
  • TSS Text-to-Speech
  • the behavior information acquisition unit 25 includes, for example, a GPS (Global Positioning System) device, an acceleration sensor, and the like, periodically acquires position information, acceleration information, and the like associated with the user's behavior as behavior information, and sequentially records the recording unit 29. To supply.
  • GPS Global Positioning System
  • the environment information acquisition unit 26 includes, for example, a temperature sensor, a humidity sensor, and the like.
  • the environment information acquisition unit 26 periodically acquires temperature, humidity, and the like representing the environment around the user as environmental information, and sequentially supplies the information to the recording unit 29.
  • the line-of-sight information acquisition unit 27 is configured by, for example, an imaging device that can image the movement of the user's pupil, acquires line-of-sight information indicating the direction of the user's line of sight, and supplies it to the object recognition unit 28.
  • the object recognizing unit 28 is configured by, for example, an imaging device that can image the user's line of sight. Object recognition processing is performed on the identified object. Then, the object recognition unit 28 supplies object recognition information indicating the result of recognizing the object to the recording unit 29 together with the line-of-sight information.
  • the recording unit 29 includes, for example, a memory and a hard disk drive, and is supplied from the behavior information supplied from the behavior information acquisition unit 25, the environmental information supplied from the environment information acquisition unit 26, and the object recognition unit 28. Gaze information and object recognition information are recorded.
  • the communication unit 30 is configured by a communication module for performing communication via the network 12 and transmits and receives various types of information to and from the voice recognition server 14.
  • the recording unit 29 transmits the voice information supplied from the voice information acquisition unit 21 to the voice recognition server 14 or receives the voice recognition result transmitted from the voice recognition server 14 and receives the voice recognition result corresponding processing unit. 31.
  • the communication unit 30 receives information from the various information recorded in the recording unit 29 according to the request. Is read as verification information and transmitted to the voice recognition server 14.
  • the speech recognition result correspondence processing unit 31 supplies the video output unit 22 with text (character information) indicating the speech recognition result.
  • the speech recognition result correspondence processing unit 31 generates a user interface for confirming the correction location according to the information, and together with the speech recognition result It is displayed on the video output unit 22.
  • the voice recognition result correspondence processing unit 31 corrects the voice recognition result according to the operation information. To reflect.
  • the voice recognition result correspondence processing unit 31 edits the target to be edited. Is identified. Then, the speech recognition result correspondence processing unit 31 transmits information indicating the editing target to the voice recognition server 14 via the communication unit 30 and deletes and replaces the editing portion specified as the editing target. A user interface for prompting a talk is displayed on the video output unit 22. After that, the recurrent speech information acquired by the speech information acquisition unit 21 is transmitted to the speech recognition server 14, speech recognition is performed on the recurrent speech information, and replacement information for replacing the correction portion is transmitted. Thereby, the voice recognition result correspondence processing unit 31 supplies the video output unit 22 with the voice recognition result reflecting the editing by replacing the corrected portion with the replacement information, and presents the result to the user.
  • FIG. 3 is a block diagram illustrating a configuration example of the voice recognition server 14.
  • the speech recognition server 14 includes a communication unit 41, an input sound processing unit 42, a speech recognition unit 43, a natural language processing unit 44, a semantic analysis processing unit 45, a corrected part estimation processing unit 46, and collation information acquisition.
  • Unit 47 an editing correspondence processing unit 48, and a speech recognition result output processing unit 49.
  • the communication unit 41 is configured by a communication module for performing communication via the network 12, and transmits / receives various information to / from the client terminal 13. For example, the communication unit 41 receives the voice information transmitted from the client terminal 13 and supplies the voice information to the input sound processing unit 42 or the voice recognition result information supplied from the voice recognition result output processing unit 49. Or send to.
  • the input sound processing unit 42 performs various kinds of pre-processing necessary for the voice information supplied from the communication unit 41 before the voice recognition unit 43 performs voice recognition. For example, the input sound processing unit 42 eliminates a silent section or a section of only noise in the voice information, and detects a voice section including the spoken voice from the voice information. VAD (Voice Activity Detection) Processing is performed, and voice information of the utterance section is supplied to the voice recognition unit 43.
  • VAD Voice Activity Detection
  • the voice recognition unit 43 performs voice recognition on the voice information supplied from the input sound processing unit 42, recognizes a user's utterance based on the voice information for each word, and converts a sentence including these word strings into a voice recognition result. To the natural language processing unit 44.
  • the natural language processing unit 44 performs natural language processing (morphological analysis, syntactic analysis, etc.) for recognizing a sentence representing the speech recognition result supplied from the speech recognition unit 43 as a natural language that humans use on a daily basis.
  • the speech recognition result subjected to the natural language processing is supplied to the semantic analysis processing unit 45.
  • the natural language processing unit 44 can specify the part of speech for each word constituting the sentence by performing natural language processing.
  • the semantic analysis processing unit 45 performs a semantic analysis process for analyzing the meaning of the sentence on the sentence representing the speech recognition result subjected to the natural language processing in the natural language processing unit 44, and the sentence indicated by the speech recognition result
  • the contents are supplied to the correction location estimation processing unit 46.
  • the correction location estimation processing unit 46 Based on the accuracy of the content of the text indicated by the speech recognition result supplied from the semantic analysis processing unit 45, the correction location estimation processing unit 46 performs processing for estimating a correction location that requires correction on the text. . At this time, the corrected part estimation processing unit 46 acquires the collation information necessary for determining the accuracy of the content of the sentence indicated by the speech recognition result via the collation information acquisition unit 47.
  • fact information including various data such as behavior data, weather data, and statistical data can be used as the verification information. That is, as described above, action information, environment information, line-of-sight information, object recognition information, and the like recorded in the client terminal 13 can be used as collation information.
  • the correction location estimation processing unit 46 collates the content of the sentence indicated by the speech recognition result with the verification information, and estimates that there is a correction location that needs to be corrected. In such a case, the voice recognition result output processing unit 49 is notified of the corrected portion.
  • the verification information acquisition unit 47 transmits information requesting verification information required by the correction location estimation processing unit 46 via the communication unit 41, acquires the verification information transmitted in response to the request, and corrects the verification information. It supplies to the location estimation process part 46.
  • the editing correspondence processing unit 48 deletes the phoneme information of the word specified as the editing target from the speech information of the speech recognition result that is held, and deleted the information.
  • Voice information for recognizing voice for editing is created by connecting the voice information of the recurrent story to the edited part.
  • the edit processing unit 48 supplies the speech information for editing speech recognition to the speech recognition unit 43 to perform speech recognition, thereby acquiring the word indicated by the speech information of the recurrent utterance as replacement information.
  • the replacement information is supplied to the speech recognition result output processing unit 49.
  • the speech recognition result output processing unit 49 when the correction part estimation processing unit 46 estimates a correction part that needs to be corrected with respect to the sentence indicated by the voice recognition result, provides information for confirming the estimated correction part.
  • the result is added to the recognition result and transmitted to the client terminal 13 via the communication unit 41.
  • the speech recognition result output processing unit 49 outputs only the speech recognition result to the client terminal when the correction location estimation processing unit 46 has not estimated the correction location that needs to be corrected with respect to the text indicated by the speech recognition result. 13 to send.
  • the voice recognition result output processing unit 49 transmits the replacement information to the client terminal 13 via the communication unit 41. Furthermore, when transmitting the synthesized speech as the speech recognition result, the speech recognition result output processing unit 49 can generate and transmit the synthesized speech that reads the sentence indicated by the speech recognition result.
  • the speech recognition server 14 determines the accuracy of the content of the text obtained as the speech recognition result. It is possible to estimate a correction portion that needs to be corrected with respect to the sentence by checking with matching information necessary for the sentence.
  • collation information fact information provided by the news server 15 and the encyclopedia server 16, user action information recorded in the client terminal 13, and the like are used.
  • the voice recognition server 14 transmits information for confirming the corrected portion to the client terminal 13 together with the voice recognition result.
  • the client terminal 13 displays a user interface for confirming the correction location estimated in the voice recognition server 14, and when an operation for instructing correction to the correction location is performed by the user, The correction can be reflected on the recognition result.
  • the client terminal 13 can specify the editing target when an operation for instructing editing is performed on the text of the voice recognition result. Then, the client terminal 13 transmits the recurrent speech information to the speech recognition server 14. In response to this, the voice recognition server 14 deletes the edited part to be edited from the held voice information, connects the voice information of the recurrent utterance to the edited part, performs voice recognition, and edits. Is transmitted to the client terminal 13.
  • the client terminal 13 can display the voice recognition result reflecting the editing and present it to the user.
  • the correction part estimated by the voice recognition server 14 when the correction part estimated by the voice recognition server 14 is corrected, the correction part may be specified as an editing target, and a recurrent utterance for correcting the correction part is voiced.
  • the correction part can be corrected (edited) according to the information.
  • the speech recognition system 11 can easily correct or edit a sentence obtained as a speech recognition result by estimating a correction portion for the sentence of the speech recognition result or reflecting an edit by the user. Can do. Thereby, the voice recognition system 11 can provide a more convenient voice recognition service.
  • FIGS. 4 to 9 a user interface for presenting a corrected portion estimated for a sentence obtained as a speech recognition result will be described.
  • FIG. 4 shows a first example of a user interface that presents a corrected portion estimated based on behavior information for a sentence obtained as a speech recognition result. For example, when the action of the day ends, such as before going to bed, and a message indicating the event of the day is created, the user speaks to the client terminal 13 “Today, go to Ebisu at noon until 17:00. I went shopping in Ikebukuro. "
  • the voice information acquisition unit 21 acquires voice information based on the user's utterance, and the communication unit 30 transmits the voice information to the voice recognition server 14.
  • the voice recognition unit 43 performs voice recognition on the voice information, thereby acquiring the voice recognition result “Today, I went to Ebisu at noon and shopped in Ikebukuro until 17:00”. And the correction location estimation process part 46 recognizes that a user's action information is required as collation information for judging the accuracy of the content (time slot
  • the communication unit 30 reads out information corresponding to the request from the various types of information recorded in the recording unit 29, The verification information is transmitted to the voice recognition server 14.
  • the collation information acquisition unit 47 acquires the behavior information transmitted from the client terminal 13 and supplies it to the correction location estimation processing unit 46.
  • the correction location estimation processing unit 46 collates the content of the text indicated by the voice recognition result with the user's behavior information, and estimates whether there is a correction location that requires correction to the text. For example, when the location in the time zone indicated by the speech recognition result does not match the location indicated in the behavior information in the time zone, the corrected location estimation processing unit 46 sets the location indicated by the speech recognition result as the corrected location. Can be estimated.
  • the correction location estimation processing unit 46 collates the location “Ebisu” in the time zone “daytime” indicated by the speech recognition result with the location indicated in the behavior information in that time zone. Similarly, the correction location estimation processing unit 46 collates the location “Ikebukuro” in the time zone “17:00” indicated by the speech recognition result with the location indicated in the behavior information in that time zone. As a result, since the location “Ikebukuro” in the time zone “17:00” indicated by the speech recognition result does not match the location “Shinjuku” indicated in the behavior information in that time zone, The location “Ikebukuro” indicated by the speech recognition result is estimated as a corrected location.
  • the correction location estimation processing unit 46 adds information for confirming the correction location to the voice recognition result and transmits the information to the client terminal 13. Therefore, the client terminal 13 can display a user interface for confirming a word estimated as a corrected portion together with a sentence indicating a voice recognition result according to information for confirming the corrected portion.
  • the user interface “Is this correct?” Is displayed for confirming whether or not the location “Ikebukuro” estimated as the correction location is correct.
  • a GUI Yes button / No button
  • a synthesized voice “Is this right?” May be output.
  • the user When the user thinks that the location “Ikebukuro” indicated by the voice recognition result is correct for such a user interface, the user performs a touch operation on the Yes button. Thereby, the place “Ikebukuro” indicated by the speech recognition result is determined.
  • the user when the user thinks that the location “Ikebukuro” indicated by the voice recognition result is incorrect, the user performs a touch operation on the No button. Thereby, the user can easily correct the location “Ikebukuro” indicated by the voice recognition result. For example, in this case, it is possible to perform a process of deleting the corrected portion, displaying a user interface that prompts the user to recite, and replacing the corrected portion based on the voice information of the recurrent speech.
  • FIG. 5 shows a second example of a user interface that presents a corrected portion estimated based on behavior information for a sentence obtained as a speech recognition result. For example, when a day's action ends, such as before going to bed, and a message indicating the event of the day is created, the user speaks to the client terminal 13 “Today, go to Ebisu at noon at 7:00 XYZ I went shopping ".
  • the correction location estimation processing unit 46 uses the user's behavior as collation information for determining the accuracy of the content (time zone and location) of the sentence indicated by the speech recognition result. Information is requested, and the content of the sentence indicated by the voice recognition result is compared with the user's action information. As a result, in the example shown in FIG. 5, the place “XYZ shop” in the time zone “17:00” indicated by the speech recognition result does not match the place “Shinjuku” indicated in the behavior information in that time zone. The correction location estimation processing unit 46 estimates the location “XYZ shop” indicated by the speech recognition result as a correction location.
  • the user interface “Record Shinjuku” is used to check whether the location is correct for the location “XYZ Shop” estimated as the correction location. Is this (XYZ shop) correct? Is displayed.
  • a GUI Yes button / No button for inputting a confirmation result by the user is displayed on the user interface.
  • the user When the user thinks that the place “XYZ shop” indicated by the voice recognition result is correct for such a user interface, the user performs a touch operation on the Yes button. Thereby, the place “XYZ shop” indicated by the voice recognition result is determined. On the other hand, if the user thinks that the place “XYZ shop” indicated by the voice recognition result is wrong for such a user interface, the user performs a touch operation on the No button. In this case, the place “XYZ shop” indicated by the speech recognition result is corrected to “Shinjuku”.
  • the speech recognition system 11 has a difference between the granularity of information recorded in the client terminal 13 and the granularity of information in a sentence indicating the speech recognition result.
  • the information can be estimated as a correction location and presented together with the speech recognition result.
  • FIG. 6 shows a first example of a user interface that presents a corrected part estimated based on weather information for a sentence obtained as a speech recognition result. For example, it is assumed that the action of the day ends, such as before going to bed, and the user utters “today's weather is sunny” to the client terminal 13 when creating a message indicating the event of the day.
  • the voice information acquisition unit 21 acquires voice information based on the user's utterance, and the communication unit 30 transmits the voice information to the voice recognition server 14.
  • the voice recognition unit 43 obtains the voice recognition result “Today's weather is rough” by performing voice recognition on the voice information. ) Thereby, the correction location estimation processing unit 46 needs the weather information of the day as collation information for determining whether or not the content (weather) of the sentence indicated by the speech recognition result is accurate. recognize. Therefore, the collation information acquisition unit 47 requests the news server 15 to transmit the weather information on that day.
  • the collation information acquisition unit 47 acquires the weather information transmitted from the news server 15 and supplies it to the correction location estimation processing unit 46.
  • the corrected location estimation processing unit 46 estimates a location where the text needs to be corrected. For example, the corrected location estimation processing unit 46 can estimate the weather of the voice recognition result that does not match the weather information as the corrected location.
  • the correction location estimation processing unit 46 collates the weather “rough” of the voice recognition result with the weather information. Then, when the correction location estimation processing unit 46 recognizes that the weather of the day is not “rough” according to the weather information, it can estimate the weather “roughness” of the voice recognition result as the correction location.
  • the correction location estimation processing unit 46 adds information for confirming the correction location to the voice recognition result and transmits the information to the client terminal 13. Therefore, the client terminal 13 can display a user interface for confirming a word estimated as a corrected portion together with a sentence indicating a voice recognition result according to information for confirming the corrected portion.
  • the weather “rough” estimated as the correction location in the speech recognition result is automatically corrected to the weather “clear”, and a user interface “here” is used to check whether the correction is correct.
  • the user interface also displays a GUI (a button that can be used / a button that returns to original information (roughness)) for inputting a result of confirmation by the user.
  • the user When the user thinks that the weather “sunny” indicated by the automatically corrected speech recognition result is correct for such a user interface, the user performs a touch operation on a button that can be used. Thereby, the weather “sunny” indicated by the voice recognition result is determined.
  • the user when the user thinks that the weather “sunny” indicated by the automatically corrected speech recognition result is incorrect for such a user interface, the user performs a touch operation on the button for returning to the original information (roughness). I do. In this case, the weather “sunny” indicated by the automatically corrected speech recognition result is corrected to “rough”.
  • FIG. 7 shows a second example of a user interface that presents a corrected portion estimated based on weather information for a sentence obtained as a speech recognition result. For example, it is assumed that when the user talks with a virtual agent using the voice recognition function provided by the voice recognition system 11, the user utters “the weather today was sunny” to the client terminal 13.
  • the correction location estimation processing unit 46 determines that the weather “rough” in the voice recognition result is the correction location because the weather information is not “rough”. Estimate as
  • the agent's response to the user's utterance “Today's weather was sunny” is displayed, “Today's weather was sunny / Is it correct?”
  • information to be corrected is notified.
  • the user can perform a conversation with the agent by responding to the response of the agent based on his / her own recognition. And a user can reduce stress by repeating such a conversation with an agent for multiple turns.
  • the speech recognition system 11 compares the factual information such as weather information with the information in the sentence indicating the speech recognition result when the accuracy of the information is low. Can be estimated as a correction location, and the speech recognition result can be automatically corrected and presented.
  • the user wears a wearable goggles 61 including the line-of-sight information acquisition unit 27 and the object recognition unit 28 of FIG. 2. Then, the line-of-sight information acquisition unit 27 recognizes the user's line of sight as indicated by the one-dot chain line arrow in FIG. 8, and the object recognition unit 28 can perform object recognition on the object that the user is viewing.
  • the object recognizing unit 28 displays a user interface (pupil mark) indicating the result of recognizing the user's line of sight superimposed on the blue ball, and the object recognition result is a blue ball (Ball: Blue). It has been shown.
  • the voice information acquisition unit 21 acquires voice information based on the user's utterance, and the communication unit 30 transmits the voice information to the voice recognition server 14.
  • the voice recognition unit 43 acquires the voice recognition result “take a green ball” by performing voice recognition on the voice information. And the correction location estimation process part 46 recognizes that object recognition information is required as collation information for judging the accuracy of the content (object) of the text which such a speech recognition result shows. In response to this, the collation information acquisition unit 47 transmits to the client terminal 13 information requesting the object recognition information when the user utters as collation information.
  • the communication unit 30 reads out information corresponding to the request from various information recorded in the recording unit 29, and performs collation. Information is transmitted to the voice recognition server 14.
  • the collation information acquisition unit 47 acquires the object recognition information transmitted from the client terminal 13 and supplies it to the correction location estimation processing unit 46.
  • the correction location estimation processing unit 46 collates the content of the text indicated by the speech recognition result with the object recognition information, and estimates whether there is a correction location that requires correction to the text. For example, when the object indicated by the speech recognition result does not match the object indicated by the object recognition information, the correction location estimation processing unit 46 can estimate the object indicated by the speech recognition result as the correction location.
  • the correction location estimation processing unit 46 converts the object “green ball” indicated by the speech recognition result into the object recognition information “Ball: Blue” described with reference to FIG. 8. ”. As a result, the correction location estimation processing unit 46 does not match the object “green ball” indicated by the speech recognition result with the object recognition information “Ball: Blue”. The “green ball” is estimated as the corrected portion.
  • the correction location estimation processing unit 46 adds information for confirming the correction location to the voice recognition result and transmits the information to the client terminal 13. Therefore, the client terminal 13 can display a user interface for confirming a word estimated as a corrected portion together with a sentence indicating a voice recognition result according to information for confirming the corrected portion.
  • the object color “green” estimated as the correction location in the speech recognition result is automatically corrected to the object color “blue” and whether or not the correction is correct is confirmed.
  • the user interface "I have automatically corrected this" is displayed.
  • a GUI a button that can be used / a button that returns to original information (green)
  • a translation result “Please pass blue balls” obtained by translating using the speech recognition result is displayed.
  • the user When the user thinks that the color “blue” of the object indicated by the automatically corrected speech recognition result is correct for such a user interface, the user performs a touch operation on a button that is acceptable. Thereby, the color “blue” of the object indicated by the speech recognition result is fixed. On the other hand, if the user thinks that the color “blue” of the object indicated by the automatically corrected speech recognition result is wrong for such a user interface, the user selects the button for returning to the original information (green). Perform touch operation. In this case, the color “blue” of the object indicated by the automatically corrected speech recognition result is corrected to “green”.
  • the speech recognition system 11 compares the object recognition information recorded in the client terminal 13 with low accuracy of information in the sentence indicating the speech recognition result.
  • the information can be estimated as a correction location, and the speech recognition result can be automatically corrected and presented.
  • a user interface for editing a speech recognition result based on speech recognition processing by the speech recognition system 11 will be described with reference to FIGS.
  • the audio information acquisition unit 21 acquires audio information having a waveform as illustrated.
  • the voice recognition unit 43 executes a voice recognition process based on the voice information to acquire a sentence (character information) including a word string recognized as a voice recognition result.
  • the correspondence between the word and phoneme information obtained from the speech information is specified.
  • the natural language processing unit 44 specifies the part of speech for each word of the speech recognition result and acquires the part of speech information.
  • the voice recognition server 14 temporarily holds voice information, correspondence between words and phoneme information, and part of speech information.
  • the correction part estimation processing unit 46 estimating the correction part as described above, if there is no correction part, the voice recognition result “I drove your car to airport every day” is output to the video of the client terminal 13 Displayed on the unit 22.
  • the user may desire to edit the utterance content.
  • the operation input unit 23 supplies operation information indicating the content of the operation to the voice recognition result correspondence processing unit 31, and the voice recognition result correspondence processing unit 31 displays the word “ Specify "airport” as the edit target. Then, the speech recognition result correspondence processing unit 31 can display a user interface for editing the speech recognition result.
  • a user interface “Do you want to delete?” Is displayed for confirming deletion of the word “airport” specified as the editing target.
  • a GUI OK button / NG button
  • a result of confirmation by the user is displayed on the user interface.
  • the speech recognition result correspondence processing unit 31 transmits information indicating that the word “airport” specified as the editing target is to be deleted to the speech recognition server 14.
  • the editing correspondence processing unit 48 obtains phoneme information associated with the word “airport” from the speech information based on the user's utterance “I drove your car to airport every day”. delete. Therefore, as shown in FIG. 11, the speech information held in the speech recognition server 14 is only phoneme information corresponding to words other than the word to be edited (hereinafter, referred to as non-edited speech information as appropriate). Will be composed.
  • a word to be edited may be specified according to the user's utterance “airport is deleted and station”. Further, for example, when the user has stopped looking at a word that he / she wants to edit for a predetermined time (for example, 3 seconds) or longer, the word may be specified as an editing target. Also in these cases, a user interface similar to that in FIG. 11 is displayed, and the word to be edited can be deleted according to the user's touch operation on the user interface.
  • the speech recognition result correspondence processing unit 31 displays a user interface for prompting re-speech on the video output unit 22.
  • a word string in which a part where the word to be edited has been deleted from the speech recognition result is displayed as a blank is displayed, and a message “Reoccurrence to here” prompts a re-speech to edit the word in the blank part. "Waiting for talk" is displayed.
  • the voice information acquisition unit 21 acquires voice information of a recurrent utterance based on the user's utterance “station” and transmits the voice information to the voice recognition server 14.
  • the editing correspondence processing unit 48 connects the speech information “station” of the recurrent utterance to the location where the phoneme information associated with the word “airport” has been deleted from the speech information that is not to be edited. To create voice information for editing voice recognition.
  • the editing correspondence processing unit 48 supplies voice information for editing voice recognition to the voice recognition unit 43 to perform voice recognition.
  • the voice recognition unit 43 acquires the voice recognition result “I ⁇ drove your car to station every day ”and supplies it to the edit correspondence processing unit 48.
  • the edit correspondence processing unit 48 deletes the speech information that is not the object of editing from the speech recognition result, and replaces the word “airport” deleted from the speech recognition result presented to the user. “Station” is acquired and transmitted to the client terminal 13.
  • the speech recognition result correspondence processing unit 31 performs the speech recognition result “I drove your car to station every day” reflecting the editing by the word “station” serving as replacement information. Is displayed. Furthermore, the speech recognition result correspondence processing unit 31 displays a user interface “Maybe” that presents other candidates for the replacement information. In this user interface, a GUI for inputting other candidates for the replacement information (stay, attention) and a GUI (button as it is) for instructing to decide editing by the word “station” of the replacement information are displayed. .
  • the speech recognition result correspondence processing unit 31 can determine the speech recognition result “I drove your car to station ever day” reflecting the editing by the word “station” of the replacement information.
  • editing by the word “station” of the replacement information may be determined by voice (speech “Katsuma”) or line of sight.
  • At least one piece of voice information for voice recognition for editing needs to be created.
  • a plurality of pieces of voice information may be created with some patterns.
  • a plurality of pieces of voice information may be used. In this case, voice information for voice recognition for editing of several patterns is created.
  • the editing correspondence processing unit 48 adds specific speech information before the location where the speech information of the recurrent speech is connected, and provides speech information for speech recognition for editing. Can be created.
  • the edit processing unit 48 adds the speech information “new” before the portion where the speech information of the recurrent speech is connected, and the recurrent speech subsequent to the speech information “new”.
  • Audio information for speech recognition for editing may be created by performing processing for connecting the audio information “station”. For example, since the part of speech of the word “airport” recognized by the pre-language processing is a noun, the editing correspondence processing unit 48 is likely to include a noun in the deleted part. to add. Also, the edit correspondence processing unit 48 adds the voice information stored when the user uttered in the past as the voice information “new”, or adds the voice information that can be acquired via the network 12. Audio information created by synthesized speech (TSS) can be added.
  • TSS synthesized speech
  • the user makes an utterance “the apple bought today is so delicious” to the client terminal 13, and the voice recognition result is displayed on the video output unit 22 of the client terminal 13. .
  • the speech recognition result correspondence processing unit 31 specifies the word as an editing target.
  • the speech recognition result correspondence processing unit 31 displays a user interface “Do you want to delete?” For confirming deletion of the word “apple” specified as the editing target.
  • a GUI OK button / NG button
  • a result of confirmation by the user is displayed on the user interface.
  • the voice information acquisition unit 21 acquires voice information of the recurrent utterance based on the user's recurrent utterance “peach” and transmits it to the voice recognition server 14.
  • the edit correspondence processing unit 48 creates a database in which parts of speech and categories are associated with a database in which categories, information that is easily attached, and sentence templates are associated. Referring to, the speech information for speech recognition for editing is generated.
  • the editing correspondence processing unit 48 uses the character string according to the information “sweet” that is easily attached to the category “fruit name”. Can be generated as speech information for speech recognition for editing. For example, the edit correspondence processing unit 48 generates a character string “Kyokai came sweet peach is so delicious” as shown in FIG. Of these character strings, “Kyoka Came” and “Gachachacha tasty” use the voice information spoken by the user, “Amai” is output as synthesized speech (TSS), “Momo” The voice information of the user's recurrent utterance is used.
  • TSS synthesized speech
  • the editing correspondence processing unit 48 generates a character string according to the template “delicious fruit is + (target character) +” associated with the category “fruit name” of the recurrent utterance “peach” of the user. It can be generated as speech information for speech recognition for editing. For example, the edit correspondence processing unit 48 generates a character string “delicious fruit is thigh” as shown in B of FIG. Among such character strings, “delicious fruit is” and “is” are output as synthesized speech (TSS), and “Momo” is the voice information of the user's recurrent utterance.
  • TSS synthesized speech
  • the editing correspondence processing unit 48 generates speech information for speech recognition for editing using synthesized speech (TSS) as sound information other than the speech, and performs speech recognition on the speech information of the recurrent speech. Can do.
  • TSS synthesized speech
  • the editing correspondence processing unit 48 can improve the accuracy of voice recognition compared to voice recognition for a single piece of voice information of a recurrent utterance.
  • the speech recognition system 11 uses the speech information of the recurrent utterance to sound information other than the utterance as described above, synthesized speech representing information easily attached to a category, synthesized speech representing a sentence generated from a sentence template, and the like. By connecting information, speech recognition for recurrent speech can be performed with high accuracy.
  • the voice recognition system 11 performs editing that replaces words based on the user's recurrent utterance (airport is changed to station), and performs various edits based on the user's recurrent utterance. Can be applied to.
  • the speech recognition system 11 edits the use of a verb (edits like to like) or edits the change of a noun (edits cars to car) based on the user's recurrent speech. You can do it. Further, the voice recognition system 11 can edit a mistake due to a similar sound (edit He to She) based on the user's recurrent speech. Further, the speech recognition system 11 can edit a recognition failure in units of words (editing had into like) based on the user's recurrent utterance.
  • the speech recognition system 11 can perform speech recognition on the recurrent speech with high accuracy by connecting speech information other than the recurrent speech information to the recurrent speech information of the user. it can.
  • the speech recognition system 11 connects the speech information of the recurrent speech to the sound information other than the speech and performs speech recognition on the entire speech information, it is possible to avoid such speech recognition failure. it can.
  • the speech recognition system 11 has a speech recognition result “I want to go to a hospital to die” for the user's utterance “I want to go to a hospital to day”.
  • the mistake can be edited (die is changed to day) based on the user's relapse.
  • the speech recognition system 11 compares the action information and the weather information, etc. to estimate the corrected part for the utterance including the error, and presents the corrected part. Can be easily noticed. Thereby, the voice recognition system 11 can improve the accuracy of the voice correction system.
  • the speech recognition system 11 utilizes speech context included in the original speech by connecting speech information other than the speech information of the recurrent speech to the speech information of the recurrent speech, Speech recognition for recurrent speech can be performed with high accuracy.
  • FIG. 19 is a flowchart for explaining processing executed in the client terminal 13.
  • the client terminal 13 always performs processing in the background even when the user is not performing voice input.
  • the behavior information acquisition unit 25 acquires behavior information indicating the user's behavior, Records in the recording unit 29.
  • step S12 the environment information acquisition unit 26 acquires environment information indicating the environment around the user and records it in the recording unit 29.
  • step S13 the line-of-sight information acquisition unit 27 acquires line-of-sight information indicating the direction of the user's line of sight, and the object recognition unit 28 acquires object recognition information indicating the recognition result of the object visually recognized by the user.
  • These line-of-sight information and object recognition information are recorded in the recording unit 29 as user sensing information obtained as a result of sensing the user.
  • step S14 the voice information acquisition unit 21 determines whether voice input by the user has been started. For example, when a specific operation on a button (not shown) is performed, or when a user speaks a specific keyword instructing the start of voice input, the voice information acquisition unit 21 determines that voice input by the user has started. Can do.
  • step S14 when the voice information acquisition unit 21 determines that voice input by the user has not been started, the process returns to step S11, and the above-described processes are repeated. On the other hand, if the voice information acquisition unit 21 determines in step S14 that voice input has started, the process proceeds to step S15.
  • step S15 the voice information acquisition unit 21 acquires voice information based on the user's utterance. Then, the voice information acquisition unit 21 supplies the voice information to the communication unit 30, and the communication unit 30 transmits the voice information to the voice recognition server 14 via the network 12.
  • step S ⁇ b> 16 the communication unit 30 transmits collation information according to a request (for example, step S ⁇ b> 35 in FIG. 20 described later) from the collation information acquisition unit 47 of the voice recognition server 14 to the voice recognition server 14 via the network 12.
  • a request for example, step S ⁇ b> 35 in FIG. 20 described later
  • the behavior information, the environment information, and the user sensing information are recorded in the recording unit 29, and the communication unit 30 can select information corresponding to the request from the collation information acquisition unit 47 from the information. Is transmitted to the voice recognition server 14 as collation information.
  • step S17 the communication unit 30 acquires the speech recognition result transmitted from the speech recognition server 14 in step S39 or S39 of FIG. 20 to be described later, and supplies it to the speech recognition result correspondence processing unit 31.
  • the voice recognition server 14 when it is estimated that there is a correction part that needs to be corrected with respect to the voice recognition result, information for confirming the correction part is added to the voice recognition result.
  • step S18 the speech recognition result correspondence processing unit 31 determines whether or not there is a corrected portion for the speech recognition result based on whether or not information for confirming the corrected portion is added to the speech recognition result. Determine whether.
  • step S18 when the speech recognition result correspondence processing unit 31 determines that there is a corrected portion for the speech recognition result, the process proceeds to step S19.
  • step S19 the voice recognition result correspondence processing unit 31 causes the video output unit 22 to display a sentence indicating the voice recognition result, and also generates a user interface for confirming the correction portion and displays the user interface on the video output unit 22.
  • the user interface displays a GUI (button) for accepting confirmation of correction by the user.
  • step S ⁇ b> 20 the operation input unit 23 supplies operation information indicating the content of the operation input by the user's touch operation on the GUI for receiving confirmation of correction by the user to the speech recognition result correspondence processing unit 31. Then, the voice recognition result correspondence processing unit 31 causes the video output unit 22 to display a voice recognition result reflecting the confirmation result for the corrected portion according to the operation information.
  • step S18 determines in step S18 that it is not estimated that there is a correction portion for the speech recognition result
  • the process proceeds to step S21, where the speech recognition result correspondence processing unit 31 Then, the text indicating the voice recognition result is displayed on the video output unit 22.
  • step S22 the speech recognition result correspondence processing unit 31 determines whether or not the user has instructed editing of the utterance content with respect to the speech recognition result displayed on the video output unit 22. Determine whether. For example, as described with reference to FIG. 11 described above, the user touches and holds a portion where a word desired to be edited in the sentence indicated by the speech recognition result is displayed, and operation information corresponding to the touch operation is displayed. Is supplied from the operation input unit 23, the speech recognition result correspondence processing unit 31 can determine that the user has instructed editing of the utterance content.
  • step S22 when the speech recognition result correspondence processing unit 31 determines that the user has instructed editing of the utterance content, the process proceeds to step S23.
  • step S23 the speech recognition result correspondence processing unit 31 specifies an editing part based on the operation information, that is, a word to be edited. Then, as described with reference to FIG. 11 described above, the speech recognition result correspondence processing unit 31 displays a user interface for confirming deletion of the word. Thereafter, when the user performs an operation of agreeing to delete the word specified as the editing target, the speech recognition result correspondence processing unit 31 displays information indicating that the word specified as the editing target is deleted as a voice recognition server. 14 to send.
  • step S24 the speech recognition result correspondence processing unit 31 displays a user interface for prompting re-utterance on the video output unit 22 as described with reference to FIG. Then, the voice information acquisition unit 21 acquires the voice information of the recurrent utterance based on the user's utterance and transmits it to the voice recognition server 14.
  • step S25 the speech recognition result correspondence processing unit 31 acquires the replacement information transmitted from the speech recognition server 14 in step S56 of FIG. Then, the voice recognition result correspondence processing unit 31 displays the voice recognition result reflecting the editing on the video output unit 22 by replacing the replacement information with the edited portion.
  • step S25 After the process of step S25, or when it is determined in step S22 that the user has not instructed editing of the utterance content, the process returns to step S11, and the same process is repeated thereafter.
  • 20 and 21 are flowcharts for explaining processing executed in the voice recognition server 14.
  • step S ⁇ b> 31 the input sound processing unit 42 performs preprocessing such as VAD processing on the voice information supplied from the communication unit 41 and supplies the voice information to the voice recognition unit 43.
  • step S32 the voice recognition unit 43 performs voice recognition processing on the voice information supplied from the input sound processing unit 42 in step S31. Then, the voice recognition unit 43 supplies a sentence obtained as a voice recognition result to the natural language processing unit 44.
  • step S33 the natural language processing unit 44 performs natural language processing on the sentence representing the speech recognition result supplied from the speech recognition unit 43 in step S32, and the speech recognition result subjected to the natural language processing is processed as a semantic analysis processing unit. 45.
  • step S34 the semantic analysis processing unit 45 performs semantic analysis processing for analyzing the meaning of the sentence on the sentence representing the voice recognition result supplied from the natural language processing unit 44 in step S33, and the voice recognition result is obtained.
  • the contents of the sentence to be shown are supplied to the correction location estimation processing unit 46.
  • step S35 the correction location estimation processing unit 46 recognizes collation information necessary for determining the accuracy of the content of the sentence indicated by the speech recognition result supplied from the semantic analysis processing unit 45 in step S34, and performs collation information.
  • the acquisition unit 47 requests collation information via the communication unit 41.
  • the collation information acquisition unit 47 requests behavior information, environment information, line-of-sight information, object recognition information, and the like from the client terminal 13 as collation information, or requests the news server 15 and the encyclopedia server 16. Request factual information.
  • the collation information acquisition unit 47 acquires the collation information transmitted in response to the request via the communication unit 41 and supplies it to the correction location estimation processing unit 46.
  • step S36 the correction location estimation processing unit 46 collates the content of the sentence indicated by the speech recognition result with the collation information acquired in step S35, and performs a process of estimating the correction location for the text.
  • step S37 the corrected part estimation processing unit 46 determines whether or not it is estimated that there is a corrected part in the sentence indicated by the speech recognition result as a result of the process in step S35.
  • step S37 when the corrected part estimation processing unit 46 determines that there is a corrected part in the sentence indicated by the speech recognition result, the process proceeds to step S38.
  • step S38 the corrected part estimation processing unit 46 supplies information indicating the corrected part together with the voice recognition result to the voice recognition result output processing unit 49. Output with recognition result.
  • step S37 when the corrected part estimation processing unit 46 determines that there is no corrected part in the sentence indicated by the speech recognition result, the process proceeds to step S39.
  • step S39 the corrected part estimation processing unit 46 supplies the speech recognition result to the speech recognition result output processing unit 49, and the speech recognition result output processing unit 49 outputs the speech recognition result.
  • step S40 the edit correspondence processing unit 48 determines whether or not the edit location is notified by the client terminal 13. For example, when information indicating that the word specified as the editing target is deleted from the client terminal 13 in step S23 of FIG. 19 described above, the editing correspondence processing unit 48 determines that the editing location has been notified. .
  • step S40 when the edit correspondence processing unit 48 determines that the edit location has been notified, the process proceeds to step S41, and after the edit support processing is performed, the processing is terminated, and it is determined that the edit location has not been notified. If so, the process ends.
  • FIG. 21 is a flowchart for explaining the edit handling process performed in step S41 of FIG.
  • step S51 the edit processing unit 48 recognizes the edit location according to the information transmitted from the client terminal 13 and indicating that the word specified as the edit target is to be deleted.
  • step S52 as described with reference to FIG. 11 described above, the editing correspondence processing unit 48 is associated with the word of the edited portion recognized in step S51 from the speech information held in the speech recognition server 14. Delete phoneme information. As a result, the editing correspondence processing unit 48 identifies audio information that is not to be edited.
  • step S53 the editing support processing unit 48 acquires the recurrent speech information transmitted from the client terminal 13 in step S24 of FIG.
  • step S54 the edit correspondence processing unit 48 performs a process of connecting the recurrent speech information acquired in step S53 to the edit location from which the word is deleted in the non-edited audio information recognized in step S52. Create speech information for speech recognition for editing.
  • step S55 the editing correspondence processing unit 48 supplies the voice recognition unit 43 with the voice information for voice recognition for editing created in step S54 to perform voice recognition.
  • step S56 the editing correspondence processing unit 48 determines, as replacement information that replaces the remaining speech information by deleting the speech information that is not subject to editing from the speech recognition result obtained by performing speech recognition in step S55. . Then, the edit correspondence processing unit 48 transmits the replacement information to the client terminal 13 via the communication unit 41. In response to this, after the editing is reflected by replacing the replacement information in the editing portion of the speech recognition result in step S25 of FIG. 19 described above, the editing corresponding process is terminated.
  • the client terminal 13 and the voice recognition server 14 have a user interface for confirming a correction location estimated based on the user's behavior information, weather information, and the like together with the voice recognition result for the voice information based on the user's utterance. Can be displayed. Thereby, for example, it is possible to easily correct a wrong voice input due to a user's memory difference or the like.
  • the client terminal 13 and the voice recognition server 14 perform voice recognition on the voice information for voice recognition for editing in which the voice information of the re-uttered speech at the editing location instructed by the user is connected to the voice information not to be edited. be able to. Therefore, the voice recognition server 14 can improve the accuracy of voice recognition, for example, compared to a configuration in which voice recognition is performed using only voice information of recurrent speech.
  • the voice recognition system 11 can estimate the corrected part more accurately and present it to the user, and can perform voice recognition on the edited part with high accuracy. Thereby, the voice recognition system 11 can provide a more convenient voice recognition service.
  • the voice recognition service provided by the voice recognition system 11 can be used in all applications that provide a user interface for performing voice input, for example.
  • the speech recognition service provided by the speech recognition system 11 is used in a virtual agent system or the like, if the user's utterance includes a lie, the lie is estimated as a corrected portion, and the user Can be corrected.
  • the voice recognition system 11 collates with the environment information indicating the temperature acquired by the environment information acquisition unit 26, and the temperature at that time is 38 degrees.
  • the word “cold” in the speech recognition result can be estimated as the corrected portion.
  • the voice recognition system 11 includes the client terminal 13 and the voice recognition server 14 connected via the network 12, as described above. Voice recognition services are provided. Without being limited to this configuration, for example, the voice recognition system may be configured by the client terminal 13 alone, or the voice recognition service may be provided without performing communication via the network 12.
  • the blocks constituting the client terminal 13 and the voice recognition server 14 may be arranged on either side of the network 12 as long as the voice recognition system 11 can provide the voice recognition service as a whole.
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software executes various functions by installing a computer incorporated in dedicated hardware or various programs.
  • the program is installed in a general-purpose personal computer from a program recording medium on which the program is recorded.
  • FIG. 22 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 105 is further connected to the bus 104.
  • the input / output interface 105 includes an input unit 106 including a keyboard, a mouse, and a microphone, an output unit 107 including a display and a speaker, a storage unit 108 including a hard disk and nonvolatile memory, and a communication unit 109 including a network interface.
  • a drive 110 for driving a removable medium 111 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is connected.
  • the CPU 101 loads, for example, the program stored in the storage unit 108 to the RAM 103 via the input / output interface 105 and the bus 104 and executes the program. Is performed.
  • the program executed by the computer (CPU 101) is, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.), a magneto-optical disc, or a semiconductor.
  • the program is recorded on a removable medium 111 that is a package medium including a memory or the like, or is provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 108 via the input / output interface 105 by attaching the removable medium 111 to the drive 110. Further, the program can be received by the communication unit 109 via a wired or wireless transmission medium and installed in the storage unit 108. In addition, the program can be installed in the ROM 102 or the storage unit 108 in advance.
  • this technique can also take the following structures.
  • a voice recognition unit that performs voice recognition on voice information based on a user's utterance; By estimating the content of the sentence obtained as a result of the speech recognition by the speech recognition unit with the collation information necessary for determining the accuracy of the content, a correction part that needs to be corrected is estimated.
  • a correction location estimation unit to perform An information processing apparatus comprising: a presentation unit that presents a sentence obtained as a result of the voice recognition to a user together with a corrected part estimated by the corrected part estimation unit.
  • the information processing apparatus according to (1) further including a verification information acquisition unit that acquires the verification information required by the correction location estimation unit and supplies the verification information to the correction location estimation unit.
  • the verification information acquisition unit acquires fact information provided via a network as the verification information, The information processing apparatus according to (2), wherein the correction location estimation unit estimates the correction location by comparing the content of the text with the fact information.
  • the verification information acquisition unit acquires behavior information acquired along with user behavior as the verification information, The information processing apparatus according to (2) or (3), wherein the correction location estimation unit estimates the correction location by comparing the content of the sentence with the action information.
  • the verification information acquisition unit acquires environmental information representing an environment around the user as the verification information, The information processing apparatus according to any one of (2) to (4), wherein the correction location estimation unit estimates the correction location by comparing the content of the text with the environment information.
  • the verification information acquisition unit acquires object recognition information that recognizes an object ahead of the user's line of sight as the verification information
  • An information processing method including a step of presenting a sentence obtained as a result of the voice recognition to a user together with an estimated correction portion.
  • 11 voice recognition system 12 network, 13 client terminal, 14 voice recognition server, 15 news server, 16 encyclopedia server, 21 voice information acquisition part, 22 video output part, 23 operation input part, 24 voice output part, 25 behavior information Acquisition unit, 26 environment information acquisition unit, 27 gaze information acquisition unit, 28 object recognition unit, 29 recording unit, 30 communication unit, 31 speech recognition result response processing unit, 41 communication unit, 42 input sound processing unit, 43 speech recognition unit , 44 Natural language processing section, 45 Semantic analysis processing section, 46 Correction location estimation processing section, 47 Collation information acquisition section, 48 Editing support processing section, 49 Voice recognition result output processing section

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本開示は、より利便性の高い音声認識サービスを提供することができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。 音声認識部は、ユーザの発話に基づく音声情報に対する音声認識を行い、修正箇所推定部は、音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、文章に対して修正が必要となる修正箇所を推定する。そして、音声認識結果として得られた文章を、修正箇所推定部により推定された修正箇所とともに表示して、ユーザに提示する。本技術は、例えば、音声認識サービスを提供する音声認識システムに適用できる。

Description

情報処理装置および情報処理方法、並びにプログラム
 本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より利便性の高い音声認識サービスを提供することができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。
 近年、音声入力を利用したユーザインタフェースの活用が広まっており、より良好な音声入力を可能とするような音声認識処理を実現することが重要となっている。
 例えば、特許文献1には、文章内の前後文脈に基づいた言語モデルに基づいて、音声認識された文章に含まれている単語を置き換えることにより、音声認識結果として得られた文章の正確度を向上させる技術が開示されている。
特開2016-110087号公報
 しかしながら、上述の特許文献1で開示されている技術では、過去の学習結果などに依存して単語の置き換えが行われているため、適切な学習が行われていない場合には、単語の置き換えを期待通りに行うことは困難であった。そのため、音声認識結果として得られた文章の正確度を向上させるのに寄与することができない結果、音声認識サービスとしての利便性が低くなってしまっていた。
 本開示は、このような状況に鑑みてなされたものであり、より利便性の高い音声認識サービスを提供することができるようにするものである。
 本開示の一側面の情報処理装置は、ユーザの発話に基づく音声情報に対する音声認識を行う音声認識部と、前記音声認識部による音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定する修正箇所推定部と、前記音声認識結果として得られた文章を、前記修正箇所推定部により推定された修正箇所とともにユーザに提示する提示部とを備える。
 本開示の一側面の情報処理方法またはプログラムは、ユーザの発話に基づく音声情報に対する音声認識を行い、音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示するステップを含む。
 本開示の一側面においては、ユーザの発話に基づく音声情報に対する音声認識が行われ、音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、文章に対して修正が必要となる修正箇所が推定される。そして、音声認識結果として得られた文章が、推定された修正箇所とともにユーザに提示される。
 本開示の一側面によれば、より利便性の高い音声認識サービスを提供することができる。
本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。 クライアント端末の構成例を示すブロック図である。 音声認識サーバの構成例を示すブロック図である。 行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第1の例を示す図である。 行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第2の例を示す図である。 天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第1の例を示す図である。 天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第2の例を示す図である。 ユーザの視線の先にある物体の認識について説明する図である。 物体認識情報に基づいて推定された修正箇所を提示するユーザインタフェースの例を示す図である。 音声認識処理の一例について説明する図である。 音声認識結果に対して編集を行うユーザインタフェースの一例を示す図である。 編集対応処理について説明する図である。 編集を反映した音声認識結果の表示を説明する図である。 再発話の音声情報を接続する箇所の前に、特定の音声情報を追加する例を説明する図である。 音声認識結果に対して編集を行うユーザインタフェースの一例を示す図である。 編集用の音声認識向けの音声情報の生成に参照するデータベースの一例を示す図である。 発話以外の音情報を用いた編集用の音声認識向けの音声情報の例を説明する図である。 ユーザの再発話に基づいた様々な編集を行う事例を説明する図である。 クライアント端末において実行される処理を説明するフローチャートである。 音声認識サーバにおいて実行される処理を説明するフローチャートである。 編集対応処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
 <音声認識システムの構成例>
 図1は、本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。
 図1に示すように、音声認識システム11は、インターネットなどのネットワーク12を介して、複数台(図1の例ではN台)のクライアント端末13-1乃至13-Nおよび音声認識サーバ14が接続されて構成される。なお、クライアント端末13-1乃至13-Nは、それぞれ同様に構成されており、互いに区別する必要がない場合、以下適宜、クライアント端末13と称する。
 また、ネットワーク12には、一般的なニュースや天候などに関する情報を提供するニュースサーバ15、および、様々な分野についての知識や解説などに関する情報を提供する百科事典サーバ16が接続されている。なお、以下で説明する本実施の形態では、ニュースサーバ15および百科事典サーバ16により提供される情報を事実情報とも称する。
 例えば、音声認識システム11では、それぞれのクライアント端末13を所持するユーザの発話に基づいた音声情報が、ネットワーク12を介して音声認識サーバ14に送信され、音声認識サーバ14において音声認識処理が実行される。そして、音声認識サーバ14は、音声認識結果として得られる単語列からなる文章(文字情報)を、ネットワーク12を介して、発話を行ったユーザのクライアント端末13に送信する。これにより、クライアント端末13は、ユーザの発話に対する音声認識結果を表示し、ユーザに提示することができる。
 このように構成される音声認識システム11は、例えば、より高性能で最新の音声認識処理を音声認識サーバ14に実装することで、個々のクライアント端末13の処理能力が低くても、より良好な音声入力を可能とする音声認識処理を提供することができる。
 図2は、クライアント端末13の構成例を示すブロック図である。
 図2に示すように、クライアント端末13は、音声情報取得部21、映像出力部22、操作入力部23、音声出力部24、行動情報取得部25、環境情報取得部26、視線情報取得部27、物体認識部28、記録部29、通信部30、および音声認識結果対応処理部31を備えて構成される。
 音声情報取得部21は、例えば、音声情報を取得するためのマイクロホンなどにより構成され、ユーザの発話した音声に基づいた音声情報を取得して、通信部30に供給する。そして、その音声情報は、通信部30により、図1のネットワーク12を介して音声認識サーバ14に送信される。
 映像出力部22は、例えば、映像を出力するためのディスプレイなどにより構成され、ユーザの発話に基づいた音声情報に対する音声認識結果を表示して、ユーザに提示する。また、映像出力部22は、例えば、後述の図4乃至17を参照して説明するように、音声認識結果に対する修正または編集を行う処理において利用される各種のユーザインタフェースを表示する。
 操作入力部23は、例えば、映像出力部22を構成するディスプレイに対するユーザのタッチ操作を入力するためのタッチパネルにより構成される。そして、操作入力部23は、映像出力部22に表示されるユーザインタフェースに対してユーザのタッチ操作が行われると、そのタッチ操作により入力される操作の内容を示す操作情報を音声認識結果対応処理部31に供給する。
 音声出力部24は、例えば、音声を出力するためのスピーカなどにより構成され、ユーザの発話に基づいた音声情報に対する音声認識結果を、合成音声(TSS:Text to Speech)により出力する。
 行動情報取得部25は、例えば、GPS(Global Positioning System)装置や加速度センサなどにより構成され、ユーザの行動に伴う位置情報や加速度情報などを行動情報として定期的に取得し、逐次、記録部29に供給する。
 環境情報取得部26は、例えば、温度センサや湿度センサなどにより構成され、ユーザの周辺の環境を表す温度や湿度などを環境情報として定期的に取得し、逐次、記録部29に供給する。
 視線情報取得部27は、例えば、ユーザの瞳の動きを撮像可能な撮像装置により構成され、ユーザの視線の方向を示す視線情報を取得して、物体認識部28に供給する。
 物体認識部28は、例えば、ユーザの視線の先を撮像可能な撮像装置により構成され、視線情報取得部27から供給される視線情報に基づいて、ユーザが視認している物体を特定し、その特定した物体に対する物体認識処理を行う。そして、物体認識部28は、物体を認識した結果を示す物体認識情報を、視線情報とともに記録部29に供給する。
 記録部29は、例えば、メモリやハードディスクドライブなどにより構成され、行動情報取得部25から供給される行動情報、環境情報取得部26から供給される環境情報、並びに、物体認識部28から供給される視線情報および物体認識情報を記録する。
 通信部30は、ネットワーク12を介した通信を行うための通信モジュールにより構成され、音声認識サーバ14との間で各種の情報を送受信する。例えば、記録部29は、音声情報取得部21から供給される音声情報を音声認識サーバ14に送信したり、音声認識サーバ14から送信されてくる音声認識結果を受信して音声認識結果対応処理部31に供給したりする。また、通信部30は、後述するように音声認識サーバ14から照合情報を要求する情報が送信されてくると、記録部29に記録されている各種の情報の中から、その要求に応じた情報を照合情報として読み出して音声認識サーバ14に送信する。
 音声認識結果対応処理部31は、音声認識サーバ14から送信された音声認識結果が通信部30から供給されると、音声認識結果を示す文章(文字情報)を映像出力部22に供給して表示させる。また、音声認識結果対応処理部31は、修正箇所を確認する情報が音声認識結果に付加されている場合には、その情報に従って、修正箇所を確認するユーザインタフェースを生成して、音声認識結果とともに映像出力部22に表示させる。そして、音声認識結果対応処理部31は、修正箇所を確認するユーザインタフェースに対するユーザのタッチ操作に応じた操作情報が操作入力部23から供給されると、その操作情報に従って、音声認識結果に対する修正を反映させる。
 また、音声認識結果対応処理部31は、映像出力部22に表示されている音声認識結果に対して編集を指示する操作情報が操作入力部23から供給されると、ユーザにより指示された編集対象を特定する。そして、音声認識結果対応処理部31は、その編集対象を示す情報を、通信部30を介して音声認識サーバ14に送信するとともに、編集対象として特定された編集箇所を削除して置き換えるための再発話を促すユーザインタフェースを映像出力部22に表示させる。その後、音声情報取得部21により取得された再発話の音声情報が音声認識サーバ14に送信され、再発話の音声情報に対する音声認識が行われて、修正箇所を置き換える置き換え情報が送信されてくる。これにより、音声認識結果対応処理部31は、修正箇所を置き換え情報で置き換えることにより編集を反映した音声認識結果を映像出力部22に供給して、ユーザに提示させる。
 図3は、音声認識サーバ14の構成例を示すブロック図である。
 図3に示すように、音声認識サーバ14は、通信部41、入力音処理部42、音声認識部43、自然言語処理部44、意味解析処理部45、修正箇所推定処理部46、照合情報取得部47、編集対応処理部48、および音声認識結果出力処理部49を備えて構成される。
 通信部41は、ネットワーク12を介した通信を行うための通信モジュールにより構成され、クライアント端末13との間で各種の情報を送受信する。例えば、通信部41は、クライアント端末13から送信されてくる音声情報を受信して入力音処理部42に供給したり、音声認識結果出力処理部49から供給される音声認識結果情報をクライアント端末13に送信したりする。
 入力音処理部42は、通信部41から供給される音声情報に対して、音声認識部43において音声認識を行う前に必要な各種の前処理を行う。例えば、入力音処理部42は、音声情報において無音となっている区間や雑音だけの区間を排除し、発話された音声が含まれている発話区間を音声情報から検出するVAD(Voice Activity Detection)処理を行って、発話区間の音声情報を音声認識部43に供給する。
 音声認識部43は、入力音処理部42から供給される音声情報に対する音声認識を行い、音声情報に基づいたユーザの発話を単語ごとに認識して、それらの単語列からなる文章を音声認識結果として自然言語処理部44に供給する。
 自然言語処理部44は、音声認識部43から供給される音声認識結果を表す文章を、人間が日常的に使用している自然言語として認識する自然言語処理(形態素解析や構文解析など)を行い、自然言語処理が施された音声認識結果を意味解析処理部45に供給する。例えば、自然言語処理部44は、自然言語処理を行うことで、文章を構成する単語ごとの品詞を特定することができる。
 意味解析処理部45は、自然言語処理部44において自然言語処理が施された音声認識結果を表す文章に対して、その文章の意味を解析する意味解析処理を行い、音声認識結果が示す文章の内容(意味解析結果)を修正箇所推定処理部46に供給する。
 修正箇所推定処理部46は、意味解析処理部45から供給される音声認識結果が示す文章の内容の正確性に基づいて、その文章に対して修正が必要となる修正箇所を推定する処理を行う。このとき、修正箇所推定処理部46は、音声認識結果が示す文章の内容の正確性を判断するために必要な照合情報を、照合情報取得部47を介して取得する。例えば、照合情報として、行動データや、天候データ、統計データなどの各種のデータを含む事実情報を利用することができる。即ち、上述したように、クライアント端末13に記録されている行動情報や、環境情報、視線情報、物体認識情報などを照合情報として利用することができる。また、ニュースサーバ15により提供されるニュース記事や天候情報など、百科事典サーバ16により提供される各種の記事を照合情報として利用する他、例えば、「前日の○○テーマパークの入場者数は100万人」や「前日の○○高速道路の渋滞は平均15km」などの事実として確認された各種の事実情報を照合情報として利用することができる。そして、修正箇所推定処理部46は、図4乃至9を参照して後述するように、音声認識結果が示す文章の内容と照合情報とを照合し、修正が必要となる修正箇所があると推定した場合、その修正箇所を音声認識結果出力処理部49に通知する。
 照合情報取得部47は、修正箇所推定処理部46が必要とする照合情報を要求する情報を、通信部41を介して送信し、その要求に応じて送信されてくる照合情報を取得して修正箇所推定処理部46に供給する。例えば、照合情報取得部47は、修正箇所推定処理部46が必要とする照合情報が、ユーザの行動情報である場合、クライアント端末13に対してユーザの行動情報を要求する。また、照合情報取得部47は、修正箇所推定処理部46が必要とする照合情報が、天候情報である場合、ニュースサーバ15に対して天候情報を要求する。
 編集対応処理部48は、図10乃至図13を参照して後述するように、保持している音声認識結果の音声情報から、編集対象として特定された単語の音素情報を削除し、その削除した編集箇所に再発話の音声情報を接続して、編集用の音声認識向けの音声情報を作成する。そして、編集対応処理部48は、編集用の音声認識向けの音声情報を音声認識部43に供給して音声認識を行わせることにより、再発話の音声情報が示す単語を置き換え情報として取得して、その置き換え情報を音声認識結果出力処理部49に供給する。
 音声認識結果出力処理部49は、修正箇所推定処理部46により音声認識結果が示す文章に対して修正が必要となる修正箇所が推定された場合、その推定された修正箇所を確認する情報を音声認識結果に付加し、通信部41を介してクライアント端末13に送信する。なお、音声認識結果出力処理部49は、修正箇所推定処理部46により音声認識結果が示す文章に対して修正が必要となる修正箇所が推定されなかった場合には、音声認識結果だけをクライアント端末13に送信する。
 また、音声認識結果出力処理部49は、編集対応処理部48から置き換え情報が供給されると、その置き換え情報を、通信部41を介してクライアント端末13に送信する。さらに、音声認識結果出力処理部49は、音声認識結果として合成音声を送信する場合には、音声認識結果が示す文章を読み上げる合成音声を生成して送信することができる。
 以上のように構成されるクライアント端末13および音声認識サーバ14からなる音声認識システム11では、音声認識サーバ14は、音声認識結果として得られた文章の内容を、その内容の正確性を判断するために必要な照合情報と照合し、文章に対して修正が必要な修正箇所を推定することができる。ここで、照合情報としては、ニュースサーバ15および百科事典サーバ16により提供される事実情報や、クライアント端末13に記録されるユーザの行動情報などが利用される。
 そして、音声認識サーバ14は、修正箇所を確認する情報を音声認識結果とともにクライアント端末13に送信する。これに応じて、クライアント端末13は、音声認識サーバ14において推定された修正箇所の確認を行うためのユーザインタフェースを表示して、その修正箇所に対する修正を指示する操作がユーザにより行われると、音声認識結果に対して修正を反映することができる。
 さらに、音声認識システム11では、クライアント端末13は、音声認識結果の文章に対して編集を指示する操作がユーザにより行われると、編集対象を特定することができる。そして、クライアント端末13は、再発話の音声情報を音声認識サーバ14に送信する。これに応じて、音声認識サーバ14は、保持していた音声情報から、編集対象とされた編集箇所を削除し、その編集個所に再発話の音声情報を接続した後に音声認識を行って、編集が反映された音声認識結果をクライアント端末13に送信する。
 これにより、クライアント端末13は、編集が反映された音声認識結果を表示して、ユーザに提示することができる。なお、音声認識システム11では、例えば、音声認識サーバ14により推定された修正箇所を修正する際に、その修正箇所を編集対象として特定してもよく、修正箇所を修正するための再発話を音声情報に従って、修正箇所を修正(編集)することができる。
 このように、音声認識システム11は、音声認識結果の文章に対する修正箇所を推定したり、ユーザによる編集を反映したりすることにより、音声認識結果として得られた文章を容易に修正または編集することができる。これにより、音声認識システム11は、より利便性の高い音声認識サービスを提供することができる。
 <修正箇所を提示するユーザインタフェースの例>
 図4乃至9を参照して、音声認識結果として得られた文章に対して推定された修正箇所を提示するユーザインタフェースについて説明する。
 図4には、音声認識結果として得られた文章に対して、行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第1の例が示されている。例えば、就寝前などのように一日の行動が終了し、その日の出来事を示すメッセージを作成する際に、ユーザが、クライアント端末13に対して発話「今日は昼に恵比寿へ行って17時まで池袋で買い物したよ」を行ったとする。
 まず、クライアント端末13では、音声情報取得部21が、ユーザの発話に基づいた音声情報を取得し、通信部30は、その音声情報を音声認識サーバ14に送信する。
 そして、音声認識サーバ14では、音声認識部43が、音声情報に対する音声認識を行うことにより、音声認識結果「今日は昼に恵比寿へ行って17時まで池袋で買い物したよ」を取得する。そして、修正箇所推定処理部46は、このような音声認識結果が示す文章の内容(時間帯および場所)の正確性を判断するための照合情報として、ユーザの行動情報が必要であると認識する。これに応じて、照合情報取得部47は、音声認識結果が示す文章に基づく時間帯におけるユーザの行動情報を、照合情報として要求する情報をクライアント端末13に送信する。
 このようなユーザの行動情報を照合情報として要求する情報に従って、クライアント端末13では、通信部30が、記録部29に記録されている各種の情報の中から、その要求に応じた情報を読み出し、照合情報として音声認識サーバ14に送信する。
 これに応じ、音声認識サーバ14では、照合情報取得部47が、クライアント端末13から送信されてきた行動情報を取得し、修正箇所推定処理部46に供給する。修正箇所推定処理部46は、音声認識結果が示す文章の内容と、ユーザの行動情報とを照合し、その文章に対して修正が必要となる修正箇所があるか否かを推定する。例えば、修正箇所推定処理部46は、音声認識結果が示す時間帯における場所と、その時間帯において行動情報に示されている場所とが一致しない場合、音声認識結果が示す場所を、修正箇所として推定することができる。
 図4に示す例では、修正箇所推定処理部46は、音声認識結果が示す時間帯「昼」における場所「恵比寿」を、その時間帯において行動情報に示されている場所と照合する。同様に、修正箇所推定処理部46は、音声認識結果が示す時間帯「17時」における場所「池袋」を、その時間帯において行動情報に示されている場所と照合する。その結果、修正箇所推定処理部46は、音声認識結果が示す時間帯「17時」における場所「池袋」と、その時間帯において行動情報に示されている場所「新宿」とが一致しないため、音声認識結果が示す場所「池袋」を、修正箇所として推定する。
 これに基づき、修正箇所推定処理部46は、修正箇所を確認する情報を音声認識結果に付加して、クライアント端末13に送信させる。従って、クライアント端末13では、修正箇所を確認する情報に従って、音声認識結果を示す文章とともに、修正箇所として推定された単語に対して、その確認を行うためのユーザインタフェースを表示することができる。
 図4に示す例では、修正箇所として推定された場所「池袋」に対して、その場所が正しいか否かを確認するためのユーザインタフェース「ここはあっていますか?」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(はいボタン/いいえボタン)が表示されている。なお、修正箇所として推定された場所「池袋」の文字に対して強調表示したり、色や大きさを変更して表示したり、点滅表示を行ったりすることができる。また、「ここはあっていますか?」という合成音声を出力してもよい。
 ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「池袋」が正しいと思う場合には、はいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す場所「池袋」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「池袋」が間違っていると思う場合には、いいえボタンに対するタッチ操作を行う。これにより、ユーザは、音声認識結果が示す場所「池袋」に対する修正を容易に行うことができる。例えば、この場合、修正箇所を削除して、ユーザに対して再発話を促すユーザインタフェースを表示し、その再発話の音声情報に基づいて修正箇所を置き換えるような処理を行うことができる。
 次に、図5には、音声認識結果として得られた文章に対して、行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第2の例が示されている。例えば、就寝前などのように一日の行動が終了し、その日の出来事を示すメッセージを作成する際に、ユーザが、クライアント端末13に対して発話「今日は昼に恵比寿へ行って17時にXYZショップで買い物したよ」を行ったとする。
 図4を参照して説明したのと同様に、修正箇所推定処理部46は、音声認識結果が示す文章の内容(時間帯および場所)の正確性を判断するための照合情報として、ユーザの行動情報を要求し、音声認識結果が示す文章の内容と、ユーザの行動情報とを照合する。その結果、図5に示す例では、音声認識結果が示す時間帯「17時」における場所「XYZショップ」と、その時間帯において行動情報に示されている場所「新宿」とが一致しないため、修正箇所推定処理部46は、音声認識結果が示す場所「XYZショップ」を、修正箇所として推定する。
 これに基づき、修正箇所として推定された場所「XYZショップ」に対して、その場所が正しいか否かを確認するためのユーザインタフェース「記録では「新宿」となっています。これ(XYZショップ)で、正しいですか?」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(はいボタン/いいえボタン)が表示されている。
 ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「XYZショップ」が正しいと思う場合には、はいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す場所「XYZショップ」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「XYZショップ」が間違っていると思う場合には、いいえボタンに対するタッチ操作を行う。この場合、音声認識結果が示す場所「XYZショップ」が「新宿」に修正される。
 図4および図5を参照して説明したように、音声認識システム11は、クライアント端末13に記録されている情報の粒度と、音声認識結果を示す文章における情報の粒度とに差がある場合、その情報を修正箇所として推定し、音声認識結果とともに提示することができる。
 次に、図6には、音声認識結果として得られた文章に対して、天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第1の例が示されている。例えば、就寝前などのように一日の行動が終了し、その日の出来事を示すメッセージを作成する際に、ユーザが、クライアント端末13に対して発話「今日の天気は晴れ」を行ったとする。
 まず、クライアント端末13では、音声情報取得部21が、ユーザの発話に基づいた音声情報を取得し、通信部30は、その音声情報を音声認識サーバ14に送信する。
 そして、音声認識サーバ14では、音声認識部43が、音声情報に対する音声認識を行うことにより、音声認識結果「今日の天気は荒れ」を取得(発音が似ているため、音声認識を間違って取得)する。これにより、修正箇所推定処理部46は、このような音声認識結果が示す文章の内容(天候)が正確であるか否かを判断するための照合情報として、当日の天候情報が必要であると認識する。従って、照合情報取得部47は、ニュースサーバ15に対して当日の天候情報の送信を要求する。
 その後、音声認識サーバ14では、照合情報取得部47が、ニュースサーバ15から送信されてきた天候情報を取得し、修正箇所推定処理部46に供給する。修正箇所推定処理部46は、音声認識結果が示す文章の内容と、天候情報とを照合した結果、その文章に対して修正が必要となる箇所を推定する。例えば、修正箇所推定処理部46は、天候情報と一致していない音声認識結果の天候を、修正箇所として推定することができる。
 図6に示す例では、修正箇所推定処理部46は、音声認識結果の天候「荒れ」を、天候情報と照合する。そして、修正箇所推定処理部46は、天候情報に従って当日の天候が「荒れ」でないことを認識すると、音声認識結果の天候「荒れ」を、修正箇所として推定することができる。
 これに基づき、修正箇所推定処理部46は、修正箇所を確認する情報を音声認識結果に付加して、クライアント端末13に送信させる。従って、クライアント端末13では、修正箇所を確認する情報に従って、音声認識結果を示す文章とともに、修正箇所として推定された単語に対して、その確認を行うためのユーザインタフェースを表示することができる。
 図6に示す例では、音声認識結果における修正箇所として推定された天候「荒れ」を自動的に天候「晴れ」に修正するとともに、その修正が正しいか否かを確認するためのユーザインタフェース「ここを自動で修正しました」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(これでよいボタン/元の情報(荒れ)に戻すボタン)が表示されている。
 ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す天候「晴れ」が正しいと思う場合には、これでよいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す天候「晴れ」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す天候「晴れ」が間違っていると思う場合には、元の情報(荒れ)に戻すボタンに対するタッチ操作を行う。この場合、自動的に修正された音声認識結果が示す天候「晴れ」が「荒れ」に修正される。
 次に、図7には、音声認識結果として得られた文章に対して、天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第2の例が示されている。例えば、音声認識システム11により提供される音声認識機能を利用したバーチャルなエージェントと会話する際に、ユーザが、クライアント端末13に対して発話「今日の天気は晴れだったね」を行ったとする。
 これに応じて、上述の図6を参照して説明したのと同様に、修正箇所推定処理部46は、天候情報が「荒れ」でないことより、音声認識結果の天候「荒れ」を、修正箇所として推定する。
 そして、図7に示す例では、ユーザの発話「今日の天気は晴れだったね」に対するエージェントの応答「ここでは、今日の天気は晴れだったよ/荒れていたのは正しいですか?」を表示することにより、修正すべき情報を通知する。このようなエージェントの応答に対して、ユーザは、自身の認識に基づいて返答することで、エージェントとの会話を行うことができる。そして、このようなエージェントとの会話を複数ターン繰り返すことで、ユーザは、ストレスを軽減することができる。
 図6および図7を参照して説明したように、音声認識システム11は、天候情報などのような事実情報と照合して、音声認識結果を示す文章における情報の正確性が低い場合、その情報を修正箇所として推定し、音声認識結果を自動的に修正して提示することができる。
 次に、図8および図9を参照して、音声認識システム11により提供される音声認識機能を利用して翻訳を行う際に、ユーザの視線の先にある物体を認識して自動的に修正を行う処理について説明する。
 例えば、図8に示すように、ユーザは、図2の視線情報取得部27および物体認識部28を内蔵したウェアラブルゴーグル61を装着している。そして、視線情報取得部27は、図8において一点鎖線の矢印で示すようなユーザの視線を認識し、物体認識部28は、ユーザが視認している物体に対する物体認識を行うことができる。
 図8に示す例では、子供が、ピンクのボール62と青のボール63とを両手に持っていて、ユーザの視線は、青のボール63に向かっている状態が示されている。従って、物体認識部28は、ユーザの視線を認識した結果を示すユーザインタフェース(瞳のマーク)を、青のボールに重ねて表示するとともに、物体認識結果が青のボール(Ball:Blue)であることが示されている。
 このような状況において、図9に示すように、ユーザが、クライアント端末13に対して発話「緑のボールをとってください」を行ったとする。
 まず、クライアント端末13では、音声情報取得部21が、ユーザの発話に基づいた音声情報を取得し、通信部30は、その音声情報を音声認識サーバ14に送信する。
 そして、音声認識サーバ14では、音声認識部43が、音声情報に対する音声認識を行うことにより、音声認識結果「緑のボールをとってください」を取得する。そして、修正箇所推定処理部46は、このような音声認識結果が示す文章の内容(物体)の正確性を判断するための照合情報として、物体認識情報が必要であると認識する。これに応じて、照合情報取得部47は、ユーザの発話が行われたときの物体認識情報を、照合情報として要求する情報をクライアント端末13に送信する。
 このような物体認識情報を照合情報として要求する情報に従って、クライアント端末13では、通信部30が、記録部29に記録されている各種の情報の中から、その要求に応じた情報を読み出し、照合情報として音声認識サーバ14に送信する。
 これに応じ、音声認識サーバ14では、照合情報取得部47が、クライアント端末13から送信されてきた物体認識情報を取得し、修正箇所推定処理部46に供給する。修正箇所推定処理部46は、音声認識結果が示す文章の内容と、物体認識情報とを照合し、その文章に対して修正が必要となる修正箇所があるか否かを推定する。例えば、修正箇所推定処理部46は、音声認識結果が示す物体と、物体認識情報に示されている物体とが一致しない場合、音声認識結果が示す物体を、修正箇所として推定することができる。
 図9に示す例では、修正箇所推定処理部46は、音声認識結果が示す物体「緑のボール」を、図8を参照して説明したような物体認識情報「青のボール(Ball:Blue)」と照合する。その結果、修正箇所推定処理部46は、音声認識結果が示す物体「緑のボール」と、物体認識情報「青のボール(Ball:Blue)」とが一致しないため、音声認識結果が示す物体「緑のボール」を、修正箇所として推定する。
 これに基づき、修正箇所推定処理部46は、修正箇所を確認する情報を音声認識結果に付加して、クライアント端末13に送信させる。従って、クライアント端末13では、修正箇所を確認する情報に従って、音声認識結果を示す文章とともに、修正箇所として推定された単語に対して、その確認を行うためのユーザインタフェースを表示することができる。
 図9に示す例では、音声認識結果における修正箇所として推定された物体の色「緑」を自動的に、物体の色「青」に修正するとともに、その修正が正しいか否かを確認するためのユーザインタフェース「ここを自動で修正しました」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(これでよいボタン/元の情報(緑)に戻すボタン)が表示されている。さらに、音声認識結果を利用して翻訳を行った翻訳結果「Please pass blue balls」が表示されている。
 ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す物体の色「青」が正しいと思う場合には、これでよいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す物体の色「青」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す物体の色「青」が間違っていると思う場合には、元の情報(緑)に戻すボタンに対するタッチ操作を行う。この場合、自動的に修正された音声認識結果が示す物体の色「青」が「緑」に修正される。
 図8および図9を参照して説明したように、音声認識システム11は、クライアント端末13に記録されている物体認識情報と照合して、音声認識結果を示す文章における情報の正確性が低い場合、その情報を修正箇所として推定し、音声認識結果を自動的に修正して提示することができる。
 <音声認識結果の編集を受け付けるユーザインタフェースの例>
 図10乃至図13を参照して、音声認識システム11による音声認識処理に基づく音声認識結果に対して編集を行うユーザインタフェースについて説明する。
 例えば、図10に示すように、ユーザの発話「I drove your car to airport every day」に従って、クライアント端末13では、音声情報取得部21が、図示するような波形の音声情報を取得する。そして、音声認識サーバ14では、音声認識部43が、音声情報に基づいて音声認識処理を実行して、音声認識結果とし認識された単語列からなる文章(文字情報)を取得するとともに、それぞれの単語と音声情報から得られる音素情報との対応関係を特定する。さらに、音声認識サーバ14では、自然言語処理部44が、音声認識結果の単語ごとの品詞を特定して品詞情報を取得する。ここで、音声認識サーバ14では、音声情報、単語と音素情報との対応関係、および品詞情報が、一時的に保持される。
 そして、修正箇所推定処理部46が、上述したような修正箇所の推定を行った結果、修正箇所がない場合、音声認識結果「I drove your car to airport every day」が、クライアント端末13の映像出力部22に表示される。
 ところで、ユーザの発話と音声認識結果とが一致していても、ユーザが、発話内容の編集を希望することがある。
 例えば、図11に示すように、ユーザが、映像出力部22に表示されている単語「airport」を単語「station」に編集することを希望した場合、ユーザは、編集を希望する単語「airport」が表示されている箇所を長押しタッチする。これに応じ、操作入力部23は、その操作の内容を示す操作情報を音声認識結果対応処理部31に供給し、音声認識結果対応処理部31は、映像出力部22に表示されている単語「airport」を編集対象として特定する。そして、音声認識結果対応処理部31は、音声認識結果に対して編集を行うユーザインタフェースを表示することができる。
 図11に示す例では、編集対象として特定された単語「airport」に対して、その単語の削除を確認するためのユーザインタフェース「削除しますか?」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(OKボタン/NGボタン)が表示されている。
 ユーザは、このようなユーザインタフェースに対し、編集対象として特定された単語「airport」の削除に同意する場合には、OKボタンに対するタッチ操作を行う。これに応じ、音声認識結果対応処理部31は、編集対象として特定された単語「airport」を削除することを示す情報を、音声認識サーバ14に送信する。
 これに応じ、音声認識サーバ14では、編集対応処理部48は、ユーザの発話「I drove your car to airport every day」に基づいた音声情報から、単語「airport」に対応付けられている音素情報を削除する。従って、音声認識サーバ14で保持されている音声情報は、図11に示すように、編集対象の単語以外の単語に対応する音素情報のみ(以下、適宜、編集対象外の音声情報と称する)により構成されることになる。
 なお、図11に示す例の他、例えば、ユーザの発話「airportを削除してstation」に従って編集対象とする単語を特定してもよい。また、例えば、ユーザが、編集を希望する単語に対して視線を止めている時間が所定時間(例えば、3秒)以上である場合に、その単語を編集対象として特定してもよい。これらの場合にも、図11と同様のユーザインタフェースを表示し、そのユーザインタフェースに対するユーザのタッチ操作に従って、編集対象の単語を削除することができる。
 一方、図12に示すように、クライアント端末13では、音声認識結果対応処理部31は、再発話を促すユーザインタフェースを映像出力部22に表示する。このユーザインタフェースでは、音声認識結果から編集対象の単語を削除した箇所が空白となった単語列が表示されるとともに、その空白箇所の単語を編集するための再発話を促すメッセージ「ここへの再発話を待っています」が表示される。
 このようなユーザインタフェースに応じて、音声情報取得部21は、ユーザの発話「station」に基づいた再発話の音声情報を取得して、音声認識サーバ14に送信する。音声認識サーバ14では、編集対応処理部48は、編集対象外の音声情報において単語「airport」に対応付けられている音素情報を削除した箇所に、再発話の音声情報「station」を接続する処理を行って、編集用の音声認識向けの音声情報を作成する。
 そして、編集対応処理部48は、編集用の音声認識向けの音声情報を音声認識部43に供給して音声認識を行わせる。これにより、音声認識部43は、音声認識結果「I drove your car to station every day」を取得して、編集対応処理部48に供給する。編集対応処理部48は、この音声認識結果から編集対象外の音声情報を削除して、ユーザに提示している音声認識結果から削除した単語「airport」に対して置き換えを行う置き換え情報となる単語「station」を取得し、クライアント端末13に送信する。
 これに応じ、図13に示すように、クライアント端末13では、音声認識結果対応処理部31は、置き換え情報となる単語「station」による編集を反映した音声認識結果「I drove your car to station every day」を表示する。さらに、音声認識結果対応処理部31は、その置き換え情報の他の候補を提示するユーザインタフェース「もしかして・・・」を表示する。このユーザインタフェースには、置き換え情報の他の候補(stay、attention)を入力するためのGUI、および、置き換え情報の単語「station」による編集の決定を指示するGUI(このままボタン)が表示されている。
 このようなユーザインタフェースに対し、置き換え情報の単語「station」による編集を決定する場合には、このままボタンに対するタッチ操作を行う。これに応じ、音声認識結果対応処理部31は、置き換え情報の単語「station」による編集を反映した音声認識結果「I drove your car to station every day」を決定することができる。なお、この他、音声(「このまま」と発話)や視線などにより、置き換え情報の単語「station」による編集を決定してもよい。
 なお、編集用の音声認識向けの音声情報は、少なくとも1つ作成されていればよく、例えば、いくつかのパターンで複数作成してもよい。また、再発話の音声情報は、1つだけについて説明したが複数であってもよく、この場合、いくつかのパターンの編集用の音声認識向けの音声情報が作成される。
 例えば、編集対応処理部48は、音声認識の精度を高めるために、再発話の音声情報を接続する箇所の前に、特定の音声情報を追加して、編集用の音声認識向けの音声情報を作成することができる。
 例えば、図14に示すように、編集対応処理部48は、再発話の音声情報を接続する箇所の前に、音声情報「new」を追加して、音声情報「new」に続いて再発話の音声情報「station」を接続する処理を行って、編集用の音声認識向けの音声情報を作成してもよい。例えば、編集対応処理部48は、事前言語処理により認識される単語「airport」の品詞が名詞であることより、その削除された箇所に名詞が入る可能性が高いため、音声情報「new」を追加する。また、編集対応処理部48は、音声情報「new」として、ユーザが過去に発話したときに保存していた音声情報を追加したり、ネットワーク12を介して取得可能な音声情報を繋ぎ合わせて追加したり、合成音声(TSS)により作成した音声情報を追加したりすることができる。
 そして、このように再発話の音声情報を接続する箇所の前に、音声情報「new」を追加することにより、音声認識部43が、編集用の音声認識向けの音声情報を行う際に、再発話の音声情報を認識する精度を向上させることができる。
 <発話以外の音情報を用いた編集用の音声認識向けの音声情報>
 図15乃至図17を参照して、再発話の音声情報に対する音声認識処理を行うための編集用の音声認識向けの音声情報に、発話以外の音情報を用いる例について説明する。
 図15に示すように、例えば、ユーザが、クライアント端末13に対して発話「今日買ってきたリンゴがめちゃめちゃおいしい」を行い、その音声認識結果が、クライアント端末13の映像出力部22に表示される。
 このような音声認識結果に対し、ユーザが、映像出力部22に表示されている単語「リンゴ」を単語「桃」に編集することを希望した場合、ユーザは、編集を希望する単語「リンゴ」が表示されている箇所を長押しタッチする。これにより、音声認識結果対応処理部31は、その単語を編集対象として特定する。
 そして、音声認識結果対応処理部31は、編集対象として特定された単語「リンゴ」に対して、その単語の削除を確認するためのユーザインタフェース「削除しますか?」を表示する。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(OKボタン/NGボタン)が表示されている。
 ユーザは、このようなユーザインタフェースに対し、編集対象として特定された単語「リンゴ」の削除に同意する場合には、OKボタンに対するタッチ操作を行い、再発話「桃」を行う。これに応じて、音声情報取得部21は、ユーザの再発話「桃」に基づいた再発話の音声情報を取得して、音声認識サーバ14に送信する。
 このとき、編集対応処理部48は、図16に示すように、品詞およびカテゴリが対応付けられているデータベースと、カテゴリ、付属しやすい情報、および文章のひな形が対応付けられているデータベースとを参照して、編集用の音声認識向けの音声情報を生成する。
 そして、編集対応処理部48は、ユーザの再発話「桃」がカテゴリ「果物名称」に対応付けられている場合、カテゴリ「果物名称」に対して付属しやすい情報「甘い」に従った文字列を、編集用の音声認識向けの音声情報として生成することができる。例えば、編集対応処理部48は、図17のAに示すような文字列「きょうかってきた あまい もも がめちゃめちゃおいしい」を生成する。このような文字列のうち、「きょうかってきた」および「がめちゃめちゃおいしい」は、ユーザが発話した音声情報が用いられ、「あまい」は、合成音声(TSS)で出力され、「もも」は、ユーザの再発話の音声情報が用いられる。
 また、編集対応処理部48は、ユーザの再発話「桃」のカテゴリ「果物名称」に対応付けられている文章のひな形「おいしい果物は+(対象文字)+です」に従った文字列を、編集用の音声認識向けの音声情報として生成することができる。例えば、編集対応処理部48は、図17のBに示すような文字列文字列「おいしいくだものは もも です」という文字列を生成する。このような文字列のうち、「おいしいくだものは」および「です」は、合成音声(TSS)で出力され、「もも」は、ユーザの再発話の音声情報が用いられる。
 このように、編集対応処理部48は、発話以外の音情報として合成音声(TSS)を用いて編集用の音声認識向けの音声情報を生成し、再発話の音声情報に対する音声認識を行わせることができる。これにより、例えば、編集対応処理部48は、再発話の音声情報の単体に対する音声認識よりも、音声認識の精度を高めることができる。
 即ち、音声認識システム11は、上述したような発話以外の音情報や、カテゴリに付属しやすい情報を表す合成音声、文章のひな形から生成される文章を表す合成音声などに、再発話の音声情報を接続することにより、再発話に対する音声認識を高精度に行うことができる。
 さらに、音声認識システム11は、上述したように、ユーザの再発話に基づいて単語の入れ替えを行う編集(airportをstationに編集)をする他、ユーザの再発話に基づいた様々な編集を行う事例に適用することができる。
 例えば、図18に示すように、音声認識システム11は、ユーザの再発話に基づいて、動詞の活用を編集(likeをlikedに編集)したり、名詞の変化を編集(carsをcarに編集)したりすることができる。また、音声認識システム11は、ユーザの再発話に基づいて、類似音による間違いを編集(HeをSheに編集)することができる。また、音声認識システム11は、ユーザの再発話に基づいて、語句単位での認識失敗を編集(hadをwould likeに編集)することができる。
 そして、音声認識システム11は、このようなユーザによる再発話の音声情報に対して、その再発話の音声情報以外の音声情報を接続することにより、再発話に対する音声認識を高精度に行うことができる。
 例えば、類似音による間違いを編集(例えば、HeをSheに編集)するとき、再発話の音声情報のみを用いて音声認識を行った場合には、音声認識が失敗(例えば、CやSeeと誤認識)し易くなることが想定される。これに対し、音声認識システム11は、再発話の音声情報を発話以外の音情報に接続して、その全体の音声情報に対する音声認識を行うので、このような音声認識の失敗を回避することができる。
 なお、類似音による間違いを編集する他の例として、音声認識システム11は、ユーザの発話「I want to go to a hospital to day」に対する音声認識結果「I want to go to a hospital to die」が得られたとき、ユーザの再発話に基づいて、間違いを編集(dieをdayに編集)することができる。
 ところで、音声認識技術の精度がどんなに高くなっても音声認識結果が期待通りにならないケースがある。例えば、ヒトの記憶は完璧でないため、間違いを含んで発話してしまうことにより、音声認識に成功しても、その間違いを含んだ音声認識結果は、期待通りではない。また、そのような間違いを含んだ音声認識結果を提示しても、ヒトは、内容の間違いに気が付くことができないと想定される。
 これに対し、音声認識システム11は、行動情報や天候情報などを照合することにより、間違いを含んだ発話に対して修正箇所を推定し、その修正箇所を提示することにより、上述したような間違いに気づき易くすることができる。これにより、音声認識システム11は、音声修正システムの精度向上を図ることができる。
 さらに、音声入力の結果で得られた文字列の一部分を編集箇所として、再発話を行って編集を反映させるとき、その再発話の部分のみの音声認識を行っても、元々の発話に含まれていた発話コンテキストを活用することができないと、認識精度が低くなり期待通りの修正が行えないと想定される。
 これに対し、音声認識システム11は、再発話の音声情報に対して、その再発話の音声情報以外の音声情報を接続することにより、元々の発話に含まれていた発話コンテキストを活用して、再発話に対する音声認識を高精度に行うことができる。
 <クライアント端末における処理>
 図19は、クライアント端末13において実行される処理を説明するフローチャートである。
 例えば、クライアント端末13は、ユーザが音声入力を行っていないときでも常にバックグランドで処理を行っており、ステップS11において、行動情報取得部25は、ユーザの行動を示す行動情報を取得して、記録部29に記録する。
 ステップS12において、環境情報取得部26は、ユーザの周辺における環境を示す環境情報を取得して、記録部29に記録する。
 ステップS13において、視線情報取得部27は、ユーザの視線の方向を示す視線情報を取得し、物体認識部28は、ユーザが視認している物体の認識結果を示す物体認識情報を取得する。そして、それらの視線情報および物体認識情報が、ユーザをセンシングした結果得られるユーザセンシング情報として記録部29に記録される。
 ステップS14において、音声情報取得部21は、ユーザによる音声入力が開始されたか否かを判定する。例えば、図示しないボタンに対する特定の操作が行われたり、音声入力の開始を指示する特定のキーワードをユーザが発話したりすると、音声情報取得部21は、ユーザによる音声入力が開始されたと判定することができる。
 ステップS14において、音声情報取得部21が、ユーザによる音声入力が開始されていないと判定した場合、処理はステップS11に戻り、以下、上述した処理が繰り返して行われる。一方、ステップS14において、音声情報取得部21が、音声入力が開始されたと判定した場合、処理はステップS15に進む。
 ステップS15において、音声情報取得部21は、ユーザの発話に基づいた音声情報を取得する。そして、音声情報取得部21は、その音声情報を通信部30に供給し、通信部30は、ネットワーク12を介して音声認識サーバ14に音声情報を送信する。
 ステップS16において、通信部30は、音声認識サーバ14の照合情報取得部47による要求(例えば、後述する図20のステップS35)に応じた照合情報を、ネットワーク12を介して音声認識サーバ14に送信する。上述したように、記録部29には、行動情報、環境情報、およびユーザセンシング情報が記録されており、通信部30は、それらの情報の中から、照合情報取得部47による要求に応じた情報を読み出し、照合情報として音声認識サーバ14に送信する。
 ステップS17において、通信部30は、後述する図20のステップS39またはS39で音声認識サーバ14から送信されてくる音声認識結果を取得して、音声認識結果対応処理部31に供給する。ここで、音声認識サーバ14において、音声認識結果に対して修正が必要となる修正箇所があると推定されている場合、音声認識結果には、修正箇所を確認する情報が付加されている。
 ステップS18において、音声認識結果対応処理部31は、修正箇所を確認する情報が音声認識結果に付加されているか否かに基づいて、音声認識結果に対して修正箇所があると推定されているか否かを判定する。
 ステップS18において、音声認識結果対応処理部31が、音声認識結果に対して修正箇所があると推定されていると判定した場合、処理はステップS19に進む。
 ステップS19において、音声認識結果対応処理部31は、音声認識結果を示す文章を映像出力部22に表示させるとともに、修正箇所を確認するユーザインタフェースを生成して映像出力部22に表示させる。このユーザインタフェースには、図4乃至9を参照して上述したように、ユーザによる修正の確認を受け付けるためのGUI(ボタン)が表示されている。
 ステップS20において、操作入力部23は、ユーザによる修正の確認を受け付けるためのGUIに対するユーザのタッチ操作により入力される操作の内容を示す操作情報を音声認識結果対応処理部31に供給する。そして、音声認識結果対応処理部31は、その操作情報に従って、修正箇所に対する確認結果を反映した音声認識結果を映像出力部22に表示させる。
 一方、ステップS18において、音声認識結果対応処理部31が、音声認識結果に対して修正箇所があると推定されていないと判定した場合、処理はステップS21に進み、音声認識結果対応処理部31は、音声認識結果を示す文章を映像出力部22に表示させる。
 ステップS20またはS21の処理後、処理はステップS22に進み、音声認識結果対応処理部31は、映像出力部22に表示されている音声認識結果に対し、ユーザが発話内容の編集を指示したか否かを判定する。例えば、上述の図11を参照して説明したように、ユーザは、音声認識結果が示す文章における編集を希望する単語が表示されている箇所を長押しタッチし、このタッチ操作に応じた操作情報が操作入力部23から供給されると、音声認識結果対応処理部31は、ユーザにより発話内容の編集が指示されたと判定することができる。
 ステップS22において、音声認識結果対応処理部31が、ユーザにより発話内容の編集が指示されたと判定した場合、処理はステップS23に進む。
 ステップS23において、音声認識結果対応処理部31は、操作情報に基づいた編集箇所、即ち、編集対象とする単語を特定する。そして、音声認識結果対応処理部31は、上述の図11を参照して説明したように、その単語の削除を確認するためのユーザインタフェースを表示する。その後、ユーザが、編集対象として特定された単語の削除に同意する操作を行うと、音声認識結果対応処理部31は、編集対象として特定された単語を削除することを示す情報を、音声認識サーバ14に送信する。
 ステップS24において、音声認識結果対応処理部31は、上述の図12を参照して説明したように、再発話を促すユーザインタフェースを映像出力部22に表示する。そして、音声情報取得部21は、ユーザの発話に基づいた再発話の音声情報を取得して、音声認識サーバ14に送信する。
 ステップS25において、音声認識結果対応処理部31は、後述する図21のステップS56で音声認識サーバ14から送信されてくる置き換え情報を、通信部30を介して取得する。そして、音声認識結果対応処理部31は、その置き換え情報を編集箇所に置き換えることにより、編集を反映した音声認識結果を映像出力部22に表示する。
 ステップS25の処理後、または、ステップS22においてユーザにより発話内容の編集が指示されていないと判定された場合、処理はステップS11に戻り、以下、同様の処理が繰り返して行われる。
 <音声認識サーバにおける処理>
 図20および図21は、音声認識サーバ14において実行される処理を説明するフローチャートである。
 例えば、通信部41が、図19のステップS15でクライアント端末13から送信される音声情報を受信して入力音処理部42に供給すると処理が開始される。ステップS31において、入力音処理部42は、通信部41から供給される音声情報に対して、例えば、VAD処理などの前処理を行って、音声認識部43に供給する。
 ステップS32において、音声認識部43は、ステップS31で入力音処理部42から供給された音声情報に対する音声認識処理を行う。そして、音声認識部43は、音声認識結果として得られる文章を自然言語処理部44に供給する。
 ステップS33において、自然言語処理部44は、ステップS32で音声認識部43から供給された音声認識結果を表す文章に対する自然言語処理を行い、自然言語処理が施された音声認識結果を意味解析処理部45に供給する。
 ステップS34において、意味解析処理部45は、ステップS33で自然言語処理部44から供給された音声認識結果を表す文章に対して、その文章の意味を解析する意味解析処理を行い、音声認識結果が示す文章の内容を修正箇所推定処理部46に供給する。
 ステップS35において、修正箇所推定処理部46は、ステップS34で意味解析処理部45から供給される音声認識結果が示す文章の内容の正確性を判断するために必要な照合情報を認識し、照合情報取得部47は、通信部41を介して照合情報を要求する。例えば、照合情報取得部47は、照合情報として、クライアント端末13に対して、行動情報や、環境情報、視線情報、物体認識情報などなどを要求したり、ニュースサーバ15および百科事典サーバ16に対して事実情報を要求したりする。そして、照合情報取得部47は、要求に応じて送信されてくる照合情報を、通信部41を介して取得して、修正箇所推定処理部46に供給する。
 ステップS36において、修正箇所推定処理部46は、音声認識結果が示す文章の内容と、ステップS35で取得した照合情報とを照合し、その文章に対して修正箇所を推定する処理を行う。
 ステップS37において、修正箇所推定処理部46は、ステップS35における処理の結果、音声認識結果が示す文章に修正箇所があると推定されたか否かを判定する。
 ステップS37において、修正箇所推定処理部46が、音声認識結果が示す文章に修正箇所があると判定した場合、処理はステップS38に進む。ステップS38において、修正箇所推定処理部46は、音声認識結果とともに修正箇所を示す情報を音声認識結果出力処理部49に供給し、音声認識結果出力処理部49は、修正箇所を確認する情報を音声認識結果とともに出力する。
 一方、ステップS37において、修正箇所推定処理部46が、音声認識結果が示す文章に修正箇所がないと判定した場合、処理はステップS39に進む。ステップS39において、修正箇所推定処理部46は、音声認識結果を音声認識結果出力処理部49に供給し、音声認識結果出力処理部49は、音声認識結果を出力する。
 ステップS38またはS39の処理後、処理はステップS40に進み、編集対応処理部48は、クライアント端末13により編集箇所が通知されたか否かを判定する。例えば、上述した図19のステップS23でクライアント端末13から編集対象として特定された単語を削除することを示す情報が送信されてくると、編集対応処理部48は、編集箇所が通知されたと判定する。
 ステップS40において、編集対応処理部48が、編集箇所が通知されたと判定した場合、処理はステップS41に進んで編集対応処理が行われた後に処理は終了され、編集箇所が通知されていないと判定した場合、そのまま処理は終了される。
 図21は、図20のステップS41において行われる編集対応処理を説明するフローチャートである。
 ステップS51において、編集対応処理部48は、クライアント端末13から送信されてくる編集対象として特定された単語を削除することを示す情報に従って、編集箇所を認識する。
 ステップS52において、編集対応処理部48は、上述の図11を参照して説明したように、音声認識サーバ14で保持されている音声情報から、ステップS51で認識した編集箇所の単語に対応付けられている音素情報を削除する。これにより、編集対応処理部48は、編集対象外の音声情報を特定する。
 ステップS53において、編集対応処理部48は、上述した図19のステップS24でクライアント端末13から送信される再発話の音声情報を取得する。
 ステップS54において、編集対応処理部48は、ステップS53で取得した再発話の音声情報を、ステップS52で認識した編集対象外の音声情報において単語が削除された編集箇所に接続する処理を行って、編集用の音声認識向けの音声情報を作成する。
 ステップS55において、編集対応処理部48は、ステップS54で作成した編集用の音声認識向けの音声情報を音声認識部43に供給して音声認識を行わせる。
 ステップS56において、編集対応処理部48は、ステップS55で音声認識を行って得られる音声認識結果から編集対象外の音声情報を削除して残った音声情報を、編集箇所に置き換える置き換え情報として決定する。そして、編集対応処理部48は、その置き換え情報を、通信部41を介してクライアント端末13に送信する。これに応じて、上述した図19のステップS25で音声認識結果の編集箇所に置き換え情報が置き換えられることで編集が反映された後、編集対応処理は終了される。
 以上のように、クライアント端末13および音声認識サーバ14は、ユーザの発話に基づいた音声情報に対する音声認識結果とともに、ユーザの行動情報や天候情報などに基づいて推定される修正箇所を確認するユーザインタフェースを表示することができる。これにより、例えば、ユーザの記憶違いなどによる間違った音声入力を修正し易くすることができる。
 また、クライアント端末13および音声認識サーバ14は、ユーザにより指示された編集箇所の再発話の音声情報が編集対象外の音声情報に接続された編集用の音声認識向けの音声情報に対する音声認識を行うことができる。従って、音声認識サーバ14は、例えば、再発話の音声情報のみを用いて音声認識を行う構成よりも、音声認識の精度を向上させることができる。
 このように、音声認識システム11は、より正確に修正箇所を推定してユーザに提示することができるとともに、編集箇所に対する音声認識を高精度に行うことができる。これにより、音声認識システム11は、より利便性の高い音声認識サービスを提供することができる。
 従って、音声認識システム11により提供される音声認識サービスは、例えば、音声入力を行うユーザインタフェースを提供するアプリケーションの全般で利用することができる。例えば、音声認識システム11により提供される音声認識サービスを、バーチャルなエージェントシステムなどで利用することにより、ユーザの発話に嘘が含まれている場合には、その嘘を修正箇所として推定し、ユーザに修正させることができる。
 例えば、音声認識システム11は、ユーザが発話「今日は寒いね」を行ったとき、環境情報取得部26が取得した温度を示す環境情報と照合し、そのときの気温が38度であった場合、音声認識結果の単語「寒い」を修正箇所として推定することができる。
 なお、本実施の形態では、図1を参照して説明したように、音声認識システム11は、ネットワーク12を介して接続されるクライアント端末13および音声認識サーバ14により構成されており、上述したような音声認識サービスが提供される。この構成に限定されることなく、例えば、クライアント端末13単体で音声認識システムを構成してもよく、ネットワーク12を介した通信を行わずに、音声認識サービスを提供するようにしてもよい。
 また、クライアント端末13および音声認識サーバ14を構成する各ブロックは、音声認識システム11全体として音声認識サービスを提供することができれば、ネットワーク12のどちら側に配置されていてもよい。
 なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、単一のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
 また、上述した一連の処理(情報処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
 図22は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
 バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
 以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU101)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
 そして、プログラムは、リムーバブルメディア111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 ユーザの発話に基づく音声情報に対する音声認識を行う音声認識部と、
 前記音声認識部による音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定する修正箇所推定部と、
 前記音声認識結果として得られた文章を、前記修正箇所推定部により推定された修正箇所とともにユーザに提示する提示部と
 を備える情報処理装置。
(2)
 前記修正箇所推定部が必要とする前記照合情報を取得して、前記修正箇所推定部に供給する照合情報取得部
 をさらに備える上記(1)に記載の情報処理装置。
(3)
 前記照合情報取得部は、ネットワークを介して提供される事実情報を、前記照合情報として取得し、
 前記修正箇所推定部は、前記文章の内容と前記事実情報とを照合することにより前記修正箇所を推定する
 上記(2)に記載の情報処理装置。
(4)
 前記照合情報取得部は、ユーザの行動に伴って取得される行動情報を、前記照合情報として取得し、
 前記修正箇所推定部は、前記文章の内容と前記行動情報とを照合することにより前記修正箇所を推定する
 上記(2)または(3)に記載の情報処理装置。
(5)
 前記照合情報取得部は、ユーザの周辺の環境を表す環境情報を、前記照合情報として取得し、
 前記修正箇所推定部は、前記文章の内容と前記環境情報とを照合することにより前記修正箇所を推定する
 上記(2)から(4)までのいずれかに記載の情報処理装置。
(6)
 前記照合情報取得部は、ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、
 前記修正箇所推定部は、前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
 上記(2)から(5)までのいずれかに記載の情報処理装置。
(7)
 前記修正箇所の提示に対するユーザの指示に対応する処理を行う対応処理部
 をさらに備える上記(1)から(6)までのいずれかに記載の情報処理装置。
(8)
 ユーザの発話に基づく音声情報に対する音声認識を行い、
 音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
 前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示する
 ステップを含む情報処理方法。
(9)
 ユーザの発話に基づく音声情報に対する音声認識を行い、
 音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
 前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示する
 ステップを含む情報処理をコンピュータに実行させるプログラム。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 11 音声認識システム, 12 ネットワーク, 13 クライアント端末, 14 音声認識サーバ, 15 ニュースサーバ, 16 百科事典サーバ, 21 音声情報取得部, 22 映像出力部, 23 操作入力部, 24 音声出力部, 25 行動情報取得部, 26 環境情報取得部, 27 視線情報取得部, 28 物体認識部, 29 記録部, 30 通信部, 31 音声認識結果対応処理部, 41 通信部, 42 入力音処理部, 43 音声認識部, 44 自然言語処理部, 45 意味解析処理部, 46 修正箇所推定処理部, 47 照合情報取得部, 48 編集対応処理部, 49 音声認識結果出力処理部

Claims (9)

  1.  ユーザの発話に基づく音声情報に対する音声認識を行う音声認識部と、
     前記音声認識部による音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定する修正箇所推定部と、
     前記音声認識結果として得られた文章を、前記修正箇所推定部により推定された修正箇所とともにユーザに提示する提示部と
     を備える情報処理装置。
  2.  前記修正箇所推定部が必要とする前記照合情報を取得して、前記修正箇所推定部に供給する照合情報取得部
     をさらに備える請求項1に記載の情報処理装置。
  3.  前記照合情報取得部は、ネットワークを介して提供される事実情報を、前記照合情報として取得し、
     前記修正箇所推定部は、前記文章の内容と前記事実情報とを照合することにより前記修正箇所を推定する
     請求項2に記載の情報処理装置。
  4.  前記照合情報取得部は、ユーザの行動に伴って取得される行動情報を、前記照合情報として取得し、
     前記修正箇所推定部は、前記文章の内容と前記行動情報とを照合することにより前記修正箇所を推定する
     請求項2に記載の情報処理装置。
  5.  前記照合情報取得部は、ユーザの周辺の環境を表す環境情報を、前記照合情報として取得し、
     前記修正箇所推定部は、前記文章の内容と前記環境情報とを照合することにより前記修正箇所を推定する
     請求項2に記載の情報処理装置。
  6.  前記照合情報取得部は、ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、
     前記修正箇所推定部は、前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
     請求項2に記載の情報処理装置。
  7.  前記修正箇所の提示に対するユーザの指示に対応する処理を行う対応処理部
     をさらに備える請求項1に記載の情報処理装置。
  8.  ユーザの発話に基づく音声情報に対する音声認識を行い、
     音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
     前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示する
     ステップを含む情報処理方法。
  9.  ユーザの発話に基づく音声情報に対する音声認識を行い、
     音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
     前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示する
     ステップを含む情報処理をコンピュータに実行させるプログラム。
PCT/JP2018/000014 2017-01-18 2018-01-04 情報処理装置および情報処理方法、並びにプログラム WO2018135302A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP18742238.1A EP3573052A4 (en) 2017-01-18 2018-01-04 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM
JP2018563262A JP7107228B2 (ja) 2017-01-18 2018-01-04 情報処理装置および情報処理方法、並びにプログラム
US16/463,776 US11107469B2 (en) 2017-01-18 2018-01-04 Information processing apparatus and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017007121 2017-01-18
JP2017-007121 2017-01-18

Publications (1)

Publication Number Publication Date
WO2018135302A1 true WO2018135302A1 (ja) 2018-07-26

Family

ID=62908660

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/000014 WO2018135302A1 (ja) 2017-01-18 2018-01-04 情報処理装置および情報処理方法、並びにプログラム

Country Status (4)

Country Link
US (1) US11107469B2 (ja)
EP (1) EP3573052A4 (ja)
JP (1) JP7107228B2 (ja)
WO (1) WO2018135302A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842842A (zh) * 2022-03-25 2022-08-02 青岛海尔科技有限公司 智能设备的语音交互方法和装置、存储介质
US11657803B1 (en) * 2022-11-02 2023-05-23 Actionpower Corp. Method for speech recognition by using feedback information

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108551A (ja) * 2001-09-28 2003-04-11 Toshiba Corp 携帯型機械翻訳装置、翻訳方法及び翻訳プログラム
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
JP2009223171A (ja) * 2008-03-18 2009-10-01 Advanced Telecommunication Research Institute International コミュニケーションシステム
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
JP2012128188A (ja) * 2010-12-15 2012-07-05 Nippon Hoso Kyokai <Nhk> テキスト修正装置およびプログラム
JP2013073240A (ja) * 2011-09-28 2013-04-22 Apple Inc コンテキスト情報を使用した音声認識修正
WO2016049439A1 (en) * 2014-09-25 2016-03-31 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
JP2016110087A (ja) 2014-12-02 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108551A (ja) * 2001-09-28 2003-04-11 Toshiba Corp 携帯型機械翻訳装置、翻訳方法及び翻訳プログラム
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
JP2009223171A (ja) * 2008-03-18 2009-10-01 Advanced Telecommunication Research Institute International コミュニケーションシステム
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
JP2012128188A (ja) * 2010-12-15 2012-07-05 Nippon Hoso Kyokai <Nhk> テキスト修正装置およびプログラム
JP2013073240A (ja) * 2011-09-28 2013-04-22 Apple Inc コンテキスト情報を使用した音声認識修正
WO2016049439A1 (en) * 2014-09-25 2016-03-31 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
JP2016110087A (ja) 2014-12-02 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3573052A4

Also Published As

Publication number Publication date
US20190378507A1 (en) 2019-12-12
JPWO2018135302A1 (ja) 2019-11-21
US11107469B2 (en) 2021-08-31
EP3573052A1 (en) 2019-11-27
JP7107228B2 (ja) 2022-07-27
EP3573052A4 (en) 2020-01-01

Similar Documents

Publication Publication Date Title
US11450311B2 (en) System and methods for accent and dialect modification
JP6463825B2 (ja) 多重話者音声認識修正システム
US7711105B2 (en) Methods and apparatus for processing foreign accent/language communications
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
US11049493B2 (en) Spoken dialog device, spoken dialog method, and recording medium
JP4398966B2 (ja) 機械翻訳を行う装置、システム、方法およびプログラム
US20140358544A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
WO2018135303A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
WO2014136534A1 (ja) 理解支援システム、理解支援サーバ、理解支援方法、及びコンピュータ読み取り可能な記録媒体
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
WO2018135302A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US20240176957A1 (en) Systems and methods for inserting dialogue into a query response
EP3005152A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
US10789946B2 (en) System and method for speech recognition with decoupling awakening phrase
US11842737B2 (en) Automated assistant interaction prediction using fusion of visual and audio input
CN110895938B (zh) 语音校正系统及语音校正方法
Bohac et al. A cross-lingual adaptation approach for rapid development of speech recognizers for learning disabled users
JP6298806B2 (ja) 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム
KR20230101452A (ko) 대화 시스템 및 대화 처리 방법
JP2021131472A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JPWO2018043139A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
Satink The adaptive presentation assistant using grammar-based recognition to support the process of presenting

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18742238

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018563262

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018742238

Country of ref document: EP

Effective date: 20190819