WO2023073945A1 - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
WO2023073945A1
WO2023073945A1 PCT/JP2021/040095 JP2021040095W WO2023073945A1 WO 2023073945 A1 WO2023073945 A1 WO 2023073945A1 JP 2021040095 W JP2021040095 W JP 2021040095W WO 2023073945 A1 WO2023073945 A1 WO 2023073945A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
utterance
input
keyword
content
Prior art date
Application number
PCT/JP2021/040095
Other languages
English (en)
French (fr)
Inventor
義大 石原
Original Assignee
パイオニア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パイオニア株式会社 filed Critical パイオニア株式会社
Priority to PCT/JP2021/040095 priority Critical patent/WO2023073945A1/ja
Publication of WO2023073945A1 publication Critical patent/WO2023073945A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present invention relates to an information processing device, an information processing method, and an information processing program.
  • Patent Literature 1 discloses a technique for correcting a recognition result due to misrecognition when a speech recognition engine installed in a speech recognition system misrecognizes an uttered voice.
  • the erroneous recognition of an uttered voice by a speech recognition engine when an erroneous recognition of an uttered voice by a speech recognition engine is detected, a word that the user has previously corrected for the erroneously recognized word is read from the recognized word link DB. In addition to presenting them as correct candidates, the erroneously recognized words and correct words corrected by the user are associated with each other and newly registered in the recognized word link DB.
  • the above-described prior art uses a dictionary so that the speech recognition engine can recognize the correct word for the erroneously recognized word even when the speech recognition engine misrecognizes a word uttered by the user. This process does not correctly recognize misspelled words by the user.
  • the present invention has been made in view of the above, and provides an information processing device, an information processing method, and an information processing program that can be controlled so that a correct operation can be executed in response to an operation input by a user's voice. for the purpose.
  • the first input operation when a second input operation of inputting information by touching a predetermined object is performed after the first utterance is input, the first input operation is performed.
  • a determination unit that determines whether the second input operation is a correction operation for correcting the utterance content based on the utterance content indicated by the uttered voice and the operation content indicated by the second input operation. and, if the determination unit determines that the second input operation is the correction operation, a linking unit that links the operation content and the utterance content, and based on the linking result of the linking unit and an information control unit that performs predetermined control on the content of the utterance.
  • the information processing method is an information processing method executed by an information processing apparatus, wherein the second input is performed by touching a predetermined object after the first utterance is input.
  • the second input operation corrects the utterance content based on the utterance content indicated by the first utterance voice and the operation content indicated by the second input operation. and if the second input operation is determined to be the correction operation by the determination step, the content of the operation and the content of the utterance are linked. and an information control step of performing predetermined control on the contents of the utterance based on the result of the tying in the tying step.
  • the first input operation when a second input operation of inputting information by touching a predetermined object is performed after the first utterance voice is input, the first input operation is performed.
  • FIG. 1 is a diagram illustrating an example of an information processing system according to an embodiment.
  • FIG. 2 is an explanatory diagram for explaining information processing according to the first embodiment.
  • FIG. 3 is a diagram illustrating a configuration example of an information processing apparatus according to the first embodiment;
  • FIG. 4 is a diagram showing an example of an utterance information database according to the first embodiment.
  • FIG. 5 is a diagram illustrating an example of a linking information database according to the embodiment;
  • FIG. 6 is a diagram showing an example of a user dictionary database according to the embodiment.
  • FIG. 7 is a flow chart showing the procedure of information processing according to the first embodiment.
  • FIG. 8 is an explanatory diagram for explaining information processing according to the second embodiment.
  • FIG. 9 is a diagram illustrating a configuration example of an information processing apparatus according to the second embodiment.
  • FIG. 10 is a diagram showing an example of an operation information database according to the second embodiment.
  • FIG. 11 is a flow chart showing the procedure of information processing according to the second embodiment.
  • FIG. 12 is a hardware configuration diagram showing an example of a computer that implements the functions of the information processing apparatus.
  • a vehicle navigation device may be equipped with a voice recognition system that recognizes voice input by a user and performs information processing (for example, route guidance) according to the recognition result.
  • the user inputs a spoken voice instructing the navigation device to perform a specific action or a spoken voice indicating a destination, etc.
  • an utterance voice with different content may be input. Then, the voice recognition system will perform an operation according to the content of the mispronounced error, which is inconvenient for the user.
  • the present invention has been made in view of the above circumstances, and its object is to control so that even if the user makes a mistake in speaking, the correct operation can be performed in response to the mistake. be.
  • the present invention infers the user's intention to correct the misspelled word from the user's behavior. Then, in the present invention, based on the content of the action performed with the intention of correcting the mispronunciation, by associating the mispronounced content with the original correct content for this content, From now on, processing will be executed according to the result of linking.
  • the information processing corresponding to the present invention is information that performs linking based on the content of the detected correction voice by detecting the correction voice of the user who tries to correct the content of the mispronounced error with the utterance voice.
  • the connection is made based on the content of the detected correction operation.
  • FIG. 1 is a diagram illustrating an example of an information processing system according to an embodiment.
  • FIG. 1 shows an information processing system 1 as an example of an information processing system according to an embodiment.
  • a first embodiment and a second embodiment, which will be described later, may be implemented within the information processing system 1 shown in FIG.
  • the information processing system 1 may include a terminal device 10 and an information processing device 100 . Also, the terminal device 10 and the information processing device 100 are connected via a network N so as to be communicable by wire or wirelessly. Further, the information processing system 1 shown in FIG. 1 may include any number of terminal devices 10 and any number of information processing apparatuses 100 .
  • the terminal device 10 may be an in-vehicle device mounted on a vehicle, which is an example of a mobile object.
  • FIG. 1 shows an example in which the terminal device 10 is an in-vehicle device of a vehicle VEx.
  • the terminal device 10 may be, for example, a dedicated navigation device built into the vehicle VEx or a dedicated navigation device attached to the vehicle VEx.
  • the terminal device 10 may be configured to function as an information processing device 100, which will be described later.
  • FIG. 1 shows the terminal device 10 and the information processing device 100 as separate devices, the terminal device 10 and the information processing device 100 are integrated to form one information processing device. may In such a case, for example, some or all of the functions of the information processing device 100 may be introduced into the terminal device 10 .
  • the terminal device 10 may be a portable terminal device (for example, a smart phone, a tablet terminal, a notebook PC, a desktop PC, a PDA, etc.) in which an application compatible with a predetermined navigation system is installed.
  • the terminal device 10 may be used on a daily basis, for example, by the driver of the vehicle VEx.
  • the terminal device 10 may have a sound collecting unit (for example, a microphone) that collects the voice uttered by the user. Then, the speech information indicating the speech sound collected via the sound collector may be transmitted to the information processing device 100 by the terminal device 10 .
  • a sound collecting unit for example, a microphone
  • the terminal device 10 may also have various sensors such as a camera, an acceleration sensor, a gyro sensor, a GPS sensor, and an atmospheric pressure sensor. Then, the sensor information detected by the sensor may be transmitted to the information processing device 100 by the terminal device 10 .
  • the vehicle VEx may also have a sensor for a safe driving system, for example, and sensor information from this sensor may also be transmitted to the information processing device 100 .
  • the information processing device SV is a device that performs information processing according to the embodiment.
  • the information processing device SV may perform information processing according to the embodiment according to an information processing method realized by an information processing program according to the embodiment.
  • the information processing device SV after the first uttered voice is input, when the second uttered voice is input, the first uttered voice Based on the first utterance content indicated by and the second utterance content indicated by the second utterance sound, whether the second utterance voice is the voice input to correct the first utterance content determine whether
  • the information processing device SV uses whether or not the first utterance content is an erroneous content due to mispronunciation, and the user has input the second utterance voice with the intention of correcting this erroneous content. infer the intent of the person. That is, based on the first utterance content indicated by the first utterance sound and the second utterance content indicated by the second utterance sound, the information processing device SV allows the user to make the first utterance by the second utterance content. It is estimated whether or not there is an intention to correct the content of the utterance. Then, the information processing device SV determines whether or not the second uttered voice is the correction voice input to correct the content of the first utterance, according to the estimation result.
  • the information processing device SV determines that the second utterance voice is the correction voice input to correct the first utterance content, the first utterance content and the second utterance content By associating with, predetermined control is performed on the first utterance content based on the result of association.
  • the information processing device SV performs a second input operation (for example, a hand input operation) for inputting information by touching a predetermined object after the first speech is input. input operation) is performed, the second input operation corrects the utterance content based on the utterance content indicated by the first uttered voice and the operation content indicated by the second input operation. It is determined whether or not it is an operation.
  • a second input operation for example, a hand input operation
  • the second input operation corrects the utterance content based on the utterance content indicated by the first uttered voice and the operation content indicated by the second input operation. It is determined whether or not it is an operation.
  • the information processing device SV determines whether or not the user has performed the second input operation with the intention of correcting the erroneous content of the utterance due to a mispronunciation. presume. That is, the information processing device SV determines whether the user intends to correct the utterance content according to the operation content based on the utterance content indicated by the first utterance voice and the operation content indicated by the second input operation. to estimate Then, the information processing device SV determines whether or not the second input operation is a correction operation for correcting the utterance content, according to the estimation result.
  • the information processing device SV determines that the second input operation is a correction operation, the information processing device SV associates the operation content with the utterance content, and performs predetermined control on the utterance content based on the result of the association. I do.
  • the information processing device SV may be, for example, a cloud computer that performs processing on the cloud side. That is, the information processing device SV may be a server device.
  • the information processing apparatus SV that performs information processing according to the first embodiment is referred to as an "information processing apparatus 100".
  • the information processing device SV that performs information processing according to the second embodiment is referred to as an "information processing device 200".
  • the moving object is described as the vehicle VEx, but the moving object is not limited to the vehicle VEx.
  • the user shown in each embodiment may be any person as long as he or she has entered the vehicle VEx and input voice to the terminal device 10 .
  • the user may be a person who uses the vehicle VEx on a daily basis, that is, the owner of the vehicle VEx.
  • FIG. 2 is an explanatory diagram for explaining information processing according to the first embodiment.
  • FIG. 2 shows a scene in which the user U1 inputs speech by speaking to the terminal device 10 mounted on the vehicle VE1 (an example of the vehicle VEx). More specifically, FIG. 2 shows a scene in which the user U1 is inputting an utterance voice instructing to guide a route to "destination XX in Ibaraki City, Osaka Prefecture". shown.
  • the terminal device 10 transmits voice information indicating the received speech voice to the information processing device 100 every time it accepts input of the speech voice.
  • the information processing device 100 acquires voice information from the terminal device 10 (step S11).
  • Fig. 2 For example, in Fig. 2, user U1 says, "Route guidance to XX in 'Ibaragi' city, please! ” shows an example of inputting an utterance voice VO11 with content C11.
  • the terminal device 10 transmits voice information indicating the utterance content C11 to the information processing apparatus 100 in response to the input of the utterance voice VO11.
  • the information processing apparatus 100 acquires voice information indicating the utterance content C11.
  • the terminal device 10 transmits voice information indicating the utterance content C12 to the information processing apparatus 100 in response to the input of the utterance voice VO12.
  • the information processing apparatus 100 acquires voice information indicating the utterance content C12.
  • information processing apparatus 100 generates first voice information indicating the first uttered voice and second voice information indicating the second uttered voice based on the context of the timing at which user U1 speaks.
  • Information is acquired (step S12). For example, the information processing apparatus 100, based on the sequential relationship of the utterance timing, the first utterance voice that is the utterance voice that is input first, and the utterance voice that is input after the first utterance voice is input. A second spoken voice may be recognized. Further, the information processing apparatus 100 thereby selects the first voice information indicating the first uttered voice and the second uttered voice from among the voice information collected so far via the terminal device 10. Second audio information may be obtained.
  • the information processing apparatus 100 acquires the speech information indicating the speech content C11 as the first speech information by recognizing the speech speech VO11 as the first speech speech.
  • the information processing apparatus 100 recognizes the utterance voice VO12 as the second utterance voice, thereby acquiring voice information indicating the utterance content C12 as the second voice information.
  • the utterance voice VO11 may be referred to as "first utterance voice VO11”
  • the utterance voice VO12 may be referred to as "second utterance voice VO12”.
  • the information processing apparatus 100 generates first keywords, which are the respective keywords forming the first voice information (first utterance content), and respective keywords forming the second voice information (second utterance content). Based on the similarity with the second keyword, which is the keyword, intention analysis is performed to estimate the intention of correcting the mispronunciation (step S13). Specifically, based on the similarity between the first keyword and the second keyword, the information processing apparatus 100 determines whether the user U1 intends to correct the first utterance content according to the second utterance content. Intention is estimated as to whether or not there is. A specific method of intention analysis performed in step S13 will be described later.
  • the information processing apparatus 100 may extract each word constituting the text as the first keyword by morphological analysis of the text indicating the first voice information. Similarly, the information processing apparatus 100 may perform morphological analysis on the text indicating the second audio information to extract each word forming the text as the second keyword.
  • the information processing apparatus 100 corrects the second utterance voice VO12 to correct the first utterance content corresponding to the first utterance voice VO11 based on the estimation result of the intention analysis. It is determined whether or not it is voice (step S14). For example, when the information processing apparatus 100 recognizes that there is a similarity between "Ibaraki", which is one of the first keywords, and "Ibaraki", which is one of the second keywords, It can be inferred that user U1 intends to correct the first utterance content (first keyword KW11) based on the second utterance content (second keyword KW12). Further, as a result, the information processing apparatus 100 can determine that the second utterance voice VO12 is the corrected voice input to correct the content of the first utterance.
  • the information processing apparatus 100 outputs the second keyword "Ibaraki". is correct information, and the first keyword “Ibaraki” is assumed to be error information for the correct information, and the second keyword "Ibaraki” and the first keyword “Ibaragi” are linked (step S15).
  • the second keyword "Ibaraki” is correct information
  • the first keyword "Ibaragi” is correct information
  • user U1 has previously changed “Ibaraki” to "Ibaragi”. and an example of the result of tying by mispronouncing "Ibaraki” as "Ibaraku”.
  • such a linking result may be managed in the linking information database 122 (FIG. 5) using the linking ID.
  • the information processing apparatus 100 learns, of the first keywords indicated by the error information, keywords that are likely to be mistaken for the second keywords indicated by the correct information, using pairs of correct information and error information as learning data. (Step S16). In the example of FIG. 2, the information processing apparatus 100 learns the first keyword “Ibaraki” and the first keyword “Ibaraki” which is likely to be mistaken for the second keyword "Ibaraki”.
  • the information processing device 100 registers the keyword in the dictionary based on the learning result (step S17). For example, based on the learning result, information processing apparatus 100, when an utterance voice including a keyword that is likely to be mistaken for a second keyword among the first keywords is input, the input first keyword This first keyword is registered in the user dictionary (FIG. 6) so that the keyword can be recognized as a second keyword. In FIG. 2, when the speech voice including the first keyword "Ibaraki" is input, the information processing apparatus 100 recognizes the first keyword “Ibaraki” as the second keyword “Ibaraki". An example of registering the first keyword "Ibaragi" in the user dictionary is shown.
  • the information processing apparatus 100 Based on the first utterance content indicated by the first utterance sound and the second utterance content indicated by the second utterance sound, the second utterance sound is input to correct the first utterance content. It is determined whether or not it is voice. Then, when the information processing apparatus 200 determines that the second utterance voice is the voice input to correct the first utterance content, the first utterance content and the second utterance content are combined. By linking , the first utterance content is registered in the user dictionary based on the linking result.
  • the information processing apparatus 100 can perform control so that even if the user makes a mistake, the correct operation can be performed in response to the mispronunciation.
  • FIG. 3 is a diagram showing a configuration example of the information processing apparatus 100 according to the first embodiment.
  • the information processing apparatus 100 has a communication section 110, a storage section 120, and a control section .
  • the communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like.
  • the communication unit 110 is connected to a network by wire or wirelessly, and transmits and receives information to and from the terminal device 10, for example.
  • the storage unit 120 is realized by, for example, a RAM (Random Access Memory), a semiconductor memory device such as a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 120 has an utterance information database 121 , a link information database 122 and a user dictionary database 123 .
  • the utterance information database 121 stores information about the utterance voice input by the user.
  • FIG. 4 shows an example of the speech information database 121 according to the first embodiment.
  • the speech information database 121 has items such as "user ID”, "speech date and time”, and "voice information".
  • User ID indicates identification information that identifies the user who has input the uttered voice to the terminal device 10.
  • the information processing apparatus 100 recognizes a user who has input a speech based on an image captured by a sensor (for example, a camera) of the terminal apparatus 10, and assigns a "user ID" to the recognized user. may be paid out.
  • FIG. 4 shows an example in which user ID "U1" and “speech date and time #11" are associated with each other.
  • This example shows an example in which the user U1 has input an utterance voice at the date and time of utterance #11.
  • the information processing apparatus 100 regards the “utterance date and time” as the utterance timing, so that the first utterance voice, which is the utterance voice input first, and the utterance input after the first utterance voice is input.
  • a second utterance, which is voice can be recognized.
  • “Voice information” is information indicating the content of the uttered voice input by the user indicated by the "user ID”.
  • the "speech information” is text information obtained by applying any speech recognition technology to the spoken voice, and may be text information indicating the content of the spoken voice.
  • the speech recognition processing for the uttered voice may be performed by the terminal device 10 or may be performed by a speech recognition device (not shown in FIG. 1).
  • FIG. 4 shows an example in which user ID "U1", “utterance date and time #11", and “voice information #11" are associated with each other.
  • This example shows an example in which voice information #11 indicating the contents of the uttered voice is obtained from the uttered voice input by the user U1 at the date and time of utterance #11.
  • the linking information database 122 links and manages the correct information and the error information.
  • FIG. 5 shows an example of the linking information database 122 according to the embodiment.
  • the linking information database 122 has items such as "user ID”, “linking ID”, “correct information”, and "erroneous information”.
  • User ID indicates identification information for identifying the user who has input the uttered voice to the terminal device 10, and corresponds to the "user ID” in FIG.
  • Linking ID is identification information for managing "error information” for "correct information” for each keyword indicated by “correct information”. As shown in FIG. 5, the “linking ID” may be issued for each keyword indicated by the “correct answer information”.
  • FIG. 5 shows an example in which the user ID "U1", the linking ID "H11”, and the correct answer information "Ibaraki” are associated with each other. This example shows an example in which one second keyword “Ibaraki” as the correct answer information is managed by the linking ID "H11" according to the input of the uttered voice by the user U1.
  • the "correct answer information" is the second information included in the second utterance voice input as the correction voice in order to correct the specific first keyword among the first keywords included in the first utterance voice. Keywords are information indicating correct secondary keywords that correct specific primary keywords.
  • error information is information indicating a keyword to be corrected by the second keyword contained in the second uttered voice input as the correction voice, among the first keywords contained in the first uttered voice. be.
  • FIG. 5 shows an example in which user ID "U1", linking ID “H11”, correct information "Ibaraki”, and error information "Ibaraki” are associated.
  • This example shows the result of tying when the user U1 mispronounced 'Ibaraki' instead of uttering 'Ibaraki' correctly, and this tying result is managed using the tying ID 'H11'. indicates
  • FIG. 5 shows an example in which the user ID "U1", the linking ID “H11”, the correct information “Ibaraki”, and the error information "Ibaraku” are associated with each other.
  • This example shows the result of tying when the user U1 mispronounced 'Ibaraku' instead of uttering 'Ibaraki' correctly, and this tying result is managed using the tying ID 'H11'. indicates
  • FIG. 5 shows an example in which the user ID "U1", the linking ID “H11", the correct information "guidance suspension”, and the error information "guidance suspension” are associated with each other.
  • This example shows the result of association due to the user U1 mispronouncing "suspend guidance” instead of correctly saying “suspend guidance”. example.
  • the set of "correct information” and “erroneous information” corresponds to the second keyword indicated by “correct information” among the first keywords indicated by “erroneous information”. It is used as training data for learning patterns of keywords that are easily confused.
  • the user dictionary database 123 associates and stores the first keyword and the second keyword so that the first keyword, which is likely to be mistaken for the second keyword, is recognized as the second keyword.
  • FIG. 6 shows an example of the user dictionary database 123 according to the embodiment.
  • the user dictionary database 123 has items such as "user ID”, "utterance keyword”, and "recognition keyword”.
  • User ID indicates identification information that identifies the user who has input the uttered voice to the terminal device 10, and corresponds to the "user ID” in FIGS.
  • “Utterance keyword” indicates the first keyword that is estimated to tend to be mistaken for the second keyword indicated by the "recognition keyword” as a result of learning using the learning data. Further, the "utterance keyword” is conditional information that conditions such that the first keyword is recognized as the second keyword indicated by the "recognition keyword” when an utterance including the first keyword is input. corresponds to
  • the "recognition keyword” is conditional information that conditions how the first keyword should be correctly recognized as a keyword when an utterance including the first keyword indicated by the "utterance keyword” is input. corresponds to
  • FIG. 6 shows an example in which the spoken keyword "Ibaraki” and the recognized keyword “Ibaraki” are associated with the user ID "U1".
  • the user U1 inputs an utterance including the first keyword “Ibaraki”
  • the first keyword “Ibaraki” is recognized as the second keyword “Ibaraki”.
  • An example in which the keyword “Ibaraki” and the second keyword “Ibaraki” are associated with each other and registered in the user dictionary of user U1 is shown.
  • FIG. 6 shows an example in which the user ID "U1" is associated with the utterance keyword “guidance stop” and the recognized keyword “guidance stop”.
  • the first keyword “guidance stop” is recognized as the second keyword “guidance stop”.
  • An example is shown in which a first keyword “stop guidance” and a second keyword “stop guidance” are registered in the user dictionary of user U1 in a state of being associated with each other.
  • control unit 130 controls various programs (for example, information processing according to the embodiment) stored in a storage device inside the information processing apparatus 100 by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like. program) is executed using the RAM as a work area. Also, the control unit 130 is implemented by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the control unit 130 includes an acquisition unit 131, a corrected speech determination unit 132, a detection unit 133, a linking unit 134, a learning unit 135, and an information control unit 136. Implements or performs the described information processing functions and operations.
  • the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 3, and may be another configuration as long as it performs information processing described later.
  • the connection relationship between the processing units of the control unit 130 is not limited to the connection relationship shown in FIG. 3, and may be another connection relationship.
  • the acquisition unit 131 acquires various types of information used in information processing according to the first embodiment. Also, the acquisition unit 131 may output the acquired information to an appropriate processing unit that performs processing using this information.
  • the acquisition unit 131 acquires voice information indicating the input uttered voice. For example, the acquisition unit 131 may acquire the audio information from the terminal device 10 when the audio information is generated by the terminal device 10 . Further, for example, when voice information is generated by a voice recognition device (not shown), the acquisition unit 131 may acquire voice information from the voice recognition device.
  • the acquisition unit 131 may acquire first audio information indicating the first uttered audio and second audio information indicating the second uttered audio. For example, the acquisition unit 131 acquires the first utterance voice that is input first and the second utterance voice that is input after the first utterance voice is input, based on the context of the utterance timing. 2 speech sounds may be recognized. In addition, the acquisition unit 131 acquires the first speech information indicating the first speech speech and the first speech speech from speech information collected so far (speech information stored in the speech information database 121). Second audio information indicative of two speech sounds may be obtained.
  • the corrected voice determining unit 132 determines the first utterance content indicated by the first uttered voice and the second uttered voice. determines whether or not the second uttered voice is the voice input to correct the first uttered content.
  • the corrected speech determination unit 132 determines whether or not the first utterance content is an erroneous content due to mispronunciation, and the user has input the second utterance voice with the intention of correcting this erroneous content. Infer intent. That is, based on the first utterance content indicated by the first utterance sound and the second utterance content indicated by the second utterance sound, the corrected speech determination unit 132 determines whether the user has received the second utterance content according to the second utterance content. It is estimated whether or not there is an intention to correct the utterance content of 1.
  • the corrected speech determination unit 132 determines whether or not the second uttered voice is the corrected voice input to correct the content of the first utterance, according to the estimation result. For example, when it is estimated that the user intends to correct the first utterance content based on the second utterance content, the correction speech determination unit 132 determines that the second utterance voice is the first utterance content. It can be determined that it is a correction voice input to correct the content of the utterance.
  • the corrected speech determination unit 132 may perform morphological analysis on the text indicating the first speech content (first speech information) to extract each word forming the text as the first keyword.
  • the corrected speech determination unit 132 may perform morphological analysis on the text indicating the second speech content (second speech information) to extract each word forming the text as the second keyword.
  • the corrected speech determination unit 132 detects similarity for each combination of, for example, one first keyword and one second keyword, and based on the detected similarity, , it may be determined whether the second uttered voice is a correction voice input to correct the content of the first utterance.
  • the corrected speech determination unit 132 may detect similarity in reading. For example, the corrected speech determination unit 132 determines whether the first keyword and the second keyword included in the combination are characters (readings) for each combination established between the first keyword and the second keyword. You may calculate the degree of similarity indexing how similar it is.
  • the corrected speech determination unit 132 may calculate a degree of similarity indicating the similarity between the sequence of vowels in the first keyword and the sequence of vowels in the second keyword. As another example, the corrected speech determination unit 132 may calculate a degree of similarity indicating the similarity between the sequence of consonants in the first keyword and the sequence of consonants in the second keyword.
  • the corrected speech determination unit 132 determines that the second uttered speech is the corrected speech input to correct the content of the first utterance. It can be determined that
  • the corrected speech determination unit 132 may detect similarity in meaning. For example, the corrected speech determination unit 132 determines whether the first keyword and the second keyword included in the combination are characters (meanings) for each combination established between the first keyword and the second keyword. You may calculate the degree of similarity indexing how similar it is.
  • the corrected speech determination unit 132 calculated the degree of similarity that indicates how similar the characters (readings) are between the first keyword “Grandpa’s house” and the second keyword “Grandpa”.
  • the calculated degree of similarity may be weighted according to the degree of similarity in meaning between "Grandpa's house” and "Grandpa's house”.
  • the corrected speech determination unit 132 calculates a degree of similarity that indicates how similar the meanings of "Grandpa's house” and "Grandpa's house” are, and uses the calculated similarity as a weight value. By using this, the degree of similarity as a character (reading) may be weighted.
  • the corrected speech determination unit 132 may detect similarity in reading of kanji.
  • An example of this is the similarity due to the presence of multiple readings (for example, "Ibaraki” and "Ibaragi") that are likely to be mistaken for one word written in kanji, as described with reference to FIG.
  • the corrected speech determination unit 132 may detect similarity according to the input time interval of the uttered speech. For example, the corrected speech determination unit 132 uses, as the second keyword, the second keyword included in the second uttered speech input until a predetermined time has passed since the first uttered speech was input, and the second keyword. Based on the similarity with one keyword, it may be determined whether the second uttered voice is a correction voice input to correct the first uttered content. For example, the corrected speech determination unit 132 determines the second keyword included in the second uttered speech continuously input with respect to the first uttered speech, and the first keyword included in the first uttered speech. , it may be determined whether the second uttered voice is the correction voice input to correct the first uttered content.
  • the corrected speech determination unit 132 determines whether the above four elements (similarity in reading, similarity in meaning, similarity in reading of kanji characters, similarity in response to input time interval) are satisfied as a condition. , it may be determined whether or not the second uttered voice is the corrected voice input to correct the content of the first utterance, based on the number of times the uttered voice that satisfies the condition is input. .
  • the detection unit 133 may detect an input situation in which the second uttered voice is input. For example, the detection unit 133 can detect the input state based on sensor information obtained by a sensor of the terminal device 10 or sensor information obtained by a sensor of the vehicle VEx.
  • the detection unit 133 may detect the number of times the second utterance has been input as the input status. As an example, the detection unit 133 may detect the number of inputs of the second uttered voice within a predetermined period after the first uttered voice is input.
  • the corrected speech determination unit 132 determines whether the user intends to correct the first utterance content based on the second utterance content from a viewpoint other than the above-described similarity. It may be estimated whether there is For example, based on whether the number of times of input detected by the detection unit 133 exceeds a predetermined number of times, the correction speech determination unit 132 determines whether the second utterance is input to correct the content of the first utterance. It may be determined whether it is voice or not.
  • the corrected voice determination unit 132 determines that the second uttered voice input within the predetermined period is the second uttered voice. It may be determined that the voice is input to correct the utterance content of No. 1.
  • any second keyword included in the content of the second utterance is treated as correct information, Which first keyword included in one utterance content is to be regarded as error information may be determined from the viewpoint of similarity between the second keyword and the first keyword.
  • the detection unit 133 may detect the frequency indicating the second uttered voice as the input state.
  • the corrected speech determination unit 132 determines whether the user intends to correct the first utterance content based on the second utterance content from a viewpoint other than the above-described similarity based on the frequency detected by the detection unit 133. It may be estimated whether there is For example, based on the tone of the second uttered voice specified from the frequency, the corrected voice determination unit 132 determines whether the second uttered voice is the corrected voice input to correct the content of the first utterance. You can judge whether Specifically, when the identified tone indicates a predetermined utterance mode, the corrected speech determination unit 132 determines that the second uttered speech is the corrected speech input to correct the content of the first utterance. can be determined.
  • the linking unit 134 When it is determined that the second utterance voice is the corrected voice input to correct the first utterance content, the linking unit 134 combines the first utterance content and the second utterance voice. is associated with the second utterance content shown.
  • the linking unit 134 determines that the second utterance voice is the voice input to correct the first utterance content
  • the linking unit 134 associates the second keyword included in the second utterance content with , the combination of the first keyword and the second keyword determined to be similar to each other is extracted from among the combinations of the first keyword contained in the first utterance content. Then, the linking unit 134 treats the second keyword in the extracted combination as correct information, and the first keyword in this combination as error information for the correct information, and combines the second keyword and the first keyword.
  • the linking unit 134 performs a predetermined One of the second keywords included in each of the second uttered voices input within the period is set as correct information, and the first keyword included in the first uttered voice is set as error information for the correct information,
  • the second keyword and the first keyword may be associated.
  • the linking unit 134 combines the second keyword included in the second utterance content indicated by the second utterance voice input within a predetermined period and the first keyword included in the first utterance content. A combination of the second keyword determined to be similar to each other and the first keyword is extracted. Then, the linking unit 134 treats the second keyword in the extracted combination as correct information, and the first keyword in this combination as error information for the correct information, and combines the second keyword and the first keyword. You can tie it.
  • the linking unit 134 utters in a tone indicated by a predetermined utterance mode.
  • the second keyword contained in the second uttered voice is defined as correct information
  • the first keyword contained in the first uttered voice is defined as error information for the correct information
  • the second keyword and the first keyword are used as correct information.
  • the associating unit 134 selects the combination of the second keyword contained in the second utterance voice uttered in the tone indicated by the predetermined utterance mode and the first keyword contained in the first utterance content, A combination of the second keyword determined to be similar to the first keyword and the first keyword is extracted.
  • the linking unit 134 treats the second keyword in the extracted combination as correct information, and the first keyword in this combination as error information for the correct information, and combines the second keyword and the first keyword. You can tie it.
  • the associating unit 134 sets the second keyword as correct information, the first keyword as error information for the correct information, and associates the second keyword and the first keyword with this associating result.
  • the second keyword may be registered in the linking information database 122 in a state in which the assigned linking ID is associated with the second keyword.
  • the learning unit 135 uses pairs of the correct information and the error information linked by the linking unit 134 as learning data, and among the contents of the speech indicated by the error information, the learning unit 135 identifies the content of the speech that is likely to be mistaken for the content of the speech indicated by the correct information. Learn patterns. For example, the learning unit 135 uses pairs of correct information and error information as learning data to learn patterns of keywords that are likely to be mistaken for the second keyword indicated by the correct information among the first keywords indicated by the error information. do.
  • the information control unit 136 performs predetermined control on the content of the first utterance based on the result of association by the association unit 134 .
  • the information control unit 136 when voice of the utterance content indicated by the error information is input, determines whether the input utterance content is , the error information is registered in the user dictionary (user dictionary database 123) as correct information so that it can be recognized as the utterance content indicated by the correct information associated with the error information.
  • the information control unit 136 For example, based on the result of learning by the learning unit 135, the information control unit 136, among the utterance contents indicated by the error information, when the speech content indicated by the correct information is likely to be mistaken for the speech content indicated by the correct information is input, The error information is registered in the user dictionary as correct information so that the input speech content is recognized as the speech content indicated by the correct information associated with the error information.
  • the information control unit 136 registers keywords in the user dictionary based on the learning result of the learning unit 135 . For example, based on the learning result, the information control unit 136, when an utterance voice including a keyword that is likely to be mistaken for a second keyword among the first keywords is input, the input first keyword. This first keyword is registered in the user dictionary so that the keyword can be recognized as a second keyword.
  • FIG. 7 is a flow chart showing the procedure of information processing according to the first embodiment.
  • the terminal device 10 transmits speech information indicating the received speech sound to the information processing apparatus 100 every time it receives an input of the speech sound. It is also assumed that the information processing apparatus 100 accumulates voice information transmitted from the terminal device 10 in the utterance information database 121 as needed. Further, in FIG. 7, the information processing procedure will be described using the user U1 of the vehicle VE1 as an example.
  • the acquisition unit 131 determines whether or not it is time to perform intention analysis (step S701). For example, the acquisition unit 131 may determine whether or not the timing for intention analysis has come based on whether or not a sufficient number of pieces of speech information for intention analysis have been accumulated in the utterance information database 121 .
  • step S701 While the acquisition unit 131 determines that the timing for intention analysis has not come (step S701; No), it waits until it can be determined that the timing for intention analysis has come.
  • the acquisition unit 131 determines the first utterance voice indicating the first utterance voice. and the second voice information indicating the second uttered voice (step S702). For example, the acquisition unit 131 acquires the first utterance voice that is the utterance voice previously input by the user U1, and Recognizing the second uttered voice, which is the input uttered voice. Then, the acquisition unit 131 selects, among the speech information stored in the speech information database 121 and corresponding to the user U1, the first speech information indicating the first speech speech and the first speech speech. Second audio information indicative of the second utterance is obtained.
  • the corrected speech determination unit 132 determines whether or not intention analysis has not been completed for all pairs of the first speech information and the second speech information (step S703).
  • the set of the first audio information and the second audio information referred to here is a set corresponding to the first uttered voice and the second uttered voice having a relationship of continuous utterance timing. It's okay.
  • the correction speech determination unit 132 determines that the intention analysis has been completed for all pairs of the first speech information and the second speech information (step S703; No), at this point, the first Terminate the information processing according to the embodiment.
  • step S703 when the corrected speech determination unit 132 determines that the intention analysis has not been completed for all pairs of the first speech information and the second speech information (step S703; Yes), An unprocessed set for which intention analysis has not been completed is acquired from among the set of the first voice information and the second voice information (step S704).
  • the corrected speech determination unit 132 performs the second speech information to correct the first speech content indicated by the first speech information.
  • the intention of the user U1 is estimated (step S705). Specifically, based on the first utterance content indicated by the first utterance sound and the second utterance content indicated by the second utterance sound, the corrected speech determination unit 132 performs the second utterance content based on the second utterance content. In order to correct the first utterance content, the intention of the user U1 is estimated as to whether or not the user U1 has input a second utterance voice indicating the second utterance content.
  • the corrected speech determination unit 132 performs morphological analysis on the text indicating the first speech content (first speech information) to extract each word forming the text as the first keyword. Further, the corrected speech determination unit 132 performs morphological analysis on the text indicating the second speech content (second speech information) to extract each word forming the text as a second keyword. Then, based on the similarity between the extracted first keyword and the second keyword, the corrected speech determination unit 132 instructs the user U1 to correct the first speech content with the second speech content. The intention of the user U1 is estimated as to whether or not the second utterance voice representing the content of the second utterance has been input.
  • the corrected speech determination unit 132 determines that the second uttered speech is the corrected speech input to correct the content of the first utterance, based on the estimation result of estimating the intention of the user U1 through the intention analysis. It is determined whether or not (step S706).
  • step S706 determines that the second uttered speech is not the corrected speech input to correct the content of the first utterance (step S706; No)
  • the first speech information and the first 2 the process returns to step S703 in order to process other unprocessed sets for which intention analysis has not been completed.
  • the linking unit 134 determines that the second uttered voice is the corrected voice input to correct the content of the first utterance (step S706; Yes)
  • the first keyword and the first 2 keyword is linked (step S707).
  • the linking unit 134 combines the second keyword included in the second utterance content (second utterance information) and the first keyword included in the first utterance content (first utterance information).
  • a combination of the second keyword determined to be similar to each other and the first keyword is extracted.
  • the linking unit 134 treats the second keyword in the extracted combination as correct information, and the first keyword in this combination as error information for the correct information, and combines the second keyword and the first keyword.
  • the linking unit 134 associates a combination of the user ID and the linking ID indicating the user U1 with the linking result of linking the second keyword and the first keyword. It may be registered in the information database 122 . As a result, the linking information database 122 as shown in FIG. 5 is obtained.
  • the learning unit 135 uses a set of correct information and error information obtained as a result of the linking process as learning data, for the second keyword indicated by the correct information among the first keywords indicated by the error information. Keyword patterns that are likely to be mistaken are learned (step S708).
  • the information control unit 136 registers the keyword in the dictionary based on the learning result (step S709). For example, based on the learning result, the information control unit 136, when an utterance voice including a keyword that is likely to be mistaken for a second keyword among the first keywords is input, determines whether the input first keyword is recognized as the second keyword, the first keyword is set as the "speech keyword” and the second keyword is set as the "recognition keyword", and both keywords are registered in the user dictionary in a state of being associated with each other. As a result, the user dictionary database 123 as shown in FIG. 6 is obtained.
  • the information control unit 136 returns the process to step S703. Then, if it is determined that the intention analysis has been completed for all pairs of the first voice information and the second voice information, the information processing according to the first embodiment ends at this point. .
  • FIG. 8 is an explanatory diagram for explaining information processing according to the second embodiment.
  • the input means other than the spoken voice is a manual input operation of inputting information by touching a predetermined object (for example, the display panel (display screen) of the terminal device 10).
  • the user U1 inputs speech by speaking toward the terminal device 10 mounted on the vehicle VE1 (an example of the vehicle VEx), and inputs information by touching the terminal device 10. A scene is shown.
  • the terminal device 10 transmits audio information indicating the received speech sound to the information processing device 200 every time it receives an input of the speech sound.
  • the information processing device 200 acquires voice information from the terminal device 10 (step S21).
  • FIG. 8 shows a scene in which the user U1 is inputting an uttered voice instructing to guide the route to "destination XX in Ibaraki City, Osaka Prefecture".
  • the user U1 says, "Route guidance to XX in 'Ibaragi' city, please! ” shows an example of inputting an utterance voice VO11 with content C11.
  • the terminal device 10 transmits voice information indicating the utterance content C11 to the information processing device 200 in response to the input of the utterance voice VO11.
  • the information processing apparatus 200 acquires voice information indicating the utterance content C11.
  • the terminal device 10 may also transmit operation information indicating the details of the input operation to the information processing apparatus 200 each time it receives an input by manual input operation.
  • the information processing device 200 acquires the operation information by the manual input operation from the terminal device 10 (step S22).
  • user U1 realizes that he mispronounced “Ibaraki” when he should have said "Ibaraki”.
  • user U1 asks for route guidance to ⁇ in “Ibaraki” city! ” was input again.
  • the terminal device 10 transmits operation information indicating operation content C12 to the information processing apparatus 200 in response to the manual input operation IO12.
  • the information processing apparatus 200 acquires operation information indicating the operation content C12.
  • the operation information indicating the operation content C12 may include a keyword indicating the destination "Ibaraki".
  • the manual input operation IO12 can be said to be a destination setting operation.
  • information processing apparatus 200 generates first voice information indicating a first utterance voice, a second Second operation information indicating a second input operation, which is a manual input operation (destination setting operation) performed after the first utterance (step S23). For example, the information processing apparatus 200, based on the sequential relationship between the utterance timing and the timing of the manual input operation, the first utterance voice that is the utterance voice that was input earlier, and the first utterance voice that has been input. A second input operation, which is a later manual input operation, may be recognized. In addition, the information processing apparatus 200 may thereby acquire the first voice information indicating the first uttered voice from among the voice information collected so far via the terminal device 10 . Further, the information processing apparatus 200 may acquire second operation information indicating a second input operation from the operation information collected so far via the terminal device 10 .
  • the information processing apparatus 200 acquires the speech information indicating the speech content C11 as the first speech information by recognizing the speech voice VO11 as the first speech speech.
  • the information processing apparatus 200 recognizes the manual input operation IO12 as the second input operation, and acquires the operation information indicating the operation content C12 as the second operation information.
  • the utterance voice VO11 may be referred to as "first utterance voice VO11”
  • the manual input operation IO12 may be referred to as "second input operation IO12”.
  • the information processing apparatus 200 generates first keywords, which are keywords forming first voice information (first utterance content), and each keyword forming second operation information (second operation content). Based on the similarity with the second keyword, which is the keyword, intention analysis is performed to estimate the intention of correcting the misspelled word (step S24). Specifically, based on the similarity between the first keyword and the second keyword, the information processing apparatus 200 determines whether the user U1 intends to correct the first utterance content by the second operation content. Intention is estimated as to whether or not there is. A specific method of intention analysis performed in step S24 will be described later.
  • the information processing apparatus 200 may extract each word forming the text as the first keyword by morphological analysis of the text indicating the first voice information. Similarly, the information processing apparatus 200 may perform morphological analysis on the text indicating the second operation information to extract each word forming the text as the second keyword.
  • the information processing apparatus 200 determines whether the second input operation IO12 is manually input to correct the first utterance content corresponding to the first utterance voice VO11 based on the estimation result of the intention analysis. It is determined whether or not it is an operation (step S25). For example, when the information processing apparatus 200 recognizes that there is a similarity between "Ibaraki", which is one of the first keywords, and "Ibaraki", which is one of the second keywords, It can be inferred that user U1 intends to correct the first utterance content (first keyword KW11) by the second operation content (second keyword KW12). As a result, the information processing apparatus 200 can determine that the second input operation IO12 is a correction operation manually input to correct the content of the first utterance.
  • the information processing apparatus 200 outputs the second keyword "Ibaraki". as correct information, and the first keyword “Ibaraki” as error information for the correct information, the second keyword "Ibaraki” and the first keyword “Ibaragi” are linked (step S26).
  • the second keyword "Ibaraki” is the correct information
  • the first keyword “Ibaraki” is the correct information
  • user U1 has previously changed “Ibaraki” to "Ibaraki”. and an example of the result of tying by mispronouncing "Ibaraki” as "Ibaraku”.
  • such a linking result may be managed in the linking information database 122 (FIG. 5) using the linking ID.
  • the information processing apparatus 200 learns, of the first keywords indicated by the error information, keywords that are likely to be mistaken for the second keyword indicated by the correct information, using pairs of correct information and error information as learning data. (Step S27). In the example of FIG. 8, the information processing apparatus 200 learns the first keyword “Ibaraki” and the first keyword “Ibaraki” which is likely to be mistaken for the second keyword "Ibaraki”.
  • the information processing device 200 registers the keyword in the dictionary based on the learning result (step S28). For example, based on the learning result, the information processing apparatus 200, when an utterance voice including a keyword that is likely to be mistaken for a second keyword among the first keywords is input, the input first keyword. This first keyword is registered in the user dictionary (FIG. 6) so that the keyword can be recognized as a second keyword.
  • FIG. 8 shows that the information processing apparatus 200 recognizes the first keyword "Ibaraki” as the second keyword “Ibaraki” when an utterance including the first keyword "Ibaraki” is input. An example of registering the first keyword "Ibaragi" in the user dictionary is shown.
  • the information processing apparatus 200 when the second input operation is performed after the first uttered voice is input, the information processing apparatus 200 A second input operation is manually input to correct the first utterance content based on the first utterance content indicated by the first utterance voice and the second operation content indicated by the second input operation. It is determined whether or not it is a corrective operation. Then, when the information processing apparatus 200 determines that the second input operation is a correction operation manually input to correct the first utterance content, the information processing apparatus 200 receives the first utterance content and the second operation. By associating the first utterance content with the content, the content of the first utterance is registered in the user dictionary based on the result of the association.
  • the information processing apparatus 200 can perform control so that even if the user makes a mistake, the correct operation can be performed in response to the mispronunciation.
  • the information processing apparatus 200 selects "cancel guidance”, which is one of the first keywords, It can be presumed that the operation includes an intention to correct to "guidance interruption", which is one of the second keywords corresponding to the guidance interruption button. As described above, the information processing apparatus 200 can also estimate that the operation includes the intention to correct from the operation button or the like corresponding to the keyword and the function, without depending on the direct input of the keyword.
  • FIG. 9 is a diagram showing a configuration example of an information processing apparatus 200 according to the second embodiment.
  • the information processing device 200 has a communication section 110 , a storage section 220 and a control section 230 .
  • the storage unit 220 is realized by, for example, a semiconductor memory device such as a RAM or flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 220 may further have an operation information database 224 .
  • the operation information database 224 stores information on manual input operations performed by the user.
  • FIG. 10 shows an example of the operation information database 224 according to the second embodiment.
  • the operation information database 224 has items such as "user ID”, "operation date and time”, and "operation information”.
  • User ID indicates identification information that identifies a user who manually entered information (for example, information indicating a destination) into the terminal device 10.
  • the information processing apparatus 100 recognizes a user who has performed a manual input operation based on an image captured by a sensor (for example, a camera) of the terminal device 10, so that the recognized user is given a "user ID ” may be paid out.
  • FIG. 10 shows an example in which user ID "U1" and "operation date and time #11" are associated.
  • This example shows an example in which the user U1 inputs a destination and the like to the terminal device 10 by performing a manual input operation at operation date and time #11.
  • the information processing apparatus 100 regards the "utterance date and time” of the utterance information database 121 as the utterance timing, and regards the "operation date and time” as the operation timing in FIG. It is possible to recognize the spoken voice and the second input operation, which is a manual input operation performed after the first spoken voice is input.
  • “Operation information” is information indicating what kind of information (for example, what kind of destination) was input by the manual input operation performed by the user indicated by the "user ID”. is. That is, the “operation information” may include a keyword indicating the destination input by the destination setting operation by touching the display panel of the terminal device 10 .
  • FIG. 10 shows an example in which user ID "U1", “operation date and time #11", and “operation information #11" are associated with each other. This example shows an example in which the content of operation information #11 is input by a manual input operation performed by user U1 at operation date and time #11.
  • control unit 230 executes various programs (for example, the information processing program according to the embodiment) stored in the storage device inside the information processing apparatus 200 by the CPU, MPU, etc., using the RAM as a work area. It is realized by Also, the control unit 230 is implemented by an integrated circuit such as an ASIC or FPGA, for example.
  • the control unit 230 further includes a correction operation determination unit 237 in addition to the acquisition unit 131, the correction speech determination unit 132, the detection unit 133, the linking unit 134, the learning unit 135, and the information control unit 136. You can Then, the correction operation determination unit 237 implements or executes the information processing functions and actions described below.
  • the internal configuration of the control unit 230 is not limited to the configuration shown in FIG. 9, and may be another configuration as long as it performs information processing to be described later.
  • the connection relationship between the processing units of the control unit 230 is not limited to the connection relationship shown in FIG. 9, and may be another connection relationship.
  • the acquisition unit 131 acquires various types of information used in information processing according to the second embodiment. Also, the acquisition unit 131 may output the acquired information to an appropriate processing unit that performs processing using this information.
  • the acquisition unit 131 may acquire first voice information indicating the first uttered voice and second operation information indicating the second input operation. For example, based on the sequential relationship between the utterance timing and the timing of the manual input operation, the acquisition unit 131 acquires the first utterance voice that is the utterance voice that was input earlier, and after the first utterance voice is input, A second input operation, which is a performed manual input operation, may be recognized. Further, the acquiring unit 131 may thereby acquire the first voice information indicating the first uttered voice from among the voice information collected so far via the terminal device 10 . Further, the acquisition unit 131 may acquire second operation information indicating the second input operation from among the operation information collected so far via the terminal device 10 .
  • the second input operation is a correction operation for correcting the first utterance content based on the content (first utterance content) and the operation content (second operation content) indicated by the second input operation. Determine whether or not there is
  • the correction operation determination unit 237 determines whether or not the first utterance content is an erroneous content due to mispronunciation, and the user manually inputs the second operation content with the intention of correcting this erroneous content. infer the intent of That is, based on the first utterance content indicated by the first utterance voice and the second operation content indicated by the second input operation, the correction operation determination unit 237 determines whether the user performs the second operation content based on the second input operation content. It is estimated whether or not there is an intention to correct the utterance content of 1. Then, the correction operation determination unit 237 determines whether or not the second input operation is a correction operation for correcting the content of the first utterance, according to the estimation result.
  • the second input operation is the first input operation. It can be determined that the speech is correction speech for correcting the utterance content.
  • the correction operation determination unit 237 may extract each word constituting the text as the first keyword by morphological analysis of the text indicating the first voice content (first voice information). In addition, the correction operation determination unit 237 may extract a word related to the destination included in the second operation content (second operation information) as the second keyword.
  • correction operation determination section 237 determines that the second input operation is the first input operation based on the first keyword corresponding to the first utterance content and the second keyword corresponding to the second operation content. It is determined whether or not it is a correction operation for correcting the content of the speech.
  • the second input operation may be a destination setting operation performed subsequent to the first speech.
  • the correction operation determination unit 237 uses the second keyword indicating the destination input by the second input operation as the destination setting operation to determine whether the second input operation is the first utterance. It is determined whether or not the correction operation is for correcting the content.
  • the correction operation determination unit 237 determines whether the second input operation is a correction operation for correcting the content of the first utterance based on the similarity between the first keyword and the second keyword. can be determined.
  • the corrected speech determination unit 132 detects similarity for each combination of one first keyword and one second keyword, and based on the detected similarity, determines the second It may be determined whether or not the second input operation is a correction speech input to correct the content of the first utterance.
  • the correction operation determination unit 237 may use the same method as the information processing according to the first embodiment in detecting the similarity between the first keyword and the second keyword. Specifically, the correction operation determination unit 237 detects the similarity of reading, the similarity of meaning, the similarity of reading of kanji characters, and the like to calculate the degree of similarity. You can infer the intention of the person.
  • the correction operation determination unit 237 determines the second keyword based on the similarity to the second keyword input by the second input operation until a predetermined time has elapsed since the first utterance was input. is a correction operation for correcting the content of the first utterance.
  • the correcting operation determination unit 237 determines that the period from when the first uttered voice is input until the vehicle VEx starts moving (after the first uttered voice is input and when the vehicle VEx is stopped) ), if it is possible to detect that the second input operation has been performed, the second input operation is detected as the second input operation based on the similarity to the second keyword input by the second input operation. It may be determined whether or not it is a correction operation for correcting the contents of one utterance.
  • the linking unit 134 connects the first utterance content and the second input operation indicated by the second input operation. Link with input contents.
  • the linking unit 134 uses the second keyword indicated by the second operation content and the first A combination of the first keyword and the second keyword determined to be similar to each other is extracted from the combinations with the first keyword included in the utterance content of . Then, the linking unit 134 treats the second keyword in the extracted combination as correct information, and the first keyword in this combination as error information for the correct information, and combines the second keyword and the first keyword.
  • the associating unit 134 sets the second keyword as correct information, the first keyword as error information for the correct information, and associates the second keyword and the first keyword with this associating result.
  • the second keyword may be registered in the linking information database 122 in a state in which the assigned linking ID is associated with the second keyword.
  • the learning unit 135 uses pairs of the correct information and the error information linked by the linking unit 134 as learning data, and among the utterance contents indicated by the error information, the learning unit 135 selects the contents of utterances that are likely to be mistaken for the operation contents indicated by the correct information. Learn patterns. For example, the learning unit 135 uses pairs of correct information and error information as learning data to learn patterns of keywords that are likely to be mistaken for the second keyword indicated by the correct information among the first keywords indicated by the error information. do.
  • the information control unit 136 performs predetermined control on the content of the first utterance based on the result of association by the association unit 134 .
  • the information control unit 136 when voice of the utterance content indicated by the error information is input, determines whether the input utterance content is , the error information is registered in the user dictionary (user dictionary database 123) as correct information so that it can be recognized as operation content indicated by the correct information associated with the error information.
  • the information control unit 136 For example, based on the learning result of the learning unit 135, the information control unit 136, among the utterance contents indicated by the error information, when the voice of the utterance content that is likely to be mistaken for the operation content indicated by the correct information is input, The error information is registered in the user dictionary as correct information so that the input utterance content is recognized as the operation content indicated by the correct information associated with the error information.
  • the information control unit 136 registers keywords in the user dictionary based on the learning result of the learning unit 135 . For example, based on the learning result, the information control unit 136, when an utterance voice including a keyword that is likely to be mistaken for a second keyword among the first keywords is input, the input first keyword. This first keyword is registered in the user dictionary so that the keyword can be recognized as a second keyword.
  • FIG. 11 is a flow chart showing the procedure of information processing according to the second embodiment.
  • the terminal device 10 transmits speech information indicating the received speech sound to the information processing device 100 every time it receives an input of the speech sound. It is also assumed that the information processing apparatus 100 accumulates voice information transmitted from the terminal device 10 in the utterance information database 121 as needed.
  • the terminal device 10 transmits operation information indicating the content of the input operation to the information processing device 100 every time it receives an input by manual input operation. It is also assumed that the information processing device 100 accumulates operation information transmitted from the terminal device 10 in the operation information database 224 at any time.
  • the acquisition unit 131 determines whether or not it is time to perform intention analysis (step S801). For example, the acquiring unit 131 stores a sufficient number of voice information in the utterance information database 121 for intention analysis, and stores a sufficient number of operation information in the operation information database 224 for intention analysis. It may be determined whether or not it is time to perform the intention analysis based on whether or not the intention analysis is performed.
  • step S801 While the acquisition unit 131 determines that the timing for intention analysis has not come (step S801; No), it waits until it can be determined that the timing for intention analysis has come.
  • the acquisition unit 131 determines the first utterance voice indicating the first utterance voice based on the sequential relationship between the utterance timing and the operation timing. 1 voice information and second operation information indicating a second input operation are acquired (step S802). For example, the acquisition unit 131, based on the sequential relationship between the utterance timing and the operation timing, obtains the first utterance voice which is the utterance voice previously input by the user U1, and the first utterance voice when the first utterance voice is input. A second input operation, which is a manual input operation performed by the user U1 later, may be recognized.
  • the acquiring unit 131 acquires the first voice information indicating the first uttered voice from among the voice information corresponding to the user U1, which is stored in the utterance information database 121. Further, the acquisition unit 131 acquires second operation information indicating a second input operation from among the operation information stored in the operation information database 224 and corresponding to the user U1.
  • the correction operation determination unit 237 determines whether or not intention analysis has not been completed for all sets of the first voice information and the second input information (step S803).
  • the set of the first voice information and the second voice information referred to here means that the first utterance voice and the second input operation have a relationship in which the utterance timing and the operation timing are continuous. It may be a corresponding set.
  • correction operation determination unit 237 determines that the intention analysis has been completed for all pairs of the first voice information and the second input information (step S803; No), the second input information is performed at this point. Terminate the information processing according to the embodiment.
  • step S803 determines that the intention analysis has not been completed for all pairs of the first voice information and the second input information.
  • the correction operation determination unit 237 performs the second voice information to correct the first speech content indicated by the first voice information. is performed, the intention of the user U1 is estimated (step S805). Specifically, correction operation determination section 237 performs the second operation according to the second operation content based on the first utterance content indicated by the first utterance voice and the second operation content indicated by the second input operation. The intention of the user U1 is estimated whether or not the user U1 has performed a second input operation indicating a second utterance content in order to correct the first utterance content.
  • the correction operation determination unit 237 extracts each word constituting the text as the first keyword by morphological analysis of the text indicating the first voice content (first voice information).
  • the correction operation determination unit 237 may extract a word related to the destination included in the second operation content (second operation information) as the second keyword. Then, based on the similarity between the extracted first keyword and the second keyword, the correction operation determination unit 237 instructs the user U1 to correct the first utterance content by the second operation content.
  • the intention of the user U1 is estimated as to whether or not the second input operation has been performed.
  • the correction operation determination unit 237 determines whether or not the second input operation is a correction operation for correcting the content of the first utterance, based on the estimation result of estimating the intention of the user U1 through the intention analysis. is determined (step S806).
  • step S806 determines that the second input operation is not the correction operation for correcting the content of the first utterance (step S806; No)
  • the first voice information and the second operation Of the sets with information the process returns to step S803 to process other unprocessed sets for which the intention analysis has not been completed.
  • the linking unit 134 determines that the second input operation is a correction operation for correcting the content of the first utterance (step S806; Yes)
  • the first keyword and the second keyword is performed (step S807).
  • the linking unit 134 combines the second keyword included in the second operation content (second operation information) and the first keyword included in the first utterance content (first utterance information).
  • a combination of the second keyword determined to be similar to each other and the first keyword is extracted.
  • the linking unit 134 treats the second keyword in the extracted combination as correct information, and the first keyword in this combination as error information for the correct information, and combines the second keyword and the first keyword.
  • the linking unit 134 associates a combination of the user ID and the linking ID indicating the user U1 with the linking result of linking the second keyword and the first keyword. It may be registered in the information database 122 . As a result, the linking information database 122 as shown in FIG. 5 is obtained.
  • the learning unit 135 uses a set of correct information and error information obtained as a result of the linking process as learning data, for the second keyword indicated by the correct information among the first keywords indicated by the error information. Keyword patterns that are likely to be mistaken are learned (step S808).
  • the information control unit 136 registers the keyword in the dictionary based on the learning result (step S809). For example, based on the learning result, the information control unit 136, when an utterance voice including a keyword that is likely to be mistaken for a second keyword among the first keywords is input, determines whether the input first keyword is recognized as the second keyword, the first keyword is set as the "speech keyword” and the second keyword is set as the "recognition keyword", and both keywords are registered in the user dictionary in a state of being associated with each other. As a result, the user dictionary database 123 as shown in FIG. 6 is obtained.
  • the information control unit 136 returns the process to step S803. If it is determined that the intention analysis has been completed for all sets of the first voice information and the second operation information, the information processing according to the second embodiment ends at this point. .
  • the information processing apparatus 100 may be implemented in various different aspects other than the above embodiment. Therefore, other embodiments of the information processing apparatus 100 (information processing apparatus 200) will be described below.
  • the acquisition unit 131 based on the sequential relationship of the utterance timing, the first utterance voice that is the utterance voice that was input first, and the first utterance voice that is input after the first utterance voice is input.
  • An example has been shown in which the first voice information and the second voice information are acquired by recognizing the second voice, which is the second voice.
  • the acquiring unit 131 detects a word suggesting mispronunciation, the acquiring unit 131 recognizes the first uttered voice and the second uttered voice based on the timing at which the word is uttered. First audio information and second audio information may be obtained.
  • the obtaining unit 131 detects a word that suggests a mispronunciation such as “I made a mistake!” or “Oops!” 1, and the utterance input immediately after the word may be recognized as the second utterance.
  • the corrected speech determination unit 132 determines that the utterance voice (that is, the second utterance voice) input immediately after the relevant word is the content of the first utterance. It may be determined that the corrected voice is input for correction.
  • the acquisition unit 131 may detect words suggesting misspellings in the second embodiment as well. Then, in the second embodiment, when the acquiring unit 131 detects a word suggesting mispronunciation, the acquiring unit 131 acquires the first utterance voice and the second input operation based on the timing at which the word is uttered.
  • the first voice information and the second operation information may be obtained by recognizing the above.
  • the acquisition unit 131 can detect a word suggesting a mispronunciation such as “I made a mistake!” or “Oops!” , and a manual input operation performed immediately after such a word may be recognized as a second input operation.
  • the correction operation determination unit 237 determines that the manual input operation (that is, the second input operation) performed immediately after the word is the first utterance content. may be determined to be a correction operation for correcting the
  • the information control unit 136 determines the second keyword included in the second operation content and the first keyword included in the second uttered voice based on the learning result of the learning unit 135.
  • An example is shown in which the second keyword is associated with the easily mistaken first keyword and registered in the user dictionary.
  • the information control unit 136 associates the second keyword with the first keyword and registers them in the user dictionary. You may For example, based on the location information of the user (user's vehicle VEx) and the destination (second keyword) set by the user, the information control unit 136 determines whether the user has arrived at the destination. If it is determined that the user has arrived at the destination, the second keyword and the first keyword may be associated and registered in the user dictionary.
  • the information processing apparatus 200 can improve the registration accuracy in the user dictionary.
  • FIG. 12 is a hardware configuration diagram showing an example of a computer that implements the functions of the information processing apparatus 100.
  • Computer 1000 has CPU 1100 , RAM 1200 , ROM 1300 , HDD 1400 , communication interface (I/F) 1500 , input/output interface (I/F) 1600 and media interface (I/F) 1700 .
  • the CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400 and controls each section.
  • the ROM 1300 stores a boot program executed by the CPU 1100 when the computer 1000 is started up, a program depending on the hardware of the computer 1000, and the like.
  • the HDD 1400 stores programs executed by the CPU 1100 and data used by these programs.
  • Communication interface 1500 receives data from another device via a predetermined communication network, sends the data to CPU 1100, and transmits data generated by CPU 1100 to another device via a predetermined communication network.
  • the CPU 1100 controls output devices such as displays and printers, and input devices such as keyboards and mice, via an input/output interface 1600 .
  • CPU 1100 acquires data from an input device via input/output interface 1600 .
  • CPU 1100 also outputs the generated data to an output device via input/output interface 1600 .
  • the media interface 1700 reads programs or data stored in the recording medium 1800 and provides them to the CPU 1100 via the RAM 1200 .
  • CPU 1100 loads such a program from recording medium 1800 onto RAM 1200 via media interface 1700, and executes the loaded program.
  • the recording medium 1800 is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or a PD (Phase change rewritable disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. etc.
  • the CPU 1100 of the computer 1000 executes a program (for example, an information processing program according to the embodiment) loaded onto the RAM 1200 to It implements the functions of the control unit 130 .
  • CPU 1100 of computer 1000 reads these programs from recording medium 1800 and executes them, but as another example, these programs may be obtained from another device via a predetermined communication network.
  • the CPU 1100 of the computer 1000 executes a program (for example, the information processing program according to the embodiment) loaded onto the RAM 1200.
  • a program for example, the information processing program according to the embodiment
  • the function of the control unit 230 is realized.
  • CPU 1100 of computer 1000 reads these programs from recording medium 1800 and executes them, but as another example, these programs may be obtained from another device via a predetermined communication network.
  • each component of each device illustrated is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • section, module, unit can be read as “means” or “circuit”.
  • acquisition unit can be read as acquisition means or an acquisition circuit.
  • terminal device 100 information processing device 120 storage unit 121 utterance information database 122 linking information database 123 user dictionary database 130 control unit 131 acquisition unit 132 corrected speech determination unit 133 detection unit 134 linking unit 135 learning unit 136 information control unit 200 information processing device 220 storage unit 224 operation information database 230 control unit 237 correction operation determination unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(200)は、第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作が行われた場合には、第1の発話音声が示す発話内容と、第2の入力操作が示す操作内容とに基づいて、第2の入力操作が発話内容を訂正するための訂正操作であるか否かを判定する訂正操作判定部(237)と、訂正操作判定部(237)により第2の入力操作が訂正操作であると判定された場合には、操作内容と、発話内容とを紐付ける紐付部(134)と、紐付部(134)による紐付結果に基づいて、発話内容に対する所定の制御を行う情報制御部(136)とを有する。

Description

情報処理装置、情報処理方法および情報処理プログラム
 本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
 従来、車両のナビゲーション装置に対して実行される音声認識システムが知られている。例えば、特許文献1には、音声認識システムに搭載される音声認識エンジンが発話音声を誤認識した場合に、誤認識による認識結果を訂正できるようにする手法が開示されている。
特開2004-333703号公報
 しかしながら、上記の従来技術では、利用者の音声による操作入力に対して正しい動作を実行できるよう制御することができるとは限らない。
 例えば、上記の従来技術では、音声認識エンジンによる発話音声の誤認識を検知した場合に、誤認識された単語に対して利用者が以前に訂正したことのある単語を認識単語リンクDBから読み出して正解候補として提示するとともに、誤認識された単語と利用者により訂正された正解単語とを対応付けて認識単語リンクDBに新たに登録している。
 このように、上記の従来技術は、利用者が発話した単語を音声認識エンジンが誤認識した場合であっても、誤認識された単語に対する正しい単語を音声認識エンジンが認識することができるよう辞書登録するものであり、係る処理は、利用者による言い間違えを正しく認識するものではない。
 したがって、上記の従来技術では、利用者が言い間違えた場合であっても言い間違えに対する正しい動作を実行できるよう制御することができるとは限らない。また、上記の従来技術では、利用者が発話した単語が、操作動作として登録されている単語とは異なる場合、音声認識エンジンは利用者の意図する操作を正しく認識することはできない。
 本発明は、上記に鑑みてなされたものであって、利用者の音声による操作入力に対して正しい動作を実行できるよう制御することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
 請求項1に記載の情報処理装置は、第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作が行われた場合には、前記第1の発話音声が示す発話内容と、前記第2の入力操作が示す操作内容とに基づいて、前記第2の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定部と、前記判定部により前記第2の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付部と、前記紐付部による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御部とを有することを特徴とする。
 請求項9に記載の情報処理方法は、情報処理装置が実行する情報処理方法であって、第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作が行われた場合には、前記第1の発話音声が示す発話内容と、前記第2の入力操作が示す操作内容とに基づいて、前記第2の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定工程と、前記判定工程により前記第2の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付工程と、前記紐付工程による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御工程とを含むことを特徴とする。
 請求項10に記載の情報処理プログラムは、第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作が行われた場合には、前記第1の発話音声が示す発話内容と、前記第2の入力操作が示す操作内容とに基づいて、前記第2の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定手順と、前記判定手順により前記第2の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付手順と、前記紐付手順による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御手順とを情報処理装置に実行させるための情報処理プログラムである。
図1は、実施形態に係る情報処理システムの一例を示す図である。 図2は、第1の実施形態に係る情報処理を説明する説明図である。 図3は、第1の実施形態に係る情報処理装置の構成例を示す図である。 図4は、第1の実施形態に係る実施形態に係る発話情報データベースの一例を示す図である。 図5は、実施形態に係る紐付情報データベースの一例を示す図である。 図6は、実施形態に係るユーザ辞書データベースの一例を示す図である。 図7は、第1の実施形態に係る情報処理の手順を示すフローチャートである。 図8は、第2の実施形態に係る情報処理を説明する説明図である。 図9は、第2の実施形態に係る情報処理装置の構成例を示す図である。 図10は、第2の実施形態に係る操作情報データベースの一例を示す図である。 図11は、第2の実施形態に係る情報処理の手順を示すフローチャートである。 図12は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と記載する)の一例について図面を参照しつつ詳細に説明する。なお、この実施形態により情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
[実施形態]
(各実施形態における共通事項)
〔1.はじめに〕
 例えば、車両のナビゲーション装置には、利用者により入力された音声を認識し、認識結果に応じた情報処理(例えば、ルート案内)を行うという音声認識システムが搭載されている場合がある。このような場合、利用者は、ナビゲーション装置に対して、特定の動作を行うよう指示する内容の発話音声や、目的地を示す発話音声等を入力するが、言い間違えにより、意図した内容とは異なる内容の発話音声を入力してしまうことがある。そうすると、音声認識システムは、言い間違えられた誤りの内容に応じた動作を実行することとなるため、利用者にとって都合が悪い。
 そこで、本発明は、上記事情に着目してなされたものであって、その目的とするところは、利用者が言い間違えた場合であっても言い間違えに対する正しい動作を実行できるよう制御することにある。このような目的のため、本発明では、利用者の動作から言い間違えを訂正しようとする意図を推定する。そして、本発明では、言い間違えを訂正しようとする意図の元に行われた動作の内容に基づいて、言い間違えられた内容と、この内容に対する本来の正しい内容とを紐付けておくことで、今後、紐付結果に応じた処理を実行する。
 ここで、本発明に対応する情報処理は、言い間違えた誤りの内容を発話音声で訂正しようとする利用者の訂正音声を検出することで、検出した訂正音声の内容に基づく紐付けを行う情報処理と、言い間違えた誤りの内容を発話音声以外の入力手段(例えば、手入力)で訂正しようとする利用者の訂正操作を検出することで、検出した訂正操作の内容に基づく紐付けを行う情報処理とに分けることができる。よって、以下の実施形態では、前者の情報処理を第1の実施形態とし、後者の情報処理を第2の実施形態として説明する。
〔2.システムの全体像について〕
 第1の実施形態、第2の実施形態それぞれについて具体的に説明するにあたって、まず、双方の実施形態の共通事項として、実施形態に係る情報処理システムの構成を説明する。図1は、実施形態に係る情報処理システムの一例を示す図である。図1には、実施形態に係る情報処理システムの一例として、情報処理システム1が示される。後述する第1の実施形態、および、第2の実施形態は、図1に示す情報処理システム1内で実現されてよい。
 図1に示すように、情報処理システム1は、端末装置10と、情報処理装置100とを備えてよい。また、端末装置10と、情報処理装置100とは、ネットワークNを介して、有線または無線により通信可能に接続される。また、図1に示す情報処理システム1には、任意の数の端末装置10と、任意の数の情報処理装置100とが含まれてもよい。
 端末装置10は、移動体の一例である車両に搭載される車載装置であってよい。図1には、端末装置10が車両VExの車載装置である例が示される。係る例では、端末装置10は、例えば、車両VExに内蔵される専用のナビゲーション装置、あるいは、車両VExに取り付けられる専用のナビゲーション装置であってよい。
 また、端末装置10は、後述する情報処理装置100として機能するよう構成されてもよい。例えば、図1には、端末装置10と、情報処理装置100とが別々の装置として示されているが、端末装置10と情報処理装置100とは一体化されて1つの情報処理装置として構成されてもよい。係る場合、例えば、端末装置10に対して、情報処理装置100が有する機能の一部または全てが導入されてよい。
 なお、端末装置10は、所定のナビゲーションシステムに対応するアプリケーションが導入されている携帯型端末装置(例えば、スマートフォン、タブレット型端末、ノート型PC、デスクトップPC、PDA等)であってもよい。係る例では、端末装置10は、例えば、車両VExの運転者によって日常的に利用されるものであってよい。
 また、端末装置10は、利用者による発話音声を集音する集音部(例えば、マイク)を有してよい。そして、集音部を介して収集された発話音声を示す発話情報は、端末装置10によって情報処理装置100に送信されてよい。
 また、端末装置10は、カメラ、加速度センサ、ジャイロセンサ、GPSセンサ、気圧センサ等の各種センサも有していてよい。そして、センサによって検出されたセンサ情報は、端末装置10によって情報処理装置100に送信されてよい。また、車両VExも、例えば、安全走行システム用のセンサを有していてよく、このセンサによるセンサ情報も情報処理装置100に送信されてよい。
 情報処理装置SVは、実施形態に係る情報処理を行う装置である。例えば、情報処理装置SVは、実施形態に係る情報処理プログラムで実現される情報処理方法に従って、実施形態に係る情報処理を行ってよい。
 また、例えば、情報処理装置SVは、第1の実施形態に係る情報処理として、第1の発話音声が入力された後に、第2の発話音声が入力された場合には、第1の発話音声が示す第1の発話内容と、第2の発話音声が示す第2の発話内容とに基づいて、第2の発話音声が第1の発話内容を訂正するために入力された音声であるか否かを判定する。
 具体的には、情報処理装置SVは、第1の発話内容が言い間違えによる誤りの内容であり、この誤りの内容を訂正する意図で利用者が第2の発話音声を入力したか否か利用者の意図を推定する。つまり、情報処理装置SVは、第1の発話音声が示す第1の発話内容と、第2の発話音声が示す第2の発話内容とに基づいて、利用者が第2の発話内容によって第1の発話内容を訂正する意図があるか否かを推定する。そして、情報処理装置SVは、推定結果に応じて、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定する。
 また、情報処理装置SVは、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であると判定した場合には、第1の発話内容と、第2の発話内容とを紐付けることで、紐付結果に基づいて、第1の発話内容に対する所定の制御を行う。
 一方、情報処理装置SVは、第2の実施形態に係る情報処理として、第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作(例えば、手入力操作)が行われた場合には、第1の発話音声が示す発話内容と、第2の入力操作が示す操作内容とに基づいて、第2の入力操作が発話内容を訂正するための訂正操作であるか否かを判定する。
 具体的には、情報処理装置SVは、発話内容が言い間違えによる誤りの内容であり、この誤りの内容を訂正する意図で利用者が第2の入力操作を行ったか否か利用者の意図を推定する。つまり、情報処理装置SVは、第1の発話音声が示す発話内容と、第2の入力操作が示す操作内容とに基づいて、利用者が操作内容によって発話内容を訂正する意図があるか否かを推定する。そして、情報処理装置SVは、推定結果に応じて、第2の入力操作が発話内容を訂正するための訂正操作であるか否かを判定する。
 また、情報処理装置SVは、第2の入力操作が訂正操作であると判定した場合には、操作内容と、発話内容とを紐付けることで、紐付結果に基づいて、発話内容に対する所定の制御を行う。
 ここで、端末装置10を利用者の近くでエッジ処理を行うエッジコンピュータとするなら、情報処理装置SVは、例えば、クラウド側で処理を行うクラウドコンピュータであってよい。すなわち、情報処理装置SVは、サーバ装置であってよい。
 以下では、第1の実施形態、第2の実施形態それぞれについて具体的に説明する。なお、第1の実施形態に係る情報処理を行う情報処置装置SVを「情報処理装置100」とする。また、第2の実施形態に係る情報処理を行う情報処置装置SVを「情報処理装置200」とする。
 また、各実施形態では、移動体を車両VExとして説明するが、移動体は車両VExに限定されるものではない。また、各実施形態で示す利用者とは、車両VExに搭乗して端末装置10に対して音声入力したことのある人物であれば、いかなる人物であってよい。例えば、利用者とは、車両VExを日常的に利用している人物、すなわち車両VExの所有者であってよい。
(第1の実施形態)
〔1.第1の実施形態の全体像〕
 ここからは、図2を用いて、第1の実施形態について説明する。図2は、第1の実施形態に係る情報処理を説明する説明図である。
 図2には、利用者U1が、車両VE1(車両VExの一例)に搭載される端末装置10に向かって発話することで、発話音声を入力している場面が示される。より具体的には、図2には、利用者U1が、「大阪府のイバラキ市に存在する目的地○○」までのルートを案内するよう指示する内容の発話音声を入力している場面が示される。
 このような場合、端末装置10は、発話音声の入力を受け付けるたびに、受け付けた発話音声を示す音声情報を情報処理装置100に送信する。この結果、情報処理装置100は、端末装置10から音声情報を取得する(ステップS11)。
 例えば、図2には、利用者U1が、「「イバラギ」市の○○までルート案内おねがい!」といった内容C11の発話音声VO11を入力した例が示される。係る例では、端末装置10は、発話音声VO11の入力に応じて、発話内容C11を示す音声情報を情報処理装置100に送信する。この結果、情報処理装置100は、発話内容C11を示す音声情報を取得する。
 ここで、利用者U1は、正しくは「イバラキ」と発話すべきところ、「イバラギ」と言い間違えてしまったことに気付いたとする。そして、利用者U1は、図2に示すように、「「イバラキ」市の○○までルート案内おねがい!」といった内容C12の発話音声VO12を入力し直したとする。係る例では、端末装置10は、発話音声VO12の入力に応じて、発話内容C12を示す音声情報を情報処理装置100に送信する。この結果、情報処理装置100は、発話内容C12を示す音声情報を取得する。
 次に、情報処理装置100は、利用者U1によって発話されたタイミングの前後関係に基づいて、第1の発話音声を示す第1の音声情報、および、第2の発話音声を示す第2の音声情報を取得する(ステップS12)。例えば、情報処理装置100は、発話タイミングの前後関係に基づいて、先に入力された発話音声である第1の発話音声と、第1の発話音声が入力された後に入力された発話音声である第2の発話音声とを認識してよい。また、これにより情報処理装置100は、端末装置10を介してこれまでに収集している音声情報の中から、第1の発話音声を示す第1の音声情報、および、第2の発話音声を示す第2の音声情報を取得してよい。
 図2の例では、情報処理装置100は、発話音声VO11を第1の発話音声として認識することで、発話内容C11を示す音声情報を第1の音声情報として取得したものとする。また、図2の例では、情報処理装置100は、発話音声VO12を第2の発話音声として認識することで、発話内容C12を示す音声情報を第2の音声情報として取得したものとする。以下、発話音声VO11を「第1の発話音声VO11」と表記し、発話音声VO12を「第2の発話音声VO12」と表記する場合がある。
 次に、情報処理装置100は、第1の音声情報(第1の発話内容)を構成する各キーワードである第1のキーワードと、第2の音声情報(第2の発話内容)を構成する各キーワードである第2のキーワードとの類似性に基づいて、言い間違えたことによる訂正の意図を推定する意図解析を行う(ステップS13)。具体的には、情報処理装置100は、第1のキーワードと、第2のキーワードとの類似性に基づいて、利用者U1が第2の発話内容によって、第1の発話内容を訂正する意図があるか否か意図推定を行う。ステップS13で行われる意図解析の具体的な手法については後述する。
 なお、情報処理装置100は、ステップS13では、第1の音声情報を示すテキストに対する形態素解析により、このテキストを構成する各単語を第1のキーワードとして抽出してよい。同様に、情報処理装置100は、第2の音声情報を示すテキストに対する形態素解析により、このテキストを構成する各単語を第2のキーワードとして抽出してよい。
 続いて、情報処理装置100は、意図解析による推定結果に基づいて、第2の発話音声VO12が、第1の発話音声VO11に対応する第1の発話内容を訂正するために音声入力された訂正音声であるか否かを判定する(ステップS14)。例えば、情報処理装置100は、第1のキーワードの1つである「イバラギ」と、第2のキーワードの1つである「イバラキ」との間で類似性があると認められた場合には、利用者U1が第2の発話内容(第2のキーワードKW12)によって、第1の発話内容(第1のキーワードKW11)を訂正する意図があると推定することができる。また、この結果、情報処理装置100は、第2の発話音声VO12が、第1の発話内容を訂正するために音声入力された訂正音声であると判定することができる。
 このように、第2の発話音声VO12が、第1の発話内容を訂正するために音声入力された訂正音声であると判定した場合には、情報処理装置100は、第2のキーワード「イバラキ」を正解情報とし、第1のキーワード「イバラギ」を正解情報に対する誤り情報として、第2のキーワード「イバラキ」と、第1のキーワード「イバラギ」とを紐付ける(ステップS15)。図2には、第2のキーワード「イバラキ」を正解情報とし、第1のキーワード「イバラギ」を正解情報とした今回の例を含めて、利用者U1が過去にも「イバラキ」を「イバラギ」と言い間違えたことによる紐付結果の例や、「イバラキ」を「イバラク」と言い間違えたことによる紐付結果の例が示される。また、このような紐付結果は、紐付けIDを用いて紐付情報データベース122(図5)で管理されてよい。
 また、情報処理装置100は、正解情報と誤り情報との組を学習データとして、誤り情報が示す第1のキーワードのうち、正解情報が示す第2のキーワードに対して間違えられやすいキーワードを学習する(ステップS16)。図2の例では、情報処理装置100は、第1のキーワード「イバラギ」、および、第1のキーワード「イバラク」のうち、第2のキーワード「イバラキ」に対して間違えられやすいものを学習する。
 そして、情報処理装置100は、学習結果に基づいて、キーワードを辞書登録する(ステップS17)。例えば、情報処理装置100は、学習結果に基づいて、第1のキーワードのうち、第2のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力されたこの第1のキーワードが第2のキーワードとして認識されるよう、この第1のキーワードをユーザ辞書(図6)に登録する。図2には、情報処理装置100が、第1のキーワード「イバラギ」を含む発話音声が入力された場合に、第1のキーワード「イバラギ」が第2のキーワード「イバラキ」として認識されるよう、第1のキーワード「イバラギ」をユーザ辞書に登録している例が示される。
 さて、これまで図2で説明してきたように、第1の実施形態では、情報処理装置100は、第1の発話音声が入力された後に、第2の発話音声が入力された場合には、第1の発話音声が示す第1の発話内容と、第2の発話音声が示す第2の発話内容とに基づいて、第2の発話音声が第1の発話内容を訂正するために入力された音声であるか否かを判定する。そして、情報処理装置200は、第2の発話音声が第1の発話内容を訂正するために入力された音声であると判定した場合には、第1の発話内容と、第2の発話内容とを紐付けることで、紐付結果に基づいて、第1の発話内容をユーザ辞書に登録する。
 このような第1の実施形態に係る情報処理によれば、情報処理装置100は、利用者が言い間違えた場合であっても言い間違えに対する正しい動作を実行できるよう制御することができる。
〔2.情報処理装置の構成〕
 ここからは、図3を用いて、第1の実施形態に係る情報処理装置100について説明する。図3は、第1の実施形態に係る情報処理装置100の構成例を示す図である。図3に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。
(通信部110について)
 通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、例えば、端末装置10との間で情報の送受信を行う。
(記憶部120について)
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、発話情報データベース121と、紐付情報データベース122と、ユーザ辞書データベース123とを有する。
(発話情報データベース121について)
 発話情報データベース121は、利用者により入力された発話音声に関する情報を記憶する。ここで、図4に、第1の実施形態に係る実施形態に係る発話情報データベース121の一例を示す。図4の例では、発話情報データベース121は、「利用者ID」、「発話日時」、「音声情報」といった項目を有する。
 「利用者ID」は、端末装置10に対して発話音声を入力した利用者を識別する識別情報を示す。例えば、情報処理装置100は、端末装置10が有するセンサ(例えば、カメラ)による撮像画像に基づき、発話音声を入力した利用者を認識することで、認識した利用者に対して「利用者ID」を払い出してよい。
 「発話日時」は、発話音声が入力された日時に関する情報を示す。図4には、利用者ID「U1」と、「発話日時♯11」とが対応付けられる例が示される。係る例は、利用者U1が、発話日時♯11という日時に発話音声を入力した例を示す。例えば、情報処理装置100は、「発話日時」を発話タイミングと捉えることで、先に入力された発話音声である第1の発話音声と、第1の発話音声が入力された後に入力された発話音声である第2の発話音声とを認識することができる。
 「音声情報」は、「利用者ID」が示す利用者によって入力された発話音声の内容を示す情報である。例えば、「音声情報」は、発話音声に対して任意の音声認識技術が適用されることで得られたテキスト情報であって、発話音声の内容を示すテキスト情報であってよい。なお、発話音声に対する音声認識処理は、端末装置10によって実行されてもよいし、図1では図示されない音声認識装置によって実行されてもよい。図4には、利用者ID「U1」と、「発話日時♯11」と、「音声情報♯11」とが対応付けられる例が示される。係る例は、利用者U1が、発話日時♯11という日時に入力した発話音声から、この発話音声の内容を示す音声情報♯11が得られた例を示す。
(紐付情報データベース122について)
 紐付情報データベース122は、正解情報と誤り情報とを紐付けて管理する。ここで、図5に、実施形態に係る紐付情報データベース122の一例を示す。図5の例では、紐付情報データベース122は、「利用者ID」、「紐付けID」、「正解情報」、「誤り情報」といった項目を有する。
 「利用者ID」は、端末装置10に対して発話音声を入力した利用者を識別する識別情報を示し、図4の「利用者ID」に対応する。
 「紐付けID」は、「正解情報」に対する「誤り情報」を、「正解情報」が示すキーワードごとに管理するための識別情報である。図5に示すように、「紐付けID」は、「正解情報」が示すキーワードごと払い出されてよい。図5には、利用者ID「U1」と、紐付けID「H11」と、正解情報「イバラキ」とが対応付けられる例が示される。係る例は、利用者U1による発話音声の入力に応じて、正解情報としての1つの第2のキーワード「イバラキ」が紐付けID「H11」によって管理される例を示す。
 「正解情報」は、第1の発話音声に含まれる第1のキーワードのうち、特定の第1のキーワードを訂正するために、訂正音声として入力された第2の発話音声に含まれる第2のキーワードであって、特定の第1のキーワードを訂正する正しい第2のキーワードを示す情報である。
 「誤り情報」は、第1の発話音声に含まれる第1のキーワードのうち、訂正音声として入力された第2の発話音声に含まれる第2のキーワードによって訂正される対象のキーワードを示す情報である。
 図5には、利用者ID「U1」と、紐付けID「H11」と、正解情報「イバラキ」と、誤り情報「イバラギ」とが対応付けられる例が示される。係る例は、正しくは「イバラキ」と発話すべきところ、利用者U1が「イバラギ」と言い間違えたことによる紐付結果を示し、この紐付結果が紐付けID「H11」を用いて管理される例を示す。
 また、図5には、利用者ID「U1」と、紐付けID「H11」と、正解情報「イバラキ」と、誤り情報「イバラク」とが対応付けられる例が示される。係る例は、正しくは「イバラキ」と発話すべきところ、利用者U1が「イバラク」と言い間違えたことによる紐付結果を示し、この紐付結果が紐付けID「H11」を用いて管理される例を示す。
 また、図5には、利用者ID「U1」と、紐付けID「H11」と、正解情報「案内中断」と、誤り情報「案内中止」とが対応付けられる例が示される。係る例は、正しくは「案内中断」と発話すべきところ、利用者U1が「案内中止」と言い間違えたことによる紐付結果を示し、この紐付結果が紐付けID「H12」を用いて管理される例を示す。
 なお、図2で説明したように、「正解情報」と「誤り情報」との組は、「誤り情報」が示す第1のキーワードのうち、「正解情報」が示す第2のキーワードに対して間違えられやすいキーワードのパターンを学習するための学習データとして利用される。
(ユーザ辞書データベース123について)
 ユーザ辞書データベース123は、第2のキーワードに対して間違えられやすい第1のキーワードが、この第2のキーワードとして認識されるよう、第1のキーワードと、第2のキーワードとを対応付けて記憶する。ここで、図6に、実施形態に係るユーザ辞書データベース123の一例を示す。図6の例では、ユーザ辞書データベース123は、「利用者ID」、「発話キーワード」、「認識キーワード」といった項目を有する。
 「利用者ID」は、端末装置10に対して発話音声を入力した利用者を識別する識別情報を示し、図4および図5の「利用者ID」に対応する。
 「発話キーワード」は、学習データを用いた学習の結果、「認識キーワード」が示す第2のキーワードに対して間違えられやすい傾向にあると推定された第1のキーワードを示す。また、「発話キーワード」は、この第1のキーワードを含む発話音声が入力された場合には、この第1のキーワードが「認識キーワード」が示す第2のキーワードとして認識されるよう条件付ける条件情報に相当する。
 「認識キーワード」は、「発話キーワード」が示す第1のキーワードを含む発話音声が入力された場合に、この第1のキーワードについて正しくはどのようなキーワードとして認識されるべきかを条件付ける条件情報に相当する。
 図6には、利用者ID「U1」に対して、発話キーワード「イバラギ」と、認識キーワード「イバラキ」とが対応付けられる例が示される。係る例は、第1のキーワード「イバラギ」を含む発話音声が利用者U1によって入力された場合に、第1のキーワード「イバラギ」が第2のキーワード「イバラキ」として認識されるよう、第1のキーワード「イバラギ」と、第2のキーワード「イバラキ」とが対応付けられた状態で、利用者U1のユーザ辞書に登録されている例を示す。
 図6には、利用者ID「U1」に対して、発話キーワード「案内中止」と、認識キーワード「案内中断」とが対応付けられる例が示される。係る例は、第1のキーワード「案内中止」を含む発話音声が利用者U1によって入力された場合に、第1のキーワード「案内中止」が第2のキーワード「案内中断」として認識されるよう、第1のキーワード「案内中止」と、第2のキーワード「案内中断」とが対応付けられた状態で、利用者U1のユーザ辞書に登録されている例を示す。
(制御部130について)
 図3に戻り、制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(例えば、実施形態に係る情報処理プログラム)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
 図3に示すように、制御部130は、取得部131と、訂正音声判定部132と、検出部133と、紐付部134と、学習部135と、情報制御部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131について)
 取得部131は、第1の実施形態に係る情報処理で用いられる各種情報を取得する。また、取得部131は、取得した情報を、この情報を用いて処理を行う適切な処理部へと出力してよい。
 例えば、取得部131は、利用者によって発話音声が端末装置10に入力された場合に、入力された発話音声を示す音声情報を取得する。例えば、取得部131は、端末装置10によって音声情報が生成された場合には、端末装置10から音声情報を取得してよい。また、例えば、取得部131は、音声認識装置(不図示)によって音声情報が生成された場合には、音声認識装置から音声情報を取得してよい。
 また、取得部131は、第1の発話音声を示す第1の音声情報、および、第2の発話音声を示す第2の音声情報を取得してよい。例えば、取得部131は、発話タイミングの前後関係に基づいて、先に入力された発話音声である第1の発話音声と、第1の発話音声が入力された後に入力された発話音声である第2の発話音声とを認識してよい。また、これにより取得部131は、これまでに収集されている音声情報(発話情報データベース121に記憶される音声情報)の中から、第1の発話音声を示す第1の音声情報、および、第2の発話音声を示す第2の音声情報を取得してよい。
(訂正音声判定部132について)
 訂正音声判定部132は、第1の発話音声が入力された後に、第2の発話音声が入力された場合には、第1の発話音声が示す第1の発話内容と、第2の発話音声が示す第2の発話内容とに基づいて、第2の発話音声が第1の発話内容を訂正するために入力された音声であるか否かを判定する。
 例えば、訂正音声判定部132は、第1の発話内容が言い間違えによる誤りの内容であり、この誤りの内容を訂正する意図で利用者が第2の発話音声を入力したか否か利用者の意図を推定する。つまり、訂正音声判定部132は、第1の発話音声が示す第1の発話内容と、第2の発話音声が示す第2の発話内容とに基づいて、利用者が第2の発話内容によって第1の発話内容を訂正する意図があるか否かを推定する。そして、訂正音声判定部132は、推定結果に応じて、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定する。例えば、訂正音声判定部132は、利用者が第2の発話内容によって第1の発話内容を訂正する意図があるとの推定結果が得られた場合には、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であると判定することができる。
 以下では、利用者が第2の発話内容によって第1の発話内容を訂正する意図があるか否かを推定し、推定結果に応じて、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定するという意図解析の具体例を示す。
 例えば、訂正音声判定部132は、第1の音声内容(第1の音声情報)を示すテキストに対する形態素解析により、このテキストを構成する各単語を第1のキーワードとして抽出してよい。同様に、訂正音声判定部132は、第2の音声内容(第2の音声情報)を示すテキストに対する形態素解析により、このテキストを構成する各単語を第2のキーワードとして抽出してよい。
 そして、訂正音声判定部132は、例えば、1つの第1のキーワードと、1つの第2のキーワードとの間で成立する組合せごとに、類似性を検出することで、検出した類似性に基づいて、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。
 1つ目の例として、訂正音声判定部132は、読みの類似性を検出してよい。例えば、訂正音声判定部132は、第1のキーワードと、第2のキーワードとの間で成立する組合ごとに、この組合せに含まれる第1のキーワードと、第2のキーワードとが文字(読み)としてどれだけ類似しているか指標する類似度を算出してよい。
 具体的な一例として、訂正音声判定部132は、第1のキーワードにおける母音の並びと、第2のキーワードにおける母音の並びとの類似性を示す類似度を算出してよい。他の例として、訂正音声判定部132は、第1のキーワードにおける子音の並びと、第2のキーワードにおける子音の並びとの類似性を示す類似度を算出してよい。
 そして、訂正音声判定部132は、組合せの中に、類似度が所定値を超えるものが存在する場合には、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であると判定してよい。
 2つ目の例として、訂正音声判定部132は、意味の類似性を検出してよい。例えば、訂正音声判定部132は、第1のキーワードと、第2のキーワードとの間で成立する組合ごとに、この組合せに含まれる第1のキーワードと、第2のキーワードとが文字(意味)としてどれだけ類似しているかを指標する類似度を算出してよい。
 例えば、第1のキーワードが「おじいちゃんのいえ」であり、第2のキーワード「おじいちゃんち」であったとする。係る例では、訂正音声判定部132は、第1のキーワード「おじいちゃんのいえ」と、第2のキーワード「おじいちゃんち」とが文字(読み)としてどれだけ類似しているか指標する類似度を算出したうえで、算出した類似度に対して、「おじいちゃんのいえ」と、「おじいちゃんち」とが意味としてどれだけ類似しているか類似性に応じた重み付けを行ってよい。一例として、訂正音声判定部132は、「おじいちゃんのいえ」と、「おじいちゃんち」とが意味としてどれだけ類似しているか類似性を指標する類似度を算出し、算出した類似度を重み値として用いることで、文字(読み)としての類似度に対して重み付けを行ってよい。
 3つ目の例として、訂正音声判定部132は、漢字の読み方の類似性を検出してよい。この例としては、図2で説明したように、漢字表記される1つの単語について、間違いやすい複数の読み(例えば、「イバラキ」と「イバラギ」)が存在することによる類似性が挙げられる。
 4つ目の例として、訂正音声判定部132は、発話音声の入力時間の間隔に応じて、類似性を検出してよい。例えば、訂正音声判定部132は、第2のキーワードとして、第1の発話音声が入力されてから所定の時間が経過するまでに入力された第2の発話音声に含まれる第2のキーワードと第1のキーワードとの類似性に基づいて、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。例えば、訂正音声判定部132は、第1の発話音声に対して連続して入力された第2の発話音声に含まれる第2のキーワードと、この第1の発話音声に含まれる第1のキーワードとの類似性に基づいて、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。
 また、訂正音声判定部132は、上記の4つの要素(読みの類似性、意味の類似性、漢字の読み方の類似性、入力時間間隔に応じた類似性)がどれだけ満たされているかを条件として、条件が満たされるような発話音声が入力された回数に基づいて、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。
(検出部133について)
 検出部133は、第2の発話音声が入力された入力状況を検出してよい。例えば、検出部133は、端末装置10が有するセンサによるセンサ情報、あるいは、車両VExが有するセンサによるセンサ情報に基づいて、入力状況を検出することができる。
 例えば、検出部133は、入力状況として、第2の発話音声が入力された入力回数を検出してよい。一例として、検出部133は、第1の発話音声が入力された後の所定期間内において、第2の発話音声が入力された入力回数を検出してよい。
 また、訂正音声判定部132は、検出部133により検出された入力回数に基づいて、上述した類似度以外の観点から、利用者が第2の発話内容によって第1の発話内容を訂正する意図があるか否かを推定してよい。例えば、訂正音声判定部132は、検出部133により検出された入力回数が所定回数を超えるか否かに基づいて、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。具体的には、訂正音声判定部132は、所定期間内に第2の発話音声が入力された入力回数が所定回数を超える場合には、所定期間内に入力された第2の発話音声が第1の発話内容を訂正するために入力された音声であると判定してよい。
 なお、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であると判定された場合、第2の発話内容に含まれるどの第2のキーワードを正解情報とし、第1の発話内容に含まれるどの第1のキーワードを誤り情報とするかは、第2のキーワードと第1のキーワードとの類似性の観点から判断されてよい。
 また、他の例として、検出部133は、入力状況として、第2の発話音声を示す周波数を検出してよい。係る場合、訂正音声判定部132は、検出部133により検出された周波数に基づいて、上述した類似度以外の観点から、利用者が第2の発話内容によって第1の発話内容を訂正する意図があるか否かを推定してよい。例えば、訂正音声判定部132は、周波数から特定される第2の発話音声のトーンに基づいて、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。具体的には、訂正音声判定部132は、特定されたトーンが所定の発話態様を示す場合には、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であると判定してよい。
(紐付部134について)
 紐付部134は、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であると判定された場合には、第1の発話内容と、この第2の発話音声が示す第2の発話内容とを紐付ける。
 例えば、紐付部134は、第2の発話音声が第1の発話内容を訂正するために入力された音声であると判定された場合には、第2の発話内容に含まれる第2のキーワードと、第1の発話内容に含まれる第1のキーワードとの組合せのうち、互いに類似していると判定された第2のキーワードと、第1のキーワードとを組合せを抽出する。そして、紐付部134は、抽出した組合せにおける第2のキーワードを正解情報とし、また、この組合せにおける第1のキーワードを当該正解情報に対する誤り情報として、第2のキーワードと、第1のキーワードとを紐付ける。
 また、紐付部134は、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であると判定された場合には、第1の発話音声が入力された後の所定期間内において入力された第2の発話音声それぞれに含まれる第2のキーワードのうちいずれかのキーワードを正解情報とし、第1の発話音声に含まれる第1のキーワードを正解情報に対する誤り情報として、第2のキーワードと、第1のキーワードとを紐付けてよい。例えば、紐付部134は、所定期間内に入力された第2の発話音声が示す第2の発話内容に含まれる第2のキーワードと、第1の発話内容に含まれる第1のキーワードとの組合せのうち、互いに類似していると判定された第2のキーワードと、第1のキーワードとを組合せを抽出する。そして、紐付部134は、抽出した組合せにおける第2のキーワードを正解情報とし、また、この組合せにおける第1のキーワードを当該正解情報に対する誤り情報として、第2のキーワードと、第1のキーワードとを紐付けてよい。
 また、例えば、紐付部134は、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であると判定された場合には、所定の発話態様が示すトーンで発話された第2の発話音声に含まれる第2のキーワードを正解情報とし、第1の発話音声に含まれる第1のキーワードを正解情報に対する誤り情報として、第2のキーワードと、第1のキーワードとを紐付けてよい。例えば、紐付部134は、所定の発話態様が示すトーンで発話された第2の発話音声に含まれる第2のキーワードと、第1の発話内容に含まれる第1のキーワードとの組合せのうち、互いに類似していると判定された第2のキーワードと、第1のキーワードとを組合せを抽出する。そして、紐付部134は、抽出した組合せにおける第2のキーワードを正解情報とし、また、この組合せにおける第1のキーワードを当該正解情報に対する誤り情報として、第2のキーワードと、第1のキーワードとを紐付けてよい。
 例えば、紐付部134は、第2のキーワードを正解情報とし、第1のキーワードを正解情報に対する誤り情報として、第2のキーワードと、第1のキーワードとを紐付けた紐付結果に対して、この第2のキーワードに対して払い出した紐付けIDを対応付けた状態で、紐付情報データベース122に登録してよい。
(学習部135について)
 学習部135は、紐付部134により紐付けられた正解情報と誤り情報との組を学習データとして、誤り情報が示す発話内容のうち、正解情報が示す発話内容に対して間違えられやすい発話内容のパターンを学習する。例えば、学習部135は、正解情報と誤り情報との組を学習データとして、誤り情報が示す第1のキーワードのうち、正解情報が示す第2のキーワードに対して間違えられやすいキーワードのパターンを学習する。
(情報制御部136について)
 情報制御部136は、紐付部134による紐付結果に基づいて、第1の発話内容に対する所定の制御を行う。
 例えば、情報制御部136は、紐付部134により紐付けられた正解情報と誤り情報との関係性に基づいて、誤り情報が示す発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す発話内容として認識されるよう、当該誤り情報を正解情報としてユーザ辞書(ユーザ辞書データベース123)に登録する。
 例えば、情報制御部136は、学習部135による学習結果に基づいて、誤り情報が示す発話内容のうち、正解情報が示す発話内容に対して間違えられやすい発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す発話内容として認識されるよう、当該誤り情報を正解情報としてユーザ辞書に登録する。例えば、情報制御部136は、学習部135による学習結果に基づいて、キーワードをユーザ辞書に登録する。例えば、情報制御部136は、学習結果に基づいて、第1のキーワードのうち、第2のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力されたこの第1のキーワードが第2のキーワードとして認識されるよう、この第1のキーワードをユーザ辞書に登録する。
〔3.処理手順〕
 次に、図7を用いて、第1の実施形態に係る情報処理の手順について説明する。図7は、第1の実施形態に係る情報処理の手順を示すフローチャートである。なお、図7の例では、端末装置10が、発話音声の入力を受け付けるたびに、受け付けた発話音声を示す発話情報を情報処理装置100に送信しているものとする。また、情報処理装置100は、端末装置10から送信された音声情報を発話情報データベース121に随時蓄積しているものとする。また、図7では、車両VE1の利用者U1を一例に用いて、情報処理手順を説明する。
 このような状態において、取得部131は、意図解析を行うタイミングになったか否かを判定する(ステップS701)。例えば、取得部131は、意図解析を行う上で十分な数の音声情報が発話情報データベース121に蓄積されているか否かに基づき、意図解析を行うタイミングになったか否かを判定してよい。
 取得部131は、意図解析を行うタイミングになっていないと判定している間は(ステップS701;No)、意図解析を行うタイミングになったと判定できるまで待機する。
 一方、取得部131は、意図解析を行うタイミングになったと判定できた場合には(ステップS701;Yes)、利用者U1による発話タイミングの前後関係に基づいて、第1の発話音声を示す第1の音声情報、および、第2の発話音声を示す第2の音声情報を取得する(ステップS702)。例えば、取得部131は、発話タイミングの前後関係に基づいて、利用者U1によって先に入力された発話音声である第1の発話音声と、第1の発話音声が入力された後に利用者U1によって入力された発話音声である第2の発話音声とを認識する。そして、取得部131は、発話情報データベース121に蓄積されている音声情報であって、利用者U1に対応する音声情報の中から、第1の発話音声を示す第1の音声情報、および、第2の発話音声を示す第2の音声情報を取得する。
 次に、訂正音声判定部132は、第1の音声情報と、第2の音声情報との組の全てについて、意図解析が済んでいない状態であるか否かを判定する(ステップS703)。なお、ここでいう、第1の音声情報と、第2の音声情報との組とは、発話タイミングが連続する関係にある第1の発話音声と、第2の発話音声とに対応する組であってよい。
 訂正音声判定部132は、第1の音声情報と、第2の音声情報との組の全てについて、意図解析済みであると判定した場合には(ステップS703;No)、この時点で第1の実施形態に係る情報処理を終了させる。
 一方、訂正音声判定部132は、第1の音声情報と、第2の音声情報との組の全てについて、意図解析が済んでいない状態であると判定した場合には(ステップS703;Yes)、第1の音声情報と、第2の音声情報との組のうち、意図解析が済んでいない未処理の組を取得する(ステップS704)。
 続いて、訂正音声判定部132は、ステップS704で取得した第1の音声情報および第2の音声情報に基づいて、第1の音声情報が示す第1の発話内容を訂正するために、第2の発話音声が入力されたか否か利用者U1の意図を推定する(ステップS705)。具体的には、訂正音声判定部132は、第1の発話音声が示す第1の発話内容と、第2の発話音声が示す第2の発話内容とに基づいて、第2の発話内容によって第1の発話内容を訂正するために、利用者U1が第2の発話内容を示す第2の発話音声を入力したか否か利用者U1の意図を推定する。
 例えば、訂正音声判定部132は、第1の音声内容(第1の音声情報)を示すテキストに対する形態素解析により、このテキストを構成する各単語を第1のキーワードとして抽出する。また、訂正音声判定部132は、第2の音声内容(第2の音声情報)を示すテキストに対する形態素解析により、このテキストを構成する各単語を第2のキーワードとして抽出する。そして、訂正音声判定部132は、抽出した第1のキーワードと、第2のキーワードとの類似性に基づいて、第2の発話内容によって第1の発話内容を訂正するために、利用者U1が第2の発話内容を示す第2の発話音声を入力したか否か利用者U1の意図を推定する。
 続いて、訂正音声判定部132は、意図解析により利用者U1の意図を推定した推定結果に基づいて、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定する(ステップS706)。
 訂正音声判定部132は、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声でないと判定した場合には(ステップS706;No)、第1の音声情報と、第2の音声情報との組のうち、意図解析が済んでいない未処理の他の組について処理を行うべくステップS703に戻る。
 一方、紐付部134は、第2の発話音声が第1の発話内容を訂正するために入力された訂正音声であると判定した場合には(ステップS706;Yes)、第1のキーワードと、第2のキーワードとを紐付ける紐付処理を行う(ステップS707)。例えば、紐付部134は、第2の発話内容(第2の発話情報)に含まれる第2のキーワードと、第1の発話内容(第1の発話情報)に含まれる第1のキーワードとの組合せのうち、互いに類似していると判定された第2のキーワードと、第1のキーワードとの組合せを抽出する。そして、紐付部134は、抽出した組合せにおける第2のキーワードを正解情報とし、また、この組合せにおける第1のキーワードを当該正解情報に対する誤り情報として、第2のキーワードと、第1のキーワードとを紐付ける。
 また、紐付部134は、第2のキーワードと、第1のキーワードとを紐付けた紐付結果に対して、利用者U1を示す利用者IDおよび紐付けIDの組を対応付けた状態で、紐付情報データベース122に登録してよい。この結果、図5に示すような、紐付情報データベース122が得られる。
 次に、学習部135は、紐付処理の結果得られた正解情報と誤り情報との組を学習データとして、誤り情報が示す第1のキーワードのうち、正解情報が示す第2のキーワードに対して間違えられやすいキーワードのパターンを学習する(ステップS708)。
 次に、情報制御部136は、学習結果に基づいて、キーワードを辞書登録する(ステップS709)。例えば、情報制御部136は、学習結果に基づいて、第1のキーワードのうち、第2のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力された第1のキーワードが第2のキーワードとして認識されるよう、第1のキーワードを「発話キーワード」とし、第2のキーワードを「認識キーワード」として、双方のキーワードを対応付けた状態でユーザ辞書に登録する。この結果、図6に示すような、ユーザ辞書データベース123が得られる。
 ここで、情報制御部136は、ステップS703へと処理を戻す。そして、第1の音声情報と、第2の音声情報との組の全てについて、意図解析済みであると判定された場合には、この時点で第1の実施形態に係る情報処理は終了となる。
(第2の実施形態)
〔1.第2の実施形態の全体像〕
 ここからは、図8を用いて、第2の実施形態について説明する。第1の実施形態では、言い間違えた誤りの内容を発話音声で訂正しようとする利用者の訂正音声を検出することで、検出した訂正音声の内容に基づく紐付けが行われていた。これに対して、第2の実施形態では、言い間違えた誤りの内容を発話音声以外の入力手段で訂正しようとする利用者の訂正操作を検出することで、検出した訂正操作の内容に基づく紐付けが行われる点で第1の実施形態とは異なる。
 以下では、図8を用いて、第2の実施形態に係る情報処理を説明する。図8は、第2の実施形態に係る情報処理を説明する説明図である。また、第2の実施形態では、発話音声以外の入力手段を、所定の対象物(例えば、端末装置10の表示パネル(表示画面))に触れることで情報入力するという手入力操作とする。
 図8には、利用者U1が、車両VE1(車両VExの一例)に搭載される端末装置10に向かって発話することで発話音声を入力したり、端末装置10に触れることで情報入力したりしている場面が示される。
 例えば、端末装置10は、発話音声の入力を受け付けるたびに、受け付けた発話音声を示す音声情報を情報処理装置200に送信する。この結果、情報処理装置200は、端末装置10から音声情報を取得する(ステップS21)。
 図8には、利用者U1が、「大阪府のイバラキ市に存在する目的地○○」までのルートを案内するよう指示する内容の発話音声を入力している場面が示される。具体的には、図8には、利用者U1が、「「イバラギ」市の○○までルート案内おねがい!」といった内容C11の発話音声VO11を入力した例が示される。係る例では、端末装置10は、発話音声VO11の入力に応じて、発話内容C11を示す音声情報を情報処理装置200に送信する。この結果、情報処理装置200は、発話内容C11を示す音声情報を取得する。
 また、端末装置10は、手入力操作による入力を受け付けるたびに、入力された操作内容を示す操作情報も情報処理装置200に送信してよい。この結果、情報処理装置200は、端末装置10から手入力操作による操作情報を取得する(ステップS22)。
 ここで、利用者U1は、正しくは「イバラキ」と発話すべきところ、「イバラギ」と言い間違えてしまったことに気付いたとする。図2では、利用者U1は、「「イバラキ」市の○○までルート案内おねがい!」といった内容C12の発話音声VO12を入力し直していた。
 しかしながら、図8の例では、利用者U1は、発話では不安があるため手入力の方が確実であると考える。そして、図8の例では、利用者U1は、端末装置10において経路案内に関するナビゲーション画面が表示されている状態で、正しい目的地「イバラキ」を打ち込むという操作内容C12の手入力操作IO12を行っている。係る例では、端末装置10は、手入力操作IO12に応じて、操作内容C12を示す操作情報を情報処理装置200に送信する。この結果、情報処理装置200は、操作内容C12を示す操作情報を取得する。
 なお、図8の例では、操作内容C12を示す操作情報とは、目的地「イバラキ」を示すキーワードを含むものであってよい。また、このようなことから、手入力操作IO12は、目的地設定操作といえる。
 次に、情報処理装置200は、利用者U1による発話のタイミングと、利用者U1による手入力操作のタイミングとの前後関係に基づいて、第1の発話音声を示す第1の音声情報と、第1の発話音声の後に行われた手入力操作(目的地設定操作)である第2の入力操作を示す第2の操作情報とを取得する(ステップS23)。例えば、情報処理装置200は、発話タイミングと、手入力操作のタイミングとの前後関係に基づいて、先に入力された発話音声である第1の発話音声と、第1の発話音声が入力された後に行われた手入力操作である第2の入力操作とを認識してよい。また、これにより情報処理装置200は、端末装置10を介してこれまでに収集している音声情報の中から、第1の発話音声を示す第1の音声情報を取得してよい。また、情報処理装置200は、端末装置10を介してこれまでに収集している操作情報の中から、第2の入力操作を示す第2の操作情報を取得してよい。
 図8の例では、情報処理装置200は、発話音声VO11を第1の発話音声として認識することで、発話内容C11を示す音声情報を第1の音声情報として取得したものとする。また、図8の例では、情報処理装置200は、手入力操作IO12を第2の入力操作として認識することで、操作内容C12を示す操作情報を第2の操作情報として取得したものとする。以下、発話音声VO11を「第1の発話音声VO11」と表記し、手入力操作IO12を「第2の入力操作IO12」と表記する場合がある。
 次に、情報処理装置200は、第1の音声情報(第1の発話内容)を構成する各キーワードである第1のキーワードと、第2の操作情報(第2の操作内容)を構成する各キーワードである第2のキーワードとの類似性に基づいて、言い間違えたことによる訂正の意図を推定する意図解析を行う(ステップS24)。具体的には、情報処理装置200は、第1のキーワードと、第2のキーワードとの類似性に基づいて、利用者U1が第2の操作内容によって、第1の発話内容を訂正する意図があるか否か意図推定を行う。ステップS24で行われる意図解析の具体的な手法については後述する。
 なお、情報処理装置200は、ステップS24では、第1の音声情報を示すテキストに対する形態素解析により、このテキストを構成する各単語を第1のキーワードとして抽出してよい。同様に、情報処理装置200は、第2の操作情報を示すテキストに対する形態素解析により、このテキストを構成する各単語を第2のキーワードとして抽出してよい。
 続いて、情報処理装置200は、意図解析による推定結果に基づいて、第2の入力操作IO12が、第1の発話音声VO11に対応する第1の発話内容を訂正するために手入力された訂正操作であるか否かを判定する(ステップS25)。例えば、情報処理装置200は、第1のキーワードの1つである「イバラギ」と、第2のキーワードの1つである「イバラキ」との間で類似性があると認められた場合には、利用者U1が第2の操作内容(第2のキーワードKW12)によって、第1の発話内容(第1のキーワードKW11)を訂正する意図があると推定することができる。また、この結果、情報処理装置200は、第2の入力操作IO12が、第1の発話内容を訂正するために手入力された訂正操作であると判定することができる。
 このように、第2の入力操作IO12が、第1の発話内容を訂正するために手入力された訂正操作であると判定した場合には、情報処理装置200は、第2のキーワード「イバラキ」を正解情報とし、第1のキーワード「イバラギ」を正解情報に対する誤り情報として、第2のキーワード「イバラキ」と、第1のキーワード「イバラギ」とを紐付ける(ステップS26)。図8には、第2のキーワード「イバラキ」を正解情報とし、第1のキーワード「イバラギ」を正解情報とした今回の例を含めて、利用者U1が過去にも「イバラキ」を「イバラギ」と言い間違えたことによる紐付結果の例や、「イバラキ」を「イバラク」と言い間違えたことによる紐付結果の例が示される。また、このような紐付結果は、紐付けIDを用いて紐付情報データベース122(図5)で管理されてよい。
 また、情報処理装置200は、正解情報と誤り情報との組を学習データとして、誤り情報が示す第1のキーワードのうち、正解情報が示す第2のキーワードに対して間違えられやすいキーワードを学習する(ステップS27)。図8の例では、情報処理装置200は、第1のキーワード「イバラギ」、および、第1のキーワード「イバラク」のうち、第2のキーワード「イバラキ」に対して間違えられやすいものを学習する。
 そして、情報処理装置200は、学習結果に基づいて、キーワードを辞書登録する(ステップS28)。例えば、情報処理装置200は、学習結果に基づいて、第1のキーワードのうち、第2のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力されたこの第1のキーワードが第2のキーワードとして認識されるよう、この第1のキーワードをユーザ辞書(図6)に登録する。図8には、情報処理装置200が、第1のキーワード「イバラギ」を含む発話音声が入力された場合に、第1のキーワード「イバラギ」が第2のキーワード「イバラキ」として認識されるよう、第1のキーワード「イバラギ」をユーザ辞書に登録している例が示される。
 さて、これまで図8で説明してきたように、第2の実施形態では、情報処理装置200は、第1の発話音声が入力された後に、第2の入力操作が行われた場合には、第1の発話音声が示す第1の発話内容と、第2の入力操作が示す第2の操作内容とに基づいて、第2の入力操作が第1の発話内容を訂正するために手入力された訂正操作であるか否かを判定する。そして、情報処理装置200は、第2の入力操作が第1の発話内容を訂正するために手入力された訂正操作であると判定した場合には、第1の発話内容と、第2の操作内容とを紐付けることで、紐付結果に基づいて、第1の発話内容をユーザ辞書に登録する。
 このような第2の実施形態に係る情報処理によれば、情報処理装置200は、利用者が言い間違えた場合であっても言い間違えに対する正しい動作を実行できるよう制御することができる。
 なお、他の一例として、情報処理装置200は、第1のキーワード「案内中止」の後に、案内中断ボタンが操作された際には、第1のキーワードの1つである「案内中止」を、案内中断ボタンと対応している第2のキーワードの1つである「案内中断」へ訂正する意図を含む操作であると推定することができる。このように、情報処理装置200は、キーワードの直接入力によらず、キーワードと機能とが対応する操作ボタン等から、訂正する意図を含む操作であると推定することも可能である。
〔2.情報処理装置の構成〕
 ここからは、図9を用いて、第2の実施形態に係る情報処理装置200について説明する。なお、情報処理装置200において情報処理装置100と同一の符号が付された処理部については説明を省略する場合がある。図9は、第2の実施形態に係る情報処理装置200の構成例を示す図である。図9に示すように、情報処理装置200は、通信部110と、記憶部220と、制御部230とを有する。
(記憶部220について)
 記憶部220は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部220は、操作情報データベース224をさらに有してよい。
(操作情報データベース224について)
 操作情報データベース224は、利用者により行われた手入力操作に関する情報を記憶する。ここで、図10に、第2の実施形態に係る操作情報データベース224の一例を示す。図10の例では、操作情報データベース224は、「利用者ID」、「操作日時」、「操作情報」といった項目を有する。
 「利用者ID」は、端末装置10に対して手入力により情報(例えば、目的地を示す情報)を入力した利用者を識別する識別情報を示す。例えば、情報処理装置100は、端末装置10が有するセンサ(例えば、カメラ)による撮像画像に基づき、手入力操作を行った利用者を認識することで、認識した利用者に対して「利用者ID」を払い出してよい。
 「操作日時」は、手入力操作により情報入力が行われた日時に関する情報を示す。図10には、利用者ID「U1」と、「操作日時♯11」とが対応付けられる例が示される。係る例は、利用者U1が、操作日時♯11という日時に手入力操作を行うことで、端末装置10に対して目的地等を入力した例を示す。例えば、情報処理装置100は、発話情報データベース121の「発話日時」を発話タイミングと捉え、図10での「操作日時」操作タイミングと捉えることで、先に入力された発話音声である第1の発話音声と、第1の発話音声が入力された後に行われた手入力操作である第2の入力操作とを認識することができる。
 「操作情報」は、「利用者ID」が示す利用者によって行われた手入力操作によってどのような内容(例えば、どのような目的地)の情報が入力されたか手入力操作の内容を示す情報である。すなわち、「操作情報」は、端末装置10の表示パネルに触れることによる目的地設定操作で入力された目的地を示すキーワードを含んでよい。図10には、利用者ID「U1」と、「操作日時♯11」と、「操作情報♯11」とが対応付けられる例が示される。係る例は、利用者U1が、操作日時♯11という日時に行った手入力操作によって、操作情報♯11という内容が入力された例を示す。
(制御部230について)
 図9に戻り、制御部230は、CPUやMPU等によって、情報処理装置200内部の記憶装置に記憶されている各種プログラム(例えば、実施形態に係る情報処理プログラム)がRAMを作業領域として実行されることにより実現される。また、制御部230は、例えば、ASICやFPGA等の集積回路により実現される。
 図9に示すように、制御部230は、取得部131、訂正音声判定部132、検出部133、紐付部134、学習部135、情報制御部136に加えて、訂正操作判定部237をさらに有してよい。そして、訂正操作判定部237は、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部230の内部構成は、図9に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部230が有する各処理部の接続関係は、図9に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131について)
 取得部131は、第2の実施形態に係る情報処理で用いられる各種情報を取得する。また、取得部131は、取得した情報を、この情報を用いて処理を行う適切な処理部へと出力してよい。
 また、取得部131は、第1の発話音声を示す第1の音声情報、および、第2の入力操作を示す第2の操作情報を取得してよい。例えば、取得部131は、発話タイミングと、手入力操作のタイミングとの前後関係に基づいて、先に入力された発話音声である第1の発話音声と、第1の発話音声が入力された後に行われた手入力操作である第2の入力操作とを認識してよい。また、これにより取得部131は、端末装置10を介してこれまでに収集されている音声情報の中から、第1の発話音声を示す第1の音声情報を取得してよい。また、取得部131は、端末装置10を介してこれまでに収集されている操作情報の中から、第2の入力操作を示す第2の操作情報を取得してよい。
(訂正操作判定部237について)
 訂正操作判定部237は、第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作が行われた場合には、第1の発話音声が示す発話内容(第1の発話内容)と、第2の入力操作が示す操作内容(第2の操作内容)とに基づいて、第2の入力操作が第1の発話内容を訂正するための訂正操作であるか否かを判定する。
 例えば、訂正操作判定部237は、第1の発話内容が言い間違えによる誤りの内容であり、この誤りの内容を訂正する意図で利用者が第2の操作内容を手入力したか否か利用者の意図を推定する。つまり、訂正操作判定部237は、第1の発話音声が示す第1の発話内容と、第2の入力操作が示す第2の操作内容とに基づいて、利用者が第2の操作内容によって第1の発話内容を訂正する意図があるか否かを推定する。そして、訂正操作判定部237は、推定結果に応じて、第2の入力操作が第1の発話内容を訂正するための訂正操作であるか否かを判定する。例えば、訂正操作判定部237は、利用者が第2の入力操作によって第1の発話内容を訂正する意図があるとの推定結果が得られた場合には、第2の入力操作が第1の発話内容を訂正するための訂正音声であると判定することができる。
 以下では、利用者が第2の入力によって第1の発話内容を訂正する意図があるか否かを推定し、推定結果に応じて、第2の入力操作が第1の発話内容を訂正するための訂正操作であるか否かを判定するという意図解析の具体例を示す。
 例えば、訂正操作判定部237は、第1の音声内容(第1の音声情報)を示すテキストに対する形態素解析により、このテキストを構成する各単語を第1のキーワードとして抽出してよい。また、訂正操作判定部237は、第2の操作内容(第2の操作情報)に含まれる目的地に関する単語を第2のキーワードとして抽出してよい。
 係る場合、訂正操作判定部237は、第1の発話内容に対応する第1のキーワードと、第2の操作内容に対応する第2のキーワードとに基づいて、第2の入力操作が第1の発話内容を訂正するための訂正操作であるか否かを判定する。
 ここで、上記の通り、第2の入力操作は、第1の発話音声に引き続き行われた目的地設定操作であってよい。このようなことから、訂正操作判定部237は、目的地設定操作としての第2の入力操作で入力された目的地を示す第2のキーワードを用いて、第2の入力操作が第1の発話内容を訂正するための訂正操作であるか否かを判定する。
 例えば、訂正操作判定部237は、第1のキーワードと、第2のキーワードとの類似性に基づいて、第2の入力操作が第1の発話内容を訂正するための訂正操作であるか否かを判定してよい。例えば、訂正音声判定部132は、1つの第1のキーワードと、1つの第2のキーワードとの間で成立する組合せごとに、類似性を検出することで、検出した類似性に基づいて、第2の入力操作が第1の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。
 例えば、訂正操作判定部237は、第1のキーワードと、第2のキーワードとの類似性を検出するにあたって、第1の実施形態に係る情報処理と同様の手法を用いてよい。具体的には、訂正操作判定部237は、読みの類似性、意味の類似性、漢字の読み方の類似性等を検出することで、類似度を算出し、算出した類似度に基づいて、利用者の意図を推定してよい。
 また、訂正操作判定部237は、第1の発話音声が入力されてから所定の時間が経過するまでの第2の入力操作で入力された第2のキーワードとの類似性に基づいて、第2の入力操作が第1の発話内容を訂正するための訂正操作であるか否かを判定してもよい。
 ここで、利用者は、目的地を示す発話音声を入力したが、目的地を言い間違えていたことに気付いた場合、一般に、車両VExを停車させた状態で、端末装置10に対する手入力により目的地を設定し直す。このようなことから、訂正操作判定部237は、第1の発話音声が入力されてから車両VExが動き出すまでの間(第1の発話音声が入力された後、車両VExが停車されている間)において、第2の入力操作が行われたことを検知できた場合には、この第2の入力操作で入力された第2のキーワードとの類似性に基づいて、第2の入力操作が第1の発話内容を訂正するための訂正操作であるか否かを判定してもよい。
(紐付部134について)
 紐付部134は、第2の入力操作が第1の発話内容を訂正するための訂正操作であると判定された場合には、第1の発話内容と、第2の入力操作が示す第2の入力内容とを紐付ける。
 例えば、紐付部134は、第2の入力操作が第1の発話内容を訂正するための訂正操作であると判定された場合には、第2の操作内容が示す第2のキーワードと、第1の発話内容に含まれる第1のキーワードとの組合せのうち、互いに類似していると判定された第2のキーワードと、第1のキーワードとを組合せを抽出する。そして、紐付部134は、抽出した組合せにおける第2のキーワードを正解情報とし、また、この組合せにおける第1のキーワードを当該正解情報に対する誤り情報として、第2のキーワードと、第1のキーワードとを紐付ける。
 例えば、紐付部134は、第2のキーワードを正解情報とし、第1のキーワードを正解情報に対する誤り情報として、第2のキーワードと、第1のキーワードとを紐付けた紐付結果に対して、この第2のキーワードに対して払い出した紐付けIDを対応付けた状態で、紐付情報データベース122に登録してよい。
(学習部135について)
 学習部135は、紐付部134により紐付けられた正解情報と誤り情報との組を学習データとして、誤り情報が示す発話内容のうち、正解情報が示す操作内容に対して間違えられやすい発話内容のパターンを学習する。例えば、学習部135は、正解情報と誤り情報との組を学習データとして、誤り情報が示す第1のキーワードのうち、正解情報が示す第2のキーワードに対して間違えられやすいキーワードのパターンを学習する。
(情報制御部136について)
 情報制御部136は、紐付部134による紐付結果に基づいて、第1の発話内容に対する所定の制御を行う。
 例えば、情報制御部136は、紐付部134により紐付けられた正解情報と誤り情報との関係性に基づいて、誤り情報が示す発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す操作内容として認識されるよう、当該誤り情報を正解情報としてユーザ辞書(ユーザ辞書データベース123)に登録する。
 例えば、情報制御部136は、学習部135による学習結果に基づいて、誤り情報が示す発話内容のうち、正解情報が示す操作内容に対して間違えられやすい発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す操作内容として認識されるよう、当該誤り情報を正解情報としてユーザ辞書に登録する。例えば、情報制御部136は、学習部135による学習結果に基づいて、キーワードをユーザ辞書に登録する。例えば、情報制御部136は、学習結果に基づいて、第1のキーワードのうち、第2のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力されたこの第1のキーワードが第2のキーワードとして認識されるよう、この第1のキーワードをユーザ辞書に登録する。
〔3.処理手順〕
 次に、図11を用いて、第2の実施形態に係る情報処理の手順について説明する。図11は、第2の実施形態に係る情報処理の手順を示すフローチャートである。なお、図11の例では、端末装置10が、発話音声の入力を受け付けるたびに、受け付けた発話音声を示す発話情報を情報処理装置100に送信しているものとする。また、情報処理装置100は、端末装置10から送信された音声情報を発話情報データベース121に随時蓄積しているものとする。
 一方、図11の例では、端末装置10が、手入力操作による入力を受け付けるたびに、入力された操作内容を示す操作情報を情報処理装置100に送信しているものとする。また、情報処理装置100は、端末装置10から送信された操作情報を操作情報データベース224に随時蓄積しているものとする。
 また、図11では、車両VE1の利用者U1を一例に用いて、情報処理手順を説明する。
 このような状態において、取得部131は、意図解析を行うタイミングになったか否かを判定する(ステップS801)。例えば、取得部131は、意図解析を行う上で十分な数の音声情報が発話情報データベース121に蓄積され、また、意図解析を行う上で十分な数の操作情報が操作情報データベース224に蓄積されているか否かに基づき、意図解析を行うタイミングになったか否かを判定してよい。
 取得部131は、意図解析を行うタイミングになっていないと判定している間は(ステップS801;No)、意図解析を行うタイミングになったと判定できるまで待機する。
 一方、取得部131は、意図解析を行うタイミングになったと判定できた場合には(ステップS801;Yes)、発話タイミングと、操作タイミングとの前後関係に基づいて、第1の発話音声を示す第1の音声情報、および、第2の入力操作を示す第2の操作情報を取得する(ステップS802)。例えば、取得部131は、発話タイミングと、操作タイミングとの前後関係に基づいて、利用者U1によって先に入力された発話音声である第1の発話音声と、第1の発話音声が入力された後に利用者U1によって行われた手入力操作である第2の入力操作とを認識してよい。
 そして、取得部131は、発話情報データベース121に蓄積されている音声情報であって、利用者U1に対応する音声情報の中から、第1の発話音声を示す第1の音声情報を取得する。また、取得部131は、操作情報データベース224に蓄積されている操作情報であって、利用者U1に対応する操作情報の中から、第2の入力操作を示す第2の操作情報を取得する。
 次に、訂正操作判定部237は、第1の音声情報と、第2の入力情報との組の全てについて、意図解析が済んでいない状態であるか否かを判定する(ステップS803)。なお、ここでいう、第1の音声情報と、第2の音声情報との組とは、発話タイミングと操作タイミングとが連続する関係にある第1の発話音声と、第2の入力操作とに対応する組であってよい。
 訂正操作判定部237は、第1の音声情報と、第2の入力情報との組の全てについて、意図解析済みであると判定した場合には(ステップS803;No)、この時点で第2の実施形態に係る情報処理を終了させる。
 一方、訂正操作判定部237は、第1の音声情報と、第2の入力情報との組の全てについて、意図解析が済んでいない状態であると判定した場合には(ステップS803;Yes)、第1の音声情報と、第2の入力情報との組のうち、意図解析が済んでいない未処理の組を取得する(ステップS804)。
 続いて、訂正操作判定部237は、ステップS804で取得した第1の音声情報および第2の入力情報に基づいて、第1の音声情報が示す第1の発話内容を訂正するために、第2の入力操作が行われたか否か利用者U1の意図を推定する(ステップS805)。具体的には、訂正操作判定部237は、第1の発話音声が示す第1の発話内容と、第2の入力操作が示す第2の操作内容とに基づいて、第2の操作内容によって第1の発話内容を訂正するために、利用者U1が第2の発話内容を示す第2の入力操作を行ったか否か利用者U1の意図を推定する。
 例えば、訂正操作判定部237は、第1の音声内容(第1の音声情報)を示すテキストに対する形態素解析により、このテキストを構成する各単語を第1のキーワードとして抽出する。また、訂正操作判定部237は、第2の操作内容(第2の操作情報)に含まれる目的地に関する単語を第2のキーワードとして抽出してよい。そして、訂正操作判定部237は、抽出した第1のキーワードと、第2のキーワードとの類似性に基づいて、第2の操作内容によって第1の発話内容を訂正するために、利用者U1が第2の入力操作を行ったか否か利用者U1の意図を推定する。
 続いて、訂正操作判定部237は、意図解析により利用者U1の意図を推定した推定結果に基づいて、第2の入力操作が第1の発話内容を訂正するための訂正操作であるか否かを判定する(ステップS806)。
 訂正操作判定部237は、第2の入力操作が第1の発話内容を訂正するための訂正操作でないと判定した場合には(ステップS806;No)、第1の音声情報と、第2の操作情報との組のうち、意図解析が済んでいない未処理の他の組について処理を行うべくステップS803に戻る。
 一方、紐付部134は、第2の入力操作が第1の発話内容を訂正するための訂正操作であると判定した場合には(ステップS806;Yes)、第1のキーワードと、第2のキーワードとを紐付ける紐付処理を行う(ステップS807)。例えば、紐付部134は、第2の操作内容(第2の操作情報)に含まれる第2のキーワードと、第1の発話内容(第1の発話情報)に含まれる第1のキーワードとの組合せのうち、互いに類似していると判定された第2のキーワードと、第1のキーワードとの組合せを抽出する。そして、紐付部134は、抽出した組合せにおける第2のキーワードを正解情報とし、また、この組合せにおける第1のキーワードを当該正解情報に対する誤り情報として、第2のキーワードと、第1のキーワードとを紐付ける。
 また、紐付部134は、第2のキーワードと、第1のキーワードとを紐付けた紐付結果に対して、利用者U1を示す利用者IDおよび紐付けIDの組を対応付けた状態で、紐付情報データベース122に登録してよい。この結果、図5に示すような、紐付情報データベース122が得られる。
 次に、学習部135は、紐付処理の結果得られた正解情報と誤り情報との組を学習データとして、誤り情報が示す第1のキーワードのうち、正解情報が示す第2のキーワードに対して間違えられやすいキーワードのパターンを学習する(ステップS808)。
 次に、情報制御部136は、学習結果に基づいて、キーワードを辞書登録する(ステップS809)。例えば、情報制御部136は、学習結果に基づいて、第1のキーワードのうち、第2のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力された第1のキーワードが第2のキーワードとして認識されるよう、第1のキーワードを「発話キーワード」とし、第2のキーワードを「認識キーワード」として、双方のキーワードを対応付けた状態でユーザ辞書に登録する。この結果、図6に示すような、ユーザ辞書データベース123が得られる。
 ここで、情報制御部136は、ステップS803へと処理を戻す。そして、第1の音声情報と、第2の操作情報との組の全てについて、意図解析済みであると判定された場合には、この時点で第2の実施形態に係る情報処理は終了となる。
(その他の実施形態)
 情報処理装置100(情報処理装置200)は、上記実施形態以外にも種々の異なる態様で実現されてよい。そこで、以下では、情報処理装置100(情報処理装置200)の他の実施形態について説明する。
〔1.言い間違いを示唆するワード検出〕
 上記第1の実施形態では、取得部131が、発話タイミングの前後関係に基づいて、先に入力された発話音声である第1の発話音声と、第1の発話音声が入力された後に入力された発話音声である第2の発話音声とを認識することで、第1の音声情報、および、第2の音声情報を取得する例を示した。
 しかし、取得部131は、言い間違いを示唆するワードを検出できた場合には、このワードが発せられたタイミングに基づいて、第1の発話音声と第2の発話音声とを認識することで、第1の音声情報、および、第2の音声情報を取得してよい。
 例えば、利用者は、言い間違いに気付いた場合、条件反射的に、「間違えた!」あるいは「しまった!」等と発してしまう場合がある。また、利用者は、このように発した直後に、言い間違いを訂正するための発話音声を入力する傾向にある。
 このようなことから、取得部131は、「間違えた!」あるいは「しまった!」等の言い間違いを示唆するワードを検出できた場合には、係るワードの直前に入力された発話音声を第1の発話音声として認識し、また、係るワードの直後に入力された発話音声を第2の発話音声として認識してよい。
 また、訂正音声判定部132は、言い間違いを示唆するワードが検出された場合には、係るワードの直後に入力された発話音声(すなわち、第2の発話音声)が、第1の発話内容を訂正するために入力された訂正音声であると判定してもよい。
 また、取得部131は、第2の実施形態でも言い間違いを示唆するワードを検出してよい。そして、第2の実施形態では、取得部131は、言い間違いを示唆するワードを検出できた場合には、このワードが発せられたタイミングに基づいて、第1の発話音声と第2の入力操作とを認識することで、第1の音声情報、および、第2の操作情報を取得してよい。
 例えば、取得部131は、「間違えた!」あるいは「しまった!」等の言い間違いを示唆するワードを検出できた場合には、係るワードの直前に入力された発話音声を第1の発話音声として認識し、また、係るワードの直後に行われた手入力操作を第2の入力操作として認識してよい。
 また、訂正操作判定部237は、言い間違いを示唆するワードが検出された場合には、係るワードの直後に行われた手入力操作(すなわち、第2の入力操作)が、第1の発話内容を訂正するための訂正操作であると判定してもよい。
〔2.登録精度向上に関する施策〕
 上記第2の実施形態では、情報制御部136が、学習部135による学習結果に基づいて、第2の操作内容に含まれる第2のキーワードと、第2の発話音声に含まれる第1のキーワードのうち第2のキーワードに対して間違えられやすい第1のキーワードとを対応付けてユーザ辞書に登録する例を示した。
 しかし、情報制御部136は、第2のキーワードが示す目的地に利用者が実際に到着したか否かに基づいて、第2のキーワードと、第1のキーワードとを対応付けてユーザ辞書に登録してもよい。例えば、情報制御部136は、利用者(利用者の車両VEx)の位置情報と、利用者により設定された目的地(第2のキーワード)に基づき、利用者がこの目的地に到着したか否かを判定し、利用者が目的地に到着したことを検知できた場合には、第2のキーワードと、第1のキーワードとを対応付けてユーザ辞書に登録してもよい。
 このような第2の実施形態に係る情報処理によれば、情報処理装置200は、ユーザ辞書への登録精度を向上させることができるようになる。
(その他)
〔1.ハードウェア構成〕
 また、上述してきた第1の実施形態に係る情報処理装置100、および、第2の実施形態に係る情報処理装置200は、例えば、図12に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置100を例に説明する。図12は、情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
 CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
 CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
 メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が第1の実施形態に情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラム(例えば、実施形態に係る情報処理プログラム)を実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
 また、例えば、コンピュータ1000が第2の実施形態に情報処理装置200として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラム(例えば、実施形態に係る情報処理プログラム)を実行することにより、制御部230の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
〔2.その他〕
 また、上記各実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 また、上記各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
(まとめ)
 以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
 また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
   1 情報処理システム
  10 端末装置
 100 情報処理装置
 120 記憶部
 121 発話情報データベース
 122 紐付情報データベース
 123 ユーザ辞書データベース
 130 制御部
 131 取得部
 132 訂正音声判定部
 133 検出部
 134 紐付部
 135 学習部
 136 情報制御部
 200 情報処理装置
 220 記憶部
 224 操作情報データベース
 230 制御部
 237 訂正操作判定部

Claims (10)

  1.  第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作が行われた場合には、前記第1の発話音声が示す発話内容と、前記第2の入力操作が示す操作内容とに基づいて、前記第2の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定部と、
     前記判定部により前記第2の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付部と、
     前記紐付部による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御部と
     を有することを特徴とする情報処理装置。
  2.  前記判定部は、前記第1の発話音声が示す発話内容として前記第1の発話音声に含まれる第1のキーワードと、前記第2の入力操作が示す操作内容として前記第2の入力操作で入力された第2のキーワードとに基づいて、前記第2の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する
     ことを特徴とする請求項1に記載の情報処理装置。
  3.  前記第2の入力操作は、前記第1の発話音声に引き続き行われた目的地設定操作であり、
     前記判定部は、前記第2の入力操作が、前記第2のキーワードとして、前記目的地設定操作で入力された目的地を示す第2のキーワードを用いて前記発話内容を訂正するための訂正操作であるか否かを判定する
     ことを特徴とする請求項2に記載の情報処理装置。
  4.  前記判定部は、前記第1のキーワードと、前記第2のキーワードとの類似性に基づいて、前記第2の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する
     ことを特徴とする請求項2または3に記載の情報処理装置。
  5.  前記判定部は、前記第2のキーワードとして、前記第1の発話音声が入力されてから所定の時間が経過するまでに入力された前記第2の入力操作に含まれる第2のキーワードとの類似性に基づいて、前記第2の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する
     ことを特徴とする請求項4に記載の情報処理装置。
  6.  前記紐付部は、前記判定部により前記第2の入力操作が前記訂正操作であると判定された場合には、前記第2のキーワードを正解情報とし、前記第1のキーワードを前記正解情報に対する誤り情報として、前記第2のキーワードと前記第1のキーワードとを紐付ける
     ことを特徴とする請求項2~5のいずれか1つに記載の情報処理装置。
  7.  前記情報制御部は、前記紐付部により紐付けられた前記正解情報と前記誤り情報との関係性に基づいて、前記誤り情報が示す発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す操作内容として認識されるよう、当該誤り情報を正解情報として所定の辞書に登録する
     ことを特徴とする請求項6に記載の情報処理装置。
  8.  前記紐付部により紐付けられた前記正解情報と前記誤り情報との組を学習データとして、前記誤り情報が示す発話内容のうち、前記正解情報が示す操作内容に対して間違えられやすい発話内容のパターンを学習する学習部をさらに有し、
     前記情報制御部は、前記学習部による学習結果に基づいて、前記誤り情報が示す発話内容のうち、前記正解情報が示す操作内容に対して間違えられやすい発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す操作内容として認識されるよう、当該誤り情報を正解情報として前記所定の辞書に登録する
     ことを特徴とする請求項7に記載の情報処理装置。
  9.  情報処理装置が実行する情報処理方法であって、
     第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作が行われた場合には、前記第1の発話音声が示す発話内容と、前記第2の入力操作が示す操作内容とに基づいて、前記第2の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定工程と、
     前記判定工程により前記第2の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付工程と、
     前記紐付工程による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御工程と
     を含むことを特徴とする情報処理方法。
  10.  第1の発話音声が入力された後に、所定の対象物に触れることで情報入力する第2の入力操作が行われた場合には、前記第1の発話音声が示す発話内容と、前記第2の入力操作が示す操作内容とに基づいて、前記第2の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定手順と、
     前記判定手順により前記第2の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付手順と、
     前記紐付手順による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御手順と
     を情報処理装置に実行させるための情報処理プログラム。
PCT/JP2021/040095 2021-10-29 2021-10-29 情報処理装置、情報処理方法および情報処理プログラム WO2023073945A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/040095 WO2023073945A1 (ja) 2021-10-29 2021-10-29 情報処理装置、情報処理方法および情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/040095 WO2023073945A1 (ja) 2021-10-29 2021-10-29 情報処理装置、情報処理方法および情報処理プログラム

Publications (1)

Publication Number Publication Date
WO2023073945A1 true WO2023073945A1 (ja) 2023-05-04

Family

ID=86157615

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/040095 WO2023073945A1 (ja) 2021-10-29 2021-10-29 情報処理装置、情報処理方法および情報処理プログラム

Country Status (1)

Country Link
WO (1) WO2023073945A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007127896A (ja) * 2005-11-04 2007-05-24 Nissan Motor Co Ltd 音声認識装置及び音声認識方法
JP2013225115A (ja) * 2012-03-21 2013-10-31 Denso It Laboratory Inc 音声認識装置、音声認識プログラム、及び、音声認識方法
JP2020194494A (ja) * 2019-05-30 2020-12-03 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007127896A (ja) * 2005-11-04 2007-05-24 Nissan Motor Co Ltd 音声認識装置及び音声認識方法
JP2013225115A (ja) * 2012-03-21 2013-10-31 Denso It Laboratory Inc 音声認識装置、音声認識プログラム、及び、音声認識方法
JP2020194494A (ja) * 2019-05-30 2020-12-03 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Similar Documents

Publication Publication Date Title
US11854527B2 (en) Electronic device and method of controlling speech recognition by electronic device
KR102411766B1 (ko) 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
US11687319B2 (en) Speech recognition method and apparatus with activation word based on operating environment of the apparatus
US10832674B2 (en) Voice data processing method and electronic device supporting the same
KR102426717B1 (ko) 발화 인식 모델을 선택하는 시스템 및 전자 장치
CN105741836B (zh) 声音识别装置以及声音识别方法
EP3709294B1 (en) Electronic device for providing speech recognition service and method thereof
US11393459B2 (en) Method and apparatus for recognizing a voice
KR20200007496A (ko) 개인화 ASR(automatic speech recognition) 모델을 생성하는 전자 장치 및 이를 동작하는 방법
EP3533052B1 (en) Speech recognition method and apparatus
US8626797B2 (en) Information processing apparatus, text selection method, and program
JP6866715B2 (ja) 情報処理装置、感情認識方法、及び、プログラム
US11302324B2 (en) Speech processing method and apparatus therefor
US20200219487A1 (en) Information processing apparatus and information processing method
US20200005768A1 (en) Method and apparatus for recognizing a voice
CN112639962A (zh) 处理用户话语的电子设备及其控制方法
KR20200040097A (ko) 전자 장치 및 그 제어 방법
KR20180054362A (ko) 사용자의 음성 입력을 인식하는 방법 및 장치
US11315553B2 (en) Electronic device and method for providing or obtaining data for training thereof
US11398221B2 (en) Information processing apparatus, information processing method, and program
KR20200080389A (ko) 전자 장치 및 그 제어 방법
KR102511517B1 (ko) 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US20220172716A1 (en) Response generation device and response generation method
WO2023073945A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2023066625A (ja) 情報処理装置、情報処理方法および情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21962486

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023556050

Country of ref document: JP

Kind code of ref document: A