WO2018043137A1 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2018043137A1
WO2018043137A1 PCT/JP2017/029491 JP2017029491W WO2018043137A1 WO 2018043137 A1 WO2018043137 A1 WO 2018043137A1 JP 2017029491 W JP2017029491 W JP 2017029491W WO 2018043137 A1 WO2018043137 A1 WO 2018043137A1
Authority
WO
WIPO (PCT)
Prior art keywords
phrase
recognition
information
word
information processing
Prior art date
Application number
PCT/JP2017/029491
Other languages
English (en)
French (fr)
Inventor
祐平 滝
真一 河野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/323,706 priority Critical patent/US20190228764A1/en
Priority to JP2018537116A priority patent/JPWO2018043137A1/ja
Priority to CN201780051220.9A priority patent/CN109643545A/zh
Priority to EP17846145.5A priority patent/EP3509059A4/en
Publication of WO2018043137A1 publication Critical patent/WO2018043137A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Definitions

  • the present technology relates to an information processing apparatus and an information processing method, and more particularly, to an information processing apparatus and an information processing method capable of quickly obtaining a desired voice recognition result.
  • the present technology makes it possible to quickly obtain a desired voice recognition result.
  • the information processing apparatus includes an input speech indicating a recognition target word / phrase that is a recognition target word, and a preceding word / phrase that is a word before the recognition target word / phrase in a sentence including the recognition target word / phrase. And a speech recognition unit that performs speech recognition of the recognition target phrase based on phrase information including at least one of the subsequent phrases that are phrases subsequent to the recognition target.
  • the recognition target word is a word that enters a part that corrects a sentence presented as a recognition result of speech recognition performed earlier, the preceding word is a word before the correction part, and the subsequent word is It can be a phrase after the part to be corrected.
  • the phrase information may further include an excluded phrase that is a phrase that is excluded from the recognition result of speech recognition.
  • the exclusion word / phrase can be a word / phrase determined to have erroneously recognized the recognition target word / phrase in the speech recognition performed previously.
  • the related information further includes at least one of context information relating to a context using speech recognition in the other information processing apparatus, user information relating to a user using speech recognition, and system information relating to a system for inputting speech.
  • the voice recognition unit may further perform voice recognition based on at least one of the context information, the user information, and the system information.
  • the context information may include at least one of information related to the use of voice recognition, the position of the other information processing apparatus, and the current time.
  • the user information may include at least one of information for identifying the user, information indicating the user's behavior, and information indicating the user's emotion.
  • the system information may include at least one of the type of the other information processing apparatus and the configuration of the voice input system of the other information processing apparatus.
  • the voice recognition unit can select at least one of an acoustic model and a language model to be used based on at least one of the context information, the user information, and the system information.
  • a learning unit that learns the tendency of the user's recognition result based on the user's voice recognition execution history is further provided, and the voice recognition unit further performs voice recognition based on the learning result of the learning unit. be able to.
  • the speech recognition unit displays a final recognition result based on a degree of association between each candidate obtained as a recognition result of speech recognition of the recognition target phrase and at least one of the preceding phrase and the subsequent phrase. Can be selected.
  • the information processing method includes an input speech indicating a recognition target word / phrase that is a recognition target word and a preceding word / phrase that is a word before the recognition target word / phrase in a sentence including the recognition target word / phrase. And a speech recognition step of performing speech recognition of the recognition target phrase based on phrase information including at least one of the subsequent phrases that are the phrases after the recognition target.
  • An information processing apparatus includes an input voice indicating a recognition target word / phrase that is a recognition target word / phrase, and a preceding word / phrase that is a word preceding the recognition target word / phrase in a sentence including the recognition target word / phrase. And the phrase information including at least one of the succeeding phrases that are the phrases after the recognition target phrase are transmitted to another information processing apparatus, and the recognition result of the speech recognition of the recognition target phrase is received from the other information processing apparatus. And a presentation control unit that controls presentation of the recognition result.
  • the recognition target word is a word that enters a part that corrects a sentence presented as a recognition result of speech recognition performed earlier, the preceding word is a word before the correction part, and the subsequent word is It can be a phrase after the part to be corrected.
  • the information processing method includes an input voice indicating a recognition target word / phrase that is a recognition target word and a preceding word / phrase that is a word preceding the recognition target word / phrase in a sentence including the recognition target word / phrase. And a transmission control step for controlling transmission of phrase information including at least one of the subsequent phrases that are phrases subsequent to the recognition target phrase to the other information processing apparatus, and the recognition result of the speech recognition of the recognition target phrase.
  • a reception control step for controlling reception from another information processing apparatus; and a presentation control step for controlling presentation of the recognition result.
  • an input voice indicating a recognition target word / phrase that is a recognition target word / phrase, and a preceding word / phrase that is a word before the recognition target word / phrase in a sentence including the recognition target word / phrase and the recognition Phrase information including at least one of subsequent phrases that are phrases after the target phrase is transmitted to another information processing apparatus, and a recognition result of speech recognition of the recognition target phrase is received from the other information processing apparatus, Presentation of recognition results is controlled.
  • voice recognition can be performed.
  • a desired speech recognition result can be obtained quickly.
  • FIG. 1 is a block diagram illustrating an embodiment of an information processing system to which the present technology is applied. It is a flowchart for demonstrating a process of a client. It is a figure which shows the example of speech recognition start API. It is a figure which shows the example of related information provision API. It is a figure which shows the example of other related API. It is a figure which shows the example of recognition result return API. It is a figure which shows the example of the presentation method of a recognition result. It is a figure which shows the example of the argument of speech recognition start API. It is a figure which shows the example of the presentation method of a recognition result. It is a figure which shows the example of the input screen of manual input mode. It is a figure which shows the example of the input screen of selection mode.
  • Embodiment >> ⁇ 1-1.
  • Configuration example of information processing system> First, a configuration example of an information processing system 10 to which the present technology is applied will be described with reference to FIG.
  • the information processing system 10 is a system that performs voice recognition of input voice input by a user and presents a recognition result.
  • the information processing system 10 includes a client 11, a server 12, and a network 13.
  • the client 11 and the server 12 are connected to each other via the network 13.
  • the client 11 transmits the input voice input by the user to the server 12, receives the voice recognition result for the input voice from the server 12, and presents it.
  • the client 11 includes a mobile information terminal such as a smart phone, a tablet, a mobile phone, and a laptop personal computer, a wearable device, a desktop personal computer, a game machine, a video playback device, a music playback device, and the like.
  • a wearable device for example, various types such as a glasses type, a watch type, a bracelet type, a necklace type, a neckband type, an earphone type, a headset type, and a head mount type can be adopted.
  • the client 11 includes a voice input unit 21, an operation unit 22, a display unit 23, a presentation unit 24, a sensor unit, a communication unit 26, a control unit 27, and a storage unit 28.
  • the control unit 27 includes a voice recognition control unit 41, a presentation control unit 42, and a related information acquisition unit 43.
  • the voice input unit 21, the operation unit 22, the display unit 23, the presentation unit 24, the sensor unit 25, the communication unit 26, the control unit 27, and the storage unit 28 are connected to each other via a bus 29.
  • the voice input unit 21 is constituted by a microphone, for example.
  • the number of microphones can be set arbitrarily.
  • the voice input unit 21 collects voices and the like uttered by the user, supplies voice data indicating the collected voices to the control unit 27, and stores the voice data in the storage unit 28.
  • the operation unit 22 includes various operation members and is used for the operation of the client 11.
  • the operation unit 22 includes a controller, a remote controller, a touch panel, hardware buttons, and the like.
  • the display unit 23 is constituted by a display, for example. Under the control of the presentation control unit 42, the display unit 23 displays images such as a screen showing a voice recognition result, a GUI (Graphical User Interface), and various application programs and service screens.
  • images such as a screen showing a voice recognition result, a GUI (Graphical User Interface), and various application programs and service screens.
  • the presentation unit 24 is constituted by, for example, a speaker, a vibration device, another cooperation device, and the like.
  • the presentation unit 24 presents a voice recognition result and the like under the control of the presentation control unit 42.
  • the sensor unit 25 includes various sensors such as a camera, a distance sensor, a GPS (Global Positioning System) receiver, an acceleration sensor, a gyro sensor, and a biological information sensor.
  • the sensor unit 25 supplies sensor data indicating the detection result of each sensor to the control unit 27 or stores it in the storage unit 28.
  • the communication unit 26 includes various communication devices.
  • the communication method of the communication unit 26 is not particularly limited, and may be either wireless communication or wired communication. Further, the communication unit 26 may support a plurality of communication methods.
  • the communication unit 26 communicates with the server 12 via the network 13 and transmits and receives various data.
  • the communication unit 26 supplies the data received from the server 12 to the control unit 27 or stores it in the storage unit 28.
  • the control unit 27 includes, for example, various processors.
  • the voice recognition control unit 41 acquires data necessary for processing of the voice recognition unit 71 of the server 12 such as voice data and related information, and transmits the data to the server 12 via the communication unit 26 and the network 13. Further, the voice recognition control unit 41 receives a recognition result of voice recognition and the like from the server 12 via the communication unit 26 and the network 13.
  • the presentation control unit 42 controls the presentation of various information by the display unit 23 and the presentation unit 24.
  • the related information acquisition unit 43 is based on audio data supplied from the audio input unit 21, user operation on the operation unit 22, sensor data supplied from the sensor unit 25, a program executed by the control unit 27, and the like. Get related information.
  • the related information is information related to voice recognition and is information used for voice recognition.
  • the storage unit 28 stores programs, data, and the like necessary for the processing of the client 11.
  • the server 12 performs voice recognition of the input voice received from the client 11 and transmits the recognition result to the client 11 via the network 13.
  • the server 12 includes a communication unit 61, a control unit 62, and a storage unit 63.
  • the control unit 62 includes a voice recognition unit 71 and a learning unit 72.
  • the communication unit 61, the control unit 62, and the storage unit 63 are connected to each other via a bus 64.
  • the communication unit 61 includes various communication devices.
  • the communication method of the communication unit 61 is not particularly limited, and may be either wireless communication or wired communication. Further, the communication unit 61 may support a plurality of communication methods.
  • the communication unit 61 communicates with the client 11 via the network 13 and transmits / receives various data.
  • the communication unit 61 supplies data received from the client 11 to the control unit 62 or stores the data in the storage unit 63.
  • the control unit 62 includes, for example, various processors.
  • the voice recognition unit 71 performs voice recognition of the input voice acquired from the client 11.
  • the learning unit 72 generates a voice recognition execution history (hereinafter, referred to as a voice recognition history) of each user and stores it in the storage unit 63.
  • the learning unit 72 performs learning for optimizing the voice recognition processing by the voice recognition unit 71 for each user based on the voice recognition history of each user, for example.
  • the storage unit 63 stores programs, data, and the like necessary for the processing of the server 12.
  • step S ⁇ b> 1 the related information acquisition unit 43 includes audio data supplied from the audio input unit 21, user operation on the operation unit 22, sensor data supplied from the sensor unit 25, and a program executed by the control unit 27. Based on the above, acquisition of related information is started. Examples of related information are given below.
  • the related information includes voice recognition information related to a recognition result of voice recognition, context information about a context using voice recognition in the client 11, user information about a user using voice recognition, and system information about a system for inputting voice.
  • voice recognition information related to a recognition result of voice recognition
  • context information about a context using voice recognition in the client 11 user information about a user using voice recognition
  • system information about a system for inputting voice One or more of the above.
  • the speech recognition information includes, for example, one or more of phrase information including one or more of an excluded phrase, a preceding phrase, and a succeeding phrase, and the number of voice recognition trials.
  • the excluded word / phrase is a word / phrase to be excluded from the recognition result of the voice recognition, for example, a word / phrase determined to be erroneous recognition in the voice recognition performed earlier in the same session is set.
  • the same session is a session from the start of speech recognition of a certain sentence until the speech recognition for the sentence is completed due to confirmation of a recognition result, cancellation of speech recognition, or the like.
  • the preceding phrase is a phrase that is included in a part to be corrected when a sentence obtained as a result of speech recognition (hereinafter referred to as a recognized sentence) is corrected, and that is a recognition target of speech recognition (hereinafter referred to as recognition). It is a phrase before (to be corrected) before the target phrase), and the subsequent phrase is a phrase after the recognition target phrase (after the part to be corrected).
  • each of the recognition target phrase, the preceding phrase, and the subsequent phrase may be composed of a plurality of words.
  • the recognized sentence does not necessarily need to be one completed sentence, and may be, for example, an array of one or more words that do not constitute the completed sentence.
  • the recognition sentence may include two or more sentences.
  • the number of voice recognition trials refers to the number of voice recognition trials within the same voice recognition session.
  • step S4 acquisition of voice recognition information is started after acquiring the recognition result of voice recognition in step S4 described later.
  • the context information includes, for example, one or more of information regarding the use of voice recognition, position information regarding the current position of the client 11, and the current time.
  • Information regarding the use of voice recognition includes, for example, the types of application programs and services that use voice recognition (for example, web search, email, chat, etc.).
  • the current position of the client 11 may be represented by, for example, a specific latitude / longitude, place name, or the type of place such as a station, an underground shopping area, a forest, a building town, or the like.
  • the user information includes, for example, a user ID for identifying the user, action information indicating the user's current action (for example, walking, stopping, moving in a car, sitting, etc.), and the user's current It includes one or more emotion information (e.g., angry, sad, enjoying, etc.) indicating emotion.
  • action information indicating the user's current action (for example, walking, stopping, moving in a car, sitting, etc.)
  • emotion information e.g., angry, sad, enjoying, etc.
  • the system information includes, for example, one or more of information on the type of the client 11 (for example, a smartphone, a tablet, a mobile phone, a personal computer, a wearable device, etc.) and the configuration of the voice input system of the client 11.
  • the type of the client 11 for example, a smartphone, a tablet, a mobile phone, a personal computer, a wearable device, etc.
  • Information regarding the configuration of the voice input system of the client 11 includes, for example, information such as the type of microphone, the number of microphones, the distance between the microphone and the user's mouth, and software used for voice processing.
  • the related information includes session information that defines the validity period of each information included in the related information.
  • step S ⁇ b> 2 the voice recognition control unit 41 requests the server 12 to perform voice recognition via the communication unit 26. Further, the voice recognition control unit 41 provides related information through the communication unit 26 as necessary. For example, a request for execution of voice recognition from the client 11 to the server 12 (the voice recognition unit 71) and provision of various related information are performed using an API (Application Programming Interface).
  • an API Application Programming Interface
  • FIG. 3 shows an example of StartRecognition () which is an API for instructing the server 12 to start speech recognition.
  • StartRecognition takes an argument for providing the server 12 with related information such as a string array type ignoreList, a character string type preSentence, and a character string type postSentence. For example, an ignore list including one or more excluded words is set in ignoreList. In preSentence, the preceding phrase before the recognition target phrase is set. In postSentence, a subsequent phrase is set after the recognition target phrase.
  • FIG. 4 shows an example of an API for providing related information to the server 12.
  • RegisterIgnoreList is an API for providing an exclusion list with a string array type ignoreList as an argument.
  • RegularPostSentence is an API that takes a string-type postSentence as an argument and provides a subsequent phrase.
  • RegisterRecognitionInfo is an API for collectively providing a plurality of related information with the structure type recogInfo as an argument.
  • FIG. 5 shows an example of an API related to other related information.
  • ResetReognitionInfo is an API for instructing the server 12 to discard the related information provided earlier.
  • RegisterCorrectionInfo is an API for providing correct sentences to the server 12.
  • RegisterCorrectionInfo () takes a string type orgSentence and fixedSentence as arguments.
  • orgSentence a recognition sentence before correction recognized by the first speech recognition is set.
  • fixedSentence the correct sentence finally obtained by correcting the recognized sentence is set.
  • PauseRegisterInfo is an API for temporarily stopping the use of related information.
  • PauseRegisterInfo () takes an integer type userId as an argument.
  • userId a user ID of a user who is a target to stop using related information is set.
  • ResumeRegisterInfo is an API for resuming use of related information.
  • ResumeRegisterInfo takes an integer type userId as an argument.
  • userId a user ID of a user who is a target to resume use of related information is set.
  • ExportRegisterInfo is an API for exporting related information.
  • ExportRegisterInfo () takes an integer type userId as an argument. Therefore, ExportRegisterInfo () exports user related information indicated by userId.
  • ImportRegisterInfo is an API for importing related information accumulated in the storage unit 28 of the client 11 or the storage unit 63 of the server 12.
  • ImportRegisterInfo () takes a structured recogInfo as an argument. In recogInfo, related information to be imported is set.
  • ExportRegisterInfo () and ImportRegisterInfo () make it possible to use past user related information and other user related information.
  • the server 12 receives a voice recognition execution request from the client 11 in step S51 in FIG.
  • step S3 the client 11 receives a voice input.
  • the presentation control unit 42 controls the display unit 23 or the presentation unit 24 to prompt the user to input voice.
  • the voice recognition control unit 41 acquires voice data indicating the input voice input to the voice input unit 21 by the user, and transmits the voice data to the server 12 via the communication unit 26.
  • the server 12 receives the voice data in step S52 of FIG. 4 to be described later, performs voice recognition based on the voice data, and transmits the recognition result to the client 11 in step S53.
  • step S4 the voice recognition control unit 41 receives the recognition result via the communication unit 26.
  • FIG. 6 shows an example of OnFinalRecognitionResult () that is an API for returning a recognition result of speech recognition from the server 12 to the client 11.
  • OnFinalRecognitionResult () is called from the speech recognition unit 71 of the server 12 as a callback function, for example.
  • OnFinalRecognitionResult takes a string type resultText, a structured type recogInfo, and an integer type recommendedBehaviour as arguments.
  • resultText text data indicating the recognition result of voice recognition is set. For example, a plurality of word candidates obtained as recognition results and the reliability of each candidate may be set in resultText.
  • the related information used for speech recognition is set in recogInfo.
  • a constant indicating the next action of the recommended client 11 is set.
  • constants such as REGISTER_PRE_SENTENCE, REGISTER_POST_SENTENCE, RESISTER_IGNORE_LIST, USE_OTHER_METHOD, and REGISTER_DEVICE_TYPE are set in recommendedBehaviour.
  • REGISTER_PRE_SENTENCE is set when it is recommended to register the preceding phrase before the recognition target phrase.
  • REGISTER_POST_SENTENCE is set when it is recommended to register the succeeding phrase after the recognition target phrase.
  • RESISTER_IGNORE_LIST is set when registering an exclusion list is recommended.
  • USE_OTHER_METHOD is set when using other input methods is recommended.
  • REGISTER_DEVICE_TYPE is set when registration of the type of the client 11 is recommended.
  • the speech recognition control unit 41 receives the recognition result from the server 12 via the arguments resultText, recogInfo, and recommendedBehaviour of OnFinalRecognitionResult ().
  • step S5 the display unit 23 presents the recognition result under the control of the presentation control unit 42.
  • FIG. 7 shows an example of a recognition result presentation method. More specifically, FIG. 7 shows that when the user inputs the voice “I see a person with a red shirt”, the recognition result (recognition sentence) “I sue a person with a red shirt” is obtained. The example of the presentation method of the recognition result at the time is shown.
  • the recognized sentences are presented in units of words, articles + words, or possessions + words.
  • a unit that can correct the recognized sentence (hereinafter referred to as a correction unit) is determined by the position where the recognized sentence is divided. That is, the recognized sentence is divided into a plurality of correction units by dividing the recognized sentence. The user can select a desired correction unit in the recognized sentence by moving the cursor 101 via the operation unit 22.
  • step S6 the voice recognition control unit 41 determines whether the recognition result needs to be corrected. For example, when the user performs an operation for correcting the recognized sentence via the operation unit 22, the voice recognition control unit 41 determines that the recognition result needs to be corrected, and the process proceeds to step S7.
  • step S7 the speech recognition control unit 41 recognizes that the deleted word / phrase is an erroneously recognized word / phrase, and sets the deleted word / phrase as a correction target.
  • step S7 the voice recognition control unit 41 determines whether or not to change the input mode. For example, if USE_OTHER_METHOD is not set in the argument recommendedBehaviour of OnFinalRecognitionResult () described above, the speech recognition control unit 41 determines that the input mode is not changed, and the process returns to step S2.
  • step S2 Thereafter, until it is determined in step S2 that the correction of the recognition result is not necessary or it is determined in step S7 that the input mode is to be changed, the processes in steps S2 to S7 are repeatedly executed to correct the recognition result. Is called.
  • the speech recognition control unit 41 sets the related information in the argument of StartRecognition () and executes StartRecognition () as shown in FIG.
  • an exclusion list including “sue” deleted from the recognition result is set in ignoreList.
  • “sue” is excluded from the recognition result of the voice recognition of the server 12.
  • preSentence is set to NULL indicating that there is no preceding phrase.
  • preSentence is set to NULL indicating that there is no subsequent phrase.
  • the client 11 transmits voice data indicating the input voice to the server 12 and receives the recognition result of the voice recognition of the recognition target phrase indicated by the input voice from the server 12.
  • FIG. 9 shows an example of a method for presenting a recognition result when “see” is obtained as a result of speech recognition.
  • correction units to be corrected when correcting a plurality of correction units in a recognized sentence, the same process may be performed for each correction unit to be corrected to correct the recognized sentence.
  • correction units to be corrected are adjacent to each other, it is possible to input the sound of adjacent correction units at a time and correct it at a time.
  • step S7 the speech recognition control unit 41 determines that the input mode is to be changed when USE_OTHER_METHOD is set in the argument recommendedBehaviour of the above OnFinalRecognitionResult (), and the process proceeds to step S8. move on.
  • step S8 the client 11 receives an input in the changed input mode.
  • the voice recognition control unit 41 selects one of a manual input mode, a selection mode, and a single character input mode.
  • the presentation control unit 42 causes the display unit 23 to display an input screen corresponding to the selected mode.
  • FIG. 10 shows an example of an input screen corresponding to the manual input mode.
  • a keyboard 121 and a display unit 122 are displayed on this input screen. Then, a character string input using the keyboard 121 is displayed on the display unit 122.
  • the manual input mode is selected, for example, when there is a lot of noise around the client 11 and there are few word candidates obtained as a recognition result in the server 12.
  • the user manually inputs a word / phrase to be input character by character.
  • FIG. 11 shows an example of an input screen corresponding to the selection mode.
  • a display unit 131 On this input screen, a display unit 131, a cursor 132, and a button 133 are displayed.
  • word candidates obtained as recognition results by the server 12 are displayed side by side.
  • the cursor 132 is used to select a word displayed on the display unit 131.
  • the button 133 is used to transition to the manual input mode described above with reference to FIG.
  • the selection mode is selected, for example, when there is a lot of noise around the client 11 and there are many word candidates obtained as a recognition result in the server 12.
  • the user can input a desired word / phrase by selecting a desired word / phrase from the word / phrase candidates presented on the display unit 131 using the cursor 132.
  • FIG. 12 shows an example of an input screen corresponding to the single character input mode.
  • a display unit 141 On this input screen, a display unit 141, buttons 142 to 144, and a cursor 145 are displayed.
  • the display unit 131 displays characters obtained by voice recognition one by one.
  • the button 142 is used to transition to the manual input mode described above with reference to FIG.
  • the button 143 is used when voice recognition is performed again.
  • the button 144 is used when confirming the recognition result of voice recognition.
  • the cursor 145 is used to select one of the buttons 142 to 144.
  • the 1-character input mode is selected, for example, when there is little noise around the client 11.
  • the user voice-inputs the spelling of a desired word one character at a time.
  • Audio data indicating the input audio is transmitted to the server 12.
  • the server 12 performs speech recognition using a speech recognition engine dedicated to inputting one character, and transmits a recognition result to the client 11. Then, the recognition result is displayed on the display unit 141.
  • the normal voice recognition input mode is referred to as a normal input mode in order to distinguish it from the manual input mode, the selection mode, and the one-character input mode.
  • the voice recognition control unit 41 corrects the recognized sentence in accordance with the user input in the selected input mode. Further, the display unit 23 presents the corrected recognized sentence under the control of the presentation control unit 42.
  • step S6 for example, the presentation control unit 42 performs an operation for confirming a recognized sentence via the operation unit 22 or an operation for performing voice recognition of the next sentence. In this case, it is determined that the correction of the recognition result is not necessary, and the process proceeds to step S9.
  • the speech recognition control unit 41 determines the recognition result with the current recognized sentence. For example, the voice recognition control unit 41 stores the confirmed recognition result in the storage unit 28. Further, for example, the presentation control unit 42 causes the display unit 23 or the presentation unit 24 to present the confirmed recognition result. Furthermore, for example, the voice recognition control unit 41 transmits the confirmed recognition result to another device via the communication unit 26.
  • step S ⁇ b> 10 the voice recognition control unit 41 transmits learning data to the server 12 via the communication unit 26.
  • the provision of learning data from the client 11 to the server 12 (learning unit 72 thereof) is performed using an API.
  • FIG. 13 shows an example of LearnRecognitionData () that is an API for providing learning data to the server 12.
  • LearnRecognitionData takes arguments of string type wrongSentence and correctSentence.
  • wrongSentence a wrong sentence, that is, a recognition sentence before correction recognized by the first speech recognition is set.
  • correctSentence the correct sentence finally obtained by correcting the recognized sentence is set.
  • the server 12 receives the learning data in step S54 in FIG.
  • step S11 the voice recognition control unit 41 determines whether or not to continue voice recognition. For example, when the user performs an operation for performing the next voice recognition via the operation unit 22, the voice recognition control unit 41 determines to continue the voice recognition, and the process returns to step S ⁇ b> 2.
  • step S ⁇ b> 11 when the user performs an operation for ending the voice recognition via the operation unit 22, the voice recognition control unit 41 determines to end the voice recognition, and the processing of the client 11 ends. .
  • step S51 the voice recognition unit 71 determines whether or not execution of voice recognition has been requested.
  • step S3 of FIG. 2 described above the voice recognition unit 71 is requested to execute voice recognition by the client 11 executing StartRecognition (), and when the request is received via the communication unit 61, It is determined that the recognition execution has been requested, and the process proceeds to step S52.
  • step S52 the voice recognition unit 71 executes voice recognition.
  • the speech recognition unit 71 selects a language model used for speech recognition based on the related information acquired from the client 11. For example, the voice recognition unit 71 determines whether the user in the current situation is based on one or more of the current position of the client 11, the current time, the use of voice recognition, the user's current behavior, and the user's current emotion. Estimate frequently used phrases. Then, the speech recognition unit 71 selects a language model having a dictionary in which more frequently used phrases are registered.
  • the voice recognition unit 71 selects an acoustic model to be used for voice recognition based on the voice data and related information acquired from the client 11. For example, the voice recognizing unit 71 may determine the acoustic characteristics of the user's surroundings (for example, based on one or more of the voice data, the current position of the client 11, the current time, the type of the client 11, and the voice input system of the client 11). , Noise level, echo characteristics, etc.). Then, the speech recognition unit 71 selects an acoustic model suitable for the estimated acoustic characteristics. Further, for example, the voice recognition unit 71 may select an acoustic model suitable for the user identified by the user ID.
  • the voice recognition unit 71 receives the voice data transmitted from the client 11 in step S3 of FIG.
  • the speech recognition unit 71 performs speech recognition of the input speech indicated by the received speech data using the selected language model and acoustic model, and using related information as necessary. Further, the voice recognition unit 71 calculates a reliability for the recognition result.
  • the voice of “see” is inputted to correct “sue” of “Isue a person with a red shirt”.
  • “sue” is registered in the exclusion list, “I” is registered in the preceding phrase, and “a person” is registered in the succeeding phrase.
  • the voice recognition unit 71 performs voice recognition on the input voice received from the client 11. As a result, it is assumed that the word candidates shown in FIG. 15 and the reliability for each candidate are obtained. In this example, five candidates “she”, “sea”, “sue”, “seed”, and “see” are obtained, and the reliability of each candidate is 0.92, 0.91, 0.95, 0.77, and 0.90, respectively. ing.
  • the final recognition result is selected based only on the reliability, “sue” having the highest reliability is selected. That is, the same phrase as the phrase that was erroneously recognized in the previous speech recognition is obtained as the recognition result.
  • the speech recognition unit 71 calculates a score indicating the degree of association between “I”, which is the preceding phrase, and each candidate (hereinafter referred to as a previous related score).
  • the previous relevance score is higher for a phrase that is more likely to appear next to “I”, and is lower for a phrase that is less likely to appear after “I”.
  • the previous related scores for the candidates “she”, “sea”, “sue”, “seed”, and “see” are 0.1, 0.2, 0.7, 0.4, and 0.7, respectively.
  • the speech recognition unit 71 calculates a score (hereinafter referred to as a post-relation score) indicating the degree of association between each candidate and the subsequent phrase “a person”.
  • the post-relevance score is higher for words that are more likely to appear before “a person” and lower for words that are less likely to appear before “a person”.
  • the post-relation scores for the candidates “she”, “sea”, “sue”, “seed”, and “see” are 0.1, 0.1, 0.9, 0.2, and 0.8, respectively.
  • the voice recognition unit 71 excludes “sue” registered in the exclusion list from the candidates. Then, the voice recognition unit 71 selects a final recognition result from the remaining candidates based on the reliability, the previous related score, and the subsequent related score. As a result, “see” having high reliability, pre-relevance score, and post-relation score are selected. For example, “she” and “sea” have higher reliability than “see”, but are excluded in consideration of the relationship with the preceding and following words.
  • the accuracy of recognition is improved by excluding words that have been determined to be misrecognized in the previous speech recognition and considering the relationship between the words to be recognized and the words before and after that. To do.
  • the speech recognition unit 71 does not necessarily use all of the excluded words, the preceding words, and the subsequent words, and may perform voice recognition using one or two of them.
  • the voice recognition unit 71 may perform voice recognition based on the tendency of the user's recognition result learned by the learning unit 72 as described later.
  • the speech recognition unit 71 may perform speech recognition using a conversion filter that is a personalization filter shown in FIG.
  • FIG. 17 shows an example of the data structure of the conversion filter.
  • Each record of the conversion filter includes orgSentence, fixSentence, and userId.
  • a user ID for identifying a user to whom the conversion filter is applied is registered.
  • the voice recognition unit 71 converts the result into a sentence registered in fixSentence. That is, when a user indicated by userId inputs a sentence registered in fixSentence by voice, there is a high possibility that the user is erroneously recognized as a sentence registered in orgSentence. Therefore, the voice recognition unit 71 automatically corrects the recognition result from the text registered in fixSentence to the text registered in orgSentence.
  • the voice recognition unit 71 transmits the recognition result to the client 11 via the communication unit 61.
  • the voice recognition unit 71 transmits the recognition result to the client 11 by executing OnFinalRecognitionResult () described above with reference to FIG.
  • the speech recognition unit 71 selects an action that is estimated to be highly effective in improving the recognition result from the actions that can be set in the recommendedBehaviour of OnFinalRecognitionResult () based on the internal processing state and the like, and recommendedBehaviour Set to.
  • step S51 determines whether execution of speech recognition has been requested. If it is determined in step S51 that execution of speech recognition has not been requested, the processes in steps S51 to S53 are skipped, and the process proceeds to step S54.
  • step S54 the learning unit 72 determines whether or not learning data has been received.
  • the learning unit 72 transmits the learning data when the client 11 executes LearnRecognitionData () in step S ⁇ b> 10 of FIG. 2 described above, and receives the learning data via the communication unit 61. It is determined that data has been received, and the process proceeds to step S55.
  • step S55 the learning unit 72 performs a learning process. For example, the learning unit 72 registers a speech recognition history based on the learning data.
  • FIG. 18 shows an example of the data structure of the speech recognition history.
  • Each record of the speech recognition history is generated for each session and includes orgSentence, fixSentence, trialNum, finalInputMethod, recording, and userId.
  • the recognition text obtained by the first speech recognition of the target session is registered.
  • the input mode when the recognition result is confirmed is registered.
  • any one of a normal input mode, a manual input mode, a selection mode, and a character input mode is registered.
  • MANUAL_INPUT indicates the manual input mode, and it can be seen that the recognition result is finally determined with the text corrected in the manual input mode.
  • the voice data indicating the input voice input by the user at the first voice recognition of the target session or the file name of the voice data is registered.
  • a user ID for identifying a user who has performed voice recognition that is, a user who has input voice is registered.
  • the learning unit 72 improves the speech recognition engine based on each user's speech recognition history. For example, the learning unit 72 is personalized by improving the acoustic model or language model of the speech recognition engine or adjusting the speech recognition engine for each user.
  • the learning unit 72 learns the tendency of the user recognition result based on the voice recognition history of each user, and generates the conversion filter described above with reference to FIG.
  • step S51 Thereafter, the process returns to step S51, and the processes after step S51 are executed.
  • step S54 determines whether the learning data has been received. If it is determined in step S54 that the learning data has not been received, the process returns to step S51, and the processes after step S51 are executed.
  • the recognition accuracy of speech recognition is improved by using not only input speech but also related information and learning results for each user.
  • the user when the user corrects the recognition result, the user only has to input the speech of the phrase that needs to be corrected without re-entering all the sentences or changing the utterance method. It is reduced. As a result, the user can quickly obtain a desired speech recognition result.
  • a part of the function of the client 11 can be provided in the server 12, or a part of the function of the server 12 can be provided in the client 11.
  • the learning process may be performed by the client 11. Further, for example, sensor data or the like may be transmitted from the client 11 to the server 12, and the server 12 may generate a part or all of the related information.
  • next action can be independently selected by the client 11 without recommending the next action from the server 12.
  • the unit for separating the recognition results can be changed to a word unit, a clause / phrase unit, or the like.
  • the server 12 can control the timing of using the related information or select the related information to be used based on the internal state of the voice recognition process.
  • the series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing various programs by installing a computer incorporated in dedicated hardware.
  • FIG. 19 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 305 is further connected to the bus 304.
  • An input unit 306, an output unit 307, a storage unit 308, a communication unit 309, and a drive 310 are connected to the input / output interface 305.
  • the input unit 306 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 307 includes a display, a speaker, and the like.
  • the storage unit 308 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 309 includes a network interface and the like.
  • the drive 310 drives a removable medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 301 loads the program stored in the storage unit 308 to the RAM 303 via the input / output interface 305 and the bus 304 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 301) can be provided by being recorded in, for example, a removable medium 311 as a package medium or the like.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 308 via the input / output interface 305 by attaching the removable medium 311 to the drive 310. Further, the program can be received by the communication unit 309 via a wired or wireless transmission medium and installed in the storage unit 308. In addition, the program can be installed in the ROM 302 or the storage unit 308 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • a plurality of computers may perform the above-described processing in cooperation.
  • a computer system is configured by one or a plurality of computers that perform the above-described processing.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Accordingly, a plurality of devices housed in separate housings and connected via a network and a single device housing a plurality of modules in one housing are all systems. .
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the present technology can take the following configurations.
  • An information processing apparatus comprising: a speech recognition unit that performs speech recognition of the recognition target phrase based on phrase information including at least one of them.
  • the recognition target phrase is a phrase that enters a part for correcting a sentence presented as a recognition result of speech recognition performed earlier,
  • the preceding phrase is a phrase before the part to be corrected,
  • phrase information further includes an excluded phrase that is a phrase excluded from a recognition result of speech recognition.
  • the excluded word / phrase is a word / phrase determined to be erroneously recognized in the speech recognition performed earlier.
  • (1) to (4) further comprising a communication unit that receives related information including the phrase information and the input voice from another information processing apparatus and transmits a recognition result of voice recognition to the other information processing apparatus.
  • the related information further includes at least one of context information relating to a context using voice recognition in the other information processing apparatus, user information relating to a user using voice recognition, and system information relating to a system for inputting voice.
  • the information processing apparatus further performs voice recognition based on at least one of the context information, the user information, and the system information.
  • the context information includes at least one of information regarding a use of speech recognition, a position of the other information processing apparatus, and a current time.
  • the user information includes at least one of information for identifying the user, information indicating the user's behavior, and information indicating the user's emotion. Processing equipment.
  • the system information includes at least one of a type of the other information processing apparatus and a configuration of a voice input system of the other information processing apparatus.
  • the voice recognition unit selects at least one of an acoustic model and a language model to be used based on at least one of the context information, the user information, and the system information. (6) to (9) ).
  • a learning unit that learns a tendency of the user's recognition result based on the execution history of the user's voice recognition;
  • the information processing apparatus according to any one of (6) to (10), wherein the voice recognition unit further performs voice recognition based on a learning result by the learning unit.
  • the speech recognition unit selects a final recognition result based on a degree of association between each candidate obtained as a recognition result of speech recognition of the recognition target phrase and at least one of the preceding phrase and the succeeding phrase The information processing apparatus according to any one of (1) to (11).
  • An input voice indicating a recognition target word / phrase that is a recognition target word, and a preceding word / phrase before the recognition target word / phrase and a subsequent word / phrase after the recognition target in a sentence including the recognition target word / phrase.
  • An information processing method comprising: a speech recognition step of performing speech recognition of the recognition target phrase based on phrase information including at least one of them.
  • a communication unit that transmits phrase information including at least one of them to another information processing apparatus, and receives a recognition result of speech recognition of the recognition target phrase from the other information processing apparatus;
  • An information processing apparatus comprising: a presentation control unit that controls presentation of the recognition result.
  • the recognition target phrase is a phrase that enters a part for correcting a sentence presented as a recognition result of speech recognition performed earlier,
  • the preceding phrase is a phrase before the part to be corrected,
  • the information processing apparatus according to (14), wherein the subsequent phrase is a phrase after the part to be corrected.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本技術は、所望の音声認識結果を迅速に得ることができるようにする情報処理装置及び情報処理方法に関する。 情報処理装置は、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識部を備える。本技術は、例えば、音声認識を利用する装置に適用できる。

Description

情報処理装置及び情報処理方法
 本技術は、情報処理装置及び情報処理方法に関し、特に、所望の音声認識結果を迅速に得ることができるようにした情報処理装置及び情報処理方法に関する。
 従来、音声で地名を入力する場合に、所望の認識結果を得られずに音声を再入力するとき、先の音声認識において誤認識であると判定された地名を候補から除外するカーナビゲーションシステムが提案されている(例えば、特許文献1参照)。
特開平10-39892号公報
 しかしながら、特許文献1に記載の技術では、誤認識した地名全体が候補から除外されるとともに、ユーザは再度地名全体を音声入力する必要がある。従って、例えば、特許文献1に記載の技術を通常の文章の音声認識に適用した場合、誤認識した文章全体が候補から除外されるため、文章が長くなり誤認識する語句が多くなると、全ての語句が正しく認識されるまで、ユーザは何度も同じ文章を音声入力する必要が生じる。
 そこで、本技術は、所望の音声認識結果を迅速に得ることができるようにするものである。
 本技術の第1の側面の情報処理装置は、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識部を備える。
 前記認識対象語句を、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句とし、前記先行語句を、前記修正する部分の前の語句とし、前記後続語句を、前記修正する部分の後の語句とすることができる。
 前記語句情報には、音声認識の認識結果から除外する語句である除外語句をさらに含ませることができる。
 前記除外語句を、先に行われた音声認識において前記認識対象語句を誤認識したと判定された語句とすることができる。
 前記語句情報を含む関連情報、及び、前記入力音声を他の情報処理装置から受信し、音声認識の認識結果を前記他の情報処理装置に送信する通信部をさらに設けることができる。
 前記関連情報に、前記他の情報処理装置において音声認識を使用するコンテキストに関するコンテキスト情報、音声認識を使用するユーザに関するユーザ情報、及び、音声を入力するシステムに関するシステム情報のうち少なくとも1つをさらに含ませ、前記音声認識部には、さらに前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも1つに基づいて音声認識を行わせることができる。
 前記コンテキスト情報には、音声認識の用途に関する情報、前記他の情報処理装置の位置、及び、現在時刻のうち少なくとも1つを含ませることができる。
 前記ユーザ情報には、前記ユーザを識別するための情報、前記ユーザの行動を示す情報、及び、前記ユーザの感情を示す情報のうち少なくとも1つを含ませることができる。
 前記システム情報には、前記他の情報処理装置の種類、及び、前記他の情報処理装置の音声入力システムの構成のうち少なくとも1つを含ませることができる。
 前記音声認識部には、前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも1つに基づいて、使用する音響モデル及び言語モデルのうち少なくとも1つを選択させることができる。
 前記ユーザの音声認識の実行履歴に基づいて、前記ユーザの認識結果の傾向を学習する学習部をさらに設け、前記音声認識部には、さらに前記学習部による学習結果に基づいて音声認識を行わせることができる。
 前記音声認識部には、前記認識対象語句の音声認識の認識結果として得られた各候補と、前記先行語句及び前記後続語句のうち少なくとも一方との関連度に基づいて、最終的な認識結果を選択させることができる。
 本技術の第1の側面の情報処理方法は、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識ステップを含む。
 本技術の第2の側面の情報処理装置は、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報を他の情報処理装置に送信し、前記認識対象語句の音声認識の認識結果を前記他の情報処理装置から受信する通信部と、前記認識結果の提示を制御する提示制御部とを備える。
 前記認識対象語句を、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句とし、前記先行語句を、前記修正する部分の前の語句とし、前記後続語句を、前記修正する部分の後の語句とすることができる。
 本技術の第2の側面の情報処理方法は、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報の他の情報処理装置への送信を制御する送信制御ステップと、前記認識対象語句の音声認識の認識結果の前記他の情報処理装置からの受信を制御する受信制御ステップと、前記認識結果の提示を制御する提示制御ステップとを含む。
 本技術の第1の側面においては、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識が行われる。
 本技術の第2の側面においては、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報が他の情報処理装置に送信され、前記認識対象語句の音声認識の認識結果が前記他の情報処理装置から受信され、前記認識結果の提示が制御される。
 本技術の第1又は第2の側面によれば、音声認識を行うことができる。特に、本技術の第1又は第2の側面によれば、所望の音声認識結果を迅速に得ることができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した情報処理システムの一実施の形態を示すブロック図である。 クライアントの処理を説明するためのフローチャートである。 音声認識開始APIの例を示す図である。 関連情報提供APIの例を示す図である。 その他の関連APIの例を示す図である。 認識結果返却APIの例を示す図である。 認識結果の提示方法の例を示す図である。 音声認識開始APIの引数の例を示す図である。 認識結果の提示方法の例を示す図である。 手入力モードの入力画面の例を示す図である。 選択モードの入力画面の例を示す図である。 1文字入力モードの入力画面の例を示す図である。 学習用データ提供APIの例を示す図である。 サーバの処理を説明するためのフローチャートである。 音声認識処理の具体例を説明するための図である。 音声認識処理の具体例を説明するための図である。 コンバートフィルタのデータ構造の例を示す図である。 音声認識履歴のデータ構造の例を示す図である。 コンピュータの構成例を示すブロック図である。
 以下、発明を実施するための形態(以下、「実施形態」と記述する)について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 3.応用例
 <<1.実施の形態>>
 <1-1.情報処理システムの構成例>
 まず、図1を参照して、本技術を適用した情報処理システム10の構成例について説明する。
 情報処理システム10は、ユーザが入力した入力音声の音声認識を行い、認識結果を提示するシステムである。情報処理システム10は、クライアント11、サーバ12、及び、ネットワーク13により構成される。クライアント11とサーバ12は、ネットワーク13を介して相互に接続されている。
 なお、図中、クライアント11が1つのみ示されているが、実際には複数のクライアント11がネットワーク13に接続され、複数のユーザがクライアント11を介して情報処理システム10を利用することが可能である。
 クライアント11は、ユーザが入力した入力音声をサーバ12に送信し、その入力音声に対する音声認識結果をサーバ12から受信し、提示する。
 例えば、クライアント11は、スマートフォン、タブレット、携帯電話機、ノート型のパーソナルコンピュータ等の携帯情報端末、ウエアラブルデバイス、デスクトップ型のパーソナルコンピュータ、ゲーム機、動画再生装置、音楽再生装置等により構成される。また、ウエアラブルデバイスには、例えば、眼鏡型、腕時計型、ブレスレット型、ネックレス型、ネックバンド型、イヤフォン型、ヘッドセット型、ヘッドマウント型等の各種の方式を採用することができる。
 クライアント11は、音声入力部21、操作部22、表示部23、提示部24、センサ部、通信部26、制御部27、及び、記憶部28を備える。制御部27は、音声認識制御部41、提示制御部42、及び、関連情報取得部43を備える。音声入力部21、操作部22、表示部23、提示部24、センサ部25、通信部26、制御部27、及び、記憶部28は、バス29を介して相互に接続されている。
 音声入力部21は、例えばマイクロフォンにより構成される。マイクロフォンの数は、任意に設定することができる。音声入力部21は、ユーザが発する音声等を収集し、収集した音声を示す音声データを制御部27に供給したり、記憶部28に記憶させたりする。
 操作部22は、各種の操作部材により構成され、クライアント11の操作に用いられる。例えば、操作部22は、コントローラ、リモートコントローラ、タッチパネル、ハードウエアボタン等により構成される。
 表示部23は、例えばディスプレイにより構成される。表示部23は、提示制御部42の制御の下に、音声認識結果を示す画面、GUI(Graphical User Interface)、各種のアプリケーションプログラムやサービスの画面等の画像を表示する。
 提示部24は、例えば、スピーカ、振動デバイス、他の連携デバイス等により構成される。提示部24は、提示制御部42の制御の下に、音声認識結果等の提示を行う。
 センサ部25は、カメラ、距離センサ、GPS(Global Positioning System)受信機、加速度センサ、ジャイロセンサ、生体情報センサ等の各種のセンサを備える。センサ部25は、各センサの検出結果を示すセンサデータを制御部27に供給したり、記憶部28に記憶させたりする。
 通信部26は、各種の通信デバイスにより構成される。通信部26の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部26が、複数の通信方式に対応していてもよい。通信部26は、ネットワーク13を介してサーバ12と通信を行い、各種のデータの送受信を行う。通信部26は、サーバ12から受信したデータを制御部27に供給したり、記憶部28に記憶させたりする。
 制御部27は、例えば、各種のプロセッサ等により構成される。
 音声認識制御部41は、音声データ、関連情報等のサーバ12の音声認識部71の処理に必要なデータを取得し、通信部26及びネットワーク13を介して、サーバ12に送信する。また、音声認識制御部41は、通信部26及びネットワーク13を介して、音声認識の認識結果等をサーバ12から受信する。
 提示制御部42は、表示部23及び提示部24による各種の情報等の提示を制御する。
 関連情報取得部43は、音声入力部21から供給される音声データ、操作部22に対するユーザ操作、センサ部25から供給されるセンサデータ、及び、制御部27により実行されるプログラム等に基づいて、関連情報を取得する。ここで、関連情報とは、音声認識に関連する情報であって、音声認識に用いられる情報のことである。
 記憶部28は、クライアント11の処理に必要なプログラム、データ等を記憶する。
 サーバ12は、クライアント11から受信した入力音声の音声認識を行い、認識結果を、ネットワーク13を介してクライアント11に送信する。サーバ12は、通信部61、制御部62、及び、記憶部63を備える。制御部62は、音声認識部71及び学習部72を備える。通信部61、制御部62、及び、記憶部63は、バス64を介して相互に接続されている。
 通信部61は、各種の通信デバイスにより構成される。通信部61の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部61が、複数の通信方式に対応していてもよい。通信部61は、ネットワーク13を介してクライアント11と通信を行い、各種のデータの送受信を行う。通信部61は、クライアント11から受信したデータを制御部62に供給したり、記憶部63に記憶させたりする。
 制御部62は、例えば、各種のプロセッサ等により構成される。
 音声認識部71は、クライアント11から取得した入力音声の音声認識を行う。
 学習部72は、各ユーザの音声認識の実行履歴(以下、音声認識履歴と称する)を生成し、記憶部63に記憶させる。また、学習部72は、各ユーザの音声認識履歴に基づいて、例えば、音声認識部71による音声認識処理をユーザ毎に最適化するための学習を行う。
 記憶部63は、サーバ12の処理に必要なプログラム、データ等を記憶する。
 なお、以下、クライアント11(通信部26)とサーバ12(通信部61)がネットワーク13を介して通信を行う場合の”ネットワーク13を介して”の記載は省略する。以下、クライアント11の各部がバス29を介してデータの授受を行う場合の”バス29を介して”の記載は省略する。以下、サーバ12の各部がバス64を介してデータの授受を行う場合の”バス64を介して”の記載は省略する。
 <1-2.情報処理システム10の処理>
 次に、図2乃至図18を参照して、情報処理システム10の処理について説明する。
 (クライアント11の処理)
 まず、図2のフローチャートを参照して、クライアント11の処理について説明する。なお、この処理は、例えば、ユーザが操作部22を介して音声認識の実行の指令を入力したとき開始される。
 ステップS1において、関連情報取得部43は、音声入力部21から供給される音声データ、操作部22に対するユーザ操作、センサ部25から供給されるセンサデータ、及び、制御部27により実行されるプログラム等に基づいて、関連情報の取得を開始する。以下、関連情報の例を挙げる。
 例えば、関連情報は、音声認識の認識結果等に関する音声認識情報、クライアント11において音声認識を使用するコンテキストに関するコンテキスト情報、音声認識を使用するユーザに関するユーザ情報、及び、音声を入力するシステムに関するシステム情報のうち1つ以上を含む。
 音声認識情報は、例えば、除外語句、先行語句、及び、後続語句のうち1つ以上を含む語句情報、並びに、音声認識の試行回数のうち1つ以上を含む。
 除外語句は、音声認識の認識結果から除外する語句であり、例えば、同じセッション内で先に行われた音声認識において誤認識である判定された語句が設定される。ここで、同じセッションとは、ある文章の音声認識が開始されてから、認識結果の確定や音声認識の中止等により、その文章に対する音声認識が終了するまでのセッションのことである。
 先行語句は、音声認識の認識結果として得られた文章(以下、認識文章と称する)を修正する場合に、修正する部分に入る語句であって、音声認識の認識対象となる語句(以下、認識対象語句と称する)の前(修正する部分の前)の語句であり、後続語句は、認識対象語句の後(修正する部分の後)の語句である。なお、認識対象語句、先行語句、後続語句は、それぞれ複数の単語により構成されてもよい。また、認識文章は、必ずしも1つの完成された文章である必要はなく、例えば、完成された文章を構成しない1以上の単語の並びであってもよい。或いは、認識文章に、2以上の文章が含まれてもよい。
 音声認識の試行回数は、同じ音声認識のセッション内において、音声認識を試行した回数のことである。
 なお、音声認識情報の取得は、後述するステップS4において、音声認識の認識結果を取得してから開始される。
 コンテキスト情報は、例えば、音声認識の用途に関する情報、クライアント11の現在位置に関する位置情報、及び、現在時刻のうち1つ以上を含む。
 音声認識の用途に関する情報は、例えば、音声認識を使用するアプリケーションプログラムやサービス等の種類(例えば、ウエブ検索、メール、チャット等)を含む。
 クライアント11の現在位置は、例えば、具体的な緯度・経度、地名等により表してもよいいし、駅、地下街、森、ビル街等の場所の種類により表してもよい。
 ユーザ情報は、例えば、ユーザを識別するためのユーザID、ユーザの現在の行動を示す行動情報(例えば、歩行中、停止中、車で移動中、座っている等)、及び、ユーザの現在の感情を示す感情情報(例えば、怒っている、悲しんでいる、楽しんでいる等)のうち1つ以上を含む。
 システム情報は、例えば、クライアント11の種類(例えば、スマートフォン、タブレット、携帯電話機、パーソナルコンピュータ、ウエアラブルデバイス等)、及び、クライアント11の音声入力システムの構成に関する情報のうち1つ以上を含む。
 クライアント11の音声入力システムの構成に関する情報は、例えば、マイクロフォンの種類、マイクロフォンの個数、マイクロフォンとユーザの口元との間の距離、音声処理に用いるソフトウエア等の情報を含む。
 また、関連情報は、関連情報に含まれる各情報の有効期間を定めるセッション情報を含む。
 ステップS2において、音声認識制御部41は、通信部26を介して、サーバ12に音声認識の実行を依頼する。また、音声認識制御部41は、通信部26を介して、必要に応じて関連情報を提供する。例えば、クライアント11からサーバ12(の音声認識部71)への音声認識の実行の依頼や各種の関連情報の提供は、API(Application Programming Interface)を用いて行われる。ここで、図3乃至図5を参照して、それらのAPIの例について説明する。
 図3は、サーバ12に音声認識の開始を指示するためのAPIであるStartRecognition()の例を示している。
 StartRecognition()は、文字列配列型のignoreList、文字列型のpreSentence、文字列型のpostSentence等の関連情報をサーバ12に提供するための引数をとる。例えば、ignoreListには、1以上の除外語句を含む除外リストが設定される。preSentenceには、認識対象語句の前の先行語句が設定される。postSentenceには、認識対象語句の後に後続語句が設定される。
 なお、上記以外の種類の関連情報を提供する場合には、さらに引数が追加される。或いは、構造体の引数を用いて、複数の関連情報をまとめて提供するようにしてもよい。
 図4は、サーバ12に関連情報を提供するためのAPIの例を示している。
 RegisterIgnoreList()は、文字列配列型のignoreListを引数にとり、除外リストを提供するためのAPIである。
 RegisterPreSentence()は、文字列型のpreSentenceを引数にとり、先行語句を提供するためのAPIである。
 RegisterPostSentence()は、文字列型のpostSentenceを引数にとり、後続語句を提供するためのAPIである。
 RegisterRecognitionInfo()は、構造型のrecogInfoを引数にとり、複数の関連情報をまとめて提供するためのAPIである。
 これらのAPIを用いることにより、StartRecognition()を実行するタイミングと異なる任意のタイミングで、サーバ12に関連情報を提供することができる。
 図5は、その他の関連情報に関するAPIの例を示している。
 ResetReognitionInfo()は、先に提供した関連情報の破棄をサーバ12に指示するためのAPIである。
 RegisterCorrectionInfo()は、サーバ12に正解文章を提供するためのAPIである。RegisterCorrectionInfo()は、文字列型のorgSentence及びfixedSentenceを引数にとる。orgSentenceには、1回目の音声認識により認識された修正前の認識文章が設定される。fixedSentenceには、認識文章を修正することにより最終的に得られた正解文章が設定される。
 PauseRegisterInfo()は、関連情報の使用を一時的に停止させるためのAPIである。PauseRegisterInfo()は、整数型のuserIdを引数にとる。userIdには、関連情報の使用を停止する対象となるユーザのユーザIDが設定される。
 ResumeRegisterInfo()は、関連情報の使用を再開させるためのAPIである。ResumeRegisterInfo()は、整数型のuserIdを引数にとる。userIdには、関連情報の使用を再開する対象となるユーザのユーザIDが設定される。
 ExportRegisterInfo()は、関連情報をエクスポートするためのAPIである。ExportRegisterInfo()は、整数型のuserIdを引数にとる。従って、ExportRegisterInfo()はにより、userIdにより示されるユーザの関連情報がエクスポートされる。
 ImportRegisterInfo()は、クライアント11の記憶部28又はサーバ12の記憶部63に蓄積されている関連情報をインポートするためのAPIである。ImportRegisterInfo()は、構造型のrecogInfoを引数にとる。recogInfoには、インポートする関連情報が設定される。
 ExportRegisterInfo()及びImportRegisterInfo()により、過去のユーザの関連情報を使用したり、他のユーザの関連情報を使用したりすることが可能になる。
 サーバ12は、後述する図14のステップS51において、クライアント11からの音声認識の実行の依頼を受ける。
 ステップS3において、クライアント11は、音声入力を受け付ける。例えば、提示制御部42は、表示部23又は提示部24を制御して、ユーザに音声の入力を促す。そして、音声認識制御部41は、ユーザにより音声入力部21に入力された入力音声を示す音声データを取得し、通信部26を介してサーバ12に送信する。
 サーバ12は、後述する図4のステップS52において、音声データを受信し、音声データに基づいて音声認識を行い、ステップS53において、認識結果をクライアント11に送信する。
 ステップS4において、音声認識制御部41は、通信部26を介して、認識結果を受信する。
 図6は、サーバ12からクライアント11に音声認識の認識結果を返すためのAPIであるOnFinalRecognitionResult()の例を示している。OnFinalRecognitionResult()は、例えば、コールバック関数としてサーバ12の音声認識部71から呼び出される。
 OnFinalRecognitionResult()は、文字列型のresultText、構造型のrecogInfo、整数型のrecommendedBehaviourを引数にとる。
 resultTextには、音声認識の認識結果を示すテキストデータが設定される。なお、例えば、resultTextに、認識結果として得られた複数の語句の候補と各候補の信頼度を設定できるようにしてもよい。
 recogInfoには、音声認識に用いられた関連情報が設定される。
 recommendedBehaviourは、推奨されるクライアント11の次のアクションを示す定数が設定される。例えば、recommendedBehaviourには、REGISTER_PRE_SENTENCE、REGISTER_POST_SENTENCE、RESISTER_IGNORE_LIST、USE_OTHER_METHOD、REGISTER_DEVICE_TYPE等の定数が設定される。REGISTER_PRE_SENTENCEは、認識対象語句の前の先行語句の登録を推奨する場合に設定される。REGISTER_POST_SENTENCEは、認識対象語句の後の後続語句の登録を推奨する場合に設定される。RESISTER_IGNORE_LISTは、除外リストの登録を推奨する場合に設定される。USE_OTHER_METHODは、他の入力方法の利用を推奨する場合に設定される。REGISTER_DEVICE_TYPEは、クライアント11の種類の登録を推奨する場合に設定される。
 なお、recommendedBehaviourに、複数のアクションを組み合わせた定数を設定可能にし、複数のアクションを一度に推奨できるようにしてもよい。
 例えば、音声認識制御部41は、OnFinalRecognitionResult()の引数resultText、recogInfo、及び、recommendedBehaviourを介して、サーバ12から認識結果を受信する。
 ステップS5において、表示部23は、提示制御部42の制御の下に、認識結果を提示する。
 図7は、認識結果の提示方法の例を示している。より具体的には、図7は、ユーザが"I see a person with a red shirt"という音声を入力した場合に、"I sue a person with a red shirt"という認識結果(認識文章)が得られたときの認識結果の提示方法の例を示している。
 この例では、認識文章が、単語、冠詞+単語、又は、所有格+単語の単位で区切られて提示されている。また、認識文章を区切る位置により、認識文章を修正可能な単位(以下、修正単位と称する)が定められる。すなわち、認識文章を区切ることにより、認識文章が複数の修正単位に分割される。ユーザは、操作部22を介して、カーソル101を移動させることにより、認識文章内の所望の修正単位を選択することができる。
 ステップS6において、音声認識制御部41は、認識結果の修正が必要であるか否かを判定する。例えば、音声認識制御部41は、ユーザが操作部22を介して認識文章を修正するための操作を行った場合、認識結果の修正が必要であると判定し、処理はステップS7に進む。
 例えば、上述した図7の例において、ユーザが、操作部22を介して、カーソル101の位置の語句を削除した場合、認識結果の修正が必要であると判定され、処理はステップS7に進む。このとき、音声認識制御部41は、削除された語句が誤認識された語句であると認識し、削除された語句を修正対象に設定する。
 ステップS7において、音声認識制御部41は、入力モードを変更するか否かを判定する。例えば、音声認識制御部41は、上述したOnFinalRecognitionResult()の引数recommendedBehaviourにUSE_OTHER_METHODが設定されていない場合、入力モードを変更しないと判定し、処理はステップS2に戻る。
 その後、ステップS2において、認識結果の修正が必要でないと判定されるか、ステップS7において、入力モードを変更すると判定されるまで、ステップS2乃至S7の処理が繰り返し実行され、認識結果の修正が行われる。
 ここで、図7乃至図9を参照して、認識結果の修正処理の具体例について説明する。
 例えば、上述した図7の例において、ユーザは、提示された認識文章のうち"sue"が間違っていると判定し、修正する場合、カーソル101を"sue"の位置に移動した後、"sue"を削除する。そして、ユーザは、操作部22を介して、削除した"sue"の代わりに置き換える語句(認識対象語句)の音声を入力するための操作を行う。
 このとき、例えば、音声認識制御部41は、図8に示されるようにStartRecognition()の引数に関連情報を設定して、StartRecognition()を実行する。
 具体的には、ignoreListに、認識結果から削除された"sue"を含む除外リストが設定される。これにより、サーバ12の音声認識の認識結果から"sue"が除外されるようになる。
 また、削除した"sue"の前の先行語句である"I"がpreSentenceに設定され、"sue"の後の後続語句である"a person"がpostSentenceに設定される。そして、後述するように、先行語句と後続語句を用いて音声認識が行われることにより、認識精度が向上する。
 なお、認識対象語句が文章の先頭にある場合、例えば、preSentenceには、先行語句がないことを示すNULLが設定される。認識対象語句が文章の末尾にある場合、例えば、preSentenceには、後続語句がないことを示すNULLが設定される。
 そして、ユーザは、"sue"の代わりに入るべき正しい語句である"see"の音声を入力する。クライアント11は、入力音声を示す音声データをサーバ12に送信し、入力音声により示される認識対象語句の音声認識の認識結果をサーバ12から受信する。
 図9は、音声認識の結果として"see"が得られた場合の認識結果の提示方法の例を示している。
 例えば、図7の例において"sue"が表示されていた位置に、認識結果として得られた"see"が表示される。また、"see"の位置にカーソル101が表示される。さらに、"see"の前の先行語句である"I"を"see"を認識するために用いたことをユーザに通知するために、"I"と"see"とを結ぶライン111が表示される。同様に、"see"の後の後続語句である"a person"を"see"を認識するために用いたことをユーザに通知するために、"see"と"a person"を結ぶライン112が表示される。ライン111及びライン112は、認識結果が提示された直後に表示され、しばらくすると消える。
 なお、認識文章内の複数の修正単位を修正する場合、修正対象となる修正単位毎に同様の処理を行って、認識文章を修正するようにすればよい。ただし、修正対象となる修正単位が隣接する場合、隣接する修正単位の音声を一度に入力して、一度に修正するようにすることも可能である。
 図2に戻り、一方、ステップS7において、例えば、音声認識制御部41は、上述したOnFinalRecognitionResult()の引数recommendedBehaviourにUSE_OTHER_METHODが設定されている場合、入力モードを変更すると判定し、処理はステップS8に進む。
 ステップS8において、クライアント11は、変更した入力モードで入力を受け付ける。例えば、音声認識制御部41は、手入力モード、選択モード、及び、1文字入力モードのうちいずれかのモードを選択する。提示制御部42は、選択したモードに対応する入力画面を表示部23に表示させる。
 図10は、手入力モードに対応する入力画面の例を示している。この入力画面には、キーボード121及び表示部122が表示される。そして、キーボード121を用いて入力された文字列が、表示部122に表示される。
 手入力モードは、例えば、クライアント11の周囲の雑音が多く、かつ、サーバ12で認識結果として得られた語句の候補が少ない場合に選択される。ユーザは、キーボード121を用いて、入力したい語句を1文字ずつ手入力する。
 図11は、選択モードに対応する入力画面の例を示している。この入力画面には、表示部131、カーソル132、及び、ボタン133が表示される。表示部131には、サーバ12で認識結果として得られた語句の候補が並べて表示される。カーソル132は、表示部131に表示された語句の選択に用いられる。ボタン133は、図10を参照して上述した手入力モードに遷移するために用いられる。
 選択モードは、例えば、クライアント11の周囲の雑音が多く、かつ、サーバ12で認識結果として得られた語句の候補が多い場合に選択される。ユーザは、表示部131に提示された語句の候補の中から所望のものを、カーソル132を用いて選択することにより、所望の語句を入力することができる。
 図12は、1文字入力モードに対応する入力画面の例を示している。この入力画面には、表示部141、ボタン142乃至144、及び、カーソル145が表示される。表示部131には、音声認識により得られた文字が1文字ずつ表示される。ボタン142は、図10を参照して上述した手入力モードに遷移するために用いられる。ボタン143は、音声認識をやり直す場合に用いられる。ボタン144は、音声認識の認識結果を確定する場合に用いられる。カーソル145は、ボタン142乃至144のうち1つを選択するために用いられる。
 1文字入力モードは、例えば、クライアント11の周囲の雑音が少ない場合に選択される。ユーザは、所望の語句のスペルを1文字ずつ音声入力する。入力した音声を示す音声データは、サーバ12に送信される。サーバ12は、例えば、1文字入力専用の音声認識エンジンを用いて音声認識を行い、認識結果をクライアント11に送信する。そして、認識結果が表示部141に表示される。
 なお、以下、通常の音声認識による入力モードを、手入力モード、選択モード、及び、1文字入力モードと区別するために、通常入力モードと称する。
 音声認識制御部41は、選択した入力モードにおいて、ユーザの入力に従って、認識文章を修正する。また、表示部23は、提示制御部42の制御の下に、修正された認識文章を提示する。
 その後、処理はステップS9に進む。
 一方、ステップS6において、例えば、提示制御部42は、ユーザが操作部22を介して、認識文章を確定する操作を行った場合、又は、次の文章の音声認識を行うための操作を行った場合、認識結果の修正が必要でないと判定し、処理はステップS9に進む。
 ステップS9において、音声認識制御部41は、現在の認識文章で認識結果を確定する。そして、例えば、音声認識制御部41は、確定した認識結果を記憶部28に記憶させる。また、例えば、提示制御部42は、確定した認識結果を、表示部23又は提示部24に提示させる。さらに、例えば、音声認識制御部41は、通信部26を介して、確定した認識結果を他の装置に送信する。
 ステップS10において、音声認識制御部41は、通信部26を介して、サーバ12に学習用データを送信する。例えば、クライアント11からサーバ12(の学習部72)への学習用データの提供は、APIを用いて行われる。
 図13は、サーバ12に学習用データを提供するためのAPIであるLearnRecognitionData()の例を示している。
 LearnRecognitionData()は、文字列型のwrongSentence及びcorrectSentenceの引数をとる。wrongSentenceには、間違い文章、すなわち、1回目の音声認識により認識された修正前の認識文章が設定される。correctSentenceには、認識文章を修正することにより最終的に得られた正解文章が設定される。
 サーバ12は、後述する図14のステップS54において、学習用データを受信する。
 ステップS11において、音声認識制御部41は、音声認識を継続するか否かを判定する。例えば、音声認識制御部41は、ユーザが操作部22を介して、次の音声認識を行うための操作を行った場合、音声認識を継続すると判定し、処理はステップS2に戻る。
 その後、ステップS11において、音声認識を終了すると判定されるまで、ステップS2乃至S11の処理が繰り返し実行される。
 一方、ステップS11において、音声認識制御部41は、ユーザが操作部22を介して、音声認識を終了するための操作を行った場合、音声認識を終了すると判定し、クライアント11の処理は終了する。
 次に、図14のフローチャートを参照して、図2のクライアント11の処理に対応してサーバ12により実行される処理について説明する。
 ステップS51において、音声認識部71は、音声認識の実行が依頼されたか否かを判定する。音声認識部71は、上述した図2のステップS3において、クライアント11がStartRecognition()を実行することにより音声認識の実行の依頼がなされ、その依頼を、通信部61を介して受信した場合、音声認識の実行が依頼されたと判定し、処理はステップS52に進む。
 ステップS52において、音声認識部71は、音声認識を実行する。
 例えば、音声認識部71は、クライアント11から取得した関連情報に基づいて、音声認識に用いる言語モデルを選択する。例えば、音声認識部71は、クライアント11の現在位置、現在時刻、音声認識の用途、ユーザの現在の行動、及び、ユーザの現在の感情のうち1つ以上に基づいて、現在の状況においてユーザが使用する頻度が高い語句を推定する。そして、音声認識部71は、使用頻度の高い語句がより多く登録されている辞書を有する言語モデルを選択する。
 また、例えば、音声認識部71は、クライアント11から取得した音声データ及び関連情報に基づいて、音声認識に使用する音響モデルを選択する。例えば、音声認識部71は、音声データ、クライアント11の現在位置、現在時刻、クライアント11の種類、及び、クライアント11の音声入力システムのうち1つ以上に基づいて、ユーザの周辺の音響特性(例えば、雑音レベル、反響特性等)を推定する。そして、音声認識部71は、推定した音響特性に適した音響モデルを選択する。また、例えば、音声認識部71は、ユーザIDにより識別されるユーザに適した音響モデルを選択するようにしてもよい。
 また、音声認識部71は、図2のステップS3においてクライアント11から送信された音声データを、通信部61を介して受信する。音声認識部71は、選択した言語モデル及び音響モデルを用いて、また、必要に応じて関連情報を用いて、受信した音声データにより示される入力音声の音声認識を行う。また、音声認識部71は、認識結果に対する信頼度を算出する。
 ここで、図15及び図16を参照して、図7乃至図9を参照して上述したクライアント11の認識結果の修正処理に対応して、サーバ12により実行される音声認識処理の例について説明する。
 上述したように、図7乃至図9の例では、"I sue a person with a red shirt"の"sue"を修正するために"see"の音声が入力される。また、除外リストに"sue"が登録され、先行語句に"I"が登録され、後続語句に"a person"が登録される。
 例えば、音声認識部71は、クライアント11から受信した入力音声に対して音声認識を行う。その結果、図15に示される語句の候補と、各候補に対する信頼度が得られたものとする。この例では、"she"、"sea"、"sue"、"seed"、"see"の5つの候補が得られ、各候補の信頼度は、それぞれ0.92、0.91、0.95、0.77、0.90となっている。
 例えば、信頼度のみに基づいて最終的な認識結果を選択した場合、最も信頼度が高い"sue"が選択される。すなわち、前回の音声認識で誤認識された語句と同じ語句が、認識結果として得られる。
 一方、図16に示されるように、音声認識部71は、先行語句である"I"と各候補との関連度を示すスコア(以下、前関連スコアと称する)を算出する。前関連スコアは、"I"の次に出現する可能性が高い語句ほど高くなり、"I"の次に出現する可能性が低い語句ほど低くなる。この例では、"she"、"sea"、"sue"、"seed"、"see"の各候補に対する前関連スコアが、それぞれ0.1、0.2、0.7、0.4、0.7となっている。
 また、音声認識部71は、各候補と後続語句である"a person"との関連度を示すスコア(以下、後関連スコアと称する)を算出する。後関連スコアは、"a person"の前に出現する可能性が高い語句ほど高くなり、"a person"の前に出現する可能性が低い語句ほど低くなる。この例では、"she"、"sea"、"sue"、"seed"、"see"の各候補に対する後関連スコアが、それぞれ0.1、0.1、0.9、0.2、0.8となっている。
 音声認識部71は、除外リストに登録されている"sue"を候補から除外する。そして、音声認識部71は、信頼度、前関連スコア、及び、後関連スコアに基づいて、残った候補の中から最終的な認識結果を選択する。これにより、信頼度、前関連スコア、及び、後関連スコアがともに高い"see"が選択される。例えば、"she"や"sea"は、"see"より信頼度が高いが、前後の語句との関係を考慮して除外される。
 このように、先に行われた音声認識で誤認識と判定された語句を除外し、音声認識の対象となる認識対象語句とその前後の語句との関係を考慮することにより、認識精度が向上する。
 なお、音声認識部71は、除外語句、先行語句、及び、後続語句の必ずしも全てを用いる必要はなく、そのうちの1つ又は2つを用いて音声認識を行うようにしてもよい。
 また、音声認識部71は、後述するように学習部72により学習される、ユーザの認識結果の傾向に基づいて、音声認識を行うようにしてもよい。例えば、音声認識部71は、図17に示される個人化フィルタであるコンバートフィルタを用いて、音声認識を行うようにしてもよい。
 図17は、コンバートフィルタのデータ構造の例を示している。コンバートフィルタの各レコードには、orgSentence、fixSentence、及び、userIdが含まれる。
 orgSentenceには、変換前の文章が登録される。
 fixSentenceには、変換後の文章が登録される。
 userIdには、コンバートフィルタを適用するユーザを識別するためのユーザIDが登録される。
 例えば、音声認識部71は、userIdにより示されるユーザの音声認識の結果が、orgSentenceに登録されている文章と一致する場合、fixSentenceに登録されている文章に変換する。すなわち、userIdにより示されるユーザが、fixSentenceに登録されている文章を音声入力した場合、orgSentenceに登録されている文章と誤認識される可能性が非常に高い。そこで、音声認識部71は、fixSentenceに登録されている文章からorgSentenceに登録されている文章に、自動的に認識結果を訂正する。
 図14に戻り、ステップS53において、音声認識部71は、通信部61を介して、クライアント11に認識結果を送信する。例えば、音声認識部71は、図6を参照して上述したOnFinalRecognitionResult()を実行することにより、クライアント11に認識結果を送信する。
 このとき、音声認識部71は、内部処理の状態等に基づいて、OnFinalRecognitionResult()のrecommendedBehaviourに設定可能なアクションの中から、認識結果の改善に効果が高いと推定されるアクションを選択し、recommendedBehaviourに設定する。
 その後、処理はステップS54に進む。
 一方、ステップS51において、音声認識の実行が依頼されていないと判定された場合、ステップS51乃至S53の処理はスキップされ、処理はステップS54に進む。
 ステップS54において、学習部72は、学習用データを受信したか否かを判定する。学習部72は、上述した図2のステップS10において、クライアント11がLearnRecognitionData()を実行することにより学習用データを送信し、その学習用データを、通信部61を介して受信した場合、学習用データを受信したと判定し、処理はステップS55に進む。
 ステップS55において、学習部72は、学習処理を行う。例えば、学習部72は、学習用データに基づいて、音声認識履歴を登録する。
 図18は、音声認識履歴のデータ構造の例を示している。音声認識履歴の各レコードは、セッション毎に生成され、orgSentence、fixSentence、trialNum、finalInputMethod、recording、及び、userIdを含む。
 orgSentenceには、対象となるセッションの1回目の音声認識で得られた認識文章が登録される。
 fixSentenceには、最終的に確定された認識文章(正解文章)が登録される。
 trialNumには、音声認識の試行回数が登録される。
 finalInputMethodには、認識結果を確定したときの入力モードが登録される。例えば、通常入力モード、手入力モード、選択モード、1文字入力モードのうちのいずれかのモードが登録される。この例のMANUAL_INPUTは手入力モードを示しており、最終的に手入力モードにより修正された文章で認識結果が確定されたことが分かる。
 recordingには、対象となるセッションの1回目の音声認識時にユーザにより入力された入力音声を示す音声データ、又は、音声データのファイル名が登録される。
 userIdには、音声認識を行ったユーザ、すなわち、音声を入力したユーザを識別するためのユーザIDが登録される。
 また、学習部72は、各ユーザの音声認識履歴に基づいて、音声認識エンジンを改良する。例えば、学習部72は、音声認識エンジンの音響モデルや言語モデルを改良したり、ユーザ毎に音声認識エンジンを調整することにより個人化したりする。
 さらに、学習部72は、各ユーザの音声認識履歴に基づいて、ユーザの認識結果の傾向を学習し、図17を参照して上述したコンバートフィルタを生成する。
 その後、処理はステップS51に戻り、ステップS51以降の処理が実行される。
 一方、ステップS54において、学習用データを受信していないと判定された場合、処理はステップS51に戻り、ステップS51以降の処理が実行される。
 以上のようにして、入力音声だけでなく、関連情報やユーザ毎の学習結果を用いることにより、音声認識の認識精度が向上する。また、ユーザは、認識結果を修正する場合、全ての文章を再入力したり、発話方法を変更したりすることなく、修正が必要な語句の音声のみを入力すればよいため、ユーザの負担が軽減される。その結果、ユーザは、所望の音声認識の認識結果を迅速に得ることができる。
 <<2.変形例>>
 以下、上述した本技術の実施の形態の変形例について説明する。
 <2-1.システムの構成例に関する変形例>
 図1の情報処理システム10の構成例は、その一例であり、必要に応じて変更することが可能である。
 例えば、クライアント11の機能の一部をサーバ12に設けたり、サーバ12の機能の一部をクライアント11に設けたりすることが可能である。
 例えば、学習処理をクライアント11で行うようにしてもよい。また、例えば、クライアント11からセンサデータ等をサーバ12に送信して、サーバ12が、関連情報の一部又は全部を生成するようにしてもよい。
 さらに、例えば、サーバ12から次のアクションを推奨せずに、クライアント11で次のアクションを独自に選択することも可能である。
 また、例えば、クライアント11とサーバ12を一体化し、1台の装置で上記の処理を行うことも可能である。
 <2-2.認識結果の提示方法に関する変形例>
 図7を参照して上述した認識結果の提示方法は、その一例であり、任意に変更することが可能である。
 例えば、認識結果を区切る単位を、単語単位、節・句単位等に変更することが可能である。
 また、例えば、認識結果を区切らずに提示するようにすることも可能である。
 <2-3.関連情報に関する変形例>
 上述した関連情報は、その一例であり、使用する関連情報の種類を減らしたり、他の関連情報を追加したりすることが可能である。
 また、サーバ12は、音声認識処理の内部状態等に基づいて、関連情報を使用するタイミングを制御したり、使用する関連情報を選択したりすることが可能である。
 <<3.応用例>>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図19は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
 バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、及びドライブ310が接続されている。
 入力部306は、キーボード、マウス、マイクロフォンなどよりなる。出力部307は、ディスプレイ、スピーカなどよりなる。記憶部308は、ハードディスクや不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア311を駆動する。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 また、例えば、本技術は以下のような構成も取ることができる。
(1)
 認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識部を
 備える情報処理装置。
(2)
 前記認識対象語句は、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句であり、
 前記先行語句は、前記修正する部分の前の語句であり、
 前記後続語句は、前記修正する部分の後の語句である
 前記(1)に記載の情報処理装置。
(3)
 前記語句情報は、音声認識の認識結果から除外する語句である除外語句をさらに含む
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記除外語句は、先に行われた音声認識において前記認識対象語句を誤認識したと判定された語句である
 前記(3)に記載の情報処理装置。
(5)
 前記語句情報を含む関連情報、及び、前記入力音声を他の情報処理装置から受信し、音声認識の認識結果を前記他の情報処理装置に送信する通信部を
 さらに備える前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
 前記関連情報は、前記他の情報処理装置において音声認識を使用するコンテキストに関するコンテキスト情報、音声認識を使用するユーザに関するユーザ情報、及び、音声を入力するシステムに関するシステム情報のうち少なくとも1つをさらに含み、
 前記音声認識部は、さらに前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも1つに基づいて音声認識を行う
 前記(5)に記載の情報処理装置。
(7)
 前記コンテキスト情報は、音声認識の用途に関する情報、前記他の情報処理装置の位置、及び、現在時刻のうち少なくとも1つを含む
 前記(6)に記載の情報処理装置。
(8)
 前記ユーザ情報は、前記ユーザを識別するための情報、前記ユーザの行動を示す情報、及び、前記ユーザの感情を示す情報のうち少なくとも1つを含む
 前記(6)又は(7)に記載の情報処理装置。
(9)
 前記システム情報は、前記他の情報処理装置の種類、及び、前記他の情報処理装置の音声入力システムの構成のうち少なくとも1つを含む
 前記(6)乃至(8)のいずれかに記載の情報処理装置。
(10)
 前記音声認識部は、前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも1つに基づいて、使用する音響モデル及び言語モデルのうち少なくとも1つを選択する
 前記(6)乃至(9)のいずれかに記載の情報処理装置。
(11)
 前記ユーザの音声認識の実行履歴に基づいて、前記ユーザの認識結果の傾向を学習する学習部を
 さらに備え、
 前記音声認識部は、さらに前記学習部による学習結果に基づいて音声認識を行う
 前記(6)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記音声認識部は、前記認識対象語句の音声認識の認識結果として得られた各候補と、前記先行語句及び前記後続語句のうち少なくとも一方との関連度に基づいて、最終的な認識結果を選択する
 前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
 認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識ステップを
 含む情報処理方法。
(14)
 認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報を他の情報処理装置に送信し、前記認識対象語句の音声認識の認識結果を前記他の情報処理装置から受信する通信部と、
 前記認識結果の提示を制御する提示制御部と
 を備える情報処理装置。
(15)
 前記認識対象語句は、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句であり、
 前記先行語句は、前記修正する部分の前の語句であり、
 前記後続語句は、前記修正する部分の後の語句である
 前記(14)に記載の情報処理装置。
(16)
 認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報の他の情報処理装置への送信を制御する送信制御ステップと、
 前記認識対象語句の音声認識の認識結果の前記他の情報処理装置からの受信を制御する受信制御ステップと、
 前記認識結果の提示を制御する提示制御ステップと
 を含む情報処理方法。
 10 情報処理システム, 11 クライアント, 12 サーバ, 21 音声入力部, 23 表示部, 24 提示部, 25 センサ部, 26 通信部, 27 制御部, 41 音声認識制御部, 42 提示制御部, 43 関連情報取得部, 61 通信部, 62 制御部, 71 音声認識部, 72 学習部

Claims (16)

  1.  認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識部を
     備える情報処理装置。
  2.  前記認識対象語句は、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句であり、
     前記先行語句は、前記修正する部分の前の語句であり、
     前記後続語句は、前記修正する部分の後の語句である
     請求項1に記載の情報処理装置。
  3.  前記語句情報は、音声認識の認識結果から除外する語句である除外語句をさらに含む
     請求項1に記載の情報処理装置。
  4.  前記除外語句は、先に行われた音声認識において前記認識対象語句を誤認識したと判定された語句である
     請求項3に記載の情報処理装置。
  5.  前記語句情報を含む関連情報、及び、前記入力音声を他の情報処理装置から受信し、音声認識の認識結果を前記他の情報処理装置に送信する通信部を
     さらに備える請求項1に記載の情報処理装置。
  6.  前記関連情報は、前記他の情報処理装置において音声認識を使用するコンテキストに関するコンテキスト情報、音声認識を使用するユーザに関するユーザ情報、及び、音声を入力するシステムに関するシステム情報のうち少なくとも1つをさらに含み、
     前記音声認識部は、さらに前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも1つに基づいて音声認識を行う
     請求項5に記載の情報処理装置。
  7.  前記コンテキスト情報は、音声認識の用途に関する情報、前記他の情報処理装置の位置、及び、現在時刻のうち少なくとも1つを含む
     請求項6に記載の情報処理装置。
  8.  前記ユーザ情報は、前記ユーザを識別するための情報、前記ユーザの行動を示す情報、及び、前記ユーザの感情を示す情報のうち少なくとも1つを含む
     請求項6に記載の情報処理装置。
  9.  前記システム情報は、前記他の情報処理装置の種類、及び、前記他の情報処理装置の音声入力システムの構成のうち少なくとも1つを含む
     請求項6に記載の情報処理装置。
  10.  前記音声認識部は、前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも1つに基づいて、使用する音響モデル及び言語モデルのうち少なくとも1つを選択する
     請求項6に記載の情報処理装置。
  11.  前記ユーザの音声認識の実行履歴に基づいて、前記ユーザの認識結果の傾向を学習する学習部を
     さらに備え、
     前記音声認識部は、さらに前記学習部による学習結果に基づいて音声認識を行う
     請求項6に記載の情報処理装置。
  12.  前記音声認識部は、前記認識対象語句の音声認識の認識結果として得られた各候補と、前記先行語句及び前記後続語句のうち少なくとも一方との関連度に基づいて、最終的な認識結果を選択する
     請求項1に記載の情報処理装置。
  13.  認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識ステップを
     含む情報処理方法。
  14.  認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報を他の情報処理装置に送信し、前記認識対象語句の音声認識の認識結果を前記他の情報処理装置から受信する通信部と、
     前記認識結果の提示を制御する提示制御部と
     を備える情報処理装置。
  15.  前記認識対象語句は、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句であり、
     前記先行語句は、前記修正する部分の前の語句であり、
     前記後続語句は、前記修正する部分の後の語句である
     請求項14に記載の情報処理装置。
  16.  認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報の他の情報処理装置への送信を制御する送信制御ステップと、
     前記認識対象語句の音声認識の認識結果の前記他の情報処理装置からの受信を制御する受信制御ステップと、
     前記認識結果の提示を制御する提示制御ステップと
     を含む情報処理方法。
PCT/JP2017/029491 2016-08-31 2017-08-17 情報処理装置及び情報処理方法 WO2018043137A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/323,706 US20190228764A1 (en) 2016-08-31 2017-08-17 Information processing apparatus and information processing method
JP2018537116A JPWO2018043137A1 (ja) 2016-08-31 2017-08-17 情報処理装置及び情報処理方法
CN201780051220.9A CN109643545A (zh) 2016-08-31 2017-08-17 信息处理设备和信息处理方法
EP17846145.5A EP3509059A4 (en) 2016-08-31 2017-08-17 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-170245 2016-08-31
JP2016170245 2016-08-31

Publications (1)

Publication Number Publication Date
WO2018043137A1 true WO2018043137A1 (ja) 2018-03-08

Family

ID=61300560

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/029491 WO2018043137A1 (ja) 2016-08-31 2017-08-17 情報処理装置及び情報処理方法

Country Status (5)

Country Link
US (1) US20190228764A1 (ja)
EP (1) EP3509059A4 (ja)
JP (1) JPWO2018043137A1 (ja)
CN (1) CN109643545A (ja)
WO (1) WO2018043137A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020016784A (ja) * 2018-07-26 2020-01-30 Zホールディングス株式会社 認識装置、認識方法及び認識プログラム
WO2022035183A1 (ko) * 2020-08-12 2022-02-17 삼성전자 주식회사 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
US20220164758A1 (en) * 2019-05-31 2022-05-26 Kabushiki Kaisha Toshiba Communication management apparatus

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5952300A (ja) * 1982-09-20 1984-03-26 富士通株式会社 電話入力音声認識方式
JPH11133994A (ja) * 1997-10-31 1999-05-21 Nec Corp 音声入力装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2004219747A (ja) * 2003-01-15 2004-08-05 Nec Corp 音声認識装置、音声認識方法、及びプログラム
JP2007286174A (ja) * 2006-04-13 2007-11-01 Funai Electric Co Ltd 電子機器
JP2010191223A (ja) * 2009-02-18 2010-09-02 Seiko Epson Corp 音声認識方法、携帯端末及びプログラム。
JP2012003090A (ja) * 2010-06-17 2012-01-05 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2012226220A (ja) * 2011-04-21 2012-11-15 Ntt Docomo Inc 音声認識装置、音声認識方法及び音声認識プログラム
JP2012238017A (ja) * 2000-09-08 2012-12-06 Nuance Communications Austria Gmbh 置換コマンドを有する音声認識方法
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2016522903A (ja) * 2013-06-14 2016-08-04 三菱電機株式会社 音声を認識するシステムおよび方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5952300A (ja) * 1982-09-20 1984-03-26 富士通株式会社 電話入力音声認識方式
JPH11133994A (ja) * 1997-10-31 1999-05-21 Nec Corp 音声入力装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2012238017A (ja) * 2000-09-08 2012-12-06 Nuance Communications Austria Gmbh 置換コマンドを有する音声認識方法
JP2004219747A (ja) * 2003-01-15 2004-08-05 Nec Corp 音声認識装置、音声認識方法、及びプログラム
JP2007286174A (ja) * 2006-04-13 2007-11-01 Funai Electric Co Ltd 電子機器
JP2010191223A (ja) * 2009-02-18 2010-09-02 Seiko Epson Corp 音声認識方法、携帯端末及びプログラム。
JP2012003090A (ja) * 2010-06-17 2012-01-05 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2012226220A (ja) * 2011-04-21 2012-11-15 Ntt Docomo Inc 音声認識装置、音声認識方法及び音声認識プログラム
JP2016522903A (ja) * 2013-06-14 2016-08-04 三菱電機株式会社 音声を認識するシステムおよび方法
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3509059A4 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020016784A (ja) * 2018-07-26 2020-01-30 Zホールディングス株式会社 認識装置、認識方法及び認識プログラム
JP7034027B2 (ja) 2018-07-26 2022-03-11 ヤフー株式会社 認識装置、認識方法及び認識プログラム
US20220164758A1 (en) * 2019-05-31 2022-05-26 Kabushiki Kaisha Toshiba Communication management apparatus
WO2022035183A1 (ko) * 2020-08-12 2022-02-17 삼성전자 주식회사 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
US11984126B2 (en) 2020-08-12 2024-05-14 Samsung Electronics Co., Ltd. Device for recognizing speech input of user and operating method thereof

Also Published As

Publication number Publication date
EP3509059A4 (en) 2019-08-28
US20190228764A1 (en) 2019-07-25
CN109643545A (zh) 2019-04-16
EP3509059A1 (en) 2019-07-10
JPWO2018043137A1 (ja) 2019-06-24

Similar Documents

Publication Publication Date Title
US20210074275A1 (en) Audio message extraction
US10152965B2 (en) Learning personalized entity pronunciations
US9646609B2 (en) Caching apparatus for serving phonetic pronunciations
US9959129B2 (en) Headless task completion within digital personal assistants
US12002464B2 (en) Systems and methods for recognizing a speech of a speaker
JP2022551788A (ja) 補助システムのためのプロアクティブコンテンツを生成すること
JP6726354B2 (ja) 訂正済みタームを使用する音響モデルトレーニング
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
CN106796788A (zh) 基于用户反馈来改善自动语音识别
WO2018043137A1 (ja) 情報処理装置及び情報処理方法
JP6922920B2 (ja) 情報処理装置及び情報処理方法
US10838954B1 (en) Identifying user content
US11580970B2 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
KR20130034630A (ko) 컨텍스트 정보를 이용한 음성 인식 복구
US11527251B1 (en) Voice message capturing system
JPWO2019087811A1 (ja) 情報処理装置、及び情報処理方法
US11398221B2 (en) Information processing apparatus, information processing method, and program
US11895269B2 (en) Determination and visual display of spoken menus for calls
JP2021531923A (ja) ネットワークアプリケーションを制御するためのシステムおよびデバイス
JP2019179081A (ja) 会議支援装置、会議支援制御方法およびプログラム
CN117083669A (zh) 检测和改进单词实时误读的方法和系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17846145

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018537116

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017846145

Country of ref document: EP

Effective date: 20190401