WO2011045846A1 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- WO2011045846A1 WO2011045846A1 PCT/JP2009/005416 JP2009005416W WO2011045846A1 WO 2011045846 A1 WO2011045846 A1 WO 2011045846A1 JP 2009005416 W JP2009005416 W JP 2009005416W WO 2011045846 A1 WO2011045846 A1 WO 2011045846A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- vocabulary
- unit
- recognition
- dictionary
- presentation
- Prior art date
Links
- 238000004891 communication Methods 0.000 claims abstract description 44
- 230000002452 interceptive effect Effects 0.000 claims abstract description 6
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 description 27
- 238000012545 processing Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Definitions
- This invention relates to a speech recognition apparatus.
- Patent Document 1 As a conventional technique, for example, there is a system disclosed in Patent Document 1.
- the server manages a speech recognition dictionary, and speech recognition processing is executed using the recognition dictionary downloaded from the server.
- the user can perform the speech recognition process suitable for the user by downloading the corresponding recognition dictionary from the server. Can do.
- Patent Document 2 discloses an extraction unit that extracts other vocabulary having a high frequency of connection and appearance with respect to the vocabulary of the recognition result, a vocabulary extracted by the extraction unit, and the frequency information of the connection and appearance. There is disclosed a speech recognition apparatus provided with additional means for adding to the above. With this configuration, the vocabulary required by the user can be registered in the recognition dictionary.
- the present invention has been made to solve the above-described problems, and an object of the present invention is to provide a speech recognition apparatus capable of improving the recognition rate by suppressing the unlimited addition of words to the recognition dictionary.
- the speech recognition apparatus includes a recognition dictionary in which vocabulary to be recognized is registered, a speech recognition unit that recognizes speech by comparing input speech with vocabulary in the recognition dictionary, an operation unit that accepts an external operation,
- a speech recognition apparatus having a presentation unit that presents information to the outside by voice or screen display, a communication unit that acquires vocabulary by communication with the outside, and a category for each vocabulary acquired by the communication unit is presented to the presentation unit
- a control unit that selects a vocabulary for each category by an interactive operation using the operation unit, and a dictionary management unit that additionally registers the vocabulary selected using the operation unit in the recognition dictionary.
- the category for each vocabulary acquired by the communication unit is presented to the presentation unit, the vocabulary is selected for each category by interactive operation using the operation unit, and the selected vocabulary is stored in the recognition dictionary. Register additional.
- FIG. 1 is a block diagram showing the configuration of a system using a speech recognition apparatus according to Embodiment 1 of the present invention.
- a speech recognition apparatus 1 according to the first embodiment includes, as peripheral devices, an input device (operation unit) 2 such as a remote control or a touch panel used for manual operation, a microphone (operation unit) 3 for inputting sound, and outputting sound. And a monitor (presentation unit) 9 for displaying images and telops.
- the voice recognition device 1 includes a key input unit (operation unit) 4, a voice input unit (operation unit) 5, a voice output unit (presentation unit) 6, a screen output unit (presentation unit) 7, and a control unit as internal configurations. 10, a speech recognition unit 11, a dictionary management unit 12, a recognition dictionary storage unit 13, a warning content generation unit 14, a communication unit 15, a vocabulary count unit 16, and a similar vocabulary comparison unit 17.
- the key input unit 4 receives a command input via the input device 2 and outputs the command to the control unit 10.
- the voice input unit 5 receives a command input by voice from the microphone 3 and outputs the command to the control unit 10.
- the voice output unit 6 is a component that controls voice output via the speaker 8 and presents guidance, recognition results, and the like from the voice recognition device 1 to the user.
- the screen output unit 7 is a component that controls the screen display of the monitor 9.
- the control unit 10 is a configuration unit that executes processing corresponding to the command by controlling other configuration units according to the command received from the key input unit 4 or the voice input unit 5.
- the voice recognition unit 11 performs voice recognition processing of the voice input from the voice input unit 5 based on the recognition dictionary.
- the dictionary management unit 12 is a component that manages the recognition dictionary stored in the storage unit 13, and performs a process of reading or adding a vocabulary to be recognized from the recognition dictionary in accordance with a command from the control unit 10. .
- the warning content generation unit 14 is a component that generates warning content to be presented to the user when adding a vocabulary.
- the communication unit 15 is a component that communicates with the external server device 19.
- the vocabulary number counting unit 16 is a component that counts the number of vocabularies, and counts the number of vocabularies to be added and the number of registered vocabularies in the storage unit 13.
- the similar vocabulary comparison unit 17 is a component that compares the vocabulary to be added with the registered vocabulary in the storage unit 13 and determines whether or not the readings are the same. Note that vocabulary with the same reading is determined as a similar vocabulary.
- the key input unit 4, the voice input unit 5, the voice output unit 6, the screen output unit 7, the control unit 10, the voice recognition unit 11, the dictionary management unit 12, the warning content generation unit 14, the communication unit 15, and the vocabulary number counting unit. 16 and the similar vocabulary comparison unit 17 can be realized as specific means in which hardware and software cooperate by causing a computer to read a processing program according to the gist of the present invention and causing the CPU to execute the processing program.
- the storage unit 13 can be constructed in a storage device (for example, a hard disk device or an external storage medium) provided in the computer in which the speech recognition device 1 is constructed, or a storage device of another computer that can be connected to the computer.
- a storage device for example, a hard disk device or an external storage medium
- the voice recognition device 1 also downloads vocabulary from the server device 19 via the network 18 and registers it in the recognition dictionary.
- the server device 19 includes a communication unit 20, a control unit 21, a dictionary management unit 22, and a storage unit 23 that stores a recognition dictionary.
- the communication unit 20 is a component that communicates with the communication unit 15 of the voice recognition device 1 via the network 18.
- the control unit 21 is a component that controls other components.
- the dictionary management unit 22 is a component that manages the recognition dictionary stored in the storage unit 23, and performs a process of reading or adding a vocabulary to be recognized from the recognition dictionary in accordance with a command from the control unit 21. .
- FIG. 2 is a diagram showing the screen transition of the monitor when a vocabulary is added.
- the control unit 21 of the server device 19 transmits screen display information via the communication unit 20.
- the control unit 10 of the speech recognition apparatus 1 outputs the screen display information received via the communication unit 15 to the screen output unit 7.
- the screen output unit 7 controls the monitor 9 to display the screen display information, whereby the screen 9-1 in FIG. 2 is displayed.
- the user selects the “add vocabulary” field.
- the selection method may be either voice input using the microphone 3 or manual input using the input device 2.
- the selection result is sent to the control unit 10 via the voice input unit 5 or the key input unit 4.
- the control unit 10 transmits the selection result to the server device 19 using the communication unit 15.
- the control unit 21 of the server device 19 selects screen display information indicating a screen to be changed next, and this screen display information is displayed on the screen 9-1. Similarly, it returns to the voice recognition device 1.
- the screen output unit 7 controls the monitor 9 so as to display the screen display information returned to the voice recognition device 1, so that the display screen of the monitor 9 transitions to the screen 9-2 in FIG.
- the “genre” column in this screen 9-2 is selected.
- the button which displayed each category is selected.
- the control unit 10 transmits a selection result to the server device 19 using the communication unit 15 in the same flow as described above, and a screen showing a screen to be changed next from the server device 19 Get display information.
- the display screen of the monitor 9 transitions to the screen 9-3 in FIG.
- the screen 9-3 displays the major categories of genres.
- the “traffic” column in the screen 9-3 is selected.
- a list of vocabularies that can be downloaded from the server device 19 is displayed. If you want to download all vocabulary, select the "All" field. When a part of the vocabulary is to be downloaded, the check box 24 for the vocabulary to be downloaded is activated and the “selected vocabulary only” field is selected. When either “All” or “Selected vocabulary only” field is selected, the control unit 10 transmits the selection result to the server device 19 using the communication unit 15. The control unit 21 of the server device 19 acquires a vocabulary corresponding to the selection result via the dictionary management unit 22 and downloads it to the voice recognition device 1 via the communication unit 20.
- the control unit 10 of the voice recognition device 1 outputs the vocabulary received from the server device 19 via the communication unit 15 to the dictionary management unit 12 and instructs to add it to the recognition dictionary of the storage unit 13.
- the dictionary management unit 12 adds the input vocabulary to the recognition dictionary according to instructions from the control unit 10. As described above, the control unit 10 displays the category for each vocabulary acquired by the communication unit 15 on the screen of the monitor 9 and selects the vocabulary for each category by an interactive operation using the input device 2.
- the dictionary management unit 12 adds the vocabulary selected using the input device 2 to the recognition dictionary.
- the recognition dictionary stored in the storage unit 23 of the server device 19 is divided and managed for each category such as a genre and a region by the dictionary management unit 22.
- the process according to the screen transition described above is an example, and the user can select a necessary vocabulary, and a GUI (Graphical) that can register only the selected vocabulary as an additional vocabulary in the recognition dictionary.
- User Interface is not limited to the case of FIG.
- the screen may be changed to a screen where the user can input a reading and register the vocabulary.
- the control unit 10 controls to display the registered vocabulary on the screen of the monitor 9.
- the control unit 10 instructs the dictionary management unit 12 to delete the vocabulary based on the selection information.
- the dictionary management unit 12 deletes the registered vocabulary designated for deletion by the user from the recognition dictionary.
- the control unit 10 presents the category for each vocabulary acquired by the communication unit 15 on the monitor 9 and the like, and the category is obtained through an interactive operation using the input device 2.
- Each vocabulary is selected, and the dictionary management unit 12 additionally registers the vocabulary selected using the input device 2 in the recognition dictionary.
- the recognition dictionary such as genre and region interactively, the user can select only the necessary vocabulary and register it in the recognition dictionary. Therefore, since the vocabulary added to the recognition dictionary is limited to only the vocabulary that is truly necessary for the user, the recognition rate can be improved.
- FIG. 1 is also referred to in the second embodiment for the configuration of the speech recognition apparatus.
- FIG. 3 is a flowchart showing a flow of operations performed by the speech recognition apparatus according to the second embodiment of the present invention.
- the similar vocabulary comparison unit 17 is registered in the recognition dictionary managed by the vocabulary to be added and the dictionary management unit 12.
- step ST1, step ST2 To determine whether the readings are the same (similar) (step ST1, step ST2).
- step ST1, step ST2 To determine whether the readings are the same (similar) (step ST1, step ST2).
- the case where the vocabulary with the same reading is used as a similar vocabulary is shown, the case where the reading is identical to a predetermined number of characters other than when the character strings of the reading are completely matched, such as a single character difference, is determined to be similar. Also good.
- step ST2 If there is no vocabulary that has the same reading as the vocabulary downloaded from the server device 19 (step ST2; NO), the similar vocabulary comparison unit 17 notifies the control unit 10 to that effect. Upon receiving this notification, the control unit 10 instructs the dictionary management unit 12 to add the vocabulary downloaded from the server device 19 to the recognition dictionary. Thereby, the dictionary management part 12 adds the said vocabulary to a recognition dictionary (step ST5).
- the similar vocabulary comparison unit 17 notifies the control unit 10 to that effect.
- the control unit 10 Upon receipt of this notification, the control unit 10 generates a warning voice sentence and a display content to present to the user that a vocabulary similar to the vocabulary downloaded from the server device 19 already exists in the recognition dictionary. 14 is instructed.
- the warning content generation unit 14 generates information indicating the warning content such as the warning voice text and the display content according to the instruction of the control unit 10 (step ST3).
- the warning voice text and the display content are output to the voice output unit 6 and the screen output unit 7.
- the voice output unit 6 outputs a warning voice sentence via the speaker 8, and the screen output unit 7 displays the display content of the warning on the monitor 9 (step ST4). Thereafter, the process proceeds to step ST5, and the dictionary management unit 12 adds the vocabulary downloaded from the server device 19 to the recognition dictionary.
- the warning content generation unit 14 For example, if the vocabulary “song” is downloaded and added from the server device 19 in a state where the vocabulary “station” is registered in the recognition dictionary, both are read in the same way. Proceeding to the processing of ST3, the warning content generation unit 14 generates a warning voice sentence indicating that there is a vocabulary of the same reading and screen information for displaying these vocabularies.
- the similar vocabulary comparison unit 17 compares the vocabulary acquired by the communication unit 15 with the vocabulary registered in the recognition dictionary, and determines whether there is the same or similar vocabulary. If the similar vocabulary comparison unit 17 determines that there is the same or similar vocabulary, the warning content generation unit 14 generates warning content information indicating the determination result, and the control unit 10 determines the warning content. Information on the warning content generated by the generation unit 14 is presented to the user by the speaker 8 or the monitor 9. With this configuration, it is possible to notify the user that a vocabulary that is the same as or similar to the vocabulary downloaded from the server device 19 is already registered among the vocabulary registered in the recognition dictionary. Thereby, it becomes possible for the user to select an additional vocabulary so as not to register the same or similar vocabulary as necessary, and the recognition rate can be improved.
- Embodiment 3 the user is warned when the number of registered vocabulary already registered in the recognition dictionary and the number of vocabulary to be added exceed a predetermined number.
- the speech recognition apparatus according to the third embodiment has basically the same configuration as that described in the first embodiment with reference to FIG. Therefore, the configuration of the speech recognition apparatus also refers to FIG. 1 in the third embodiment.
- FIG. 4 is a flowchart showing a flow of operations performed by the speech recognition apparatus according to the third embodiment of the present invention.
- the vocabulary number counting unit 16 recognizes the number of added vocabularies and the recognition dictionary managed by the dictionary management unit 12. The number of registered vocabularies is counted, and it is determined whether or not the total of both exceeds a predetermined number (step ST1a, step ST2a).
- step ST2a When the number of vocabulary downloaded from the server device 19 and the registered vocabulary is less than or equal to the predetermined number (step ST2a; NO), the vocabulary number counting unit 16 notifies the control unit 10 to that effect. Upon receiving this notification, the control unit 10 instructs the dictionary management unit 12 to add the vocabulary downloaded from the server device 19 to the recognition dictionary. Thereby, the dictionary management part 12 adds the said vocabulary to a recognition dictionary (step ST5a).
- the vocabulary number counting unit 16 notifies the control unit 10 of the fact. To do.
- the control unit 10 Upon receiving this notification, the control unit 10 generates a warning voice sentence and a display content for presenting to the user that the vocabulary downloaded from the server device 19 and the number of vocabularies already existing in the recognition dictionary exceed a predetermined number.
- the warning content generation unit 14 is instructed as follows.
- the warning content generation unit 14 generates information indicating the warning content such as the warning voice sentence and the display content according to the instruction of the control unit 10 (step ST3a).
- the warning voice text and the display content are output to the voice output unit 6 and the screen output unit 7.
- the voice output unit 6 outputs a warning voice sentence through the speaker 8, and the screen output unit 7 displays the display content of the warning on the monitor 9 (step ST4a). Thereafter, the process proceeds to step ST5a, and the dictionary management unit 12 adds the vocabulary downloaded from the server device 19 to the recognition dictionary.
- the process proceeds to step ST5a and exceeds 1000.
- the warning content generation unit 14 generates a warning voice sentence indicating that the total number of vocabularies to be added and registered vocabularies exceeds 1000, and screen information for displaying these vocabularies.
- the recognition process may take a long time or increase the misrecognition rate.
- the maximum number of vocabularies for which the recognition processing time and the error recognition rate are allowed depends on the calculation capability of the CPU or the like of the computer that constructs the speech recognition apparatus 1, and is defined statically. Therefore, the statically defined maximum vocabulary number is used as the predetermined number.
- the vocabulary number counting unit 16 counts the total number of the vocabulary acquired by the communication unit 15 and the vocabulary registered in the recognition dictionary, and the total number is a predetermined number.
- a warning content generation unit 14 that generates warning information indicating the determination result, and a warning content generation unit
- the warning information generated at 14 is presented on the monitor 9 or the like.
- a warning that allows the user to select whether or not to add a vocabulary downloaded from the server device 19 may be output. In this way, the user can add only the necessary vocabulary.
- FIG. 5 is a flowchart showing the flow of processing for selecting whether or not to add the downloaded vocabulary.
- the process in step ST1b in FIG. 5 corresponds to the process subsequent to step ST4 in FIG. 3 described in the second embodiment or step ST4a in FIG. 4 described in the third embodiment. Further, the process of step ST2b corresponds to the process of step ST5 of FIG. 3 or step ST5a of FIG.
- the control unit 10 When the warning content is presented to the user, the control unit 10 provides a GUI indicating whether or not the vocabulary downloaded from the server device 19 should be added to the recognition dictionary. For example, the control unit 10 generates a voice sentence and display content indicating whether or not the vocabulary downloaded from the server device 19 should be added to the recognition dictionary, and the voice output unit 6 or the screen output unit 7 causes the speaker 8 or the monitor 9 to Output. At this time, the control unit 10 receives an operation input indicating whether or not a vocabulary can be added from the user, and determines whether or not to add a vocabulary based on the input information (step ST1b).
- control unit 10 manages the dictionary so as not to add the vocabulary downloaded from the server device 19 to the recognition dictionary.
- the unit 12 is instructed to end the process.
- the dictionary management unit 12 does not add the vocabulary to the recognition dictionary in accordance with instructions from the control unit 10.
- step ST1b when the user selects to add a vocabulary using the input device 2 or the microphone 3 (step ST1b; YES), the control unit 10 adds the vocabulary downloaded from the server device 19 to the recognition dictionary.
- the dictionary management unit 12 is instructed. Thereby, the dictionary management part 12 adds the said vocabulary to a recognition dictionary (step ST2b).
- control unit 10 when adding a vocabulary in step ST1b, the control unit 10 presents the registered vocabulary (for example, “station”) and the additional vocabulary (for example, “song”) to the user, and also performs speech recognition.
- the output information in which the user can set the priority in is generated and may be output to the speaker 8 or the monitor 9 by the audio output unit 6 or the screen output unit 7.
- control unit 10 selects addition of vocabulary by the user, in addition to the registered vocabulary similar to the vocabulary downloaded from the server device 19, a voice sentence or setting for setting the priority for speech recognition of these vocabularies A screen is generated and output to the speaker 8 or the monitor 9 by the audio output unit 6 or the screen output unit 7.
- the control part 10 receives the operation input which shows the priority setting by a user.
- the control unit 10 instructs the dictionary management unit 12 to associate the priorities with the vocabulary downloaded from the server device 19 and the registered vocabulary.
- the dictionary management unit 12 adds the priority set by the user to the vocabulary downloaded from the server device 19 in accordance with the instruction from the control unit 10 and adds it to the recognition dictionary, and the registered vocabulary similar to this is also added to the user. Is stored in association with the priority set.
- the control unit 10 when adding a vocabulary in step ST1b, the control unit 10 presents the registered vocabulary (for example, “station”) and the additional vocabulary (for example, “song”) to the user, and also performs speech recognition. Whether or not to present both vocabularies as recognition result candidates at the time of processing is generated by generating output information that can be designated by the user and output to the speaker 8 or the monitor 9 by the voice output unit 6 or the screen output unit 7. May be. Also by doing in this way, the recognition result intended by the user can be presented, and the recognition rate can be improved.
- the registered vocabulary for example, “station”
- the additional vocabulary for example, “song”
- the control unit 10 when addition of vocabulary is selected by the user, the control unit 10 presents these vocabulary as recognition result candidates in the speech recognition process in addition to the registered vocabulary similar to the vocabulary downloaded from the server device 19.
- a voice sentence or a setting screen for designating whether or not to be specified is generated and output to the speaker 8 or the monitor 9 by the voice output unit 6 or the screen output unit 7.
- the control part 10 receives the operation input which shows the specification content by a user.
- the control unit 10 transmits the vocabulary downloaded from the server device 19 together with the designation information to be presented as recognition result candidates. Then, the dictionary management unit 12 is instructed to store the registered vocabulary, and the process ends.
- the dictionary management unit 12 adds the vocabulary downloaded from the server device 19 to the recognition dictionary together with the designation information to be presented as a recognition result candidate according to the instruction of the control unit 10, and has already registered the designation information to be presented as a recognition result candidate Set to vocabulary.
- the control unit 10 stores specification information to be presented as a recognition result candidate in association with only the vocabulary specified by the user.
- the dictionary management unit 12 is instructed as follows. In accordance with an instruction from the control unit 10, the dictionary management unit 12 registers designation information to be presented as a recognition result candidate in the recognition dictionary in association with only the vocabulary designated by the user.
- the user can select “Station” and “ When it is specified that “song” should be presented as a recognition result candidate, when the speech recognition unit 11 recognizes “Kyoku” by reading, “station” and “song” are recognized as recognition result candidates. ) "Is presented to the user. If the user is designated to present only “station” as a recognition result candidate, only “station” is presented to the user as a recognition result candidate.
- the user may only specify whether or not to present a plurality of recognition result candidates. Good. In this case, if designation is made not to present a plurality of recognition result candidates, the vocabulary with the highest priority is presented as the recognition result. When a plurality of recognition result candidates are designated, up to a predetermined number of vocabularies with higher priorities are presented as recognition result candidates.
- the control unit 10 when adding a vocabulary in step ST1b, the control unit 10 presents the registered vocabulary (for example, “station”) and the vocabulary to be added (for example, “song”) to the user and adds the vocabulary. Whether to add a vocabulary to be added as another vocabulary with different readings is generated by generating output information that can be specified by the user and output to the speaker 8 or the monitor 9 by the audio output unit 6 or the screen output unit 7 Also good. In this way, the unlimited addition of vocabularies that are the same as or similar to registered vocabularies is suppressed, so that the recognition rate can be improved.
- the registered vocabulary for example, “station”
- the vocabulary to be added for example, “song”
- the control unit 10 When the user selects to add a vocabulary similar to a registered vocabulary, the control unit 10 generates a voice sentence and a setting screen for designating whether to add the vocabulary to be added as another vocabulary with different readings, The audio output unit 6 and the screen output unit 7 output the data to the speaker 8 and the monitor 9.
- the control unit 10 instructs the dictionary management unit 12 to add the vocabulary downloaded from the server device 19 as it is. To do.
- the dictionary management unit 12 adds the vocabulary downloaded from the server device 19 to the recognition dictionary in accordance with an instruction from the control unit 10.
- control unit 10 uses the communication unit 15 to cause the user to select a new vocabulary from the vocabulary managed by the server device 19, or Then, output information that allows the user to set reading is generated and output to the speaker 8 or the monitor 9 by the audio output unit 6 or the screen output unit 7.
- the control unit 10 displays the newly selected vocabulary notation and reading and the additional vocabulary notation in association with this reading.
- the dictionary management unit 12 is instructed to register or register the reading set by the user and the notation of the additional vocabulary in association with each other.
- the dictionary management unit 12 adds the notation and reading of the newly selected vocabulary, and the notation of the additional vocabulary in association with the reading of the registered vocabulary and the reading of the newly selected vocabulary. Register in the recognition dictionary, or register the additional vocabulary notation in the recognition dictionary in association with the reading of the registered vocabulary and the reading set by the user.
- the speech recognition apparatus 1 may present a vocabulary plan to be added as another vocabulary and let the user select it. This also suppresses the unlimited addition of vocabularies that are the same as or similar to registered vocabularies, so that the recognition rate can be improved.
- FIG. 6 is a flowchart showing a flow of processing for adding the downloaded vocabulary to the recognition dictionary using another vocabulary presented by the speech recognition apparatus.
- the process from step ST1c to step ST4c in FIG. 6 corresponds to the process subsequent to step ST1b in FIG. Further, the process of step ST5c corresponds to the process of step ST2b in FIG.
- control unit 10 When the user selects to add a vocabulary similar to a registered vocabulary, the control unit 10 generates a voice sentence and a setting screen for designating whether to add the vocabulary to be added as another vocabulary with different readings, The audio output unit 6 and the screen output unit 7 output the data to the speaker 8 and the monitor 9. At this time, the control part 10 receives the operation input which shows the specification content by a user, and determines whether it adds as another vocabulary based on this specification content (step ST1c).
- step ST1c When the user designates not to add another vocabulary using the input device 2 or the microphone 3 (step ST1c; NO), the control unit 10 adds the vocabulary downloaded from the server device 19 as it is.
- the dictionary management unit 12 is instructed to end the process.
- the dictionary management unit 12 adds the vocabulary downloaded from the server device 19 to the recognition dictionary according to the instruction from the control unit 10 (step ST5c).
- the control unit 10 inquires of the server device 19 about a vocabulary candidate using the communication unit 15 (step ST2c). For example, if the vocabulary to be added is “Song”, the notation “Song” and the reading “Kyoku” are transmitted to the server device 19.
- the dictionary management unit 22 of the server device 19 classifies and manages the vocabulary related to the recognized vocabulary notation, and when the vocabulary notation and reading that the query is received from the speech recognition device 1 are input, the vocabulary related to this notation is related.
- the vocabulary with different readings is read from the storage unit 23 and output to the control unit 21.
- the control unit 21 returns the vocabulary notation and reading input from the dictionary management unit 22 to the speech recognition apparatus 1 as a vocabulary plan.
- the control unit 10 generates output information that presents the vocabulary plan received from the server device 19, and causes the audio output unit 6 and the screen output unit 7 to output the output information to the speaker 8 and the monitor 9 (step ST3c). Thereafter, the control unit 10 receives an operation input indicating the specified content by the user, and determines whether or not to add a vocabulary plan based on the specified content (step ST4c).
- step ST4c when it is determined that the vocabulary plan is not added as an additional vocabulary from the user-specified content (step ST4c; NO), the control unit 10 returns to the process of step ST2c, and performs the same process as described above. A vocabulary plan different from that presented this time is downloaded from the server device 19 and presented.
- the related vocabulary “track” is presented as a vocabulary plan for the additional vocabulary “song”, but it is determined not to add, the vocabulary “title ( Present).
- “track” and “title” are vocabularies indicating storage locations and song names for storing song data on a storage medium, and are managed by the server device 19 as related vocabularies. .
- step ST4c When it is determined that a vocabulary plan is added as an additional vocabulary (step ST4c; YES), the control unit 10 adds a reading of the registered vocabulary and a reading of the vocabulary plan in association with the notation of the additional vocabulary. To end the process.
- the dictionary management unit 12 adds the notation of the additional vocabulary and the reading of the registered vocabulary and the reading of the vocabulary plan in association with the notation according to the instruction of the control unit 10 (step ST5c).
- the control unit 10 When adding a vocabulary in step ST1b, the control unit 10 presents an additional vocabulary (for example, “song”) and a registered vocabulary similar to the vocabulary (for example, “station”) to the user. At the same time, it may be possible to generate output information that can be specified by the user and to output to the speaker 8 or the monitor 9 whether or not to add the additional vocabulary by deleting the registered vocabulary. Even in this way, the addition of the same or similar vocabulary is suppressed, so that the recognition rate can be improved.
- an additional vocabulary for example, “song”
- a registered vocabulary similar to the vocabulary for example, “station”
- the control unit 10 When the addition of a vocabulary similar to a registered vocabulary is selected by the user, the control unit 10 generates a voice sentence or a setting screen that allows the user to specify whether to delete the similar registered vocabulary and add an additional vocabulary. Are output to the speaker 8 or the monitor 9.
- the control unit 10 instructs the dictionary management unit 12 to add the vocabulary downloaded from the server device 19 as it is.
- the dictionary management unit 12 adds the vocabulary downloaded from the server device 19 to the recognition dictionary in accordance with an instruction from the control unit 10.
- the control unit 10 instructs the dictionary management unit 12 to delete a similar registered vocabulary and add an additional vocabulary.
- the dictionary management unit 12 adds a vocabulary downloaded from the server device 19 to the recognition dictionary and deletes a registered vocabulary similar to the vocabulary downloaded according to an instruction from the control unit 10.
- the user selects to delete the registered vocabulary.
- the completed vocabulary “Station” is deleted, and an additional vocabulary “Song” is added.
- the dictionary management unit 12 of the speech recognition apparatus 1 manages the nonuse period information shown in FIG. 7 for each vocabulary registered in the recognition dictionary, and is not used for a certain period.
- the deleted vocabulary may be automatically deleted. For example, when the deletion determination period is set to one year, the vocabulary “phone number search” in FIG. 7 is deleted because it has not been used for three years. By doing so, the number of vocabularies can be reduced and the recognition rate can be improved.
- the speech recognition device is suitable as a speech recognition device for portable terminals and in-vehicle information devices because it can improve the recognition rate by suppressing the addition of unlimited vocabulary to the recognition dictionary.
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
制御部10が、通信部15で取得された語彙ごとのカテゴリをモニタ9等に提示し、入力装置2を用いた対話的な操作によりカテゴリごとに語彙を選択させ、辞書管理部12が、入力装置2を用いて選択された語彙を認識辞書へ追加登録する。
Description
この発明は、音声認識装置に関するものである。
従来の技術として、例えば、特許文献1に開示されるシステムがある。このシステムでは、音声の認識辞書をサーバが管理しており、サーバからダウンロードされた認識辞書を用いて、音声認識処理が実行される。このようにすることで、平均的な音声周波数から外れた音声や訛りのあるユーザであっても、これらに対応する認識辞書をサーバからダウンロードすることにより、ユーザに適した音声認識処理を行うことができる。
また、特許文献2には、認識結果の語彙に関して、接続や出現の頻度が多い他の語彙を抽出する抽出手段と、この抽出手段により抽出された語彙とこの接続や出現の頻度情報を言語辞書に追加する追加手段を備えた音声認識装置が開示されている。この構成を有することにより、ユーザが必要な語彙を認識辞書に登録することができる。
しかしながら、特許文献1のシステムでは、どのユーザであっても同じ語彙数でダウンロードされるため、ユーザの必要に応じて語彙数を限定することができない。このため、認識率があまり向上しないという課題がある。
また、特許文献2の装置では、言語辞書に登録済みの語彙と追加語彙とが同一であると登録できず、登録済み語彙と追加語彙の読みが類似しているかどうか及び登録済み語彙数を考慮していないため、認識率はあまり向上しないという課題がある。
また、特許文献2の装置では、言語辞書に登録済みの語彙と追加語彙とが同一であると登録できず、登録済み語彙と追加語彙の読みが類似しているかどうか及び登録済み語彙数を考慮していないため、認識率はあまり向上しないという課題がある。
この発明は、上記のような課題を解決するためになされたもので、認識辞書への無制限な語彙追加を抑制することにより、認識率の向上を図ることができる音声認識装置を得ることを目的とする。
この発明に係る音声認識装置は、認識対象の語彙が登録された認識辞書と、入力音声を認識辞書の語彙と比較して音声認識する音声認識部と、外部からの操作を受け付ける操作部と、音声又は画面表示により情報を外部へ提示する提示部を備えた音声認識装置において、外部との通信により語彙を取得する通信部と、通信部で取得された語彙ごとのカテゴリを提示部に提示させ、操作部を用いた対話的な操作によりカテゴリごとに語彙を選択させる制御部と、操作部を用いて選択された語彙を認識辞書へ追加登録する辞書管理部を備えるものである。
この発明によれば、通信部で取得された語彙ごとのカテゴリを提示部に提示し、操作部を用いた対話的な操作によりカテゴリごとに語彙を選択させて、選択された語彙を認識辞書へ追加登録する。このようにすることで、ユーザが必要とする語彙を認識辞書へ追加できることから、認識率の向上を図ることができるという効果がある。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置を用いたシステムの構成を示すブロック図である。図1において、実施の形態1の音声認識装置1は、周辺機器として、手動操作に用いるリモコンやタッチパネル等の入力装置(操作部)2、音声を入力するマイク(操作部)3、音声を出力するスピーカ(提示部)8、及び画像やテロップを表示するモニタ(提示部)9を備える。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置を用いたシステムの構成を示すブロック図である。図1において、実施の形態1の音声認識装置1は、周辺機器として、手動操作に用いるリモコンやタッチパネル等の入力装置(操作部)2、音声を入力するマイク(操作部)3、音声を出力するスピーカ(提示部)8、及び画像やテロップを表示するモニタ(提示部)9を備える。
また、音声認識装置1は、内部構成として、キー入力部(操作部)4、音声入力部(操作部)5、音声出力部(提示部)6、画面出力部(提示部)7、制御部10、音声認識部11、辞書管理部12、認識辞書の記憶部13、警告内容生成部14、通信部15、語彙数カウント部16及び類似語彙比較部17を備える。
キー入力部4は、入力装置2を介して入力されたコマンドを受け付けて制御部10に出力する。音声入力部5は、マイク3から音声入力されたコマンドを受け付けて制御部10に出力する。音声出力部6は、スピーカ8を介した音声出力を制御する構成部であり、音声認識装置1からのガイダンスや認識結果等をユーザに提示する。画面出力部7は、モニタ9の画面表示を制御する構成部である。
制御部10は、キー入力部4や音声入力部5から受け付けたコマンドに応じて、他の構成部を制御することにより、当該コマンドに対応する処理を実行する構成部である。音声認識部11は、認識辞書に基づいて音声入力部5から入力した音声の音声認識処理を実行する。辞書管理部12は、記憶部13に格納された認識辞書を管理する構成部であって、制御部10からの命令に応じて、認識辞書から認識対象の語彙を読み出したり、追加する処理を行う。
警告内容生成部14は、語彙を追加する際にユーザに提示する警告内容を生成する構成部である。通信部15は、外部のサーバ装置19と通信を行う構成部である。語彙数カウント部16は、語彙数をカウントする構成部であり、追加する語彙数と記憶部13の登録済み語彙数をカウントする。類似語彙比較部17は、追加する語彙と記憶部13の登録済み語彙とを比較して両者の読みが同じであるか否かを判定する構成部である。なお、読みが同じ語彙を類似する語彙と判断する。
なお、キー入力部4、音声入力部5、音声出力部6、画面出力部7、制御部10、音声認識部11、辞書管理部12、警告内容生成部14、通信部15、語彙数カウント部16及び類似語彙比較部17は、この発明の趣旨に従う処理プログラムをコンピュータに読み込ませ、そのCPUに実行させることによって、ハードウエアとソフトウエアが協働した具体的な手段として実現することができる。
記憶部13は、音声認識装置1が構築されたコンピュータが備える記憶装置(例えば、ハードディスク装置や外部記憶メディア等)あるいは上記コンピュータと通信接続可能な他のコンピュータの記憶装置に構築することができる。
また、音声認識装置1は、ネットワーク18を介してサーバ装置19から語彙をダウンロードして認識辞書に登録する。このサーバ装置19は、通信部20、制御部21、辞書管理部22及び認識辞書を格納する記憶部23を備える。
通信部20は、ネットワーク18を介して音声認識装置1の通信部15と通信を行う構成部である。制御部21は、他の構成部を制御する構成部である。辞書管理部22は、記憶部23に格納された認識辞書を管理する構成部であって、制御部21からの命令に応じて、認識辞書から認識対象の語彙を読み出したり、追加する処理を行う。
通信部20は、ネットワーク18を介して音声認識装置1の通信部15と通信を行う構成部である。制御部21は、他の構成部を制御する構成部である。辞書管理部22は、記憶部23に格納された認識辞書を管理する構成部であって、制御部21からの命令に応じて、認識辞書から認識対象の語彙を読み出したり、追加する処理を行う。
次に動作について説明する。
先ず、音声認識装置1が、サーバ装置19から語彙をダウンロードして認識辞書に登録する処理を説明する。図2は、語彙追加時のモニタの画面遷移を示す図である。
音声認識装置1の通信部15とサーバ装置19の通信部20との通信が成功すると、サーバ装置19の制御部21が、通信部20を介して画面表示情報を送信する。音声認識装置1の制御部10は、通信部15を介して受信された上記画面表示情報を画面出力部7に出力する。画面出力部7が、上記画面表示情報を表示するようモニタ9を制御することにより、図2の画面9-1が表示される。
先ず、音声認識装置1が、サーバ装置19から語彙をダウンロードして認識辞書に登録する処理を説明する。図2は、語彙追加時のモニタの画面遷移を示す図である。
音声認識装置1の通信部15とサーバ装置19の通信部20との通信が成功すると、サーバ装置19の制御部21が、通信部20を介して画面表示情報を送信する。音声認識装置1の制御部10は、通信部15を介して受信された上記画面表示情報を画面出力部7に出力する。画面出力部7が、上記画面表示情報を表示するようモニタ9を制御することにより、図2の画面9-1が表示される。
認識辞書に語彙を追加したい場合、ユーザは「語彙追加」欄を選択する。選択方法は、マイク3を用いた音声入力か、入力装置2を用いた手動入力のいずれであってもよい。
「語彙追加」欄が選択されると、この選択結果が音声入力部5又はキー入力部4を介して制御部10へ送られる。制御部10は、通信部15を用いて、この選択結果をサーバ装置19へ送信する。サーバ装置19の制御部21は、通信部20により受信された上記選択結果に基づいて、次に遷移すべき画面を示す画面表示情報を選択し、この画面表示情報を画面9-1の場合と同様にして音声認識装置1へ返信する。
「語彙追加」欄が選択されると、この選択結果が音声入力部5又はキー入力部4を介して制御部10へ送られる。制御部10は、通信部15を用いて、この選択結果をサーバ装置19へ送信する。サーバ装置19の制御部21は、通信部20により受信された上記選択結果に基づいて、次に遷移すべき画面を示す画面表示情報を選択し、この画面表示情報を画面9-1の場合と同様にして音声認識装置1へ返信する。
画面出力部7が、音声認識装置1へ返信された上記画面表示情報を表示するようにモニタ9を制御することで、モニタ9の表示画面が図2の画面9-2へ遷移する。ユーザがジャンル名の語彙を追加する場合、この画面9-2における「ジャンル」欄を選択する。なお、コマンドや住所等を選択する場合には、それぞれのカテゴリを表示したボタンを選択する。「ジャンル」欄が選択されると、制御部10が、上記と同様の流れで通信部15を用いて選択結果をサーバ装置19へ送信し、サーバ装置19から次に遷移すべき画面を示す画面表示情報を取得する。
画面出力部7が、この画面表示情報を受けることで、モニタ9の表示画面が図2の画面9-3へ遷移する。画面9-3には、ジャンルの大分類が表示される。ここで、交通に関連するジャンルの語彙を追加する場合、画面9-3中の「交通」欄を選択する。この選択結果に応じて、サーバ装置19から画面表示情報を受信することにより、モニタ9の表示画面が図2の画面9-4へ遷移する。
画面9-4には、サーバ装置19からダウンロード可能な語彙のリストが表示される。全ての語彙をダウンロードしたい場合は「全て」欄を選択する。また、一部の語彙をダウンロードしたい場合には、ダウンロードしたい語彙のチェック欄24をアクティブにして「選択語彙のみ」欄を選択する。「全て」又は「選択語彙のみ」欄のいずれかが選択されると、制御部10が、通信部15を用いて、この選択結果をサーバ装置19へ送信する。サーバ装置19の制御部21は、辞書管理部22を介して選択結果に対応する語彙を取得し、通信部20を介して音声認識装置1へダウンロードする。
音声認識装置1の制御部10は、通信部15を介してサーバ装置19から受信した語彙を辞書管理部12へ出力して、記憶部13の認識辞書に追加するように指示する。辞書管理部12は、制御部10からの指示に従い、入力した語彙を認識辞書に追加する。
このように、制御部10は、通信部15で取得された語彙ごとのカテゴリをモニタ9の画面に表示させ、入力装置2を用いた対話的な操作によりカテゴリごとに語彙を選択させる。辞書管理部12では、入力装置2を用いて選択された語彙を認識辞書へ追加する。
このように、制御部10は、通信部15で取得された語彙ごとのカテゴリをモニタ9の画面に表示させ、入力装置2を用いた対話的な操作によりカテゴリごとに語彙を選択させる。辞書管理部12では、入力装置2を用いて選択された語彙を認識辞書へ追加する。
なお、サーバ装置19の記憶部23に格納される認識辞書は、辞書管理部22によってジャンルや地域などのカテゴリごとに分割して管理されているものとする。
また、上述の画面遷移に応じた処理は一例を示すものであって、ユーザが必要な語彙を選択することができ、また、選択された語彙のみを追加語彙として認識辞書に登録できるGUI(Graphical User Interface)であれば、図2の場合に限定されるものではない。
例えば、画面9-1で「語彙追加」欄を選択した後、ユーザが読みを入力して語彙を登録できる画面へ遷移するようにしてもよい。
また、上述の画面遷移に応じた処理は一例を示すものであって、ユーザが必要な語彙を選択することができ、また、選択された語彙のみを追加語彙として認識辞書に登録できるGUI(Graphical User Interface)であれば、図2の場合に限定されるものではない。
例えば、画面9-1で「語彙追加」欄を選択した後、ユーザが読みを入力して語彙を登録できる画面へ遷移するようにしてもよい。
また、図2の画面9-1で「語彙削除」欄が選択された場合、制御部10が、モニタ9の画面上に登録済み語彙を表示するように制御する。このとき、入力装置2を用いてユーザが削除する語彙を選択すると、制御部10が、この選択情報に基づいて辞書管理部12に語彙を削除するように指示する。これにより、辞書管理部12が、ユーザにより削除指定された登録済み語彙を認識辞書から削除する。
以上のように、この実施の形態1によれば、制御部10が、通信部15で取得された語彙ごとのカテゴリをモニタ9等に提示し、入力装置2を用いた対話的な操作によりカテゴリごとに語彙を選択させ、辞書管理部12が、入力装置2を用いて選択された語彙を認識辞書へ追加登録する。このようにジャンルや地域等の語彙のカテゴリを対話的に指定することにより、ユーザが必要な語彙のみを選択し認識辞書へ登録できる。従って、認識辞書に追加される語彙がユーザにとって真に必要な語彙のみに限定されるため、認識率を向上させることができる。
実施の形態2.
この実施の形態2では、既に認識辞書に登録されている登録済み語彙のうち、追加する語彙と類似する語彙の存在をユーザに警告する場合を述べる。
なお、実施の形態2による音声認識装置は、上記実施の形態1で図1を用いて説明した構成と基本的に同一の構成を有している。従って、音声認識装置の構成については、実施の形態2においても図1を参照する。
この実施の形態2では、既に認識辞書に登録されている登録済み語彙のうち、追加する語彙と類似する語彙の存在をユーザに警告する場合を述べる。
なお、実施の形態2による音声認識装置は、上記実施の形態1で図1を用いて説明した構成と基本的に同一の構成を有している。従って、音声認識装置の構成については、実施の形態2においても図1を参照する。
次に動作について説明する。
図3は、この発明の実施の形態2の音声認識装置による動作の流れを示すフローチャートである。例えば、図2の画面9-4で語彙を選択し追加する語彙をサーバ装置19からダウンロードすると、類似語彙比較部17が、上記追加する語彙と辞書管理部12により管理される認識辞書に登録済みの語彙とを比較して、両者の読みが同じ(類似)であるか否かを判定する(ステップST1、ステップST2)。なお、読みが同じ語彙を類似語彙とする場合を示したが、読みが一字違いなど、読みの文字列同士が完全一致する場合以外に所定の文字数まで同一である場合を類似と判定してもよい。
図3は、この発明の実施の形態2の音声認識装置による動作の流れを示すフローチャートである。例えば、図2の画面9-4で語彙を選択し追加する語彙をサーバ装置19からダウンロードすると、類似語彙比較部17が、上記追加する語彙と辞書管理部12により管理される認識辞書に登録済みの語彙とを比較して、両者の読みが同じ(類似)であるか否かを判定する(ステップST1、ステップST2)。なお、読みが同じ語彙を類似語彙とする場合を示したが、読みが一字違いなど、読みの文字列同士が完全一致する場合以外に所定の文字数まで同一である場合を類似と判定してもよい。
サーバ装置19からダウンロードした語彙と読みが同じ語彙がない場合(ステップST2;NO)、類似語彙比較部17は、その旨を制御部10に通知する。制御部10は、この通知を受けると、サーバ装置19からダウンロードした上記語彙を認識辞書に追加するように辞書管理部12に指示する。これにより、辞書管理部12は、当該語彙を認識辞書に追加する(ステップST5)。
一方、サーバ装置19からダウンロードした語彙と読みが同じ語彙がある場合(ステップST2;YES)、類似語彙比較部17は、その旨を制御部10に通知する。制御部10は、この通知を受けると、サーバ装置19からダウンロードした語彙と類似する語彙が既に認識辞書に存在することをユーザへ提示する警告音声文や表示内容を生成するように警告内容生成部14へ指示する。警告内容生成部14は、制御部10の指示に従い、上記警告音声文や表示内容などの警告内容を示す情報を生成する(ステップST3)。警告音声文や表示内容は、音声出力部6や画面出力部7へ出力される。
音声出力部6は警告音声文をスピーカ8を介して出力し、画面出力部7は警告の表示内容をモニタ9に表示する(ステップST4)。この後、ステップST5の処理に進んで、辞書管理部12は、サーバ装置19からダウンロードした語彙を認識辞書に追加する。
例えば、「局(きょく)」という語彙が認識辞書に登録されている状態で、サーバ装置19から「曲(きょく)」という語彙をダウンロードして追加する場合、両者が同じ読みであるため、ステップST3の処理に進んで、警告内容生成部14が、同じ読みの語彙がある旨を示す警告音声文や、これら語彙を表示する画面情報を生成する。
以上のように、この実施の形態2によれば、類似語彙比較部17が、通信部15で取得された語彙を認識辞書に登録される語彙と比較して、同一又は類似する語彙の有無を判定し、類似語彙比較部17で同一又は類似する語彙があることが判定されると、警告内容生成部14が、この判定結果を示す警告内容の情報を生成し、制御部10が、警告内容生成部14で生成された警告内容の情報をスピーカ8やモニタ9でユーザに提示させる。
このように構成することで、認識辞書に登録済みの語彙のうち、サーバ装置19からダウンロードされた語彙と同一又は類似する語彙が既に登録済みであることをユーザに報知できる。これにより、ユーザが、必要に応じて同一又は類似する語彙を登録しないように追加語彙を選択することが可能となり、認識率を向上させることができる。
このように構成することで、認識辞書に登録済みの語彙のうち、サーバ装置19からダウンロードされた語彙と同一又は類似する語彙が既に登録済みであることをユーザに報知できる。これにより、ユーザが、必要に応じて同一又は類似する語彙を登録しないように追加語彙を選択することが可能となり、認識率を向上させることができる。
実施の形態3.
この実施の形態3では、既に認識辞書に登録されている登録済み語彙と、追加する語彙との数が所定数を超える場合をユーザに警告する。
なお、実施の形態3による音声認識装置は、上記実施の形態1で図1を用いて説明した構成と基本的に同一の構成を有している。従って、音声認識装置の構成は、実施の形態3においても図1を参照する。
この実施の形態3では、既に認識辞書に登録されている登録済み語彙と、追加する語彙との数が所定数を超える場合をユーザに警告する。
なお、実施の形態3による音声認識装置は、上記実施の形態1で図1を用いて説明した構成と基本的に同一の構成を有している。従って、音声認識装置の構成は、実施の形態3においても図1を参照する。
次に動作について説明する。
図4は、この発明の実施の形態3の音声認識装置による動作の流れを示すフローチャートである。例えば、図2の画面9-4で語彙を選択し追加する語彙をサーバ装置19からダウンロードすると、語彙数カウント部16が、上記追加する語彙の数と、辞書管理部12により管理される認識辞書に登録済みの語彙の数とをカウントし、両者の数の合計が所定数を超えているか否かを判定する(ステップST1a、ステップST2a)。
図4は、この発明の実施の形態3の音声認識装置による動作の流れを示すフローチャートである。例えば、図2の画面9-4で語彙を選択し追加する語彙をサーバ装置19からダウンロードすると、語彙数カウント部16が、上記追加する語彙の数と、辞書管理部12により管理される認識辞書に登録済みの語彙の数とをカウントし、両者の数の合計が所定数を超えているか否かを判定する(ステップST1a、ステップST2a)。
サーバ装置19からダウンロードした語彙と登録済みの語彙との数が所定数以下の場合(ステップST2a;NO)、語彙数カウント部16は、その旨を制御部10に通知する。制御部10は、この通知を受けると、サーバ装置19からダウンロードした上記語彙を認識辞書に追加するように辞書管理部12に指示する。これにより、辞書管理部12は、当該語彙を認識辞書に追加する(ステップST5a)。
一方、サーバ装置19からダウンロードした語彙と登録済みの語彙との数が所定数より多い(超えている)場合(ステップST2a;YES)、語彙数カウント部16は、その旨を制御部10に通知する。制御部10は、この通知を受けると、サーバ装置19からダウンロードした語彙と既に認識辞書に存在する語彙の数が所定数を超えていることをユーザへ提示する警告音声文や表示内容を生成するように警告内容生成部14へ指示する。警告内容生成部14は、制御部10の指示に従い、上記警告音声文や表示内容などの警告内容を示す情報を生成する(ステップST3a)。警告音声文や表示内容は、音声出力部6や画面出力部7へ出力される。
音声出力部6は警告音声文をスピーカ8を介して出力し、画面出力部7は警告の表示内容をモニタ9に表示する(ステップST4a)。この後、ステップST5aの処理に進んで、辞書管理部12は、サーバ装置19からダウンロードした上記語彙を認識辞書に追加する。
例えば、サーバ装置19からダウンロードして追加する語彙の数と、辞書管理部12で管理している登録済み語彙の数の合計が1000以下の場合は、ステップST5aの処理に進み、1000を超える場合には、警告内容生成部14が、追加する語彙と登録済み語彙の数の合計が1000を超えていることを示す警告音声文や、これら語彙を表示する画面情報を生成する。
認識辞書に登録された語彙数が多いと、認識処理に時間が掛かったり、誤認識率が増加する要因となり得る。また、認識処理時間及び誤認識率が許容される最大語彙数は、音声認識装置1を構築するコンピュータのCPU等の演算能力に依存しており、静的に定義されているものとする。そこで、上記の所定数としては、上記の静的に定義された最大語彙数を用いる。
以上のように、この実施の形態3によれば、語彙数カウント部16が、通信部15で取得された語彙と認識辞書に登録される語彙との合計数をカウントし、合計数が所定数を超えたか否かを判定し、語彙数カウント部で合計数が所定数を超えたことが判定されると、この判定結果を示す警告情報を生成する警告内容生成部14と、警告内容生成部14で生成された警告情報をモニタ9等に提示させる。
このようにすることで、語彙追加時に音声認識装置1の演算能力を考慮して追加する語彙数が妥当でない場合にユーザへ警告することができる。これにより、ユーザが、過剰な語彙の登録を控えるようになり、認識率を向上させることができる。
このようにすることで、語彙追加時に音声認識装置1の演算能力を考慮して追加する語彙数が妥当でない場合にユーザへ警告することができる。これにより、ユーザが、過剰な語彙の登録を控えるようになり、認識率を向上させることができる。
なお、上記実施の形態2及び上記実施の形態3において、サーバ装置19からダウンロードした語彙を追加すべきか否かをユーザに選択させる警告を出力するように構成してもよい。このようにすることで、必要な語彙のみをユーザが追加することができる。
図5は、ダウンロードした語彙を追加すべきか否かを選択させる処理の流れを示すフローチャートである。図5のステップST1bの処理は、実施の形態2で説明した図3のステップST4又は実施の形態3で説明した図4のステップST4aに後続する処理に相当する。また、ステップST2bの処理は、図3のステップST5又は図4のステップST5aの処理に相当する。
制御部10は、警告内容がユーザに提示されると、サーバ装置19からダウンロードした語彙を認識辞書に追加すべきか否かを示すGUIを提供する。例えば、制御部10は、サーバ装置19からダウンロードした語彙を認識辞書に追加すべきか否かを示す音声文や表示内容を生成し、音声出力部6や画面出力部7によりスピーカ8やモニタ9に出力させる。このとき、制御部10は、ユーザからの語彙追加の可否を示す操作入力を受け付け、この入力情報に基づいて語彙を追加するか否かを判定する(ステップST1b)。
入力装置2やマイク3を用いてユーザから語彙を追加しないことが選択されると(ステップST1b;NO)、制御部10は、サーバ装置19からダウンロードした語彙を認識辞書に追加しないように辞書管理部12に指示して処理を終了する。辞書管理部12は、制御部10の指示に従い、当該語彙を認識辞書に追加しない。
一方、入力装置2やマイク3を用いてユーザから語彙を追加することが選択されると(ステップST1b;YES)、制御部10は、サーバ装置19からダウンロードした語彙を認識辞書に追加するように辞書管理部12に指示する。これにより、辞書管理部12は、当該語彙を認識辞書に追加する(ステップST2b)。
また、ステップST1bで語彙を追加する場合に、制御部10が、登録済み語彙(例えば「局(きょく)」)と追加語彙(例えば「曲(きょく)」)をユーザに提示するとともに、音声認識における優先度をユーザが設定可能な出力情報を生成して、音声出力部6や画面出力部7によってスピーカ8やモニタ9に出力させるようにしてもよい。このようにすることで、ユーザの意図した認識結果を提示でき、認識率を向上させることができる。
例えば、制御部10が、ユーザにより語彙の追加が選択されると、サーバ装置19からダウンロードした語彙と類似する登録済み語彙に加え、これらの語彙の音声認識に関する優先度を設定させる音声文や設定画面を生成して、音声出力部6や画面出力部7によってスピーカ8やモニタ9に出力させる。このとき、制御部10は、ユーザによる優先度設定を示す操作入力を受け付ける。
入力装置2又はマイク3を用いて、ユーザが語彙に優先度を設定すると、制御部10は、サーバ装置19からダウンロードした語彙及び登録済み語彙に優先度を対応付けるように辞書管理部12に指示して処理を終了する。辞書管理部12は、制御部10の指示に従って、サーバ装置19からダウンロードした語彙にユーザが設定した優先度を対応付けて認識辞書に追加し、またこれに類似する登録済み語彙に対してもユーザが設定した優先度を対応付けて格納する。
これにより、サーバ装置19からダウンロードした追加すべき語彙が「曲(きょく)」であり、これに類似する登録済み語彙が「局(きょく)」であるとき、ユーザが「局(きょく)」の優先度を「曲(きょく)」より高く設定すれば、音声認識部11が読み「きょく」を認識した場合、認識結果として「局(きょく)」がユーザに提示される。
また、ステップST1bで語彙を追加する場合に、制御部10が、登録済み語彙(例えば「局(きょく)」)と追加語彙(例えば「曲(きょく)」)をユーザに提示するとともに、音声認識処理の際に両語彙を認識結果候補として提示するか否かを、ユーザによって指定可能な出力情報を生成して、音声出力部6や画面出力部7によりスピーカ8やモニタ9に出力させるようにしてもよい。このようにすることでも、ユーザの意図した認識結果を提示することができるようになり、認識率を向上させることができる。
例えば、制御部10が、ユーザにより語彙の追加が選択されると、サーバ装置19からダウンロードした語彙と類似する登録済み語彙に加え、音声認識処理の際にこれらの語彙を認識結果候補として提示するか否かを指定させる音声文や設定画面を生成して、音声出力部6や画面出力部7によってスピーカ8やモニタ9に出力させる。このとき、制御部10は、ユーザによる指定内容を示す操作入力を受け付ける。
入力装置2又はマイク3を用いて、ユーザが両語彙を認識結果候補として提示すべきことを指定すると、制御部10は、認識結果候補として提示すべき指定情報とともに、サーバ装置19からダウンロードした語彙及び登録済み語彙を格納するように辞書管理部12に指示して処理を終了する。辞書管理部12は、制御部10の指示に従って、認識結果候補として提示すべき指定情報とともに、サーバ装置19からダウンロードした語彙を認識辞書に追加し、認識結果候補として提示すべき指定情報を登録済み語彙に設定する。
一方、ユーザがいずれかの語彙のみを認識結果候補とすべきことを指定すると、制御部10は、認識結果候補として提示すべき指定情報を、ユーザにより指定された語彙のみに対応付けて格納するように辞書管理部12に指示する。辞書管理部12は、制御部10の指示に従って、認識結果候補として提示すべき指定情報を、ユーザにより指定された語彙のみに対応付けて認識辞書に登録する。
これにより、サーバ装置19からダウンロードした追加すべき語彙が「曲(きょく)」であり、これに類似する登録済み語彙が「局(きょく)」であるとき、ユーザが「局(きょく)」及び「曲(きょく)」を認識結果候補として提示すべきことが指定された場合、音声認識部11が読み「きょく」を認識した場合、認識結果候補として「局(きょく)」と「曲(きょく)」がユーザに提示される。また、ユーザが「局(きょく)」のみを認識結果候補として提示することが指定されていれば、認識結果候補として「局(きょく)」のみがユーザに提示される。
なお、前述した優先度を設定するGUIと組み合わせて、追加する語彙と類似する登録済み語彙がある場合に複数の認識結果候補を提示すべきか否かのみをユーザに指定させるように構成してもよい。この場合、複数の認識結果候補を提示しない指定がなされると、優先度の最も高い語彙が認識結果として提示される。また、複数の認識結果候補が指定された場合には、優先度が上位の所定数までの語彙が認識結果候補として提示される。
また、ステップST1bで語彙を追加する場合、制御部10が、登録済み語彙(例えば「局(きょく)」)と追加する語彙(例えば「曲(きょく)」)をユーザに提示するとともに、当該追加する語彙を読みの異なる別の語彙として追加するか否かを、ユーザによって指定可能な出力情報を生成して、音声出力部6や画面出力部7によりスピーカ8やモニタ9に出力させるようにしてもよい。このようにすることで、登録済み語彙と同一又は類似する語彙の無制限な追加が抑制されるため、認識率の向上を図ることができる。
制御部10は、ユーザによって登録済み語彙に類似する語彙の追加が選択されると、追加する語彙を読みの異なる別の語彙として追加するか否かを指定させる音声文や設定画面を生成し、音声出力部6や画面出力部7によってスピーカ8やモニタ9に出力させる。
入力装置2又はマイク3を用いて、ユーザにより別の語彙としては追加しないことが指定された場合、制御部10は、サーバ装置19からダウンロードした語彙をそのまま追加するように辞書管理部12に指示する。辞書管理部12は、制御部10の指示に従って、サーバ装置19からダウンロードした語彙を認識辞書に追加する。
入力装置2又はマイク3を用いて、ユーザにより別の語彙としては追加しないことが指定された場合、制御部10は、サーバ装置19からダウンロードした語彙をそのまま追加するように辞書管理部12に指示する。辞書管理部12は、制御部10の指示に従って、サーバ装置19からダウンロードした語彙を認識辞書に追加する。
一方、ユーザによって別の語彙として追加することが指定された場合、制御部10は、通信部15を用いて、サーバ装置19で管理される語彙から、ユーザに新たに語彙を選択させるか、あるいは、ユーザに読みを設定させる出力情報を生成して、音声出力部6や画面出力部7によりスピーカ8やモニタ9に出力させる。
制御部10は、ユーザによる操作入力で新たな語彙が選択されるか、新たな読みが設定されると、新たに選択された語彙の表記及び読みとこの読みに対応付けて追加語彙の表記を登録するか、または、ユーザが設定した読みと追加語彙の表記とを対応付けて登録するように辞書管理部12に指示する。
辞書管理部12は、制御部10の指示に従って、新たに選択された語彙の表記及び読みに加えて、登録済み語彙の読みと新たに選択された語彙の読みに対応付けて追加語彙の表記を認識辞書に登録するか、又は、登録済み語彙の読み及びユーザが設定した読みに対応付けて追加語彙の表記を認識辞書に登録する。
辞書管理部12は、制御部10の指示に従って、新たに選択された語彙の表記及び読みに加えて、登録済み語彙の読みと新たに選択された語彙の読みに対応付けて追加語彙の表記を認識辞書に登録するか、又は、登録済み語彙の読み及びユーザが設定した読みに対応付けて追加語彙の表記を認識辞書に登録する。
サーバ装置19からダウンロードされた追加語彙が「局(きょく)」であり、登録済み語彙が「曲(きょく)」であって、ユーザによって別の読み「ほうそうきょく」が設定された場合を例に挙げる。この場合、認識辞書には、読みが「きょく」に対応する認識語彙の表記として「曲」に加えて「局」が追加され、表記「局」には読み「きょく」と「ほうそうきょく」が登録される。
従って、音声認識部11によって読み「きょく」が認識された場合、認識結果候補としては、複数候補の提示が許可されていれば、「局」及び「曲」がユーザに提示される。
また、音声認識部11によって読み「ほうそうきょく」が認識された場合、認識結果候補として「局」が提示される。
従って、音声認識部11によって読み「きょく」が認識された場合、認識結果候補としては、複数候補の提示が許可されていれば、「局」及び「曲」がユーザに提示される。
また、音声認識部11によって読み「ほうそうきょく」が認識された場合、認識結果候補として「局」が提示される。
また、上述のように読みの異なる別の語彙として追加する場合、音声認識装置1側で、別の語彙として追加する語彙の案を提示してユーザに選択させるように構成してもよい。このようにすることでも、登録済み語彙と同一又は類似する語彙の無制限な追加が抑制されるため、認識率の向上を図ることができる。
図6は、ダウンロードされた語彙を音声認識装置が提示した別の語彙で認識辞書に追加する処理の流れを示すフローチャートである。図6のステップST1cからステップST4cまでの処理は、図5のステップST1bに後続する処理に相当する。また、ステップST5cの処理は、図5のステップST2bの処理に相当する。
制御部10は、ユーザによって登録済み語彙に類似する語彙の追加が選択されると、追加する語彙を読みの異なる別の語彙として追加するか否かを指定させる音声文や設定画面を生成し、音声出力部6や画面出力部7によってスピーカ8やモニタ9に出力させる。
このとき、制御部10は、ユーザによる指定内容を示す操作入力を受け付け、この指定内容に基づいて、別の語彙として追加するか否かを判定する(ステップST1c)。
このとき、制御部10は、ユーザによる指定内容を示す操作入力を受け付け、この指定内容に基づいて、別の語彙として追加するか否かを判定する(ステップST1c)。
入力装置2又はマイク3を用いて、ユーザにより別の語彙としては追加しないことが指定された場合(ステップST1c;NO)、制御部10は、サーバ装置19からダウンロードした語彙をそのまま追加するように辞書管理部12に指示して処理を終了する。辞書管理部12は、制御部10の指示に従って、サーバ装置19からダウンロードした語彙を認識辞書に追加する(ステップST5c)。
一方、ユーザによって別の語彙で追加することが指定された場合(ステップST1c;YES)、制御部10は、通信部15を用いて語彙の候補をサーバ装置19へ問い合わせる(ステップST2c)。例えば、追加する語彙が「曲」であれば、表記「曲」と読み「きょく」をサーバ装置19へ送信する。サーバ装置19の辞書管理部22は、認識語彙の表記に関連する語彙を分類して管理しており、音声認識装置1から問い合わせがあった語彙の表記及び読みを入力すると、この表記に関連し、かつ読みが異なる語彙を記憶部23から読み出して制御部21に出力する。制御部21は、辞書管理部22から入力した語彙の表記及び読みを、語彙の案として音声認識装置1へ返信する。
制御部10は、サーバ装置19から受信した語彙の案を提示する出力情報を生成して、音声出力部6や画面出力部7によりスピーカ8やモニタ9に出力させる(ステップST3c)。この後、制御部10は、ユーザによる指定内容を示す操作入力を受け付けて、この指定内容に基づいて、語彙の案を追加するか否かを判定する(ステップST4c)。
ここで、ユーザの指定内容から語彙の案を追加語彙として追加しないと判定した場合(ステップST4c;NO)、制御部10は、ステップST2cの処理に戻り、前述と同様の処理を施すことで、今回提示したものとは別の語彙の案をサーバ装置19からダウンロードして提示する。
例えば、追加語彙の表記「曲」に対する語彙の案として、関連する語彙「トラック(とらっく)」を提示したが、追加しないと判定された場合、別の語彙案として、語彙「タイトル(たいとる)」を提示する。なお、「トラック(とらっく)」と「タイトル(たいとる)」は、記憶媒体で楽曲データを格納する格納場所及び曲名を示す語彙であり、関連する語彙としてサーバ装置19で管理されている。
追加語彙として語彙案を追加すると判定した場合(ステップST4c;YES)、制御部10は、登録済み語彙の読み及び語彙案の読みを追加語彙の表記に対応付けて追加するように辞書管理部12に指示し処理を終了する。辞書管理部12は、制御部10の指示に従い、追加語彙の表記及びこれに対応付けて登録済み語彙の読み及び語彙案の読みを認識辞書に追加する(ステップST5c)。
また、ステップST1bで語彙を追加する場合、制御部10が、追加語彙(例えば「曲(きょく)」)とこれに類似する登録済み語彙(例えば「局(きょく)」)とをユーザに提示するとともに、登録済み語彙を削除して追加語彙を追加するか否かを、ユーザにより指定可能な出力情報を生成してスピーカ8やモニタ9に出力させるようにしてもよい。
このようにすることでも、同一又は類似する語彙の追加が抑制されるために、認識率の向上を図ることができる。
このようにすることでも、同一又は類似する語彙の追加が抑制されるために、認識率の向上を図ることができる。
制御部10は、ユーザによって登録済み語彙に類似する語彙の追加が選択された場合、類似する登録済み語彙を削除して追加語彙を追加するか否かを指定させる音声文や設定画面を生成してスピーカ8やモニタ9に出力させる。
入力装置2又はマイク3を用いて、ユーザにより削除しないことが指定された場合、制御部10は、サーバ装置19からダウンロードした語彙をそのまま追加するように辞書管理部12に指示する。辞書管理部12は、制御部10の指示に従って、サーバ装置19からダウンロードした語彙を認識辞書に追加する。
入力装置2又はマイク3を用いて、ユーザにより削除しないことが指定された場合、制御部10は、サーバ装置19からダウンロードした語彙をそのまま追加するように辞書管理部12に指示する。辞書管理部12は、制御部10の指示に従って、サーバ装置19からダウンロードした語彙を認識辞書に追加する。
一方、登録済み語彙を削除して追加語彙を追加することが指定された場合、制御部10は、類似する登録済み語彙を削除して追加語彙を追加するように辞書管理部12に指示し処理を終了する。辞書管理部12では、制御部10の指示に従って、サーバ装置19からダウンロードした語彙を認識辞書に追加するとともに、これに類似する登録済み語彙を削除する。
例えば、登録済み語彙「局(きょく)」があるところに、サーバ装置19から追加語彙「曲(きょく)」がダウンロードされた場合に、登録済み語彙を削除することをユーザが選択すれば、登録済み語彙「局(きょく)」が削除されて、追加語彙「曲(きょく)」が追加される。
なお、上記実施の形態1~3において、音声認識装置1の辞書管理部12が、認識辞書に登録されている語彙ごとに、図7に示す不使用期間情報を管理し、一定期間使用されなかった語彙を自動的に削除するようにしてもよい。例えば、削除判定する期間を1年間と定めた場合、図7における「電話番号検索」という語彙は、3年間使用されなかったため削除される。このようにすることで、語彙数が削減され、認識率を向上させることができる。
この発明に係る音声認識装置は、認識辞書への無制限な語彙の追加を抑制することで、認識率の向上を図ることができることから、携帯端末や車載情報機器の音声認識装置として好適である。
Claims (11)
- 認識対象の語彙が登録された認識辞書と、入力音声を前記認識辞書の語彙と比較して音声認識する音声認識部と、外部からの操作を受け付ける操作部と、音声又は画面表示により情報を外部へ提示する提示部を備えた音声認識装置において、
外部との通信により語彙を取得する通信部と、
前記通信部で取得された語彙ごとのカテゴリを前記提示部に提示させ、前記操作部を用いた対話的な操作によりカテゴリごとに語彙を選択させる制御部と、
前記操作部を用いて選択された語彙を前記認識辞書へ追加登録する辞書管理部を備えたことを特徴とする音声認識装置。 - 認識対象の語彙が登録された認識辞書と、入力音声を前記認識辞書の語彙と比較して音声認識する音声認識部と、外部からの操作を受け付ける操作部と、音声又は画面表示により情報を外部へ提示する提示部とを備えた音声認識装置において、
外部との通信により語彙を取得する通信部と、
前記通信部で取得された語彙を前記認識辞書に登録される語彙と比較して、同一又は類似する語彙の有無を判定する類似語彙比較部と、
前記類似語彙比較部で同一又は類似する語彙があることが判定されると、この判定結果を示す警告情報を生成する警告内容生成部と、
前記警告内容生成部で生成された警告情報を前記提示部に提示させる制御部を備えたことを特徴とする音声認識装置。 - 認識対象の語彙が登録された認識辞書と、入力音声を前記認識辞書の語彙と比較して音声認識する音声認識部と、外部からの操作を受け付ける操作部と、音声又は画面表示により情報を外部へ提示する提示部とを備えた音声認識装置において、
外部との通信により語彙を取得する通信部と、
前記通信部で取得された語彙と前記認識辞書に登録される語彙との合計数をカウントし、前記合計数が所定数を超えたか否かを判定する語彙数カウント部と、
前記語彙数カウント部で前記合計数が前記所定数を超えたことが判定されると、この判定結果を示す警告情報を生成する警告内容生成部と、
前記警告内容生成部で生成された警告情報を前記提示部に提示させる制御部を備えたことを特徴とする音声認識装置。 - 通信部にて取得された語彙を認識辞書に登録される語彙と比較して、同一又は類似する語彙の有無を判定する類似語彙比較部と、
前記通信部で取得された語彙と前記認識辞書に登録される語彙との合計数をカウントし、前記合計数が所定数を超えたか否かを判定する語彙数カウント部と、
同一又は類似する語彙があることを示す警告情報又は前記合計数が前記所定数を超えたことを示す警告情報を生成する警告内容生成部を備え、
制御部は、前記警告内容生成部で生成された警告情報を提示部に提示させることを特徴とする請求項1記載の音声認識装置。 - 制御部は、通信部で取得された語彙を認識辞書へ追加登録するか否かを提示部に提示させ、
辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて追加登録することが選択されると、前記通信部で取得された語彙を認識辞書へ追加登録することを特徴とする請求項4記載の音声認識装置。 - 制御部は、通信部で取得された語彙と認識辞書に登録される同一又は類似の語彙とに対する優先度の設定を提示部に提示させ、
辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて各語彙に設定された優先度を前記認識辞書へ登録し、
音声認識部は、前記優先度に応じて、認識結果候補の語彙を出力することを特徴とする請求項4記載の音声認識装置。 - 制御部は、通信部で取得された語彙と認識辞書に登録される同一又は類似の語彙を認識結果候補として提示するか否かを提示部に提示させ、
辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて指定された認識結果候補として提示するか否かを示す情報とともに語彙を前記認識辞書へ登録し、
音声認識部は、前記認識結果候補として提示するか否かを示す情報に基づいて認識結果候補の語彙を出力することを特徴とする請求項4記載の音声認識装置。 - 制御部は、通信部で取得された語彙を異なる読みの語彙として追加するか否かを提示部に提示させ、
辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて異なる読みの語彙として追加することが選択されると、前記通信部で取得された語彙を、前記異なる読みに対応付けて前記認識辞書へ追加登録することを特徴とする請求項4記載の音声認識装置。 - 制御部は、異なる読みの語彙として追加することが選択されると、異なる読みの語彙候補を提示部に提示させ、
辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて選択された語彙候補の読みに対応付けて、通信部で取得された語彙を認識辞書へ追加登録することを特徴とする請求項8記載の音声認識装置。 - 制御部は、通信部で取得された語彙と同一又は類似する語彙を認識辞書から削除するか否かを提示部に提示させ、
辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて削除することが選択されると、前記同一又は類似する語彙を前記認識辞書から削除することを特徴とする請求項4記載の音声認識装置。 - 辞書管理部は、認識辞書に登録された語彙が所定の削除条件に合致すると、前記認識辞書から削除することを特徴とする請求項4記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/005416 WO2011045846A1 (ja) | 2009-10-16 | 2009-10-16 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/005416 WO2011045846A1 (ja) | 2009-10-16 | 2009-10-16 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011045846A1 true WO2011045846A1 (ja) | 2011-04-21 |
Family
ID=43875906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2009/005416 WO2011045846A1 (ja) | 2009-10-16 | 2009-10-16 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2011045846A1 (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112491A (ja) * | 1998-09-30 | 2000-04-21 | Nec Saitama Ltd | 文字類似度判定装置およびその方法並びに音声認識装置およびその方法 |
JP2002140088A (ja) * | 2000-11-01 | 2002-05-17 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2002279350A (ja) * | 2001-03-15 | 2002-09-27 | Ricoh Co Ltd | 単語辞書メンテナンス方法、文字認識方法、これらの方法を実行させるプログラムが記憶されたコンピュータ読み取り可能な記憶媒体及び単語辞書メンテナンス方式 |
JP2002304189A (ja) * | 2001-04-05 | 2002-10-18 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識利用型文書作成方法、装置、認識辞書作成プログラム、および同プログラムを記録した記録媒体 |
JP2003280683A (ja) * | 2002-03-20 | 2003-10-02 | Toshiba Corp | 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置 |
JP2004294872A (ja) * | 2003-03-27 | 2004-10-21 | Matsushita Electric Ind Co Ltd | 音声認識を利用した電子機器 |
JP2005099741A (ja) * | 2003-09-02 | 2005-04-14 | Gf:Kk | 音声辞書作成装置、音声辞書作成方法、及びプログラム |
JP2005227686A (ja) * | 2004-02-16 | 2005-08-25 | Sharp Corp | 音声認識装置、音声認識プログラムおよび記録媒体。 |
-
2009
- 2009-10-16 WO PCT/JP2009/005416 patent/WO2011045846A1/ja active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112491A (ja) * | 1998-09-30 | 2000-04-21 | Nec Saitama Ltd | 文字類似度判定装置およびその方法並びに音声認識装置およびその方法 |
JP2002140088A (ja) * | 2000-11-01 | 2002-05-17 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2002279350A (ja) * | 2001-03-15 | 2002-09-27 | Ricoh Co Ltd | 単語辞書メンテナンス方法、文字認識方法、これらの方法を実行させるプログラムが記憶されたコンピュータ読み取り可能な記憶媒体及び単語辞書メンテナンス方式 |
JP2002304189A (ja) * | 2001-04-05 | 2002-10-18 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識利用型文書作成方法、装置、認識辞書作成プログラム、および同プログラムを記録した記録媒体 |
JP2003280683A (ja) * | 2002-03-20 | 2003-10-02 | Toshiba Corp | 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置 |
JP2004294872A (ja) * | 2003-03-27 | 2004-10-21 | Matsushita Electric Ind Co Ltd | 音声認識を利用した電子機器 |
JP2005099741A (ja) * | 2003-09-02 | 2005-04-14 | Gf:Kk | 音声辞書作成装置、音声辞書作成方法、及びプログラム |
JP2005227686A (ja) * | 2004-02-16 | 2005-08-25 | Sharp Corp | 音声認識装置、音声認識プログラムおよび記録媒体。 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11720200B2 (en) | Systems and methods for identifying a set of characters in a media file | |
AU2016211903B2 (en) | Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing | |
US9966071B2 (en) | Disambiguating input based on context | |
EP3142107A1 (en) | Voice recognition apparatus and controlling method thereof | |
US10250935B2 (en) | Electronic apparatus controlled by a user's voice and control method thereof | |
TW201440037A (zh) | 語音操控方法、行動終端裝置及語音操控系統 | |
US9749699B2 (en) | Display device, server device, voice input system and methods thereof | |
US11048736B2 (en) | Filtering search results using smart tags | |
US9607617B2 (en) | Concept cloud in smart phone applications | |
KR20160032564A (ko) | 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체 | |
KR102353797B1 (ko) | 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템 | |
WO2024140239A1 (zh) | 页面显示方法、装置、设备、计算机可读存储介质及产品 | |
US20220350605A1 (en) | Information processing apparatus | |
WO2020017151A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
WO2011045846A1 (ja) | 音声認識装置 | |
US10915565B2 (en) | Retrieval result providing device and retrieval result providing method | |
WO2016136208A1 (ja) | 音声対話装置、音声対話システム、および、音声対話装置の制御方法 | |
JP6115202B2 (ja) | 音声認識システム、方法およびプログラム | |
KR102446300B1 (ko) | 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 | |
WO2024125214A1 (zh) | 信息处理方法及设备 | |
JP5895878B2 (ja) | 入力支援システム、方法およびプログラム | |
KR20210157458A (ko) | 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템 | |
CN116662584A (zh) | 信息处理方法、装置、设备、存储介质及程序 | |
CN113076427A (zh) | 一种媒资资源搜索方法、显示设备及服务器 | |
KR20220043753A (ko) | 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09850388 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 09850388 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |