WO2011068170A1 - 検索装置、検索方法、及び、プログラム - Google Patents

検索装置、検索方法、及び、プログラム Download PDF

Info

Publication number
WO2011068170A1
WO2011068170A1 PCT/JP2010/071605 JP2010071605W WO2011068170A1 WO 2011068170 A1 WO2011068170 A1 WO 2011068170A1 JP 2010071605 W JP2010071605 W JP 2010071605W WO 2011068170 A1 WO2011068170 A1 WO 2011068170A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
search result
result
word string
string
Prior art date
Application number
PCT/JP2010/071605
Other languages
English (en)
French (fr)
Inventor
等 本田
幸徳 前田
智 朝川
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US13/511,401 priority Critical patent/US9817889B2/en
Priority to CN201080053823.0A priority patent/CN102667773B/zh
Priority to JP2011544293A priority patent/JPWO2011068170A1/ja
Priority to RU2012121711/08A priority patent/RU2012121711A/ru
Priority to EP10834620A priority patent/EP2509005A1/en
Publication of WO2011068170A1 publication Critical patent/WO2011068170A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present invention relates to a search device, a search method, and a program, and in particular, for example, a search device, a search method, and a search method that can robustly search for a word string corresponding to an input speech.
  • a search device for example, a search device, a search method, and a search method that can robustly search for a word string corresponding to an input speech.
  • a search method for example, a search method, and a search method that can robustly search for a word string corresponding to an input speech.
  • the voice recognition device performs voice recognition of the input speech using the word (vocabulary) sequence registered in the dictionary in advance as the target of the voice recognition result. Are output as a search result word string that is a result of a search for a word string corresponding to the input speech.
  • a word string that is a target of a search result of a word string corresponding to an input voice (hereinafter also referred to as a search result target word string) is a target of a voice recognition result. Therefore, the user's utterances are limited by the arrangement of words registered in the dictionary used for speech recognition.
  • voice search a voice search method called voice search has been proposed.
  • voice search continuous speech recognition is performed using a language model such as N-gram, and the speech recognition results and text registered in a DB (Database) prepared separately from the dictionary used for speech recognition (Text search for text corresponding to the speech recognition result from text registered in the DB) is performed.
  • a language model such as N-gram
  • DB Database
  • Text search for text corresponding to the speech recognition result from text registered in the DB
  • the topmost text or the text within the top N that matches the speech recognition result is output as a search result word string.
  • the text registered in the DB prepared separately from the dictionary used for speech recognition becomes the search result target word string. Therefore, by registering many texts in the DB, many of them can be registered. Can be used as a search result target word string.
  • the matching between the speech recognition result and the text as the search result target word string uses notation symbols which are symbols representing the respective notations of the voice recognition result and the search result target word string. This is done in units of words or notation symbols.
  • search result target word string completely different from the word string corresponding to the input speech matches with the speech recognition result in matching, and as a result, A search result target word string that is completely different from the word string corresponding to the input speech may be output as the search result word string.
  • the notation symbol string “City World” in the speech recognition result is divided into single words, such as “City / No / World /” (slash (/) indicates a separator), and matching is performed.
  • the notation symbol string “city world” in the speech recognition result is divided into notation symbols one by one like “city / city / no / world / world”, and matching is performed. Is done.
  • the matching symbol unit of the speech recognition result “Year of the year” is changed to “ Like “/ year / no / se / kai /”, matching is done by dividing into words one by one, and in the notation symbol unit matching, the notation symbol string “Yunasekai” of the speech recognition result is changed to “year”. Like “//////”, matching is performed by dividing into one notation symbol at a time.
  • the user speaks with “tolkien” (the author of the Lord of the Rings (the author of “the Lord of the Rings”)), for example, as input speech, and the notation symbol string of the speech recognition result is
  • the notation symbol string of the speech recognition result is For example, in the case of one word “tolkien”, in word unit matching, one word “tolkien” that is a notation symbol string of a speech recognition result is used as it is, and matching is performed, and a notation symbol (alphabetic character) unit.
  • the display symbol string “tolkien” of the speech recognition result is divided into notation symbols one by one as t / o / l / k / i / e / n, and matching is performed.
  • the notation symbol string of the speech recognition result of the input speech “tolkien” is, for example, “toll keene”
  • the notation symbol string “toll keene” of the speech recognition result is set to toll / keene in word unit matching.
  • matching is done by dividing into words one by one, and in matching in units of notation symbols (alphabetic character), as in t / o / l / l / k / e / e / n / e Matching is performed by dividing into alphabet units, which are notation symbols one by one.
  • the search result target word string that matches the speech recognition result differs greatly depending on whether the notation symbol string of the speech recognition result of the input speech “tolkien” is “tolkien” or “toll keene”.
  • a search result target word string that is completely different from the word string corresponding to the input voice is output as the search result word string, whereas the word string corresponding to the input voice is not output as the search result word string. is there.
  • the present invention has been made in view of such a situation, and it is possible to robustly search a word string corresponding to an input voice and obtain a word string corresponding to the input voice as a search result word string. It is what you want to do.
  • the search device or program includes a speech recognition unit that recognizes input speech, and a plurality of search result target words that are target words of a search result of a word sequence corresponding to the input speech. For each column, a search result target pronunciation symbol string that is a sequence of pronunciation symbols representing the pronunciation of the search result target word string, and a recognition result pronunciation symbol string that is a sequence of pronunciation symbols representing the pronunciation of the speech recognition result of the input speech And a word sequence corresponding to the input speech from the plurality of search result target word strings based on a matching result between the search result target pronunciation symbol string and the recognition result pronunciation symbol string
  • a search device including an output unit that outputs a search result word string that is a result of the search, or a computer functioning as a search device Is a program.
  • a search device that searches for a word string corresponding to an input voice recognizes the input voice and searches a plurality of search result targets for searching for a word string corresponding to the input voice. For each word string, a recognition result pronunciation symbol that is a string of search result target pronunciation symbol strings representing pronunciation of the search result target word string and a pronunciation symbol representing pronunciation of the speech recognition result of the input speech Search for a word string corresponding to the input speech from the plurality of search result target word strings based on a matching result between the search result target pronunciation symbol string and the recognition result pronunciation symbol string.
  • This is a search method including a step of outputting a search result word string that is a result of the above.
  • an input speech is recognized and a pronunciation representing the pronunciation of the search result target word string is obtained for each of a plurality of search result target word strings to be searched for a word string corresponding to the input voice.
  • a search result target pronunciation symbol string which is a sequence of symbols (phonetic symbol) and a recognition result pronunciation symbol sequence which is a sequence of pronunciation symbols representing the pronunciation of the speech recognition result of the input speech are taken. Then, based on a matching result between the search result target pronunciation symbol string and the recognition result pronunciation symbol string, a search that is a result of a search for a word string corresponding to the input speech from the plurality of search result target word strings The result word string is output.
  • search device may be an independent device or an internal block constituting one device.
  • the program can be provided by being transmitted through a transmission medium or by being recorded on a recording medium.
  • FIG. 1 It is a figure which shows the process in the case of performing matching with a speech recognition result and a search result object word string for every word using the notation symbol of each of a speech recognition result and a search result object word string.
  • the matching between the speech recognition result and the search result target word string is performed in units of words using notation symbols of the speech recognition result and the search result target word string, and in the case of performing in one or more units of the notation symbols.
  • FIG. The matching between the speech recognition result and the search result target word string is performed in units of words using notation symbols of the speech recognition result and the search result target word string, and in the case of performing in one or more units of the notation symbols.
  • FIG. 10 is a diagram illustrating a relationship between a size
  • FIG. 3 is a block diagram illustrating a configuration example of a voice recognition unit 51.
  • FIG. It is a figure which shows the example of the metadata of the program as a search result object word string memorize
  • FIG. 3 is a block diagram illustrating a configuration example of a total score calculation unit 91.
  • FIG. 10 is a diagram illustrating processing of the device 50.
  • FIG. 10 is a diagram illustrating processing of the device 50. It is a block diagram which shows the structural example of the part which calculates
  • V UTR * V TITLE (i) using a reverse index It is a figure explaining the method of calculating inner product V UTR * V TITLE (i) using a reverse index.
  • 4 is a flowchart for explaining processing of the voice search device 50. It is a block diagram which shows the structural example of one Embodiment of the computer to which this invention is applied.
  • mapping between the speech recognition result and the text as the search result target word string uses notation symbols that are symbols representing the notation of the speech recognition result and the search result target word string. This is done in units of notation symbols.
  • search result target word string completely different from the word string corresponding to the input speech matches with the speech recognition result in matching, and as a result, A search result target word string completely different from the word string corresponding to the input speech is output as the search result word string.
  • the notation symbol string “City World” in the speech recognition result is divided into single words, such as “City / No / World /” (slash (/) indicates a separator), and matching is performed.
  • the notation symbol string “city world” in the speech recognition result is divided into notation symbols one by one like “city / city / no / world / world”, and matching is performed. Is done.
  • the matching symbol unit of the speech recognition result “Year of the year” is changed to “ Like “/ year / no / se / kai /”, matching is done by dividing into words one by one, and in the notation symbol unit matching, the notation symbol string “Yunasekai” of the speech recognition result is changed to “year”. Like “//////”, matching is performed by dividing into one notation symbol at a time.
  • Matching is performed using the single word “tolkien”, which is the notation symbol string of the speech recognition result, as it is.
  • the display symbol string “tolkien” of the speech recognition result is t / o / l / k.
  • matching is performed by dividing into notation symbols one by one.
  • the notation symbol string of the speech recognition result of the input speech “tolkien” is, for example, “toll keene”
  • the notation symbol string “toll keene” of the speech recognition result is set to toll / keene in word unit matching.
  • matching is performed by dividing into words one by one, and in matching in units of notation symbols, one by one like t / o / l / l / k / e / e / n / e Matching is performed by dividing into alphabetic units which are notation symbols.
  • the search result target word string that matches the speech recognition result differs greatly depending on whether the notation symbol string of the speech recognition result of the input speech “tolkien” is “tolkien” or “toll keene”.
  • a search result target word string that is completely different from the word string corresponding to the input voice is output as the search result word string, whereas the word string corresponding to the input voice is not output as the search result word string. is there.
  • matching between the speech recognition result and the search result target word string is performed using the pronunciation recognition symbol which is a symbol representing the pronunciation of the speech recognition result and the search result target word string.
  • the search for the word string corresponding to the input voice can be performed robustly, thereby preventing the word string corresponding to the input voice from being output as the search result word string.
  • a cosine distance of a vector space method is used.
  • the similarity between the speech recognition result and the search result target word string is obtained by dividing the inner product of the vectors X and Y by the product of the magnitude (norm)
  • the cosine distance is obtained by dividing the inner product by the product of the magnitude of the vector X representing the speech recognition result
  • the cosine distance is adopted as the similarity, for example, the same word string as that included in the speech recognition result is included, but the length is longer than the speech recognition result, and the speech recognition result
  • a shorter search result target word string has a higher similarity (similar) to a shorter search result target word string than a speech recognition result, and a lower similarity to a longer search result target word string than a speech recognition result ( There is a strong tendency.
  • search result target word string within the top N ranks with high similarity obtained as a result of matching is output as the search result word string, the same word string as included in the speech recognition result is included, but the long
  • the similarity of the search result target word string that is longer than the speech recognition result is low, and such a long search result target word string is often not output as the search result word string, and the word corresponding to the input speech Column search accuracy is degraded.
  • the corrected distance obtained by correcting the cosine distance is reduced to the speech recognition result and the search result target word string so as to reduce the influence of the difference in length between the speech recognition result and the search result target word string.
  • a search used when obtaining the cosine distance is used.
  • a method using a non-proportional value There are a method using a non-proportional value and a method not using the size
  • the text that is the search result target word string may be an enormous number such as hundreds of thousands, and the word string corresponding to the utterance (input voice) is the user's utterance.
  • the search result word string that is a search result, it is necessary to perform matching at high speed.
  • matching is performed at high speed by using a reverse lookup index or the like.
  • an acoustic model such as HMM (Hidden Markov Model) is used to represent the acoustic likelihood of the recognition hypothesis as a speech recognition result of a recognition hypothesis that is a candidate (hypothesis) of speech recognition results.
  • a score is obtained, and a language score representing the linguistic likelihood of the recognition hypothesis is obtained using a language model such as N-gram, and the speech recognition result is taken into account both the acoustic score and the language score. (Recognition hypothesis) is required.
  • the language model used in voice recognition for voice search is generated using, for example, a word string described in a newspaper.
  • the user will obtain a search result target word string (low frequency word string) including a word string (including a word string that does not appear) that appears in a sentence described in a newspaper as a search result word string.
  • a search result target word string low frequency word string
  • the language score obtained for the low-frequency word string may be low in voice recognition, and a correct voice recognition result may not be obtained.
  • search result word string corresponding to the input speech (a search result target appropriate for the input speech) is included in the speech recognition result even in matching performed after speech recognition in voice search. (Word string) does not match, and the search result target word string corresponding to the input voice may not be output as the search result word string.
  • a program with a title uttered by the user is searched by voice search from an EPG (Electronic Program Guide) and the program is recorded.
  • EPG Electronic Program Guide
  • voice search first, voice recognition of the title of the program spoken by the user is performed.
  • a plurality of search result target word strings that are target word search results of word strings corresponding to input speech, that is, word strings that match voice recognition results in voice search.
  • the search result target word string is used to generate a so-called language model, and speech recognition is performed using the dedicated language model, thereby improving the accuracy of speech recognition.
  • a word string that is a constituent element (program title, performer name, etc.) constituting the EPG is a voice recognition result. Therefore, a dedicated language model is generated using the search result target word string as a component constituting the EPG.
  • search result target word string is the program title or It can be said that it is classified into fields such as performer names.
  • a language model for each field is generated using the word strings of each field, and the language model for each field is converted into one language model. If speech recognition is performed using the one language model after interpolating, the language score of a recognition hypothesis in which word strings (part of each) in different fields are arranged may increase.
  • the word string in which a part of the title of program A and a part of the name of the performer of program B are arranged does not exist in the constituent elements of the EPG, which is the search result target word string, such a word It is not preferred that the columns become recognition hypotheses with a high language score that can be made into speech recognition results.
  • the search result target word string of each field is used for each field.
  • a language model field dependent language model
  • speech recognition is performed using the language model of each field.
  • search result target word string that matches the voice recognition result is output as a search result word string.
  • a word unrelated to the program that the user uttered the title that is, a program whose title is not similar to the title of the program that the user uttered, for example, is included in the title of the program that the user uttered.
  • a program including a word string similar to a string (including a case of matching) in detailed information or the like as a search result target word string may be obtained as a result of a voice search.
  • the search result target word string is classified into a plurality of fields
  • the search result target word in a predetermined field such as a field desired by the user is matched with the speech recognition result. It is possible to perform only on the column.
  • the user can perform a flexible search such as searching for a program that includes a certain word string only in the title, or searching for a program that includes only the performer name.
  • a voice search for a program may not be performed. is there.
  • the recorder to which the voice search is applied has, for example, a program search function for searching for a program containing the user's utterance in the title or the like by voice search for the user's utterance.
  • a voice control function is performed in which the recorder selects one of the one or more programs searched by the program search function as a program to be played in accordance with the utterance “selection” by the user. I have it.
  • the voice control function for selecting a program in accordance with the user's utterance “selection” is obtained by using “selection” as the target of the voice recognition result in voice recognition for voice search and as a voice recognition result in the recorder.
  • the “selection” can be realized by interpreting it as a command for controlling the recorder.
  • the user speaks “selection” to thereby select from the programs obtained by the function of program selection.
  • the recorder can select one program to be reproduced.
  • the user cannot utter “selection” that matches the command “selection” for controlling the recorder when searching for the program by the program selection function by voice search.
  • the recorder interprets the user's utterance “select” as a command, and does not search for a program including “select” in the program title or the like.
  • FIG. 1 is a block diagram showing a first configuration example of an embodiment of a voice search device to which the present invention is applied.
  • the speech search apparatus includes a speech recognition unit 11, a phonetic symbol conversion unit 12, a search result target storage unit 13, a morpheme analysis unit 14, a phonetic symbol conversion unit 15, a matching unit 16, and an output unit 17.
  • the voice recognition unit 11 is supplied with input voice (data) which is a user's utterance from a microphone or the like (not shown).
  • the speech recognition unit 11 recognizes the input speech supplied thereto, and supplies the speech recognition result (for example, a notation symbol) to the pronunciation symbol conversion unit 12.
  • the phonetic symbol conversion unit 12 supplies the speech recognition result (for example, a notation symbol) of the input speech supplied from the speech recognition unit 11 to a recognition result pronunciation symbol that is a sequence of pronunciation symbols representing the pronunciation of the speech recognition result.
  • the data is converted into a column and supplied to the matching unit 16.
  • the search result target storage unit 13 includes a plurality of search result target word strings, that is, a search result word string that is a result of a search for a word string corresponding to an input voice after matching with a voice recognition result in the matching unit 16.
  • Possible word strings for example, text as a notation symbol
  • Possible word strings are stored.
  • the morpheme analysis unit 14 divides the search result target word string into, for example, units of words (morpheme) by performing morpheme analysis of the search result target word string stored in the search result target storage unit 13, and phonetic symbol conversion To the unit 15.
  • the pronunciation symbol conversion unit 15 uses the search result target word string (for example, a notation symbol) supplied from the morpheme analysis unit 14 as a search result target pronunciation that is a sequence of pronunciation symbols representing the pronunciation of the search result target word string.
  • the symbol string is converted and supplied to the matching unit 16.
  • the matching unit 16 performs matching between the recognition result pronunciation symbol string from the pronunciation symbol conversion unit 12 and the search result target pronunciation symbol string from the pronunciation symbol conversion unit 15, and supplies the matching result to the output unit 17.
  • the matching unit 16 performs matching with the speech recognition result of the input speech for each of the search result target word strings stored in the search result target storage unit 13, the pronunciation symbol of the speech recognition result, and the search result target word. This is done using the phonetic symbols in the sequence.
  • the matching unit 16 matches each of the search result target word strings stored in the search result target storage unit 13 with the speech recognition result of the input speech, and supplies the matching result to the output unit 17.
  • the output unit 17 is a search result that is a search result of a word string corresponding to the input speech from among the search result target word strings stored in the search result target storage unit 13.
  • the result word string is output.
  • a voice search process is performed according to the user's utterance.
  • the speech recognition unit 11 recognizes the input speech and generates the speech recognition result of the input speech as a pronunciation. This is supplied to the symbol converter 12.
  • the phonetic symbol conversion unit 12 converts the voice recognition result of the input voice from the voice recognition unit 11 into a recognition result phonetic symbol string and supplies it to the matching unit 16.
  • the morpheme analysis unit 14 performs morpheme analysis on all search result target word strings stored in the search result target storage unit 13 and supplies the morpheme analysis unit 14 to the pronunciation symbol conversion unit 15.
  • the pronunciation symbol conversion unit 15 converts the search result target word string from the morpheme analysis unit 14 into a search result target pronunciation symbol string and supplies it to the matching unit 16.
  • the matching unit 16 For each of all search result target word strings stored in the search result target storage unit 13, the matching unit 16 recognizes the recognition result pronunciation symbol string from the pronunciation symbol conversion unit 12 and the search result target pronunciation from the pronunciation symbol conversion unit 15. Using the symbol sequence, matching with the speech recognition result of the input speech is performed, and the matching result is supplied to the output unit 17.
  • a search result that is a search result of a word string corresponding to the input speech from among the search result target word strings stored in the search result target storage unit 13.
  • a word string (referred to as a search result target word string) is selected and output.
  • the user simply obtains a search result target word string as a search result word string that matches the user's utterance from the search result target word strings stored in the search result target storage unit 13. Can do.
  • FIG. 2 is a block diagram showing a second configuration example of an embodiment of a voice search device to which the present invention is applied.
  • the voice search device of FIG. 2 has a voice recognition unit 11, a search result target storage unit 13, a morpheme analysis unit 14, a matching unit 16, and an output unit 17, and is common to the case of FIG. It differs from the case of FIG. 1 in that a phonetic symbol conversion unit 21 is provided instead of the units 12 and 15.
  • the phonetic symbol conversion unit 21 converts the speech recognition result of the input speech supplied from the speech recognition unit 11 into a recognition result phonetic symbol string, and supplies it to the matching unit 16 and also from the morpheme analysis unit 14.
  • the search result target word string is converted into a search result target pronunciation symbol string and supplied to the matching unit 16.
  • the conversion of the speech recognition result of the input speech into the recognition result pronunciation symbol string and the conversion of the search result target word string into the search result target pronunciation symbol string are separate pronunciation symbol conversion units 12.
  • the speech recognition result of the input speech is converted into a recognition result pronunciation symbol string
  • the search result target word string is converted into a search result target pronunciation symbol string.
  • the phonetic symbol conversion unit 21 performs the conversion to “so”.
  • the conversion of the speech recognition result of the input speech into the recognition result pronunciation symbol string and the conversion of the search result target word string into the search result target pronunciation symbol string are separate pronunciations.
  • the voice search process similar to that in FIG. 1 is performed except that the symbol conversion units 12 and 15 do not perform each of them but the phonetic symbol conversion unit 21.
  • FIG. 3 is a block diagram showing a third configuration example of an embodiment of a voice search device to which the present invention is applied.
  • the voice search apparatus of FIG. 3 is common to the case of FIG. 1 in that it has a voice recognition unit 11, a phonetic symbol conversion unit 12, a matching unit 16, and an output unit 17, and a search result target storage unit 13, morphological analysis. It differs from the case of FIG. 1 in that a search result target storage unit 31 is provided instead of the unit 14 and the phonetic symbol conversion unit 15.
  • the search result target storage unit 31 pronounces the search result target word string in addition to the same search result target word string (for example, a notation symbol) stored in the search result target storage unit 13.
  • the search result object pronunciation symbol string converted into the symbol is stored.
  • the search result target pronunciation symbol string used for matching in the matching unit 16 is stored in the search result target storage unit 31, morphological analysis of the search result target word string, The same voice search processing as in FIG. 1 is performed except that conversion to the search result target pronunciation symbol string is not performed.
  • FIG. 4 is a block diagram showing a fourth configuration example of an embodiment of a voice search device to which the present invention is applied.
  • the voice search device of FIG. 4 has a matching unit 16, an output unit 17, and a search result target storage unit 31, and is common to the case of FIG. 3, with the voice recognition unit 11 and the phonetic symbol conversion unit 12. Instead, it differs from the case of FIG. 3 in that a voice recognition unit 41 is provided.
  • the voice recognition unit 41 recognizes the input voice and supplies a recognition result pronunciation symbol string as a voice recognition result of the input voice to the matching unit 16.
  • the voice recognition unit 41 includes, for example, the voice recognition unit 11 and the phonetic symbol conversion unit 12 shown in FIG.
  • the voice recognition unit 41 performs the same voice search as in FIG. 3 except that the voice recognition result outputs, for example, a recognition result pronunciation symbol string instead of a notation symbol. Processing is performed.
  • system is a logical collection of a plurality of devices, and whether or not each component device is in the same housing. Can be applied).
  • the voice search device of FIGS. 1 to 4 can be applied to an information processing system, for example, a recorder that records and reproduces a program.
  • a recorder as an information processing system to which the voice search device of FIGS. 1 to 4 is applied (hereinafter also referred to as an information processing system with a voice search function), for example, from among recorded programs (recorded programs), The program desired by the user can be searched and reproduced by voice search.
  • the recorder uses the title of the recorded program as a search result target word string, By performing the voice search, a program whose title is similar to the pronunciation of the input voice “World Heritage” is searched from the recorded programs.
  • the user operates a remote commander that remotely controls the recorder to select N playback candidate programs. There is a method of selecting one program from among them.
  • the user can To select one program from among the N playback candidate programs.
  • the title of the second playback candidate program is “World Heritage / Great Wall”, and the second playback candidate program “World Heritage / Great Wall”
  • the user can, for example, say “second”, which is the order of the playback candidate programs, or the title “World Heritage / Great Wall”, etc.
  • a playback candidate program can be selected.
  • a program desired by a user can be searched by voice search from EPG programs, and a recording reservation (or a viewing reservation) can be made.
  • the recorder uses the title of the program as a component constituting the EPG.
  • a voice search as a search result target word string, a program whose pronunciation such as a title is similar to the pronunciation of the input voice “world heritage” is searched from the EPG.
  • the pronunciation of the title is similar to the pronunciation of the input voice “world heritage” (the title etc.) Is displayed as a candidate program for recording reservation (recording candidate program).
  • the recording reservation of the program is performed in the recorder, and further, according to the recording reservation, Recording is performed.
  • one program is selected from the N reproduction candidate programs in the playback of the recorded program.
  • a method similar to the case can be adopted.
  • a system for searching for and purchasing a program (video content) through a video-on-demand site connected via a network in addition to the recorder described above, a system for searching for and purchasing a game through a game software sales site connected via a network.
  • various word strings can be adopted as the search result target word strings.
  • the program title, the name of a performer, detailed information explaining the content of the program, metadata of the program, subtitles superimposed on the program image (closed) (Caption) or the like can be used as a search result target word string.
  • the search result target word string when searching for music (music), the title, lyrics, artist name, etc. (part or all) of the music can be adopted as the search result target word string.
  • FIG. 5 is a diagram for explaining a process of reproducing a recorded program in a recorder as an information processing system with a voice search function.
  • a recorder as an information processing system with a voice search function
  • a program desired by a user is searched and played back by voice search from recorded programs
  • the user can play back the voice of the program to be played back.
  • a keyword for performing a search for example, the Japanese input voice “City World Heritage” and the English input voice “World Heritage City” are spoken.
  • a voice search is performed using the title of the recorded program as a search result target word string, and the pronunciation of the title is the input voice “city world heritage” or “World Heritage City A program similar to the pronunciation of “is searched for from recorded programs.
  • the pronunciation of the title is similar to the pronunciation of the input voice "City World Heritage” or "World Heritage City”
  • a program (such as its title) is displayed as a reproduction candidate program that is a candidate program to be reproduced.
  • the user selects the playback candidate program as the playback candidate program from the top N programs next to the currently displayed top N programs. It is possible to request by utterance to use another keyword as a keyword for displaying as a program or performing a voice search.
  • the user can select the desired program.
  • the user can select the desired program by operating the touch panel, operating the remote commander, selecting by voice, and the like.
  • the program is played back by the recorder as an information processing system with a voice search function.
  • FIG. 6 is a diagram for explaining a method in which the user selects a desired program from among N playback candidate programs.
  • N playback candidate programs are displayed on the touch panel
  • the user displays a desired program (for example, a title) among the N playback candidate programs displayed on the touch panel.
  • a desired program can be selected by touching the portion.
  • N playback candidate programs are displayed together with a cursor that can be selectively focused on each playback candidate program and can be moved by a remote commander
  • the user operates the remote commander.
  • the user can select the desired program by operating the remote commander to move the cursor so that the desired program is focused and to confirm the selection of the focused desired program. it can.
  • N playback candidate programs are displayed with numbers indicating the order of the playback candidate programs
  • the remote commander is provided with a number button that can specify numbers.
  • the user can select a desired program by operating a number button that designates a number added to the desired program among the number buttons of the remote commander.
  • the user can select a desired program by speaking the title of the desired program among the N reproduction candidate programs.
  • N playback candidate programs are displayed with numbers representing the order of the playback candidate programs
  • the user speaks the numbers added to the desired program, Can be selected.
  • FIG. 7 is a diagram for explaining another process of the recorder as the information processing system with a voice search function.
  • FIG. 5 a plurality of reproduction candidate programs such as five are displayed as a search result of the voice search from the recorded program, but in FIG. 7, only one reproduction candidate program is displayed.
  • the recorded program is recorded in the recorder as an information processing system with a voice search function.
  • a search is performed by using the title of the search word as a search result target word string, and a program whose title is similar to the pronunciation of the input sound “city world heritage” is searched from the recorded programs.
  • the title of one program (the title of the top program) whose pronunciation is similar to the pronunciation of the input voice “city world heritage” Etc.) are displayed as playback candidate programs.
  • the user selects whether to select (accept) one playback candidate program obtained as a result of the voice search as a program to be played back, or display another program as a playback candidate program again. can do.
  • a remote commander for remotely controlling a recorder as an information processing system with a voice search function is provided with an accept button for designating acceptance and another program button for designating redisplay of another program as a playback candidate program
  • the user selects one playback candidate program obtained as a result of the voice search as a program to be played back by operating the accept button or another program button, or It is possible to designate whether another program is to be displayed again as a reproduction candidate program.
  • the user utters, for example, “OK” as a sound designating acceptance, or “different”, for example, as a sound designating that another program is displayed again as a playback candidate program.
  • “OK” as a sound designating acceptance
  • “different” for example, as a sound designating that another program is displayed again as a playback candidate program.
  • a recorder as an information processing system with a voice search function
  • the playback candidate program is played back.
  • FIG. 8 is a diagram for explaining processing performed by various devices as an information processing system with a voice search function.
  • FIG. 8A is a diagram for explaining a process for making a recording reservation in a recorder as an information processing system with a voice search function.
  • the recorder uses the title of the program as a component constituting the EPG as a search result target word string, By performing a voice search, a program whose pronunciation such as a title is similar to the pronunciation of the input voice is searched from the EPG.
  • a program within the top N (same title) whose pronunciation of the title is similar to that of the input voice is recorded as a candidate program for recording reservation. Is displayed.
  • the recording reservation of the program is performed in the recorder, and further, according to the recording reservation, Recording is performed.
  • FIG. 8B is a diagram for explaining processing for purchasing a program in a program purchasing system for purchasing a program (video content) as an information processing system with a voice search function.
  • the program purchase system accesses a video on demand site that sells the program via a network such as the Internet, for example. And by performing a voice search (video on demand search) using the titles of the programs sold by the video on demand site as search result target word strings, the pronunciation of the titles is similar to the pronunciation of the input voice
  • the program to be searched is searched.
  • a program (title etc.) within the top N ranks whose title is similar to the pronunciation of the input voice is selected as a purchase candidate program that is a candidate program for purchase. Is displayed.
  • the program purchase system performs the purchase processing of the program, that is, download of the program from the video on demand site, A billing process for paying for the program is performed.
  • FIG. 8C is a diagram illustrating a process of purchasing music in a music purchasing system for purchasing music (music) as an information processing system with a voice search function.
  • the music purchase system accesses a music sales site that sells the music via a network such as the Internet.
  • a voice search using the title (song name) of the music sold by the music sales site as a search result target word string, the music whose title is similar to the pronunciation of the input voice is searched.
  • the top N-ranked music whose title pronunciation is similar to the pronunciation of the input voice (such as its title) is the purchase candidate music that is the candidate music for purchase. Is displayed.
  • the music purchase system performs the purchase process of the song.
  • FIG. 8D is a diagram illustrating a process of playing back music recorded on a recording medium in a music playback system that plays back music (music) as an information processing system with a voice search function.
  • the music playback system uses a search result target word string such as the title (song name) of the music recorded on the recording medium.
  • a search result target word string such as the title (song name) of the music recorded on the recording medium.
  • a playback candidate song whose title pronunciation is similar to that of the input voice and whose top N ranks (such as titles) are candidates for playback Is displayed.
  • the music reproduction system reproduces the piece of music.
  • FIG. 8E is a diagram for explaining processing for purchasing game software in a game software purchasing system for purchasing game software (software) as an information processing system with a voice search function.
  • the game software purchase system sells game software via a network such as the Internet.
  • a network such as the Internet.
  • the purchase software whose title pronunciation is similar to the pronunciation of the input voice and whose title is within the top N (such as titles) is a purchase candidate game software. Displayed as candidate game software.
  • the game software purchase system performs the purchase processing of the game software.
  • voice search is performed on the information processing system side connected to sites such as a video on demand site (B in FIG. 8), a music sales site (C in FIG. 8), a game software sales site (E in FIG. 8), and the like. It is possible to do it on the site side instead of doing it.
  • the voice search device of FIGS. 1 to 4 can be applied to other than the information processing system described above.
  • the voice search device of FIG. 1 to FIG. 4 searches the music including the lyrics, or when the user utters a part of the lines, the speech
  • the present invention can be applied to an information processing system that searches for movie content that includes, and an information processing system that searches for (electronic) books and magazines that include the description when the user utters part of the description.
  • FIG. 9 is a block diagram showing a configuration example of a recorder as an information processing system to which the voice search device of FIGS. 1 to 4 is applied.
  • the recorder includes a voice search device 50, a recorder function unit 60, a command determination unit 71, a control unit 72, and an output I / F (Interface) 73.
  • the voice search device 50 is configured in the same manner as the voice search device of FIG. 1 among the voice search devices of FIGS.
  • the voice search device 50 includes a voice recognition unit 51, a phonetic symbol conversion unit 52, a search result target storage unit 53, a morpheme analysis unit 54, a phonetic symbol conversion unit 55, a matching unit 56, and an output unit 57.
  • the voice recognition unit 51 to the output unit 57 are configured in the same manner as the voice recognition unit 11 to the output unit 17 of FIG.
  • the voice search device 50 can be configured in the same manner as any of the voice search devices of FIGS. 2 to 4 in addition to the voice search device of FIG.
  • the recorder function unit 60 includes a tuner 61, a recording / reproducing unit 62, and a recording medium 63, and records (records) and reproduces a television broadcast program.
  • the tuner 61 is supplied with a television broadcast signal received by an antenna (not shown), for example, by digital broadcasting.
  • the tuner 61 receives a television broadcast signal supplied thereto, extracts a television broadcast signal of a predetermined channel from the television broadcast signal, demodulates the bit stream, and supplies it to the recording / reproducing unit 62.
  • the recording / playback unit 62 extracts EPG, program data, and the like from the bitstream supplied from the tuner 61 and supplies the extracted data to the output I / F 73.
  • the recording / reproducing unit 62 records (records) EPG and program data on the recording medium 63.
  • the recording / reproducing unit 62 reproduces program data from the recording medium 63 and supplies it to the output I / F 73.
  • the recording medium 63 is, for example, an HD (Hard Disk) or the like, and EPG and program data are recorded on the recording medium 63 by the recording / reproducing unit 62.
  • HD Hard Disk
  • the command recognition unit 71 is supplied with the voice recognition result of the input voice from the voice recognition unit 51.
  • the command determination unit 71 determines whether the input voice is a command for controlling the recorder based on the voice recognition result of the input voice from the voice recognition unit 51, and supplies the determination result to the control unit 72. To do.
  • the control unit 72 performs processing according to the command based on the determination result of whether or not the input voice is a command from the command determination unit 72, and the voice search device 50, the recorder function unit 60, etc. Controls the blocks that make up the recorder. In addition, the control unit 72 performs processing according to an operation of a remote commander (not shown).
  • the output I / F 73 is supplied with EPG and program data from the recording / playback unit 62. Further, the output I / F 73 is supplied with a search result display screen (data thereof) on which a search result word string that is a result of the voice search in the voice search device 50 is displayed from the output unit 57.
  • the output unit I / F 73 is an interface connected to a display device that can display at least an image such as a TV, for example, and the EPG and program data from the recording / playback unit 62 and the output unit 57
  • the search result display screen is supplied to a TV (not shown) connected to the output unit I / F 73, for example.
  • the program title, performer name, detailed information, and the like which are constituent elements of the EPG recorded in the recording medium 63, are supplied to the search result target storage unit 53. And memorized.
  • the program title, performer name, detailed information, etc. which are metadata of the program (recorded program) recorded (recorded) on the recording medium 63, are stored in the search result target storage unit 53. Supplied and stored.
  • a voice search is performed using the program title, performer name, detailed information, etc. as a search result target word string.
  • FIG. 10 is a block diagram showing another configuration example of a recorder as an information processing system to which the voice search device of FIGS. 1 to 4 is applied.
  • FIG. 10 portions corresponding to those in FIG. 9 are denoted by the same reference numerals, and description thereof will be omitted below as appropriate.
  • the voice search device 50 does not have the morphological analysis unit 54.
  • the speech search device 50 of FIG. 9 having the morphological analysis unit 54 for example, the speech search device 50 of FIG. For example, an English input speech that does not require morphological analysis is searched.
  • a mode in which the morphological analysis unit 54 functions and a mode in which the morphological analysis unit 54 does not function are provided.
  • voice search can be performed for input speech in both Japanese and English.
  • the voice recognition unit 51 performs voice recognition of the input voice
  • the matching unit 56 stores the voice recognition result and the search result target storage unit 53. Matching with the search result target word string is performed.
  • FIG. 11 is a diagram illustrating an example of processing in the case where matching between a speech recognition result and a search result target word string is performed in units of words using notation symbols of the speech recognition result and the search result target word string. .
  • the speech recognition result “city of world heritage freedom goddess” is obtained for Japanese input speech “city of world heritage freedom goddess”, and the speech recognition result “city world heritage freedom goddess”. "Is divided into word units like” city / of / world / heritage / freedom / of / goddess ".
  • a word-unit speech recognition result “city / no / world / heritage / freedom / no / goddess” is matched with, for example, a program title as a word-unit search result target word string.
  • FIG. 12 is a diagram illustrating another example of the processing when the speech recognition result and the search result target word string are matched in units of words using the notation symbols of the speech recognition result and the search result target word string. is there.
  • a speech recognition result “World” Heritage City The Statue of Liberty ” is obtained with respect to the English input speech“ World Heritage City The Statue of Liberty ”, and the speech recognition result“ World Heritage City The Statue of Liberty ”. Is divided into units of words, such as "World / Heritage / City / The / Statue / of / Liberty”.
  • the speech recognition result “World / Heritage / City / The / Statue / of / Liberty” in units of words is matched with, for example, the title of the program as the search result target word string in units of words.
  • FIGS. 13 and 14 show a case where matching between a speech recognition result and a search result target word string is performed in units of words using notation symbols of the speech recognition result and the search result target word string, and It is a figure explaining the case where it performs by the above unit.
  • the search target word string that best matches the voice recognition result of the input voice is “Lime Wire” that is the same as the input voice.
  • the search target word string that best matches the speech recognition result of the input speech is “tolkien” that is the same as the input speech.
  • the speech recognition result obtained for the input speech “tolkien” is “toll keene”
  • the speech recognition result “toll keene” is matched with the search target word string “tolkien”.
  • the word string corresponding to the input speech may not be output as the search result word string.
  • the notation symbol may not match the pronunciation.
  • the pronunciation (reading) of hiragana “ha” may be “ha” or “wa”, but the notation symbol expresses the difference in pronunciation. I can't.
  • a written symbol has a plurality of readings, that is, for example, for “city”, whether the reading (pronunciation) is “shi” or “1”, It cannot be expressed.
  • FIG. 15 shows that matching using Japanese notation symbols and matching pronunciations or obtaining different matching results for speech recognition results with different notations is not advantageous for speech search performance.
  • the speech recognition result “Yunose-no-Sanri” is divided into notation symbol units, such as “Year / No / se / So / San”, and each symbol unit (one string of notation symbols (one character)). Unit).
  • FIG. 15 there are three search result target word strings, for example, “World Heritage City Heritage”, “Seto Dentist”, and “Year of Dissolution of the House of Representatives” as program titles. It is prepared.
  • a cosine distance is adopted as the similarity obtained in matching in units of notation symbols.
  • a vector representing a word string for example, a vector corresponding to a notation symbol existing in the word string is set to 1, and a vector corresponding to a notation symbol not existing in the word string is set to 0.
  • a cosine distance as a similarity between word strings is obtained using a vector representing the two word strings.
  • search result target word string having the highest similarity obtained as a result of matching is output as a search result word string
  • voice recognition result of the input voice “city world heritage” is incorrect, and the voice recognition result
  • “Yoseno dissolution” is obtained, among the three program titles “World Heritage City Heritage", “Seto Dentist”, and “Year of dissolution of the House of Representatives” as the search result target word string
  • the “year of dissolution of the House of Representatives” is output as a search result word string.
  • the matching result speech recognition result and each search result in the matching using the notation symbol when the speech recognition result is “city world heritage” or “year-end dissolution”.
  • the similarity of the target word string is different, and as a result, the appropriate program title “World Heritage City Heritage” is output as the search result word string for the input sound “City World Heritage”
  • Such an appropriate title may not be output, and the title “Year of dissolution of the House of Representatives” may be output as a search result word string that has nothing to do with the input sound “city world heritage”.
  • FIG. 16 explains that it is not advantageous to the performance of voice search that matching is performed using written symbols for English and different matching results are obtained with respect to voice recognition results having different pronunciations.
  • the word strings “tolkien” and “toll keene” represented by the notation symbols have the same pronunciation, but the notation symbols are different.
  • one word with a circle in the figure matches in the speech recognition result “toll keene” and the search result target word string “tom keene”.
  • search result target word string having the highest similarity obtained as a result of matching is output as a search result word string
  • the speech recognition of the input speech “tolkien” is incorrect and the speech recognition result “toll keene”
  • the search result target word string is the search result word string Will be output.
  • the title “tolkien” of the first program among the above-mentioned three program titles “tolkien”, “tom keene”, and “toe clean” is the search result word. It is appropriate to output as a column.
  • notation symbol unit seven notation symbols marked with a circle in the figure match in the speech recognition result “toll keene” and the search result target word string “tom keene”.
  • the similarity between the speech recognition result “toll keene” and the search result target word string “tolkien” is 0.76
  • the speech recognition result “toll keene” is the search result target word string.
  • 0.83 is obtained as the similarity to “tom” keene ”
  • 0.71 is obtained as the similarity between the speech recognition result“ toll ⁇ keene ”and the search result target word string“ toe clean ”.
  • search result target word string having the highest similarity obtained as a result of matching is output as a search result word string
  • the speech recognition of the input speech “tolkien” is incorrect and the speech recognition result “toll keene”
  • the search result target word string is the search result word string Will be output.
  • the title “tolkien” of the first program among the above-mentioned three program titles “tolkien”, “tom keene”, and “toe clean” is the search result word. It is appropriate to output as a column.
  • the similarity between the speech recognition result and the search result target word string obtained in the matching of the notation symbols in two chain units is the speech recognition result “toll keene” and the search result target word string “tom keene”. The similarity is the highest.
  • the similarity between the speech recognition result “toll keene” and the search result target word string “tolkien” is 0.58, and the speech recognition result “toll keene” 0.67 is obtained as the similarity with the target word string “tom keene”, and 0.13 is obtained as the similarity between the speech recognition result “toll ⁇ keene” and the search result target word string “toe clean”.
  • search result target word string having the highest similarity obtained as a result of matching is output as a search result word string
  • the speech recognition of the input speech “tolkien” is incorrect and the speech recognition result “toll keene”
  • the search result target word string is the search result word string Will be output.
  • the title “tolkien” of the first program among the above-mentioned three program titles “tolkien”, “tom keene”, and “toe clean” is the search result word. It is appropriate to output as a column.
  • the search result word is not the appropriate program title “tolkien” for the input speech “tolkien”, but the program title “tom keene”, which has nothing to do with “tolkien”. Output as a column.
  • the matching result speech recognition result and each search result target word string
  • the appropriate program title “tolkien” is output as the search result word string for the input sound “tolkien”, and such an appropriate title is not output.
  • a program title “tom ⁇ ⁇ ⁇ keene” that has nothing to do with the input voice “tolkien” is output as a search result word string.
  • matching using a phonetic symbol is performed to prevent a program title appropriate for the input voice from being output as a search result word string. Is done.
  • the pronunciation symbol is, for example, a symbol representing the pronunciation of a syllable or phoneme, and for Japanese, for example, hiragana representing reading can be adopted.
  • syllable In matching using phonetic symbols, syllable (one), two or more chains of syllables, one (one) of phonemes, two or more chains of phonemes, etc. can be adopted as a unit of matching.
  • the matching result and consequently the performance of the voice search differs depending on the matching unit used in the matching using the phonetic symbols.
  • the speech recognition unit 51 performs speech recognition of Japanese input speech, and employs a syllable double chain (two consecutive syllables) as a matching unit in the matching unit 56 (FIG. 9). It is a figure explaining the process of the pronunciation symbol conversion part 52 of FIG. 9 in the case of doing.
  • the phonetic symbol conversion unit 52 is supplied with a speech recognition result (for example, a notation symbol) of Japanese input speech from the speech recognition unit 51.
  • the phonetic symbol conversion unit 52 converts the speech recognition result supplied from the speech recognition unit 51 into a sequence of syllables.
  • the phonetic symbol conversion unit 52 shifts the noticed syllable from the beginning of the syllable sequence of the speech recognition result backward by one syllable one by one while moving the noticed syllable and the syllable immediately after the noticed syllable.
  • the two syllable two syllable chains are extracted, and the sequence of the two syllable two chains is supplied to the matching unit 56 (FIG. 9) as a recognition result pronunciation symbol string.
  • FIG. 18 is a diagram for explaining processing of the phonetic symbol conversion unit 55 in FIG. 9 when a syllable double chain is adopted as a unit of matching in the matching unit 56 (FIG. 9).
  • the phonetic symbol conversion unit 55 is supplied with the title of the program as the search result target word string stored in the search result target storage unit 53 after morphological analysis by the morphological analysis unit 54.
  • the phonetic symbol converter 55 converts the search result target word string supplied from the morpheme analyzer 54 into a syllable sequence.
  • the phonetic symbol conversion unit 55 shifts the attention syllable of interest from the beginning of the syllable sequence of the search result target word string by one syllable backward, and the syllable immediately after the attention syllable.
  • the two syllable syllable two chains are extracted, and the sequence of the two syllable two chains is supplied to the matching unit 56 (FIG. 9) as a search result target pronunciation symbol string.
  • the speech recognition unit 51 performs speech recognition of English input speech, and employs two phoneme chains (two consecutive phonemes) as a matching unit in the matching unit 56 (FIG. 10). It is a figure explaining the process of the phonetic symbol conversion parts 52 and 55 of FIG.
  • the phonetic symbol conversion unit 52 is supplied with a speech recognition result (for example, a notation symbol) of English input speech from the speech recognition unit 51.
  • the phonetic symbol conversion unit 55 is supplied with a program title or the like as a search result target word string stored in the search result target storage unit 53.
  • the phonetic symbol converter 52 converts the speech recognition results (each word) supplied from the speech recognizer 51 into a sequence of phonemes (phonetic symbols representing phonemes). Then, the phonetic symbol conversion unit 52 shifts the target phoneme of interest from the beginning of the phoneme sequence of the speech recognition result backward by one phoneme, and then calculates the target phoneme and the phoneme immediately after the target phoneme. Two phoneme two-chains are extracted, and the sequence of the two phonemes is supplied to the matching unit 56 (FIG. 10) as a recognition result pronunciation symbol string.
  • the phonetic symbol conversion unit 55 converts the search result target word string supplied from the search result target storage unit 53 into a sequence of phonemes. Then, the phonetic symbol conversion unit 55 shifts the target phoneme of interest from the beginning of the phoneme sequence of the search result target word string by one phoneme backward, and the phoneme immediately after the target phoneme. And the two phoneme chains, which are two phonemes, are extracted, and the sequence of the two phonemes is supplied to the matching unit 56 (FIG. 10) as a recognition result pronunciation symbol string.
  • characters delimited by slashes (/) represent phonemes as phonetic symbols and are IPA (International Phonetic Alphabet) which is a phonetic symbol defined by the International Phonetic Society.
  • IPA International Phonetic Alphabet
  • FIG. 20 is a diagram illustrating the matching when the matching unit 56 in FIG. 9 performs matching in units of two syllable chains.
  • the matching unit 56 performs, for example, matching in units of two syllable chains.
  • the matching unit 56 performs similarity between the recognition result pronunciation symbol string and the search result target pronunciation symbol string as a matching of the recognition result pronunciation symbol string and the search result target pronunciation symbol string in units of two syllables. For example, when obtaining a cosine distance, the matching unit 56 obtains a recognition result vector, which is a vector representing the recognition result pronunciation symbol string, based on the syllable double chain constituting the recognition result pronunciation symbol string.
  • the matching unit 56 sets the component corresponding to the syllable double chain existing in the recognition result phonetic symbol string to 1 and the component corresponding to the syllable double chain not existing in the recognition result phonetic symbol string to 0.
  • a recognition result vector representing the recognition result pronunciation symbol string As a recognition result vector representing the recognition result pronunciation symbol string.
  • the matching unit 56 similarly uses, for example, a program title as a search result target word string stored in the search result target storage unit 53, a search result target pronunciation symbol string of the search result target word string.
  • a search result target vector which is a vector representing a search result target pronunciation symbol string, is obtained on the basis of the syllable double chain that constitutes.
  • the matching unit 56 calculates a cosine distance, which is a value obtained by dividing the inner product of the recognition result vector and the search result target vector by the product of the size of the recognition result vector and the size of the search result target vector. And matching in units of two syllables, which is obtained as a similarity to the search result target word string corresponding to the search result target vector.
  • FIG. 21 is a diagram illustrating the matching when the matching unit 56 in FIG. 10 performs matching in units of two phonemes.
  • the matching unit 56 performs matching in units of two phonemes, for example.
  • the matching unit 56 performs similarity between the recognition result pronunciation symbol string and the search result target pronunciation symbol string as a matching of the recognition result pronunciation symbol string and the search result target pronunciation symbol string in units of two phonemes. For example, when obtaining a cosine distance, the matching unit 56 obtains a recognition result vector, which is a vector representing a recognition result pronunciation symbol string, based on the two phoneme chains constituting the recognition result pronunciation symbol string.
  • the matching unit 56 sets the component corresponding to the phoneme double chain existing in the recognition result phonetic symbol string to 1 and the component corresponding to the phoneme double chain not existing in the recognition result phonetic symbol string to 0. As a recognition result vector representing the recognition result pronunciation symbol string.
  • the matching unit 56 similarly uses, for example, a program title as a search result target word string stored in the search result target storage unit 53, a search result target pronunciation symbol string of the search result target word string.
  • the search result target vector which is a vector representing the search result target pronunciation symbol string, is obtained on the basis of the phoneme double chain that constitutes.
  • the matching unit 56 calculates a cosine distance, which is a value obtained by dividing the inner product of the recognition result vector and the search result target vector by the product of the size of the recognition result vector and the size of the search result target vector. Then, matching is performed in units of phoneme double chains, which are obtained as similarities with the search result target word string corresponding to the search result target vector.
  • FIG. 22 is a diagram showing the results of matching in Japanese for each word, matching for each (one) syllable, and matching for each syllable double chain.
  • the words or pronunciation symbols in the search result target word string that match the words or pronunciation symbols (syllables) of the speech recognition result “Yunosese Dissolution” are marked with a circle.
  • the search result target word string having the highest similarity obtained as a result of matching is output as a search result word string, the voice recognition result of the input voice “city world heritage” is incorrect, and the voice recognition result
  • “Yoseno-Sanritsu” is obtained, the word-by-word matching using notation symbols, the titles of the three programs as the search result target word string “World Heritage City Heritage”, “Seto Dentist”
  • the highest search result target word string “Year of House Disband” is the search result word string, with a similarity of 0.75 to the speech recognition result “Yunose Disband” of Will be output.
  • the speech recognition result “Yoseno dissolution” and the search result target word string “World Heritage City Heritage”, “Seto Dentist”, and “Year of dissolution of the House of Representatives” 0.82, 1.0, and 0.75 are obtained as the respective similarities.
  • the search result target word string having the highest similarity obtained as a result of matching is output as a search result word string, the voice recognition result of the input voice “city world heritage” is incorrect, and the voice recognition result
  • the phonetic symbol-based matching in syllable units is the title of the three programs as the search result target word string “World Heritage City Heritage”, “Seto Dentist”
  • the highest search result target word string “Seto no Dentist” is 1.0 and the search result word string is the search result word string.
  • the similarity of the appropriate program title “World Heritage City Heritage” with respect to the input speech “City World Heritage” is the three search result target words
  • the third (lowest) value in the column is 0.22, which is appropriate for the input speech “Urban World Heritage” in the syllable unit matching using phonetic symbols.
  • the similarity of the program title “World Heritage City Heritage” is 0.82 which is the second highest value among the three search result target word strings.
  • matching in syllable units using phonetic symbols is based on the similarity of the title “World Heritage City Heritage” of the appropriate program to the input speech “City World Heritage” using the display symbol. It can be said that it is more effective than word-by-word matching using display symbols in that it is higher than the word-by-word matching.
  • the speech recognition result “Yoseno dissolution” and the search result target word strings “World Heritage City Heritage”, “Seto Dentist”, and “ 0.68, 0.43, and 0.48 are obtained as similarities with each year.
  • the search result target word string having the highest similarity obtained as a result of matching is output as a search result word string, the voice recognition result of the input voice “city world heritage” is incorrect, and the voice recognition result Even when “Yosenose Dissolution” is obtained, in the matching in the syllable double chain unit using the phonetic symbol, the title “World Heritage City Heritage” of the three programs as the search result target word string, Among the words “Seto Dentist” and “Year of Dismissal of the House of Representatives”, the similarity to the speech recognition result “Year Seto Dissolution” is 0.68, which is the highest search result target word string, that is, the input speech “city world” The title “World Heritage City Heritage” appropriate for “heritage” is output as a search result word string.
  • FIG. 23 is a diagram showing the results of matching in units of words, matching in units of (one) phoneme, and matching in units of two phonemes for English.
  • the word or pronunciation symbol in the search result target word string that matches the word or pronunciation symbol (phoneme) of the speech recognition result “toll keene” is marked with a circle.
  • the similarity (cosine distance) between the speech recognition result “toll keene” and the search result target word strings “tolkien”, “tom keene”, and “toe clean” is 0.0 respectively. , 0.5, and 0.0 are required.
  • search result target word string having the highest similarity obtained as a result of matching is output as a search result word string
  • the speech recognition of the input speech “tolkien” is incorrect and the speech recognition result “toll keene”
  • the highest-ranked search result target word string “tom keene” having a similarity to the speech recognition result “toll keene” of 0.5 is output as the search result word string.
  • the title “tolkien” of the first program among the above-mentioned three program titles “tolkien”, “tom keene”, and “toe clean” is the search result word. It is appropriate to output as a column.
  • the input speech “tolkien” matches in pronunciation (reading) but is recognized as “toll keene” with different notation, the input speech “tolkien” will be used for word-by-word matching using notation symbols. Instead of “appropriate program title“ tolkien ”, the program title“ tom ⁇ ⁇ keene ”which has nothing to do with“ tolkien ”is output as a search result word string.
  • search result target word string having the highest similarity obtained as a result of matching is output as a search result word string
  • the speech recognition of the input speech “tolkien” is incorrect and the speech recognition result “toll keene”
  • the phonetic unit matching using phonetic symbols, the titles of the three programs” tolkien “,” tom ⁇ ⁇ keene ", and” toe clean are output as search result word strings.
  • search result target word string having the highest similarity obtained as a result of matching is output as a search result word string, the speech recognition of the input speech “tolkien” is incorrect and the speech recognition result “toll keene” Even if "" is obtained, the matching of phonemes in two-chain units using phonetic symbols, the titles “tolkien”, “tom keene”, Among the “toe clean”, the similarity to the speech recognition result “toll keene” is 1.0, and the highest-ranked search result target word string, that is, the appropriate program title “tolkien” for the input speech “tolkien” And output as a search result word string.
  • a search for a word string corresponding to an input speech can be performed more robustly than when matching using notation symbols is performed.
  • the cosine distance is adopted as the similarity between the speech recognition result (the recognition result pronunciation symbol string) and the search result target word string (the search result target pronunciation symbol string).
  • the component corresponding to the syllable (two chains) existing in the recognition result pronunciation symbol string is set to 1
  • the component corresponding to the syllable not existing in the recognition result pronunciation symbol string is set to 0. Is obtained as a recognition result vector representing the recognition result pronunciation symbol string.
  • the matching unit 56 similarly obtains a search result target vector representing the search result target pronunciation symbol string of the search result target word string.
  • the value of the component of the recognition result vector is set to 1 or 0 depending on whether or not the syllable corresponding to the component exists in the recognition result pronunciation symbol string.
  • the value of the vector component it is possible to employ tf (Term Frequency), which is the frequency at which the syllable corresponding to the component appears in the recognition result phonetic symbol string.
  • the value of the component of the recognition result vector becomes large for other syllables that appear biased in a certain search result target word string, for example, and appears uniformly in many search result target word strings.
  • idf Invert Document Frequency
  • TF-IDF TF-IDF which takes both tf and idf into account.
  • the recognition result vector is expressed as V UTR and the search result target vector of the i-th search result target word string stored in the search result target storage unit 53 (FIGS. 9 and 10) is expressed as V TITLE (i)
  • the cosine distance D as the similarity between the speech recognition result and the i-th search result target word string is calculated according to Equation (1).
  • the cosine distance D takes a value in the range of 0.0 to 1.0, and as the value increases, the recognition result pronunciation symbol string represented by the recognition result vector V UTR and the search result target pronunciation symbol represented by the search result target vector V TITLE (i). Indicates that the column is similar.
  • the cosine distance D is the inner product V UTR ⁇ V TITLE (i) between the recognition result vector V UTR and the search result target vector V TITLE (i), and the size of the recognition result vector V UTR
  • the speech recognition result and the length of the search result target word string are the matching between the speech recognition result and the search result target word string, that is, the calculation of the cosine distance D as the similarity is performed using the notation symbols.
  • the speech recognition result and the number of notation symbols of the search result target word string, and calculating similarity, using notation symbols, word recognition If the result and the number of words in the search result target word string are calculated in units of phonemes using pronunciation symbols, the speech recognition result and the number of phonemes in the search result target word string If the similarity is calculated in units of two phonemes using pronunciation symbols, the number of phoneme double chains in the speech recognition result and the search result target word string is calculated, and the similarity is calculated. Using symbols When performed in units of phonemes, the speech recognition result and the number of phonemes in the search result target word string are calculated in similarity. , And the number of phoneme double chains in the search result target word string, respectively.
  • the cosine distance D as a match between the speech recognition result and the search result target word string is calculated in units of words using a notation symbol
  • the calculation of the cosine distance D in (1) includes division by the magnitude
  • the search result target word string having a long length (here, the number of words) and the short search result target word string the similarity between the short search result target word string is high (the cosine distance D is increased). ), The similarity with the long search result target word string tends to be low (the cosine distance D is small).
  • the similarity of the long title may not be high, and the long title may not be output as a search result word string.
  • the same word string as the predetermined search result target word string is included, but the long speech recognition result and the predetermined search result target are longer in the long speech recognition result and the short speech recognition result.
  • the degree of similarity with the word string is low, and the degree of similarity between the short speech recognition result and the predetermined search result target word string tends to be high.
  • the similarity of the predetermined search result target word string does not become higher, and the predetermined search Since the result target word string is not output as the search result word string, the accuracy of the search for the word string corresponding to the input speech may deteriorate.
  • the similarity of the short title may not be higher, and the short title may not be output as a search result word string.
  • the matching unit 56 uses the corrected distance obtained by correcting the cosine distance D as the voice recognition result so as to reduce the influence of the difference in length between the voice recognition result and the search result target word string. And the similarity between the search result target word strings.
  • the similarity between the speech recognition result and the search result target word string When the correction distance is adopted as the similarity between the speech recognition result and the search result target word string, the similarity between the above speech recognition result and the long search result target word string, and the long speech recognition result and the search result The similarity with the target word string is prevented from being lowered, and as a result, the search for the word string corresponding to the input speech can be performed robustly, and the accuracy of the search for the word string corresponding to the input speech is degraded. Can be prevented.
  • the correction distance includes a first correction distance and a second correction distance.
  • the first correction distance is the magnitude of the search result target vector V TITLE (i) proportional to the length of the search result target word string in the calculation of the expression (1) for obtaining the cosine distance D
  • the first correction distance D1 is obtained according to the equation (2).
  • S (i)) V UTR ⁇ V TITLE (i) / (
  • )) V UTR ⁇ V TITLE (i) / (
  • FIG. 24 shows the square root of the multiplication value of the recognition result vector V UTR
  • of the recognition result vector V UTR is set to 5.
  • the first correction distance D1 obtained according to the equation (2) is compared with the cosine distance D obtained according to the equation (1) as the length of the search result target word string with respect to the length of the speech recognition result.
  • of the search result target vector V TITLE (i), that is, the length difference between the speech recognition result and the search result target word string is reduced. Value.
  • the second correction distance is the size of the search result target vector V TITLE (i) proportional to the length of the search result target word string in the calculation of the expression (1) for obtaining the cosine distance D
  • of the recognition result vector V UTR is obtained as the substitute size S (i).
  • the second correction distance D2 is obtained without using the magnitude
  • the value of the search result target vector V TITLE (i) is not affected by the difference of
  • FIG. 25 shows the result of the simulation of matching when the cosine distance D, the first correction distance D1, and the second correction distance D2 are adopted as the similarity between the speech recognition result and the search result target word string. It is a figure which shows the example of 1.
  • FIG. 25 shows the result of the simulation of matching when the cosine distance D, the first correction distance D1, and the second correction distance D2 are adopted as the similarity between the speech recognition result and the search result target word string. It is a figure which shows the example of 1.
  • FIG. 26 shows the result of the simulation of matching when the cosine distance D, the first correction distance D1, and the second correction distance D2 are adopted as the similarity between the speech recognition result and the search result target word string. It is a figure which shows the example of 2.
  • the long speech recognition result “World Heritage City Heritage Italy Rome Venetian Polypoli Florence” is similar to the long title “Exploration Roman World Heritage Italy Florence Historic Center”
  • the degree of similarity is 0.4229
  • the similarity of the short title “World Heritage” is 0.2991
  • the similarity of the long title “Exploring Roman World Heritage Italy Florence Historic Center” is the similarity of the short title “World Heritage” Higher than.
  • the long speech recognition result “World Heritage City Heritage Italy Rome Venetian Polypoli Florence” is similar to the long title “Exploration Roman World Heritage Italy Florence Historic Center”
  • the degree of similarity is 0.4
  • the similarity of the short title “World Heritage” is 0.2
  • the similarity of the long title “Exploration Roman World Heritage Italy Florence Historic Center” is the similarity of the short title “World Heritage” Higher than.
  • FIG. 27 shows the result of the matching simulation when the cosine distance D, the first correction distance D1, and the second correction distance D2 are adopted as the similarity between the speech recognition result and the search result target word string.
  • FIG. 28 shows the result of the simulation of matching when the cosine distance D, the first correction distance D1, and the second correction distance D2 are adopted as the similarity between the speech recognition result and the search result target word string.
  • the correction distance the influence of the difference in length between the speech recognition result and the search result target word string is reduced, so that the word string corresponding to the input speech can be searched robustly, It is possible to prevent deterioration in the accuracy of searching for a word string corresponding to the input speech.
  • FIG. 29 is a block diagram illustrating a configuration example of the voice recognition unit 51 of FIGS. 9 and 10.
  • the speech recognition unit 51 includes a recognition unit 81, a dictionary storage unit 82, an acoustic model storage unit 83, a language model storage unit 84, and a language model generation unit 85.
  • the input voice is supplied to the recognition unit 81.
  • the recognition unit 81 refers to the input speech supplied thereto, for example, based on the HMM method while referring to the dictionary storage unit 82, the acoustic model storage unit 83, and the language model storage unit 84 as necessary. Recognize and output the voice recognition result of the input voice.
  • the dictionary storage unit 82 stores a word dictionary in which information (phonological information) related to pronunciation is described for each word (vocabulary) as a result of speech recognition.
  • the acoustic model storage unit 83 stores an acoustic model representing acoustic features such as individual phonemes and syllables in a speech language for performing speech recognition.
  • an HMM is used as the acoustic model.
  • the language model storage unit 84 stores a language model that is a grammar rule that describes how each word registered in the word dictionary of the dictionary storage unit 82 is linked (connected).
  • a language model for example, grammar rules such as context free grammar (CFG) and statistical word chain probability (N-gram) can be used.
  • the recognizing unit 81 connects the acoustic model stored in the acoustic model storage unit 83 by referring to the word dictionary in the dictionary storage unit 82, thereby constructing an acoustic model (word model) of the word.
  • the recognizing unit 81 connects several word models by referring to the language model stored in the language model storage unit 84, and uses the word model connected in this way, by the HMM method. Recognize input speech.
  • the recognizing unit 81 detects a sequence of word models having the highest likelihood of observing the feature amount (for example, cepstrum) of the input speech supplied thereto, and a word string corresponding to the sequence of the word models. Is output as a speech recognition result.
  • the feature amount for example, cepstrum
  • the recognizing unit 81 accumulates the appearance probability of the feature quantity of the input speech for the word string corresponding to the connected word model, and uses the accumulated value as the likelihood that the feature quantity of the input speech is observed. As a recognition score, a word string that has the highest recognition score is output as a speech recognition result.
  • the recognition score is generally an acoustic likelihood given by an acoustic model stored in the acoustic model storage unit 83 (hereinafter also referred to as an acoustic score) and a language given by a language model stored in the language model storage unit 84. It is obtained by comprehensively evaluating the likelihood (hereinafter also referred to as language score).
  • the acoustic score for example, in the case of the HMM method, the probability that the feature amount of the input speech is observed from the acoustic model constituting the word model is calculated, for example, for each word.
  • the language score for example, in the case of bigram, the probability that the word of interest and the word immediately preceding the word are linked (connected) is obtained.
  • the recognition score is obtained by comprehensively evaluating the acoustic score and the language score for each word, and the speech recognition result is determined based on the recognition score.
  • the recognition score S of the word string is calculated according to the equation (4), for example.
  • Equation (4) ⁇ represents taking a summation by changing k from 1 to K.
  • C k represents a weight applied to the language score L (w k ) of the word w k .
  • word strings w 1 , w 2 ,..., W K whose recognition score shown in the formula (4) is within the upper M (M is an integer of 1 or more) rank are obtained,
  • the columns w 1 , w 2 ,..., W K are output as speech recognition results.
  • X) is calculated by the Bayes' theorem as follows: Using the probability P (X) that occurs, the probability P (W) that the word string W occurs, and the probability P (X
  • X) P (W) P (X
  • X) P (W) P (X
  • X) is the recognition score
  • the probability P (W) is the language score
  • W) corresponds to the acoustic score.
  • T words are registered in the word dictionary of the dictionary storage unit 82, there are T T arrangements of T words that can be configured using the T words. Therefore, simply, the recognition unit 81 evaluates this T T word string (calculates a recognition score), and from among them, the one that best fits the input speech (with a recognition score within the top M) Must be determined.
  • the recognition unit 81 for example, in the process of obtaining the acoustic score for a word string as a certain recognition hypothesis, when the acoustic score obtained in the middle becomes a predetermined threshold or less, the recognition score of the recognition hypothesis Acoustic pruning that terminates the calculation and linguistic pruning that narrows down the recognition hypotheses that are subject to calculation of the recognition score are performed based on the language score.
  • the metadata of the program that is, for example, the title of the program is a word string commonly used in articles described in newspapers, such as coined words, main caster names (such as stage names), and specific phrases.
  • the word string that is not is included.
  • the speech recognition unit 51 in FIG. 29 has a language model generation unit 85.
  • the language model generation unit 85 generates a language model using the search result target word string stored in the search result target storage unit 53 of the voice search device 50 of FIGS. 9 and 10.
  • the search result target storage unit 53 stores the program title, performer name, detailed information, and the like, which are constituent elements of the EPG recorded in the recording medium 63, and the recording medium 63.
  • the program title, the name of the performer, the detailed information, etc., which are the metadata of the recorded program recorded in, are stored as search result target word strings.
  • FIG. 30 is a diagram illustrating an example of program metadata as a search result target word string stored in the search result target storage unit 53.
  • the program metadata includes, for example, a program title, performer name, and detailed information.
  • the search result target word string is a word string as a program title, performer name, detailed information, etc., which is a constituent element (program metadata) constituting the EPG
  • the search result target word It can be said that the columns are classified into fields such as program titles, performer names, detailed information, etc., but the dedicated language using the search result target word strings classified in such fields
  • model generation it is possible to generate one dedicated language model without distinguishing which field each search result target word string belongs to, or by using the search result target word string in each field. It is also possible to generate a language model for each field and interpolate the language model for each field to generate one dedicated language model.
  • the dedicated language model generated by the language model generation unit 85 is supplied to the language model storage unit 84 and stored therein.
  • the recognition unit 81 obtains a language score using such a dedicated language model, the accuracy of speech recognition can be improved as compared with the case where a general-purpose language model is used.
  • the language model generation unit 85 is provided inside the speech recognition unit 51, but the language model generation unit 85 can be provided outside the speech recognition unit 51.
  • the language model storage unit 84 can store a general-purpose language model separately from the language model generated by the language model generation unit 85.
  • FIG. 31 is a diagram for explaining the language model generation processing in the language model generation unit 85 of FIG.
  • the language model generation unit 85 performs morphological analysis on each search result target word string stored in the search result target storage unit 53 (FIG. 9). Further, the language model generation unit 85 uses a morphological analysis result of the search result target word string to learn a language model such as a bigram representing the probability that the word B follows the word A, for example, and as a dedicated language model, It is supplied to the language model storage unit 84 and stored.
  • a language model such as a bigram representing the probability that the word B follows the word A, for example, and as a dedicated language model
  • a dedicated language model when a dedicated language model is generated using the EPG components as a search result target word string, for example, a future broadcast on a predetermined day of the week or the latest week, etc.
  • a dedicated language model can be generated using an EPG for a predetermined period of time.
  • the user when searching for a program desired by the user from EPG and making a recording reservation in accordance with the input voice uttered by the user, the user is interested in a program broadcast on a predetermined day of the week. If you know that, you can improve the accuracy of speech recognition for programs broadcast on a given day of the week by generating a dedicated language model using EPG for a given day of the week. A program broadcast on the predetermined day of the week is easily output as a search result word string.
  • the recorder of FIG. 9 when searching for a program desired by the user from the EPG and making a recording reservation in accordance with the input voice uttered by the user, a dedicated language is used using the latest EPG for one week. By generating the model, it is possible to improve the accuracy of speech recognition for the program broadcast during the latest week. As a result, the program broadcast during the latest week is a search result word. It becomes easy to output as a column.
  • the language model generation unit 85 when a dedicated language model is generated using the EPG constituent elements as the search result target word string, the latest EPG, that is, the EPG of the program whose broadcasting time is closer.
  • a dedicated language model can be generated so that a higher language score is given to an arrangement of words in a search result word string that is a constituent element.
  • one dedicated language model is generated from the search result target word string, and the one dedicated language model is generated.
  • the language score of a recognition hypothesis in which parts of search result target word strings in different fields are arranged may be high.
  • speech recognition is performed using one dedicated language model generated using a search result target word string classified into the program title, performer name, and detailed information fields. For example, when a word string in which a part of the title of a program A and a part of a performer name of another program B are arranged becomes a recognition hypothesis, the language of the recognition hypothesis Score may be high.
  • the word string in which a part of the title of program A and a part of the name of the performer of program B are arranged does not exist in the constituent elements of the EPG, which is the search result target word string, such a word It is not preferred that the columns become recognition hypotheses with a high language score that can be made into speech recognition results.
  • the search result target word strings classified in the program title, performer name, and detailed information fields are used without particular distinction, and the matching unit 56 (FIG. 9).
  • the matching unit 56 for example, even when the user utters the title of the program, the search result target word string in all fields and not only the search result target word string in the program title field. Matching with the speech recognition result of the user's utterance is performed, and the search result target word string that matches the speech recognition result is output as the search result word string.
  • a program including a performer name as a search result target word string or detailed information including a word string similar to (including a case of matching) may be output as a search result word string.
  • a program irrelevant to the program that the user uttered the title is output as a search result word string.
  • the search result word string is searched for and selected from the programs to be reserved for recording. The user who tries to feel annoyance.
  • the matching unit 56 searches for a predetermined field such as a field desired by the user for matching with the speech recognition result. It is possible to perform only the result target word string.
  • the language model generation unit 85 can generate a language model for each field using the search result target word string of the field, and the recognition unit 81 , Speech recognition is performed using the language model of the field, and a speech recognition result for each field can be obtained.
  • the matching unit 56 (FIG. 9) can perform matching between the speech recognition result and the search result target word string for each field or without distinguishing the fields.
  • FIG. 32 is a diagram for explaining a process of generating a language model for each field in the language model generation unit 85 of FIG.
  • the model generation unit 85 performs a morphological analysis on a search result target word string in a program title field (hereinafter also referred to as a program title field) stored in the search result target storage unit 53.
  • the language model generation unit 85 generates a language model for the program title field by learning a language model such as a bigram using the morphological analysis result of the search result target word string in the program title field, It is supplied to the language model storage unit 84 and stored.
  • the language model generation unit 85 performs morphological analysis on the search result target word string in the performer name field (hereinafter also referred to as the performer name field) stored in the search result target storage unit 53.
  • the language model generation unit 85 generates a language model for the performer field by learning a language model such as a bigram, for example, using the morphological analysis result of the search result target word string of the performer name. And supplied to the language model storage unit 84 for storage.
  • the language model generation unit 85 uses the search result target word string in the detailed information field (hereinafter also referred to as the detailed information field) stored in the search result target storage unit 53 to use the language for the detailed information field.
  • a model is generated and supplied to the language model storage unit 84 for storage.
  • FIG. 33 shows a case where speech recognition is performed using a language model of each field, a speech recognition result for each field is obtained, and matching between the speech recognition result and the search result target word string is performed for each field.
  • FIG. 10 is a diagram for explaining processing of the voice search device 50 of FIG.
  • the recognizing unit 81 performs voice recognition of the input voice independently using the language model for the program title field, the language model for the performer name field, and the language model for the detailed information field.
  • the recognizing unit 81 obtains one or more recognition hypotheses having a higher recognition score and uses it as the speech recognition result of the program title field.
  • the recognition unit 81 obtains one or more recognition hypotheses having a higher recognition score even in speech recognition using the language model for the performer name field, and uses it as the speech recognition result of the performer name field.
  • the recognizing unit 81 obtains one or more recognition hypotheses having a higher recognition score and uses it as the speech recognition result of the detailed information field.
  • the matching unit 56 searches the program title field in the search result target word string stored in the search result target storage unit 53 (FIG. 9) for matching with the speech recognition result of the program title field. Only the result target word string is targeted.
  • the matching unit 56 performs matching with the voice recognition result of the performer name field by using only the search result target word string in the performer name field among the search result target word strings stored in the search result target storage unit 53. As a target.
  • the matching unit 56 performs matching with the speech recognition result in the detailed information field only for the search result target word string in the detailed information field in the search result target word string stored in the search result target storage unit 53. Do as.
  • the output unit 57 selects a search result target word string whose similarity (for example, cosine distance, correction distance, etc.) with the speech recognition result is within the top N ranks based on the matching result. And output as a search result word string.
  • similarity for example, cosine distance, correction distance, etc.
  • the speech recognition result and the search result target word string are matched for each field, and the similarity is ranked in the top three as the search result word strings for the program title field, performer name field, and detailed information field.
  • the search result target word string is output.
  • the output unit 57 (FIG. 9) ranks the search result target word strings for each field according to the similarity to the speech recognition result, and outputs the search result target word strings within the top N ranks as the search result word strings.
  • the search result target word strings are ranked, in other words, the ranking of the overall ranking is performed, and the search result target word strings having the overall ranking within the top N rank, A search result word string can be output.
  • FIG. 34 is a block diagram illustrating a configuration example of a portion of the output unit 57 that obtains the overall ranking.
  • the output unit 57 includes an overall score calculation unit 91.
  • the overall score calculation unit 91 is supplied with a speech recognition reliability that is obtained by the speech recognition unit 51 and represents the reliability of the speech recognition result of each field.
  • a recognition score can be adopted.
  • the similarity score of the search result target word string in each field which is obtained by the matching unit 56, is supplied to the total score calculation unit 91.
  • the comprehensive score calculation unit 91 comprehensively evaluates the speech recognition reliability of the speech recognition result and the similarity of the search result target word string for each field, and the search result target word string corresponds to the input speech. The total score representing the degree of matching with the word string to be obtained is obtained.
  • the total score calculation unit 91 determines the voice recognition reliability of the voice recognition result, and the voice recognition result and the attention word string.
  • Each of the similarities is normalized to a value in the range of 0.0 to 1.0, for example, as necessary.
  • the total score calculation unit 91 calculates the voice recognition reliability of the voice recognition result, the weighted average value of the similarity between the voice recognition result and the target word string, the geometric average value, and the like, as the total score of the target word string. Asking.
  • the overall score calculation unit 91 ranks the search result target word strings in descending order of the overall score.
  • FIG. 35 is a block diagram illustrating a configuration example of the total score calculation unit 91 in FIG.
  • the total score calculation unit 91 includes a program title total score calculation unit 92, a performer name total score calculation unit 93, a detailed information total score calculation unit 94, and a score comparison ranking unit 95.
  • the program title total score calculation unit 92 includes the voice recognition reliability of the voice recognition result of the program title field obtained by the voice recognition unit 51, the voice recognition result of the program title field obtained by the matching unit 56, and the program The similarity with the search result target word string in the title field is supplied.
  • the program title general score calculation unit 92 sequentially sets the search result target word string in the program title field as the attention word string, the voice recognition reliability of the voice recognition result in the program title field, and the voice recognition result and the attention word string. Is used to obtain the overall score of the word sequence of interest and supply it to the score comparison ranking unit 95.
  • the performer name total score calculation unit 93 includes the voice recognition reliability of the voice recognition result of the performer name field obtained by the voice recognition unit 51 and the voice recognition result of the performer name field obtained by the matching unit 56. And the similarity to the search result target word string in the performer name field is supplied.
  • the performer name general score calculation unit 93 sequentially uses the search result target word string in the performer name field as the attention word string, and the voice recognition reliability of the voice recognition result in the performer name field, and the voice recognition result Using the degree of similarity with the attention word string, an overall score of the attention word string is obtained and supplied to the score comparison ranking unit 95.
  • the detailed information total score calculation unit 94 sequentially uses the search result target word string in the detailed information field as the attention word string, the voice recognition reliability of the voice recognition result in the detailed information field, and the voice recognition result and the attention word string. Is used to obtain the overall score of the word sequence of interest and supply it to the score comparison ranking unit 95.
  • the score comparison ranking unit 95 compares the total scores from the program title total score calculation unit 92, the performer name total score calculation unit 93, and the detailed information total score calculation unit 94, and arranges them in ascending order. In the descending order, the overall ranking is given to the search result target word strings.
  • the output unit 57 outputs the search result target word string whose overall ranking is within the top N ranks as the search result word string.
  • the recognition unit 81 performs speech recognition using the language model of each field and obtains a speech recognition result for each field. In the recognition unit 81, so-called comprehensive speech recognition over all fields. The result can be determined.
  • FIG. 36 performs speech recognition of Japanese input speech using the language model of each field, obtains comprehensive speech recognition results over all fields, and matches speech recognition results with search result target word strings. It is a figure explaining the process of the speech search device 50 of FIG. 9 when performing this for every field.
  • the recognition unit 81 performs speech recognition of Japanese input speech for the language model for the program title field, the language model for the performer name field, and the detailed information field.
  • the speech recognition results of the program title field, the performer name field, and the detailed information field are obtained independently using each of the language models.
  • the recognizing unit 81 detects one or more speech recognition results having a higher recognition score from all of the speech recognition results of the program title field, the performer name field, and the detailed information field. The result is used as a comprehensive speech recognition result used for matching in the matching unit 56.
  • the matching unit 56 matches the overall speech recognition result with the search result target word in the program title field in the search result target word string stored in the search result target storage unit 53 (FIG. 9).
  • the search result target word string in the column, the performer name field, and the search result target word string in the detailed information field are each targeted.
  • the output unit 57 (FIG. 9) outputs, as a search result word string, a search result target word string whose similarity with the speech recognition result is within the top N based on the matching result.
  • the speech recognition result and the search result target word string are matched for each field, and the similarity is ranked in the top three as the search result word strings for the program title field, performer name field, and detailed information field.
  • the search result target word string is output.
  • FIG. 37 performs speech recognition of English input speech using the language model of each field, obtains a comprehensive speech recognition result over all fields, and matches the speech recognition result with the search result target word string. It is a figure explaining the process of the speech search device 50 of FIG. 10 when performing for every field.
  • the recognition unit 81 independently performs speech recognition of English input speech using each of the language model for the program title field, the language model for the performer name field, and the language model for the detailed information field. And the speech recognition results of the program title field, performer name field, and detailed information field are obtained.
  • the recognizing unit 81 detects one or more speech recognition results having a higher recognition score from all of the speech recognition results of the program title field, the performer name field, and the detailed information field. The result is used as a comprehensive speech recognition result used for matching in the matching unit 56.
  • the matching unit 56 matches the overall speech recognition result with the search result target word in the program title field in the search result target word string stored in the search result target storage unit 53 (FIG. 10).
  • the search result target word string in the column, the performer name field, and the search result target word string in the detailed information field are each targeted.
  • the output unit 57 (FIG. 10) outputs, as a search result word string, a search result target word string whose similarity to the speech recognition result is within the top N based on the matching result.
  • the speech recognition result and the search result target word string are matched for each field, and the similarity is ranked in the top three as the search result word strings for the program title field, performer name field, and detailed information field.
  • the search result target word string is output.
  • the output unit 57 does not depend on the field (over all fields). ), Ranking the search result target word strings, ranking the overall rank, and outputting the search result target word strings with the overall rank within the top N ranks as the search result word strings.
  • FIG. 38 is a block diagram illustrating a configuration example of a portion for obtaining the overall ranking of the output unit 57 when the recognition unit 81 obtains a comprehensive speech recognition result.
  • the output unit 57 includes a similarity comparison ranking unit 96.
  • the similarity comparison ranking unit 96 is supplied with the similarity of the search result target word string in each field, which is obtained by the matching unit 56.
  • the recognition score as the speech recognition reliability obtained by the recognition unit 81 is a recognition score of a comprehensive speech recognition result and is not a value existing for each field, the similarity comparison ranking unit 96 is not supplied.
  • the similarity comparison ranking unit 96 compares all similarities of the search result target word string in the program title field, the search result target word string in the performer name field, and the search result target word string in the detailed information field. They are arranged in ascending order, and the overall ranking is given to the search result target word strings in descending order of similarity.
  • the output unit 57 outputs the search result target word string whose overall ranking is within the top N ranks as the search result word string.
  • FIG. 39 is a diagram showing an example of a search result word string display screen output by the output unit 57 (FIGS. 9 and 10).
  • search result word string display screen On the search result word string display screen (hereinafter also referred to as the search result display screen), a part of the search result word string such as a word or syllable that matches (similar and matches) the speech recognition result of the input speech (Hereinafter also referred to as an utterance-corresponding portion) can be highlighted.
  • FIG. 39 shows a search result display screen displayed without emphasizing the utterance corresponding portion and a search result display screen displayed with the utterance corresponding portion highlighted.
  • Other methods for emphasizing the speech-corresponding part include, for example, a method of displaying the speech-corresponding part as a blink, a method of displaying with a different color, and a method of displaying with a different font type and size. Etc.
  • the utterance-corresponding part may not be emphasized all, but only a part of the utterance-corresponding part such as a part with high reliability (voice recognition reliability) of the speech recognition result may be emphasized and displayed. it can.
  • the search result display screen can display only the part corresponding to the utterance in the search result word string and the part before and after that.
  • the search result display screen by highlighting and displaying the utterance corresponding part (or part thereof) of the search result word string, the user can grasp whether speech recognition is performed correctly, and You can decide whether to restate.
  • FIG. 40 and FIG. 41 are diagrams illustrating an example of a voice search using an input voice including a specific phrase.
  • the command determination unit 71 determines whether or not the input voice from the user is a command for controlling the recorder based on the voice recognition result supplied from the voice recognition unit 51. To do.
  • the command determination unit 71 stores a character string defined as a command for controlling the recorder (hereinafter also referred to as a command character string), and the voice recognition result from the voice recognition unit 51 matches the command character string. It is determined whether or not the input voice from the user is a command for controlling the recorder.
  • the command determination unit 71 determines that the input speech is not a command, that is, when the speech recognition result from the speech recognition unit 51 does not match the command character string, the command determination unit 71 indicates a determination result that the input speech is not a command. 72.
  • control unit 72 controls the matching unit 56 so as to execute matching, for example. Therefore, in the voice search device 50, the matching unit 56 performs matching between the voice recognition result and the search result target word string, and the output unit 57 outputs the search result word string based on the matching result.
  • the command determination unit 71 determines that the input speech is a command, that is, when the speech recognition result from the speech recognition unit 51 matches the command character string, the determination result that the input speech is a command. Is supplied to the control unit 72 together with a command character string that matches the voice recognition result.
  • control unit 72 performs control to limit processing of the voice search device 50. Therefore, in the voice search device 50, the matching unit 56 does not perform matching and does not output the search result word string.
  • control unit 72 performs processing such as controlling the recorder function unit 60 according to a command interpreted from the command character string from the command determination unit 71.
  • the command determination unit 71 interprets the command character string as, for example, a command character string “select” that is interpreted as a command for selecting a program to be reproduced from a recorded program, or a command for reproducing a program.
  • the command character string “playback” or the like is stored, when the voice recognition unit 51 outputs a voice recognition result “playback” that matches the command character string “playback”, for example, the control unit 72 According to the command interpreted from the column “play”, the recorder function unit 60 is controlled to play, for example, a program.
  • a voice search when performing a voice search, by having the user utter an input voice including, for example, “by voice search” as a specific phrase instructing that, A voice search can be performed using a word string that matches the command character string as a keyword.
  • the voice recognition unit 51 is supplied with the input voice “play by program search”, and the voice recognition unit 51 performs voice recognition of the input voice “play by program search”.
  • the speech recognition result that matches the input speech “play by program search” May not be output.
  • a word string including at least a specific phrase is not output as a speech recognition result with respect to the included input speech.
  • the voice recognition unit 51 it is necessary to obtain a voice recognition result including the specific phrase with respect to the input sound “playback by program search” including the specific phrase. It is necessary to prevent the language score of the recognition hypothesis including the phrase from being lowered.
  • the language model generation unit 85 uses a specific phrase together with the search result target word string stored in the search result target storage unit 53 (FIG. 9). Is generated.
  • a language model (hereinafter referred to as a language model) that gives a high language score when a specific phrase and words constituting the search result target word string are arranged side by side. (Also referred to as a specific phrase language model).
  • command character string is included in the search result target word string stored in the search result target storage unit 53 (FIG. 9).
  • the language model generation unit 85 uses only the search result target word string stored in the search result target storage unit 53 (FIG. 9) without using a specific phrase, that is, a specific phrase.
  • a phraseless language model which is another language model of the specific phrase language model, is generated using a word string that does not include a phrase.
  • a higher value is given as the language score of the recognition hypothesis (word string) including the specific phrase than the language score of the recognition hypothesis not including the specific phrase.
  • a higher value is given as the language score of the recognition hypothesis (word string) not including the specific phrase than the language score of the word string including the specific phrase.
  • the speech recognition unit 51 performs speech recognition using a specific phrase language model and a phraseless language model.
  • the language model without phrases is used.
  • a high language score is given to the recognition hypothesis in which the words constituting the word string are arranged.
  • the language score (and acoustic score) of the recognition hypothesis in which the specific phrase and the words constituting the search result target word string are arranged is the language for the specific phrase.
  • the speech score is not output as a speech recognition result because the language score of the recognition hypothesis including the specific phrase is low for input speech including the specific phrase. Can be prevented.
  • FIG. 40 shows an example of speech search when the speech recognition unit 51 of FIG. 9 performs speech recognition of Japanese input speech using the language model for specific phrases and the language model without phrases. Yes.
  • the voice recognition unit 51 recognizes the input voice “playback by voice search”.
  • the speech recognition unit 51 performs speech recognition using the language model for specific phrases, the input hypothesis including the specific phrase “recognition hypothesis“ The language score (and acoustic score) of “playback by voice search”, and hence the recognition score, is sufficiently higher than when the specific phrase language model is not used.
  • the recognition hypothesis “play with voice search” including the specific phrase is output as the speech recognition result.
  • the voice recognition result “playback by voice search” output from the voice recognition unit 51 is supplied to the phonetic symbol conversion unit 52 and the command determination unit 71.
  • the command determination unit 71 determines that the input voice is not a command.
  • control unit 72 does not perform control for restricting the processing of the voice search device 50.
  • the voice recognition result “playback by voice search” from the voice recognition unit 51 is converted into a recognition result phonetic symbol string and supplied to the matching unit 56.
  • search result target pronunciation symbol string of the search result target word string is supplied from the search result target storage unit 53 to the matching unit 56 via the morpheme analysis unit 54 and the pronunciation symbol conversion unit 55.
  • the matching unit 56 removes the specific phrase from the recognition result pronunciation symbol string, and the recognition result pronunciation after the deletion Matching between the symbol string and the search result target pronunciation symbol string is performed.
  • the matching unit 56 supplies the output unit 57 with the similarity as a matching result between the recognition result pronunciation symbol string and the search result target pronunciation symbol string.
  • the output unit 57 outputs, as a search result word string, a search result target word string whose similarity is within the top N, based on the similarity as the matching result from the matching unit 56.
  • the title of the program as the search result target word string within the top two is output as the search result word string for the input voice “playback by voice search” including the specific phrase.
  • the matching unit 56 as described above, matching between the recognition result pronunciation symbol string from which the specific phrase is removed and the search result target pronunciation symbol string, that is, speech recognition from which the specific phrase is removed.
  • the result is matched with the search result target word string, and based on the matching result, the search result target word string that matches the speech recognition result from which the specific phrase is removed is output as the search result word string.
  • the search result target word string is a word string that is a target of the search result of the word string corresponding to the voice obtained by removing (removing) a specific phrase from the input voice.
  • the speech recognition unit 51 performs the input.
  • the voice “reproduction” is recognized as a voice, and the voice recognition result “reproduction” is supplied to the phonetic symbol conversion unit 52 and the command determination unit 71.
  • the command determination unit 71 determines that the input voice is a command, and determines that the input voice is a command as a voice recognition result. Is supplied to the control unit 72 together with the command character string “reproduction” that matches
  • the control unit 72 performs control to limit processing of the voice search device 50 when a determination result that the input voice is a command is supplied from the command determination unit 71. Therefore, the voice search device 50 does not perform a voice search and does not output a search result word string.
  • control unit 72 controls the recorder function unit 60 so as to reproduce the program according to the command interpreted from the command character string “reproduction” from the command determination unit 71.
  • FIG. 41 shows an example of speech search when the speech recognition unit 51 in FIG. 10 performs speech recognition of English input speech using the language model for specific phrases and the language model without phrases. .
  • the speech recognition unit 51 performs speech recognition using the language model for specific phrases
  • the input hypothesis “Program Search” including the specific phrase “Program” Search ” is used for the input speech including the specific phrase“ Program Search ”.
  • the language score (and acoustic score) of “Search, Play”, and thus the recognition score, is sufficiently higher than when the language model for specific phrases is not used.
  • the recognition hypothesis “Program Search” including the specific phrase is output as the speech recognition result.
  • the voice recognition result “Program Search, Play” output by the voice recognition unit 51 is supplied to the phonetic symbol conversion unit 52 and the command determination unit 71.
  • the command determination unit 71 determines that the input speech is not a command.
  • control unit 72 does not perform control for restricting the processing of the voice search device 50.
  • the phonetic symbol conversion unit 52 converts the voice recognition result “Program Search, Play” from the voice recognition unit 51 into a recognition result phonetic symbol string and supplies it to the matching unit 56.
  • search result target pronunciation symbol string of the search result target word string is supplied from the search result target storage unit 53 to the matching unit 56 via the pronunciation symbol conversion unit 55.
  • the matching unit 56 removes the specific phrase from the recognition result pronunciation symbol string, and the recognition result pronunciation after the deletion Matching between the symbol string and the search result target pronunciation symbol string is performed.
  • the matching unit 56 supplies the output unit 57 with the similarity as a matching result between the recognition result pronunciation symbol string and the search result target pronunciation symbol string.
  • the output unit 57 outputs, as a search result word string, a search result target word string whose similarity is within the top N, based on the similarity as the matching result from the matching unit 56.
  • the program title as the search result target word string within the top two is output as the search result word string for the input sound “Program Search, Play” including the specific phrase.
  • the voice recognition unit 51 uses the input voice. “Play” is recognized as speech, and the speech recognition result “Play” is supplied to the phonetic symbol conversion unit 52 and the command determination unit 71.
  • the command determination unit 71 determines that the input voice is a command, and determines that the input voice is a command as a voice recognition result. Is supplied to the control unit 72 together with the command character string “Play” that matches
  • the control unit 72 performs control to limit processing of the voice search device 50 when a determination result that the input voice is a command is supplied from the command determination unit 71. Therefore, the voice search device 50 does not perform a voice search and does not output a search result word string.
  • control unit 72 controls the recorder function unit 60 so as to reproduce the program according to the command interpreted from the command character string “Play” from the command determination unit 71.
  • the speech recognition unit 51 performs speech recognition using the language model for specific phrases and the language model without phrases, it does not include input speech including specific phrases and specific phrases. Both input voices can be recognized with high accuracy.
  • a voice search when performing a voice search, the user is asked to make an utterance including a specific phrase, thereby distinguishing whether the user's utterance is a voice search request or a command for controlling the recorder. Even if the word string matches the command character string, a voice search can be performed using the word string as a keyword.
  • the voice search and the control of the recorder can be switched depending on whether or not a specific phrase is included in the user's utterance (or whether or not the user's utterance matches the command character string).
  • a command character string is included in the search result target word string, and the language model generation unit 85 uses only the search result target word string without using a specific phrase.
  • the phraseless language model is generated, as the phraseless language model, for example, a language model generated using only a command character string can be employed.
  • the command determination unit 71 based on the speech recognition result from the speech recognition unit 51, the input speech from the user is determined depending on whether the speech recognition result matches the command character string.
  • the input voice is a command for controlling the recorder based on the matching result of the matching unit 56. It can be determined whether or not.
  • the command character string is included in the search result target word string, and the matching unit 56 matches the search result target pronunciation symbol string of the search result target word string with the entire recognition result pronunciation symbol string of the speech recognition result. And the matching result is supplied to the command determination unit 71.
  • the command determination unit 71 based on the matching result from the matching unit 56, the search result target word string having the highest similarity obtained by matching with the entire speech recognition result (the recognition result pronunciation symbol string) If it matches the command character string, it is determined that the input voice is a command, and if the highest search result target word string does not match the command character string, it is determined that the input voice is not a command.
  • the control unit 72 When the command determination unit 71 determines that the input voice is a command, the control unit 72 performs processing according to the command, and the output unit 57 performs a search result based on the matching result of the matching unit 56. Limit the output of word strings.
  • the control unit 72 when the speech recognition result of the input speech includes a specific phrase, identifies the specific phrase from the recognition result pronunciation symbol string.
  • the matching unit 56 is controlled so as to match the recognition result pronunciation symbol string after the deletion and the search result target pronunciation symbol string, and based on the matching result of the matching unit 56, the search result word
  • the output unit 57 is controlled to output the column.
  • the command determination unit 71 determines whether the input sound includes the input sound regardless of whether or not a specific phrase is included in the input sound. Since it is possible to determine whether or not it is a command, the user may utter an input voice of only the keyword for the voice search without speaking an input voice including a specific phrase when performing a voice search. Yes (the user does not have to speak a specific phrase to perform a voice search).
  • the control unit 72 matches the search result target word string already performed by the matching unit 56 with the entire speech recognition result. Based on the matching result, the output unit 57 is controlled to output the search result word string.
  • 42 and 43 are diagrams showing another example of the voice search using the input voice including the specific phrase.
  • the search result target word string is classified into a plurality of fields such as a program title field, a performer name field, and a detailed information field
  • voice recognition is performed.
  • the section 51 (FIG. 9 (and FIG. 10)
  • the language model for the program title field the language model for the performer name field, which is the language model for each field, and the details
  • a language model for the information field is generated, speech recognition is performed using the language model for each field, and a speech recognition result for each field can be obtained.
  • the voice recognition unit 51 detects one or more voice recognition results having a higher recognition score from all the voice recognition results of the program title field, performer name field, and detailed information field, and the voice.
  • the recognition result can be a comprehensive voice recognition result used for matching in the matching unit 56.
  • the matching unit 56 (FIG. 9) can match the search result target word string for each field and the speech recognition result, and the output unit 57 (FIG. 9) based on the matching result for each field.
  • the output unit 57 (FIG. 9) based on the matching result for each field.
  • search result word strings of the program title field, performer name field, and detailed information field are output.
  • search result target word string that matches the voice recognition result is output as a search result word string.
  • a voice search when performing a voice search, a voice search is instructed and a specific phrase representing a field of a search result target word string that matches a voice recognition result is used.
  • the search result target word string field that matches the speech recognition result is specified by having the user utter the input speech including “by program name search” and “by name search”. It is possible to perform a voice search by limiting to the field.
  • the language model generation unit 85 of the speech recognition unit 51 Each time, a language model is generated using a search result target word string stored in the search result target storage unit 53 (FIG. 9) and a field phrase which is a specific phrase representing a field.
  • the language model generation unit 85 For a program title field, for example, using “program name search” or “Program Title Search by” and a search result target word string in the program title field as a field phrase that is a specific phrase representing the program title field Generate a language model for
  • the language model generation unit 85 uses, for example, “by name search” or “Cast Search by” as a field phrase representing the performer name field and the search result target word string in the performer name field, A language model for the performer name field is generated, and as a field phrase representing the detailed information field, for example, “in the detailed information search” or “Information Search by” and the search result target word string in the detailed information field. To generate a language model for the detailed information field.
  • the program title field phrase “Program name search” or “Program Title Search by” A high language score is given when the words constituting the search result target word string in the field are aligned.
  • the speech recognition unit 51 performs speech recognition using a language model for the program title field, a language model for the performer name field, and a language model for the detailed information field.
  • the field phrases “in program name search” and “Program” in the program title field The recognition hypothesis that “Title Search by” and the words that make up the search result target word string in the program title field are aligned, the field phrase “Person search” or “Cast Search by” in the performer name field, The recognition hypotheses that are aligned with the words that make up the search result target word string, and the field phrases “information search by” and “Information Search by” in the detailed information field, and the words that make up the search result target word string in the detailed information field A recognition language hypothesis is given a high language score.
  • the input voice can be recognized with high accuracy.
  • the voice recognition unit 51 (FIG. 29)
  • the matching unit 56 recognizes the recognition target word string in the field represented by the field phrase included in the speech recognition result (the language model field used to obtain the speech recognition result). Only the target is matched with the speech recognition result, and the output unit 57 outputs a search result word string based on the matching result.
  • FIG. 42 shows the speech recognition of the input speech in Japanese using the language model for each field in the speech recognition unit 51 of FIG. 9, and the field represented by the field phrase included in the speech recognition result in the matching unit 56.
  • An example of a voice search is shown in which only the recognition target word string is matched with the voice recognition result.
  • the voice recognition unit 51 uses the input voice. Voice recognition of “XX in program name search” is recognized.
  • the speech recognition unit 51 performs speech recognition using the language model for the program title field, the language model for the performer name field, and the language model for the detailed information field
  • the recognition hypothesis “Search for program name ⁇ ” includes the field phrase “Search for program name” in the program title field.
  • Language hypothesis (and acoustic score) and therefore, the recognition score does not include the recognition hypothesis that does not include the field phrase “in program name search” in the program title field (field phrases other than the field phrase “in program title search” in the program title field). It is sufficiently higher than the recognition score (including the recognition hypothesis including).
  • the recognition hypothesis “XX in program name search” including the field phrase in the program title field is the speech recognition result.
  • the speech recognition result “program name search result OO” output from the speech recognition unit 51 is converted into a recognition result pronunciation symbol string via the pronunciation symbol conversion unit 52 and supplied to the matching unit 56.
  • search result target pronunciation symbol string of the search result target word string is supplied from the search result target storage unit 53 to the matching unit 56 via the morpheme analysis unit 54 and the pronunciation symbol conversion unit 55.
  • the matching unit 56 removes the field phrase from the recognition result pronunciation symbol string, and the recognition result pronunciation symbol string after the deletion. Is matched only with the search result target pronunciation symbol string of the search result target word string in the field represented by the field phrase included in the recognition result pronunciation symbol string in the search result target word string.
  • the matching unit 56 supplies the output unit 57 with the similarity as a matching result between the recognition result pronunciation symbol string and the search result target pronunciation symbol string.
  • the matching unit 56 for the speech recognition result “program name search by XX” including the field phrase in the program title field, the speech recognition result (field phrase is changed to the search result target word string in the program title field only). Matching with the removed speech recognition result) is performed.
  • the output unit 57 outputs, as a search result word string, a search result target word string whose similarity is within the top N, based on the similarity as the matching result from the matching unit 56.
  • the voice recognition unit 51 performs the input.
  • the voice “XX in person name search” is recognized by voice.
  • the speech recognition unit 51 performs speech recognition using the language model for the program title field, the language model for the performer name field, and the language model for the detailed information field.
  • the recognition hypothesis “Person Name Search ⁇ ” includes the performer name field field phrase “Person Search”.
  • the score (and acoustic score), and thus the recognition score, is sufficiently higher than the recognition score of the recognition hypothesis that does not include the field phrase “in the person name search” of the performer name field.
  • the recognition hypothesis “Person Search” is included in the speech recognition result including the field phrase in the performer name field.
  • the speech recognition result “person name search OO” output from the speech recognition unit 51 is converted into a recognition result pronunciation symbol string via the pronunciation symbol conversion unit 52 and supplied to the matching unit 56.
  • search result target pronunciation symbol string of the search result target word string is supplied from the search result target storage unit 53 to the matching unit 56 via the morpheme analysis unit 54 and the pronunciation symbol conversion unit 55.
  • the matching unit 56 removes the field phrase from the recognition result pronunciation symbol string, and the recognition result pronunciation symbol string after the deletion. Is matched only with the search result target pronunciation symbol string of the search result target word string in the field represented by the field phrase included in the recognition result pronunciation symbol string in the search result target word string.
  • the matching unit 56 supplies the output unit 57 with the similarity as a matching result between the recognition result pronunciation symbol string and the search result target pronunciation symbol string.
  • the speech recognition result “person name search by XX” including the field phrase of the performer name field
  • the speech recognition result (field phrase) is applied only to the search result target word string of the performer name field. (Speech recognition result obtained by removing).
  • the output unit 57 outputs, as a search result word string, a search result target word string whose similarity is within the top N, based on the similarity as the matching result from the matching unit 56.
  • the speech recognition result for the search result target word string in the performer name field Matching is made with the character string “XX” from which the field phrase is removed from “person name search”, and as a result, the program whose performer name matches the character string “XX” is the search result word string Is output as
  • the speech recognition unit 51 in FIG. 10 performs speech recognition of English input speech using the language model for each field, and the matching unit 56 shows the field represented by the field phrase included in the speech recognition result.
  • An example of voice search in the case where matching with a speech recognition result is performed on only a recognition target word string is shown.
  • the speech recognition unit 51 uses the input speech “ Program Title Search by XX "is recognized by voice.
  • the speech recognition unit 51 performs speech recognition using the language model for the program title field, the language model for the performer name field, and the language model for the detailed information field, the program title field
  • the recognition hypothesis that the score (and acoustic score) and thus the recognition score does not include the field phrase “Program ⁇ ⁇ ⁇ ⁇ Title” Search by ”in the program title field (recognition that includes a field phrase other than the field phrase“ Program Title Search by ”in the program title field) Sufficiently higher than the recognition score (including hypothesis).
  • the recognition hypothesis "Program Title Search" by XX containing the field phrase of the program title field is the speech recognition result, It is possible to prevent a recognition hypothesis that does not include a field phrase in the program title field from becoming a speech recognition result.
  • the speech recognition result “Program Title Search by XX” output by the speech recognition unit 51 is converted into a recognition result pronunciation symbol string via the pronunciation symbol conversion unit 52 and supplied to the matching unit 56.
  • search result target pronunciation symbol string of the search result target word string is supplied from the search result target storage unit 53 to the matching unit 56 via the pronunciation symbol conversion unit 55.
  • the matching unit 56 removes the field phrase from the recognition result pronunciation symbol string, and the recognition result pronunciation symbol string after the deletion. Is matched only with the search result target pronunciation symbol string of the search result target word string in the field represented by the field phrase included in the recognition result pronunciation symbol string in the search result target word string.
  • the matching unit 56 supplies the output unit 57 with the similarity as a matching result between the recognition result pronunciation symbol string and the search result target pronunciation symbol string.
  • the speech recognition result “Program Title Search by XX” including the field phrase in the program title field
  • the speech recognition result (removing the field phrase) is performed only on the search result target word string in the program title field. Matching with the voice recognition result).
  • the output unit 57 outputs, as a search result word string, a search result target word string whose similarity is within the top N, based on the similarity as the matching result from the matching unit 56.
  • the voice recognition unit 51 receives the input voice. "Cast Search by XX” is recognized.
  • the speech recognition unit 51 performs speech recognition using the language model for the program title field, the language model for the performer name field, and the language model for the detailed information field.
  • speech “Cast Search by XX” containing field phrase “Cast Search by” in the field language score of recognition hypothesis “Cast Search by XX” containing field phrase “Cast Search” by ”in performer name field ( And the acoustic score), and thus the recognition score is sufficiently higher than the recognition score of the recognition hypothesis not including the field phrase “CastCSearch by” in the performer name field.
  • the recognition hypothesis "Cast Search by XX" containing the field phrase in the performer name field is the speech recognition result, It is possible to prevent a recognition hypothesis that does not include a field phrase in the performer name field from becoming a speech recognition result.
  • the speech recognition result “Cast by XX” output from the speech recognition unit 51 is converted into a recognition result pronunciation symbol string via the pronunciation symbol conversion unit 52 and supplied to the matching unit 56.
  • search result target pronunciation symbol string of the search result target word string is supplied from the search result target storage unit 53 to the matching unit 56 via the pronunciation symbol conversion unit 55.
  • the matching unit 56 removes the field phrase from the recognition result pronunciation symbol string, and the recognition result pronunciation symbol string after the deletion. Is matched only with the search result target pronunciation symbol string of the search result target word string in the field represented by the field phrase included in the recognition result pronunciation symbol string in the search result target word string.
  • the matching unit 56 supplies the output unit 57 with the similarity as a matching result between the recognition result pronunciation symbol string and the search result target pronunciation symbol string.
  • the matching unit 56 for the speech recognition result “Cast Search by XX” including the field phrase in the performer name field, only the search result target word string in the performer name field is targeted. Matching with the removed speech recognition result) is performed.
  • the output unit 57 outputs, as a search result word string, a search result target word string whose similarity is within the top N, based on the similarity as the matching result from the matching unit 56.
  • the speech recognition result “Cast” is targeted for the search result target word string in the performer name field. Matching is performed with the character string “XX” obtained by removing the field phrase from “Search by" XX ”, and as a result, a program whose performer name matches the character string“ XX ”is output as a search result word string.
  • a field phrase not only a phrase representing one field but also a phrase representing a plurality of fields can be adopted.
  • a field to which a command for controlling the recorder of FIG. 9 (and FIG. 10) belongs can be adopted. In this case, it is possible to determine whether or not the input voice is a command based on the field phrase included in the voice recognition result. Further, when the input voice is a command, the matching unit 56 performs matching of the command. It is possible to search for the type (what kind of processing the command requires).
  • FIG. 44 is a diagram showing search result target vectors and vector substitution information.
  • a search result target vector representing the search result target pronunciation symbol string and the recognition result pronunciation symbol string when obtaining a cosine distance or a correction distance as a similarity degree The search result target word string stored in the search result target storage unit 53 (FIG. 9) is converted into a search result target vector each time a speech recognition result is obtained. Then, matching takes time and hinders the speeding up of matching.
  • a search result target vector necessary for calculating the similarity is obtained in advance from a search result target word string stored in the search result target storage unit 53 (FIG. 9), and is not shown in the matching unit 56.
  • the search result target vector is a C-dimensional vector.
  • the number C of types of the pronunciation symbol is about 100 to 300.
  • the matching unit 56 is built-in.
  • the memory that needs to have a storage capacity sufficient to store D ⁇ Z components (of the search result target vector).
  • the search result target vector is generally a sparse vector, that is, a vector in which most components are zero.
  • a syllable pronunciation symbol corresponding to a non-zero component of the search result target vector (corresponding to a non-zero component when a syllable double chain is used as a matching unit) Only the syllable two-chain syllable symbol string) (ID (Identification)) is stored in the built-in memory.
  • the search result target vector component for example, when the frequency (tf) in which the syllable corresponding to the component appears in the search result target pronunciation symbol string is adopted, the non-zero component of the search result target vector Only the set of the syllable corresponding to (ID for identifying) and the frequency of occurrence of the syllable (component value of the search result target vector) is stored in the memory built in the matching unit 56.
  • the non-zero component in the search result target vector of the i-th search result target word string If the number of K (i) is K (i), the memory built in the matching unit 56 only stores K (1) + K (2) +... + K (Z) phonetic symbols. The storage capacity is sufficient.
  • the values of the search result target vector components are binary values of 0 and 1, whereas the pronunciation symbol has values of about 100 to 300 as described above.
  • One component of the search result target vector can be expressed by 1 bit, but 7 to 9 bits are required to express a phonetic symbol.
  • the matching unit 56 for each search result target vector, only the syllable pronunciation symbol corresponding to the non-zero component of the search result target vector is stored in the built-in memory. This can be reduced compared to the case where the search result target vector itself is stored.
  • the syllable pronunciation symbol corresponding to the non-zero component of the search result target vector stored in the memory built in the matching unit 56 is information that replaces the search result target vector. Also called.
  • FIG. 44 shows a search result target vector and vector substitution information replacing the search result target vector.
  • the value of the component of the search result target vector is 1 or 0 depending on whether the syllable corresponding to the component exists in the search result target pronunciation symbol string.
  • the vector substitution information that replaces the search result target vector is composed only of syllable pronunciation symbols corresponding to non-zero components of the search result target vector.
  • the pronunciation symbol of the same syllable that appears multiple times in the search result target word string is distinguished by attaching a number with parentheses. Yes.
  • the pronunciation symbol of the same syllable “I” appears twice, but in the vector substitute information, the syllable “I” that appears twice.
  • the phonetic symbols of "” the first phonetic symbol is represented by “I”
  • the second phonetic symbol is a number with parentheses indicating that "I” is the second. It is represented by “2 (2)” with “(2)” appended thereto, so that each pronunciation symbol of the syllable “I” that appears twice is distinguished.
  • pronunciation symbols of the same syllable that appear multiple times in the search result target word string can be expressed without distinction.
  • a pronunciation symbol of the same syllable “I” that appears twice in the search result target word string “SEKAI-san” is a syllable “I” (identification ID) in the vector substitution information.
  • “2”, which is the frequency at which the syllable “I” appears, can be expressed by a pair (I, 2).
  • the memory built in the matching unit 56 in the case of storing the vector substitute information instead of the search result target vector, it is necessary when storing the search result target vector in the matching. Since it is not necessary to access the 0 component of the search result target vector (reading of the 0 component from the memory), the memory capacity can be reduced and matching can be speeded up.
  • FIG. 45 is a diagram for explaining the calculation of the similarity between the speech recognition result and the search result target word string when the vector substitution information is stored instead of the search result target vector in the memory built in the matching unit 56. is there.
  • the speech recognition result (recognition of the speech recognition result) is performed in the same manner as the search result target word string (the search result target pronunciation symbol string) is expressed by the vector substitution information instead of the search result target vector.
  • the result pronunciation symbol string is also expressed by vector substitution information instead of the recognition result vector.
  • of the search result target vector V TITLE (i) is further required.
  • of the recognition result vector V UTR can be obtained by calculating the square root of the sum of the numbers of pronunciation symbols as components constituting the vector substitution information of the speech recognition result.
  • is also obtained in the same manner as the size of the recognition result vector V UTR
  • the inner product V UTR ⁇ V TITLE (i) between the recognition result vector V UTR and the search result target vector V TITLE (i) is set to 0 as the initial value of the inner product V UTR ⁇ V TITLE (i). If the phonetic symbols that make up the vector substitution information are sequentially used as the attention symbol, and there is a pronunciation symbol that matches the attention symbol in the vector substitution information of the search result target word string, the inner product V UTR ⁇ V It can be obtained by incrementing TITLE (i) by 1.
  • the cosine distance and the correction distance as the similarity between the voice recognition result and the search result target word string can be obtained using the voice recognition result and the vector substitution information of the search result target word string.
  • the inner product V UTR / V TITLE (i) matches the attention symbol among the pronunciation symbols constituting the vector substitution information of the speech recognition result in the vector substitution information of the search result target word string. If there is a phonetic symbol to be found, the method of obtaining the inner product V UTR ⁇ V TITLE (i) by incrementing by 1 (hereinafter also referred to as the first inner product calculation method) will store the memory in the matching unit 56. It is necessary to access each of the phonetic symbols constituting the vector substitution information of the stored search result target word string to check whether or not it matches the target symbol.
  • the pronunciation symbols constituting the vector substitution information of the search result target word string among the pronunciation symbols constituting the vector substitution information of the search result target word string, the pronunciation symbols that do not match the pronunciation symbols constituting the vector substitution information of the speech recognition result must also be accessed. Therefore, it takes time to calculate the inner product V UTR ⁇ V TITLE (i), and thus to match.
  • the matching unit 56 creates in advance a reverse index that can search for a search result target word string having the pronunciation symbol in the vector substitution information from the pronunciation symbol, from the vector substitution information of the search result target word string.
  • the inner product V UTR ⁇ V TITLE (i) can be calculated using the reverse index.
  • the vector substitution information is an index that can search for the syllable pronunciation symbol of the search result target word string from the search result target word string, but according to the reverse lookup index,
  • the reverse search that is, the search result target word string having the pronunciation symbol in the vector substitution information can be searched from the pronunciation symbol.
  • FIG. 46 is a diagram for explaining a method of creating a reverse index from the vector substitution information of the search result target word string.
  • the matching unit 56 associates, for all pronunciation symbols that can be components of vector substitution information, a pronunciation symbol and a search result target ID that specifies a search result target word string having the pronunciation symbol as a component of vector substitution information. Thus, a reverse index is created.
  • search result target word string having the phonetic symbol “I” as a component of vector substitution information
  • search result target word string having a search result target ID 3
  • search result target It can be immediately detected (searched) that the search result target word string is ID 3.
  • FIG. 47 is a diagram for explaining a method for calculating the inner product V UTR ⁇ V TITLE (i) using the reverse index (hereinafter also referred to as a second inner product calculation method).
  • the matching unit 56 sets the initial value of the inner product V UTR ⁇ V TITLE (i) for each search result word string to 0, and generates phonetic symbols constituting the vector substitution information of the speech recognition result,
  • a search result target word string (a search result target ID) having a pronunciation symbol matching the target symbol as a component of the vector substitution information is sequentially detected from the reverse lookup index as the target symbol.
  • the matching unit 56 sets the inner product V UTR ⁇ V TITLE (i) for the search result target word string to 1 Only increments.
  • the phonetic symbols that do not match the phonetic symbols constituting the vector substitution information of the speech recognition result among the phonetic symbols of the reverse lookup index are not accessed.
  • the inner product V UTR ⁇ V TITLE (i) can be calculated in a short time by using the inner product calculation method, and as a result, matching can be speeded up.
  • a calculation part that can be performed before the voice recognition in the voice recognition unit 51 is performed is performed in advance and stored in the memory built in the matching unit 56. By doing so, it is possible to speed up matching.
  • of the search result target vector V TITLE (i) are required.
  • of the target vector V TITLE (i) can be calculated before speech recognition is performed.
  • is calculated in advance and stored in the memory built in the matching unit 56, thereby speeding up matching. be able to.
  • FIG. 48 is a flowchart for explaining processing of the voice search device 50 of FIG. 9 (and FIG. 10).
  • step S11 the voice search device 50 performs necessary preprocessing.
  • the voice search device 50 reads, for example, a program title, performer name, detailed information, and the like, which are constituent elements of the EPG recorded in the recording medium 63, and stores a search result target storage unit.
  • the data is supplied to 53 and stored as a search result target word string.
  • the speech recognition unit 51 performs a process of generating a language model using the search result target word string stored in the search result target storage unit 53 as preprocessing.
  • the pre-processing in step S11 is performed, for example, every day at a predetermined time.
  • the pre-processing in step S11 is performed when a recorded program recorded on the recording medium 63 is changed, or when an EPG recorded on the recording medium 63 is changed (updated).
  • the voice recognition unit 51 recognizes the input voice in step S12.
  • the speech recognition in the speech recognition unit 51 is performed using the language model generated by the latest preprocessing.
  • the speech recognition result obtained by the speech recognition unit 51 performing speech recognition of the input speech is supplied to the matching unit 56 as a recognition result pronunciation symbol string via the pronunciation symbol conversion unit 52.
  • search result target word string stored in the search result target storage unit 53 becomes a search result target pronunciation symbol string in the matching unit 56 via the morpheme analysis unit 54 and the phonetic symbol conversion unit 55. Supplied.
  • step S ⁇ b> 13 the matching unit 56 recognizes each of the search result target word strings stored in the search result target storage unit 53 for each recognition result pronunciation symbol string supplied from the speech recognition unit 51 via the pronunciation symbol conversion unit 52. And the search result target pronunciation symbol string supplied from the search result target storage unit 53 via the morpheme analysis unit 54 and the phonetic symbol conversion unit 55, and the matching result is supplied to the output unit 57.
  • the matching unit 56 calculates, for example, a correction distance as a similarity to the speech recognition result for each search result target word string stored in the search result target storage unit 53, and the similarity is matched. As a result, it is supplied to the output unit 57.
  • the matching unit 56 determines whether the recognition result pronunciation symbol string excluding the specific phrase and the search result target pronunciation symbol string Take matching.
  • step S ⁇ b> 14 the output unit 57 searches the word string corresponding to the input speech from the search result target word strings stored in the search result target storage unit 53 based on the matching result from the matching unit 56.
  • a search result word string (which is a search result target word string) is selected and output.
  • the output unit 57 selects a search result target word string having a similarity to the speech recognition result from the search result target word string stored in the search result target storage unit 53 within the search result word string. Select as output.
  • the search result target word string is, for example, a program title, performer name, or detailed information
  • the output unit 57 outputs the title of the program having the performer name as metadata together with the performer name or instead of the performer name. Can be selected as a search result word string.
  • FIG. 49 shows a configuration example of an embodiment of a computer in which a program for executing the series of processes described above is installed.
  • the program can be recorded in advance in a hard disk 105 or a ROM 103 as a recording medium built in the computer.
  • the program can be stored (recorded) in the removable recording medium 111.
  • a removable recording medium 111 can be provided as so-called package software.
  • examples of the removable recording medium 111 include a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disc, a DVD (Digital Versatile Disc), a magnetic disc, and a semiconductor memory.
  • the program can be installed on the computer from the removable recording medium 111 as described above, or can be downloaded to the computer via the communication network or the broadcast network and installed on the built-in hard disk 105. That is, the program is transferred from a download site to a computer wirelessly via a digital satellite broadcasting artificial satellite, or wired to a computer via a network such as a LAN (Local Area Network) or the Internet. be able to.
  • a network such as a LAN (Local Area Network) or the Internet.
  • the computer includes a CPU (Central Processing Unit) 102, and an input / output interface 110 is connected to the CPU 102 via the bus 101.
  • CPU Central Processing Unit
  • the CPU 102 executes a program stored in a ROM (Read Only Memory) 103 accordingly. .
  • the CPU 102 loads a program stored in the hard disk 105 into a RAM (Random Access Memory) 104 and executes it.
  • the CPU 102 performs processing according to the flowchart described above or processing performed by the configuration of the block diagram described above. Then, the CPU 102 outputs the processing result as necessary, for example, via the input / output interface 110, from the output unit 106, transmitted from the communication unit 108, and further recorded in the hard disk 105.
  • the input unit 107 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 106 includes an LCD (Liquid Crystal Display), a speaker, and the like.
  • the processing performed by the computer according to the program does not necessarily have to be performed in chronological order in the order described as the flowchart. That is, the processing performed by the computer according to the program includes processing executed in parallel or individually (for example, parallel processing or object processing).
  • the program may be processed by one computer (processor), or may be distributedly processed by a plurality of computers. Furthermore, the program may be transferred to a remote computer and executed.
  • the language of the input voice is not limited to Japanese or English.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本発明は、入力音声に対応する単語列の検索を、ロバストに行うことができる検索装置、検索方法、及び、プログラムに関する。 音声認識部11は、入力音声を音声認識する。マッチング部16は、入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とのマッチングをとる。出力部17は、検索結果対象発音シンボル列と認識結果発音シンボル列とのマッチング結果に基づいて、複数の検索結果対象単語列からの、入力音声に対応する単語列の検索の結果である検索結果単語列を出力する。本発明は、例えば、音声検索を行う場合に適用できる。

Description

検索装置、検索方法、及び、プログラム
 本発明は、検索装置、検索方法、及び、プログラムに関し、特に、例えば、入力音声に対応する単語列の検索を、ロバスト(robust)に行うことができるようにする検索装置、検索方法、及び、プログラムに関する。
 ユーザから入力される音声である入力音声を用い、その音声に対応するテキスト等の単語列を検索する音声検索の方法としては、例えば、音声認識装置のみを用いる方法がある(例えば、特許文献1を参照)。
 音声認識装置のみを用いる音声検索では、音声認識装置において、あらかじめ辞書に登録された単語(語彙)の並びを、音声認識結果の対象として、入力音声の音声認識が行われ、その音声認識結果が、入力音声に対応する単語列の検索の結果である検索結果単語列として出力される。
 したがって、音声認識装置のみを用いる音声検索では、入力音声に対応する単語列の検索結果の対象となる単語列(以下、検索結果対象単語列ともいう)は、音声認識結果の対象である、辞書に登録された単語の並びである単語列(本明細書では、1つの単語を含む)だけであるため、ユーザの発話は、音声認識に用いられる辞書に登録された単語の並びに制限される。
 そこで、近年においては、ボイスサーチ(Voice Search)と呼ばれる音声検索の方法が提案されている。
 ボイスサーチでは、N-gram等の言語モデルを用いて、連続音声認識が行われ、その音声認識結果と、音声認識に用いられる辞書とは別に用意されたDB(Database)に登録されたテキストとのマッチング(DBに登録されたテキストからの、音声認識結果に対応するテキストのテキスト検索)が行われる。
 そして、そのマッチングの結果に基づき、音声認識結果にマッチする最上位の、又は、上位N位以内のテキストが、検索結果単語列として出力される。
 ボイスサーチでは、音声認識に用いられる辞書とは別に用意されたDBに登録されたテキストが、検索結果対象単語列となるため、そのDBに、多数のテキストを登録しておくことにより、その多数のテキストを、検索結果対象単語列として、音声検索を行うことができる。
 すなわち、ボイスサーチによれば、ユーザが、音声認識に用いられる辞書に登録された単語以外の単語を含む発話を行っても、DBに登録された検索結果対象単語列としてのテキストの範囲内で、ある程度の精度の音声検索を行うことができる。
特開2001-242884号公報
 ところで、従来のボイスサーチでは、音声認識結果と、検索結果対象単語列としてのテキストとのマッチングは、音声認識結果、及び、検索結果対象単語列のそれぞれの表記を表すシンボルである表記シンボルを用い、単語単位や、表記シンボル単位で行われる。
 したがって、音声認識結果の表記シンボルに誤りがあると、マッチングにおいて、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、音声認識結果にマッチし、その結果、そのような、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、検索結果単語列として出力されることがある。
 すなわち、ユーザが、入力音声として、例えば、日本語で、「としのせかい」を発話し、その音声認識結果の表記シンボル列が、例えば、「都市の世界」であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列「都市の世界」を、「都市/の/世界/」(スラッシュ(/)は、区切りを表す)のように、1個ずつの単語に区切って、マッチングが行われ、表記シンボル単位のマッチングでは、音声認識結果の表記シンボル列「都市の世界」を、「都/市/の/世/界」のように、1個ずつの表記シンボルに区切って、マッチングが行われる。
 一方、入力音声「としのせかい」の音声認識結果の表記シンボル列が、例えば、「年の瀬かい」であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列「年の瀬かい」を、 「/年/の/瀬/かい/」のように、1個ずつの単語に区切って、マッチングが行われ、表記シンボル単位のマッチングでは、音声認識結果の表記シンボル列「年の瀬かい」を、「年/の/瀬/か/い」のように、1個ずつの表記シンボルに区切って、マッチングが行われる。
 したがって、入力音声「としのせかい」の音声認識結果の表記シンボル列が、「都市の世界」である場合と、「年の瀬かい」である場合とでは、音声認識結果にマッチする検索結果対象単語列は、大きく異なり、その結果、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、検索結果単語列として出力される一方、入力音声に対応する単語列が、検索結果単語列として出力されないことがある。
 以上のように、表記シンボルを用いたマッチングは、音声認識結果との親和性が高くなく、入力音声に対応する単語列が、検索結果単語列として出力されないことがある。
 また、ユーザが、入力音声として、例えば、英語で、"tolkien"(ロードオブザリングの著者(the author of "the Lord of the Rings"))と発話し、その音声認識結果の表記シンボル列が、例えば、1単語の"tolkien"であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列である1単語"tolkien"をそのまま使って、マッチングが行われ、表記シンボル(alphabetic character)単位のマッチングでは、音声認識結果の表示シンボル列"tolkien"を、t/o/l/k/i/e/nのように、1個ずつの表記シンボルに区切って、マッチングが行われる。
 一方、入力音声"tolkien"の音声認識結果の表記シンボル列が、例えば、"toll keene"であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列"toll keene"を、toll/keeneのように、1個ずつの単語に区切って、マッチングが行われ、表記シンボル単位(alphabetic character)単位のマッチングでは、t/o/l/l/k/e/e/n/e のように、1個ずつの表記シンボルであるアルファベット単位に区切って、マッチングが行われる。
 したがって、入力音声"tolkien"の音声認識結果の表記シンボル列が、"tolkien"である場合と、"toll keene"である場合とでは、音声認識結果にマッチする検索結果対象単語列は大きく異なり、その結果、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、検索結果単語列として出力される一方、入力音声に対応する単語列が、検索結果単語列として出力されないことがある。
 本発明は、このような状況に鑑みてなされたものであり、入力音声に対応する単語列の検索を、ロバストに行い、入力音声に対応する単語列を、検索結果単語列として得ることができるようにするものである。
 本発明の一側面の検索装置、又は、プログラムは、入力音声を音声認識する音声認識部と、前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とのマッチングをとるマッチング部と、前記検索結果対象発音シンボル列と前記認識結果発音シンボル列とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を出力する出力部とを備える検索装置、又は、検索装置として、コンピュータを機能させるためのプログラムである。
 本発明の一側面の検索方法は、入力音声に対応する単語列を検索する検索装置が、前記入力音声を音声認識し、前記入力音声に対応する単語列を検索する対象の複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とのマッチングをとり、前記検索結果対象発音シンボル列と前記認識結果発音シンボル列とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を出力するステップを含む検索方法である。
 以上のような一側面においては、入力音声が音声認識され、前記入力音声に対応する単語列を検索する対象の複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボル(phonetic symbol)の並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とのマッチングがとられる。そして、前記検索結果対象発音シンボル列と前記認識結果発音シンボル列とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列が出力される。
 なお、検索装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
 また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
 本発明の一側面によれば、入力音声に対応する単語列の検索を、ロバストに行うことができる。
本発明を適用した音声検索装置の一実施の形態の第1の構成例を示すブロック図である。 本発明を適用した音声検索装置の一実施の形態の第2の構成例を示すブロック図である。 本発明を適用した音声検索装置の一実施の形態の第3の構成例を示すブロック図である。 本発明を適用した音声検索装置の一実施の形態の第4の構成例を示すブロック図である。 音声検索機能付き情報処理システムとしてのレコーダにおいて、録画番組を再生する処理を説明する図である。 ユーザが、N個の再生候補番組の中から、所望の番組を選択する方法を説明する図である。 音声検索機能付き情報処理システムとしてのレコーダの他の処理を説明する図である。 音声検索機能付き情報処理システムとしての各種の機器が行う処理を説明する図である。 音声検索装置を適用した情報処理システムとしてのレコーダの構成例を示すブロック図である。 音声検索装置を適用した情報処理システムとしてのレコーダの他の構成例を示すブロック図である。 音声認識結果と検索結果対象単語列とのマッチングを、音声認識結果、及び、検索結果対象単語列それぞれの表記シンボルを用い、単語単位で行う場合の処理を示す図である。 音声認識結果と検索結果対象単語列とのマッチングを、音声認識結果、及び、検索結果対象単語列それぞれの表記シンボルを用い、単語単位で行う場合の処理を示す図である。 音声認識結果と検索結果対象単語列とのマッチングを、音声認識結果、及び、検索結果対象単語列それぞれの表記シンボルを用い、単語単位で行う場合と、表記シンボルの1以上の単位で行う場合とを説明する図である。 音声認識結果と検索結果対象単語列とのマッチングを、音声認識結果、及び、検索結果対象単語列それぞれの表記シンボルを用い、単語単位で行う場合と、表記シンボルの1以上の単位で行う場合とを説明する図である。 表記シンボルを用いたマッチングで、表記が異なる音声認識結果に対して異なるマッチング結果が得られることが、音声検索の性能に有利でないことを説明する図である。 表記シンボルを用いたマッチングで、表記が異なる音声認識結果に対して異なるマッチング結果が得られることが、音声検索の性能に有利でないことを説明する図である。 マッチングの単位として、音節2連鎖を採用する場合の、発音シンボル変換部52の処理を説明する図である。 マッチングの単位として、音節2連鎖を採用する場合の、発音シンボル変換部55の処理を説明する図である。 マッチングの単位として、音素2連鎖を採用する場合の、発音シンボル変換部52及び55の処理を説明する図である。 マッチング部56が、音節2連鎖単位で行うマッチングを説明する図である。 マッチング部56が、音素2連鎖単位で行うマッチングを説明する図である。 単語単位でのマッチング、音節単位でのマッチング、及び、音節2連鎖単位でのマッチングの結果を示す図である。 単語単位でのマッチング、音素単位でのマッチング、及び、音素2連鎖単位でのマッチングの結果を示す図である。 検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|と、代用サイズS(i)との関係を示す図である。 音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングのシミュレーションの結果の例を示す図である。 音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングのシミュレーションの結果の例を示す図である。 音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングのシミュレーションの結果の例を示す図である。 音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングのシミュレーションの結果の例を示す図である。 音声認識部51の構成例を示すブロック図である。 検索結果対象記憶部53に記憶される検索結果対象単語列としての番組のメタデータの例を示す図である。 言語モデル生成部85での言語モデルの生成の処理を説明する図である。 言語モデル生成部85でのフィールドごとの言語モデルの生成の処理を説明する図である。 各フィールドの言語モデルを用いて音声認識を行い、フィールドごとの音声認識結果を求め、音声認識結果と検索結果対象単語列とのマッチングを、フィールドごとに行う場合の、音声検索装置50の処理を説明する図である。 出力部57の、総合順位を求める部分の構成例を示すブロック図である。 総合スコア計算部91の構成例を示すブロック図である。 各フィールドの言語モデルを用いて音声認識を行い、すべてのフィールドに亘る総合的な音声認識結果を求め、音声認識結果と検索結果対象単語列とのマッチングを、フィールドごとに行う場合の、音声検索装置50の処理を説明する図である。 各フィールドの言語モデルを用いて音声認識を行い、すべてのフィールドに亘る総合的な音声認識結果を求め、音声認識結果と検索結果対象単語列とのマッチングを、フィールドごとに行う場合の、音声検索装置50の処理を説明する図である。 認識部81が、総合的な音声認識結果を求める場合の、出力部57の、総合順位を求める部分の構成例を示すブロック図である。 出力部57が出力する検索結果単語列の表示画面の例を示す図である。 特定のフレーズを含む入力音声による音声検索の例を示す図である。 特定のフレーズを含む入力音声による音声検索の例を示す図である。 特定のフレーズを含む入力音声による音声検索の例を示す図である。 特定のフレーズを含む入力音声による音声検索の例を示す図である。 検索結果対象ベクトルと、ベクトル代用情報とを示す図である。 検索結果対象ベクトルに代えて、ベクトル代用情報を用いる場合の、音声認識結果と検索結果対象単語列との類似度の計算を説明する図である。 検索結果対象単語列のベクトル代用情報から、逆引きインデクスを作成する方法を説明する図である。 逆引きインデクスを利用して、内積VUTR・VTITLE(i)を計算する方法を説明する図である。 音声検索装置50の処理を説明するフローチャートである。 本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本発明の実施の形態について説明するが、その前に、ボイスサーチによる音声検索の概要について、簡単に説明する。
 [ボイスサーチの概要]
 ボイスサーチでは、音声認識結果と、検索結果対象単語列としてのテキストとのマッチングは、音声認識結果、及び、検索結果対象単語列のそれぞれの表記を表すシンボルである表記シンボルを用い、単語単位や、表記シンボル単位で行われる。
 したがって、音声認識結果の表記シンボルに誤りがあると、マッチングにおいて、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、音声認識結果にマッチし、その結果、そのような、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、検索結果単語列として出力される。
 すなわち、ユーザが、入力音声として、例えば、日本語で、「としのせかい」を発話し、その音声認識結果の表記シンボル列が、例えば、「都市の世界」であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列「都市の世界」を、「都市/の/世界/」(スラッシュ(/)は、区切りを表す)のように、1個ずつの単語に区切って、マッチングが行われ、表記シンボル単位のマッチングでは、音声認識結果の表記シンボル列「都市の世界」を、「都/市/の/世/界」のように、1個ずつの表記シンボルに区切って、マッチングが行われる。
 一方、入力音声「としのせかい」の音声認識結果の表記シンボル列が、例えば、「年の瀬かい」であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列「年の瀬かい」を、 「/年/の/瀬/かい/」のように、1個ずつの単語に区切って、マッチングが行われ、表記シンボル単位のマッチングでは、音声認識結果の表記シンボル列「年の瀬かい」を、「年/の/瀬/か/い」のように、1個ずつの表記シンボルに区切って、マッチングが行われる。
 したがって、入力音声「としのせかい」の音声認識結果の表記シンボル列が、「都市の世界」である場合と、「年の瀬かい」である場合とでは、音声認識結果にマッチする検索結果対象単語列は、大きく異なり、その結果、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、検索結果単語列として出力される一方、入力音声に対応する単語列が、検索結果単語列として出力されないことがある。
 また、ユーザが、入力音声として、例えば、英語で、"tolkien"と発話し、その音声認識結果の表記シンボル列が、例えば、1単語の"tolkien"であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列である1単語"tolkien"をそのまま使って、マッチングが行われ、表記シンボル単位のマッチングでは、音声認識結果の表示シンボル列"tolkien"を、t/o/l/k/i/e/nのように、1個ずつの表記シンボルに区切って、マッチングが行われる。
 一方、入力音声"tolkien"の音声認識結果の表記シンボル列が、例えば、"toll keene"であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列"toll keene"を、toll/keeneのように、1個ずつの単語に区切って、マッチングが行われ、表記シンボル単位単位のマッチングでは、t/o/l/l/k/e/e/n/e のように、1個ずつの表記シンボルであるアルファベット単位に区切って、マッチングが行われる。
 したがって、入力音声"tolkien"の音声認識結果の表記シンボル列が、"tolkien"である場合と、"toll keene"である場合とでは、音声認識結果にマッチする検索結果対象単語列は大きく異なり、その結果、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、検索結果単語列として出力される一方、入力音声に対応する単語列が、検索結果単語列として出力されないことがある。
 以上のように、表記シンボルを用いたマッチングは、音声認識結果との親和性が高くなく、入力音声に対応する単語列が、検索結果単語列として出力されないことがある。
 そこで、本実施の形態では、音声認識結果と、検索結果対象単語列とのマッチングを、音声認識結果、及び、検索結果対象単語列のそれぞれの発音を表すシンボルである発音シンボルを用いて行うことで、入力音声に対応する単語列の検索を、ロバストに行うことができるようにし、これにより、入力音声に対応する単語列が、検索結果単語列として出力されないことを防止する。
 また、ボイスサーチでは、音声認識結果と、検索結果対象単語列とのマッチングにおいて、音声認識結果と、検索結果対象単語列とが類似している度合いを表す類似度が求められる。
 類似度としては、例えば、ベクトル空間法のコサイン距離(cosine distance)等が用いられる。
 ここで、ベクトル空間において、音声認識結果を表すベクトルを、Xと表すとともに、検索結果対象単語列を表すベクトルを、Yと表すこととすると、音声認識結果と、検索結果対象単語列との類似度としてのコサイン距離は、ベクトルXとYとの内積を、ベクトルXの大きさ(ノルム)|X|と、ベクトルYの大きさ|Y|との乗算値で除算することで求められる。
 以上のように、コサイン距離は、内積を、音声認識結果を表すベクトルXの大きさ|X|と検索結果対象単語列を表すベクトルYの大きさ|Y|との乗算値で除算して求められるために、コサイン距離には、音声認識結果と検索結果対象単語列との長さの相違が影響する。
 このため、類似度として、コサイン距離を採用すると、例えば、音声認識結果に含まれるのと同一の単語列を含むが、長さが、音声認識結果より長い検索結果対象単語列と、音声認識結果より短い検索結果対象単語列とでは、音声認識結果より短い検索結果対象単語列との類似度が高くなり(類似し)、音声認識結果より長い検索結果対象単語列との類似度が低くなる(類似していない)傾向が強い。
 したがって、マッチングの結果得られる類似度が高い上位N位以内の検索結果対象単語列を、検索結果単語列として出力する場合に、音声認識結果に含まれるのと同一の単語列を含むが、長さが、音声認識結果より長い検索結果対象単語列の類似度が低くなって、そのような長い検索結果対象単語列が、検索結果単語列として出力されないことが多くなり、入力音声に対応する単語列の検索の精度が劣化する。
 そこで、本実施の形態では、音声認識結果と検索結果対象単語列との長さの相違の影響を軽減するように、コサイン距離を補正した補正距離を、音声認識結果と検索結果対象単語列との類似度として採用することで、入力音声に対応する単語列の検索を、ロバストに行うことができるようにし、これにより、入力音声に対応する単語列の検索の精度の劣化を防止する。
 なお、コサイン距離を、音声認識結果と検索結果対象単語列との長さの相違の影響を軽減するように補正した補正距離を求める方法としては、例えば、コサイン距離を求める際に用いられる、検索結果対象単語列の長さに比例する大きさ|Y|に代えて、比例しない値を用いる方法と、大きさ|Y|を用いない方法とがある。
 次に、ボイスサーチにおいて、検索結果対象単語列となるテキストは、数十万個等の膨大な個数になることがあり、ユーザの発話に対し、その発話(入力音声)に対応する単語列の検索結果である検索結果単語列を、迅速に出力するには、マッチングを高速に行う必要がある。
 そこで、本実施の形態では、逆引きインデクスの利用等によって、マッチングを高速に行う。
 また、ボイスサーチの音声認識では、HMM(Hidden Markov Model)等の音響モデルを用いて、音声認識結果の候補(仮説)である認識仮説の、音声認識結果としての音響的な尤度を表す音響スコアが求められるとともに、N-gram等の言語モデルを用いて、認識仮説の言語的な尤度を表す言語スコアとが求められ、その音響スコア及び言語スコアの両方を考慮して、音声認識結果(となる認識仮説)が求められる。
 ボイスサーチの音声認識において用いられる言語モデルは、例えば、新聞に記載されている単語列を用いて生成される。
 したがって、ユーザが、新聞に記載されている文に出現する頻度が低い単語列(出現しない単語列を含む)を含む検索結果対象単語列(低頻度単語列)を、検索結果単語列として得ようとして、その低頻度単語列の発話を行っても、音声認識において、低頻度単語列について得られる言語スコアが低くなり、正しい音声認識結果を得ることができないことがある。
 そして、正しい音声認識結果が得られない場合には、ボイスサーチにおいて、音声認識の後に行われるマッチングでも、音声認識結果に、入力音声に対応する検索結果単語列(入力音声に適切な検索結果対象単語列)がマッチせず、その、入力音声に対応する検索結果対象単語列が、検索結果単語列として出力されないことがある。
 具体的には、例えば、ボイスサーチを適用したレコーダにおいて、ユーザの発話に対して、EPG(Electronic Program Guide)から、ボイスサーチによって、ユーザが発話したタイトルの番組を検索して、その番組の録画予約を行う場合には、ボイスサーチでは、まず、ユーザが発話した番組のタイトルの音声認識が行われる。
 番組のタイトルには、造語や、メインキャスタの名前(芸名等)、特有の言い回しが使用されていることが多く、したがって、新聞に記載されている記事で、一般に使用されている単語列ではない単語列が含まれることが少なくない。
 このような番組のタイトルの発話の音声認識を、新聞に記載されている単語列を用いて生成された言語モデル(以下、汎用の言語モデルともいう)を用いて行うと、番組のタイトルに一致する認識仮説の言語スコアとして、高い値が得られない。
 その結果、番組のタイトルに一致する認識仮説が、音声認識結果として得られず、音声認識の精度が劣化する。
 そこで、本実施の形態では、入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列、つまり、ボイスサーチにおいて、音声認識結果とのマッチングをとる単語列である検索結果対象単語列を用いて、いわば専用の言語モデルを生成し、その専用の言語モデルを用いて、音声認識を行うことで、音声認識の精度を向上させる。
 すなわち、例えば、上述のように、EPGから、番組のタイトルを検索する場合には、EPGを構成する構成要素(番組のタイトルや、出演者名等)になっている単語列が、音声認識結果とのマッチングをとる検索結果対象単語列となるので、専用の言語モデルは、EPGを構成する構成要素としての検索結果対象単語列を用いて生成される。
 ここで、EPGを構成する構成要素(番組のタイトルや、出演者名等)になっている単語列が、検索結果対象単語列である場合には、検索結果対象単語列は、番組のタイトルや、出演者名等のフィールドに分類されている、ということができる。
 いま、複数のフィールドに分類される単語列が用意されている場合に、各フィールドの単語列を用いて、フィールドごとの言語モデルを生成し、そのフィールドごとの言語モデルを、1つの言語モデルにインターポーレート(interpolate)して、その1つの言語モデルを用いて、音声認識を行うと、異なるフィールドの単語列(の一部ずつ)を並べた認識仮説の言語スコアが高くなることがある。
 すなわち、例えば、上述のように、番組のタイトルや、出演者名等のフィールドに分類されている検索結果対象単語列を用いて生成されたフィールドごとの言語モデルをインターポーレートして得られる1つの言語モデルを用いて音声認識を行うと、ある番組Aのタイトルの一部と、他の番組Bの出演者の出演者名の一部とを並べた単語列が、認識仮説となり、さらに、その認識仮説の言語スコアが高くなることがある。
 しかしながら、番組Aのタイトルの一部と、番組Bの出演者名の一部とを並べた単語列は、検索結果対象単語列である、EPGの構成要素には存在しないので、そのような単語列が、音声認識結果にされ得る、言語スコアが高い認識仮説となることは、好ましくない。
 そこで、本実施の形態では、検索結果対象単語列が、複数のフィールドに分類されている場合(分類することができる場合)には、各フィールドの検索結果対象単語列を用いて、フィールドごとの言語モデル(field dependent language model)を生成し、各フィールドの言語モデルを用いて、音声認識を行う。
 また、例えば、上述のように、番組のタイトルや、出演者名等のフィールドに分類されているEPGの構成要素を、検索結果対象単語列として、ボイスサーチを行う場合には、ユーザが、例えば、番組のタイトルを発話したときであっても、番組のタイトルのフィールドの検索結果対象単語列だけでなく、すべてのフィールドの検索結果対象単語列と、ユーザの発話の音声認識結果とのマッチングが行われ、その音声認識結果にマッチする検索結果対象単語列が、検索結果単語列として出力される。
 したがって、ボイスサーチでは、ユーザがタイトルを発話した番組に無関係な番組、すなわち、例えば、ユーザが発話した番組のタイトルに類似しないタイトルの番組ではあるが、ユーザが発話した番組のタイトルに含まれる単語列に類似する(一致する場合も含む)単語列を、検索結果対象単語列としての詳細情報等に含む番組が、ボイスサーチの結果として得られることがある。
 以上のように、ユーザがタイトルを発話した番組に無関係な番組が、ボイスサーチの結果として得られることは、ユーザに煩わしさを感じさせることがある。
 そこで、本実施の形態では、検索結果対象単語列が、複数のフィールドに分類されている場合には、音声認識結果とのマッチングを、ユーザが希望するフィールド等の所定のフィールドの検索結果対象単語列だけを対象として行うことを可能にする。
 この場合、ユーザは、ある単語列を、タイトルのみに含む番組を検索することや、出演者名のみに含む番組を検索することといった、柔軟な検索を行うことが可能となる。
 また、例えば、ボイスサーチを適用したレコーダ等の機器では、レコーダを制御するコマンドとして定義されている単語列に一致する単語列が発話された場合に、番組のボイスサーチを行うことができないことがある。
 具体的には、ボイスサーチを適用したレコーダが、例えば、ユーザの発話に対し、ボイスサーチによって、ユーザの発話をタイトル等に含む番組を検索する番組検索の機能を有していることとする。
 さらに、レコーダが、番組検索の機能によって検索された1以上の番組のうちの1つの番組を、再生を行う番組として選択することを、ユーザによる発話「選択」に応じて行う音声制御の機能を有していることとする。
 ユーザによる発話「選択」に応じて、番組を選択する音声制御の機能は、ボイスサーチの音声認識において、「選択」を、音声認識結果の対象とし、かつ、レコーダにおいて、音声認識結果として得られる「選択」を、レコーダを制御するコマンドとして解釈することで実現することができる。
 以上のような、ボイスサーチによる番組選択の機能と、音声制御の機能とを有するレコーダによれば、ユーザは、「選択」を発話することで、番組選択の機能によって得られた番組の中から、レコーダに、再生を行う1つの番組を選択させることができる。
 しかしながら、この場合、ユーザは、ボイスサーチによる番組選択の機能によって、番組の検索を行うときに、レコーダを制御するコマンド「選択」に一致する「選択」を発話することができない。
 すなわち、この場合、ユーザが、番組のタイトル等に、「選択」を含む番組を、番組検索の機能によって検索しようとして、「選択」を発話すると、ボイスサーチの音声認識において、レコーダを制御するコマンドとしての「選択」が、音声認識結果として得られる。
 その結果、レコーダでは、ユーザの発話「選択」がコマンドとして解釈され、番組のタイトル等に、「選択」を含む番組の検索が行われない。
 そこで、本実施の形態では、発話に、特定のフレーズを含める等の、ユーザに軽度の負担を許容してもらうことによって、機器を制御するコマンドとして定義されている単語列に一致する単語列が発話された場合であっても、番組のボイスサーチを行う等の、入力音声に対応する単語列の検索を、柔軟に行うことを可能とする。
 [本発明を適用した音声検索装置の一実施の形態]
 図1は、本発明を適用した音声検索装置の一実施の形態の第1の構成例を示すブロック図である。
 図1では、音声検索装置は、音声認識部11、発音シンボル変換部12、検索結果対象記憶部13、形態素解析部14、発音シンボル変換部15、マッチング部16、及び、出力部17を有する。
 音声認識部11には、ユーザの発話である入力音声(のデータ)が、図示せぬマイク等から供給される。
 音声認識部11は、そこに供給される入力音声を音声認識し、音声認識結果(の、例えば、表記シンボル)を、発音シンボル変換部12に供給する。
 発音シンボル変換部12は、音声認識部11から供給される、入力音声の音声認識結果(の、例えば、表記シンボル)を、その音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列に変換し、マッチング部16に供給する。
 検索結果対象記憶部13は、複数の検索結果対象単語列、すなわち、マッチング部16において、音声認識結果とのマッチングが行われ、入力音声に対応する単語列の検索の結果である検索結果単語列となり得る単語列(の、例えば、表記シンボルとしてのテキスト)を記憶する。
 形態素解析部14は、検索結果対象記憶部13に記憶された検索結果対象単語列の形態素解析を行うことで、検索結果対象単語列を、例えば、単語(形態素)単位に分割し、発音シンボル変換部15に供給する。
 発音シンボル変換部15は、形態素解析部14から供給される検索結果対象単語列(の、例えば、表記シンボル)を、その検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列に変換し、マッチング部16に供給する。
 マッチング部16は、発音シンボル変換部12からの認識結果発音シンボル列と、発音シンボル変換部15からの検索結果対象発音シンボル列とのマッチングをとり、そのマッチング結果を、出力部17に供給する。
 すなわち、マッチング部16は、検索結果対象記憶部13に記憶されたすべての検索結果対象単語列それぞれについて、入力音声の音声認識結果とのマッチングを、音声認識結果の発音シンボルと、検索結果対象単語列の発音シンボルとを用いて行う。
 マッチング部16は、検索結果対象記憶部13に記憶されたすべての検索結果対象単語列それぞれについて、入力音声の音声認識結果とのマッチングをとり、そのマッチング結果を、出力部17に供給する。
 出力部17は、マッチング部16からのマッチング結果に基づいて、検索結果対象記憶部13に記憶された検索結果対象単語列の中からの、入力音声に対応する単語列の検索の結果である検索結果単語列を出力する。
 以上のように構成される音声検索装置では、ユーザの発話に応じて、音声検索の処理が行われる。
 すなわち、ユーザが発話を行い、その発話としての入力音声が、音声認識部11に供給されると、音声認識部11は、その入力音声を音声認識し、その入力音声の音声認識結果を、発音シンボル変換部12に供給する。
 発音シンボル変換部12は、音声認識部11からの入力音声の音声認識結果を、認識結果発音シンボル列に変換し、マッチング部16に供給する。
 一方、形態素解析部14は、検索結果対象記憶部13に記憶されたすべての検索結果対象単語列の形態素解析を行い、発音シンボル変換部15に供給する。
 発音シンボル変換部15は、形態素解析部14からの検索結果対象単語列を、検索結果対象発音シンボル列に変換し、マッチング部16に供給する。
 マッチング部16は、検索結果対象記憶部13に記憶されたすべての検索結果対象単語列それぞれについて、発音シンボル変換部12からの認識結果発音シンボル列と、発音シンボル変換部15からの検索結果対象発音シンボル列とを用いて、入力音声の音声認識結果とのマッチングをとり、そのマッチング結果を、出力部17に供給する。
 出力部17では、マッチング部16からのマッチング結果に基づいて、検索結果対象記憶部13に記憶された検索結果対象単語列の中から、入力音声に対応する単語列の検索の結果である検索結果単語列(とする検索結果対象単語列)が選択されて出力される。
 したがって、ユーザは、発話を行うだけで、検索結果対象記憶部13に記憶された検索結果対象単語列の中で、ユーザの発話にマッチする検索結果単語列としての検索結果対象単語列を得ることができる。
 図2は、本発明を適用した音声検索装置の一実施の形態の第2の構成例を示すブロック図である。
 なお、図中、図1の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
 図2の音声検索装置は、音声認識部11、検索結果対象記憶部13、形態素解析部14、マッチング部16、及び、出力部17を有する点で、図1の場合と共通し、発音シンボル変換部12及び15に代えて、発音シンボル変換部21が設けられている点で、図1の場合と相違する。
 図2において、発音シンボル変換部21は、音声認識部11から供給される入力音声の音声認識結果を、認識結果発音シンボル列に変換し、マッチング部16に供給するとともに、形態素解析部14から供給される検索結果対象単語列を、検索結果対象発音シンボル列に変換し、マッチング部16に供給する。
 すなわち、図1では、入力音声の音声認識結果の、認識結果発音シンボル列への変換と、検索結果対象単語列の、検索結果対象発音シンボル列への変換とが、別個の発音シンボル変換部12と15とによって、それぞれ行われるようになっているが、図2では、入力音声の音声認識結果の、認識結果発音シンボル列への変換と、検索結果対象単語列の、検索結果対象発音シンボル列への変換とが、1個の発音シンボル変換部21で、いわば兼用して行われるようになっている。
 したがって、図2の音声検索装置では、入力音声の音声認識結果の、認識結果発音シンボル列への変換と、検索結果対象単語列の、検索結果対象発音シンボル列への変換とが、別個の発音シンボル変換部12と15とによって、それぞれ行われるのではなく、発音シンボル変換部21で行われることを除き、図1の場合と同様の音声検索の処理が行われる。
 図3は、本発明を適用した音声検索装置の一実施の形態の第3の構成例を示すブロック図である。
 なお、図中、図1の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
 図3の音声検索装置は、音声認識部11、発音シンボル変換部12、マッチング部16、及び、出力部17を有する点で、図1の場合と共通し、検索結果対象記憶部13、形態素解析部14、及び、発音シンボル変換部15に代えて、検索結果対象記憶部31が設けられている点で、図1の場合と相違する。
 図3において、検索結果対象記憶部31は、検索結果対象記憶部13に記憶されるのと同一の検索結果対象単語列(の、例えば、表記シンボル)の他、その検索結果対象単語列を発音シンボルに変換した検索結果対象発音シンボル列を記憶する。
 したがって、図3の音声検索装置では、マッチング部16でのマッチングに用いられる検索結果対象発音シンボル列が、検索結果対象記憶部31に記憶されているので、検索結果対象単語列の形態素解析と、検索結果対象発音シンボル列への変換とが行われないことを除き、図1の場合と同様の音声検索の処理が行われる。
 図4は、本発明を適用した音声検索装置の一実施の形態の第4の構成例を示すブロック図である。
 なお、図中、図1又は図3の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
 図4の音声検索装置は、マッチング部16、出力部17、及び、検索結果対象記憶部31を有する点で、図3の場合と共通し、音声認識部11、及び、発音シンボル変換部12に代えて、音声認識部41が設けられている点で、図3の場合と相違する。
 図4において、音声認識部41は、入力音声を音声認識し、その入力音声の音声認識結果の認識結果発音シンボル列を、マッチング部16に供給する。
 すなわち、音声認識部41は、例えば、図3の音声認識部11と、発音シンボル変換部12とを内蔵している。
 したがって、図4の音声検索装置では、音声認識部41が、音声認識結果の、例えば、表記シンボルではなく、認識結果発音シンボル列を出力することを除き、図3の場合と同様の音声検索の処理が行われる。
 [音声検索装置を適用した情報処理システム]
 図1ないし図4の音声検索装置は、各種の情報処理システム(システムとは、複数の装置が論理的に集合した物をいい、各構成の装置が同一筐体中にあるか否かは、問わない)に適用することができる。
 すなわち、図1ないし図4の音声検索装置は、情報処理システムとしての、例えば、番組の録画、及び、再生を行うレコーダに適用することができる。
 図1ないし図4の音声検索装置が適用された情報処理システム(以下、音声検索機能付き情報処理システムともいう)としてのレコーダでは、例えば、録画が行われた番組(録画番組)の中から、ユーザが所望する番組を、音声検索によって検索し、再生することができる。
 すなわち、ユーザが、再生をしようとする番組の音声検索を行うためのキーワードとして、例えば、入力音声「世界遺産」を発話すると、レコーダでは、録画番組のタイトル等を、検索結果対象単語列として、音声検索を行うことにより、タイトルの発音が、入力音声「世界遺産」の発音に類似する番組が、録画番組の中から検索される。
 そして、レコーダでは、音声検索の結果として、タイトルの発音が、入力音声「世界遺産」の発音に類似する、上位N位以内の番組(のタイトル等)が、再生を行う候補の番組(再生候補番組)として、(レコーダが接続されたTV(テレビジョン受像機)等で)表示される。
 その後、ユーザが、N個の再生候補番組の中から、再生を行う番組として、1つの番組を選択すると、レコーダでは、その番組が再生される。
 ここで、ユーザが、N個の再生候補番組の中から、1つの番組を選択する方法としては、例えば、ユーザが、レコーダを遠隔制御するリモートコマンダを操作して、N個の再生候補番組の中から、1つの番組を選択する方法がある。
 また、ユーザが、N個の再生候補番組の中から、1つの番組を選択する方法としては、例えば、N個の再生候補番組の表示が、タッチパネルで行われる場合には、ユーザが、そのタッチパネルを操作して、N個の再生候補番組の中から、1つの番組を選択する方法がる。
 さらに、ユーザが、N個の再生候補番組の中から、1つの番組を選択する方法としては、ユーザが、音声によって、N個の再生候補番組の中から、1つの番組を選択する方法がる。
 すなわち、N個の再生候補番組のうちの、例えば、2番目の再生候補番組のタイトルが、「世界遺産・万里の長城」であり、その2番目の再生候補番組「世界遺産・万里の長城」が、ユーザが再生したい1つの番組である場合には、ユーザは、例えば、再生候補番組の順番である「2番目」や、タイトル「世界遺産・万里の長城」等を発話することによって、その再生候補番組を選択することができる。
 また、音声検索機能付き情報処理システムとしてのレコーダでは、例えば、EPGの番組の中から、ユーザが所望する番組を、音声検索によって検索し、録画予約(や視聴予約)をすることができる。
 すなわち、ユーザが、録画予約をしようとする番組の音声検索を行うためのキーワードとして、例えば、入力音声「世界遺産」を発話すると、レコーダでは、EPGを構成する構成要素としての番組のタイトル等を、検索結果対象単語列として、音声検索を行うことにより、タイトル等の発音が、入力音声「世界遺産」の発音に類似する番組が、EPGから検索される。
 そして、レコーダでは、録画番組の再生を行う場合と同様に、音声検索の結果として、タイトルの発音が、入力音声「世界遺産」の発音に類似する、上位N位以内の番組(のタイトル等)が、録画予約を行う候補の番組(録画候補番組)として表示される。
 その後、ユーザが、N個の録画候補番組の中から、録画予約を行う番組として、1つの番組を選択すると、レコーダでは、その番組の録画予約が行われ、さらに、その録画予約に従って、番組の録画が行われる。
 ここで、ユーザが、N個の録画候補番組の中から、1つの番組を選択する方法としては、上述の録画番組の再生において、N個の再生候補番組の中から、1つの番組を選択する場合と同様の方法を採用することができる。
 なお、図1ないし図4の音声検索装置を適用可能な情報処理システムとしては、上述したレコーダの他、ネットワークで繋がったビデオオンデマンドサイトを通じて、番組(ビデオのコンテンツ)を検索して購入するシステムや、ネットワークで繋がったゲームソフト販売サイトを通じて、ゲームを検索して購入するシステム等がある。
 また、音声検索において、検索結果対象単語列としては、各種の単語列を採用することができる。
 すなわち、例えば、テレビジョン放送の番組を検索する場合には、番組のタイトルや、出演者名、番組の内容を説明する詳細情報の、番組のメタデータ、番組の画像に重畳される字幕(クローズドキャプション)等(の一部、又は、全部)を、検索結果対象単語列として採用することができる。
 また、例えば、楽曲(音楽)を検索する場合には、楽曲のタイトルや、歌詞、アーティスト名等(の一部、又は、全部)を、検索結果対象単語列として採用することができる。
 図5は、音声検索機能付き情報処理システムとしてのレコーダにおいて、録画番組を再生する処理を説明する図である。
 音声検索機能付き情報処理システムとしてのレコーダにおいて、例えば、録画番組の中から、ユーザが所望する番組を、音声検索によって検索し、再生する場合には、ユーザは、再生をしようとする番組の音声検索を行うためのキーワードとしての、例えば、日本語の入力音声「都市の世界遺産」や、英語の入力音声"World Heritage City"を発話する。
 音声検索機能付き情報処理システムとしてのレコーダでは、録画番組のタイトル等を、検索結果対象単語列として、音声検索が行われ、タイトルの発音が、入力音声「都市の世界遺産」や"World Heritage City"の発音に類似する番組が、録画番組の中から検索される。
 そして、音声検索機能付き情報処理システムとしてのレコーダでは、音声検索の結果として、タイトルの発音が、入力音声「都市の世界遺産」や"World Heritage City"の発音に類似する、上位N位以内の番組(のタイトル等)が、再生を行う候補の番組である再生候補番組として表示される。
 図5では、5個の再生候補番組が(音声検索の検索結果として)表示されている。
 再生候補番組の中に、ユーザが所望する番組が存在しない場合には、ユーザは、再生候補番組として、現在表示されている上位N位以内の番組の次の上位N個の番組を、再生候補番組として表示することや、音声検索を行うためのキーワードとして、別のキーワードを用いることを、発話によって要求することができる。
 また、再生候補番組の中に、ユーザが所望する番組が存在する場合には、ユーザは、その所望する番組を選択することができる。
 ユーザが、所望する番組を選択する方法としては、上述したように、タッチパネルを操作する方法や、リモートコマンダを操作する方法、音声によって選択する方法等がある。
 ユーザが、N個の再生候補番組の中から、所望の番組を選択すると、音声検索機能付き情報処理システムとしてのレコーダでは、その番組が再生される。
 図6は、ユーザが、N個の再生候補番組の中から、所望の番組を選択する方法を説明する図である。
 例えば、N個の再生候補番組が、タッチパネルで表示される場合には、ユーザは、そのタッチパネルに表示されたN個の再生候補番組のうちの、所望の番組(の、例えば、タイトル)の表示部分をタッチすることによって、所望の番組を選択することができる。
 また、例えば、N個の再生候補番組が、各再生候補番組を選択的にフォーカスすることができる、リモートコマンダによって移動可能なカーソルとともに表示される場合には、ユーザは、リモートコマンダを操作することにより、所望の番組がフォーカスされるように、カーソルを移動し、さらに、フォーカスされている所望の番組の選択を確定するように、リモートコマンダを操作することで、所望の番組を選択することができる。
 さらに、例えば、N個の再生候補番組が、再生候補番組の順番を表す数字を付加して表示されるとともに、リモートコマンダに、数字を指定することができる数字ボタンが設けられている場合には、ユーザは、リモートコマンダの数字ボタンのうちの、所望の番組に付加されている数字を指定する数字ボタンを操作することで、所望の番組を選択することができる。
 また、ユーザは、N個の再生候補番組のうちの、所望の番組のタイトルを発話することで、所望の番組を選択することができる。
 さらに、例えば、N個の再生候補番組が、再生候補番組の順番を表す数字を付加して表示される場合には、ユーザは、所望の番組に付加されている数字を発話することで、所望の番組を選択することができる。
 図7は、音声検索機能付き情報処理システムとしてのレコーダの他の処理を説明する図である。
 図5では、録画番組からの音声検索の検索結果として、5個等の複数の再生候補番組が表示されるが、図7では、1個だけの再生候補番組が表示される。
 すなわち、ユーザが、再生をしようとする番組の音声検索を行うためのキーワードとしての、例えば、入力音声「都市の世界遺産」を発話すると、音声検索機能付き情報処理システムとしてのレコーダでは、録画番組のタイトル等を、検索結果対象単語列として、音声検索が行われ、タイトルの発音が、入力音声「都市の世界遺産」の発音に類似する番組が、録画番組の中から検索される。
 そして、音声検索機能付き情報処理システムとしてのレコーダでは、音声検索の検索結果として、タイトルの発音が、入力音声「都市の世界遺産」の発音に類似する、最上位の1個の番組(のタイトル等)が、再生候補番組として表示される。
 この場合、ユーザは、音声検索の結果得られた1個の再生候補番組を、再生を行う番組として選択(受理)するか、又は、別の番組を、再生候補番組として表示し直すかを選択することができる。
 例えば、音声検索機能付き情報処理システムとしてのレコーダを遠隔制御するリモートコマンダに、受理を指定する受理ボタンと、別の番組を再生候補番組として表示し直すことを指定する別の番組ボタンとが設けられている場合には、ユーザは、受理ボタン、又は、別の番組ボタンを操作することで、音声検索の結果得られた1個の再生候補番組を、再生を行う番組として選択するか、又は、別の番組を、再生候補番組として表示し直すかを指定することができる。
 また、例えば、ユーザは、受理を指定する音声としての、例えば、「OK」、又は、別の番組を再生候補番組として表示し直すことを指定する音声としての、例えば、「違う」を発話することで、音声検索の結果得られた1個の再生候補番組を、再生を行う番組として選択するか、又は、別の番組を、再生候補番組として表示し直すかを指定することができる。
 音声検索機能付き情報処理システムとしてのレコーダでは、音声検索の結果得られた1個の再生候補番組を、再生を行う番組として選択することが指定された場合、その再生候補番組が再生される。
 また、別の番組を、再生候補番組として表示し直すことが指定された場合、音声検索機能付き情報処理システムとしてのレコーダでは、現在表示されている1個の再生候補番組の次の順位の再生候補番組が表示される。
 図8は、音声検索機能付き情報処理システムとしての各種の機器が行う処理を説明する図である。
 図8のAは、音声検索機能付き情報処理システムとしてのレコーダにおいて、録画予約を行う処理を説明する図である。
 ユーザが、録画予約をしようとする番組の音声検索を行うためのキーワードとしての入力音声を発話すると、レコーダでは、EPGを構成する構成要素としての番組のタイトル等を、検索結果対象単語列として、音声検索を行うことにより、タイトル等の発音が、入力音声の発音に類似する番組が、EPGから検索される。
 そして、レコーダでは、音声検索の結果として、タイトルの発音が、入力音声の発音に類似する、上位N位以内の番組(のタイトル等)が、録画予約を行う候補の番組である録画候補番組として表示される。
 その後、ユーザが、N個の録画候補番組の中から、録画予約を行う番組として、1つの番組を選択すると、レコーダでは、その番組の録画予約が行われ、さらに、その録画予約に従って、番組の録画が行われる。
 図8のBは、音声検索機能付き情報処理システムとしての、番組(ビデオのコンテンツ)を購入する番組購入システムにおいて、番組を購入する処理を説明する図である。
 ユーザが、購入をしようとする番組の音声検索を行うためのキーワードとしての入力音声を発話すると、番組購入システムでは、例えば、インターネット等のネットワークを介して、番組を販売するビデオオンデマンドサイトにアクセスし、そのビデオオンデマンドサイトが販売している番組のタイトル等を、検索結果対象単語列として、音声検索(ビデオオンデマンド検索)を行うことにより、タイトル等の発音が、入力音声の発音に類似する番組が検索される。
 そして、番組購入システムでは、音声検索の結果として、タイトルの発音が、入力音声の発音に類似する、上位N位以内の番組(のタイトル等)が、購入の候補の番組である購入候補番組として表示される。
 その後、ユーザが、N個の購入候補番組の中から、購入する番組として、1つの番組を選択すると、番組購入システムでは、その番組の購入処理、すなわち、ビデオオンデマンドサイトからの番組のダウンロードや、番組の代金の支払いのための課金処理等が行われる。
 図8のCは、音声検索機能付き情報処理システムとしての、楽曲(音楽)を購入する音楽購入システムにおいて、楽曲を購入する処理を説明する図である。
 ユーザが、購入をしようとする楽曲の音声検索を行うためのキーワードとしての入力音声を発話すると、音楽購入システムでは、例えば、インターネット等のネットワークを介して、楽曲を販売する楽曲販売サイトにアクセスし、その楽曲販売サイトが販売している楽曲のタイトル(曲名)等を、検索結果対象単語列として、音声検索を行うことにより、タイトル等の発音が、入力音声の発音に類似する楽曲が検索される。
 そして、音楽購入システムでは、音声検索の結果として、タイトルの発音が、入力音声の発音に類似する、上位N位以内の楽曲(のタイトル等)が、購入の候補の楽曲である購入候補楽曲として表示される。
 その後、ユーザが、N個の購入候補楽曲の中から、購入する楽曲として、1つの楽曲を選択すると、音楽購入システムでは、その楽曲の購入処理が行われる。
 図8のDは、音声検索機能付き情報処理システムとしての、楽曲(音楽)を再生する音楽再生システムにおいて、記録媒体に記録された楽曲を再生する処理を説明する図である。
 ユーザが、再生をしようとする楽曲の音声検索を行うためのキーワードとしての入力音声を発話すると、音楽再生システムでは、記録媒体に記録された楽曲のタイトル(曲名)等を、検索結果対象単語列として、音声検索を行うことにより、タイトル等の発音が、入力音声の発音に類似する楽曲が、記録媒体から検索される。
 そして、音楽再生システムでは、音声検索の結果として、タイトルの発音が、入力音声の発音に類似する、上位N位以内の楽曲(のタイトル等)が、再生を行う候補の楽曲である再生候補楽曲として表示される。
 その後、ユーザが、N個の再生候補楽曲の中から、再生を行う楽曲として、1つの楽曲を選択すると、音楽再生システムでは、その楽曲の再生が行われる。
 図8のEは、音声検索機能付き情報処理システムとしての、ゲームソフト(ソフトウェア)を購入するゲームソフト購入システムにおいて、ゲームソフトを購入する処理を説明する図である。
 ユーザが、購入をしようとするゲームソフトの音声検索を行うためのキーワードとしての入力音声を発話すると、ゲームソフト購入システムでは、例えば、インターネット等のネットワークを介して、ゲームソフトを販売するゲームソフト販売サイトにアクセスし、そのゲームソフト販売サイトが販売しているゲームソフトのタイトル(ゲームタイトル)等を、検索結果対象単語列として、音声検索を行うことにより、タイトル等の発音が、入力音声の発音に類似するゲームソフトが検索される。
 そして、ゲームソフト購入システムでは、音声検索の結果として、タイトルの発音が、入力音声の発音に類似する、上位N位以内のゲームソフト(のタイトル等)が、購入の候補のゲームソフトである購入候補ゲームソフトとして表示される。
 その後、ユーザが、N個の購入候補ゲームソフトの中から、購入するゲームソフトとして、1つのゲームソフトを選択すると、ゲームソフト購入システムでは、そのゲームソフトの購入処理が行われる。
 なお、音声検索は、ビデオオンデマンドサイト(図8のB)や、楽曲販売サイト(図8のC)、ゲームソフト販売サイト(図8のE)等のサイトに接続される情報処理システム側で行うのではなく、サイト側で行うことが可能である。
 また、図1ないし図4の音声検索装置は、上述した情報処理システム以外にも適用可能である。
 すなわち、図1ないし図4の音声検索装置は、例えば、ユーザが歌詞の一部を発話すると、その歌詞を含む楽曲を検索する情報処理システムや、ユーザがセリフの一部を発話すると、そのセリフを含む映画のコンテンツを検索する情報処理システム、ユーザが記述の一部を発話すると、その記述を含む(電子)書籍や雑誌を検索する情報処理システム等に適用することができる。
 [音声検索装置を適用したレコーダの構成例]
 図9は、図1ないし図4の音声検索装置を適用した情報処理システムとしてのレコーダの構成例を示すブロック図である。
 図9において、レコーダは、音声検索装置50、レコーダ機能部60、コマンド判定部71、制御部72、及び、出力I/F(Interface)73を有する。
 音声検索装置50は、図1ないし図4の音声検索装置のうちの、例えば、図1の音声検索装置と同様に構成されている。
 すなわち、音声検索装置50は、音声認識部51、発音シンボル変換部52、検索結果対象記憶部53、形態素解析部54、発音シンボル変換部55、マッチング部56、及び、出力部57を有する。
 音声認識部51ないし出力部57は、図1の音声認識部11ないし出力部17とそれぞれ同様に構成される。
 なお、音声検索装置50は、図1の音声検索装置の他、図2ないし図4の音声検索装置のうちのいずれかと同様に構成することができる。
 レコーダ機能部60は、チューナ61、記録再生部62、及び、記録媒体63を有し、テレビジョン放送の番組の記録(録画)及び再生を行う。
 すなわち、チューナ61には、図示せぬアンテナで受信された、例えば、ディジタル放送によるテレビジョン放送信号が供給される。
 チューナ61は、そこに供給されるテレビジョン放送信号を受信し、そのテレビジョン放送信号から所定のチャンネルのテレビジョン放送信号を抽出して、ビットストリームを復調し、記録再生部62に供給する。
 記録再生部62は、チューナ61から供給されるビットストリームから、EPGや番組のデータ等を抽出し、出力I/F73に供給する。
 また、記録再生部62は、EPGや番組のデータを、記録媒体63に記録(録画)する。
 さらに、記録再生部62は、記録媒体63から、番組のデータを再生し、出力I/F73に供給する。
 記録媒体63は、例えば、HD(Hard Disk)等であり、記録媒体63には、記録再生部62によって、EPGや番組のデータが記録される。
 コマンド判定部71には、音声認識部51から、入力音声の音声認識結果が供給される。
 コマンド判定部71は、音声認識部51からの入力音声の音声認識結果に基づいて、その入力音声が、レコーダを制御するコマンドであるかどうかを判定し、その判定結果を、制御部72に供給する。
 制御部72は、コマンド判定部72からの、入力音声がコマンドであるかどうかの判定結果に基づき、コマンドに従った処理を行い、また、音声検索装置50、及び、レコーダ機能部60等の、レコーダを構成するブロックを制御する。その他、制御部72は、図示せぬリモートコマンダの操作等に従った処理を行う。
 出力I/F73には、記録再生部62から、EPGや番組のデータが供給される。また、出力I/F73には、出力部57から、音声検索装置50での音声検索の結果である検索結果単語列が表示された検索結果表示画面(のデータ)が供給される。
 出力部I/F73は、例えば、TV等の、少なくとも画像を表示することができる表示デバイスと接続されるインタフェースであり、記録再生部62からのEPGや番組のデータ、及び、出力部57からの検索結果表示画面を、出力部I/F73に接続された、例えば、図示せぬTVに供給する。
 以上のように構成される図9のレコーダでは、記録媒体63に記録されたEPGを構成する構成要素である番組のタイトルや、出演者名、詳細情報等が、検索結果対象記憶部53に供給されて記憶される。
 さらに、図9のレコーダでは、記録媒体63に録画(記録)された番組(録画番組)のメタデータである、番組のタイトルや、出演者名、詳細情報等が、検索結果対象記憶部53に供給されて記憶される。
 したがって、図9の音声検索装置50では、番組のタイトルや、出演者名、詳細情報等を、検索結果対象単語列として、音声検索が行われる。
 図10は、図1ないし図4の音声検索装置を適用した情報処理システムとしてのレコーダの他の構成例を示すブロック図である。
 なお、図10において、図9の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
 図10のレコーダは、音声検索装置50が、形態素解析部54を有していないことを除いて、図9のレコーダと同様に構成されている。
 ここで、形態素解析部54を有する図9の音声検索装置50では、例えば、日本語の入力音声を対象として、音声検索を行い、形態素解析部54を有しない図10の音声検索装置50では、形態素解析の必要のない、例えば、英語の入力音声を対象として、音声検索を行う。
 なお、形態素解析部54を有する図9の音声検索装置50において、形態素解析部54を機能させるモードと、機能させない(バイパスさせる)モードとを設けることにより、図9の音声検索装置50では、モードを切り替えることによって、日本語と英語それぞれの入力音声を対象として、音声検索を行うことができる。
 [発音シンボルを用いたマッチング]
 図9及び図10の音声検索装置50の音声検索では、音声認識部51において、入力音声の音声認識が行われ、マッチング部56において、その音声認識結果と、検索結果対象記憶部53に記憶された検索結果対象単語列とのマッチングが行われる。
 図11は、音声認識結果と検索結果対象単語列とのマッチングを、音声認識結果、及び、検索結果対象単語列それぞれの表記シンボルを用い、単語単位で行う場合の処理の例を示す図である。
 図11では、日本語の入力音声「都市の世界遺産自由の女神」に対して、音声認識結果「都市の世界遺産自由の女神」が得られ、その音声認識結果「都市の世界遺産自由の女神」が、「都市/の/世界/遺産/自由/の/女神」のように、単語単位に区切られている。
 そして、単語単位の音声認識結果「都市/の/世界/遺産/自由/の/女神」と、単語単位の検索結果対象単語列としての、例えば、番組のタイトルとのマッチングがとられている。
 図12は、音声認識結果と検索結果対象単語列とのマッチングを、音声認識結果、及び、検索結果対象単語列それぞれの表記シンボルを用い、単語単位で行う場合の処理の他のを示す図である。
 図12では、英語の入力音声"World Heritage City The Statue of Liberty"に対して、音声認識結果"World Heritage City The Statue of Liberty"が得られ、その音声認識結果"World Heritage City The Statue of Liberty"が、"World/Heritage/City/The/Statue/of/Liberty"のように、単語単位に区切られている。
 そして、単語単位の音声認識結果"World/Heritage/City/The/Statue/of/Liberty"と、単語単位の検索結果対象単語列としての、例えば、番組のタイトルとのマッチングがとられている。
 図13及び図14は、音声認識結果と検索結果対象単語列とのマッチングを、音声認識結果、及び、検索結果対象単語列それぞれの表記シンボルを用い、単語単位で行う場合と、表記シンボルの1以上の単位で行う場合とを説明する図である。
 図13では、英語の入力音声"Lime Wire"に対し、音声認識結果"Dime Wired"が得られている。
 入力音声が"Lime Wire"であるので、その入力音声の音声認識結果に最もマッチする検索対象単語列は、入力音声と同一の"Lime Wire"であることが望ましい。
 しかしながら、いまの場合、入力音声"Lime Wire"に対して得られている音声認識結果が"Dime Wired"であるため、音声認識結果"Dime Wired"と、検索対象単語列"Lime Wire"とのマッチングを、表記シンボルを用いて、単語単位で行った場合には、1つの単語もマッチ(一致)しない。
 一方、音声認識結果"Dime Wired"と、検索対象単語列"Lime Wire"とのマッチングを、表記シンボルを用いて、表記シンボルの、例えば、4連鎖単位で行うと、4つの文字列(キャラクタ)がマッチする。
 ここで、図13の表記シンボルの4連鎖単位のマッチングでは、音声認識結果"Dime Wired"の先頭と最後のそれぞれに、発話の最初と最後を表す文字である$を付加した文字列"$Dime Wired$"から、先頭の位置を1表記シンボルずつずらしながら抽出した、連続する4つの表記シンボルとしての文字列(キャラクタ)"$Dim"、"Dime"、"ime_w"、"me_wi"、"e_wir"、"wire"、"ired"、及び、"red$"と、検索対象単語列"Lime Wire"の先頭と最後のそれぞれに、発話の最初と最後を表す文字である$を付加した文字列"$Lime Wire$"から、先頭の位置を1表記シンボルずつずらしながら抽出した、連続する4つの表記シンボルとしての文字列"$Lim"、"Lime"、"ime_w"、"me_wi"、"e_wir"、"wire"、及び、"ire$"とが一致するかどうかが判定されている。なお、文字列"ime_w"等において、アンダーバー(_)は、単語の区切りを表す。
 次に、図14では、英語の入力音声"tolkien"に対し、音声認識結果"toll keene"が得られている。
 入力音声が"tolkien"であるので、その入力音声の音声認識結果に最もマッチする検索対象単語列は、入力音声と同一の"tolkien"であることが望ましい。
 しかしながら、いまの場合、入力音声"tolkien"に対して得られている音声認識結果が"toll keene"であるため、音声認識結果"toll keene"と、検索対象単語列"tolkien"とのマッチングを、表記シンボルを用いて、単語単位で行った場合には、1つの単語もマッチしない。
 一方、音声認識結果"toll keene"と、検索対象単語列"tolkien"とのマッチングを、表記シンボルを用いて、表記シンボルの、例えば、2連鎖単位で行うと、4つの文字列(キャラクタ)がマッチする。
 ここで、図14の表記シンボルの2連鎖単位のマッチングでは、音声認識結果"toll keen"の先頭と最後のそれぞれに、発話の最初と最後を表す文字である$を付加した文字列"$toll keen$"から、先頭の位置を1表記シンボルずつずらしながら抽出した、連続する2つの表記シンボルとしての文字列(キャラクタ)"$t"、"to"、"ol"、"ll"、"l__k"、"__ke"、"ee"、"en"、"ne"、"e$"と、検索対象単語列"tolkien"の先頭と最後のそれぞれに、発話の最初と最後を表す文字である$を付加した文字列"$tolkien$"から、先頭の位置を1表記シンボルずつずらしながら抽出した、連続する2つの表記シンボルとしての文字列"$t"、"to"、"ol"、"lk"、"ki"、"ie"、"en"、"n$"とが一致するかどうかが判定されている。なお、文字列"l_k"等のアンダーバーは、図13で説明したように、単語の区切りを表す。
 以上から、表記シンボルを用いたマッチングでは、単語単位よりも、表記シンボルの1以上の単位の方が、ロバストなマッチングを行うことができる。
 しかしながら、表記シンボルを用いたマッチングでは、入力音声に対応する単語列が、検索結果単語列として出力されないことがある。
 すなわち、表記シンボルは、発音に一致しないことがある。
 具体的には、日本語において、例えば、ひらがな「は」の発音(読み)は、「は」である場合と、「わ」である場合があるが、表記シンボルでは、発音の違いを表現することができない。
 また、日本語において、表記シンボルでは、複数の読みがある漢字、すなわち、例えば、「市」については、その読み(発音)が「し」であるのか、又は、「いち」であるのかを、表現することができない。
 一方、例えば、日本語において、表記シンボルで表された単語列「都市の世界遺産」と「年の瀬解散」とは、発音は一致するが、表記シンボルでは、「の」以外は異なる。
 このため、音声認識結果が、「都市の世界遺産」である場合と、「年の瀬解散」である場合とでは、表記シンボルを用いたマッチングでは、異なるマッチング結果が得られるが、このことは、音声検索の性能に、必ずしも有利ではない。
 すなわち、図15は、日本語について、表記シンボルを用いたマッチングで、発音は一致するか、表記が異なる音声認識結果に対して異なるマッチング結果が得られることが、音声検索の性能に有利でないことを説明する図である。
 図15では、日本語の入力音声「都市の世界遺産」の音声認識が行われ、その入力音声「都市の世界遺産」と発音は一致するが、表記が異なる、誤った音声認識結果「年の瀬解散」が得られている。
 また、図15では、音声認識結果「年の瀬解散」を、「年/の/瀬/解/散」のように、表記シンボル単位に区切って、表記シンボル単位(表記シンボルの1連鎖(1文字)単位)でのマッチングが行われている。
 さらに、図15では、マッチングをとる検索結果対象単語列としての、例えば、番組のタイトルとして、「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」の3つが用意されている。
 音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」とでは、表記シンボル単位では、図中、丸印を付してある1個の表記シンボル「の」しか一致しない。
 また、音声認識結果「年の瀬解散」と、検索結果対象単語列「瀬戸の歯医者さん」とでは、表記シンボル単位では、図中、丸印を付してある2個の表記シンボル「瀬」及び「の」が一致する。
 さらに、音声認識結果「年の瀬解散」と、検索結果対象単語列「衆院解散の年」とでは、表記シンボル単位では、図中、丸印を付してある4個の表記シンボル「解」、「散」、「の」及び「年」が一致する。
 したがって、表記シンボル単位でのマッチングにおいて求められる、音声認識結果と検索結果対象単語列との類似度としては、音声認識結果「年の瀬解散」と、検索結果対象単語列「衆院解散の年」との類似度が、最も高くなる。
 すなわち、表記シンボル単位でのマッチングにおいて求められる類似度として、例えば、コサイン距離を採用することとする。
 また、単語列を表すベクトルとして、例えば、単語列に存在する表記シンボルに対応するコンポーネントを1とするとともに、単語列に存在しない表記シンボルに対応するコンポーネントを0とするベクトルを採用し、2つの単語列の類似度としてのコサイン距離を、その2つの単語列を表すベクトルを用いて求めることとする。
 この場合、表記シンボル単位でのマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」との類似度として、0.15が、音声認識結果「年の瀬解散」と、検索結果対象単語列「瀬戸の歯医者さん」との類似度として、0.32が、音声認識結果「年の瀬解散」と、検索結果対象単語列「衆院解散の年」との類似度として、0.73が、それぞれ求められる。
 したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合には、検索結果対象単語列としての3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、「衆院解散の年」が、検索結果単語列として出力されることになる。
 入力音声「都市の世界遺産」に対しては、上述の3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、1番目の番組のタイトル「世界遺産都市の遺産」が、検索結果単語列として出力されることが適切である。
 しかしながら、入力音声「都市の世界遺産」が、発音(読み)では一致するが、表記が異なる「年の瀬解散」に音声認識されると、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」ではなく、「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列として出力される。
 なお、入力音声「都市の世界遺産」に対して、表記が一致する「都市の世界遺産」が、音声認識結果として得られた場合には、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」との類似度が最上位となり、「世界遺産都市の遺産」が、検索結果単語列として出力される。
 以上のように、音声認識結果が、「都市の世界遺産」である場合と、「年の瀬解散」である場合とでは、表記シンボルを用いたマッチングでは、マッチング結果(音声認識結果と、各検索結果対象単語列との類似度)が異なり、その結果、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」が、検索結果単語列として出力される場合と、そのような適切なタイトルが出力されず、入力音声「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列として出力される場合とがある。
 図16は、英語について、表記シンボルを用いたマッチングで、発音は一致するか、表記が異なる音声認識結果に対して異なるマッチング結果が得られることが、音声検索の性能に有利でないことを説明する図である。
 英語においては、表記シンボル(alphabetic character)が異なるが、発音が一致することがある。
 例えば、表記シンボルで表された単語列"tolkien"と"toll keene"とは、発音は一致するが、表記シンボルは異なる。
 このため、音声認識結果が、"tolkien"である場合と、"toll keene"である場合とでは、表記シンボルを用いたマッチングでは、異なるマッチング結果が得られるが、このことは、音声検索の性能に、必ずしも有利ではない。
 すなわち、図16では、英語の入力音声"tolkien"の音声認識が行われ、その入力音声"tolkien"と発音は一致するが、表記が異なる、誤った音声認識結果"toll keene"が得られている。
 また、図16では、マッチングをとる検索結果対象単語列としての、例えば、番組のタイトルとして、"tolkien"、"tom keene"、及び、"toe clean"の3つが用意されている。
 そして、図16では、表示シンボルを用いたマッチングとして、表記シンボルの単語単位、1連鎖単位(1文字単位)(表記シンボル単位)、及び、2連鎖単位それぞれでのマッチングが行われている。
 いま、表記シンボルを用いたマッチングにおいて求められる類似度として、例えば、図15の場合と同様に、コサイン距離を採用することとすると、検索結果対象単語列としての番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"それぞれの類似度は、以下のようになる。
 すなわち、単語単位では、音声認識結果"toll keene"と、検索結果対象単語列"tolkien"とにおいて、1個の単語も一致しない。
 また、単語単位では、音声認識結果"toll keene"と、検索結果対象単語列"tom keene"とにおいて、図中、丸印を付してある1個の単語が一致する。
 さらに、単語単位では、音声認識結果"toll keene"と、検索結果対象単語列"toe clean"とにおいて、1個の単語も一致しない。
 したがって、表記シンボルを用いた単語単位でのマッチングにおいて求められる、音声認識結果と検索結果対象単語列との類似度としては、音声認識結果"toll keene"と、検索結果対象単語列"tom keene"との類似度が、最も高くなる。
 すなわち、表記シンボルを用いた単語単位(Word)でのマッチングでは、音声認識結果"toll keene"と、検索結果対象単語列"tolkien"との類似度として、0.0が、音声認識結果"toll keene"と、検索結果対象単語列"tom keene"との類似度として、0.5が、音声認識結果"toll keene"と、検索結果対象単語列"toe clean"との類似度として、0.0が、それぞれ求められる。
 したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声"tolkien"の音声認識が誤り、音声認識結果"toll keene"が得られた場合には、検索結果対象単語列としての3つの番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"のうちの、"tom keene"が、検索結果単語列として出力されることになる。
 入力音声"tolkien"に対しては、上述の3つの番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"のうちの、1番目の番組のタイトル"tolkien"が、検索結果単語列として出力されることが適切である。
 しかしながら、入力音声"tolkien"が、発音(読み)では一致するが、表記が異なる"toll keene"に音声認識されると、表記シンボルを用いた単語単位でのマッチングでは、入力音声"tolkien"に対して適切な番組のタイトル"tolkien"ではなく、"tolkien"とはまったく関係がないような番組のタイトル"tom keene"が、検索結果単語列として出力される。
 また、表記シンボル単位(Alphabetic Character)では、音声認識結果"toll keene"と、検索結果対象単語列"tolkien"とにおいて、図中、丸印を付してある6個の表示シンボルが一致する。
 さらに、表記シンボル単位では、音声認識結果"toll keene"と、検索結果対象単語列"tom keene"とにおいて、図中、丸印を付してある7個の表記シンボルが一致する。
 また、表記シンボル単位では、音声認識結果"toll keene"と、検索結果対象単語列"toe clean"とにおいて、図中、丸印を付してある6個の表示シンボルが一致する。
 したがって、表記シンボル単位でのマッチングにおいて求められる、音声認識結果と検索結果対象単語列との類似度としては、音声認識結果"toll keene"と、検索結果対象単語列"tom keene"との類似度が、最も高くなる。
 すなわち、表記シンボル単位でのマッチングでは、音声認識結果"toll keene"と、検索結果対象単語列"tolkien"との類似度として、0.76が、音声認識結果"toll keene"と、検索結果対象単語列"tom keene"との類似度として、0.83が、音声認識結果"toll keene"と、検索結果対象単語列"toe clean"との類似度として、0.71が、それぞれ求められる。
 したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声"tolkien"の音声認識が誤り、音声認識結果"toll keene"が得られた場合には、検索結果対象単語列としての3つの番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"のうちの、"tom keene"が、検索結果単語列として出力されることになる。
 入力音声"tolkien"に対しては、上述の3つの番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"のうちの、1番目の番組のタイトル"tolkien"が、検索結果単語列として出力されることが適切である。
 しかしながら、入力音声"tolkien"が、発音(読み)では一致するが、表記が異なる"toll keene"に音声認識されると、表記シンボル単位でのマッチングでは、上述の単語単位でのマッチングと同様に、入力音声"tolkien"に対して適切な番組のタイトル"tolkien"ではなく、"tolkien"とはまったく関係がないような番組のタイトル"tom keene"が、検索結果単語列として出力される。
 また、表記シンボルの2連鎖単位(Alphabetic Bigram)では、音声認識結果"toll keene"と、検索結果対象単語列"tolkien"とにおいて、図中、丸印を付してある4個の表示シンボルの2連鎖が一致する。
 さらに、表記シンボルの2連鎖単位では、音声認識結果"toll keene"と、検索結果対象単語列"tom keene"とにおいて、図中、丸印を付してある5個の表記シンボルの2連鎖が一致する。
 また、表記シンボルの2連鎖単位では、音声認識結果"toll keene"と、検索結果対象単語列"toe clean"とにおいて、図中、丸印を付してある1個の表示シンボルの2連鎖が一致する。
 したがって、表記シンボルの2連鎖単位でのマッチングにおいて求められる、音声認識結果と検索結果対象単語列との類似度としては、音声認識結果"toll keene"と、検索結果対象単語列"tom keene"との類似度が、最も高くなる。
 すなわち、表記シンボルの2連鎖単位でのマッチングでは、音声認識結果"toll keene"と、検索結果対象単語列"tolkien"との類似度として、0.58が、音声認識結果"toll keene"と、検索結果対象単語列"tom keene"との類似度として、0.67が、音声認識結果"toll keene"と、検索結果対象単語列"toe clean"との類似度として、0.13が、それぞれ求められる。
 したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声"tolkien"の音声認識が誤り、音声認識結果"toll keene"が得られた場合には、検索結果対象単語列としての3つの番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"のうちの、"tom keene"が、検索結果単語列として出力されることになる。
 入力音声"tolkien"に対しては、上述の3つの番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"のうちの、1番目の番組のタイトル"tolkien"が、検索結果単語列として出力されることが適切である。
 しかしながら、入力音声"tolkien"が、発音(読み)では一致するが、表記が異なる"toll keene"に音声認識されると、表記シンボルの2連鎖単位でのマッチングでは、上述の単語単位や表記シンボル単位でのマッチングと同様に、入力音声"tolkien"に対して適切な番組のタイトル"tolkien"ではなく、"tolkien"とはまったく関係がないような番組のタイトル"tom keene"が、検索結果単語列として出力される。
 なお、入力音声"tolkien"に対して、表記が一致する"tolkien"が、音声認識結果として得られた場合には、単語単位、表記シンボル単位、及び、表記シンボルの2連鎖単位のいずれのマッチングでも、入力音声"tolkien"に対して適切な番組のタイトル"tolkien"との類似度が最上位となり、"tolkien"が、検索結果単語列として出力される。
 以上のように、音声認識結果が、"tolkien"である場合と、"toll keene"である場合とでは、表記シンボルを用いたマッチングでは、マッチング結果(音声認識結果と、各検索結果対象単語列との類似度)が異なり、その結果、入力音声"tolkien"に対して適切な番組のタイトル"tolkien"が、検索結果単語列として出力される場合と、そのような適切なタイトルが出力されず、入力音声"tolkien"とはまったく関係がないような番組のタイトル"tom keene"が、検索結果単語列として出力される場合とがある。
 そこで、音声検索装置50(図9及び図10)のマッチング部56では、入力音声に対して適切な番組のタイトルが、検索結果単語列として出力されないことを防止するため、発音シンボルを用いたマッチングが行われる。
 ここで、発音シンボルは、例えば、音節、又は、音素の発音を表すシンボルであり、日本語については、例えば、読みを表すひらがなを採用することができる。
 発音シンボルを用いたマッチングでは、マッチングの単位として、音節(の1つ)や、音節の2以上の連鎖、音素(の1つ)、音素の2以上の連鎖等を採用することができる。
 なお、発音シンボルを用いたマッチングにおいて、どのようなマッチングの単位を採用するかによって、マッチング結果、ひいては、音声検索の性能は異なる。
 図17は、音声認識部51において、日本語の入力音声の音声認識が行われ、かつ、マッチング部56(図9)でのマッチングの単位として、音節2連鎖(連続する2つの音節)を採用する場合の、図9の発音シンボル変換部52の処理を説明する図である。
 発音シンボル変換部52には、音声認識部51から、日本語の入力音声の音声認識結果(の、例えば、表記シンボル)が供給される。
 発音シンボル変換部52は、音声認識部51から供給される音声認識結果を、音節の並びに変換する。
 さらに、発音シンボル変換部52は、音声認識結果の音節の並びの先頭から、注目する注目音節を、後方に、1音節ずつずらしていきながら、注目音節と、その注目音節の直後の音節との2つの音節である音節2連鎖を抽出し、その音節2連鎖の並びを、認識結果発音シンボル列として、マッチング部56(図9)に供給する。
 図18は、マッチング部56(図9)でのマッチングの単位として、音節2連鎖を採用する場合の、図9の発音シンボル変換部55の処理を説明する図である。
 発音シンボル変換部55には、検索結果対象記憶部53に記憶された検索結果対象単語列としての、番組のタイトル等が、形態素解析部54で形態素解析されて供給される。
 発音シンボル変換部55は、形態素解析部54から供給される検索結果対象単語列を、音節の並びに変換する。
 さらに、発音シンボル変換部55は、検索結果対象単語列の音節の並びの先頭から、注目する注目音節を、後方に、1音節ずつずらしていきながら、注目音節と、その注目音節の直後の音節との2つの音節である音節2連鎖を抽出し、その音節2連鎖の並びを、検索結果対象発音シンボル列として、マッチング部56(図9)に供給する。
 図19は、音声認識部51において、英語の入力音声の音声認識が行われ、かつ、マッチング部56(図10)でのマッチングの単位として、音素2連鎖(連続する2つの音素)を採用する場合の、図10の発音シンボル変換部52及び55の処理を説明する図である。
 発音シンボル変換部52には、音声認識部51から、英語の入力音声の音声認識結果(の、例えば、表記シンボル)が供給される。
 また、発音シンボル変換部55には、検索結果対象記憶部53に記憶された検索結果対象単語列としての、番組のタイトル等が供給される。
 発音シンボル変換部52は、音声認識部51から供給される音声認識結果(の各単語)を、音素(音素を表す発音シンボル)の並びに変換する。そして、発音シンボル変換部52は、音声認識結果の音素の並びの先頭から、注目する注目音素を、後方に、1音素ずつずらしていきながら、注目音素と、その注目音素の直後の音素との2つの音素である音素2連鎖を抽出し、その音素2連鎖の並びを、認識結果発音シンボル列として、マッチング部56(図10)に供給する。
 同様に、発音シンボル変換部55は、検索結果対象記憶部53から供給される検索結果対象単語列を、音素の並びに変換する。そして、発音シンボル変換部55は、検索結果対象単語列の音素の並びの先頭から、注目する注目音素を、後方に、1音素ずつずらしていきながら、注目音素と、その注目音素の直後の音素との2つの音素である音素2連鎖を抽出し、その音素2連鎖の並びを、認識結果発音シンボル列として、マッチング部56(図10)に供給する。
 ここで、図19において、スラッシュ(/)で区切られた文字は、発音シンボルとしての音素を表し、国際音声学会が定める音声記号であるIPA(International Phonetic Alphabet)である。後述する図21及び図23でも、同様である。
 図20は、図9のマッチング部56が、音節2連鎖の単位でマッチングを行う場合の、そのマッチングを説明する図である。
 例えば、音声認識部51において、日本語の入力音声の音声認識が行われる場合、マッチング部56では、例えば、音節2連鎖の単位でのマッチングが行われる。
 そして、マッチング部56が、認識結果発音シンボル列と、検索結果対象発音シンボル列との、音節2連鎖の単位でのマッチングとして、認識結果発音シンボル列と、検索結果対象発音シンボル列との類似度としての、例えば、コサイン距離を求める場合、マッチング部56は、認識結果発音シンボル列を構成する音節2連鎖に基づいて、認識結果発音シンボル列を表すベクトルである認識結果ベクトルを求める。
 すなわち、マッチング部56は、例えば、認識結果発音シンボル列に存在する音節2連鎖に対応するコンポーネントを1とするとともに、認識結果発音シンボル列に存在しない音節2連鎖に対応するコンポーネントを0とするベクトルを、認識結果発音シンボル列を表す認識結果ベクトルとして求める。
 さらに、マッチング部56は、検索結果対象記憶部53に記憶された各検索結果対象単語列としての、例えば、番組のタイトル等についても、同様に、検索結果対象単語列の検索結果対象発音シンボル列を構成する音節2連鎖に基づいて、検索結果対象発音シンボル列を表すベクトルである検索結果対象ベクトルを求める。
 そして、マッチング部56は、認識結果ベクトルと、検索結果対象ベクトルとの内積を、認識結果ベクトルの大きさと検索結果対象ベクトルの大きさとの乗算値で除算した値であるコサイン距離を、音声認識結果と、検索結果対象ベクトルに対応する検索結果対象単語列との類似度として求める、音節2連鎖の単位でのマッチングを行う。
 図21は、図10のマッチング部56が、音素2連鎖の単位でマッチングを行う場合の、そのマッチングを説明する図である。
 例えば、音声認識部51において、英語の入力音声の音声認識が行われる場合、マッチング部56では、例えば、音素2連鎖の単位でのマッチングが行われる。
 そして、マッチング部56が、認識結果発音シンボル列と、検索結果対象発音シンボル列との、音素2連鎖の単位でのマッチングとして、認識結果発音シンボル列と、検索結果対象発音シンボル列との類似度としての、例えば、コサイン距離を求める場合、マッチング部56は、認識結果発音シンボル列を構成する音素2連鎖に基づいて、認識結果発音シンボル列を表すベクトルである認識結果ベクトルを求める。
 すなわち、マッチング部56は、例えば、認識結果発音シンボル列に存在する音素2連鎖に対応するコンポーネントを1とするとともに、認識結果発音シンボル列に存在しない音素2連鎖に対応するコンポーネントを0とするベクトルを、認識結果発音シンボル列を表す認識結果ベクトルとして求める。
 さらに、マッチング部56は、検索結果対象記憶部53に記憶された各検索結果対象単語列としての、例えば、番組のタイトル等についても、同様に、検索結果対象単語列の検索結果対象発音シンボル列を構成する音素2連鎖に基づいて、検索結果対象発音シンボル列を表すベクトルである検索結果対象ベクトルを求める。
 そして、マッチング部56は、認識結果ベクトルと、検索結果対象ベクトルとの内積を、認識結果ベクトルの大きさと検索結果対象ベクトルの大きさとの乗算値で除算した値であるコサイン距離を、音声認識結果と、検索結果対象ベクトルに対応する検索結果対象単語列との類似度として求める、音素2連鎖の単位でのマッチングを行う。
 図22は、日本語についての、単語単位でのマッチング、(1つの)音節単位でのマッチング、及び、音節2連鎖単位でのマッチングの結果を示す図である。
 なお、図22では、図15と同様に、日本語の入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られており、検索結果対象単語列としての、例えば、番組のタイトルとして、「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」の3つが用意されている。
 また、図22では、表記シンボルを用いての、単語単位でのマッチング、発音シンボルを用いての、音節単位でのマッチング、及び、発音シンボルを用いての、音節2連鎖単位でのマッチングが行われている。
 さらに、図22では、音声認識結果「年の瀬解散」の単語又は発音シンボル(音節)と一致する、検索結果対象単語列の単語又は発音シンボルには、丸印を付してある。
 単語単位でのマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」それぞれとの類似度(コサイン距離)として、それぞれ、0.22,0.25、及び、0.75が求められる。
 したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合には、表記シンボルを用いての、単語単位でのマッチングでは、検索結果対象単語列としての3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、音声認識結果「年の瀬解散」との類似度が0.75で最上位の検索結果対象単語列「衆院解散の年」が、検索結果単語列として出力されることになる。
 入力音声「都市の世界遺産」に対しては、上述の3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、1番目の番組のタイトル「世界遺産都市の遺産」が、検索結果単語列として出力されることが適切である。
 しかしながら、入力音声「都市の世界遺産」が、発音(読み)では一致するが、表記が異なる「年の瀬解散」に音声認識されると、表記シンボルを用いての、単語単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」ではなく、「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列として出力される。
 なお、表記シンボルを用いてのマッチングを、単語単位ではなく、表記シンボル単位で行った場合も、図15で説明したように、入力音声「都市の世界遺産」の誤った音声認識結果「年の瀬解散」に対して、入力音声「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列として出力される。
 発音シンボルを用いての、音節単位のマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」それぞれとの類似度として、それぞれ、0.82,1.0、及び、0.75が求められる。
 したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合には、発音シンボルを用いての、音節単位でのマッチングでは、検索結果対象単語列としての3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、音声認識結果「年の瀬解散」との類似度が1.0で最上位の検索結果対象単語列「瀬戸の歯科医さん」が、検索結果単語列として出力される。
 すなわち、入力音声「都市の世界遺産」が、発音では一致するが、表記が異なる「年の瀬解散」に音声認識されると、発音シンボルを用いての、音節単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」ではなく、「都市の世界遺産」とはまったく関係がないような番組のタイトル「瀬戸の歯科医さん」が、検索結果単語列として出力される。
 なお、表記シンボルを用いての、単語単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」の類似度が、3つの検索結果対象単語列の中で、第3位(最下位)の値である0.22になっているが、発音シンボルを用いての、音節単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」の類似度が、3つの検索結果対象単語列の中で、第2位の値である0.82になっている。
 したがって、発音シンボルを用いての、音節単位でのマッチングは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」の類似度が、表示シンボルを用いての、単語単位でのマッチングの場合よりも上位である点で、表示シンボルを用いての、単語単位でのマッチングより有効であるということができる。
 発音シンボルを用いての、音節2連鎖単位のマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」それぞれとの類似度として、それぞれ、0.68,0.43、及び、0.48が求められる。
 したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合であっても、発音シンボルを用いての、音節2連鎖単位でのマッチングでは、検索結果対象単語列としての3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、音声認識結果「年の瀬解散」との類似度が0.68で最上位の検索結果対象単語列、すなわち、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」が、検索結果単語列として出力される。
 図23は、英語についての、単語単位でのマッチング、(1つの)音素単位でのマッチング、及び、音素2連鎖単位でのマッチングの結果を示す図である。
 なお、図23では、図16と同様に、英語の入力音声"tolkien"に対して、誤った音声認識結果"toll keene"が得られており、検索結果対象単語列としての、例えば、番組のタイトルとして、"tolkien"、"tom keene"、及び、"toe clean"の3つが用意されている。
 また、図23では、表記シンボルを用いての、単語単位でのマッチング、発音シンボルを用いての、音素単位でのマッチング、及び、発音シンボルを用いての、音素2連鎖単位でのマッチングが行われている。
 さらに、図23では、音声認識結果"toll keene"の単語又は発音シンボル(音素)と一致する、検索結果対象単語列の単語又は発音シンボルには、丸印を付してある。
 単語単位でのマッチングでは、音声認識結果"toll keene"と、検索結果対象単語列"tolkien"、"tom keene"、及び、"toe clean"それぞれとの類似度(コサイン距離)として、それぞれ、0.0,0.5、及び、0.0が求められる。
 したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声"tolkien"の音声認識が誤り、音声認識結果"toll keene"が得られた場合には、表記シンボルを用いての、単語単位でのマッチングでは、検索結果対象単語列としての3つの番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"のうちの、音声認識結果"toll keene"との類似度が0.5で最上位の検索結果対象単語列"tom keene"が、検索結果単語列として出力されることになる。
 入力音声"tolkien"に対しては、上述の3つの番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"のうちの、1番目の番組のタイトル"tolkien"が、検索結果単語列として出力されることが適切である。
 しかしながら、入力音声"tolkien"が、発音(読み)では一致するが、表記が異なる"toll keene"に音声認識されると、表記シンボルを用いての、単語単位でのマッチングでは、入力音声"tolkien"に対して適切な番組のタイトル"tolkien"ではなく、"tolkien"とはまったく関係がないような番組のタイトル"tom keene"が、検索結果単語列として出力される。
 なお、表記シンボルを用いてのマッチングを、単語単位ではなく、表記シンボル単位で行った場合も、図16で説明したように、入力音声"tolkien"の誤った音声認識結果"toll keene"に対して、入力音声"tolkien"とはまったく関係がないような番組のタイトル" tom keene"が、検索結果単語列として出力される。
 発音シンボルを用いての、音素単位のマッチングでは、音声認識結果"toll keene"と、検索結果対象単語列"tolkien"、"tom keene"、及び、"toe clean"それぞれとの類似度として、それぞれ、1.0,0.46、及び、1.0が求められる。
 したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声"tolkien"の音声認識が誤り、音声認識結果"toll keene"が得られた場合には、発音シンボルを用いての、音素単位でのマッチングでは、検索結果対象単語列としての3つの番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"のうちの、音声認識結果"toll keene"との類似度が1.0で最上位の検索結果対象単語列"tolkien"、及び、"toe clean"が、検索結果単語列として出力される。
 すなわち、入力音声"tolkien"が、発音では一致するが、表記が異なる"toll keene"に音声認識されると、発音シンボルを用いての、音素単位でのマッチングでは、入力音声"tolkien"に対して適切な番組のタイトル"tolkien"とはまったく関係がないような番組のタイトル"tom keene"が、検索結果単語列として出力されるが、入力音声"tolkien"に対して適切な番組のタイトル"tolkien"も、検索結果単語列として出力される。
 以上のように、発音シンボルを用いての、音素単位でのマッチングでは、入力音声"tolkien"が、発音では一致するが、表記が異なる"toll keene"に音声認識された場合であっても、入力音声"tolkien"に対して適切な番組のタイトル"tolkien"も、検索結果単語列として出力される。
 発音シンボルを用いての、音素2連鎖単位のマッチングでは、音声認識結果"toll keene"と、検索結果対象単語列"tolkien"、"tom keene"、及び、"toe clean"それぞれとの類似度として、それぞれ、1.0,0.37、及び、0.5が求められる。
 したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声"tolkien"の音声認識が誤り、音声認識結果"toll keene"が得られた場合であっても、発音シンボルを用いての、音素2連鎖単位でのマッチングでは、検索結果対象単語列としての3つの番組のタイトル"tolkien"、"tom keene"、及び、"toe clean"のうちの、音声認識結果"toll keene"との類似度が1.0で最上位の検索結果対象単語列、すなわち、入力音声"tolkien"に対して適切な番組のタイトル"tolkien"が、検索結果単語列として出力される。
 以上のように、発音シンボルを用いてのマッチングによれば、表記シンボルを用いてのマッチングを行う場合に比較して、入力音声に対応する単語列の検索を、ロバストに行うことができる。
 すなわち、発音シンボルを用いてのマッチングによれば、音声認識が誤った場合でも、入力音声に対応する単語列が、検索結果単語列として出力されないことを防止(低減)することができる。
 [コサイン距離を補正した補正距離]
 マッチング部56(図9及び図10)において、音声認識結果(の認識結果発音シンボル列)と、検索結果対象単語列(の検索結果対象発音シンボル列)との類似度として、コサイン距離を採用する場合、例えば、上述したように、認識結果発音シンボル列に存在する音節(2連鎖)に対応するコンポーネントを1とするとともに、認識結果発音シンボル列に存在しない音節に対応するコンポーネントを0とするベクトルが、認識結果発音シンボル列を表す認識結果ベクトルとして求められる。
 さらに、マッチング部56では、同様にして、検索結果対象単語列の検索結果対象発音シンボル列を表す検索結果対象ベクトルが求められる。
 ここで、本実施の形態では、認識結果ベクトルのコンポーネントの値を、そのコンポーネントに対応する音節が、認識結果発音シンボル列に存在するかどうかで、1又は0とすることとするが、認識結果ベクトルのコンポーネントの値としては、そのコンポーネントに対応する音節が、認識結果発音シンボル列に出現する頻度であるtf(Term Frequency)を採用することが可能である。
 また、認識結果ベクトルのコンポーネントの値としては、その他、例えば、ある検索結果対象単語列には偏って出現する音節に対しては大になり、多くの検索結果対象単語列に万遍なく出現する音節に対しては小になるidf(Invert Document Frequency)や、tfとidfとの両方を加味したTF-IDFを採用することができる。
 検索結果対象ベクトルについても、同様である。
 いま、認識結果ベクトルを、VUTRと表すとともに、検索結果対象記憶部53(図9及び図10)に記憶されたi番目の検索結果対象単語列の検索結果対象ベクトルを、VTITLE(i)と表すこととすると、音声認識結果と、i番目の検索結果対象単語列との類似度としてのコサイン距離Dは、式(1)に従って計算される。
   D=VUTR・VTITLE(i)/(|VUTR||VTITLE(i)|)
                        ・・・(1)
 式(1)において、・は、内積を表し、|x|は、ベクトルxの大きさ(ノルム)を表す。したがって、コサイン距離Dは、認識結果ベクトルVUTRと、検索結果対象ベクトルVTITLE(i)との内積VUTR・VTITLE(i)を、認識結果ベクトルVUTRの大きさ|VUTR|と検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|との乗算値|VUTR||VTITLE(i)|で除算することにより求めることができる。
 コサイン距離Dは、0.0ないし1.0の範囲の値をとり、値が大きいほど、認識結果ベクトルVUTRが表す認識結果発音シンボル列と、検索結果対象ベクトルVTITLE(i)が表す検索結果対象発音シンボル列とが類似していることを表す。
 上述したように、コサイン距離Dは、認識結果ベクトルVUTRと、検索結果対象ベクトルVTITLE(i)との内積VUTR・VTITLE(i)を、認識結果ベクトルVUTRの大きさ|VUTR|と検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|との乗算値で除算することにより求められるため、コサイン距離Dには、音声認識結果と検索結果対象単語列との長さの相違が影響する。
 ここで、音声認識結果、及び、検索結果対象単語列の長さとは、音声認識結果と検索結果対象単語列とのマッチング、つまり、類似度としてのコサイン距離Dの計算を、表記シンボルを用いて、表記シンボル単位で行う場合には、音声認識結果、及び、検索結果対象単語列の表記シンボルの個数を、類似度の計算を、表記シンボルを用いて、単語単位で行う場合には、音声認識結果、及び、検索結果対象単語列の単語の個数を、類似度の計算を、発音シンボルを用いて、音韻単位で行う場合には、音声認識結果、及び、検索結果対象単語列の音韻の個数を、類似度の計算を、発音シンボルを用いて、音韻2連鎖単位で行う場合には、音声認識結果、及び、検索結果対象単語列の音韻2連鎖の個数を、類似度の計算を、発音シンボルを用いて、音素単位で行う場合には、音声認識結果、及び、検索結果対象単語列の音素の個数を、類似度の計算を、発音シンボルを用いて、音素2連鎖単位で行う場合には、音声認識結果、及び、検索結果対象単語列の音素2連鎖の個数を、それぞれ意味する。
 いま、説明を簡単にするために、音声認識結果と検索結果対象単語列とのマッチングとしてのコサイン距離Dの計算を、表記シンボルを用いて、単語単位で行うこととすると、類似度としての式(1)のコサイン距離Dの演算は、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|による除算を含むため、例えば、音声認識結果と同一の単語列を含むが、長さ(ここでは、単語の個数)が、長い検索結果対象単語列と、短い検索結果対象単語列とでは、短い検索結果対象単語列との類似度は高くなり(コサイン距離Dが大になり)、長い検索結果対象単語列との類似度は低くなる(コサイン距離Dが小になる)傾向が強い。
 したがって、長さが長い検索結果対象単語列の一部が、音声認識結果として得られても、その音声認識結果と、長さが長い検索結果対象単語列との類似度が、上位にならず、そのような検索結果対象単語列が、検索結果単語列として出力されないために、入力音声に対応する単語列の検索の精度が劣化することがある。
 つまり、例えば、長いタイトルの一部が発話された場合に、その長いタイトルの類似度が、上位にならず、その長いタイトルが、検索結果単語列として出力されないことがある。
 また、同様の理由により、所定の検索結果対象単語列と同一の単語列を含むが、長さが、長い音声認識結果と、短い音声認識結果とでは、長い音声認識結果と所定の検索結果対象単語列との類似度は、低くなり、短い音声認識結果と所定の検索結果対象単語列との類似度は、高くなる傾向が強い。
 したがって、所定の検索結果対象単語列と同一の単語列を含むが、長さが長い音声認識結果については、その所定の検索結果対象単語列の類似度は、上位にならず、その所定の検索結果対象単語列が、検索結果単語列として出力されないために、入力音声に対応する単語列の検索の精度が劣化することがある。
 つまり、例えば、短いタイトルを含む長い発話がされた場合に、その短いタイトルの類似度が、上位にならず、その短いタイトルが、検索結果単語列として出力されないことがある。
 そこで、マッチング部56(図9及び図10)では、音声認識結果と検索結果対象単語列との長さの相違の影響を軽減するように、コサイン距離Dを補正した補正距離を、音声認識結果と検索結果対象単語列との類似度として採用することができる。
 音声認識結果と検索結果対象単語列との類似度として、補正距離を採用する場合には、上述の音声認識結果と長い検索結果対象単語列との類似度、及び、長い音声認識結果と検索結果対象単語列との類似度が低くなることが防止され、その結果、入力音声に対応する単語列の検索を、ロバストに行うことができ、入力音声に対応する単語列の検索の精度の劣化を防止することができる。
 補正距離としては、第1の補正距離と、第2の補正距離とがある。
 第1の補正距離は、コサイン距離Dを求める式(1)の演算において、検索結果対象単語列の長さに比例する、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|に代えて、検索結果対象単語列の長さに比例しない値|VUTR|×√(|VTITLE(i)|/|VUTR|)、すなわち、認識結果ベクトルVUTRの大きさ|VUTR|と検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|との乗算値の平方根√(|VTITLE(i)||VUTR|)を用いて求められる。
 ここで、コサイン距離Dを求める式(1)の演算において、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|に代えて用いる値を、以下、代用サイズS(i)ともいう。
 第1の補正距離D1は、式(2)に従って求められる。
   D1=VUTR・VTITLE(i)/(|VUTR|S(i))
    =VUTR・VTITLE(i)/(|VUTR||VUTR|×√(|VTITLE(i)|/|VUTR|))
    =VUTR・VTITLE(i)/(|VUTR|√(|VTITLE(i)||VUTR|))
                        ・・・(2)
 図24は、代用サイズS(i)として、認識結果ベクトルVUTRの大きさ|VUTR|と検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|との乗算値の平方根√(|VTITLE(i)||VUTR|)を用いる場合の、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|と、代用サイズS(i)との関係を示す図である。
 なお、図24では、認識結果ベクトルVUTRの大きさ|VUTR|を、5としてある。
 また、図24では、代用サイズS(i)として、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|を用いる場合、つまり、式(1)のコサイン距離Dの演算において、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|をそのまま用いる場合の、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|と、代用サイズS(i)との関係も示してある。
 認識結果ベクトルVUTRの大きさ|VUTR|と検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|との乗算値の平方根√(|VTITLE(i)||VUTR|)は、|VTITLE(i)|が小さい場合、つまり、検索結果対象単語列の長さが短い場合には、|VTITLE(i)|より大になり、|VTITLE(i)|が大きい場合、つまり、検索結果対象単語列の長さが長い場合には、|VTITLE(i)|より小になる。
 その結果、式(2)に従って求められる第1の補正距離D1は、式(1)に従って求められるコサイン距離Dに比較して、音声認識結果の長さに対する検索結果対象単語列の長さとしての、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|の違いの影響が少ない値、すなわち、音声認識結果と検索結果対象単語列との長さの相違の影響が軽減された値となる。
 第2の補正距離は、コサイン距離Dを求める式(1)の演算において、検索結果対象単語列の長さに比例する、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|に代えて、認識結果ベクトルVUTRの大きさ|VUTR|を、代用サイズS(i)として用いて求められる。
 したがって、第2の補正距離D2は、式(3)に従って求められる。
   D2=VUTR・VTITLE(i)/(|VUTR|S(i))
    =VUTR・VTITLE(i)/|VUTR|2
                        ・・・(3)
 第2の補正距離D2は、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|を用いずに求められるので、音声認識結果の長さに対する検索結果対象単語列の長さとしての、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|の違いの影響がない値、すなわち、音声認識結果と検索結果対象単語列との長さの相違の影響が軽減(除去)された値となる。
 図25は、音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングのシミュレーションの結果の第1の例を示す図である。
 なお、図25のシミュレーションでは、日本語の短い発話「世界遺産」に対して、正しい音声認識結果「世界遺産」が得られたこととし、検索結果対象単語列としての番組のタイトルとして、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」と、短いタイトル「世界情勢」とを採用した。
 さらに、マッチングは、表記シンボルを用いて、単語単位で行った。
 また、図25では、音声認識結果「世界遺産」の単語「世界/遺産」と一致する、検索結果対象単語列としての番組のタイトルの単語には、アンダーラインを付してある。
 タイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」では、音声認識結果「世界遺産」に対して、「世界」と「遺産」との2つの単語が一致する。
 一方、タイトル「世界情勢」では、音声認識結果「世界遺産」に対して、「世界」の1つの単語だけが一致する。
 したがって、タイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」と、タイトル「世界情勢」とでは、音声認識結果「世界遺産」と一致する単語の数が多いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、タイトル「世界情勢」の類似度よりも上位になることが適切である。
 しかしながら、類似度として、コサイン距離Dを採用した場合、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の一部「世界遺産」に一致する音声認識結果「世界遺産」については、短いタイトル「世界情勢」の類似度が、0.5となり、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が、0.4472となって、短いタイトル「世界情勢」の類似度の方が、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度よりも上位となる。
 すなわち、類似度として、コサイン距離Dを採用した場合には、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の一部「世界遺産」に一致する短い音声認識結果「世界遺産」と、その長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」との長さの相違の影響により、音声認識結果「世界遺産」に対して適切な長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が上位にならない。
 一方、類似度として、補正距離を採用した場合、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、短いタイトル「世界情勢」の類似度よりも上位となる。
 すなわち、類似度として、第1の補正距離D1を採用した場合、音声認識結果「世界遺産」については、短いタイトル「世界情勢」の類似度が、0.5となり、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が、0.6687となって、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、短いタイトル「世界情勢」の類似度よりも上位となる。
 また、類似度として、第2の補正距離D2を採用した場合、音声認識結果「世界遺産」については、短いタイトル「世界情勢」の類似度が、0.5となり、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が、1.0となって、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、短いタイトル「世界情勢」の類似度よりも上位となる。
 以上のように、類似度として、補正距離を採用した場合には、長い検索結果対象単語列の一部に一致する音声認識結果と、その長い検索結果対象単語列との長さの相違の影響が軽減され、音声認識結果「世界遺産」に対して適切な長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が上位になる。
 図26は、音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングのシミュレーションの結果の第2の例を示す図である。
 なお、図26のシミュレーションでは、日本語の長い発話「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して、正しい音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」が得られたこととし、検索結果対象単語列としての番組のタイトルとして、短いタイトル「世界遺産」と、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」とを採用した。
 さらに、マッチングは、表記シンボルを用いて、単語単位で行った。
 また、図26では、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」の単語「世界/遺産/都市/の/遺産/イタリア/ローマ/ベネチア/ナポリ/フィレンツェ」と一致する、検索結果対象単語列としての番組のタイトルの単語には、アンダーラインを付してある。
 タイトル「世界遺産」では、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して、「世界」と「遺産」との2つの単語が一致する。
 一方、タイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」では、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して、「世界」、「遺産」、「イタリア」、及び、「フィレンツェ」の4つの単語が一致する。
 したがって、タイトル「世界遺産」と、タイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」とでは、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」と一致する単語の数が多いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、タイトル「世界遺産」の類似度よりも上位になることが適切である。
 しかしながら、類似度として、コサイン距離Dを採用した場合、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」については、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が、0.4472となり、短いタイトル「世界遺産」の類似度が、0.4772となって、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位にならない。
 すなわち、類似度として、コサイン距離Dを採用した場合には、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」と、短い検索結果対象単語列「世界遺産」との長さの相違の影響により、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して適切な長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が上位にならない。
 一方、類似度として、補正距離を採用した場合、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位となる。
 すなわち、類似度として、第1の補正距離D1を採用した場合、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」については、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が、0.4229となり、短いタイトル「世界遺産」の類似度が、0.2991となって、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位となる。
 また、類似度として、第2の補正距離D2を採用した場合、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」については、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が、0.4となり、短いタイトル「世界遺産」の類似度が、0.2となって、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位となる。
 以上のように、類似度として、補正距離を採用した場合には、長い音声認識結果と、短い検索結果対象単語列との長さの相違の影響が軽減され、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して適切な長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が上位になる。
 図27は、音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングのシミュレーションの結果の第3の例を示す図である。
 なお、図27のシミュレーションでは、英語の短い発話"World Heritage"に対して、正しい音声認識結果"World Heritage"が得られたこととし、検索結果対象単語列としての番組のタイトルとして、長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"と、短いタイトル"World Affairs"とを採用した。
 さらに、マッチングは、表記シンボルを用いて、単語単位で行った。
 また、図27では、音声認識結果"World Heritage"の単語"World/Heritage"と一致する、検索結果対象単語列としての番組のタイトルの単語には、アンダーラインを付してある。
 タイトル"The World Heritage Special Program on Italian Cities Rome Venice"では、音声認識結果"World Heritage"に対して、"World"と"Heritage"との2つの単語が一致する。
 一方、タイトル"World Affairs"では、音声認識結果"World Heritage"に対して、"World"の1つの単語だけが一致する。
 したがって、タイトル"The World Heritage Special Program on Italian Cities Rome Venice"と、タイトル"World Affairs"とでは、音声認識結果"World Heritage"と一致する単語の数が多いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の類似度の方が、タイトル"World Affairs"の類似度よりも上位になることが適切である。
 しかしながら、類似度として、コサイン距離Dを採用した場合、長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の一部"World Heritage"に一致する音声認識結果"World Heritage"については、短いタイトル"World Affairs"の類似度が、0.5となり、長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の類似度が、0.4472となって、短いタイトル"World Affairs"の類似度の方が、長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の類似度よりも上位となる。
 すなわち、類似度として、コサイン距離Dを採用した場合には、長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の一部"World Heritage"に一致する短い音声認識結果"World Heritage"と、その長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"との長さの相違の影響により、音声認識結果"World Heritage"に対して適切な長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の類似度が上位にならない。
 一方、類似度として、補正距離を採用した場合、長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の類似度の方が、短いタイトル"World Affairs"の類似度よりも上位となる。
 すなわち、類似度として、第1の補正距離D1を採用した場合、音声認識結果"World Heritage"については、短いタイトル"World Affairs"の類似度が、0.5となり、長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の類似度が、0.6687となって、長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の類似度の方が、短いタイトル"World Affairs"の類似度よりも上位となる。
 また、類似度として、第2の補正距離D2を採用した場合、音声認識結果"World Heritage"については、短いタイトル"World Affairs"の類似度が、0.5となり、長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の類似度が、1.0となって、長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の類似度の方が、短いタイトル"World Affairs"の類似度よりも上位となる。
 以上のように、類似度として、補正距離を採用した場合には、長い検索結果対象単語列の一部に一致する音声認識結果と、その長い検索結果対象単語列との長さの相違の影響が軽減され、音声認識結果"World Heritage"に対して適切な長いタイトル"The World Heritage Special Program on Italian Cities Rome Venice"の類似度が上位になる。
 図28は、音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングのシミュレーションの結果の第4の例を示す図である。
 なお、図28のシミュレーションでは、英語の長い発話"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"に対して、正しい音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"が得られたこととし、検索結果対象単語列としての番組のタイトルとして、短いタイトル"World Heritage"と、長いタイトル"World Heritage Sites in Italy, Florence, Historic District"とを採用した。
 さらに、マッチングは、表記シンボルを用いて、単語単位で行った。
 また、図28では、音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"の単語"Unesco/World/Heritage/Listed/Sites/Italy/Rome/Venice/Naples/Florence"と一致する、検索結果対象単語列としての番組のタイトルの単語には、アンダーラインを付してある。
 タイトル"World Heritage"では、音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"に対して、"World"と"Heritage"との2つの単語が一致する。
 一方、タイトル"World Heritage Sites in Italy, Florence, Historic District"では、音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"に対して、"World"、"Heritage"、"Italy"、及び、"Florence"の4つの単語が一致する。
 したがって、タイトル"World Heritage"と、タイトル"World Heritage Sites in Italy, Florence, Historic District"とでは、音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"と一致する単語の数が多いタイトル"World Heritage Sites in Italy, Florence, Historic District"の類似度の方が、タイトル"World Heritage"の類似度よりも上位になることが適切である。
 しかしながら、類似度として、コサイン距離Dを採用した場合、長い音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"については、長いタイトル"World Heritage Sites in Italy, Florence, Historic District"の類似度が、0.4472となり、短いタイトル"World Heritage"の類似度が、0.4772となって、長いタイトル"World Heritage Sites in Italy, Florence, Historic District"の類似度の方が、短いタイトル"World Heritage"の類似度よりも上位にならない。
 すなわち、類似度として、コサイン距離Dを採用した場合には、長い音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"と、短い検索結果対象単語列"World Heritage"との長さの相違の影響により、音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"に対して適切な長いタイトル"World Heritage Sites in Italy, Florence, Historic District"の類似度が上位にならない。
 一方、類似度として、補正距離を採用した場合、長いタイトル"World Heritage Sites in Italy, Florence, Historic District"の類似度の方が、短いタイトル"World Heritage"の類似度よりも上位となる。
 すなわち、類似度として、第1の補正距離D1を採用した場合、長い音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"については、長いタイトル"World Heritage Sites in Italy, Florence, Historic District"の類似度が、0.4229となり、短いタイトル"World Heritage"の類似度が、0.2991となって、長いタイトル"World Heritage Sites in Italy, Florence, Historic District"の類似度の方が、短いタイトル"World Heritage"の類似度よりも上位となる。
 また、類似度として、第2の補正距離D2を採用した場合、長い音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"については、長いタイトル"World Heritage Sites in Italy, Florence, Historic District"の類似度が、0.4となり、短いタイトル"World Heritage"の類似度が、0.2となって、長いタイトル"World Heritage Sites in Italy, Florence, Historic District"の類似度の方が、短いタイトル"World Heritage"の類似度よりも上位となる。
 以上のように、類似度として、補正距離を採用した場合には、長い音声認識結果と、短い検索結果対象単語列との長さの相違の影響が軽減され、音声認識結果"Unesco World Heritage Listed Sites Italy Rome Venice Naples Florence"に対して適切な長いタイトル"World Heritage Sites in Italy, Florence, Historic District"の類似度が上位になる。
 したがって、補正距離によれば、音声認識結果と検索結果対象単語列との長さの相違の影響が軽減されることにより、入力音声に対応する単語列の検索を、ロバストに行うことができ、入力音声に対応する単語列の検索の精度の劣化を防止することができる。
 [音声認識部51の構成例]
 図29は、図9及び図10の音声認識部51の構成例を示すブロック図である。
 図29において、音声認識部51は、認識部81、辞書記憶部82、音響モデル記憶部83、言語モデル記憶部84、及び、言語モデル生成部85を有する。
 認識部81には、入力音声が供給される。
 認識部81は、そこに供給される入力音声を、辞書記憶部82、音響モデル記憶部83、及び、言語モデル記憶部84を必要に応じて参照しながら、例えば、HMM法等に基づいて音声認識し、入力音声の音声認識結果を出力する。
 すなわち、辞書記憶部82は、音声認識の結果の対象となる各単語(語彙)について、その発音に関する情報(音韻情報)等が記述された単語辞書を記憶する。
 音響モデル記憶部83は、音声認識を行う音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶する。ここでは、HMM法に基づいて音声認識を行うので、音響モデルとしては、例えば、HMMが用いられる。
 言語モデル記憶部84は、辞書記憶部82の単語辞書に登録されている各単語が、どのように連鎖する(つながる)かを記述した文法規則である言語モデルを記憶する。ここで、言語モデルとしては、例えば、文脈自由文法(CFG)や、統計的な単語連鎖確率(N-gram)等の文法規則を用いることができる。
 認識部81は、辞書記憶部82の単語辞書を参照することにより、音響モデル記憶部83に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。
 さらに、認識部81は、幾つかの単語モデルを、言語モデル記憶部84に記憶された言語モデルを参照することにより接続し、そのようにして接続された単語モデルを用いて、HMM法によって、入力音声を認識する。
 すなわち、認識部81は、そこに供給される入力音声の特徴量(例えば、ケプストラム等)が観測される尤度が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声認識結果として出力する。
 具体的には、認識部81は、接続された単語モデルに対応する単語列について、入力音声の特徴量の出現確率を累積し、その累積値を、入力音声の特徴量が観測される尤度である認識スコアとして、その認識スコアを最も高くする単語列を、音声認識結果として出力する。
 認識スコアは、一般に、音響モデル記憶部83に記憶された音響モデルによって与えられる音響的な尤度(以下、音響スコアともいう)と、言語モデル記憶部84に記憶された言語モデルによって与えられる言語的な尤度(以下、言語スコアともいう)とを総合的に評価することで求められる。
 すなわち、音響スコアとしては、例えば、HMM法による場合には、単語モデルを構成する音響モデルから、入力音声の特徴量が観測される確率が、例えば、単語ごとに計算される。また、言語スコアとしては、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖(連接)する確率が求められる。
 そして、各単語についての音響スコアと言語スコアとを総合的に評価して、認識スコアが求められ、その認識スコアに基づいて、音声認識結果が確定される。
 ここで、あるK個の単語からなる単語列におけるk番目の単語をwkとして、その単語wkの音響スコアをA(wk)と、言語スコアをL(wk)と、それぞれ表すとき、その単語列の認識スコアSは、例えば、式(4)に従って計算される。
   S=Σ(A(wk)+Ck×L(wk))
                        ・・・(4)
 式(4)において、Σは、kを1からKに変えてのサメーションをとることを表す。また、Ckは、単語wkの言語スコアL(wk)にかける重みを表す。
 認識部81では、例えば、式(4)に示す認識スコアが、上位M(Mは1以上の整数)位以内の単語列w1,w2,・・・,wKが求められ、その単語列w1,w2,・・・,wKが、音声認識結果として出力される。
 ここで、入力音声Xが、単語列Wである(条件付き)確率を、P(W|X)と表すこととすると、確率P(W|X)は、ベイズの定理により、入力音声Xが発生する確率P(X)、単語列Wが発生する確率P(W)、及び、単語列Wを発話したときに入力音声Xが観測される確率P(X|W)を用いて、式P(W|X)=P(W)P(X|W)/P(X)で表される。
 式P(W|X)=P(W)P(X|W)/P(X)において、確率P(W|X)が、認識スコアに、確率P(W)が、言語スコアに、確率P(X|W)が音響スコアに、それぞれ相当する。
 なお、辞書記憶部82の単語辞書に、T個の単語が登録されているとすると、そのT個の単語を用いて構成しうるT個の単語の並びは、TT通り存在する。したがって、単純には、認識部81では、このTT通りの単語列を評価し(認識スコアを計算し)、その中から、入力音声に最も適合するもの(認識スコアが上位M以内のもの)を決定しなければならない。
 そして、単語辞書に登録する単語数Tが増えれば、その単語数分の単語の並びの数は、単語数の単語数乗通りになるから、評価の対象としなければならない単語列は、膨大な数となる。
 さらに、一般には、入力音声中に含まれる単語の数は未知であるから、T個の単語の並びからなる単語列だけでなく、1単語、2単語、・・・、T-1単語からなる単語列も、評価の対象とする必要がある。したがって、評価すべき単語列の数は、さらに膨大なものとなるから、迅速な音声認識を行うには、そのような膨大な単語列の中から、音声認識結果として確からしいものを効率的に決定する必要がある。
 そこで、認識部81では、例えば、ある認識仮説としての単語列についての音響スコアを求める過程において、その途中で得られる音響スコアが所定の閾値以下となった場合に、その認識仮説の認識スコアの計算を打ち切るという音響的な枝刈りや、言語スコアに基づいて、認識スコアの計算の対象とする認識仮説を絞り込む言語的な枝刈りが行われる。
 ところで、図9及び図10のレコーダにおいて、上述したように、ユーザが発話した入力音声に応じて、録画番組の中から、ユーザが所望する番組を検索して再生する場合や、EPGから、ユーザが所望する番組を検索して録画予約をする場合には、ユーザは、入力音声として、番組のタイトルや、出演者名、詳細情報に含まれる記述等の、番組のメタデータ(EPGの構成要素でもある)を発話することが予想される。
 そして、番組のメタデータ、すなわち、例えば、番組のタイトルには、造語や、メインキャスタの名前(芸名等)、特有の言い回し等の、新聞に記載されている記事で一般に使用されている単語列ではない単語列が含まれる。
 このような番組のタイトルの発話の音声認識を、新聞に記載されている単語列を用いて生成された言語モデルである、汎用の言語モデルを用いて行うと、番組のタイトルに一致する認識仮説の言語スコアとして、高い値が得られない。
 その結果、番組のタイトルに一致する認識仮説が、音声認識結果として得られず、音声認識の精度が劣化する。
 そこで、図29の音声認識部51は、言語モデル生成部85を有している。
 言語モデル生成部85は、図9及び図10の音声検索装置50の検索結果対象記憶部53に記憶された検索結果対象単語列を用いて、言語モデルを生成する。
 ここで、上述したように、検索結果対象記憶部53には、記録媒体63に記録されたEPGを構成する構成要素である番組のタイトルや、出演者名、詳細情報等、及び、記録媒体63に録画された録画番組のメタデータである、番組のタイトルや、出演者名、詳細情報等が、検索結果対象単語列として記憶される。
 図30は、検索結果対象記憶部53に記憶される検索結果対象単語列としての番組のメタデータの例を示す図である。
 番組のメタデータとしては、例えば、番組のタイトル、出演者名、及び、詳細情報等がある。
 言語モデル生成部85では、ユーザが入力音声として(一部を)発話することが予想される、検索結果対象単語列としての番組のタイトルや、出演者名、詳細情報等を用いて、いわば、番組の検索に専用の言語モデルが生成される
 なお、検索結果対象単語列が、EPGを構成する構成要素(番組のメタデータ)である、番組のタイトルや、出演者名、詳細情報等としての単語列である場合には、検索結果対象単語列は、番組のタイトルや、出演者名、詳細情報等のフィールドに分類されている、ということができるが、このようなフィールドに分類されている検索結果対象単語列を用いての専用の言語モデルの生成では、各検索結果対象単語列が、いずれのフィールドに属するかを区別せずに、1つの専用の言語モデルを生成することもできるし、各フィールドの検索結果対象単語列を用いて、フィールドごとの言語モデルを生成し、そのフィールドごとの言語モデルをインターポーレートして、1つの専用の言語モデルを生成することもできる。
 言語モデル生成部85で生成された専用の言語モデルは、言語モデル記憶部84に供給されて記憶される。
 したがって、認識部81では、そのような専用の言語モデルを用いて、言語スコアが求められるので、汎用の言語モデルを用いる場合に比較して、音声認識の精度を向上させることができる。
 なお、図29では、言語モデル生成部85を、音声認識部51の内部に設けるようにしたが、言語モデル生成部85は、音声認識部51の外部に設けることが可能である。
 また、言語モデル記憶部84には、言語モデル生成部85が生成する言語モデルとは、別に、汎用の言語モデルを記憶させておくことができる。
 図31は、図29の言語モデル生成部85での言語モデルの生成の処理を説明する図である。
 言語モデル生成部85は、検索結果対象記憶部53(図9)に記憶された各検索結果対象単語列を形態素解析する。さらに、言語モデル生成部85は、検索結果対象単語列の形態素解析結果を用いて、例えば、単語Aの後に単語Bが続く確率を表すバイグラム等の言語モデルを学習し、専用の言語モデルとして、言語モデル記憶部84に供給して記憶させる。
 なお、言語モデル生成部85において、EPGの構成要素を、検索結果対象単語列として用いて、専用の言語モデルを生成する場合、例えば、所定の曜日や、最新の1週間等の、今後の放送が予定されている所定の期間のEPGを用いて、専用の言語モデルを生成することができる。
 図9のレコーダにおいて、ユーザが発話した入力音声に応じて、EPGから、ユーザが所望する番組を検索して録画予約をする場合に、ユーザが、所定の曜日に放送される番組に興味を持っていることが分かっているときには、所定の曜日のEPGを用いて、専用の言語モデルを生成することにより、所定の曜日に放送される番組についての音声認識の精度を向上させることができ、ひいては、その所定の曜日に放送される番組が、検索結果単語列として出力されやすくなる。
 また、図9のレコーダにおいて、ユーザが発話した入力音声に応じて、EPGから、ユーザが所望する番組を検索して録画予約をする場合に、最新の1週間のEPGを用いて、専用の言語モデルを生成することにより、最新の1週間の間に放送される番組についての音声認識の精度を向上させることができ、ひいては、その最新の1週間の間に放送される番組が、検索結果単語列として出力されやすくなる。
 さらに、言語モデル生成部85において、EPGの構成要素を、検索結果対象単語列として用いて、専用の言語モデルを生成する場合には、最近のEPG、すなわち、放送時刻がより近い番組のEPGの構成要素である検索結果単語列における単語の並びほど、高い言語スコアが与えられるように、専用の言語モデルを生成することができる。
 この場合、放送時刻がより近い番組についての音声認識の精度を向上させることができ、ひいては、放送時刻がより近い番組が、検索結果単語列として出力されやすくなる。
 ところで、検索結果対象単語列が、上述のように、複数のフィールドに分類されている場合に、その検索結果対象単語列から、1つの専用の言語モデルを生成し、その1つの専用の言語モデルを用いて、音声認識を行うと、異なるフィールドの検索結果対象単語列の一部ずつを並べた認識仮説の言語スコアが高くなることがある。
 すなわち、例えば、上述のように、番組のタイトル、出演者名、及び、詳細情報のフィールドに分類されている検索結果対象単語列を用いて生成された1つの専用の言語モデルを用いて音声認識を行うと、例えば、ある番組Aのタイトルの一部と、他の番組Bの出演者の出演者名の一部とを並べた単語列が認識仮説になったときに、その認識仮説の言語スコアが高くなることがある。
 しかしながら、番組Aのタイトルの一部と、番組Bの出演者名の一部とを並べた単語列は、検索結果対象単語列である、EPGの構成要素には存在しないので、そのような単語列が、音声認識結果にされ得る、言語スコアが高い認識仮説となることは、好ましくない。
 また、例えば、上述のように、番組のタイトル、出演者名、及び、詳細情報のフィールドに分類されている検索結果対象単語列を、特に区別することなく用いて、マッチング部56(図9)でマッチングを行う場合には、ユーザが、例えば、番組のタイトルを発話したときであっても、番組のタイトルのフィールドの検索結果対象単語列だけでなく、すべてのフィールドの検索結果対象単語列と、ユーザの発話の音声認識結果とのマッチングが行われ、その音声認識結果にマッチする検索結果対象単語列が、検索結果単語列として出力される。
 したがって、この場合、ユーザがタイトルを発話した番組に無関係な番組、すなわち、例えば、ユーザが発話した番組のタイトルに類似しないタイトルの番組ではあるが、ユーザが発話した番組のタイトルに含まれる単語列に類似する(一致する場合も含む)単語列を、検索結果対象単語列としての出演者名や詳細情報に含む番組が、検索結果単語列として出力されることがある。
 以上のように、ユーザがタイトルを発話した番組に無関係な番組が、検索結果単語列として出力されることは、その検索結果単語列としての番組の中から、録画予約を行う番組を探して選択しようとするユーザに煩わしさを感じさせることがある。
 そこで、マッチング部56(図9)では、検索結果対象単語列が、複数のフィールドに分類されている場合には、音声認識結果とのマッチングを、ユーザが希望するフィールド等の所定のフィールドの検索結果対象単語列だけを対象として行うようにすることができる。
 しかしながら、所定のフィールドの検索結果対象単語列だけを対象として、音声認識結果とのマッチングを行う場合でも、図31の専用の言語モデルを用いた音声認識では、例えば、上述したように、ある番組Aのタイトルの一部と、他の番組Bの出演者の出演者名の一部とを並べた単語列が認識仮説になって、その認識仮説の言語スコアが高くなり、ひいては、その認識仮説が、音声認識結果となることがある。
 そして、そのような音声認識結果とのマッチングを、所定のフィールドの検索結果対象単語列だけを対象として行っても、ユーザが録画予約を希望する番組が検索される可能性が高いとはいえない。
 そこで、図29の音声認識部51では、言語モデル生成部85は、フィールドごとに、そのフィールドの検索結果対象単語列を用いて、言語モデルを生成することができ、認識部81は、各フィールドについて、そのフィールドの言語モデルを用いて音声認識を行い、フィールドごとの音声認識結果を求めることができる。
 さらに、この場合、マッチング部56(図9)では、音声認識結果と検索結果対象単語列とのマッチングを、フィールドごとに行うこともできるし、フィールドの区別なく行うこともできる。
 図32は、図29の言語モデル生成部85でのフィールドごとの言語モデルの生成の処理を説明する図である。
 いま、検索結果対象記憶部53(図9)に記憶されている検索結果対象単語列が、番組のタイトル、出演者名、及び、詳細情報のそれぞれのフィールドに分類されていることとすると、言語モデル生成部85は、検索結果対象記憶部53に記憶された番組のタイトルのフィールド(以下、番組タイトルフィールドともいう)の検索結果対象単語列を形態素解析する。
 さらに、言語モデル生成部85は、番組タイトルフィールドの検索結果対象単語列の形態素解析結果を用いて、例えば、バイグラム等の言語モデルを学習することで、番組タイトルフィールド用の言語モデルを生成し、言語モデル記憶部84に供給して記憶させる。
 また、言語モデル生成部85は、検索結果対象記憶部53に記憶された出演者名のフィールド(以下、出演者名フィールドともいう)の検索結果対象単語列を形態素解析する。
 さらに、言語モデル生成部85は、出演者名の検索結果対象単語列の形態素解析結果を用いて、例えば、バイグラム等の言語モデルを学習することで、出演者目フィールド用の言語モデルを生成し、言語モデル記憶部84に供給して記憶させる。
 同様にして、言語モデル生成部85は、検索結果対象記憶部53に記憶された詳細情報のフィールド(以下、詳細情報フィールドともいう)の検索結果対象単語列を用いて、詳細情報フィールド用の言語モデルを生成し、言語モデル記憶部84に供給して記憶させる。
 図33は、各フィールドの言語モデルを用いて音声認識を行い、フィールドごとの音声認識結果を求め、音声認識結果と検索結果対象単語列とのマッチングを、フィールドごとに行う場合の、図9(及び図10)の音声検索装置50の処理を説明する図である。
 認識部81は、入力音声の音声認識を、番組タイトルフィールド用の言語モデル、出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルのそれぞれを用いて、独立に行う。
 認識部81は、番組タイトルフィールド用の言語モデルを用いた音声認識では、認識スコアが上位の1以上の認識仮説を求め、番組タイトルフィールドの音声認識結果とする。
 さらに、認識部81は、出演者名フィールド用の言語モデルを用いた音声認識でも、認識スコアが上位の1以上の認識仮説を求め、出演者名フィールドの音声認識結果とする。
 同様に、認識部81は、詳細情報フィールド用の言語モデルを用いた音声認識でも、認識スコアが上位の1以上の認識仮説を求め、詳細情報フィールドの音声認識結果とする。
 そして、マッチング部56(図9)は、番組タイトルフィールドの音声認識結果とのマッチングを、検索結果対象記憶部53(図9)に記憶された検索結果対象単語列のうちの番組タイトルフィールドの検索結果対象単語列だけを対象として行う。
 さらに、マッチング部56は、出演者名フィールドの音声認識結果とのマッチングを、検索結果対象記憶部53に記憶された検索結果対象単語列のうちの出演者名フィールドの検索結果対象単語列だけを対象として行う。
 同様に、マッチング部56は、詳細情報フィールドの音声認識結果とのマッチングを、検索結果対象記憶部53に記憶された検索結果対象単語列のうちの詳細情報フィールドの検索結果対象単語列だけを対象として行う。
 そして、出力部57(図9)は、フィールドごとに、マッチング結果に基づいて、音声認識結果との類似度(例えば、コサイン距離や補正距離等)が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 図33では、入力音声「世界遺産」に対して、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれの音声認識結果として、いずれも、「世界遺産」が求められている。
 そして、音声認識結果と検索結果対象単語列とのマッチングが、フィールドごとに行われ、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれの検索結果単語列として、類似度が上位3位以内の検索結果対象単語列が出力されている。
 なお、図33では、検索結果単語列としての検索結果対象単語列において、発音シンボルが、音声認識結果とマッチする部分には、アンダーラインを付してある。
 出力部57(図9)では、フィールドごとに、音声認識結果との類似度によって、検索結果対象単語列を順位付けし、上位N位以内の検索結果対象単語列を、検索結果単語列として出力する他、フィールドに関係なく(すべてのフィールドに亘って)、検索結果対象単語列を順位付けする、いわば総合順位の順位付けを行い、総合順位が上位N位以内の検索結果対象単語列を、検索結果単語列として出力することができる。
 図34は、出力部57の、総合順位を求める部分の構成例を示すブロック図である。
 図34において、出力部57は、総合スコア計算部91を有する。
 総合スコア計算部91には、音声認識部51で求められる、各フィールドの音声認識結果の信頼性を表す音声認識信頼度が供給される。
 ここで、音声認識信頼度としては、例えば、認識スコアを採用することができる。
 また、総合スコア計算部91には、マッチング部56で求められる、各フィールドの検索結果対象単語列の類似度が供給される。
 総合スコア計算部91は、フィールドごとに、音声認識結果の音声認識信頼度と、検索結果対象単語列の類似度とを、総合的に評価して、検索結果対象単語列が、入力音声に対応する単語列にマッチする度合いを表す総合スコアを求める。
 すなわち、ある検索結果対象単語列を、注目単語列として、その注目単語列に注目すると、総合スコア計算部91は、音声認識結果の音声認識信頼度、及び、その音声認識結果と注目単語列との類似度のそれぞれを、必要に応じて、例えば、0.0ないし1.0の範囲の値に正規化する。
 さらに、総合スコア計算部91は、音声認識結果の音声認識信頼度、及び、その音声認識結果と注目単語列との類似度の加重平均値や、相乗平均値等を、注目単語列の総合スコアとして求める。
 そして、総合スコア計算部91は、総合スコアが高い順に、検索結果対象単語列に対して、順位を付ける。
 図35は、図34の総合スコア計算部91の構成例を示すブロック図である。
 図35において、総合スコア計算部91は、番組タイトル総合スコア計算部92、出演者名総合スコア計算部93、詳細情報総合スコア計算部94、及び、スコア比較順位付け部95を有する。
 番組タイトル総合スコア計算部92には、音声認識部51で求められる、番組タイトルフィールドの音声認識結果の音声認識信頼度、及び、マッチング部56で求められる、番組タイトルフィールドの音声認識結果と、番組タイトルフィールドの検索結果対象単語列との類似度が供給される。
 番組タイトル総合スコア計算部92は、番組タイトルフィールドの検索結果対象単語列を、順次、注目単語列として、番組タイトルフィールドの音声認識結果の音声認識信頼度、及び、その音声認識結果と注目単語列との類似度を用いて、注目単語列の総合スコアを求め、スコア比較順位付け部95に供給する。
 出演者名総合スコア計算部93には、音声認識部51で求められる、出演者名フィールドの音声認識結果の音声認識信頼度、及び、マッチング部56で求められる、出演者名フィールドの音声認識結果と、出演者名フィールドの検索結果対象単語列との類似度が供給される。
 出演者名総合スコア計算部93は、出演者名フィールドの検索結果対象単語列を、順次、注目単語列として、出演者名フィールドの音声認識結果の音声認識信頼度、及び、その音声認識結果と注目単語列との類似度を用いて、注目単語列の総合スコアを求め、スコア比較順位付け部95に供給する。
 詳細情報総合スコア計算部94には、音声認識部51で求められる、詳細情報フィールドの音声認識結果の音声認識信頼度、及び、マッチング部56で求められる、詳細情報フィールドの音声認識結果と、詳細情報フィールドの検索結果対象単語列との類似度が供給される。
 詳細情報総合スコア計算部94は、詳細情報フィールドの検索結果対象単語列を、順次、注目単語列として、詳細情報フィールドの音声認識結果の音声認識信頼度、及び、その音声認識結果と注目単語列との類似度を用いて、注目単語列の総合スコアを求め、スコア比較順位付け部95に供給する。
 スコア比較順位付け部95は、番組タイトル総合スコア計算部92、出演者名総合スコア計算部93、及び、詳細情報総合スコア計算部94それぞれからの総合スコアを比較して、昇順に並べ、総合スコアの高い順に、検索結果対象単語列に総合順位を付ける。
 そして、出力部57は、総合順位が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 図33では、認識部81において、各フィールドの言語モデルを用いて音声認識を行い、フィールドごとの音声認識結果を求めたが、認識部81では、すべてのフィールドに亘る、いわば総合的な音声認識結果を求めることができる。
 図36は、各フィールドの言語モデルを用いて、日本語の入力音声の音声認識を行い、すべてのフィールドに亘る総合的な音声認識結果を求め、音声認識結果と検索結果対象単語列とのマッチングを、フィールドごとに行う場合の、図9の音声検索装置50の処理を説明する図である。
 図36でも、図33の場合と同様に、認識部81は、日本語の入力音声の音声認識を、番組タイトルフィールド用の言語モデル、出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルのそれぞれを用いて、独立に行い、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれの音声認識結果を求める。
 さらに、認識部81は、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれの音声認識結果のすべての中から、認識スコアが上位の1以上の音声認識結果を検出し、その音声認識結果を、マッチング部56でのマッチングに用いる、いわば総合的な音声認識結果とする。
 マッチング部56(図9)は、総合的な音声認識結果とのマッチングを、検索結果対象記憶部53(図9)に記憶された検索結果対象単語列のうちの番組タイトルフィールドの検索結果対象単語列、出演者名フィールドの検索結果対象単語列、及び、詳細情報フィールドの検索結果対象単語列のそれぞれを対象として行う。
 そして、出力部57(図9)は、フィールドごとに、マッチング結果に基づいて、音声認識結果との類似度が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 図36では、日本語の入力音声「世界遺産」に対して、総合的な音声認識結果として、「世界遺産」が求められている。
 そして、音声認識結果と検索結果対象単語列とのマッチングが、フィールドごとに行われ、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれの検索結果単語列として、類似度が上位3位以内の検索結果対象単語列が出力されている。
 なお、図36では、図33と同様に、検索結果単語列としての検索結果対象単語列において、発音シンボルが、音声認識結果とマッチする部分には、アンダーラインを付してある。
 図37は、各フィールドの言語モデルを用いて、英語の入力音声の音声認識を行い、すべてのフィールドに亘る総合的な音声認識結果を求め、音声認識結果と検索結果対象単語列とのマッチングを、フィールドごとに行う場合の、図10の音声検索装置50の処理を説明する図である。
 入力音声が英語であっても、図36で説明した、入力音声が日本語である場合と同様の処理が行われる。
 すなわち、認識部81は、英語の入力音声の音声認識を、番組タイトルフィールド用の言語モデル、出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルのそれぞれを用いて、独立に行い、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれの音声認識結果を求める。
 さらに、認識部81は、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれの音声認識結果のすべての中から、認識スコアが上位の1以上の音声認識結果を検出し、その音声認識結果を、マッチング部56でのマッチングに用いる、いわば総合的な音声認識結果とする。
 マッチング部56(図10)は、総合的な音声認識結果とのマッチングを、検索結果対象記憶部53(図10)に記憶された検索結果対象単語列のうちの番組タイトルフィールドの検索結果対象単語列、出演者名フィールドの検索結果対象単語列、及び、詳細情報フィールドの検索結果対象単語列のそれぞれを対象として行う。
 そして、出力部57(図10)は、フィールドごとに、マッチング結果に基づいて、音声認識結果との類似度が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 図37では、英語の入力音声"World Heritage"に対して、総合的な音声認識結果として、"World Heritage"が求められている。
 そして、音声認識結果と検索結果対象単語列とのマッチングが、フィールドごとに行われ、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれの検索結果単語列として、類似度が上位3位以内の検索結果対象単語列が出力されている。
 なお、図37では、図36と同様に、検索結果単語列としての検索結果対象単語列において、発音シンボルが、音声認識結果とマッチする部分には、アンダーラインを付してある。
 以上のように、認識部81が、フィールドごとの音声認識結果ではなく、総合的な音声認識結果を求める場合でも、出力部57(図10)では、フィールドに関係なく(すべてのフィールドに亘って)、検索結果対象単語列を順位付けする、総合順位の順位付けを行い、総合順位が上位N位以内の検索結果対象単語列を、検索結果単語列として出力することができる。
 図38は、認識部81が、総合的な音声認識結果を求める場合の、出力部57の、総合順位を求める部分の構成例を示すブロック図である。
 図38において、出力部57は、類似度比較順位付け部96を有する。
 類似度比較順位付け部96には、マッチング部56で求められる、各フィールドの検索結果対象単語列の類似度が供給される。
 なお、図36において、認識部81で求められる音声認識信頼度としての認識スコアは、総合的な音声認識結果の認識スコアであり、フィールドごとに存在する値ではないため、類似度比較順位付け部96には、供給されない。
 類似度比較順位付け部96は、番組タイトルフィールドの検索結果対象単語列、出演者名フィールドの検索結果対象単語列、及び、詳細情報フィールドの検索結果対象単語列それぞれの類似度すべてを比較して、昇順に並べ、類似度の高い順に、検索結果対象単語列に総合順位を付ける。
 そして、出力部57は、総合順位が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 [検索結果単語列の表示]
 図39は、出力部57(図9及び図10)が出力する検索結果単語列の表示画面の例を示す図である。
 検索結果単語列の表示画面(以下、検索結果表示画面ともいう)においては、検索結果単語列のうちの、入力音声の音声認識結果にマッチ(類似、及び、一致)する単語やシラブル等の部分(以下、発話対応部分ともいう)を、強調して表示することができる。
 図39は、発話対応部分を強調せずに表示した検索結果表示画面と、発話対応部分を強調して表示した検索結果表示画面とを示している。
 図39では、発話対応部分が、アンダーラインを付すことによって強調されている。
 なお、発話対応部分を強調する方法としては、その他、例えば、発話対応部分をブリンク(blink)で表示する方法や、色を変えて表示する方法、フォントの種類や大きさを変えて表示する方法等がある。
 また、発話対応部分は、そのすべてを強調するのではなく、発話対応部分のうちの、音声認識結果の信頼性(音声認識信頼度)の高い部分等の一部分だけを強調して表示することができる。
 さらに、検索結果単語列が長い場合には、検索結果表示画面では、検索結果単語列のうちの、発話対応部分と、その前後の部分だけを表示することができる。
 検索結果表示画面において、検索結果単語列の発話対応部分(又は、その一部)を強調して表示することにより、ユーザは、音声認識が正しく行われているかどうかを把握し、さらに、発話の言い直しを行うべきかどうかを判断することができる。
 [特定のフレーズを含む入力音声による音声検索]
 図40、及び、図41は、特定のフレーズを含む入力音声による音声検索の例を示す図である。
 図9(及び図10)のレコーダにおいて、コマンド判定部71は、音声認識部51から供給される音声認識結果に基づいて、ユーザからの入力音声が、レコーダを制御するコマンドであるかどうかを判定する。
 すなわち、コマンド判定部71は、レコーダを制御するコマンドとして定義された文字列(以下、コマンド文字列ともいう)を記憶しており、音声認識部51からの音声認識結果が、コマンド文字列に一致するかどうかによって、ユーザからの入力音声が、レコーダを制御するコマンドであるかどうかを判定する。
 コマンド判定部71は、入力音声がコマンドでないと判定した場合、すなわち、音声認識部51からの音声認識結果が、コマンド文字列に一致しない場合、入力音声がコマンドでない旨の判定結果を、制御部72に供給する。
 この場合、制御部72は、例えば、マッチングを実行するように、マッチング部56を制御する。したがって、音声検索装置50では、マッチング部56において、音声認識結果と検索結果対象単語列とのマッチングが行われ、出力部57において、そのマッチング結果に基づいて、検索結果単語列が出力される。
 一方、コマンド判定部71は、入力音声がコマンドであると判定した場合、すなわち、音声認識部51からの音声認識結果が、コマンド文字列に一致する場合、入力音声がコマンドである旨の判定結果を、音声認識結果に一致するコマンド文字列とともに、制御部72に供給する。
 この場合、制御部72は、音声検索装置50の処理を制限する制御を行う。したがって、音声検索装置50では、マッチング部56において、マッチングは実行されず、検索結果単語列は出力されない。
 さらに、この場合、制御部72は、コマンド判定部71からのコマンド文字列から解釈されるコマンドに従って、レコーダ機能部60を制御する等の処理を行う。
 したがって、コマンド判定部71において、コマンド文字列として、例えば、録画番組の中から、再生を行う番組を選択するコマンドに解釈されるコマンド文字列「選択」や、番組を再生するコマンドに解釈されるコマンド文字列「再生」等が記憶されている場合に、音声認識部51が、例えば、コマンド文字列「再生」に一致する音声認識結果「再生」を出力したときには、制御部72では、コマンド文字列「再生」から解釈されるコマンドに従い、例えば、番組を再生するように、レコーダ機能部60が制御される。
 ところで、以上のように、音声認識結果がコマンド文字列に一致する場合に、音声検索装置50の処理を制限すると、コマンド文字列に一致する単語列をキーワードとして、音声検索を行うことができなくなる。
 そこで、図9のレコーダでは、音声検索を行う場合には、その旨を指示する特定のフレーズとしての、例えば、「音声検索で」等を含む入力音声を、ユーザに発話してもらうことで、コマンド文字列に一致する単語列をキーワードとして、音声検索を行うことができるようになっている。
 なお、特定のフレーズは、入力音声中の、例えば、最初や最後に含めることができるが、以下では、入力音声中の最初に含めることとする。
 ユーザは、単語「再生」をキーワードとして、そのキーワード「再生」を含む番組の検索を、音声検索によって行いたい場合には、音声検索を指示する特定のフレーズとしての、例えば、「音声検索で」と、キーワード「再生」とを続けて発話する。
 この場合、音声認識部51には、入力音声「番組検索で再生」が供給され、音声認識部51では、その入力音声「番組検索で再生」の音声認識が行われる。
 ここで、入力音声「番組検索で再生」の音声認識では、入力音声「番組検索で再生」に一致する認識仮説の言語スコアが低い場合、入力音声「番組検索で再生」に一致する音声認識結果が出力されないことがある。
 ここでは、ユーザに、特定のフレーズ「番組検索で」を含む入力音声「番組検索で再生」を発話してもらうことによって、キーワード「再生」を含む番組の音声検索を行うので、特定のフレーズを含む入力音声に対して、少なくとも、特定のフレーズを含む単語列が音声認識結果として出力されないことは、好ましくない。
 すなわち、音声認識部51では、特定のフレーズを含む入力音声「番組検索で再生」に対して、その特定のフレーズを含む音声認識結果を得ることが必要であり、そのためには、例えば、特定のフレーズを含む認識仮説の言語スコアが低くなることを防止する必要がある。
 そこで、音声認識部51(図29)では、言語モデル生成部85において、検索結果対象記憶部53(図9)に記憶された検索結果対象単語列とともに、特定のフレーズをも用いて、言語モデルが生成される。
 これにより、言語モデルとして、例えば、バイグラムを採用する場合には、特定のフレーズと、検索結果対象単語列を構成する単語とが並ぶ場合に、高い値の言語スコアが与えられる言語モデル(以下、特定フレーズ用言語モデルともいう)が生成される。
 なお、検索結果対象記憶部53(図9)に記憶された検索結果対象単語列には、コマンド文字列を含めておくこととする。
 また、音声認識部51では、言語モデル生成部85において、特定のフレーズを用いず、検索結果対象記憶部53(図9)に記憶された検索結果対象単語列だけを用いて、つまり、特定のフレーズを含まない単語列を用いて、特定フレーズ用言語モデルの他の言語モデルであるフレーズなし言語モデルが生成される。
 特定フレーズ用言語モデルによれば、特定のフレーズを含む認識仮説(単語列)の言語スコアとして、特定のフレーズを含まない認識仮説の言語スコアよりも高い値が与えられる。
 また、フレーズなし言語モデルによれば、特定のフレーズを含まない認識仮説(単語列)の言語スコアとして、特定のフレーズを含む単語列の言語スコアよりも高い値が与えられる。
 音声認識部51では、特定フレーズ用言語モデル、及び、フレーズなし言語モデルを用いて、音声認識が行われる。
 特定フレーズ用言語モデル、及び、フレーズなし言語モデルを用いた音声認識では、フレーズなし言語モデルを用いるが、特定フレーズ用言語モデルを用いない音声認識に比較して、特定のフレーズと、検索結果対象単語列を構成する単語とが並ぶ認識仮説に、高い値の言語スコアが与えられる。
 したがって、特定のフレーズを含む入力音声については、特定のフレーズと、検索結果対象単語列を構成する単語とが並ぶ認識仮説の言語スコア(及び音響スコア)、ひいては、認識スコアが、特定フレーズ用言語モデルを用いない音声認識の場合に比較して高くなり、特定のフレーズを含む入力音声に対して、その特定のフレーズを含む認識仮説の言語スコアが低くなって、音声認識結果として出力されないことを防止することができる。
 図40は、図9の音声認識部51において、特定フレーズ用言語モデル、及び、フレーズなし言語モデルを用いて、日本語の入力音声の音声認識が行われる場合の、音声検索の例を示している。
 ユーザが、例えば、図40に示すように、番組を対象とした音声検索を要求する日本語の特定のフレーズ「音声検索で」を含む日本語の入力音声「音声検索で再生」を発話した場合、音声認識部51では、その入力音声「音声検索で再生」が音声認識される。
 上述したように、音声認識部51では、特定フレーズ用言語モデルを用いて、音声認識が行われるので、特定のフレーズ「音声検索で」を含む入力音声については、特定のフレーズを含む認識仮説「音声検索で再生」の言語スコア(及び音響スコア)、ひいては、認識スコアが、特定フレーズ用言語モデルを用いない場合よりも十分に高くなる。
 その結果、特定のフレーズ「音声検索で」を含む入力音声については、特定のフレーズを含む認識仮説「音声検索で再生」が音声認識結果として出力される。
 音声認識部51が出力する音声認識結果「音声検索で再生」は、発音シンボル変換部52と、コマンド判定部71とに供給される。
 音声認識結果「音声検索で再生」は、特定のフレーズ「音声検索で」を含むため、コマンド文字列に一致しないので、コマンド判定部71では、入力音声がコマンドでないと判定される。
 したがって、制御部72は、音声検索装置50の処理を制限する制御を行わない。
 一方、発音シンボル変換部52では、音声認識部51からの音声認識結果「音声検索で再生」が、認識結果発音シンボル列に変換され、マッチング部56に供給される。
 また、マッチング部56には、検索結果対象記憶部53から、形態素解析部54、及び、発音シンボル変換部55を介して、検索結果対象単語列の検索結果対象発音シンボル列が供給される。
 マッチング部56は、認識結果発音シンボル列に、特定のフレーズ(の発音シンボル)が含まれている場合には、認識結果発音シンボル列から、特定のフレーズを除去し、その削除後の認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチングを行う。
 そして、マッチング部56は、認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチング結果としての類似度を、出力部57に供給する。
 出力部57は、マッチング部56からのマッチング結果としての類似度に基づいて、その類似度が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 図40では、特定のフレーズを含む入力音声「音声検索で再生」に対して、上位2位以内の検索結果対象単語列としての番組のタイトルが、検索結果単語列として出力されている。
 ここで、いまの場合、マッチング部56では、以上のように、特定のフレーズを除去した認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチング、すなわち、特定のフレーズを除去した音声認識結果と、検索結果対象単語列とのマッチングが行われ、そのマッチング結果に基づいて、特定のフレーズを除去した音声認識結果にマッチする検索結果対象単語列が、検索結果単語列として出力される。
 したがって、この場合、検索結果対象単語列は、入力音声から特定のフレーズを除いた(除去した)音声に対応する単語列の検索結果の対象となる単語列であるということができる。
 一方、ユーザが、例えば、図40に示すように、特定のフレーズを含まず、かつ、コマンド文字列に一致する日本語の入力音声「再生」を発話した場合、音声認識部51では、その入力音声「再生」が音声認識され、音声認識結果「再生」が、発音シンボル変換部52と、コマンド判定部71とに供給される。
 音声認識結果「再生」は、コマンド文字列「再生」に一致するので、コマンド判定部71は、入力音声がコマンドであると判定し、入力音声がコマンドである旨の判定結果を、音声認識結果に一致するコマンド文字列「再生」とともに、制御部72に供給する。
 制御部72は、コマンド判定部71から、入力音声がコマンドである旨の判定結果が供給されると、音声検索装置50の処理を制限する制御を行う。したがって、音声検索装置50では、音声検索は行われず、検索結果単語列は出力されない。
 さらに、制御部72は、コマンド判定部71からのコマンド文字列「再生」から解釈されるコマンドに従って、番組の再生を行うように、レコーダ機能部60を制御する。
 図41は、図10の音声認識部51において、特定フレーズ用言語モデル、及び、フレーズなし言語モデルを用いて、英語の入力音声の音声認識が行われる場合の、音声検索の例を示している。
 ユーザが、例えば、図41に示すように、番組を対象とした音声検索を要求する英語の特定のフレーズ"Program Search"を含む英語の入力音声"Program Search, Play"を発話した場合、音声認識部51では、その入力音声"Program Search, Play"が音声認識される。
 上述したように、音声認識部51では、特定フレーズ用言語モデルを用いて、音声認識が行われるので、特定のフレーズ"Program Search"を含む入力音声については、特定のフレーズを含む認識仮説"Program Search, Play"の言語スコア(及び音響スコア)、ひいては、認識スコアが、特定フレーズ用言語モデルを用いない場合よりも十分に高くなる。
 その結果、特定のフレーズ"Program Search"を含む入力音声については、特定のフレーズを含む認識仮説"Program Search, Play"が音声認識結果として出力される。
 音声認識部51が出力する音声認識結果"Program Search, Play"は、発音シンボル変換部52と、コマンド判定部71とに供給される。
 音声認識結果"Program Search, Play"は、特定のフレーズ"Program Search"を含むため、コマンド文字列に一致しないので、コマンド判定部71では、入力音声がコマンドでないと判定される。
 したがって、制御部72は、音声検索装置50の処理を制限する制御を行わない。
 一方、発音シンボル変換部52では、音声認識部51からの音声認識結果"Program Search, Play"が、認識結果発音シンボル列に変換され、マッチング部56に供給される。
 また、マッチング部56には、検索結果対象記憶部53から、発音シンボル変換部55を介して、検索結果対象単語列の検索結果対象発音シンボル列が供給される。
 マッチング部56は、認識結果発音シンボル列に、特定のフレーズ(の発音シンボル)が含まれている場合には、認識結果発音シンボル列から、特定のフレーズを除去し、その削除後の認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチングを行う。
 そして、マッチング部56は、認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチング結果としての類似度を、出力部57に供給する。
 出力部57は、マッチング部56からのマッチング結果としての類似度に基づいて、その類似度が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 図41では、特定のフレーズを含む入力音声"Program Search, Play"に対して、上位2位以内の検索結果対象単語列としての番組のタイトルが、検索結果単語列として出力されている。
 一方、ユーザが、例えば、図41に示すように、特定のフレーズを含まず、かつ、コマンド文字列に一致する英語の入力音声"Play"を発話した場合、音声認識部51では、その入力音声"Play"が音声認識され、音声認識結果"Play"が、発音シンボル変換部52と、コマンド判定部71とに供給される。
 音声認識結果"Play"は、コマンド文字列"Play"に一致するので、コマンド判定部71は、入力音声がコマンドであると判定し、入力音声がコマンドである旨の判定結果を、音声認識結果に一致するコマンド文字列"Play"とともに、制御部72に供給する。
 制御部72は、コマンド判定部71から、入力音声がコマンドである旨の判定結果が供給されると、音声検索装置50の処理を制限する制御を行う。したがって、音声検索装置50では、音声検索は行われず、検索結果単語列は出力されない。
 さらに、制御部72は、コマンド判定部71からのコマンド文字列"Play"から解釈されるコマンドに従って、番組の再生を行うように、レコーダ機能部60を制御する。
 以上のように、音声認識部51では、特定フレーズ用言語モデル、及び、フレーズなし言語モデルを用いて、音声認識が行われるので、特定のフレーズを含む入力音声、及び、特定のフレーズを含まない入力音声の両方を、精度良く音声認識することができる。
 さらに、音声検索を行う場合には、ユーザに、特定のフレーズを含む発話をしてもらうことで、ユーザの発話が、音声検索の要求であるのか、又は、レコーダを制御するコマンドあるのかを区別し、コマンド文字列に一致する単語列であっても、その単語列をキーワードとして、音声検索を行うことができる。
 すなわち、ユーザの発話に、特定のフレーズが含まれるかどうかによって(又は、ユーザの発話が、コマンド文字列に一致するのかどうかによって)、音声検索と、レコーダの制御とを切り替えることができる。
 なお、図40、及び、図41では、検索結果対象単語列に、コマンド文字列を含めておき、言語モデル生成部85において、特定のフレーズを用いず、検索結果対象単語列だけを用いて、フレーズなし言語モデルを生成することとしたが、フレーズなし言語モデルとしては、その他、例えば、コマンド文字列のみを用いて生成した言語モデルを採用することが可能である。
 また、図40、及び、図41では、コマンド判定部71において、音声認識部51からの音声認識結果に基づき、その音声認識結果が、コマンド文字列に一致するかどうかによって、ユーザからの入力音声が、レコーダを制御するコマンドであるかどうかを判定することとしたが、コマンド判定部71では、その他、例えば、マッチング部56のマッチング結果に基づいて、入力音声が、レコーダを制御するコマンドであるかどうかを判定することができる。
 すなわち、この場合、コマンド文字列として、レコーダを制御するコマンド固有の単語列、つまり、検索結果対象単語列に出現する可能性が極めて低い(理想的には、検索結果対象単語列に出現する可能性がない)単語列を採用する。
 例えば、レコーダに再生を行わせるコマンドのコマンド文字列として、「再生」や"Play"に代えて、「レコーダコントロール再生」や"Recorder Control Play"等を採用する。
 さらに、コマンド文字列を、検索結果対象単語列に含めておき、マッチング部56において、検索結果対象単語列の検索結果対象発音シンボル列と、音声認識結果の全体の認識結果発音シンボル列とのマッチングを行い、そのマッチング結果を、コマンド判定部71に供給する。
 そして、コマンド判定部71では、マッチング部56からのマッチング結果に基づき、音声認識結果の全体(の認識結果発音シンボル列)とのマッチングによって得られる類似度が最上位の検索結果対象単語列が、コマンド文字列に一致する場合には、入力音声がコマンドであると判定し、最上位の検索結果対象単語列が、コマンド文字列に一致しない場合には、入力音声がコマンドでないと判定する。
 コマンド判定部71において、入力音声がコマンドであると判定された場合、制御部72は、そのコマンドに従った処理を行うとともに、出力部57が、マッチング部56のマッチング結果に基づいて、検索結果単語列を出力することを制限する。
 一方、コマンド判定部71において、入力音声がコマンドでないと判定された場合、制御部72は、入力音声の音声認識結果に、特定のフレーズが含まれるときには、認識結果発音シンボル列から、特定のフレーズを除去し、その削除後の認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチングを行うように、マッチング部56を制御するとともに、マッチング部56のマッチング結果に基づいて、検索結果単語列を出力するように、出力部57を制御する。
 なお、以上のように、コマンド文字列として、コマンド固有の単語列を採用する場合にはコマンド判定部71において、入力音声に、特定のフレーズが含まれるか否かにかかわらず、入力音声が、コマンドであるか否かを判定することができるので、ユーザは、音声検索を行うのに、特定のフレーズを含む入力音声を発話せずに、音声検索のキーワードだけの入力音声を発話することができる(ユーザは、音声検索を行うのに、特定のフレーズを発話する必要はない)。
 この場合、コマンド判定部71において、入力音声がコマンドでないと判定されたときには、制御部72は、マッチング部56で既に行われている、検索結果対象単語列と、音声認識結果の全体とのマッチングのマッチング結果に基づいて、検索結果単語列を出力するように、出力部57を制御する。
 図42、及び、図43は、特定のフレーズを含む入力音声による音声検索の他の例を示す図である。
 図36や図37で説明したように、検索結果対象単語列が、例えば、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールド等の複数のフィールドに分類されている場合には、音声認識部51(図9(及び図10))では、各フィールドの検索結果対象単語列から、フィールドごとの言語モデルである番組タイトルフィールド用の言語モデル、出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルを生成し、そのフィールドごとの言語モデルを用いて、音声認識を行い、フィールドごとの音声認識結果を求めることができる。
 さらに、音声認識部51では、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれの音声認識結果のすべての中から、認識スコアが上位の1以上の音声認識結果を検出し、その音声認識結果を、マッチング部56でのマッチングに用いる、総合的な音声認識結果とすることができる。
 そして、マッチング部56(図9)では、フィールドごとの検索結果対象単語列と、音声認識結果とのマッチングを行うことができ、出力部57(図9)では、フィールドごとに、マッチング結果に基づいて、音声認識結果との類似度が上位N位以内の検索結果対象単語列を、検索結果単語列として出力することができる。
 この場合、フィールドごとに、検索結果単語列が出力される。
 すなわち、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれの検索結果単語列が出力される。
 したがって、ユーザが、例えば、タイトルに所定の文字列を含む番組を検索しようとして、その所定の文字列を発話した場合であっても、番組タイトルフィールドの検索結果対象単語列だけでなく、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドそれぞれについて、音声認識結果にマッチする検索結果対象単語列が、検索結果単語列として出力される。
 その結果、ユーザが発話した所定の文字列にマッチしないタイトルの番組であっても、その所定の文字列にマッチする出演者名や詳細情報を、メタデータとして含む番組が、検索結果単語列として出力されることがある。
 以上のように、ユーザが発話した所定の文字列にマッチしないタイトルの番組が、検索結果単語列として出力されることは、ユーザに煩わしさを感じさせることがある。
 また、例えば、番組を検索する場合に、タイトルに、所定の文字列を含む番組だけを検索することや、出演者名に、所定の文字列を含む番組だけを検索すること等ができれば便利である。
 そこで、図9(及び図10)のレコーダでは、音声検索を行う場合には、音声検索を指示し、かつ、音声認識結果とのマッチングをとる検索結果対象単語列のフィールドを表す特定のフレーズとしての、例えば、「番組名検索で」や「人名検索で」等を含む入力音声を、ユーザに発話してもらうことで、音声認識結果とのマッチングをとる検索結果対象単語列のフィールドを、特定のフィールドに制限して、音声検索を行うことができるようになっている。
 音声認識結果とのマッチングをとる検索結果対象単語列のフィールドを、特定のフィールドに制限して、音声検索を行う場合には、音声認識部51(図29)の言語モデル生成部85において、フィールドごとに、検索結果対象記憶部53(図9)に記憶された検索結果対象単語列と、フィールドを表す特定のフレーズであるフィールドフレーズとを用いて、言語モデルが生成される。
 すなわち、例えば、上述したように、検索結果対象単語列が、番組タイトルフィールド、出演者名フィールド、及び、詳細情報フィールドの3つのフィールドに分類されている場合には、言語モデル生成部85は、番組タイトルフィールドを表す特定のフレーズであるフィールドフレーズとしての、例えば、「番組名検索で」や"Program Title Search by"と、番組タイトルフィールドの検索結果対象単語列とを用いて、番組タイトルフィールド用の言語モデルを生成する。
 さらに、言語モデル生成部85は、出演者名フィールドを表すフィールドフレーズとしての、例えば、「人名検索で」や"Cast Search by"と、出演者名フィールドの検索結果対象単語列とを用いて、出演者名フィールド用の言語モデルを生成するとともに、詳細情報フィールドを表すフィールドフレーズとしての、例えば、「詳細情報検索で」や"Information Search by"と、詳細情報フィールドの検索結果対象単語列とを用いて、詳細情報フィールド用の言語モデルを生成する。
 なお、言語モデルとして、例えば、バイグラムを採用する場合には、番組タイトルフィールド用の言語モデルによれば、番組タイトルフィールドのフィールドフレーズ「番組名検索で」や"Program Title Search by"と、番組タイトルフィールドの検索結果対象単語列を構成する単語とが並ぶ場合に、高い値の言語スコアが与えられる。
 出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルでも、同様である。
 音声認識部51では、番組タイトルフィールド用の言語モデル、出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルを用いて、音声認識が行われる。
 番組タイトルフィールド用の言語モデル、出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルを用いた音声認識によれば、番組タイトルフィールドのフィールドフレーズ「番組名検索で」や"Program Title Search by"と、番組タイトルフィールドの検索結果対象単語列を構成する単語とが並ぶ認識仮説、出演者名フィールドのフィールドフレーズ「人名検索で」や"Cast Search by"と、出演者名フィールドの検索結果対象単語列を構成する単語とが並ぶ認識仮説、及び、詳細情報フィールドのフィールドフレーズ「詳細情報検索で」や"Information Search by"と、詳細情報フィールドの検索結果対象単語列を構成する単語とが並ぶ認識仮説に、高い値の言語スコアが与えられる。
 したがって、フィールドフレーズを含む入力音声が発話された場合に、その入力音声を、精度良く音声認識することができる。
 音声認識結果とのマッチングをとる検索結果対象単語列のフィールドを、特定のフィールドに制限して、音声検索を行う場合には、以上のように、音声認識部51(図29)において、フィールドごとの言語モデルを用いて音声認識が行われる他、マッチング部56において、音声認識結果に含まれるフィールドフレーズが表すフィールド(音声認識結果を得るのに用いられた言語モデルのフィールド)の認識対象単語列だけを対象として、音声認識結果とのマッチングがとられ、出力部57において、そのマッチング結果に基づいて、検索結果単語列が出力される。
 図42は、図9の音声認識部51において、フィールドごとの言語モデルを用いて、日本語の入力音声の音声認識が行われ、マッチング部56において、音声認識結果に含まれるフィールドフレーズが表すフィールドの認識対象単語列だけを対象として、音声認識結果とのマッチングがとられる場合の、音声検索の例を示している。
 ユーザが、例えば、図42に示すように、番組タイトルフィールドのフィールドフレーズ「番組名検索で」を含む入力音声「番組名検索で○○」を発話した場合、音声認識部51では、その入力音声「番組名検索で○○」が音声認識される。
 上述したように、音声認識部51では、番組タイトルフィールド用の言語モデル、出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルを用いて音声認識が行われるため、番組タイトルフィールドのフィールドフレーズ「番組名検索で」を含む入力音声「番組名検索で○○」に対しては、番組タイトルフィールドのフィールドフレーズ「番組名検索で」を含む認識仮説「番組名検索で○○」の言語スコア(及び音響スコア)、ひいては、認識スコアが、番組タイトルフィールドのフィールドフレーズ「番組名検索で」を含まない認識仮説(番組タイトルフィールドのフィールドフレーズ「番組名検索で」以外のフィールドフレーズを含む認識仮説を含む)の認識スコアよりも十分に高くなる。
 その結果、番組タイトルフィールドのフィールドフレーズ「番組名検索で」を含む日本語の入力音声については、その番組タイトルフィールドのフィールドフレーズを含む認識仮説「番組名検索で○○」が音声認識結果となる一方、番組タイトルフィールドのフィールドフレーズを含まない認識仮説が音声認識結果となることを防止することができる。
 音声認識部51が出力する音声認識結果「番組名検索で○○」は、発音シンボル変換部52を介して、認識結果発音シンボル列に変換され、マッチング部56に供給される。
 また、マッチング部56には、検索結果対象記憶部53から、形態素解析部54、及び、発音シンボル変換部55を介して、検索結果対象単語列の検索結果対象発音シンボル列が供給される。
 マッチング部56は、認識結果発音シンボル列に、フィールドフレーズ(の発音シンボル)が含まれている場合には、認識結果発音シンボル列から、フィールドフレーズを除去し、その削除後の認識結果発音シンボル列とのマッチングを、検索結果対象単語列のうちの、認識結果発音シンボル列に含まれていたフィールドフレーズが表すフィールドの検索結果対象単語列の検索結果対象発音シンボル列のみを対象として行う。
 そして、マッチング部56は、認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチング結果としての類似度を、出力部57に供給する。
 したがって、マッチング部56では、番組タイトルフィールドのフィールドフレーズを含む音声認識結果「番組名検索で○○」については、番組タイトルフィールドの検索結果対象単語列だけを対象として、音声認識結果(フィールドフレーズを除去した音声認識結果)とのマッチングがとられる。
 出力部57は、マッチング部56からのマッチング結果としての類似度に基づいて、その類似度が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 したがって、ユーザが、番組タイトルフィールドのフィールドフレーズを含む日本語の入力音声「番組名検索で○○」を発話した場合には、番組タイトルフィールドの検索結果対象単語列を対象として、音声認識結果「番組名検索で○○」からフィールドフレーズを除去した文字列「○○」とのマッチングがとられ、その結果、タイトルが、文字列「○○」にマッチする番組が、検索結果単語列として出力される。
 また、ユーザが、例えば、図42に示すように、出演者名フィールドのフィールドフレーズ「人名検索で」を含む入力音声「人名検索で○○」を発話した場合、音声認識部51では、その入力音声「人名検索で○○」が音声認識される。
 上述したように、音声認識部51では、番組タイトルフィールド用の言語モデル、出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルを用いて音声認識が行われるため、出演者名フィールドのフィールドフレーズ「人名検索で」を含む入力音声「人名検索で○○」に対しては、出演者名フィールドのフィールドフレーズ「人名検索で」を含む認識仮説「人名検索で○○」の言語スコア(及び音響スコア)、ひいては、認識スコアが、出演者名フィールドのフィールドフレーズ「人名検索で」を含まない認識仮説の認識スコアよりも十分に高くなる。
 その結果、出演者名フィールドのフィールドフレーズ「人名検索で」を含む日本語の入力音声については、その出演者名フィールドのフィールドフレーズを含む認識仮説「人名検索で○○」が音声認識結果となる一方、出演者名フィールドのフィールドフレーズを含まない認識仮説が音声認識結果となることを防止することができる。
 音声認識部51が出力する音声認識結果「人名検索で○○」は、発音シンボル変換部52を介して、認識結果発音シンボル列に変換され、マッチング部56に供給される。
 また、マッチング部56には、検索結果対象記憶部53から、形態素解析部54、及び、発音シンボル変換部55を介して、検索結果対象単語列の検索結果対象発音シンボル列が供給される。
 マッチング部56は、認識結果発音シンボル列に、フィールドフレーズ(の発音シンボル)が含まれている場合には、認識結果発音シンボル列から、フィールドフレーズを除去し、その削除後の認識結果発音シンボル列とのマッチングを、検索結果対象単語列のうちの、認識結果発音シンボル列に含まれていたフィールドフレーズが表すフィールドの検索結果対象単語列の検索結果対象発音シンボル列のみを対象として行う。
 そして、マッチング部56は、認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチング結果としての類似度を、出力部57に供給する。
 したがって、マッチング部56では、出演者名フィールドのフィールドフレーズを含む音声認識結果「人名検索で○○」については、出演者名フィールドの検索結果対象単語列だけを対象として、音声認識結果(フィールドフレーズを除去した音声認識結果)とのマッチングがとられる。
 出力部57は、マッチング部56からのマッチング結果としての類似度に基づいて、その類似度が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 したがって、ユーザが、出演者名フィールドのフィールドフレーズを含む日本語の入力音声「人名検索で○○」を発話した場合には、出演者名フィールドの検索結果対象単語列を対象として、音声認識結果「人名検索で○○」からフィールドフレーズを除去した文字列「○○」とのマッチングがとられ、その結果、出演者名が、文字列「○○」にマッチする番組が、検索結果単語列として出力される。
 以上から、ある文字列「○○」をキーワードとして、番組の検索を行う場合であっても、日本語の入力音声に含めるフィールドフレーズによっては、異なる番組が、検索結果として得られることがある。
 図43は、図10の音声認識部51において、フィールドごとの言語モデルを用いて、英語の入力音声の音声認識が行われ、マッチング部56において、音声認識結果に含まれるフィールドフレーズが表すフィールドの認識対象単語列だけを対象として、音声認識結果とのマッチングがとられる場合の、音声検索の例を示している。
 ユーザが、例えば、図42に示すように、番組タイトルフィールドのフィールドフレーズ"Program Title Search by"を含む入力音声"Program Title Search by XX"を発話した場合、音声認識部51では、その入力音声"Program Title Search by XX"が音声認識される。
 上述したように、音声認識部51では、番組タイトルフィールド用の言語モデル、出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルを用いて音声認識が行われるため、番組タイトルフィールドのフィールドフレーズ"Program Title Search by"を含む入力音声"Program Title Search by XX"に対しては、番組タイトルフィールドのフィールドフレーズ"Program Title Search by"を含む認識仮説"Program Title Search by XX"の言語スコア(及び音響スコア)、ひいては、認識スコアが、番組タイトルフィールドのフィールドフレーズ"Program Title Search by"を含まない認識仮説(番組タイトルフィールドのフィールドフレーズ"Program Title Search by"以外のフィールドフレーズを含む認識仮説を含む)の認識スコアよりも十分に高くなる。
 その結果、番組タイトルフィールドのフィールドフレーズ"Program Title Search by"を含む英語の入力音声については、その番組タイトルフィールドのフィールドフレーズを含む認識仮説"Program Title Search by XX"が音声認識結果となる一方、番組タイトルフィールドのフィールドフレーズを含まない認識仮説が音声認識結果となることを防止することができる。
 音声認識部51が出力する音声認識結果"Program Title Search by XX"は、発音シンボル変換部52を介して、認識結果発音シンボル列に変換され、マッチング部56に供給される。
 また、マッチング部56には、検索結果対象記憶部53から、発音シンボル変換部55を介して、検索結果対象単語列の検索結果対象発音シンボル列が供給される。
 マッチング部56は、認識結果発音シンボル列に、フィールドフレーズ(の発音シンボル)が含まれている場合には、認識結果発音シンボル列から、フィールドフレーズを除去し、その削除後の認識結果発音シンボル列とのマッチングを、検索結果対象単語列のうちの、認識結果発音シンボル列に含まれていたフィールドフレーズが表すフィールドの検索結果対象単語列の検索結果対象発音シンボル列のみを対象として行う。
 そして、マッチング部56は、認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチング結果としての類似度を、出力部57に供給する。
 したがって、マッチング部56では、番組タイトルフィールドのフィールドフレーズを含む音声認識結果"Program Title Search by XX"については、番組タイトルフィールドの検索結果対象単語列だけを対象として、音声認識結果(フィールドフレーズを除去した音声認識結果)とのマッチングがとられる。
 出力部57は、マッチング部56からのマッチング結果としての類似度に基づいて、その類似度が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 したがって、ユーザが、番組タイトルフィールドのフィールドフレーズを含む英語の入力音声"Program Title Search by XX"を発話した場合には、番組タイトルフィールドの検索結果対象単語列を対象として、音声認識結果"Program Title Search by XX"からフィールドフレーズを除去した文字列"XX"とのマッチングがとられ、その結果、タイトルが、文字列"XX"にマッチする番組が、検索結果単語列として出力される。
 また、ユーザが、例えば、図42に示すように、出演者名フィールドのフィールドフレーズ"Cast Search by"を含む入力音声"Cast Search by XX"を発話した場合、音声認識部51では、その入力音声"Cast Search by XX"が音声認識される。
 上述したように、音声認識部51では、番組タイトルフィールド用の言語モデル、出演者名フィールド用の言語モデル、及び、詳細情報フィールド用の言語モデルを用いて音声認識が行われるため、出演者名フィールドのフィールドフレーズ"Cast Search by"を含む入力音声"Cast Search by XX"に対しては、出演者名フィールドのフィールドフレーズ"Cast Search by"を含む認識仮説"Cast Search by XX"の言語スコア(及び音響スコア)、ひいては、認識スコアが、出演者名フィールドのフィールドフレーズ"Cast Search by"を含まない認識仮説の認識スコアよりも十分に高くなる。
 その結果、出演者名フィールドのフィールドフレーズ"Cast Search by"を含む英語の入力音声については、その出演者名フィールドのフィールドフレーズを含む認識仮説"Cast Search by XX"が音声認識結果となる一方、出演者名フィールドのフィールドフレーズを含まない認識仮説が音声認識結果となることを防止することができる。
 音声認識部51が出力する音声認識結果"Cast Search by XX"は、発音シンボル変換部52を介して、認識結果発音シンボル列に変換され、マッチング部56に供給される。
 また、マッチング部56には、検索結果対象記憶部53から、発音シンボル変換部55を介して、検索結果対象単語列の検索結果対象発音シンボル列が供給される。
 マッチング部56は、認識結果発音シンボル列に、フィールドフレーズ(の発音シンボル)が含まれている場合には、認識結果発音シンボル列から、フィールドフレーズを除去し、その削除後の認識結果発音シンボル列とのマッチングを、検索結果対象単語列のうちの、認識結果発音シンボル列に含まれていたフィールドフレーズが表すフィールドの検索結果対象単語列の検索結果対象発音シンボル列のみを対象として行う。
 そして、マッチング部56は、認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチング結果としての類似度を、出力部57に供給する。
 したがって、マッチング部56では、出演者名フィールドのフィールドフレーズを含む音声認識結果"Cast Search by XX"については、出演者名フィールドの検索結果対象単語列だけを対象として、音声認識結果(フィールドフレーズを除去した音声認識結果)とのマッチングがとられる。
 出力部57は、マッチング部56からのマッチング結果としての類似度に基づいて、その類似度が上位N位以内の検索結果対象単語列を、検索結果単語列として出力する。
 したがって、ユーザが、出演者名フィールドのフィールドフレーズを含む英語の入力音声"Cast Search by XX"を発話した場合には、出演者名フィールドの検索結果対象単語列を対象として、音声認識結果"Cast Search by XX"からフィールドフレーズを除去した文字列"XX"とのマッチングがとられ、その結果、出演者名が、文字列"XX"にマッチする番組が、検索結果単語列として出力される。
 以上から、ある文字列"XX"をキーワードとして、番組の検索を行う場合であっても、英語の入力音声に含めるフィールドフレーズによっては、異なる番組が、検索結果として得られることがある。
 なお、フィールドフレーズとしては、1つのフィールドを表すフレーズだけでなく、複数のフィールドを表すフレーズも採用することができる。
 また、フィールドとしては、図9(及び図10)のレコーダを制御するコマンドが属するフィールドを採用することができる。この場合、音声認識結果に含まれるフィールドフレーズによって、入力音声が、コマンドであるかどうかを判定することができ、さらに、入力音声がコマンドである場合に、マッチング部56でのマッチングによって、コマンドの種類(コマンドが、どのような処理を要求するコマンドであるのか)を検索することができる。
 [マッチングの高速化、及び、記憶容量の削減]
 図44は、検索結果対象ベクトルと、ベクトル代用情報とを示す図である。
 音声検索装置50(図9(及び図10))において、検索結果単語列を、迅速に出力するには、例えば、マッチングを高速に行う必要がある。
 一方、音声認識結果と、検索結果対象単語列とのマッチングにおいて、類似度としてのコサイン距離や補正距離を求める場合に、検索結果対象発音シンボル列を表す検索結果対象ベクトルと、認識結果発音シンボル列を表す認識結果ベクトルとが必要となるが、音声認識結果が得られるたびに、検索結果対象記憶部53(図9)に記憶された検索結果対象単語列を、検索結果対象ベクトルに変換するのでは、マッチングに時間を要し、マッチングの高速化を妨げることになる。
 そこで、類似度の計算に必要な検索結果対象ベクトルは、検索結果対象記憶部53(図9)に記憶された検索結果対象単語列から、あらかじめ求めておき、マッチング部56が内蔵する図示せぬメモリに記憶しておくことで、マッチングの高速化を図る方法がある。
 しかしながら、検索結果対象ベクトルを、マッチング部56が内蔵するメモリに記憶させておくこととすると、そのメモリとして、膨大な容量のメモリが必要となる。
 すなわち、例えば、検索結果対象ベクトルのコンポーネントの値を、そのコンポーネントに対応する音節が、検索結果対象発音シンボル列に存在するかどうかで、1又は0とすることとすると、発音シンボルの種類数が、C個である場合には、検索結果対象ベクトルは、C次元のベクトルとなる。
 例えば、発音シンボルとして、日本語の音節を表すシンボルを採用した場合、発音シンボルの種類数Cは、100ないし300個程度になる。
 さらに、例えば、発音シンボルの種類数Cが、100個であったとしても、マッチングの単位として、音節2連鎖を採用した場合には、検索結果対象ベクトルは、10000(=100×100)次元のベクトルとなる。
 そして、検索結果対象ベクトルの次元が、D次元であり、検索結果対象記憶部53(図9)に記憶された検索結果対象単語列の個数が、Z個であるとすると、マッチング部56が内蔵するメモリには、D×Z個の(検索結果対象ベクトルの)コンポーネントを記憶するだけの記憶容量が必要となる。
 ところで、検索結果対象ベクトルは、一般に、疎ベクトル(Sparse Vector)、つまり、ほとんどのコンポーネントが0になっているベクトルであることが多い。
 そこで、マッチング部56では、各検索結果対象ベクトルについて、検索結果対象ベクトルの0でないコンポーネントに対応する音節の発音シンボル(マッチングの単位として、音節2連鎖を採用する場合には、0でないコンポーネントに対応する音節2連鎖の発音シンボル列)(を特定するID(Identification))だけを、内蔵するメモリに記憶する。
 なお、検索結果対象ベクトルのコンポーネントの値として、例えば、そのコンポーネントに対応する音節が、検索結果対象発音シンボル列に出現する頻度(tf)を採用する場合には、検索結果対象ベクトルの0でないコンポーネントに対応する音節(を特定するID)と、その音節が出現する頻度(検索結果対象ベクトルのコンポーネントの値)との組だけが、マッチング部56が内蔵するメモリに記憶される。
 検索結果対象ベクトルの0でないコンポーネントに対応する音節の発音シンボルだけを、マッチング部56が内蔵するメモリに記憶する場合には、i番目の検索結果対象単語列の検索結果対象ベクトルにおいて、0でないコンポーネントの数が、K(i)個であるとすると、マッチング部56が内蔵するメモリには、K(1)+K(2)+・・・+K(Z)個の発音シンボルを記憶するだけの記憶容量があれば良い。
 ここで、検索結果対象ベクトルのコンポーネントがとる値は、0及び1の2値であるのに対して、発音シンボルがとる値としては、上述したように、100ないし300個程度の値があるから、検索結果対象ベクトルの1つのコンポーネントは、1ビットで表現することができるが、発音シンボルを表現するには、7ないし9ビット程度が必要である。
 しかしながら、検索結果対象ベクトルのほとんどのコンポーネントは0になっているので、検索結果対象ベクトルにおいて、0でないコンポーネントの数K(i)は、小さい値となり、K(1)+K(2)+・・・+K(Z)個の発音シンボルを記憶するだけの記憶容量は、D×Z個の(検索結果対象ベクトルの)コンポーネントを記憶するだけの記憶容量に比較して、小さくなる。
 したがって、マッチング部56において、各検索結果対象ベクトルについて、検索結果対象ベクトルの0でないコンポーネントに対応する音節の発音シンボルだけを、内蔵するメモリに記憶することで、そのメモリに必要な記憶容量を、検索結果対象ベクトルそのものを記憶する場合に比較して削減することができる。
 ここで、マッチング部56が内蔵するメモリに記憶される、検索結果対象ベクトルの0でないコンポーネントに対応する音節の発音シンボルは、検索結果対象ベクトルに代わる情報であるので、以下、適宜、ベクトル代用情報ともいう。
 図44は、検索結果対象ベクトルと、その検索結果対象ベクトルに代わるベクトル代用情報とを示している。
 検索結果対象ベクトルのコンポーネントの値は、そのコンポーネントに対応する音節が、検索結果対象発音シンボル列に存在するかどうかで、1又は0になっている。
 一方、検索結果対象ベクトルに代わるベクトル代用情報は、その検索結果対象ベクトルの0でないコンポーネントに対応する音節の発音シンボルだけから構成されている。
 ここで、図44のベクトル代用情報では、検索結果対象単語列(検索結果対象発音シンボル列)において、複数回出現する、同一の音節の発音シンボルは、かっこ付きの数字を付すことで区別されている。
 すなわち、図44において、例えば、検索結果対象単語列「せかいいさん」には、同一の音節「い」の発音シンボルが2回出現するが、ベクトル代用情報では、その2回出現する音節「い」の発音シンボルのうちの、1つ目の発音シンボルが、「い」で表されるとともに、2つ目の発音シンボルが、「い」に、2つ目であることを表すかっこ付きの数字「(2)」を付した「2(2)」で表されており、これにより、2回出現する音節「い」の発音シンボルそれぞれが区別されている。
 なお、ベクトル代用情報では、検索結果対象単語列に複数回出現する、同一の音節の発音シンボルを、区別しないで表現することもできる。
 すなわち、図44において、例えば、検索結果対象単語列「せかいいさん」に2回出現する、同一の音節「い」の発音シンボルは、ベクトル代用情報において、音節「い」(を特定するID)と、その音節「い」が出現する頻度である「2」との組(い,2)によって表現することが可能である。
 以上のように、マッチング部56が内蔵するメモリにおいて、検索結果対象ベクトルに代えて、ベクトル代用情報を記憶する場合には、マッチングにおいて、検索結果対象ベクトルを記憶する場合には必要であった、検索結果対象ベクトルの0のコンポーネントへのアクセス(メモリからの0のコンポーネントの読み出し)を行わずに済むので、メモリの記憶容量を削減する他、マッチングを高速化することができる。
 図45は、マッチング部56が内蔵するメモリにおいて、検索結果対象ベクトルに代えて、ベクトル代用情報を記憶する場合の、音声認識結果と検索結果対象単語列との類似度の計算を説明する図である。
 なお、図45では、図44と同様に、ベクトル代用情報において、検索結果対象単語列に複数回出現する、同一の音節の発音シンボルが、区別されて表現されている。後述する図46及び図47でも、同様である。
 また、図45では、検索結果対象単語列(の検索結果対象発音シンボル列)が、検索結果対象ベクトルに代えて、ベクトル代用情報で表現されているのと同様にして、音声認識結果(の認識結果発音シンボル列)も、認識結果ベクトルに代えて、ベクトル代用情報で表現されている。後述する図47でも、同様である。
 音声認識結果と検索結果対象単語列との類似度として、コサイン距離や補正距離を求める場合には、認識結果ベクトルVUTRと、検索結果対象ベクトルVTITLE(i)との内積VUTR・VTITLE(i)、及び、認識結果ベクトルVUTRの大きさ|VUTR|が必要となる。
 また、コサイン距離、及び、補正距離のうちの第1の補正距離を求める場合には、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|が、さらに必要となる。
 認識結果ベクトルVUTRの大きさ|VUTR|は、音声認識結果のベクトル代用情報を構成するコンポーネントとしての発音シンボルの数の総和の平方根を計算することで求めることができる。
 検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|も、検索結果対象単語列のベクトル代用情報を用い、認識結果ベクトルVUTRの大きさ|VUTR|と同様にして求めることができる。
 また、認識結果ベクトルVUTRと、検索結果対象ベクトルVTITLE(i)との内積VUTR・VTITLE(i)は、内積VUTR・VTITLE(i)の初期値を0とし、音声認識結果のベクトル代用情報を構成する発音シンボルを、順次、注目シンボルにして、検索結果対象単語列のベクトル代用情報の中に、注目シンボルに一致する発音シンボルが存在する場合には、内積VUTR・VTITLE(i)を1だけインクリメントしていくことで求めることができる。
 したがって、音声認識結果と検索結果対象単語列との類似度としてのコサイン距離や補正距離は、音声認識結果、及び、検索結果対象単語列のベクトル代用情報を用いて求めることができる。
 ところで、内積VUTR・VTITLE(i)を、上述のように、検索結果対象単語列のベクトル代用情報の中に、音声認識結果のベクトル代用情報を構成する発音シンボルのうちの注目シンボルに一致する発音シンボルが存在する場合には、内積VUTR・VTITLE(i)を1だけインクリメントすることで求める方法(以下、第1の内積計算方法ともいう)では、マッチング部56が内蔵するメモリに記憶された検索結果対象単語列のベクトル代用情報を構成する発音シンボルの1つ1つにアクセスし、注目シンボルに一致するかどうかを確認する必要がある。
 したがって、第1の内積計算方法では、検索結果対象単語列のベクトル代用情報を構成する発音シンボルのうちの、音声認識結果のベクトル代用情報を構成する発音シンボルに一致しない発音シンボルにもアクセスしなければならない点で、内積VUTR・VTITLE(i)の計算、ひいては、マッチングに時間を要する。
 そこで、マッチング部56では、発音シンボルから、その発音シンボルを、ベクトル代用情報に有する検索結果対象単語列を検索することができる逆引きインデクスを、検索結果対象単語列のベクトル代用情報から、あらかじめ作成しておき、その逆引きインデクスを利用して、内積VUTR・VTITLE(i)を計算することができる。
 ここで、ベクトル代用情報は、検索結果対象単語列から、その検索結果対象単語列が有する音節の発音シンボルを検索することができるインデクスであるということができるが、逆引きインデクスによれば、その逆の検索、つまり、発音シンボルから、その発音シンボルを、ベクトル代用情報に有する検索結果対象単語列を検索することができる。
 図46は、検索結果対象単語列のベクトル代用情報から、逆引きインデクスを作成する方法を説明する図である。
 マッチング部56は、ベクトル代用情報のコンポーネントになり得るすべての発音シンボルについて、発音シンボルと、その発音シンボルを、ベクトル代用情報のコンポーネントとして有する検索結果対象単語列を特定する検索結果対象IDとを対応付けることで、逆引きインデクスを作成する。
 図46の逆引きインデクスによれば、例えば、発音シンボル「い」を、ベクトル代用情報のコンポーネントとして有する検索結果対象単語列が、検索結果対象IDが3の検索結果対象単語列と、検索結果対象IDが3の検索結果対象単語列とであることを、即座に検出(検索)することができる。
 図47は、逆引きインデクスを利用して、内積VUTR・VTITLE(i)を計算する方法(以下、第2の内積計算方法ともいう)を説明する図である。
 第2の内積計算方法では、マッチング部56は、各検索結果単語列についての内積VUTR・VTITLE(i)の初期値を0とし、音声認識結果のベクトル代用情報を構成する発音シンボルを、順次、注目シンボルにして、逆引きインデクスから、注目シンボルに一致する発音シンボルを、ベクトル代用情報のコンポーネントとして有する検索結果対象単語列(の検索結果対象ID)を検出する。
 そして、マッチング部56は、注目シンボルに一致する発音シンボルを、ベクトル代用情報のコンポーネントとして有する検索結果対象単語列については、その検索結果対象単語列についての内積VUTR・VTITLE(i)を1だけインクリメントしていく。
 第2の内積計算方法によれば、逆引きインデクスの発音シンボルのうちの、音声認識結果のベクトル代用情報を構成する発音シンボルに一致しない発音シンボルには、アクセスしないので、その点で、第1の内積計算方法より、内積VUTR・VTITLE(i)の計算を短時間で行うことができ、その結果、マッチングの高速化を図ることができる。
 なお、その他、例えば、類似度の計算のうちの、音声認識部51での音声認識が行われる前にすることができる計算部分を、事前に行って、マッチング部56が内蔵するメモリに保持しておくことによって、マッチングの高速化を図ることができる。
 すなわち、例えば、類似度として、コサイン距離、又は、第1の補正距離を採用する場合には、上述したように、内積VUTR・VTITLE(i)、認識結果ベクトルVUTRの大きさ|VUTR|、及び、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|が必要となる。
 内積VUTR・VTITLE(i)、認識結果ベクトルVUTRの大きさ|VUTR|、及び、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|のうちの、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|は、音声認識が行われる前に計算することができる。
 したがって、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|を、あらかじめ計算しておき、マッチング部56が内蔵するメモリに保持しておくことによって、マッチングの高速化を図ることができる。
 [音声検索装置50の処理]
 図48は、図9(及び図10)の音声検索装置50の処理を説明するフローチャートである。
 ステップS11において、音声検索装置50は、必要な前処理を行う。
 すなわち、音声検索装置50は、前処理として、例えば、記録媒体63に記録されたEPGを構成する構成要素である番組のタイトルや、出演者名、詳細情報等を読み出して、検索結果対象記憶部53に供給し、検索結果対象単語列として記憶させる処理を行う。
 また、音声検索装置50では、音声認識部51が、前処理として、検索結果対象記憶部53に記憶された検索結果対象単語列を用いて、言語モデルを生成する処理を行う。
 なお、ステップS11の前処理は、例えば、1日ごとに、所定の時刻に行われる。あるいは、ステップS11の前処理は、記録媒体63に録画されている録画番組が変更されたときや、記録媒体63に記録されているEPGが変更(更新)されたとき等に行われる。
 最新の前処理の後、ユーザが発話を行い、その発話としての入力音声が、音声認識部51に供給されると、音声認識部51は、ステップS12において、その入力音声を音声認識する。
 なお、音声認識部51での音声認識は、最新の前処理で生成された言語モデルを用いて行われる。
 音声認識部51が入力音声の音声認識を行うことにより得られる音声認識結果は、発音シンボル変換部52を介することにより、認識結果発音シンボル列となって、マッチング部56に供給される。
 また、マッチング部56には、検索結果対象記憶部53に記憶された検索結果対象単語列が、形態素解析部54及び発音シンボル変換部55を介することにより、検索結果対象発音シンボル列となって、供給される。
 マッチング部56は、ステップS13において、検索結果対象記憶部53に記憶されたすべての検索結果対象単語列それぞれについて、音声認識部51から発音シンボル変換部52を介して供給される認識結果発音シンボル列と、検索結果対象記憶部53から形態素解析部54及び発音シンボル変換部55を介して供給される検索結果対象発音シンボル列とのマッチングをとり、そのマッチング結果を、出力部57に供給する。
 すなわち、マッチング部56は、検索結果対象記憶部53に記憶された各検索結果対象単語列について、音声認識結果との類似度としての、例えば、補正距離等を計算し、その類似度を、マッチング結果として、出力部57に供給する。
 なお、マッチング部56は、認識結果発音シンボル列が、特定のフレーズ(の発音シンボル)を含む場合には、その特定のフレーズを除いた認識結果発音シンボル列と、検索結果対象発音シンボル列とのマッチングをとる。
 出力部57は、ステップS14において、マッチング部56からのマッチング結果に基づいて、検索結果対象記憶部53に記憶された検索結果対象単語列の中から、入力音声に対応する単語列の検索の結果である検索結果単語列(とする検索結果対象単語列)を選択して出力する。
 すなわち、出力部57は、検索結果対象記憶部53に記憶された検索結果対象単語列の中から、音声認識結果との類似度が上位N位以内の検索結果対象単語列を、検索結果単語列として選択して出力する。
 なお、検索結果対象単語列が、例えば、番組のタイトルや、出演者名、詳細情報である場合において、音声認識結果との類似度が上位N位以内の検索結果対象単語列の中に、タイトル以外の、例えば、出演者名(又は詳細情報)があるときには、出力部57では、その出演者名とともに、又は、その出演者名に代えて、その出演者名をメタデータとして有する番組のタイトルを、検索結果単語列として選択することが可能である。
 [本発明を適用したコンピュータの説明]
 次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
 そこで、図49は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
 プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
 あるいはまた、プログラムは、リムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
 なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
 コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
 CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
 これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
 なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
 すなわち、例えば、入力音声の言語は、日本語や英語に限定されるものではない。
 11 音声認識部, 12 発音シンボル変換部, 13 検索結果対象記憶部, 14 形態素解析部, 15 発音シンボル変換部, 16 マッチング部, 17 出力部, 21 発音シンボル変換部, 31 検索結果対象記憶部, 41 音声認識部, 51 音声認識部, 52 発音シンボル変換部, 53 検索結果対象記憶部, 54 形態素解析部, 55 発音シンボル変換部, 56 マッチング部, 57 出力部, 60 レコーダ機能部, 61 チューナ, 62 記録再生部, 63 記録媒体, 71 コマンド判定部, 72 制御部, 73 出力I/F, 81 認識部, 82 辞書記憶部, 83 音響モデル記憶部, 84 言語モデル記憶部, 85 言語モデル生成部, 91 総合スコア計算部, 92 番組タイトル総合スコア計算部, 93 出演者名総合スコア計算部, 94 詳細情報総合スコア計算部, 95 スコア比較順位付け部, 96 類似度比較順位付け部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (8)

  1.  入力音声を音声認識する音声認識部と、
     前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とのマッチングをとるマッチング部と、
     前記検索結果対象発音シンボル列と前記認識結果発音シンボル列とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を出力する出力部と
     を備える検索装置。
  2.  前記発音シンボルは、音節、又は、音素の発音を表すシンボルであり、
     前記マッチング部は、前記検索結果対象発音シンボル列と前記認識結果発音シンボル列とのマッチングにおいて、前記検索結果対象発音シンボル列を表すベクトルである検索結果対象ベクトルと、前記認識結果発音シンボル列を表すベクトルである認識結果ベクトルとについて、前記検索結果対象発音シンボル列と認識結果発音シンボル列との長さの相違の影響を低減するように、ベクトル空間法のコサイン距離を補正した補正距離を求める
     請求項1に記載の検索装置。
  3.  前記入力音声の音声認識結果を、前記認識結果発音シンボル列に変換する発音シンボル変換部をさらに備える
     請求項2に記載の検索装置。
  4.  前記発音シンボル変換部は、さらに、前記検索結果対象単語列を、前記検索結果対象発音シンボル列に変換する
     請求項3に記載の検索装置。
  5.  前記マッチング部は、前記コサイン距離を求める演算において、前記検索結果対象ベクトルの大きさに代えて、前記検索結果対象ベクトルの大きさと前記認識結果ベクトルの大きさとの乗算値の平方根を用いることで、前記補正距離を求める
     請求項2に記載の検索装置。
  6.  前記マッチング部は、前記コサイン距離を求める演算において、前記検索結果対象ベクトルの大きさに代えて、前記認識結果ベクトルの大きさを用いることで、前記補正距離を求める
     請求項2に記載の検索装置。
  7.  入力音声に対応する単語列を検索する検索装置が、
     前記入力音声を音声認識し、
     前記入力音声に対応する単語列を検索する対象の複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とのマッチングをとり、
     前記検索結果対象発音シンボル列と前記認識結果発音シンボル列とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を出力する
     ステップを含む検索方法。
  8.  入力音声を音声認識する音声認識部と、
     前記入力音声に対応する単語列を検索する対象の複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とのマッチングをとるマッチング部と、
     前記検索結果対象発音シンボル列と前記認識結果発音シンボル列とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を出力する出力部と
     して、コンピュータを機能させるためのプログラム。
PCT/JP2010/071605 2009-12-04 2010-12-02 検索装置、検索方法、及び、プログラム WO2011068170A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US13/511,401 US9817889B2 (en) 2009-12-04 2010-12-02 Speech-based pronunciation symbol searching device, method and program using correction distance
CN201080053823.0A CN102667773B (zh) 2009-12-04 2010-12-02 搜索设备、搜索方法及程序
JP2011544293A JPWO2011068170A1 (ja) 2009-12-04 2010-12-02 検索装置、検索方法、及び、プログラム
RU2012121711/08A RU2012121711A (ru) 2009-12-04 2010-12-02 Устройство поиска, способ поиска программы
EP10834620A EP2509005A1 (en) 2009-12-04 2010-12-02 Search device, search method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009276996 2009-12-04
JP2009-276996 2009-12-04

Publications (1)

Publication Number Publication Date
WO2011068170A1 true WO2011068170A1 (ja) 2011-06-09

Family

ID=44115016

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/071605 WO2011068170A1 (ja) 2009-12-04 2010-12-02 検索装置、検索方法、及び、プログラム

Country Status (7)

Country Link
US (1) US9817889B2 (ja)
EP (1) EP2509005A1 (ja)
JP (1) JPWO2011068170A1 (ja)
KR (1) KR20120113717A (ja)
CN (1) CN102667773B (ja)
RU (1) RU2012121711A (ja)
WO (1) WO2011068170A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867005A (zh) * 2011-07-06 2013-01-09 阿尔派株式会社 检索装置、检索方法以及车载导航装置
WO2015118645A1 (ja) * 2014-02-06 2015-08-13 三菱電機株式会社 音声検索装置および音声検索方法

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014519071A (ja) * 2011-03-28 2014-08-07 アンビエンツ 音響コンテキストを使用する検索システム及び方法
KR101231438B1 (ko) * 2011-05-25 2013-02-07 엔에이치엔(주) 외래어 발음 검색 서비스를 제공하는 검색결과 제공 시스템 및 방법
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
US10424291B2 (en) * 2012-12-28 2019-09-24 Saturn Licensing Llc Information processing device, information processing method, and program
US9305064B1 (en) * 2013-05-24 2016-04-05 Google Inc. Keyword-based conversational searching using voice commands
JP6223744B2 (ja) * 2013-08-19 2017-11-01 株式会社東芝 方法、電子機器およびプログラム
US9889383B2 (en) * 2013-10-03 2018-02-13 Voyetra Turtle Beach, Inc. Configuring headset voice morph based on player assignment
US20150120723A1 (en) * 2013-10-24 2015-04-30 Xerox Corporation Methods and systems for processing speech queries
KR102092164B1 (ko) 2013-12-27 2020-03-23 삼성전자주식회사 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
CN103761840A (zh) * 2014-01-21 2014-04-30 小米科技有限责任公司 遥控器寻找方法、装置、设备及系统
US20150340024A1 (en) * 2014-05-23 2015-11-26 Google Inc. Language Modeling Using Entities
WO2016029045A2 (en) * 2014-08-21 2016-02-25 Jobu Productions Lexical dialect analysis system
KR102298457B1 (ko) * 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
CN104598527B (zh) * 2014-12-26 2018-09-25 论客科技(广州)有限公司 一种语音搜索方法及装置
US10019514B2 (en) * 2015-03-19 2018-07-10 Nice Ltd. System and method for phonetic search over speech recordings
US10249297B2 (en) * 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
WO2017017738A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
CN106024013B (zh) * 2016-04-29 2022-01-14 努比亚技术有限公司 语音数据搜索方法及系统
US10990757B2 (en) 2016-05-13 2021-04-27 Microsoft Technology Licensing, Llc Contextual windows for application programs
US10068573B1 (en) * 2016-12-21 2018-09-04 Amazon Technologies, Inc. Approaches for voice-activated audio commands
US10726056B2 (en) * 2017-04-10 2020-07-28 Sap Se Speech-based database access
US11043221B2 (en) * 2017-04-24 2021-06-22 Iheartmedia Management Services, Inc. Transmission schedule analysis and display
US20180329592A1 (en) * 2017-05-12 2018-11-15 Microsoft Technology Licensing, Llc Contextual windows for application programs
CN109104634A (zh) * 2017-06-20 2018-12-28 中兴通讯股份有限公司 一种机顶盒工作方法、机顶盒及计算机可读存储介质
CN107369450B (zh) * 2017-08-07 2021-03-12 苏州市广播电视总台 收录方法和收录装置
CN107809667A (zh) * 2017-10-26 2018-03-16 深圳创维-Rgb电子有限公司 电视机语音交互方法、语音交互控制装置及存储介质
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing
CN107808007A (zh) * 2017-11-16 2018-03-16 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN107832439B (zh) * 2017-11-16 2019-03-08 百度在线网络技术(北京)有限公司 多轮状态追踪的方法、系统及终端设备
US10832657B2 (en) * 2018-03-01 2020-11-10 International Business Machines Corporation Use of small unit language model for training large unit language models
KR20200056712A (ko) 2018-11-15 2020-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110600016B (zh) * 2019-09-20 2022-02-25 北京市律典通科技有限公司 卷宗推送方法和装置
JP2022074509A (ja) * 2020-11-04 2022-05-18 株式会社東芝 差分抽出装置、方法及びプログラム
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver
CN113889146A (zh) * 2021-09-22 2022-01-04 北京小米移动软件有限公司 音频识别方法、装置、电子设备和存储介质
CN114969339B (zh) * 2022-05-30 2023-05-12 中电金信软件有限公司 一种文本匹配方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242884A (ja) 2000-02-28 2001-09-07 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002252813A (ja) * 2001-02-23 2002-09-06 Fujitsu Ten Ltd 番組検索装置及び番組検索プログラム
JP2005150841A (ja) * 2003-11-11 2005-06-09 Canon Inc 情報処理方法及び情報処理装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) * 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
US7251637B1 (en) * 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP4393648B2 (ja) * 2000-01-11 2010-01-06 富士通株式会社 音声認識装置
CN1151489C (zh) * 2000-11-15 2004-05-26 中国科学院自动化研究所 中国人名、地名和单位名的语音识别方法
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US7353164B1 (en) * 2002-09-13 2008-04-01 Apple Inc. Representation of orthography in a continuous vector space
US7401019B2 (en) * 2004-01-15 2008-07-15 Microsoft Corporation Phonetic fragment search in speech data
US7961851B2 (en) * 2006-07-26 2011-06-14 Cisco Technology, Inc. Method and system to select messages using voice commands and a telephone user interface
US8166029B2 (en) * 2006-09-07 2012-04-24 Yahoo! Inc. System and method for identifying media content items and related media content items
US20080162125A1 (en) * 2006-12-28 2008-07-03 Motorola, Inc. Method and apparatus for language independent voice indexing and searching
US7912724B1 (en) * 2007-01-18 2011-03-22 Adobe Systems Incorporated Audio comparison using phoneme matching
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
CN100470633C (zh) * 2007-11-30 2009-03-18 清华大学 语音点歌方法
US8065300B2 (en) * 2008-03-12 2011-11-22 At&T Intellectual Property Ii, L.P. Finding the website of a business using the business name

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242884A (ja) 2000-02-28 2001-09-07 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002252813A (ja) * 2001-02-23 2002-09-06 Fujitsu Ten Ltd 番組検索装置及び番組検索プログラム
JP2005150841A (ja) * 2003-11-11 2005-06-09 Canon Inc 情報処理方法及び情報処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867005A (zh) * 2011-07-06 2013-01-09 阿尔派株式会社 检索装置、检索方法以及车载导航装置
WO2015118645A1 (ja) * 2014-02-06 2015-08-13 三菱電機株式会社 音声検索装置および音声検索方法
CN105981099A (zh) * 2014-02-06 2016-09-28 三菱电机株式会社 语音检索装置和语音检索方法
JPWO2015118645A1 (ja) * 2014-02-06 2017-03-23 三菱電機株式会社 音声検索装置および音声検索方法

Also Published As

Publication number Publication date
KR20120113717A (ko) 2012-10-15
US20130006629A1 (en) 2013-01-03
CN102667773B (zh) 2015-02-04
RU2012121711A (ru) 2013-11-27
EP2509005A1 (en) 2012-10-10
CN102667773A (zh) 2012-09-12
JPWO2011068170A1 (ja) 2013-04-18
US9817889B2 (en) 2017-11-14

Similar Documents

Publication Publication Date Title
WO2011068170A1 (ja) 検索装置、検索方法、及び、プログラム
JP5610197B2 (ja) 検索装置、検索方法、及び、プログラム
US7949530B2 (en) Conversation controller
US9418152B2 (en) System and method for flexible speech to text search mechanism
US7949532B2 (en) Conversation controller
US11056104B2 (en) Closed captioning through language detection
US7842873B2 (en) Speech-driven selection of an audio file
EP1909263A1 (en) Exploitation of language identification of media file data in speech dialog systems
US8688725B2 (en) Search apparatus, search method, and program
US20130090921A1 (en) Pronunciation learning from user correction
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
JP2009128508A (ja) 音声データ検索システム
Nouza et al. Making czech historical radio archive accessible and searchable for wide public
JP2011118775A (ja) 検索装置、検索方法、及び、プログラム
JP2011118774A (ja) 検索装置、検索方法、及び、プログラム
JP5196114B2 (ja) 音声認識装置およびプログラム
JP5366050B2 (ja) 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム
KR100811226B1 (ko) 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템
Ohta et al. Evaluating spoken language model based on filler prediction model in speech recognition.
WO2024118649A1 (en) Systems, methods, and media for automatically transcribing lyrics of songs
Yu Efficient error correction for speech systems using constrained re-recognition
De Villiers Lecture transcription systems in resource–scarce environments
Leath Audient: An acoustic search engine
JP2005099604A (ja) 会話制御装置、会話制御方法、およびゲームシステム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080053823.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10834620

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010834620

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2011544293

Country of ref document: JP

ENP Entry into the national phase

Ref document number: 20127013649

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2012121711

Country of ref document: RU

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13511401

Country of ref document: US