WO2009147745A1 - 検索装置 - Google Patents

検索装置 Download PDF

Info

Publication number
WO2009147745A1
WO2009147745A1 PCT/JP2008/060454 JP2008060454W WO2009147745A1 WO 2009147745 A1 WO2009147745 A1 WO 2009147745A1 JP 2008060454 W JP2008060454 W JP 2008060454W WO 2009147745 A1 WO2009147745 A1 WO 2009147745A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
input
result
text input
search query
Prior art date
Application number
PCT/JP2008/060454
Other languages
English (en)
French (fr)
Inventor
岡登 洋平
知弘 岩崎
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2010515721A priority Critical patent/JPWO2009147745A1/ja
Priority to PCT/JP2008/060454 priority patent/WO2009147745A1/ja
Publication of WO2009147745A1 publication Critical patent/WO2009147745A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Definitions

  • the present invention relates to a search device that presents a search result including ambiguity by voice input and text input.
  • ⁇ ⁇ Voice input has the advantage that even beginners can input quickly compared to keyboards and touch panels.
  • speech search in recent years, full-text search and name search combining large vocabulary continuous speech recognition and database search have been studied.
  • a typical combination of speech recognition and database search is to recognize input speech by referring to the acoustic standard pattern 101 and the recognition dictionary 102 by the speech recognition means 103, and to generate a search query using the result.
  • a search query is generated by the means 106, the search target database 107 is searched by the database search means 108 using the generated search query, and presented by the search result presentation means 109.
  • the speech recognition output includes a limited vocabulary and includes a recognition error.
  • Patent Document 1 As a search method considering the nature of speech recognition, Japanese Patent Laid-Open No. 2004-5600 (Patent Document 1) considers a plurality of words included in a recognition result in consideration of a score representing the probability of speech recognition for a word recognition unit. A method of using words for search is disclosed.
  • Patent Document 2 discloses a method of enlarging a word used for a search from a recognition result in consideration of a speech recognition error.
  • Patent Document 3 Japanese Patent Application Laid-Open No. 2004-258480
  • a method for improving the accuracy of search in consideration of the nature of speech and a method for correcting speech recognition errors by combining text input are disclosed. It is possible to improve the accuracy by combining these to correct the recognition result of the voice input.
  • the input when the input can be made by voice and text, the input contents may be different between the voice and the text. This is because voice input can easily input names with more than 10 syllables in one word, so it is more convenient to limit candidates with long utterances, while manual input is presented especially on the touch panel. This is because, when selecting from a large number of characters, the user has a great effort and tends to try a search with the minimum number of inputs.
  • the voice correction operation is complicated because it is necessary to input from the beginning of the word or by specifying a specific part. As a result, when the search by voice input fails, it is preferable to re-input by manual operation rather than correction.
  • in-vehicle devices such as a car navigation system
  • manual operation may be restricted while the car is running. For this reason, the search that has been performed manually may not be continued. Conversely, manual operation may be canceled during voice search. In such a case, it is desirable to be able to proceed with input and search by taking over voice operation and manual operation.
  • the present invention improves search accuracy by combining voice input and manual input by generating an integrated query in consideration of reliability and operation history. For the purpose. It is another object of the present invention to improve the operability by predicting a text to be input with reference to at least one of input contents by voice operation or search results.
  • the search device includes: Speech recognition means for recognizing search utterances by input speech; A text input means for entering search text manually, Operation history storage means for storing speech recognition results and text input results; Search query generation means for generating a search query that integrates the speech recognition result and the text input result input from the operation history storage means and gives reliability; Database search means for searching the database based on the search query and search result presentation means for presenting the search result to the user are provided.
  • the operation history storage means stores the recognition result of the search utterance of the input speech recognized by the voice recognition means, and the search text result manually input by the text input means, and is output from the operation history storage means by the search query generation means.
  • the search is generated by adding the reliability and generating the search query, and the database search is performed by the database search means based on the generated search query. Therefore, the search based on the multiple input means is realized considering the reliability. it can. For this reason, for example, even when a situation where manual operation is restricted in an in-vehicle device such as a car navigation system, a search can be performed by combining voice operation and manual operation. In addition, the correction operation and the narrowing-down operation can be improved in consideration of the dialogue history.
  • FIG. 1 It is a functional block diagram of the search device according to Embodiment 1 of the present invention. It is explanatory drawing of the time structure example of the phoneme expressed by the hidden Markov model. It is explanatory drawing of the example of a word definition dictionary describing the word described in the recognition dictionary, and its restrictions. It is explanatory drawing of the example of a word connection dictionary which shows the word chain described in the recognition dictionary, and its probability. It is explanatory drawing of the example of the syllable string of the recognition result by a speech recognition means, and a syllable lattice. It is explanatory drawing of the structural example of the index file for a search. It is explanatory drawing of the example of an operation screen structure. FIG.
  • FIG. 6 is an explanatory diagram of an operation flow of the search device according to the first embodiment.
  • 6 is a functional block diagram of a search device according to Embodiment 2.
  • FIG. FIG. 10 is an explanatory diagram of an operation flow of the search device according to the second embodiment. It is a functional block diagram which shows the structure of the conventional voice search device.
  • FIG. 1 is a block diagram showing a configuration of a search device according to Embodiment 1 of the present invention.
  • the search apparatus shown in the figure includes a control unit 100, an acoustic standard pattern 101, a recognition dictionary 102, a speech recognition unit 103, a text input unit 104, an operation history storage unit 105, a search query generation unit 106, a search target database 107, and a database search unit. 108 and search result presentation means 109.
  • the characteristic part of the first embodiment according to the present invention which is different from the conventional search device, is that it includes an operation history storage means 105, and a history of operations input from the control means 100, voice recognition means 103, and text input means 104.
  • the search query is generated and searched in consideration of the input reliability.
  • Embodiment 1 the configuration and operation of the search device according to Embodiment 1 will be described.
  • the control unit 100 initializes the operation history storage unit 105 and requests correction of the operation history based on a user operation or an input from an external device. Further, in response to a request from the operation history storage unit 105, a user operation or input from an external device is acquired and added to the operation history.
  • the acoustic standard pattern 101 represents a speech spectrum corresponding to a basic unit of speech recognition such as a phoneme to be collated in speech recognition and its temporal structure.
  • a time series with phonemes as a unit is used as a hidden Markov model with three states each having an autoregressive arc and no backturning arc.
  • the acoustic feature quantity corresponding to each state is represented by an 8-mix Gaussian distribution that maintains covariance.
  • FIG. 2 illustrates the structure of the hidden Markov model.
  • the parameters of the acoustic standard pattern are estimated in advance from learning voice data of a large number of speakers.
  • the recognition dictionary 102 is a dictionary for describing the expression to be recognized by a combination of acoustic standard patterns. Specifically, it consists of a word definition dictionary that describes the linguistic output target and constraints in the acoustic standard pattern, and a word connection dictionary that describes the connection between words.
  • a word definition dictionary that describes the linguistic output target and constraints in the acoustic standard pattern
  • a word connection dictionary that describes the connection between words.
  • FIG. 4 shows an example of describing a word connection as a probability of chaining three words (trigram).
  • the speech recognition means 103 collates the input speech with the acoustic standard pattern 101 and the recognition dictionary 102, and outputs a recognition result in which a combination of words having a high score representing the degree of matching is assigned with reliability in units of words.
  • Specific processing includes speech analysis processing, collation processing, and search processing.
  • the voice analysis process is a process for converting the input voice into an acoustic feature value suitable for voice recognition.
  • a speech waveform input by a microphone is A / D converted at a sampling period of 16 kHz and 16 bits, a power spectrum is obtained by 256-point Fourier transform at intervals of 10 ms, and amplitude and frequency are calculated.
  • inverse Fourier transform is performed to use a 12-dimensional mel cepstrum and a total of 24 dimensions of 12 dimensions of the primary regression coefficient in the time direction.
  • the collation process is a process of collating the acoustic feature quantity of the time frame calculated by the voice analysis process with the acoustic standard pattern 101 and calculating a local score representing the degree of collation.
  • the acoustic standard pattern is expressed by a multidimensional Gaussian distribution, and the probability that the input acoustic feature amount is output is calculated and used as a score.
  • the search process is a process of accumulating the local score calculated by the matching process under the linguistic restriction described in the recognition dictionary 102, and obtaining a word string candidate having a high score for the entire speech and its score It is.
  • the recognition result is a word string or word lattice expressed by a word of a recognition unit.
  • the word of the recognition unit is not a word of linguistic meaning but a unit expressed by a combination of standard patterns described in the acoustic standard pattern 101, and may be a phoneme or a syllable. Also, it is easy to convert to a shorter unit after recognition after recognition.
  • the word lattice is one of the output representations of the speech recognition result, and is a graph structure in which the results of a plurality of upper candidates at each time are aggregated in the time direction.
  • the word lattice includes an N best recognition result that outputs a plurality of candidates in a word string or sentence unit of a recognition result that is the maximum score.
  • An example of the output expression of the recognition result is shown in FIG. Fig. 5 (1) is the syllable expression (Wakayama Prefecture waterfall) of the first recognition result, and Fig.
  • the reliability is an index representing the validity of words included in the recognition result. Specifically, the collation score with the acoustic standard pattern 101, the arrangement of words in the recognition dictionary 102, the relationship with competing candidates, and the like are collected. Here, it is assumed that the reliability is normalized to 0 or more and 1 or less. The greater the reliability, the higher the certainty. When the reliability is 1, it indicates that it is surely included in the user's input.
  • the text input means 104 is an interface for inputting characters such as a keyboard and a touch panel, and stores it in the operation history storage means 105 for each input unit.
  • the preferred input unit depends on the language and input interface. In Japanese, it is a syllable (equivalent to one kana character), and in English, it is an alphabet or a word.
  • the text input result can also be regarded as a word lattice having a reliability level of 1.
  • the operation history storage unit 105 is a memory that holds information necessary for the search in order by sequentially storing the voice recognition result by the voice recognition unit 103 or the text input result by the text input unit 104. Specifically, the order of input, the type of input method, the word lattice representing the recognition result, the reliability, the text input result, and the like. In addition to the input, a user operation such as “correction” for the search result is stored.
  • the search query generation unit 106 takes out the operation history stored in the operation history storage unit 105 and converts it into a search query vector in consideration of the reliability given to the input character string.
  • the search query vector is a vector expression in units of linguistic units such as phonemes, syllables, and words extracted from the input, or combinations thereof. For consistency, the unit is adjusted to a short linguistic unit among the units acquired from the speech recognition unit 103 and the text input unit 104. A method for creating a search query vector will be described later.
  • the search database 107 is a search target database.
  • the search can be speeded up by generating an index for the search terms constituting the search query in advance.
  • the search method and index creation method are described in “Information Search Algorithm”, Kenji Kita, Kazuhiko Tsuda, Masami Isogobori, Kyoritsu Shuppan 2002 (Reference 3).
  • the database search unit 108 refers to the search database 107 and acquires search result candidates based on the query generated by the search query generation unit.
  • the search score is defined by the total reliability.
  • an index value may be previously assigned to the search word on the index side, and the search score may be obtained by calculation such as sum of products.
  • TF / IDF Term Frequency / Inverse Document Frequency
  • a weight representing the length of a search term, or the like can be used.
  • FIG. 7 shows an example of a user interface screen suitable for the search device.
  • the upper half of the screen presents search results, and the user can select any search result.
  • buttons for input and flow operation and a character presentation box for presenting the input result are arranged.
  • a 50-syllabic character input palette for text input for text input
  • a “voice” key for starting voice input for starting voice input
  • a “correction” key for returning the operation history to the initial state
  • a “clear” key for returning the operation history to the initial state.
  • a search query is generated and the search result is updated.
  • a “search” key may be arranged and a “search” key may be pressed after inputting characters.
  • the screen may be divided into a plurality of functions and presented.
  • the history of the operation history storage unit 105 is initialized by the control unit 100 in advance (step S100).
  • the search device waits for user input (step S101).
  • the voice recognition unit 103 detects a time interval of the input voice, outputs a recognition result to which a reliability is given for each word, describes information on the input method, and stores it in the operation history storage unit 105. (Step S102).
  • the text input means 104 stores the text input unit 104 in the operation history storage means 105 upon completion of the text input unit (step S103).
  • the search query generation means 106 generates a search query based on the operation history sent by the operation history management means 105 in response to the input completion signal in step S102 / step S103 or the signal acquired from the control means 100 (step S104).
  • the database search unit 108 searches the search target database 107 using the search query generated by the search query generation unit 106, and generates a presentation candidate list based on the search score totaled for each candidate entry (step S105).
  • the search result presentation unit 109 presents the presentation candidate list generated by the database search unit 108 on the screen and notifies the user (step S106). After this, the process returns to step S101 and enters a user input standby state.
  • the search result desired by the user can be presented, the search result can be browsed, and the user achieves the purpose.
  • the user cannot present a desired search result because the number of candidates is large, it is possible to further input voice or text to limit the candidates.
  • the user corrects the input contents and performs a search again.
  • it is invalidated in order from the last input registered in the operation history storage means 105.
  • the number of valid inputs is 0, the number of presentation candidates is also 0. If there are more than one, the previous search result is returned (step S107).
  • search query creation method in the search query creation means 106 will be described.
  • the case of only the speech recognition result, only the text input result, the combination of the speech recognition result and the text input result, and the case of a plurality of speech inputs will be described.
  • the handling of the correction operation and the handling of the narrowing operation will be described.
  • the search word is a syllable, and the recognition result / text input is converted into syllables and reliability for each syllable in advance.
  • the operation history acquired from the operation history storage unit 105 is a single speech recognition result
  • the operation history is converted into a search query vector composed of a combination of syllables and reliability for each syllable.
  • the reliability of syllables that appear multiple times in the recognition result is the sum or maximum value of the individual reliability.
  • For text input When the operation history acquired from the operation history storage means 105 is a text input, it is the same as the case of the speech recognition result except that the reliability of each syllable is 1.
  • a search query vector that integrates the speech recognition result s1 and the text input t1 is generated.
  • the reliability of each search word is the sum or maximum value of the two reliability levels.
  • the other method is to prepare a hypothesis of the correspondence relationship between s1 and t1, obtain a matching degree of syllables or word lattices based on the hypothesis, and aggregate them into one lattice expression to generate a search query. .
  • the speech recognition result is a lattice expression
  • the specific degree of coincidence is calculated by performing dynamic programming (DP) matching in consideration of syllable insertion / deletion / replacement, and syllables / similar syllables commonly included in the recognition result and input text. Identify the column.
  • DP dynamic programming
  • the total of the reliability 0.1 assigned to s1 and the reliability 0.9 assigned to t1 or the maximum value 0.9 is set as the reliability after merging.
  • the entire reliability is updated according to the change in the reliability. For example, if there is a speech recognition result indicated by the lattice shown in FIG. 5B and a text input “Nazi”, it is checked against “na ci” in the lattice. As a result of increasing the reliability of these syllables to 1, the reliability of competing “ma ci” is relatively lowered considering the DP score. Thereafter, a search query is generated based on the updated lattice expression.
  • the recognition result for a plurality of speech inputs can be converted into a single search query by merging the recognition results as in the case of the recognition result and the text input.
  • the reliability may be changed for the user's correction operation. For example, when the operation history is in the order of (1) voice input ⁇ (2) search candidate presentation ⁇ (3) “correction” operation ⁇ (4) text input, (4) is an operation correcting (1) It is assumed that When such a correction history is extracted, a search query is generated by multiplying the reliability of (1) by a predetermined penalty. If the penalty is 0, corrected utterances are ignored. In the case of 0 or more, a search query synthesized with (4) is generated after the reliability of the speech recognition result obtained in (1) is estimated lower.
  • the advantage of making the penalty greater than 0 is that a search result that is more appropriate than the case of only text input can be obtained because the search is performed based on a lattice that has been revised in consideration of the correction portion due to text input.
  • “Nachi Otaki in Wakayama” can be given a relatively high score among the candidate names.
  • the reliability may be changed for the user's narrowing operation. For example, when the operation history is in the order of (1) voice input ⁇ (2) search candidate presentation ⁇ (3) narrowing-down operation ⁇ (4) voice input, (4) is a narrowed-down operation with respect to (1) It is assumed that When such a narrowing history is extracted, a search query is generated by adding a predetermined prime value to the reliability of (1). If the prime value is 0, (1) and (4) are considered equivalent. At this time, if a candidate with high reliability is obtained from (4), the contribution to the search of (1) becomes relatively small.
  • the user has approved the search result based on (1) in (2), and at least gives a positive prime value that revises the reliability so that high reliability can be obtained for the presented candidate, A highly consistent candidate can be presented as a refinement operation.
  • a prime value for example, when the name of a chain store is uttered by the first utterance and the branch name is uttered by the second utterance, the rate at which the chain store disappears from the candidates due to misrecognition included in the second utterance can be reduced.
  • the search device can realize search based on a plurality of input means in consideration of reliability. For this reason, when the situation where manual operation is restricted in an in-vehicle device such as a car navigation system, a search can be performed by combining voice operation and manual operation. In addition, the correction operation and the narrowing-down operation can be improved in consideration of the dialogue history.
  • FIG. 9 is a block diagram illustrating a configuration of the search device according to the second embodiment.
  • the search apparatus shown in the figure includes a control unit 100, an acoustic standard pattern 101, a recognition dictionary 102, a speech recognition unit 103, a text input unit 104, an operation history storage unit 105, a search query generation unit 106, a search target database 107, and a database search unit. 108, a search result presentation unit 109, and a text input prediction unit 201.
  • the characteristic part of the second embodiment which is different from the search device according to the first embodiment, includes a text input predicting unit 201, and refers to at least one of a speech recognition result and a database search result stored in the operation history storage unit 105. Predicting text input and presenting it to the user.
  • the text input predicting unit 201 determines that the speech recognition result may be corrected with reference to the operation history storage unit 105, the text input predicting unit 201 next inputs the text based on the word lattice and the character input result of the recognition result. Predict the characters that will be played. If the reliability of the prediction result exceeds the threshold, the user is notified.
  • the history of the operation history storage unit 105 is initialized by the control unit 100 in advance (step S200).
  • the text input predicting unit 201 refers to the operation history storage unit 105 to determine whether the text input can be predicted (step S201). If possible, predict text input and get candidates and their scores. Then, a candidate to be presented is determined based on the threshold value of the score and the maximum number of candidates to be presented, and the candidate is presented to the user (step S202).
  • a specific candidate presenting method when presenting on a touch panel, the display form such as the color of the touch panel, the color of the button, the font, the size of the character, etc. is changed to facilitate distinction from the other buttons.
  • the search device waits for user input (step S203).
  • the voice recognition unit 103 detects a time interval of the input voice, outputs a recognition result to which a reliability is given for each word, describes information on the input method, and stores it in the operation history storage unit 105. (Step S204).
  • the text input unit 104 stores the text input unit 104 in the operation history storage unit 105 upon completion of the text input unit (step S205).
  • the search query generation unit 106 generates a search query based on the operation history sent by the operation history management unit 105 in response to the input completion signal in step S202 and step S203 or the signal acquired from the control unit 100 (step S206).
  • the database search unit 108 searches the search target database 107 using the search query generated by the search query generation unit 106, and generates a presentation candidate list based on the search score totaled for each candidate entry (step S207).
  • the search result presentation unit 109 presents the generated presentation candidate list on the screen and notifies the user (step S208). Thereafter, the process returns to step S201 to predict text input, and then enters a user input standby state.
  • the search result desired by the user can be presented, the user browses the search result and achieves the purpose.
  • the search result desired by the user cannot be presented due to the large number of candidates, it is possible to further input a voice or text to limit the candidates.
  • a desired result for example, a desired facility
  • the user corrects the input content and performs a search again.
  • it is invalidated in order from the last input registered in the operation history storage means 105.
  • the number of valid inputs is 0, the number of presentation candidates is also 0. If there are more than one, the previous search result is returned (step S209).
  • the speech recognition result to be corrected is acquired based on the operation history storage unit 105, and the degree of coincidence between the existing speech recognition result lattice s1 and the existing text input result t1 is determined.
  • the next character after the matching part is added to the input candidate list.
  • the degree of coincidence is calculated by performing DP matching in consideration of insertion / deletion / replacement of syllables, and specifying syllables / similar syllable strings that are commonly included in the recognition result and the input text.
  • a DP score is calculated for a pattern in which (1) s1 and t1 have the same contents and (2) s1 includes t1 as paths that can be DP matched, and these hypotheses are verified.
  • a syllable that matches the text input is acquired, and subsequent syllables are acquired as prediction results.
  • a score is assigned to the syllable predicted according to the reliability of the extracted syllable. When there is no text input, the top part of the recognition result is presented as a candidate.
  • a second method for performing text input prediction will be described.
  • candidate names are searched based on the first embodiment, and candidates with higher scores are extracted.
  • a name including an expression that matches the text input is extracted, and a list of syllables following the matching expression is created and used as a syllable prediction result.
  • a score is given to the syllable predicted according to the frequency.
  • the search device performs a search based on the possibility of being a part of the speech recognition result or the input text and the speech recognition result when text is input in correcting the speech recognition result. Based on the possibility of being part of the name of the result, it can be presented to the user as a syllable that is likely to be input next. By doing in this way, it becomes possible to save the effort of a user's text input.
  • the present invention relates to the convenience of the voice search technology, and may be applied to, for example, a car navigation system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 音声入力によるデータベース検索は認識誤りのために、テキスト入力との組合せで認識誤り修正の方法があるが、搭載機器によっては、手操作による制限が生じ、手操作での検索が継続できなくなり、音声操作と手操作を相互に引き継ぎ入力および検索を進められることが望まれる。  音声認識手段で認識された入力音声の検索発話の認識結果と、テキスト入力手段で手操作入力された検索テキスト結果を操作履歴格納手段に格納し、検索クエリ生成手段で操作履歴格納手段からの入力を統合し信頼度を付与して生成された検索クエリに基づいてデータベースの検索をデータベース検索手段で行い、検索結果を検索結果提示手段でユーザへ提示する。

Description

検索装置
 この発明は、音声入力およびテキスト入力によって、あいまい性を含む検索結果を提示する検索装置に関するものである。
 音声による入力は、キーボードやタッチパネルに比べて初心者でも素早い入力が可能な利点がある。音声による検索においては、近年、大語彙連続音声認識とデータベース検索を組み合わせた全文検索や名称検索が検討されている。典型的な音声認識とデータベース検索の組み合わせは、図11に示すように入力音声を音声認識手段103で音響標準パタン101と認識辞書102を参照して音声認識し、その結果を用いて検索クエリ生成手段106で検索クエリを生成し、この生成検索クエリによりデータベース検索手段108で検索対象データベース107の検索を行い、検索結果提示手段109で提示するものである。このとき、音声認識の出力は、語彙に制限があること、認識誤りが含まれることを考慮する必要がある。
 これら音声認識の性質を考慮した検索方法として、特開2004-5600号公報(特許文献1)では、単語の認識単位について音声認識の確からしさを表すスコアを考慮して認識結果に含まれる複数の単語を検索に用いる方法が開示されている。また、特開2004-348552号公報(特許文献2)では、音声認識誤りを考慮して認識結果から検索に用いる単語を拡大する方法が開示されている。
 さらに、従来、複数の発話に基づく操作、また手操作と組み合わせて誤認識を修正する方法が開示されており、特開2004-258480号公報(特許文献3)では、車載機器での利用を想定して音声認識結果の訂正の際、同一母音の文字、音声認識スコアの高い文字・語に該当する文字等、特定の一文字へのみ修正できるようにすることで選択候補を制限する訂正方法が開示されている。
特開2004-5600号公報 特開2004-348552号公報 特開2004-258480号公報
 上記の通り音声の性質を考慮して検索の精度を改善する方法と、テキスト入力との組み合わせにより音声認識誤りを修正する方法が開示されている。これらを組合わせて音声入力の認識結果を修正して精度を高めることが可能である。しかし、検索用途において、音声とテキストで入力可能な場合、音声とテキストで入力内容が異なる場合が生じやすい。これは、音声による入力では10音節以上の名称でも一言で容易に入力できるため、長い発話で候補を限定する方が利便性が大きく、その一方で、手操作による入力は、特にタッチパネルで提示された多数の文字から選択する場合、手間が大きくユーザは最小の入力数による検索を試みる傾向があるためである。また、音声の訂正操作は、語頭から入力する、あるいは特定箇所を指定して入力する必要があるため複雑である。この結果、音声入力による検索に失敗した場合、訂正よりも手操作で再入力する方が好まれる。
 また、カーナビゲーションシステム等の車載機器においては、車の走行中に手操作が制限される場合が生じる。このため、手操作で実施していた検索が継続できなくなる場合がある。逆に音声検索の途中で手操作が解除される場合がある。このような場合、音声操作と手操作を相互に引き継いで入力および検索を進められることが望ましい。
 本発明は、上記を鑑みて、信頼度と操作履歴とを考慮して統合したクエリを生成して検索を行うことにより、音声による入力と、手操作による入力を組合せて検索の精度を改善することを目的とする。また、音声操作による入力内容または検索結果の少なくとも一方を参照して入力されるテキストを予測し、操作性を改善することを目的とする。
 本発明に係る検索装置は、
 入力された音声による検索発話を認識する音声認識手段と、
 手操作による検索テキストを入力するテキスト入力手段と、
 音声の認識結果とテキスト入力結果を格納する操作履歴格納手段と、
 操作履歴格納手段から入力される音声の認識結果とテキスト入力結果を統合し信頼度を付与した検索クエリを生成する検索クエリ生成手段と、
 検索クエリに基づいてデータベースの検索を行うデータベース検索手段と
 検索結果をユーザへ提示する検索結果提示手段を備える。
 本発明に係る検索装置によれば、
操作履歴格納手段に、音声認識手段で認識された入力音声の検索発話の認識結果と、テキスト入力手段で手操作入力された検索テキスト結果が格納され、検索クエリ生成手段で操作履歴格納手段から出力を統合し信頼度を付与して検索クエリを生成し、この生成された検索クエリに基づいてデータベースの検索をデータベース検索手段で行うので、信頼度を考慮して複数の入力手段に基づく検索が実現できる。このため、例えば、カーナビゲーションシステム等の車載機器において手操作が制限される状況が生じる場合にも、音声操作と手操作を組み合わせて検索が行える。また、対話履歴を考慮して訂正操作や絞込み操作の改善が可能となる。
本発明の実施の形態1に係る検索装置の機能ブロック図である。 隠れマルコフモデルにより表現された音素の時間構造例の説明図である。 認識辞書に記載された単語とその制約を記述する単語定義辞書例の説明図である。 認識辞書に記載された単語連鎖とその確率を示す単語接続辞書例の説明図である。 音声認識手段による認識結果の音節列および音節ラティス例の説明図である。 検索用索引ファイルの構成例の説明図である。 操作画面構成例の説明図である。 実施の形態1に係る検索装置の動作フロー説明図である。 実施の形態2に係る検索装置の機能ブロック図である。 実施の形態2に係る検索装置の動作フロー説明図である。 従来の音声検索装置の構成を示す機能ブロック図である。
 実施の形態1.
 図1は、本発明の実施の形態1に係る検索装置の構成を示すブロック図である。
 図に示す検索装置は、制御手段100、音響標準パタン101、認識辞書102、音声認識手段103、テキスト入力手段104、操作履歴格納手段105、検索クエリ生成手段106、検索対象データベース107、データベース検索手段108、検索結果提示手段109からなる。
 従来の検索装置と異なる本発明に係る実施の形態1に特徴的な部分は、操作履歴格納手段105を備え、制御手段100、音声認識手段103、テキスト入力手段104から入力される操作の履歴と、入力の信頼度を考慮して検索クエリを生成し検索することである。以下、実施の形態1に係る検索装置の構成および動作を説明する。
 制御手段100は、ユーザ操作または外部機器からの入力に基づいて操作履歴格納手段105の初期化や操作履歴の訂正要求等を行う。また、操作履歴格納手段105の要求に応じてユーザ操作や外部機器からの入力を取得し操作履歴へ追加する。
 音響標準パタン101は、音声認識の際に照合する音素など音声認識の基本単位に対応する音声のスペクトルとその時間的な構造を表す。例えば、音素を単位とする時系列を自己回帰アークあり、後戻りアーク無しの各3状態の隠れマルコフモデルを用いる。各状態に対応する音響特徴量は、共分散を保持する8混合ガウス分布で表す。図2は上記の隠れマルコフモデルの構造を図示したものである。音響標準パタンのパラメータは、予め多数の話者の学習用音声データから推定しておく。
 認識辞書102は、認識対象の表現を音響標準パタンの組み合わせで記述するための辞書である。具体的には、音響標準パタンの中に対象の言語的な出力対象と制約を記述する単語定義辞書と、単語間のつながりを記述する単語接続辞書からなる。単語定義辞書の例を図3に示す。また、3つの単語の連鎖(トライグラム)する確率として単語接続を記述する例を図4に示す。
 音声認識手段103は、入力された音声を音響標準パタン101および認識辞書102と照合し、照合の度合いを表すスコアが高い単語の組み合わせを単語単位で信頼度が付与された認識結果を出力する。具体的な処理は、音声分析処理、照合処理、探索処理からなる。
 音声分析処理は、入力音声を音声認識に好適な音響特徴量へ変換する処理である。例えば、音響特徴量の算出方法として、マイクロフォンで入力された音声波形を標本化周期16kHz・16ビットでA/D変換し、時間フレーム10ms間隔で256点フーリエ変換によりパワースペクトルを求め、振幅および周波数軸を対数化した後で逆フーリエ変換を行い12次元のメルケプストラムと、その時間方向の1次回帰係数12次元の合計24次元を用いる。
 照合処理は、音声分析処理で算出した時間フレームの音響特徴量と音響標準パタン101を照合し、照合度合いを表す局所的スコアを算出する処理である。例えば、音響標準パタンを多次元混合ガウス分布で表現しておき、入力された音響特徴量が出力される確率を算出しスコアとする。
 探索処理は、認識辞書102に記載される言語的な制約のもとで、照合処理による算出される局所スコアを累積し、音声全体に対してスコアが高い単語列の候補とそのスコアを求める処理である。入力音声全体との照合が終了した場合、バックトラックを行い、認識結果を取得する。認識結果とは、認識単位の単語により表現される単語列、または単語ラティスである。ここで、認識単位の単語とは、言語学的な意味の単語ではなく音響標準パタン101に記載された標準パタンの組み合わせで表現される単位であり、音素や音節であっても良い。また、認識時よりも短い単位への変換を認識終了後に行うことは容易である
 単語ラティスとは、音声認識結果の出力表現の一つであり、各時刻における複数の上位候補の結果を時間方向に集約してグラフ構造としたものである。単語ラティスは、最大スコアとなる認識結果の単語列や文単位で複数の候補を出力するNベスト認識結果を包含する。認識結果の出力表現の例を図5に示す。図5(1)が1位の認識結果の音節表現(和歌山県町の滝)、図5(2)が音節ラティス表現であり「和歌山県町の滝」「岡山県町の滝」「和歌山県那智大滝」「岡山県那智大滝」の4種類の表現を包含する。
 認識結果の単語やその一部を表す音節に対して、それぞれ信頼度が付与される。信頼度とは、認識結果に含まれる単語の妥当性を表す指標である。具体的には、音響標準パタン101との照合スコア、認識辞書102における単語の並び、競合する候補との関係等を集約している。ここでは、信頼度は、0以上1以下に正規化されているものとする。信頼度が大きい程確実性が高く、信頼度が1の場合ユーザの入力に確実に含まれることを表す。
 音声認識の詳細な方法については、「音声認識の基礎(上)(下)」、Lawrence Rabiner、Biing-Hwang Juang共著、古井貞煕監訳、NTTアドバンステクノロジ株式会社(参照文献1)および「SPOKEN LANGUAGE PROCESSING -A guide to Theory、 Algorithm and System Development-」、Xuedong Huang、 Alex Acero、Hsiao-Wuen Hon共著、Prentice Hall.(参照文献2)に詳細に説明されている。特に、ラティスの算出方法は、参照文献2の13.3節に詳しく説明されている。
 テキスト入力手段104は、キーボードやタッチパネル等の文字を入力するインタフェースであり、入力単位ごとに操作履歴格納手段105へ格納する。好適な入力単位は言語や入力インタフェースに依存する。日本語であれば音節(カナ1文字に相当)、英語であればアルファベットまたは単語となる。テキスト入力結果も信頼度1の単語ラティスとみなすことができる。
 操作履歴格納手段105は、音声認識手段103による音声認識結果あるいはテキスト入力手段104によるテキスト入力結果を検索に必要な情報を保持して順次格納しておくメモリである。具体的には、入力の順番、入力方法の種別、認識結果を表す単語ラティスと信頼度、テキスト入力結果等である。また、入力以外にも検索結果に対する「訂正」等のユーザ操作を格納する。
 検索クエリ生成手段106は、操作履歴格納手段105に格納された操作履歴を取り出し、入力文字列に対して付与された信頼度を考慮して検索クエリベクトルへ変換する。検索クエリベクトルは、入力から抽出される音素・音節・単語等の言語的な単位やその組み合わせを単位としたベクトル表現である。整合性のため音声認識手段103、テキスト入力手段104から取得される単位のうち短い言語的な単位に合わせる。検索クエリベクトルの作成方法については後述する。
 検索用データベース107は、検索対象のデータベースである。予め、検索クエリを構成する検索語に対する索引を生成しておくことで検索を高速化できる。検索方法および索引作成方法については、「情報検索アルゴリズム」 北研二、津田和彦、獅子堀正幹 共著、共立出版2002、(参照文献3)に説明されている。例えば、検索単位を音節として名称「和歌山の那智大滝」(音節表記:wa-ka-ya-ma-no-na-ci-o-o-ta-ki、候補ID=1)、「日光華厳の滝」(音節表記:ni-Q-ko-o-ke-go-N-no-ta-ki、候補ID=2)に対する索引の例を図6に示す。
 データベース検索手段108は、検索用データベース107を参照し、検索クエリ生成手段が生成したクエリに基づいて検索結果の候補を取得する。このとき、マッチした検索クエリを構成する個々の音節に付与された信頼度の合計により検索スコアを定義する。
 例えば信頼度が全て1の音節列による検索クエリ「華厳の滝」(ke-go-N-no-ta-ki)に対して図6に示す索引を参照すると、ID=1については「no」「ta」「ki」の3検索語がマッチし信頼度の合計による検索スコアは3点、ID=2に対しては全てマッチしスコアが6点となる。「te-go-N-no-ta-ki」と誤って認識した場合でもスコアはそれぞれ3点と5点となり、音声認識誤りや登録通りの名称で無い場合であっても部分的なマッチから検索できる。
 上記では、信頼度の合計により検索スコアを定義したが、予め索引側の検索語に対して指標値を付与しておき積和等の演算により検索スコアとしても良い。索引側へ付与する指標値としては、TF・IDF(Term Frequency・Inverse Document Frequency)や検索語の長さを表す重み等が利用できる。検索を行う際、信頼度1の検索語に対して該当しない候補は最終的に削除するようにしても良い。この場合、テキスト入力で入力した語彙を必ず含む検索結果を取得できる。
 検索結果提示手段109は、データベース検索手段108の検索結果をユーザへ提示する。
 図7は、本検索装置に好適なユーザインタフェース画面の一例である。画面の上半分は検索結果を提示しており、ユーザは任意の検索結果を選択可能である。画面の下半分は、入力およびフロー操作のためのボタンと、入力結果を提示する文字提示ボックスが配置されている。入力のボタンとしてテキスト入力のための50音文字入力パレット、音声入力開始のための「発声」キー、「訂正」キー、操作履歴を初期状態に戻す「クリア」キーが配置されている。1発話または1文字入力するたびに、検索クエリを生成し、検索結果を更新する。別途、「検索」キーを配置し文字入力後に「検索」キーを押下する設計としても良い。また、画面を機能ごとに複数に分割して提示しても良い。
 次に図8のフローチャートを参照し、実施の形態1に係る検索装置の動作を説明する。あらかじめ、制御手段100により操作履歴格納手段105の履歴を初期化しておく(ステップS100)。検索装置は、ユーザの入力を待ち受ける(ステップS101)。
 入力が音声の場合、音声認識手段103は入力音声の時間区間を検出し、単語ごとに信頼度が付与された認識結果を出力し、入力方法の情報を記載して操作履歴格納手段105へ格納する(ステップS102)。
 入力がテキストの場合、テキスト入力手段104はテキスト入力単位の入力が完了すると操作履歴格納手段105へ格納する(ステップS103)。
ステップS102・ステップS103の入力完了信号、あるいは制御手段100より取得される信号により操作履歴管理手段105が送出した操作履歴に基づいて、検索クエリ生成手段106は検索クエリを生成する(ステップS104)。
 データベース検索手段108は、検索クエリ生成手段106で生成された検索クエリにより検索対象データベース107を検索し、候補エントリごとに集計した検索スコアに基づいて提示候補リストを生成する(ステップS105)。
 検索結果提示手段109は、データベース検索手段108で生成された提示候補リストを画面提示してユーザへ通知する(ステップS106)。
 この後、ステップS101に戻りユーザの入力待ち受け状態となる。ユーザが所望する検索結果が提示できた場合、検索結果を閲覧でき、ユーザは目的を達成する。
 候補数が多いためユーザが所望の検索結果を提示できなかった場合、さらに音声またはテキストを入力し、候補を限定することが可能である。
 所望の結果(例えば施設等)が検索できなかった場合、ユーザは入力内容を訂正して再検索を行う。ユーザからの訂正要求があった場合、操作履歴格納手段105に登録された最後の入力から順に無効にしていく。この結果、有効な入力が0件となった場合、提示候補も0件となる。1件以上ある場合、前の検索結果に戻る(ステップS107)。
 検索クエリの作成方法
 検索クエリ作成手段106における検索クエリの作成方法について説明する。以下、音声認識結果のみ、テキスト入力結果のみ、音声認識結果とテキスト入力結果の組み合わせの場合、複数の音声入力の場合について、それぞれ説明する。また、訂正操作の扱い、絞り込み操作の扱いを説明する。この説明では検索語は音節とし、認識結果・テキスト入力は予め音節と音節ごとの信頼度へ変換されているものとする。
 単一の音声認識結果である場合。
 操作履歴格納手段105より取得される操作履歴が単一の音声認識結果である場合、音節と音節ごとの信頼度の組み合わせからなる検索クエリベクトルへ変換する。認識結果中に複数回出現する音節の信頼度は、個別の信頼度の和あるいは最大値とする。
 テキスト入力である場合。
 操作履歴格納手段105より取得される操作履歴がテキスト入力である場合、各音節の信頼度が1である他は音声認識結果の場合と同様である。
 音声認識結果s1およびテキスト入力t1である場合。
 操作履歴格納手段105より取得される操作履歴が音声認識結果s1およびテキスト入力t1である場合、音声認識結果s1とテキスト入力t1を統合した検索クエリベクトルを生成する。この生成方法は2通りある。一つは、音声認識結果s1とテキスト入力t1それぞれから検索クエリベクトルを作成し、作成した検索クエリベクトルを単一の検索クエリベクトルへマージするものである。各検索語の信頼度は2つの信頼度の和あるいは最大値とする。
 もう一つの方法は、s1とt1の対応関係の仮説を準備しておき、仮説に基づいて音節あるいは単語のラティスの一致度合いを求め、一つのラティス表現へ集約し検索クエリを生成するものである。このとき、音声認識結果がラティス表現である場合、競合する他候補の信頼度も更新される。具体的な一致度合いの算出は、音節の挿入・削除・置換を考慮して動的計画法(DP;Dynamic Programming)でマッチングを行い認識結果と入力テキストで共通して含まれる音節・類似した音節列を特定する。このとき、DPマッチング判定対象とする対応関係の仮説としては、(1)s1とt1が同内容、(2)s1とt1の一方が他方を包含、(3)s1の末尾がt1の先頭よりも前(あるいはその逆)等のパタンがある。DPスコアを算出し、これらの仮説を検証する。DPマッチングにより対応関係の仮説と、仮説に基づくs1とt1を構成する音節または単語の対応関係が得られる。対応付けの結果、同一と判定した音節または単語はマージして元の信頼度を更新する。例えば、s1に付与された信頼度0.1とt1に付与された信頼度0.9の合計1.0または最大値0.9をマージ後の信頼度とする。ラティスの場合、信頼度の変化に応じて全体の信頼度を更新する。例えば、図5(2)に示すラティスで示される音声認識結果と、テキスト入力「ナチ」があった場合、ラティス中の「na ci」と照合する。これら音節の信頼度を1へ増加させた結果、競合する「ma ci」の信頼度はDPスコアを考慮して相対的に低下する。この後、更新されたラティス表現に基づいて検索クエリを生成する。
 上記の方法により、ラティス表現同士のマージも可能である。このため、複数回の音声入力に対しての認識結果についても認識結果とテキスト入力の場合と同様に認識結果をマージして単一の検索クエリへ変換できる。
 ユーザの訂正操作に対して、信頼度を変化させても良い。例えば、操作履歴が(1)音声入力→(2)検索候補提示→(3)「訂正」操作→(4)テキスト入力という順序である場合、(4)は(1)を訂正している操作であることが想定される。このような訂正履歴が抽出された場合、(1)の信頼度へ所定のペナルティを乗じて検索クエリを生成する。ペナルティを0とすれば訂正発話は無視される。0以上の場合、(1)で求めた音声認識結果の信頼度をより低く見積もった上で(4)と合成した検索クエリを生成する。ペナルティを0より大きくする利点は、テキスト入力による訂正部分を考慮して改訂したラティスに基づいて検索するためテキスト入力のみの場合よりも妥当な検索結果が得られる点である。前出の例では、(1)音声入力「和歌山県那智の滝」(「ワカヤマケンマチノタキ」と誤認識、目的施設「和歌山の那智大滝」より上位の候補が多数あり提示できず)に対して、(4)テキスト入力において「ナ」と入力した時点で「和歌山の那智大滝」を候補名称中で相対的に高いスコアを付与できる。
 ユーザの絞込み操作に対して信頼度を変化させても良い。例えば、操作履歴が(1)音声入力→(2)検索候補提示→(3)絞込み操作→(4)音声入力という順序である場合、(4)は(1)に対して絞込みしている操作であることが想定される。このような絞込み履歴が抽出された場合、(1)の信頼度へ所定のプライム値を加算して検索クエリを生成する。プライム値を0とした場合、(1)と(4)は等価と見なされる。このとき、(4)から高い信頼度の候補が得られると相対的に(1)の検索への寄与が小さくなる。ユーザは(1)に基づく検索結果を(2)で承認しており、少なくとも提示済みの候補に対して高い信頼度が得られるように信頼度を改訂する正のプライム値を付与することで、絞込み操作として一貫性の高い候補を提示できる。プライム値を付与することで、例えば、第1発話でチェーン店名称、第2発話で支店名を発声する場合、第2発話に含まれる誤認識によりチェーン店が候補から無くなる割合を少なくできる。
 以上に説明したように、実施の形態1に係る検索装置は、信頼度を考慮して複数の入力手段に基づく検索が実現できる。このため、カーナビゲーションシステム等、車載機器において手操作が制限される状況が生じる場合に、音声操作と手操作を組み合わせて検索が行える。また、対話履歴を考慮して訂正操作や絞込み操作の改善が可能である。
 なお、上記実施の形態では音声入力とテキスト入力の場合について説明したが、検索単位について信頼度が付与される場合であれば、文字認識等、その他の入力方式と組み合わせることも可能である。また、誤認識の傾向を表すテーブルを参照し認識結果から検索クエリを生成する際に、認識結果または単語ラティスを拡大することも可能である
 実施の形態2.
 図9は、実施の形態2に係る検索装置の構成を示すブロック図である。
 図に示す検索装置は、制御手段100、音響標準パタン101、認識辞書102、音声認識手段103、テキスト入力手段104、操作履歴格納手段105、検索クエリ生成手段106、検索対象データベース107、データベース検索手段108、検索結果提示手段109、テキスト入力予測手段201からなる。
 実施の形態1による検索装置と異なる本実施の形態2に特徴的な部分は、テキスト入力予測手段201を備え、操作履歴格納手段105に格納された音声認識結果とデータベース検索結果の少なくとも一方を参照してテキスト入力を予測しユーザへ提示することである。
 以下、実施の形態2に係る検索装置の構成および動作を説明する。ただし、実施の形態1において既に説明済みの機能ブロックについては同一の符号を付し説明を省略する。
 テキスト入力予測手段201は、操作履歴格納手段105を参照して音声認識結果が訂正されている可能性があると判定した場合に、認識結果の単語ラティスと文字入力結果に基づいて次にテキスト入力される文字を予測する。予測結果の信頼度がしきい値を超える場合、ユーザへ通知する。
 次に図10のフローチャートを参照し、実施の形態2に係る検索装置の動作を説明する。あらかじめ、制御手段100により操作履歴格納手段105の履歴を初期化しておく(ステップS200)。
 テキスト入力予測手段201は、操作履歴格納手段105を参照してテキスト入力の予測が可能か判定する(ステップS201)。可能である場合、テキスト入力を予測し候補とそのスコアを得る。そして、スコアのしきい値、提示する最大候補数に基づいて提示する候補を決めて候補をユーザを提示する(ステップS202)。具体的な候補提示方法としては、タッチパネルで提示する場合、タッチパネルの文字やボタンの色・フォント・字の大きさなどの表示形態を変えてそれ以外のボタンとの区別を容易にする。
 検索装置は、ユーザの入力を待ち受ける(ステップS203)。
 入力が音声の場合、音声認識手段103は入力音声の時間区間を検出し、単語ごとに信頼度が付与された認識結果を出力し、入力方法の情報を記載して操作履歴格納手段105へ格納する(ステップS204)。
 入力がテキストの場合、テキスト入力手段104はテキスト入力単位の入力が完了すると操作履歴格納手段105へ格納する(ステップS205)。
 ステップS202およびステップS203の入力完了信号、あるいは制御手段100より取得される信号により操作履歴管理手段105が送出した操作履歴に基づいて、検索クエリ生成手段106は検索クエリを生成する(ステップS206)。
 データベース検索手段108は、検索クエリ生成手段106により生成された検索クエリにより検索対象データベース107を検索し、候補エントリごとに集計した検索スコアに基づいて提示候補リストを生成する(ステップS207)。
 検索結果提示手段109は、生成された提示候補リストを画面提示してユーザへ通知する(ステップS208)。
 この後、ステップS201に戻りテキスト入力予測しその後、ユーザの入力待ち受け状態となる。
 ユーザが所望する検索結果が提示できた場合、ユーザは検索結果を閲覧し、目的を達成する。
 候補数が多いためユーザの所望する検索結果が提示できなかった場合、さらに音声またはテキストを入力し、候補を限定することが可能である。
 所望の結果(例えば所望の施設)を検索できなかった場合、ユーザは入力内容を訂正して再検索を行う。ユーザからの訂正要求があった場合、操作履歴格納手段105に登録された最後の入力から順に無効にしていく。この結果、有効な入力が0件となった場合、提示候補も0件となる。1件以上ある場合、前の検索結果に戻る(ステップS209)。
 入力テキストの予測方法
 音声認識結果および音声認識結果による検索結果に基づく2通りの入力テキスト予測方法について説明する。
 まず、テキスト入力予測を行なう第1の方法を説明する。
 テキスト入力予測が実施される条件に該当する場合、操作履歴格納手段105に基づいて訂正対象となった音声認識結果を取得し既存の音声認識結果ラティスs1と既存のテキスト入力結果t1の一致度合いを求め、一致部分の次の文字を入力候補リストへ追加する。具体的な一致度合いの算出は、音節の挿入・削除・置換を考慮してDPマッチングを行い認識結果と入力テキストで共通して含まれる音節・類似した音節列を特定する。このとき、DPマッチング可能なパスとして、(1)s1とt1が同内容、(2)s1がt1を包含、のパタンについてDPスコアを算出し、これらの仮説を検証する。DPマッチングの結果、テキスト入力と一致する音節を取得し、後続する音節を取得し予測結果とする。また、抽出した音節の信頼度に応じて予測した音節へスコアを付与する。テキスト入力が全く無い状態では、認識結果の先頭部分を候補として提示する。
 テキスト入力予測を行なう第2の方法を説明する。
 テキスト入力予測が実施される条件に該当する場合、実施の形態1に基づいて候補名称を検索しスコアが上位の候補を抽出する。さらに、検索結果の名称のうち、テキスト入力と一致する表現を含む名称を抽出し、一致する表現に続く音節のリストを作成し音節の予測結果とする。また、頻度に応じて予測した音節へスコアを付与する。テキスト入力が全く無い状態では、音声認識結果のみに基づく検索結果の名称の先頭音節を候補として提示する。
 以上に説明したように、実施の形態2に係る検索装置は、音声認識結果の訂正においてテキストが入力される場合に、音声認識結果の一部分である可能性または入力テキストと音声認識結果に基づく検索結果の名称の一部分である可能性に基づいて次に入力される可能性の高い音節としてユーザへ提示することができる。このようにすることにより、ユーザのテキスト入力の手間を省くことが可能となる。
 本発明は音声検索技術の利便性に関するもので、例えば、カーナビゲーションシステム等に適用され、利用される可能性がある。

Claims (9)

  1.  入力された音声による検索発話を認識する音声認識手段と、
     手操作による検索テキストを入力するテキスト入力手段と、
     音声の認識結果とテキスト入力結果を操作履歴として格納する操作履歴格納手段と、
     操作履歴格納手段から入力される音声の認識結果とテキスト入力結果を統合し信頼度を付与した検索クエリを生成する検索クエリ生成手段と、
     検索クエリに基づいてデータベースの検索を行うデータベース検索手段と
     検索結果をユーザへ提示する検索結果提示手段
    を備えることを特徴とする検索装置。
  2.  検索クエリ生成手段は、操作履歴格納手段に格納された操作履歴に含まれる複数の入力それぞれに検索語に対する信頼値がベクトルで表される検索クエリベクトルを生成し、ベクトルの各要素を演算して検索クエリを生成することを特徴とする請求項1記載の検索装置。
  3.  検索クエリ生成手段は、操作履歴格納手段に格納された操作履歴に含まれる複数の入力を表す単語または音節から構成されるラティスを時系列順に並べ、隣接するラティスを動的計画法によりマージするとともに信頼値を更新し、生成された単一のラティスから検索クエリを生成することを特徴とした請求項1記載の検索装置。
  4.  ユーザが音声認識結果を訂正した場合、操作履歴から訂正操作を含む履歴と訂正対象の認識結果を抽出し、訂正対象の認識結果を構成する単語または音節の信頼度を下げ、検索クエリ生成手段は、信頼度が下げられた訂正対象の認識結果を構成する単語または音節を用いて検索クエリを生成することを特徴とする請求項2又は3記載の検索装置。
  5.  ユーザが検索結果の絞込みを行った場合、操作履歴から絞込み操作を構成する入力を抽出し、絞込み前の入力を構成する単語または音節の信頼度を上げ、検索クエリ生成手段は、信頼度が上げられた単語または音節を用いて検索クエリを生成することを特徴とする請求項2又は3記載の検索装置。
  6.  操作履歴から音声認識の訂正操作を含む履歴と訂正対象の認識結果を抽出し、訂正対象の認識結果とテキスト入力結果を動的計画法により照合してテキスト入力との対応付けをとり入力文字列を予測して提示するテキスト入力予測手段を備えることを特徴とする請求項1記載の検索装置。
  7.  ユーザが音声認識結果を訂正した場合、操作履歴から音声認識の訂正操作を含む履歴と訂正対象の認識結果を抽出し、検索クエリ生成手段は、訂正対象の認識結果とテキスト入力結果を動的計画法により照合してテキスト入力との対応付けをとって検索クエリを生成し、データベース検索手段がこの検索クエリで検索対象データベースを検索し、その検索結果からテキスト入力文字列を予測文字列として取得するテキスト入力予測手段を備えることを特徴とする請求項1記載の検索装置。
  8.  テキスト入力のための文字パレットを備え予測した文字の文字パレットによる表示形態は他の場合と変えることを特徴とする請求項6又は7記載の検索装置。
  9.  テキスト入力予測手段は予測した入力文字列の予測スコアを取得し、文字パレットは予測スコアに応じて提示形態を変えることを特徴とする請求項8記載の検索装置。
PCT/JP2008/060454 2008-06-06 2008-06-06 検索装置 WO2009147745A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010515721A JPWO2009147745A1 (ja) 2008-06-06 2008-06-06 検索装置
PCT/JP2008/060454 WO2009147745A1 (ja) 2008-06-06 2008-06-06 検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/060454 WO2009147745A1 (ja) 2008-06-06 2008-06-06 検索装置

Publications (1)

Publication Number Publication Date
WO2009147745A1 true WO2009147745A1 (ja) 2009-12-10

Family

ID=41397837

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/060454 WO2009147745A1 (ja) 2008-06-06 2008-06-06 検索装置

Country Status (2)

Country Link
JP (1) JPWO2009147745A1 (ja)
WO (1) WO2009147745A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014006690A1 (ja) * 2012-07-03 2014-01-09 三菱電機株式会社 音声認識装置
CN104715005A (zh) * 2013-12-13 2015-06-17 株式会社东芝 信息处理设备以及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282779A (ja) * 2000-03-30 2001-10-12 Telecommunication Advancement Organization Of Japan 電子化テキスト作成システム
JP2004258480A (ja) * 2003-02-27 2004-09-16 Toyota Central Res & Dev Lab Inc 車両用音声入力装置
JP2005275348A (ja) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2006277519A (ja) * 2005-03-30 2006-10-12 Toshiba Corp 対話装置、対話シナリオ編集装置、対話方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282779A (ja) * 2000-03-30 2001-10-12 Telecommunication Advancement Organization Of Japan 電子化テキスト作成システム
JP2004258480A (ja) * 2003-02-27 2004-09-16 Toyota Central Res & Dev Lab Inc 車両用音声入力装置
JP2005275348A (ja) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2006277519A (ja) * 2005-03-30 2006-10-12 Toshiba Corp 対話装置、対話シナリオ編集装置、対話方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014006690A1 (ja) * 2012-07-03 2014-01-09 三菱電機株式会社 音声認識装置
US9269351B2 (en) 2012-07-03 2016-02-23 Mitsubishi Electric Corporation Voice recognition device
JPWO2014006690A1 (ja) * 2012-07-03 2016-06-02 三菱電機株式会社 音声認識装置
CN104715005A (zh) * 2013-12-13 2015-06-17 株式会社东芝 信息处理设备以及方法
CN104715005B (zh) * 2013-12-13 2018-02-16 株式会社东芝 信息处理设备以及方法

Also Published As

Publication number Publication date
JPWO2009147745A1 (ja) 2011-10-20

Similar Documents

Publication Publication Date Title
US7949524B2 (en) Speech recognition correction with standby-word dictionary
JP5089955B2 (ja) 音声対話装置
US8380505B2 (en) System for recognizing speech for searching a database
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
CN106663424B (zh) 意图理解装置以及方法
JP6188831B2 (ja) 音声検索装置および音声検索方法
US8612212B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US8200491B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP4680714B2 (ja) 音声認識装置および音声認識方法
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP4634156B2 (ja) 音声対話方法および音声対話装置
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP5004863B2 (ja) 音声検索装置および音声検索方法
WO2009147745A1 (ja) 検索装置
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP3472101B2 (ja) 音声入力解釈装置及び音声入力解釈方法
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP2006031278A (ja) 音声検索システムおよび方法ならびにプログラム
JP5201973B2 (ja) 音声検索装置
KR20210052564A (ko) 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치
JP2021529338A (ja) 発音辞書生成方法及びそのための装置
JP2008083165A (ja) 音声認識処理プログラム及び音声認識処理方法
JP2008286930A (ja) 音声対話装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08765267

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2010515721

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08765267

Country of ref document: EP

Kind code of ref document: A1