WO2007066433A1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
WO2007066433A1
WO2007066433A1 PCT/JP2006/316257 JP2006316257W WO2007066433A1 WO 2007066433 A1 WO2007066433 A1 WO 2007066433A1 JP 2006316257 W JP2006316257 W JP 2006316257W WO 2007066433 A1 WO2007066433 A1 WO 2007066433A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice recognition
external
vocabulary
document
data
Prior art date
Application number
PCT/JP2006/316257
Other languages
English (en)
French (fr)
Inventor
Masanobu Osawa
Reiko Okada
Takashi Ebihara
Original Assignee
Mitsubishi Electric Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38122585&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=WO2007066433(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Mitsubishi Electric Corporation filed Critical Mitsubishi Electric Corporation
Priority to DE112006002979T priority Critical patent/DE112006002979T5/de
Priority to JP2007549020A priority patent/JP4846734B2/ja
Priority to US11/992,938 priority patent/US8060368B2/en
Priority to CN2006800464353A priority patent/CN101326571B/zh
Publication of WO2007066433A1 publication Critical patent/WO2007066433A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention relates to a voice recognition device provided with a plurality of voice recognition documents, and particularly to a voice recognition device provided with a voice recognition device corresponding to a device of a mobile phone.
  • the voice recognition is performed by referring to the word () registered in the voice recognition document, and in order to improve the voice recognition, there are many voice recognition documents. You need to register a word. For this reason, some voice recognition devices have a function of adding a word to an existing voice recognition document to update the voice recognition document and / or a function of creating a voice recognition document for human.
  • the voice recognition device detects that the process of generating a voice recognition document used to generate an electronic message by voice input is started, it is acquired by the application. There is one that reads the extracted document data, analyzes the document data, extracts unknowns that do not exist in the existing voice recognition document, and creates a voice recognition or document that includes the extracted (for example, , Patent).
  • the target when creating or updating a voice recognition document is an application that can receive document data.
  • the frequency of words used for recognition may vary greatly depending on the external device connected to the speech recognition device. Considering that they can be different, a single application (that is, a single
  • the present invention has been made to solve the above problems, and an object thereof is to obtain a voice recognition device capable of efficiently performing voice recognition according to an external device.
  • the external device is connected to the device and the other information is acquired and registered to the external device.
  • the external means for acquiring the data the step of extracting the vocabulary from the data as the extracted vocabulary, analyzing the output vocabulary and assigning the output vocabulary to the analysis data, and separately analyzing the analysis data in the corresponding speech recognition document. It is characterized by having a document generation stage to be stored and a voice recognition document of an external device.
  • the recognition is recognition based on the speech recognition result and, if it is judged to be recognition, switch the speech recognition document and continue the speech recognition processing.
  • it is possible to switch the speech recognition book and perform speech recognition without any special work, and as a result, it is possible to shorten the speech recognition interval and improve recognition.
  • FIG. 4 is a block diagram showing an example of a speech recognition device according to item 2 of 4 above together with an external device.
  • Fig. 6 is a block diagram showing an example of a speech recognition device according to 3 of 6 above, together with an external device.
  • FIG. 8A and 8B are diagrams for explaining the operation of vocabulary dans in the voice recognition device shown in FIG. 86, and (a) and (b) are diagrams showing examples of complements presented by the dans.
  • Voice recognition is equipped with voice input such as iku, voice recognition 2, voice recognition of numbers, (called a dictionary) 3 3 (is an integer on 2), and external means 4, external 5, external 6, It is equipped with external book generation (book generation) 7, vocabulary 8, and C (database for providing information on the music recorded in the nct disk database C to the C source or peripherals) 9.
  • 2 2 are connected to the external acquisition means 4.
  • vocabulary 8 and C form the vocabulary stage, and vocabulary 8 C forms the analysis document.
  • 001 2 2 is, for example, a mobile phone, a small size, a cupboard (for example, Pod (product name), Kibod, or P (Pe so a a ss s a), which are different devices, and the dictionaries 3 3 are respectively
  • the voice input from the voice input plate is given to the voice recognition 2, and the voice recognition 2 refers to the shift of the dictionary 3 3 generated as described later and outputs the human voice. Recognize and produce voice recognition results. In other words, when performing speech recognition on the outside 2 (the number of shifts up to the far side), the speech recognition is performed using the dictionary 3.
  • the external acquisition means 4 acquires the data stored in the external 2 (for example, the reception message for a mobile phone, the artist or am for Po) (step S), and then the external document.
  • the generation 7 is notified of the external 2 () (step S 2).
  • the step S S 2 is similarly executed.
  • the data acquired by the acquisition means 4 is passed to the external 5.
  • the part to be analyzed here (for example, the sentence, song, artist, or am of the received message) is extracted and passed to the external 6 as data (step S3).
  • step S4 when the extracted data is a sentence of a chapter, the sentence is divided into words by referring to the morpheme and vocabulary 8, and the word obtained in the analysis is added to the word.
  • analysis data step S4
  • the extracted data is an artist word
  • C is searched using that notation, and is obtained and given as analysis data.
  • Step S5 the dictionary 3 3 will be generated corresponding to the external 2 2.
  • the above-mentioned 3 3 will be saved in the central area of the memory and will not be deleted by any other purpose. Then, every time the voice recognition is activated, or when switching the external 2, the 3 corresponding to the external 2 is used.
  • step 3 when the external data generator 7 stores the analysis data in the dictionary 3, first, whether or not there is a corresponding 3 based on the external 2 is present. And (
  • step S 7 If the corresponding 3 does not exist in step S 6), a new dictionary 3 is created in the dictionary (step S 7) and the analysis data is stored in this new 3.
  • step S6 determines whether the words in dictionary 3 match the analysis data. It Therefore, the data that does not exist in the dictionary 3 is extracted from the analysis data (step S8), and the data that does not exist in the dictionary 3 is extracted. Only the data is stored in the dictionary 3 and the dictionary 3 is updated (new method step S g). Then, the external document generator 7 discards the analysis data already existing in the dictionary 3.
  • the new dictionary should not be included in the analysis data that exists in the dictionary.
  • the dictionary is configured to be generated according to the external device. Therefore, if speech recognition is performed using an external document, the recognition rate is improved. In addition, the recognition is improved, and the external device can be easily input by voice input.
  • the voice recognition unit 3 further has a voice recognition unit 3, and the external acquisition unit 4 also notifies the voice recognition unit 3 of the external unit 2.
  • the external acquisition means 4 acquires data from the external 2 (step S), and then the external acquisition means 7 receives the external information device 2
  • the external recognition device 3 is notified, and the external recognition device 2 is notified of the external information device 2 (step S).
  • the part to be analyzed is output by 5 and passed to the external 6 as data (step S).
  • step 6 the vocabulary 8 or C is referenced to obtain the analysis data (the vocabulary to which is attached) (step S).
  • Call generation 7 is external Based on the external data sent from 4, the analysis data is stored in 3 corresponding to External 2 (step S 4)
  • step S5 When a plurality of vessels are connected to the external acquisition means 4, the book corresponding to each of these vessels is activated.
  • the book corresponding to the external device is configured to be the acti. Therefore, if voice recognition is performed and the external device is connected to the external acquisition means, the dictionary can be used. As a result, it is possible to input voice without being aware of changing the dictionary.
  • FIG. 6 is a block diagram showing an example of a voice recognition device according to the item 3 of this statement.
  • voice recognition 4 the same elements of voice recognition shown in are given the same symbols.
  • Voice recognition 4 is a vocabulary supplementary selection 4
  • Lexical complement selection 4 allows multiple complements to be selected as choices
  • the external 6 is passed to the external document generator 7 as selective analysis data.
  • external book generation 7 is Based on the external sent from the acquisition means 4, the analysis data is stored in 3 corresponding to the external 2.
  • the external acquisition means 4 transfers the external 2 to the external document generator 7 and acquires the data from the external 2 as described above (step S 6), send this data to external 5.
  • step S 6 extracts the part to be analyzed from the data acquired by the external acquisition means 4, and, for example, in step S 7) at which the artist and the am data are output, Send to external 6.
  • step 6 first, it is judged whether the extracted data is a sentence according to the chapter (step S8) . If the extracted data is a sentence, the external part 6 refers to the morpheme and the vocabulary 8 and the sentence Divide the chapter into words () and assign to the words obtained during analysis to obtain analysis data (step S g)
  • step S8 If the extracted data is judged not to be a sentence in step S8, the analysis data is stored in 2 corresponding to 2 (step S2).
  • step 6 C is searched using the notation as a step (step S 2), and it is judged whether or not it exists as a result of the search (that is, step S 22 in which it is judged that there is a match). If there is a match, the external 6 adds to be the analysis data (step S23). Then, step S 2 is performed by the external document generation 7.
  • step 6 the vocabulary complement similar to the extracted data is selected (step S 24), and the vocabulary 42 presents the vocabulary complement to the data () 43.
  • O x OX is presented as a vocabulary complement in presentation 43, and when the user selects a vocabulary complement as a selection by vocabulary complement selection 4, the selection is performed in step S 23.
  • the external 6 gives the selection and becomes the analysis data.
  • step S 2 is performed by the external document generation 7.
  • the type (the number of characters to the number) of the characters of the registered data of the extracted data is calculated for the converted character.
  • external 6 is the lexical Presented in 43.
  • steps S 22 S 24 correspond to the step.
  • the supplement of the vocabulary supplement is presented by Z by presenting the supplement.
  • the supplement is configured to be registered in the dictionary as a selection. Therefore, it is possible to change each dictionary and reduce recognition.
  • the voice recognition according to the present invention and the voice recognition can be efficiently performed according to the external device, so that the voice recognition is suitable for use, for example, in a voice recognition device used in a mobile phone.

Abstract

 音声認識装置10は、音声認識辞書を参照して入力音声を音声認識して音声認識結果を出力しており、外部接続機器20-1~20-Nが接続され外部接続機器からその種別を取得するとともに外部接続機器に登録されたデータを取得する外部情報取得手段14と、データから語彙を抽出語彙として抽出し抽出語彙を解析して当該抽出語彙にヨミを付与して解析データとする語彙抽出解析手段15及び16と、種別に対応する音声認識辞書に解析データを格納する辞書生成手段17とを有し、外部接続機器の種別毎に音声認識辞書13-1~13-Nを備える。

Description

認識
術分野
0001 この 、複数の 声認識 書を備えて、音声認識を〒 声認識 置に関し 特に、携帯電話機 の 器に対応した音声認識 書を備える音声認識 置に関するものである。 0002 般に、音声認識 置にお ては、音声認識 書に登録された単語( )を参 照して音声認識を行 ており、音声認識 を向上さ るためには音声認識 書に多 数の 語を登録する必要がある。このため、音声認識 置には、既存の 声認識 書に 単語を追加 録して音声認識 書を更新する機能及び 又は 人用の 声認識 書を作成する機能を有するものがある。
0003 えば、音声認識 置にお て、音声入力による電子メ の 成にお て使用 される音声認識 書の 成の 、メ 理が開始されたことを検出すると、ア プ ケ ョンにお て取得された文書デ タを読み込んで文書デ タを解析し、既 存の 声認識 書に存在しな 未知 を抽出して、抽出した を含む 声認、 書を作成するよ にしたものがある( えば、特許 )。
0004 さらに、音声認識 書を作成・ 新する際、第 の 書記憶 に日常 用され る の 記及び 等が登録された の 書を記憶し、 2の 書記 憶 に特殊な の 記及び 等が登録された 2の 書を記憶して、テキ スト で両 書を用 て 態素 〒 方、読み付与 2で入力 態 素に読みを付与する際に、 2の 書の 関して 2の 書の みの 他の候 補の とを対応テ に記録して、音声認識 によ て対応テ の 容に基 て音声認識 書を作成して、音 声認識 書を、認識語彙 2の 書の 記及び他の音 補との けに基 て作成するよ にしたものがある( えば、特許 2 )。 0005 1 2 4 233577 ( 3 ~ 9 、 ~ 9 ) 2 2 3 27 83 ( 6 ~ 2 、 ~ 7 ) 0006 来の 声認識 以上のよ に構成されて るので、音声認識 書を作成・ 新する際の対象が文書デ タの 受信が可能なアプ ケ ョンに限られており、 音声認識 置に接続される外部 器によ て認識の際の単語の 用頻度が大 き 異なることがあり、さらには、外部 器によ て認識に使用する単語・ 異なることもあることを考慮すると、単一のアプ ケ ョン( まり、単一の
のための 声認識 書を作成・ 新するよ にしたのでは、外部 器が異 なると効率的に音声認識を〒 ことができな と 題があ た。
0007 また、従来の 声認識 置では、単一の 声認識 書に解析した単語を登録して るので、登録 語数が増加すると、音声認識 書の 索に時間が り、効率的 に音声認識を行えな ば り 、 が多 な て認識 が低下することがある。 0008 この 上記のよ 課題を解決するためになされたもので、外部 器に応 じて効率的に音声認識を〒 ことのできる音声認識 置を得ることを目的とする。
明の
0009 この 明に係る音声 、音声認識 書を参照して人力 声を 声認識し て音声認識 果を出力しており、外部 器が接続され 器 らその 別を取得するとともに外部 器に登録されたデ タを取得する外部 得 手段と、デ タ ら語彙を抽出語彙として 出し 出語彙を解析して 出語彙 に を付与して解析デ タとする 段と、 別に対応する音声認識 書に解析デ タを 納する 書生成 段とを有し、外部 器の 音 声認識 書を備えることを特徴とするものである。
0010 上のよ に、この 明によれば、音声認識 果に て 認識である 否 を判 定して、 認識であると判定すると、音声認識 書を切り替えて音声認識 理を継 続するよ に構成したので、 特別の 作を〒 ことな 、音声認識 書を切り 替えて音声認識を〒 ことができ、その 果、音声認識 間を短縮して認識 を向上さ ることができると 果がある。
0011 の 明の 施の による音声認識 置の 例を外部 器とともに ック図である。
2 に示す 声認識 置にお て音声認識 書 の 録を説明するた めの チヤ トである。
3 に示す 声認識 置にお て音声認識 書の 新及び新 成を説明 するための チヤ トである。
4 の 明の 施の 2による音声認識 置の 例を外部 器とともに示 す ック図である。
5 4に示す 声認識 置にお て音声認識 書をアクティ とする動作を説明 するための チヤ トである。
6 の 明の 施の 3による音声認識 置の 例を外部 器とともに示 す ック図である。
7 6に示す 声認識 置にお て外部 段の 作を説明する ための チヤ トである。
8 6に示す 声認識 置にお て語彙 段の 作を説明するための 図であり、 (a) (b)はそれぞれ 段によ て提示される 補 の例を示す図である。
明を実施するための 良の
下、この 明をより 細に説明するために、この 明を実施するための 良の 態に て、 の 面に従 て説明する。
施の ・
はこの 明の 施の による音声認識 置の 例を示す ック図であり 、 の 声認識 0は、例えば、 ナビゲ ョン 置で用 られる。 声 認識 は イク等の音声入力 、音声認識 2、 数の 声認、 ( に辞書と呼ぶ) 3 3 ( は2 上の整 )を備えるととも に、外部 得手段 4、外部 5、外部 6 、外部 書生成 ( 書生成 ) 7、語彙 8、 C ( ン クトディスクデ タベ ス C に収録された楽曲に関する情報を C ソ ト又は周辺 器に提供するためのデ タベ ス) 9を備えて る。そして 、外部 得手段 4には複数の 2 2 が接続される。 0013 なお、外部 5、外部 6、語彙
8、 C によ て語彙 段が 成され、語彙 8 C によ て解析 書が 成される。
0014 2 2 は、例えば、携帯電話機、小型 、 クプ ヤ( えば Pod( 品名) 、キ ボ ド、又はP (Pe so a a ss s a )であり、互 に異なる装置であり、辞書 3 3 はそれぞれ
2 2 に対応して る。
0015 声認識を〒 際には、音声入力 皿 ら入力された音声が音声認識 2 に与えられ、音声認識 2は、後述するよ にして生成された辞書 3 3 の ずれ を参照して人力 声を認識して、音声認識 果を出 する。 まり、外部 2 ( は ら までの ずれ の数)に関して音声認識を行 際には、辞書 3 を用 て音声認識が行われる。
0016 なお、上述の 声認識 果に応じて、例えば、カ ナビゲ ョン 置では、画面 外部 2 の 作を 、遷移 の 外部 器の 果が タ 等に表示される。
0017 次に動作に て説明する。
2を参照して、辞書 3 3 の 成に て説明すると、 、外部 2 が外部 得手段 4に接続されると、外部 2 ら機器を特定するための f 号が外部 得手段 4に与えられる。これによ て、外部 得手段 4は外部 2 の 類を判別する。
0018 て、外部 得手段 4は外部 2 内に記憶されたデ タ( えば、携帯電話機であれば受信メ 、 Po であれば 、ア ティスト 、ア ム )を取得した(ステップS )後、外部 書生成 7に外部 2 の ( )を通知する(ステップS 2)。なお、外部 得手段 4に接続 される外部 2 が変更されると、同様にして、ステップS S 2が実 行される。
0019 得手段 4で取得されたデ タは、外部 5に渡され 、ここで解析 象となる部分( えば、受信メ の 文、曲 、ア ティスト 、又 はア ム )を抽出して デ タとして外部 6に渡す(ス テップS 3)
0020 6では、抽出されたデ タがメ 章のよ 文章であ る際には、形態素 、語彙 8を参照して、文章を単語に切り分 け、解析の際に得られる を 語に付与して解析デ タを得る(ステップS 4) 方、抽出されたデ タが ア ティスト の 語である場合には、外部
6はその 記を としてC を検索して、 を取得し当 付与して解析デ タとする。
0021 これら解析デ タは外部 6 ら外部 書生成 7に 渡されて、外部 書生成 7は、外部 得手段 4 ら送られた外部 別に基 て、外部 2 に対応する 3 に解析デ タ を 納する(ステップS 5)。このよ にして、外部 2 2 に対 応して辞書 3 3 を生成することになる。
0022 ころで、前述の 3 3 は、メ 中の辞 域に保存され、 所定の 外によ て削除されることはな 。そして、音声認識 を起動 する都度、又は外部 2 を切り替える際に外部 2 に対応 する 3 が用 られる。
0023 て、 3を参照して、前述のステップ 5に て詳し 説明すると、外部 書生成 7では解析デ タを辞書 3 に 納する際、まず、外部 2 の 別に基 て該当する 3 が存在する 否 を判定し(
ステップS 6)、 当する 3 が存在しな と、辞書 に新 たに辞書 3 を作成して( ステップS 7)、この新 3 に 解析デ タを 納する。
0024 方、ステップS 6にお て、外部 2 に対応する 3 が存在 すると判定した場合には、外部 書生成 7は、辞書 3 中の語 調 て、解析デ タに一致する がある 否 を調 る。 まり、解析デ タ ら辞 書 3 に存在しな デ タを抽出して(ステップS 8)、辞書 3 に存在しな デ タのみを辞書 3 に 納して、辞書 3 を更新する( 新手段 ステップS g)。そして、外部 書生成 7は、辞書 3 に既に存在する 解析デ タを破棄する。
0025 なお、辞書 新の 、辞書に存在する 解析デ タに含まれて な
削除するよ にしてもよ 。このよ にすれば、辞書に 納されるデ タ量の増加 を防止でき、その 率的に音声認識を〒 ことができる。
0026 上のよ に、この 施の によれば、外部 器の 別に応じて辞書を生 成するよ に構成したので、外部 の 書を用 て音声認識を〒 にす れば、認識 率が向上するば りでな 、認識 が向上し、外部 器を容易に 音声入力によ て することができる 果がある。
0027 この 施の によれば、外部 器を外部 得手段に接続すると、 自 動的に対応する 書が更新される結果、 意識することな 辞書の 新が行 える 果がある。
0028 施の 2・
4はこの 明の 施の 2による音声認識 置の 例を示す ック図であり 、 の 声認識 3 にお て、 に示す 声認識 同一の 素 に ては同一の 号を付す。 声認識 3 はさらに音声認識 御手 段3 を有しており、外部 得手段 4は外部 2 の 別を 声認識 御手段3 にも通知する。
0029 5も参照して、 ま、外部 2 が変更されると、前述したよ に、外部 得手段 4は外部 2 らデ タを取得した(ステップS )後、 外部 得手段 7に外部 報機器2 の 別を通知するとともに、音声 認識 御手段3 に外部 報機器2 の 別を通知する(ステップS ) 0030 で関連して説明したよ に、外部 得手段 4で取得されたデ タ ら、外 部 5によ て解析 象となる部分が 出されて デ タとして 外部 6に渡される(ステップS )。そして、外部
6では、語彙 8又はC を参照して、解析デ タ( を付 与した語彙)を得る(ステップS )。 書生成 7は、外部 4 ら送られた外部 別に基 て、外部 2 に対応す る 3 に解析デ タを 納する(ステップS 4)
0031 方、音声認識 御手段3 は、外部 別に応じてこの
2 に対応する 3 をアクティ にする(ステップS 5)。なお、複数の 器が外部 得手段 4に接続されて る際には、これら複数の 器に各 に対応する 書がアクティ とされる。
0032 上のよ に、この 施の 2によれば、外部 器の 別に応じて対応する 書をアクティ とするよ に構成したので、音声認識を〒 、外部 得手段 に外部 器を接続すれば、辞書が切り替えられることにな て、 辞書 の り替えを意識することな 、音声入力を〒 ことができる 果がある。
0033 この 施の 2によれば、外部 得手段に接続された外部 器に対応 する 書のみがアクティ となる結果、音声認識の際に参照す き辞書を削減する ことができ、音声認識を 率的に行 ことができるば りでな 、認識 を向上さ る ことができる 果がある。
0034 施の 3・
6はこの 明の 施の 3による音声認識 置の 例を示す ック図であり 、 の 声認識 4 にお て、 に示す 声認識 同一の 素 に ては同一の 号を付す。 声認識 4 はさらに語彙 補選択 4
42を有しており、後述するよ に、外部
5で 出された デ タ( )を外部 6で解析した結果 られた解析デ タ( が付与された語彙)にゆらぎが存在する場合( えば、複数の 補が存在する場合)、外部 6はその
42に連絡する。
0035 42では複数の 補を、例えば、 タ ( ず)に表 示して、 選択を促す。 語彙 補選択 4 によ て複数の 補 ら の 補を選択 として選択すると、この 外部
6に与えられ、外部 6は選択 解析デ タとし て外部 書生成 7に渡す。そして、外部 書生成 7は、外部 得手段 4 ら送られた外部 別に基 て、外部 2 に 対応する 3 に解析デ タを 納する。
0036 7 8も参照して、 ま、 Podのよ 音楽デ タ 器が外部
2 として外部 得手段 4に接続されて るとすると、前述したよ に、外部 得手段 4は外部 2 の 別を外部 書生成 7に渡 すとともに、外部 2 らデ タを取得して(ステップS 6)、このデ タ を外部 5に送る。
0037 5は、外部 得手段 4で取得されたデ タ ら解析 象となる部分を抽出してにこでは、例えば、 、ア ティスト 、 ア ム デ タが 出される ステップS 7)、抽出デ タとして外部 6に送る。 6では、まず、抽出デ タがメ 章の よ 文章である 否 を判定して(ステップS 8)、抽出デ タが文章であると、外 部 6は形態素 、語彙 8を参照して、文 章を単語( )に切り分け、解析の際に得られる を 語に付与して解析デ タを得る(ステップS g)
0038 この デ タは外部 6 ら外部 書生成 7に送 られ、外部 書生成 7は、外部 得手段 4 ら送られた外部
2 の 別に対応する 2 に解析デ タを 納する(ステップS 2 ) 0039 方、ステップS 8にお て、抽出デ タが文章でな と判定されると、外部
6ではその 記を としてC を検索して(ステップS 2 )、検索 果である 存在する 否 を判定する( まり、一致する がある を判断する ステッ S 22)。 致する があると、外部 6 は を付与して解析デ タとする(ステップS 23)。その 、外部 書生成 7によ てステップS 2 が行われる。
0040 ころで、 、ア ティスト 、又はア ム名にゆらぎがあると、抽出デ タ 一 致する C に存在 ず、ステップS 22にお て、外部
6は検索 果が存在しな 判断する。 えば、 8(a に示すよ に、外部 2 に登録されて るデ タの 記が x であり、C に 録されて る の 記が x 等であると、抽出デ タ 一致する C に存在しな 。この 合、外部
6では、抽出デ タに類似する 語彙 補として選択して(ステップS 24 )、語彙 42によ て タ ( )43に語彙 補を提示する。 0041 8(a)に示す例では、提示 43に語彙 補として、 O x O X が提示され、 ザが語彙 補選択 4 によ て語彙 補 ら の 補を選択 として選択すると、ステップS 23にお て外部 6 は選択 を付与して解析デ タとする。その 、外部 書生成 7 によ てステップS 2 が行われる。
0042 6にお て デ タ 登録 との類 を判定する 際には、抽出デ タの 登録 の 記の 文字の 、 な に変換した際の文 文字の 用 て類 ( 数に対する 字 数の )が求められる。 えば、 (ま た 一致して な )~ ( 全 に一致して る)までの 合 を有し、 が予 定された ( えば、8 ) 上であると、外部 6はその 語彙 補として語彙 42によ て提示 43に提示する。 示の例では、ステップS 22 S 24 が 段に相当する。
0043 8 b 示す例では、外部 2 に登録されて るデ タの 記が ウ ィッ カムズトゥ であり、C に登録されて る の 記が ウィッ カムトゥ 等であると、抽出デ タ 一致する C に存在しな ものの、 定によ て、外部 6は、語彙 42に よ て提示 43に語彙 補として ウィッ カムトゥ を提示する。
0044 上のよ に、この 施の 3によれば、外部 器に登録されて るデ タ の 記に一致する 存在しな 場合にお ても、 する 補を提示して ザが語彙 補 ら の 補を選択すると、選択 として辞書に登録す るよ に構成したので、辞書の 度よ することができ、 認識 を低減するこ とができる 果がある。
上の利用 , 上のよ に、この 明に係る音声認識 、外部 器に応じて効率的に 音声認識を行 ことのできるので、例えば 帯電話機 で用 られる音声認識 置 に用 るのに適して る。

Claims

求の
声認識 書を参照して人力 声を 声認識して音声認識 果を出 する音声 認識 置にお て、
外部 器が接続され 器 らその 別を取得するとともに前記 器に登録されたデ タを取得する外部 得手段と、 前記デ タ ら語彙を抽出語彙として 出し 出語彙を解析して 出語彙 に を付与して解析デ タとする 段と、
前記 別に対応する前記 声認識 書に前記 デ タを 納する 書生成 段とを有し、
前記 器の 前記 声認識 書を備えることを特徴とする音声認、
2 書生成 解析デ タを受けた 器の 別に対応する音声認識 書が存在する 否 を判定する種別 段と、
前記 器の 別に対応する音声認識 書が存在しな と 別に対 応する音声認識 書を新規に作成する 段と、
前記 器の 別に対応する音声認識 書が存在すると 別に対応 する音声認識 書を更新する 新手段とを有することを特徴とする
載の 声認識 。
3 得手段に接続された外部 器の 別を受け、 別に対応する 音声認識 書のみをアクティ とする音声認識 御手段を有することを特徴と する 載の 声認識 。
4 、抽出語彙を解析する際に用 る解析 書と、
前記 出語彙に一致する 前記 書に存在しな と 出語彙に類 似する 前記 書に存在する 否 を判定する類 段とを有 し、
前記 出語彙に類似する 前記 書に存在すると する 語彙 補として提示する 段を備えることを特徴とする 載 の 声認識 。 5 段によ て提示された語彙 補 ら の 補を選択 と して選択する 補選択 段を有し、
語彙 前記 を付与して解析デ タとすることを特徴とする 4 載の 声認識 。
PCT/JP2006/316257 2005-12-07 2006-08-18 音声認識装置 WO2007066433A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE112006002979T DE112006002979T5 (de) 2005-12-07 2006-08-18 Spracherkennungsvorrichtung
JP2007549020A JP4846734B2 (ja) 2005-12-07 2006-08-18 音声認識装置
US11/992,938 US8060368B2 (en) 2005-12-07 2006-08-18 Speech recognition apparatus
CN2006800464353A CN101326571B (zh) 2005-12-07 2006-08-18 声音识别装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-353695 2005-12-07
JP2005353695 2005-12-07

Publications (1)

Publication Number Publication Date
WO2007066433A1 true WO2007066433A1 (ja) 2007-06-14

Family

ID=38122585

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/316257 WO2007066433A1 (ja) 2005-12-07 2006-08-18 音声認識装置

Country Status (5)

Country Link
US (1) US8060368B2 (ja)
JP (1) JP4846734B2 (ja)
CN (1) CN101326571B (ja)
DE (1) DE112006002979T5 (ja)
WO (1) WO2007066433A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009204872A (ja) * 2008-02-28 2009-09-10 Alpine Electronics Inc 音声認識用辞書生成システム
WO2017179335A1 (ja) * 2016-04-11 2017-10-19 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5465926B2 (ja) * 2009-05-22 2014-04-09 アルパイン株式会社 音声認識辞書作成装置及び音声認識辞書作成方法
US9230538B2 (en) * 2011-04-08 2016-01-05 Mitsubishi Electric Corporation Voice recognition device and navigation device
US9235565B2 (en) * 2012-02-14 2016-01-12 Facebook, Inc. Blending customized user dictionaries
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
DE102014209358A1 (de) * 2014-05-16 2015-11-19 Ford Global Technologies, Llc Vorrichtung und Verfahren zur Spracherkennung, insbesondere in einem Fahrzeug
KR102095514B1 (ko) * 2016-10-03 2020-03-31 구글 엘엘씨 디바이스 토폴로지에 기초한 음성 명령 프로세싱
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248980A (ja) * 1995-03-06 1996-09-27 Fuji Xerox Co Ltd 音声認識装置
JPH09171395A (ja) * 1995-12-20 1997-06-30 Oki Electric Ind Co Ltd 音声認識装置
JPH11231886A (ja) * 1998-02-18 1999-08-27 Denso Corp 登録名称認識装置
JPH11312073A (ja) * 1998-04-27 1999-11-09 Fujitsu Ltd 意味認識システム
JPH11311996A (ja) * 1997-10-23 1999-11-09 Sony Internatl Europ Gmbh 音声装置及び遠隔制御可能なネットワーク機器
JP2001022374A (ja) * 1999-07-05 2001-01-26 Victor Co Of Japan Ltd 電子番組ガイドの操作装置および電子番組ガイドの送信装置
JP2001042884A (ja) * 1999-07-27 2001-02-16 Sony Corp 音声認識制御システム及び音声認識制御方法
JP2001092485A (ja) * 1999-09-10 2001-04-06 Internatl Business Mach Corp <Ibm> 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
WO2002001550A1 (fr) * 2000-06-26 2002-01-03 Mitsubishi Denki Kabushiki Kaisha Procede et systeme de commande d'un dispositif
JP2002091755A (ja) * 2000-05-09 2002-03-29 Internatl Business Mach Corp <Ibm> サービス・ディスカバリー・ネットワークで装置の音声制御を使用可能にするための方法およびシステム
JP2002351652A (ja) * 2001-05-23 2002-12-06 Nec System Technologies Ltd 音声認識操作支援システム、音声認識操作支援方法、および、音声認識操作支援プログラム
JP2003255982A (ja) * 2002-02-28 2003-09-10 Fujitsu Ltd 音声認識システムおよび音声ファイル記録システム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342260A (ja) 1992-06-08 1993-12-24 Sharp Corp 単語綴りチェック装置
US5825306A (en) 1995-08-25 1998-10-20 Aisin Aw Co., Ltd. Navigation system for vehicles
US5809471A (en) 1996-03-07 1998-09-15 Ibm Corporation Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary
US6173266B1 (en) * 1997-05-06 2001-01-09 Speechworks International, Inc. System and method for developing interactive speech applications
JP4201870B2 (ja) 1998-02-24 2008-12-24 クラリオン株式会社 音声認識による制御を用いるシステム及び音声認識による制御方法
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
WO2000058942A2 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US6360201B1 (en) * 1999-06-08 2002-03-19 International Business Machines Corp. Method and apparatus for activating and deactivating auxiliary topic libraries in a speech dictation system
JP2001296881A (ja) 2000-04-14 2001-10-26 Sony Corp 情報処理装置および方法、並びに記録媒体
JP3911178B2 (ja) 2002-03-19 2007-05-09 シャープ株式会社 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
EP1575031A3 (en) * 2002-05-15 2010-08-11 Pioneer Corporation Voice recognition apparatus
US7003457B2 (en) * 2002-10-29 2006-02-21 Nokia Corporation Method and system for text editing in hand-held electronic device
JP4217495B2 (ja) 2003-01-29 2009-02-04 キヤノン株式会社 音声認識辞書作成方法、音声認識辞書作成装置及びプログラム、記録媒体
JP2005148151A (ja) * 2003-11-11 2005-06-09 Mitsubishi Electric Corp 音声操作装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248980A (ja) * 1995-03-06 1996-09-27 Fuji Xerox Co Ltd 音声認識装置
JPH09171395A (ja) * 1995-12-20 1997-06-30 Oki Electric Ind Co Ltd 音声認識装置
JPH11311996A (ja) * 1997-10-23 1999-11-09 Sony Internatl Europ Gmbh 音声装置及び遠隔制御可能なネットワーク機器
JPH11231886A (ja) * 1998-02-18 1999-08-27 Denso Corp 登録名称認識装置
JPH11312073A (ja) * 1998-04-27 1999-11-09 Fujitsu Ltd 意味認識システム
JP2001022374A (ja) * 1999-07-05 2001-01-26 Victor Co Of Japan Ltd 電子番組ガイドの操作装置および電子番組ガイドの送信装置
JP2001042884A (ja) * 1999-07-27 2001-02-16 Sony Corp 音声認識制御システム及び音声認識制御方法
JP2001092485A (ja) * 1999-09-10 2001-04-06 Internatl Business Mach Corp <Ibm> 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
JP2002091755A (ja) * 2000-05-09 2002-03-29 Internatl Business Mach Corp <Ibm> サービス・ディスカバリー・ネットワークで装置の音声制御を使用可能にするための方法およびシステム
WO2002001550A1 (fr) * 2000-06-26 2002-01-03 Mitsubishi Denki Kabushiki Kaisha Procede et systeme de commande d'un dispositif
JP2002351652A (ja) * 2001-05-23 2002-12-06 Nec System Technologies Ltd 音声認識操作支援システム、音声認識操作支援方法、および、音声認識操作支援プログラム
JP2003255982A (ja) * 2002-02-28 2003-09-10 Fujitsu Ltd 音声認識システムおよび音声ファイル記録システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009204872A (ja) * 2008-02-28 2009-09-10 Alpine Electronics Inc 音声認識用辞書生成システム
WO2017179335A1 (ja) * 2016-04-11 2017-10-19 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
CN101326571B (zh) 2012-05-23
US8060368B2 (en) 2011-11-15
DE112006002979T5 (de) 2008-10-09
JP4846734B2 (ja) 2011-12-28
US20090228276A1 (en) 2009-09-10
CN101326571A (zh) 2008-12-17
JPWO2007066433A1 (ja) 2009-05-14

Similar Documents

Publication Publication Date Title
WO2007066433A1 (ja) 音声認識装置
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352272B2 (en) Systems and methods for text to speech synthesis
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
EP2207165A1 (en) Information processing apparatus and text-to-speech method
JPH0916602A (ja) 翻訳装置および翻訳方法
US20090204401A1 (en) Speech processing system, speech processing method, and speech processing program
JP5221768B2 (ja) 翻訳装置、及びプログラム
JP2015014665A (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
WO2008018287A1 (fr) dispositif de recherche et dispositif de génération de base de données de recherche
JP2008243076A (ja) 翻訳装置、方法及びプログラム
JP2006065651A (ja) 商標称呼検索プログラム、商標称呼検索装置及び商標称呼検索方法
JP2002358091A (ja) 音声合成方法および音声合成装置
JP6567372B2 (ja) 編集支援装置、編集支援方法及びプログラム
JP2002049386A (ja) テキスト音声合成装置、テキスト音声合成方法及びその方法を記録した記録媒体
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
JP2008164785A (ja) 読み情報生成装置、読み情報生成方法、読み情報生成プログラムおよび音声合成装置
JP2007171275A (ja) 言語処理装置及び現後処理方法
KR20090054616A (ko) 시각장애인을 위한 음성낭독 단말기용 색인어 검색방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680046435.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007549020

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11992938

Country of ref document: US

RET De translation (de og part 6b)

Ref document number: 112006002979

Country of ref document: DE

Date of ref document: 20081009

Kind code of ref document: P

WWE Wipo information: entry into national phase

Ref document number: 112006002979

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06782818

Country of ref document: EP

Kind code of ref document: A1

REG Reference to national code

Ref country code: DE

Ref legal event code: 8607