JPWO2005122143A1 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JPWO2005122143A1 JPWO2005122143A1 JP2006514451A JP2006514451A JPWO2005122143A1 JP WO2005122143 A1 JPWO2005122143 A1 JP WO2005122143A1 JP 2006514451 A JP2006514451 A JP 2006514451A JP 2006514451 A JP2006514451 A JP 2006514451A JP WO2005122143 A1 JPWO2005122143 A1 JP WO2005122143A1
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- language model
- unit
- combination coefficient
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 104
- 238000003860 storage Methods 0.000 claims description 72
- 238000000605 extraction Methods 0.000 claims description 42
- 239000000284 extract Substances 0.000 claims description 17
- 238000012986 modification Methods 0.000 description 98
- 230000004048 modification Effects 0.000 description 98
- 238000005516 engineering process Methods 0.000 description 46
- 238000010586 diagram Methods 0.000 description 42
- 102100040841 C-type lectin domain family 5 member A Human genes 0.000 description 14
- 101150008824 CLEC5A gene Proteins 0.000 description 14
- 101150056111 MDL1 gene Proteins 0.000 description 14
- 101100386697 Magnaporthe oryzae (strain 70-15 / ATCC MYA-4617 / FGSC 8958) DCL1 gene Proteins 0.000 description 14
- 101150095628 MDL2 gene Proteins 0.000 description 12
- 101100062770 Magnaporthe oryzae (strain 70-15 / ATCC MYA-4617 / FGSC 8958) DCL2 gene Proteins 0.000 description 12
- 230000003044 adaptive effect Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 12
- 206010011878 Deafness Diseases 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 10
- 231100000895 deafness Toxicity 0.000 description 10
- 208000016354 hearing loss disease Diseases 0.000 description 10
- 230000000877 morphologic effect Effects 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 8
- 208000032041 Hearing impaired Diseases 0.000 description 6
- 101100236856 Prunus serotina MDL3 gene Proteins 0.000 description 6
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000699 topical effect Effects 0.000 description 4
- 230000001364 causal effect Effects 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
102 関連度算出部
103 組合せ係数算出部
104 言語確率計算部
105 言語モデル情報格納部
106 言語モデル格納部
107 タグ情報格納部
108 対象語彙指定部
111 語彙情報信号
112 タグ情報関連度信号
113 組合せ係数信号
114 適応言語確率信号
115 重要度信号
116 タグ情報信号
117 音声認識結果出力部
119 特定モデル予測確率信号
300 音声入力部
301 音声認識部
302 結果出力部
303 キーワード抽出部
304 キーワード送信部
311 音声認識出力信号
313 キーワード信号
314 入力音声信号
501 電子番組表
502 番組関連ホームページ
503 テキスト入力部
511 電子番組表信号
512 番組関連ホームページ信号
513 テキスト入力信号
601 映像受像部
602 文字認識部
611 映像信号
612 文字認識結果信号
701 プロファイル情報格納部
711 プロファイル情報信号
本実施の形態における音声認識装置は、言語モデル生成装置を備え、その言語モデル生成装置により算出された出現単語予測確率に基づいた音声認識を行う。
この共起情報102aは、複数種の語彙の組と、各組における語彙間の個別関連度とを示す。例えば、共起情報102aは、「音声認識」および「技術」の語彙の組と、その組における語彙間の個別関連度「0.8」とを示すとともに、「音声認識」および「字幕」の語彙の組と、その組における語彙間の個別関連度「0.5」とを示す。
まず、語彙指定部101は、発話の内容に関わる語彙、たとえば「音声認識」や「聴覚障害」を受け付けて、関連度算出部102に対してそれらの語彙を指定する(ステップS202)。
本実施の形態における音声認識装置は、上述の言語モデル生成装置と、音声入力部300と、音声認識部301と、音声認識結果出力部117とを備えている。
ここで、本実施の形態における音声認識装置の第1の変形例について説明する。
本変形例に係る音声認識装置は、語彙指定部101で受け付ける語彙に音声認識部301の認識結果を利用する。これにより、音声認識が認識結果のフィードバックを受けて、逐次的に組合せ係数γが変更されることで、動的に話題に適応した音声認識が可能になる。これは、本発明の組み合わせ係数算出方法が高々一語の語彙を指定するだけで、その後にその語彙に関係する言語モデルを瞬時に構成できるという特徴を持つためであり、逐次的な話題の変化に瞬時に対応することが可能である。
まず、音声認識部301は、音声入力部300から出力される入力音声信号314に基づいて、音声入力部300で音声が検出されたか否かを判断し(ステップS402)、検出されたと判断したときには(ステップS402のY)、その検出された音声の認識を行う(ステップS403)。一方、検出されなかったと判断したときには(ステップS402のN)、音声認識部301は、例えばユーザによる操作などに基づいて終了の指示があったか否かを判断する(ステップS409)。そして、音声認識部301によって終了の指示があったと判断されたときには(ステップS409のY)、音声認識装置は全ての処理を終了し、指示がなかったと判断されたときには(ステップS409のN)、音声認識装置はステップS402からの処理を繰り返し実行する。
ここで、本実施の形態における音声認識装置の第2の変形例について説明する。
本変形例に係る音声認識装置は、上記変形例1の音声認識装置の各構成要素を備えるとともに、キーワード送信部304を備えている。このキーワード送信部304は、キーワード抽出部303と語彙指定部101との間に設けられている。
ここで、本実施の形態における音声認識装置の第3の変形例について説明する。
本変形例に係る音声認識装置は、上記実施の形態の図7に示す音声認識装置の各構成要素を備えるとともに、キーワード抽出部303aと、テキスト入力部503とを備える。
ここで、本実施の形態における音声認識装置の第4の変形例について説明する。
本変形例に係る音声認識装置は、上記実施の形態の図7に示す音声認識装置の各構成要素を備えるとともに、テレビなどの映像を写す映像受像部601と、映像受像部601に表示される文字情報に対して文字認識を行う文字認識部602と、文字認識部602から出力される文字認識結果信号612からキーワードを抽出するキーワード抽出部303bとを備えている。この音声認識装置は、映像受像部601に表示される文字の内容が話題の対象とされていると仮定し、その話題に適した音声の認識を行う。
ここで、本実施の形態における音声認識装置の第5の変形例について説明する。
本変形例に係る音声認識装置は、上記実施の形態の図7に示す音声認識装置の各構成要素を備えるとともに、プロファイル情報を格納するプロファイル情報格納部701と、プロファイル情報格納部701から出力されるプロファイル情報信号711からキーワードを抽出するキーワード抽出部303とを備えている。プロファイル情報は、ユーザの嗜好などのユーザに関連する情報であって、プロファイル情報信号711は、そのプロファイル情報を示す信号である。この音声認識装置は、プロファイル情報の内容が話題の対象とされていると仮定し、その話題に適した音声の認識を行う。
ここで、本実施の形態における音声認識装置の第6の変形例について説明する。
本変形例に係る音声認識装置は、上記実施の形態の図7に示す音声認識装置の各構成要素を備えるとともに、変形例3の図11に示すテキスト入力部503と、変形例5の図13に示すプロファイル情報格納部701と、キーワード抽出部303dとを備えている。この音声認識装置は、プロファイル情報や電子番組表の内容が話題の対象とされていると仮定し、その話題に適した音声の認識を行う。
本実施の形態における音声認識装置は、言語モデル生成装置を備え、その言語モデル生成装置により算出された出現単語予測確率に基づいた音声認識を行う。
この共起情報102aは、複数種の語彙の組と、各組における語彙間の個別関連度とを示す。例えば、共起情報102aは、「音声認識」および「技術」の語彙の組と、その組における語彙間の個別関連度「0.8」とを示すとともに、「音声認識」および「字幕」の語彙の組と、その組における語彙間の個別関連度「0.5」とを示す。
まず、語彙指定部101は、発話の内容に関わる語彙、たとえば「音声認識」や「聴覚障害」を受け付けて、関連度算出部102に対してそれらの語彙を指定する(ステップS202)。
本実施の形態における音声認識装置は、上述の言語モデル生成装置と、音声入力部300と、音声認識部301と、音声認識結果出力部117とを備えている。
ここで、本実施の形態における音声認識装置の第1の変形例について説明する。
本変形例に係る音声認識装置は、語彙指定部101で受け付ける語彙に音声認識部301の認識結果を利用する。これにより、音声認識が認識結果のフィードバックを受けて、逐次的に組合せ係数γが変更されることで、動的に話題に適応した音声認識が可能になる。これは、本発明の組み合わせ係数算出方法が高々一語の語彙を指定するだけで、その後にその語彙に関係する言語モデルを瞬時に構成できるという特徴を持つためであり、逐次的な話題の変化に瞬時に対応することが可能である。
まず、音声認識部301は、音声入力部300から出力される入力音声信号314に基づいて、音声入力部300で音声が検出されたか否かを判断し(ステップS402)、検出されたと判断したときには(ステップS402のY)、その検出された音声の認識を行う(ステップS403)。一方、検出されなかったと判断したときには(ステップS402のN)、音声認識部301は、例えばユーザによる操作などに基づいて終了の指示があったか否かを判断する(ステップS409)。そして、音声認識部301によって終了の指示があったと判断されたときには(ステップS409のY)、音声認識装置は全ての処理を終了し、指示がなかったと判断されたときには(ステップS409のN)、音声認識装置はステップS402からの処理を繰り返し実行する。
ここで、本実施の形態における音声認識装置の第2の変形例について説明する。
本変形例に係る音声認識装置は、上記変形例1の音声認識装置の各構成要素を備えるとともに、キーワード送信部304を備えている。このキーワード送信部304は、キーワード抽出部303と語彙指定部101との間に設けられている。
ここで、本実施の形態における音声認識装置の第3の変形例について説明する。
本変形例に係る音声認識装置は、上記実施の形態の図7に示す音声認識装置の各構成要素を備えるとともに、キーワード抽出部303aと、テキスト入力部503とを備える。
ここで、本実施の形態における音声認識装置の第4の変形例について説明する。
本変形例に係る音声認識装置は、上記実施の形態の図7に示す音声認識装置の各構成要素を備えるとともに、テレビなどの映像を写す映像受像部601と、映像受像部601に表示される文字情報に対して文字認識を行う文字認識部602と、文字認識部602から出力される文字認識結果信号612からキーワードを抽出するキーワード抽出部303bとを備えている。この音声認識装置は、映像受像部601に表示される文字の内容が話題の対象とされていると仮定し、その話題に適した音声の認識を行う。
ここで、本実施の形態における音声認識装置の第5の変形例について説明する。
本変形例に係る音声認識装置は、上記実施の形態の図7に示す音声認識装置の各構成要素を備えるとともに、プロファイル情報を格納するプロファイル情報格納部701と、プロファイル情報格納部701から出力されるプロファイル情報信号711からキーワードを抽出するキーワード抽出部303とを備えている。プロファイル情報は、ユーザの嗜好などのユーザに関連する情報であって、プロファイル情報信号711は、そのプロファイル情報を示す信号である。この音声認識装置は、プロファイル情報の内容が話題の対象とされていると仮定し、その話題に適した音声の認識を行う。
ここで、本実施の形態における音声認識装置の第6の変形例について説明する。
本変形例に係る音声認識装置は、上記実施の形態の図7に示す音声認識装置の各構成要素を備えるとともに、変形例3の図11に示すテキスト入力部503と、変形例5の図13に示すプロファイル情報格納部701と、キーワード抽出部303dとを備えている。この音声認識装置は、プロファイル情報や電子番組表の内容が話題の対象とされていると仮定し、その話題に適した音声の認識を行う。
102 関連度算出部
103 組合せ係数算出部
104 言語確率計算部
105 言語モデル情報格納部
106 言語モデル格納部
107 タグ情報格納部
108 対象語彙指定部
111 語彙情報信号
112 タグ情報関連度信号
113 組合せ係数信号
114 適応言語確率信号
115 重要度信号
116 タグ情報信号
117 音声認識結果出力部
119 特定モデル予測確率信号
300 音声入力部
301 音声認識部
302 結果出力部
303 キーワード抽出部
304 キーワード送信部
311 音声認識出力信号
313 キーワード信号
314 入力音声信号
501 電子番組表
502 番組関連ホームページ
503 テキスト入力部
511 電子番組表信号
512 番組関連ホームページ信号
513 テキスト入力信号
601 映像受像部
602 文字認識部
611 映像信号
612 文字認識結果信号
701 プロファイル情報格納部
711 プロファイル情報信号
Claims (10)
- 音声を取得して認識する音声認識装置であって、
語彙を取得する語彙取得手段と、
音声を認識するための複数種の言語モデルを格納する言語モデル格納手段と、
前記言語モデルごとに当該言語モデルの特徴を示すタグ情報を格納するタグ情報格納手段と、
前記語彙取得手段で取得された語彙と、前記各言語モデルのタグ情報との関連性に基づいて、前記語彙取得手段で取得された語彙に応じた前記各言語モデルの重みを組合せ係数として算出する組合せ係数算出手段と、
前記組合せ係数算出手段により算出された組合せ係数に応じて前記各言語モデルを組み合わせることにより、前記音声において所定の単語が出現する予測確率を算出する予測確率算出手段と、
前記予測確率算出手段により算出された予測確率を用いて前記音声を認識する認識手段と
を備えることを特徴とする音声認識装置。 - 前記語彙取得手段は、
前記認識手段によって認識された音声に対応する語彙を取得する
ことを特徴とする請求項1記載の音声認識装置。 - 前記音声認識装置は、さらに、
複数種の語彙と前記各タグ情報との間の関連度を保持している関連度保持手段と、
前記関連度保持手段に保持されている各関連度を用いて、前記語彙取得手段で取得された語彙に対する前記タグ情報ごとの関連度を導出する関連度導出手段と、
前記タグ情報ごとに当該タグ情報の前記言語モデルに対する重要度を保持している重要度保持手段とを備え、
前記組合せ係数算出手段は、
前記関連度導出手段で導出された各関連度と、前記重要度保持手段で保持されている重要度とを用いることにより、前記各言語モデルの組合せ係数を算出し、
前記予測確率算出手段は、
前記言語モデルごとに導出される、前記所定の単語が出現する特定モデル予測確率と、前記言語モデルごとの組合せ係数とを用いることにより、前記予測確率を算出する
ことを特徴とする請求項2記載の音声認識装置。 - 前記組合せ係数算出手段は、前記語彙取得手段で1つの語彙が取得されるごとに、前記各言語モデルの組合せ係数を算出する
ことを特徴とする請求項3記載の音声認識装置。 - 前記組合せ係数算出手段は、前記語彙取得手段で複数の語彙が取得されるごとに、前記各言語モデルの組合せ係数を算出する
ことを特徴とする請求項3記載の音声認識装置。 - 前記組合せ係数算出手段は、
前記語彙取得手段で取得された複数の語彙と、前記各言語モデルのタグ情報との関連性に基づいて、前記複数の語彙に応じた前記各言語モデルの重みを組合せ係数として算出する
ことを特徴とする請求項3記載の音声認識装置。 - 前記音声認識装置は、さらに、
ユーザの閲覧している電子データ、およびユーザに関するプロファイル情報のうち少なくとも1つからキーワードを抽出するキーワード抽出手段を備え、
前記語彙取得手段は、前記キーワード抽出手段によって抽出されたキーワードを前記語彙として取得する
ことを特徴とする請求項1記載の音声認識装置。 - 音声を取得して認識する音声認識方法であって、
語彙を取得する語彙取得ステップと、
前記語彙取得ステップで取得された語彙と、音声を認識するための複数種の言語モデルのそれぞれの特徴を示すタグ情報との関連性に基づいて、前記語彙取得ステップで取得された語彙に応じた前記各言語モデルの重みを組合せ係数として算出する組合せ係数算出ステップと、
前記組合せ係数算出ステップで算出された組合せ係数に応じて前記各言語モデルを組み合わせることにより、前記音声において所定の単語が出現する予測確率を算出する予測確率算出ステップと、
前記予測確率算出ステップで算出された予測確率を用いて前記音声を認識する認識ステップと
を含むことを特徴とする音声認識方法。 - 音声を取得して認識するためのプログラムであって、
語彙を取得する語彙取得ステップと、
前記語彙取得ステップで取得された語彙と、音声を認識するための複数種の言語モデルのそれぞれの特徴を示すタグ情報との関連性に基づいて、前記語彙取得ステップで取得された語彙に応じた前記各言語モデルの重みを組合せ係数として算出する組合せ係数算出ステップと、
前記組合せ係数算出ステップで算出された組合せ係数に応じて前記各言語モデルを組み合わせることにより、前記音声において所定の単語が出現する予測確率を算出する予測確率算出ステップと、
前記予測確率算出ステップで算出された予測確率を用いて前記音声を認識する認識ステップと
をコンピュータに実行させることを特徴とするプログラム。 - 音声を取得して認識するためのプログラムを記憶している記憶媒体であって、
前記プログラムは、
語彙を取得する語彙取得ステップと、
前記語彙取得ステップで取得された語彙と、音声を認識するための複数種の言語モデルのそれぞれの特徴を示すタグ情報との関連性に基づいて、前記語彙取得ステップで取得された語彙に応じた前記各言語モデルの重みを組合せ係数として算出する組合せ係数算出ステップと、
前記組合せ係数算出ステップで算出された組合せ係数に応じて前記各言語モデルを組み合わせることにより、前記音声において所定の単語が出現する予測確率を算出する予測確率算出ステップと、
前記予測確率算出ステップで算出された予測確率を用いて前記音声を認識する認識ステップとをコンピュータに実行させる
ことを特徴とする記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004169730 | 2004-06-08 | ||
JP2004169730 | 2004-06-08 | ||
PCT/JP2005/009652 WO2005122143A1 (ja) | 2004-06-08 | 2005-05-26 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3923513B2 JP3923513B2 (ja) | 2007-06-06 |
JPWO2005122143A1 true JPWO2005122143A1 (ja) | 2008-04-10 |
Family
ID=35503309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006514451A Active JP3923513B2 (ja) | 2004-06-08 | 2005-05-26 | 音声認識装置および音声認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7310601B2 (ja) |
JP (1) | JP3923513B2 (ja) |
WO (1) | WO2005122143A1 (ja) |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7539086B2 (en) * | 2002-10-23 | 2009-05-26 | J2 Global Communications, Inc. | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
WO2005039406A1 (en) * | 2003-10-23 | 2005-05-06 | Koninklijke Philips Electronics, N.V. | Heart monitor with remote alarm capability |
CN1922605A (zh) * | 2003-12-26 | 2007-02-28 | 松下电器产业株式会社 | 辞典制作装置以及辞典制作方法 |
US7848927B2 (en) * | 2004-11-30 | 2010-12-07 | Panasonic Corporation | Speech recognition device and method of recognizing speech using a language model |
WO2006080149A1 (ja) * | 2005-01-25 | 2006-08-03 | Matsushita Electric Industrial Co., Ltd. | 音復元装置および音復元方法 |
US8265933B2 (en) * | 2005-12-22 | 2012-09-11 | Nuance Communications, Inc. | Speech recognition system for providing voice recognition services using a conversational language model |
WO2007083496A1 (ja) * | 2006-01-23 | 2007-07-26 | Nec Corporation | 音声認識用言語モデル作成用のシステム、方法およびプログラムならびに音声認識システム |
JP4910420B2 (ja) * | 2006-02-24 | 2012-04-04 | カシオ計算機株式会社 | 画像処理装置および画像処理のプログラム |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
WO2007132690A1 (ja) * | 2006-05-17 | 2007-11-22 | Nec Corporation | 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム |
US8069032B2 (en) * | 2006-07-27 | 2011-11-29 | Microsoft Corporation | Lightweight windowing method for screening harvested data for novelty |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8447285B1 (en) | 2007-03-26 | 2013-05-21 | Callwave Communications, Llc | Methods and systems for managing telecommunications and for translating voice messages to text messages |
US8325886B1 (en) | 2007-03-26 | 2012-12-04 | Callwave Communications, Llc | Methods and systems for managing telecommunications |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8214338B1 (en) | 2007-05-01 | 2012-07-03 | Callwave, Inc. | Methods and systems for media storage |
US8583746B1 (en) | 2007-05-25 | 2013-11-12 | Callwave Communications, Llc | Methods and systems for web and call processing |
US8392392B1 (en) * | 2008-09-11 | 2013-03-05 | Smith Micro Software, Inc | Voice request broker |
WO2010061507A1 (ja) * | 2008-11-28 | 2010-06-03 | 日本電気株式会社 | 言語モデル作成装置 |
WO2010100853A1 (ja) * | 2009-03-04 | 2010-09-10 | 日本電気株式会社 | 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体 |
GB2469499A (en) * | 2009-04-16 | 2010-10-20 | Aurix Ltd | Labelling an audio file in an audio mining system and training a classifier to compensate for false alarm behaviour. |
JP5344396B2 (ja) * | 2009-09-07 | 2013-11-20 | 本田技研工業株式会社 | 言語学習装置、言語学習プログラム及び言語学習方法 |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP4318463A3 (en) | 2009-12-23 | 2024-02-28 | Google LLC | Multi-modal input on an electronic device |
US10276170B2 (en) * | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
JP5772214B2 (ja) * | 2010-05-24 | 2015-09-02 | 株式会社デンソー | 音声認識装置 |
US9576570B2 (en) | 2010-07-30 | 2017-02-21 | Sri International | Method and apparatus for adding new vocabulary to interactive translation and dialogue systems |
US8527270B2 (en) * | 2010-07-30 | 2013-09-03 | Sri International | Method and apparatus for conducting an interactive dialogue |
US8744860B2 (en) | 2010-08-02 | 2014-06-03 | At&T Intellectual Property I, L.P. | Apparatus and method for providing messages in a social network |
KR101699720B1 (ko) * | 2010-08-03 | 2017-01-26 | 삼성전자주식회사 | 음성명령 인식 장치 및 음성명령 인식 방법 |
US8880403B2 (en) * | 2010-09-03 | 2014-11-04 | Canyon Ip Holdings Llc | Methods and systems for obtaining language models for transcribing communications |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US9202465B2 (en) * | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US9679561B2 (en) | 2011-03-28 | 2017-06-13 | Nuance Communications, Inc. | System and method for rapid customization of speech recognition models |
WO2012151743A1 (en) * | 2011-05-10 | 2012-11-15 | Nokia Corporation | Methods, apparatuses and computer program products for providing topic model with wording preferences |
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
US9324323B1 (en) * | 2012-01-13 | 2016-04-26 | Google Inc. | Speech recognition using topic-specific language models |
JP6019604B2 (ja) * | 2012-02-14 | 2016-11-02 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US8775177B1 (en) | 2012-03-08 | 2014-07-08 | Google Inc. | Speech recognition process |
US9620111B1 (en) * | 2012-05-01 | 2017-04-11 | Amazon Technologies, Inc. | Generation and maintenance of language model |
US20140112496A1 (en) * | 2012-10-19 | 2014-04-24 | Carlo Murgia | Microphone placement for noise cancellation in vehicles |
US9747900B2 (en) | 2013-05-24 | 2017-08-29 | Google Technology Holdings LLC | Method and apparatus for using image data to aid voice recognition |
US9508345B1 (en) | 2013-09-24 | 2016-11-29 | Knowles Electronics, Llc | Continuous voice sensing |
US9953634B1 (en) | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US10643616B1 (en) * | 2014-03-11 | 2020-05-05 | Nvoq Incorporated | Apparatus and methods for dynamically changing a speech resource based on recognized text |
US9812130B1 (en) * | 2014-03-11 | 2017-11-07 | Nvoq Incorporated | Apparatus and methods for dynamically changing a language model based on recognized text |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9437188B1 (en) | 2014-03-28 | 2016-09-06 | Knowles Electronics, Llc | Buffered reprocessing for multi-microphone automatic speech recognition assist |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US20170018268A1 (en) * | 2015-07-14 | 2017-01-19 | Nuance Communications, Inc. | Systems and methods for updating a language model based on user input |
JP6443843B2 (ja) * | 2015-09-17 | 2018-12-26 | 日本電信電話株式会社 | 言語モデル作成装置、言語モデル作成方法、およびプログラム |
US10896681B2 (en) * | 2015-12-29 | 2021-01-19 | Google Llc | Speech recognition with selective use of dynamic language models |
US10049666B2 (en) | 2016-01-06 | 2018-08-14 | Google Llc | Voice recognition system |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
CN108346073B (zh) * | 2017-01-23 | 2021-11-02 | 北京京东尚科信息技术有限公司 | 一种语音购物方法和装置 |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
KR102435750B1 (ko) * | 2017-12-14 | 2022-08-25 | 현대자동차주식회사 | 멀티미디어 장치 및 이를 포함하는 차량, 멀티미디어 장치의 방송 청취 방법 |
CN110703612B (zh) * | 2018-07-10 | 2023-09-15 | 松下家电(中国)有限公司 | 一种家电自动调整用户设置参数的方法 |
US11568007B2 (en) * | 2018-10-03 | 2023-01-31 | Walmart Apollo, Llc | Method and apparatus for parsing and representation of digital inquiry related natural language |
US11954719B2 (en) * | 2019-05-30 | 2024-04-09 | Ncr Voyix Corporation | Personalized voice-based assistance |
US11397859B2 (en) * | 2019-09-11 | 2022-07-26 | International Business Machines Corporation | Progressive collocation for real-time discourse |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5467425A (en) * | 1993-02-26 | 1995-11-14 | International Business Machines Corporation | Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models |
JP3027544B2 (ja) | 1997-01-10 | 2000-04-04 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的言語モデル生成装置及び音声認識装置 |
JP3794597B2 (ja) | 1997-06-18 | 2006-07-05 | 日本電信電話株式会社 | 話題抽出方法及び話題抽出プログラム記録媒体 |
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
US6233559B1 (en) * | 1998-04-01 | 2001-05-15 | Motorola, Inc. | Speech control of multiple applications using applets |
JP3232289B2 (ja) * | 1999-08-30 | 2001-11-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 記号挿入装置およびその方法 |
JP2001188784A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
JP3628245B2 (ja) * | 2000-09-05 | 2005-03-09 | 日本電信電話株式会社 | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
US6606597B1 (en) * | 2000-09-08 | 2003-08-12 | Microsoft Corporation | Augmented-word language model |
US20020087313A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented intelligent speech model partitioning method and system |
US20020087311A1 (en) * | 2000-12-29 | 2002-07-04 | Leung Lee Victor Wai | Computer-implemented dynamic language model generation method and system |
JP4067776B2 (ja) * | 2001-03-13 | 2008-03-26 | 三菱電機株式会社 | 言語モデル構成装置及び音声認識装置 |
US7072838B1 (en) * | 2001-03-20 | 2006-07-04 | Nuance Communications, Inc. | Method and apparatus for improving human-machine dialogs using language models learned automatically from personalized data |
JP3893893B2 (ja) * | 2001-03-30 | 2007-03-14 | セイコーエプソン株式会社 | ウエブページの音声検索方法、音声検索装置および音声検索プログラム |
JP2003036093A (ja) | 2001-07-23 | 2003-02-07 | Japan Science & Technology Corp | 音声入力検索システム |
JP2003255985A (ja) * | 2002-02-28 | 2003-09-10 | Toshiba Corp | 統計的言語モデル作成方法及び装置並びにプログラム |
JP3913626B2 (ja) * | 2002-07-17 | 2007-05-09 | 日本電信電話株式会社 | 言語モデル生成方法、その装置及びそのプログラム |
JP4100243B2 (ja) * | 2003-05-06 | 2008-06-11 | 日本電気株式会社 | 映像情報を用いた音声認識装置及び方法 |
US7379867B2 (en) * | 2003-06-03 | 2008-05-27 | Microsoft Corporation | Discriminative training of language models for text and speech classification |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
-
2005
- 2005-05-26 JP JP2006514451A patent/JP3923513B2/ja active Active
- 2005-05-26 WO PCT/JP2005/009652 patent/WO2005122143A1/ja active Application Filing
- 2005-12-08 US US11/296,268 patent/US7310601B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US7310601B2 (en) | 2007-12-18 |
WO2005122143A1 (ja) | 2005-12-22 |
JP3923513B2 (ja) | 2007-06-06 |
US20060100876A1 (en) | 2006-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3923513B2 (ja) | 音声認識装置および音声認識方法 | |
US10410627B2 (en) | Automatic language model update | |
US9330661B2 (en) | Accuracy improvement of spoken queries transcription using co-occurrence information | |
JP4485694B2 (ja) | 並列する認識エンジン | |
TWI506982B (zh) | 音訊聊天系統、資訊處理裝置、語音辨識方法、關鍵字偵測方法、及記錄媒體 | |
KR101359715B1 (ko) | 모바일 음성 웹 제공 방법 및 장치 | |
KR101309042B1 (ko) | 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법 | |
US10394886B2 (en) | Electronic device, computer-implemented method and computer program | |
US20100169095A1 (en) | Data processing apparatus, data processing method, and program | |
KR20080068844A (ko) | 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체 | |
JP2008287697A (ja) | 音声チャットシステム、情報処理装置およびプログラム | |
Álvarez et al. | Automating live and batch subtitling of multimedia contents for several European languages | |
Trnka et al. | Topic modeling in fringe word prediction for AAC | |
JP2009042968A (ja) | 情報選別システム、情報選別方法及び情報選別用プログラム | |
JP2004334409A (ja) | データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム | |
US20140129221A1 (en) | Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method | |
KR102422844B1 (ko) | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 | |
JP6115487B2 (ja) | 情報収集方法、対話システム及び情報収集装置 | |
Adell Mercado et al. | Buceador, a multi-language search engine for digital libraries | |
JP2007213554A (ja) | コンピュータにより実施される、確率論的クエリーに対して順位付けした結果セットをレンダリングする方法 | |
Bahng et al. | CAC: Content-Aware Captioning for Professional Online Lectures in Korean Language | |
JP2022542415A (ja) | 発音情報を使用して音声クエリを管理するためのシステムおよび方法 | |
KR20230080849A (ko) | 실시간 온라인 전문 강의용 주제 친화적 자막 생성 방법 및 시스템 | |
Bordel et al. | An XML Resource Definition for Spoken Document Retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3923513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110302 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120302 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130302 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130302 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140302 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |