JPWO2009101837A1 - 記号挿入装置および記号挿入方法 - Google Patents
記号挿入装置および記号挿入方法 Download PDFInfo
- Publication number
- JPWO2009101837A1 JPWO2009101837A1 JP2009553380A JP2009553380A JPWO2009101837A1 JP WO2009101837 A1 JPWO2009101837 A1 JP WO2009101837A1 JP 2009553380 A JP2009553380 A JP 2009553380A JP 2009553380 A JP2009553380 A JP 2009553380A JP WO2009101837 A1 JPWO2009101837 A1 JP WO2009101837A1
- Authority
- JP
- Japan
- Prior art keywords
- symbol insertion
- model
- symbol
- speech
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003780 insertion Methods 0.000 title claims abstract description 385
- 230000037431 insertion Effects 0.000 title claims abstract description 385
- 238000012966 insertion method Methods 0.000 title claims description 11
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 37
- 238000005315 distribution function Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- 238000010792 warming Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
101…処理装置
102…入力装置
103−1〜103−n…記号挿入モデル記憶装置
104−1〜104−n…話し方特徴モデル記憶装置
105…出力装置
111…単語列情報記憶手段
112…話し方特徴類似度計算手段
113…記号挿入尤度計算手段
114、202…記号挿入判定手段
115…記号挿入済単語列情報記憶手段
201…モデル関連度記憶装置
300…音声認識装置
301…マイクロフォン
311…音声認識手段
312…単語列情報生成手段
図1を参照すると、本発明の第1の実施の形態に係る記号挿入装置100は、処理装置101と、この処理装置101に接続された入力装置102、n個の記号挿入モデル記憶装置103−1〜103−n、同じくn個の話し方特徴モデル記憶装置104−1〜104−nおよび出力装置105とから構成されている。
各記号挿入モデルの重み付け後の句点挿入尤度のうちの上位n'個(n'は1以上、n以下の定数。以下同じ)の総和を句点の統合挿入尤度、各記号挿入モデルの重み付け後の読点挿入尤度のうちの上位n'個の総和を読点の統合挿入尤度、各記号挿入モデルの重み付け後のNULL挿入尤度(句点も読点も挿入されない尤度)のうちの上位n'個の総和をNULLの統合挿入尤度として算出する。次に、統合挿入尤度の最も大きいものを記号挿入判定結果とする。例えば、3つの統合挿入尤度のうち、句点の統合挿入尤度が最も大きければ、句点を挿入する旨の判定結果を生成する。
各記号挿入モデルの重み付け後の句点挿入尤度のうちの上位n'個の総和を句点の統合挿入尤度、各記号挿入モデルの重み付け後の読点挿入尤度のうちの上位n'個の総和を読点の統合挿入尤度として算出する。次に、複数の記号間に予め定められた優先順位が、例えば優先度の高い順に句点、読点であった場合、まず、句点の統合挿入尤度を予め定められた閾値と比較し、閾値以上であれば句点を挿入する旨の判定結果を生成する。句点の統合挿入尤度が閾値以上でなければ、次に、読点の統合挿入尤度を予め定められた閾値と比較し、閾値以上であれば読点を挿入する旨の判定結果を生成する。読点の統合挿入尤度が閾値以上でなければ、句読点は挿入しない旨の判定結果を生成する。
各記号挿入モデル毎に、重み付け後の句点挿入尤度、重み付け後の読点挿入尤度、重み付け後のNULL挿入尤度のうち、最大の挿入尤度の記号(句点、読点、NULL)を求め、全ての記号挿入モデルで最も多く求められた記号(句点、読点、NULL)を多数決により求めて判定結果とする。
次に、話し方特徴モデル、記号挿入モデル、話し方特徴類似度計算、記号挿入尤度計算、記号挿入判定を中心に、本実施の形態の一実施例について説明する。
話し方特徴類似度計算手段112は、単語列情報記憶手段111に記憶された単語の表層情報および音声特徴量(ポーズ情報など)と、話し方特徴モデル記憶手段104−1〜104−nに記憶された話し方特徴モデルを構成する上述した分布関数とから、単語単位で、話し方の特徴の近さの尤度(話し方の特徴類似度)を計算する。具体的には、ある単語wtのj番目の音声特徴量の値をxt,j、i番目の話し方特徴モデル記憶手段104−iに記憶された話し方特徴モデルのj個目の音声特徴量の分布関数をfj(xt,j,i,Ck)、その重みをai,jとすると、i番目の話し方特徴モデル記憶手段104−iに記憶された話し方特徴モデルとの話し方特徴類似度Ti,k(wt)は以下の式で計算される。
記号挿入モデルは、話し方特徴モデルと対応したデータ、すなわち話者別に分類した後、類似した特徴を持つモデルでボトムアップ式にクラスタリングした話し方特徴モデルを作成する上で使用した学習データ全てを用いて作成する。例えば図4における話し方特徴モデルSMAB〜SMYZが最終的なn個の話し方特徴モデルであった場合、話し方特徴モデルSMABに1対1対応の記号挿入モデルKMABは、話者Aの学習データDAと話者Bの学習データDBから生成する。記号挿入モデルは、前述したように記号付き単語n−gramモデルなどの公知の技術を用いて作成することができる。作成された記号挿入モデルKMAB〜KMYZは、図1のn個の記号挿入モデル記憶装置103−1〜103−nに記憶される。
記号挿入尤度計算手段113は、単語列情報記憶手段111に記憶された各単語の表層情報や品詞情報等の情報と、記号挿入モデル記憶手段103−1〜103−nに記憶された記号挿入モデルとを用いて、記号挿入モデル毎に、或る単語wtの直後に記号Ckが挿入される(または記号が何も挿入されない(Ck=NULL))確度の高さを示す記号挿入尤度を求める。単語情報Wtを持つ単語wtの直後に記号Ckが挿入される記号挿入尤度Si,k(wt)は、前記公知の技術によって学習された、i番目の記号挿入モデルに対する単語情報Wを持つ単語wの直後に記号Cが挿入される尤度関数gi(W,C)を用いて、以下の式で表される。
(5−1)例1
記号挿入判定手段114は、まず、記号挿入尤度計算手段113で計算された記号挿入尤度と話し方特徴類似度計算手段112で計算される話し方類似度とを用いてモデル別記号挿入スコアを計算する。具体的には、i番目の記号挿入モデルのモデル別記号挿入スコアFi(wt,Ck)は、単語wtについての話し方特徴モデル記憶装置104−iの話し方特徴モデルに対する音声特徴類似度Ti,k(wt)と、記号挿入モデル記憶装置103−iに記憶された記号挿入モデルに対する記号挿入尤度Si,k(wt)とを用いて、以下の式で計算する。
記号挿入判定手段114は、例1と同様にして、記号挿入判定に用いる統合記号挿入スコアF(wt,Ck)を計算する。
記号挿入判定手段114は、例1と同様にして、モデル別記号挿入スコアFi(wt,Ck)を計算する。次に、記号挿入モデル毎に記号挿入判定を行い、最も多く判定された記号を最終出力とする。具体的には、まず、次式に示すように、モデル別記号挿入スコアFi(wt,Ck)が最大となった記号C^iを全ての記号挿入モデルについて求める。
図6を参照すると、本発明の第2の実施の形態に係る記号挿入装置200は、図1に示した第1の実施の形態に係る記号挿入装置100と比較して、n個の記号挿入モデル記憶装置103−1〜103−nに記憶されるn個の記号挿入モデルとm個の話し方特徴モデル記憶装置104−1〜104−mに記憶されるm個の話し方特徴モデルとは、1対1に対応していない点で相違する。
図8を参照すると、本発明の第3の実施の形態に係る音声認識装置300は、第1または第2の実施の形態に係る記号挿入装置100または200を構成する処理装置101に、音声認識手段311と単語列情報生成手段312とを新たに設け、かつ、処理装置101にマイクロフォン301を接続した構成を有する。音声認識手段311および単語列情報生成手段312は、処理装置101を構成するコンピュータとプログラムとによって実現することができる。
Claims (29)
- 音声情報を文字化した単語列に記号を挿入する記号挿入装置であって、
記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行うことを特徴とする記号挿入装置。 - 前記単語列について前記複数の記号挿入モデル毎に記号挿入尤度を求める記号挿入尤度計算手段と、
前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度を求める話し方特徴類似度計算手段と、
前記単語列について前記複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う記号挿入判定手段とを備えることを特徴とする請求項1に記載の記号挿入装置。 - 前記話し方の特徴とは、少なくとも音響的特徴量であることを特徴とする請求項1または2に記載の記号挿入装置。
- 前記関連度は、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数であることを特徴とする請求項2または3に記載の記号挿入装置。
- 前記関連度を保持するモデル関連度記憶手段を備えることを特徴とする請求項2乃至4の何れか1項に記載の記号挿入装置。
- 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和が最大となった記号を挿入記号と判定することを特徴とする請求項2乃至5の何れか1項に記載の記号挿入装置。
- 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和を閾値と比較することによって記号挿入判定を行うことを特徴とする請求項2乃至5の何れか1項に記載の記号挿入装置。
- 前記記号挿入判定手段は、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内、尤度の高いものから順に所定個数を選択することを特徴とする請求項6または7に記載の記号挿入装置。
- 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、記号挿入モデル毎に、モデル別記号挿入尤度が最大となる挿入記号を求め、各記号挿入モデル毎に求められた挿入記号の多数決により記号挿入判定を行うことを特徴とする請求項2乃至5の何れか1項に記載の記号挿入装置。
- 入力音声に対して音声認識を行って音声認識結果を出力する音声認識手段と、該音声認識手段から出力された音声認識結果から請求項1乃至9の何れか1項に記載される記号挿入装置に入力する記号挿入対象となる単語列を生成する単語列情報生成手段とを備えることを特徴とする音声認識装置。
- 音声情報を文字化した単語列に記号を挿入する記号挿入方法であって、
記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行うことを特徴とする記号挿入方法。 - 記号挿入尤度計算手段が、前記単語列について前記複数の記号挿入モデル毎に記号挿入尤度を求める記号挿入尤度計算ステップと、
話し方特徴類似度計算手段が、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度を求める話し方特徴類似度計算ステップと、
記号挿入判定手段が、前記単語列について前記複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う記号挿入判定ステップとを含むことを特徴とする請求項11に記載の記号挿入方法。 - 前記話し方の特徴とは、少なくとも音響的特徴量であることを特徴とする請求項11または12に記載の記号挿入方法。
- 前記関連度は、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数であることを特徴とする請求項12または13に記載の記号挿入方法。
- 前記記号挿入判定手段は、前記関連度を保持するモデル関連度記憶手段から前記関連度を入力することを特徴とする請求項12乃至14の何れか1項に記載の記号挿入方法。
- 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和が最大となった記号を挿入記号と判定することを特徴とする請求項12乃至15の何れか1項に記載の記号挿入方法。
- 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和を閾値と比較することによって記号挿入判定を行うことを特徴とする請求項12乃至15の何れか1項に記載の記号挿入方法。
- 前記記号挿入判定手段は、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内、尤度の高いものから順に所定個数を選択することを特徴とする請求項16または17に記載の記号挿入方法。
- 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、記号挿入モデル毎に、モデル別記号挿入尤度が最大となる挿入記号を求め、各記号挿入モデル毎に求められた挿入記号の多数決により記号挿入判定を行うことを特徴とする請求項12乃至15の何れか1項に記載の記号挿入方法。
- 音声情報を文字化した単語列に記号を挿入する記号挿入装置を構成するコンピュータを、記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う手段として機能させるためのプログラム。
- 前記コンピュータを、
前記単語列について前記複数の記号挿入モデル毎に記号挿入尤度を求める記号挿入尤度計算手段と、
前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度を求める話し方特徴類似度計算手段と、
前記単語列について前記複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う記号挿入判定手段として機能させるための請求項20に記載のプログラム。 - 前記話し方の特徴とは、少なくとも音響的特徴量であることを特徴とする請求項20または21に記載のプログラム。
- 前記関連度は、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数であることを特徴とする請求項21または22に記載のプログラム。
- 前記コンピュータは、前記関連度を保持するモデル関連度記憶手段を備えることを特徴とする請求項21乃至23の何れか1項に記載のプログラム。
- 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和が最大となった記号を挿入記号と判定することを特徴とする請求項21乃至24の何れか1項に記載のプログラム。
- 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和を閾値と比較することによって記号挿入判定を行うことを特徴とする請求項21乃至24の何れか1項に記載のプログラム。
- 前記記号挿入判定手段は、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内、尤度の高いものから順に所定個数を選択することを特徴とする請求項25または26に記載のプログラム。
- 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、記号挿入モデル毎に、モデル別記号挿入尤度が最大となる挿入記号を求め、各記号挿入モデル毎に求められた挿入記号の多数決により記号挿入判定を行うことを特徴とする請求項21乃至24の何れか1項に記載のプログラム。
- 前記コンピュータを、さらに、入力音声に対して音声認識を行って音声認識結果を出力する音声認識手段と、該音声認識手段から出力された音声認識結果から前記記号挿入対象となる単語列を生成する単語列情報生成手段として機能させるための請求項20乃至28の何れか1項に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009553380A JP5141695B2 (ja) | 2008-02-13 | 2009-01-19 | 記号挿入装置および記号挿入方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008031287 | 2008-02-13 | ||
JP2008031287 | 2008-02-13 | ||
JP2009553380A JP5141695B2 (ja) | 2008-02-13 | 2009-01-19 | 記号挿入装置および記号挿入方法 |
PCT/JP2009/050641 WO2009101837A1 (ja) | 2008-02-13 | 2009-01-19 | 記号挿入装置および記号挿入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009101837A1 true JPWO2009101837A1 (ja) | 2011-06-09 |
JP5141695B2 JP5141695B2 (ja) | 2013-02-13 |
Family
ID=40956867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009553380A Active JP5141695B2 (ja) | 2008-02-13 | 2009-01-19 | 記号挿入装置および記号挿入方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8577679B2 (ja) |
JP (1) | JP5141695B2 (ja) |
WO (1) | WO2009101837A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8719004B2 (en) * | 2009-03-19 | 2014-05-06 | Ditech Networks, Inc. | Systems and methods for punctuating voicemail transcriptions |
CN103474062A (zh) * | 2012-08-06 | 2013-12-25 | 苏州沃通信息科技有限公司 | 一种语音识别方法 |
CN104142915B (zh) | 2013-05-24 | 2016-02-24 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
CN104143331B (zh) | 2013-05-24 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
US9508338B1 (en) * | 2013-11-15 | 2016-11-29 | Amazon Technologies, Inc. | Inserting breath sounds into text-to-speech output |
US9607613B2 (en) | 2014-04-23 | 2017-03-28 | Google Inc. | Speech endpointing based on word comparisons |
JP6440967B2 (ja) * | 2014-05-21 | 2018-12-19 | 日本電信電話株式会社 | 文末記号推定装置、この方法及びプログラム |
US20170110118A1 (en) * | 2015-10-19 | 2017-04-20 | Google Inc. | Speech endpointing |
KR101942521B1 (ko) | 2015-10-19 | 2019-01-28 | 구글 엘엘씨 | 음성 엔드포인팅 |
US10269341B2 (en) | 2015-10-19 | 2019-04-23 | Google Llc | Speech endpointing |
US10929754B2 (en) | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
CN110520925B (zh) | 2017-06-06 | 2020-12-15 | 谷歌有限责任公司 | 询问结束检测 |
JP6728116B2 (ja) * | 2017-09-21 | 2020-07-22 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
JP6605105B1 (ja) * | 2018-10-15 | 2019-11-13 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
JP7253951B2 (ja) * | 2019-03-26 | 2023-04-07 | 日本放送協会 | 自然言語データ処理装置およびプログラム |
JP7229144B2 (ja) * | 2019-10-11 | 2023-02-27 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
JPWO2023100433A1 (ja) * | 2021-11-30 | 2023-06-08 | ||
WO2024029152A1 (ja) * | 2022-08-05 | 2024-02-08 | 株式会社Nttドコモ | 区切り記号挿入装置及び音声認識システム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0693221B2 (ja) * | 1985-06-12 | 1994-11-16 | 株式会社日立製作所 | 音声入力装置 |
JPS6234200A (ja) * | 1985-08-08 | 1987-02-14 | 工業技術院長 | 韻律情報を利用した会話音声理解方法 |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
CN1159662C (zh) * | 1998-05-13 | 2004-07-28 | 国际商业机器公司 | 连续语音识别中的标点符号自动生成装置及方法 |
JP3232289B2 (ja) * | 1999-08-30 | 2001-11-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 記号挿入装置およびその方法 |
JP2001134289A (ja) * | 1999-11-08 | 2001-05-18 | Just Syst Corp | 音声認識システム、方法及び記録媒体 |
JP4229627B2 (ja) * | 2002-03-28 | 2009-02-25 | 株式会社東芝 | ディクテーション装置、方法及びプログラム |
JP2003295888A (ja) * | 2002-04-04 | 2003-10-15 | Mitsubishi Electric Corp | 音声認識装置及びプログラム |
EP1422692A3 (en) * | 2002-11-22 | 2004-07-14 | ScanSoft, Inc. | Automatic insertion of non-verbalized punctuation in speech recognition |
US8095364B2 (en) * | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
-
2009
- 2009-01-19 WO PCT/JP2009/050641 patent/WO2009101837A1/ja active Application Filing
- 2009-01-19 US US12/863,945 patent/US8577679B2/en active Active
- 2009-01-19 JP JP2009553380A patent/JP5141695B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP5141695B2 (ja) | 2013-02-13 |
US8577679B2 (en) | 2013-11-05 |
US20100292989A1 (en) | 2010-11-18 |
WO2009101837A1 (ja) | 2009-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5141695B2 (ja) | 記号挿入装置および記号挿入方法 | |
US10037758B2 (en) | Device and method for understanding user intent | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
US10917758B1 (en) | Voice-based messaging | |
US11189277B2 (en) | Dynamic gazetteers for personalized entity recognition | |
JP4267385B2 (ja) | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム | |
CN102176310B (zh) | 具有巨大词汇量的语音识别系统 | |
US10854191B1 (en) | Machine learning models for data driven dialog management | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
TW201203222A (en) | Voice stream augmented note taking | |
WO2005122144A1 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
KR101677859B1 (ko) | 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치 | |
WO2011036769A1 (ja) | 翻訳装置、及びプログラム | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
JP2017125921A (ja) | 発話選択装置、方法、及びプログラム | |
KR20080014680A (ko) | 제곱근 디스카운트를 이용한 통계적 언어에 의한 음성 인식방법 및 시스템 | |
CN117043859A (zh) | 查找表循环语言模型 | |
CN111508481B (zh) | 语音唤醒模型的训练方法、装置、电子设备及存储介质 | |
CN108899016B (zh) | 一种语音文本规整方法、装置、设备及可读存储介质 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
JP2002091484A (ja) | 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP4986301B2 (ja) | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110908 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121023 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121105 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151130 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5141695 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |