JPWO2009078256A1 - 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム - Google Patents

発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム Download PDF

Info

Publication number
JPWO2009078256A1
JPWO2009078256A1 JP2009546202A JP2009546202A JPWO2009078256A1 JP WO2009078256 A1 JPWO2009078256 A1 JP WO2009078256A1 JP 2009546202 A JP2009546202 A JP 2009546202A JP 2009546202 A JP2009546202 A JP 2009546202A JP WO2009078256 A1 JPWO2009078256 A1 JP WO2009078256A1
Authority
JP
Japan
Prior art keywords
pronunciation
language model
pronunciation variation
difference
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009546202A
Other languages
English (en)
Other versions
JP5327054B2 (ja
Inventor
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009546202A priority Critical patent/JP5327054B2/ja
Publication of JPWO2009078256A1 publication Critical patent/JPWO2009078256A1/ja
Application granted granted Critical
Publication of JP5327054B2 publication Critical patent/JP5327054B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Abstract

少ない労力で、発音変動事例を頑健に検出し、汎化性の高い発音変動規則を獲得することを課題とする。この課題は、音声データ記憶部と、標準形発音記憶部と、サブワード言語モデル生成部と、音声認識部と、差分抽出部とを備える発音変動規則抽出装置によって解決できる。音声データ記憶部は、音声データを記憶する。標準形発音記憶部は、音声データの標準形発音を表す標準形発音データを記憶する。サブワード言語モデル生成部は、標準形発音データからサブワード言語モデルを生成する。音声認識部は、サブワード言語モデルを用いて音声データを認識する。差分抽出部は、音声認識部が出力する認識結果と、標準形発音データとを比較して、これらの差分を抽出する。

Description

本発明は、発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラムに関し、特に、対応する書き起こしテキストが付随した音声データ等から、自由な話し言葉によく現れる発音変動の規則を抽出することができる発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラムに関する。
『堤、加藤、小坂、好田著「発音変形依存モデルを用いた講演音声認識」電子情報通信学会論文誌、第J89−D巻、2号、305〜313頁、2006年』、『秋田、河原著「話し言葉音声認識のための汎用的な統計的発音変動モデル」電子情報通信学会論文誌、第J88−D2巻、9号、1780〜1789頁、2005年』に、発音変動規則抽出装置の一例が記載されている。図1に示すように、この発音変動規則抽出装置200は、標準形発音記憶手段201と、変形発音記憶手段202と、差分抽出手段203と、発音変動計数手段204とから構成されている。
このような構成を有する発音変動規則抽出装置200は次のように動作する。すなわち、差分抽出部203は、標準形発音記憶部201および変形発音記憶部202からそれぞれ書き起こしテキストを抽出し、差分、すなわち相違箇所を抽出する。
ここで標準形発音記憶部201および変形発音記憶部202には、長時間の音声データの発音内容を書き起こした結果である書き起こしテキストが記憶されている。より具体的には、標準形発音記憶部201には、例えば以下のような書き起こしテキストが格納されている。
その ような しゅじゅつ を ほぼ まいにち おこない まし た
また、変形発音記憶部202には、標準形発音記憶部201に記憶された書き起こしテキストと対応する形で、例えば以下のような書き起こしテキストが格納されている。
その ような しじつ を ほぼ まいんち おこない まし た
標準形発音記憶部201には、元となった音声データの標準的な発音、つまり正しく発音された場合に観測されるべき本来の発音が書き起こしテキストとして記憶されている。一方、変形発音記憶部202には、音声データを実際に人が聞いて、聞こえるままの発音を忠実に書き起こした書き起こしテキストが記憶されている。上の例では、標準形発音「しゅじゅつ(手術)」、「まいにち(毎日)」に対して、それぞれ「しじつ」、「まいんち」という変形発音が記憶されている。
差分抽出部203は、標準形の書き起こしテキストと変形の書き起こしテキストとを比較し、相違する箇所の文字列対を抽出する。上の例では、「しゅじゅつ」と「しじつ」、「まいにち」と「まいんち」が抽出される。以下、これらの対を発音変動事例と呼ぶ。また、標準形発音と変形発音が等しい、すなわち変形がない場合の発音変動事例を特に、恒等発音変動と呼ぶことにする。
発音変動計数部204は、差分抽出部203から発音変動事例を受け取り、同じ標準形、同じ変形ごとに分類し、恒等発音変動も含めて観測回数を計数する。さらに、計数結果を正規化して確率値に変換する。例えば、上の例で標準形発音「まいにち」に対する変形発音として「まいにち(恒等変形)」、「まいんち」、「まいち」、「まんいち」があり、それぞれ966回、112回、13回、2回観測されたとする。標準形発音「まいにち」の観測回数は966+112+13+2=1093であるから、確率値に変換すると、
まいにち→まいにち 0.884(966/1093)
まいにち→まいんち 0.102(112/1093)
まいにち→まいち 0.012(13/1093)
まいにち→まんいち 0.002(2/1093)
となる。この結果は、標準形発音「まいにち」に対する変形発音の出現傾向に関する確率的な規則と解釈できる。発音変動計数部204は、上記結果を発音変動規則として出力する。
なお、上の例では、標準形発音や変形発音を単語単位で扱っているが、他の単位、例えば所定の長さの音素(母音、子音等、音声を構成する最小単位)の系列として扱うことも可能である。また、上記確率値を計算する際に、適当な平滑化操作、例えば観測回数が所定値に満たない特殊な発音変動規則を無視する等を行ってもよい。
『緒方、有木著「発音変形と音響的誤り傾向を考慮した話し言葉音声認識の検討」日本音響学会2003年春季研究発表会講演論文集、9〜10頁、2003年3月』、『緒方、後藤、浅野著「話し言葉音声認識のための動的発音モデリング法の検討」日本音響学会2004年春季研究発表会講演論文集、203〜204頁、2004年3月』に、発音変動規則抽出装置の別の一例が記載されている。図2に示すように、この発音変動規則抽出装置300は、音声データ記憶部301と、標準形発音記憶部302と、音節辞書記憶部303と、音響モデル記憶部304と、音声認識部305と、差分抽出部306と、発音変動計数部307とから構成されている。
このような構成を有する発音変動規則抽出装置300は次のように動作する。すなわち、音声認識部305は、音節辞書記憶部303に記憶された辞書、および音響モデル記憶部304に記憶された音響モデルを用いて、音声データ記憶部301に記憶された音声データに対して、公知の連続音節認識処理を行い、認識結果の音節系列を出力する。
ここで、音節辞書記憶部303に記憶された辞書は、日本語の場合、あ、い、う、え、お、か、き、く、け、こ、…のようにあらゆる音節を記録したリストであり、各音節について、その音響的特徴が参照できるよう、音響モデルへのポインタが付与されている。他の言語の場合でも、その言語に即して適当な単位を定義し、辞書を構成することが可能である。また、音響モデル記憶部304に記憶された音響モデルは、所定の認識単位、すなわち音節、音素などに関する音響的特徴が、公知の隠れマルコフモデル等の手法に基づいて記述されたモデルである。
差分抽出部306は、音声認識部305から認識結果を、標準形発音記憶部302から書き起こしテキストをそれぞれ受け取り、両者の差分、すなわち相違箇所を抽出する。ここで、標準形発音記憶部302に記憶された書き起こしテキストは、図1の標準形発音記憶部201に記憶された書き起こしテキストと同様であるが、音声データ記憶部301に記憶された音声データと対応付いている、すなわち、音声データ記憶部301の音声データの内容が正しく発音された場合に観測されるべき本来の発音が書き起こしテキストとして記憶されている。発音変動計数部307は、図1の発音変動計数部204と同様の動作により、差分抽出部306から発音変動事例を受取り、発音変動規則を出力する。
『大西著「認識誤りの話者性を考慮した発声変形抽出と認識辞書拡張」日本音響学会2007年春季研究発表会講演論文集、65〜66頁、2007年3月』に、発音変動規則抽出装置のさらに別の一例が記載されている。図3に示すように、この発音変動規則抽出装置400は、音声データ記憶部401と、標準形発音記憶部402と、単語言語モデル・辞書記憶部403と、音響モデル記憶部404と、音声認識部405と、差分抽出部406と、発音変動計数部407とから構成されている。
このような構成を有する発音変動規則抽出装置400は次のように動作する。すなわち、音声認識部405は、単語言語モデル・辞書記憶部403に記憶された言語モデルと辞書、および音響モデル記憶部404に記憶された音響モデルを用いて、音声データ記憶部401に記憶された音声データに対して公知の連続単語認識処理を行い、認識結果の単語系列を出力する。
ここで、単語言語モデル・辞書記憶部403に記憶された辞書および言語モデルは、一般的な大語彙連続音声認識システムが備える辞書および言語モデルと同様のものでよい。辞書は数万語の単語を含み、各単語について、その発音と、音響的特徴を参照するに足る音響モデルへのポインタが付与されている。言語モデルは、公知のn−gramモデルに基づき、n−1個の単語並びを仮定した場合に、次にどのような単語が現れるかを確率の形で規定したモデルとなる。
また、音響モデル記憶部404に記憶された音響モデルは、図2の音響モデル記憶部304に記憶された音響モデルと同様、所定の認識単位、すなわち音節、音素などに関する音響的特徴が、公知の隠れマルコフモデル等の手法に基づいて記述されたモデルである。
差分抽出部406は、図2の差分抽出部306と同様の動作により、音声認識部405から認識結果を、標準形発音記憶部402から書き起こしテキストをそれぞれ受け取り、両者の差分、すなわち相違箇所を抽出する。ここで、標準形発音記憶部402に記憶された書き起こしテキストは、図2の標準形発音記憶部302と同様であり、音声データ記憶部401に記憶された音声データと対応付いていることが必要である。発音変動計数部407は、図1の発音変動計数部204や、図2の発音変動計数部307と同様の動作により、差分抽出部406から発音変動事例を受取り、発音変動規則を出力する。
これらの5つの文献に記載された発音変動規則抽出装置100,200,300における第1の問題点は、発音変動規則やその元となる発音変動事例を得るために多大な労力を要するということである。その理由は、標準形発音とそれに対応する変形発音を大量に用意する必要があるためである。妥当性の高い発音変動規則を獲得するために、図1の発音変動規則抽出装置100では、大量の音声データの書き起こしにより、標準形発音記憶部201に記憶される標準形発音、および変形発音記憶部202に記憶される変形発音をあらかじめ作成しておく必要がある。しかしながら、標準形発音と変形発音、特に後者の作成は、音声の聞き取りに習熟した作業者が注意深く音声を聞き、曖昧で判断がつきにくい変形発音を文字列として書き起こす作業となるため、とりわけ時間と労力がかかる。
第2の問題点は、汎化性の高い発音変動規則を得ることが難しいということである。その理由は、自由な話し言葉の音声データから正確な発音変動事例を得ることが難しいためである。例えば、図1の発音変動規則抽出装置100では、人手により変形発音を書き起こすが、大量の書き起こしを得るためには、多数の作業者が分担して作業を行うのが普通である。しかしながら、話し言葉の発音は本質的に曖昧であるため、書き起こしには作業者の主観が多分に入り、作業結果にばらつきが生じる。また、図2の発音変動規則抽出装置200では、音声認識部により統一的な基準で変形発音を自動的に取得することが可能である。しかしながら、現在の音声認識の技術水準では、言語的な事前知識のない状況で音節の並びを求める連続音節認識処理を正確に行うことは極めて難しい。例えば、「ひろしま」という発声を連続音節認識すると、「けるせま」、「かるりか」というような、実際の発音の変動とは程遠い結果がしばしば得られる。すなわち、連続音節認識を適用しても、ランダムで有用性の乏しい文字列が得られるのみである。
図3の発音変動規則抽出装置300でも、単語辞書と言語モデルという事前知識が利用可能とはいえ、図2の発音変動規則抽出装置200と同様、音声認識の不正確さの問題がなお残る。さらに図3の発音変動規則抽出装置300では、単語辞書と言語モデルが音声認識処理における言語的な制約として働くことから、得られる発音変動事例は単語辞書と言語モデルの影響を受ける。よって、実際に起こっている発音変動現象とは一般に異なる発音変動事例が得られる。例えば、「せんたくき(洗濯機)」が「せんたっき」に変わったり、「しょくぱん(食ぱん)」が「しょっぱん」に変わったりするような現象は一般的にみられるが、図3の発音変動規則抽出装置300では、単語辞書に含まれる単語の組合せとしてしか音声認識結果が得られないため、「せんたっき」という発音と一致する認識結果が得られる保証はどこにもない。
本発明の目的は、少ない労力で、発音変動事例を頑健に検出し、汎化性の高い発音変動規則を獲得することにある。
本発明の一つ目のアスペクトによる発音変動規則抽出装置は、音声データ記憶部と、標準形発音記憶部と、サブワード言語モデル生成部と、音声認識部と、差分抽出部とを備える。音声データ記憶部は、音声データを記憶する。標準形発音記憶部は、音声データの標準形発音を表す標準形発音データを記憶する。サブワード言語モデル生成部は、標準形発音データからサブワード言語モデルを生成する。音声認識部は、サブワード言語モデルを用いて音声データを認識する。差分抽出部は、音声認識部が出力する認識結果と、標準形発音データとを比較して、これらの差分を抽出する。
本発明の二つ目のアスペクトによる発音変動規則抽出方法は、記憶することと、生成することと、認識することと、抽出することとを具備する。記憶することは、音声データの標準形発音を表す標準形発音データを記憶する。生成することは、標準形発音データからサブワード言語モデルを生成する。認識することは、サブワード言語モデルを用いて音声データを認識する。抽出することは、認識することによる認識結果と、標準形発音データとを比較して、これらの差分を抽出する。
本発明の三つ目のアスペクトによる発音変動規則抽出用プログラムは、コンピュータを、音声データ記憶部と、標準形発音記憶部と、サブワード言語モデル生成部と、音声認識部と、差分抽出部ととして機能させる。音声データ記憶部は、音声データを記憶する。標準形発音記憶部は、音声データの標準形発音を表す標準形発音データを記憶する。サブワード言語モデル生成部は、標準形発音データからサブワード言語モデルを生成する。音声認識部は、サブワード言語モデルを用いて音声データを認識する。差分抽出部は、音声認識部が出力する認識結果と、標準形発音データとを比較して、これらの差分を抽出する。このプログラムは、コンピュータ読み取り可能な記録媒体に格納でき、その記録媒体からコンピュータに読み込ませることができる。
本発明による効果は、正確で汎化性の高い発音変動規則を獲得できることにある。その理由は、制約のないサブワードを単位とした音声認識を基本として、音声データに対応する標準形発音という言語制約を任意の強さでかけながら音声認識を行うことにより、個々の音声データの違いに依存せず、多くの音声データに共通して現れる発音変動を抽出できるからである。また、人手作業で発生する、主観判断によるばらつきもないからである。
従来技術の一例を示すブロック図である。 従来技術の一例を示すブロック図である。 従来技術の一例を示すブロック図である。 本発明による第1の発明を実施するための最良の形態の構成を示すブロック図である。 第1の発明を実施するための最良の形態の動作の具体例を示す図である。 第1の発明を実施するための最良の形態の動作の具体例を示す図である。 第1の発明を実施するための最良の形態の動作の具体例を示す図である。 第1の発明を実施するための最良の形態の動作を示す流れ図である。 本発明による第2の発明を実施するための最良の形態の構成を説明するプロック図である。
本発明を実施するための最良の形態の一つについて図面を参照して詳細に説明する。図4を参照すると、本発明の第1の実施の形態における発音変動規則抽出装置100は、音声データ記憶部101と、標準形発音記憶部102と、サブワード言語モデル・辞書生成部103と、音響モデル記憶部104と、音声認識部105と、差分抽出部106と、発音変動確率推定部107と、言語モデル重み制御部108とを含む。
音声データ記憶部101は、発音変動事例が含まれると思われる多数の音声データを記憶する。標準形発音記憶部102は、音声データ記憶部101に記憶された音声データの書き起こしテキストを記憶する。ここに書き起こしテキストは、音声データの発音内容が、標準形で書き起こされたテキストデータであり、ひらがな、カタカナ、あるいは任意の発音記号の列で表される。ひらがなで表した書き起こしテキストの例を以下に示す。
みなさん こんにちわ
発音を表す書き起こしであることから、「こんにちは」は「こんにちわ」と記述される。
音響モデル記憶部104は、後述する音声認識部105が音声認識処理を行う際に必要となる音響モデルを記憶する。音響モデルは、隠れマルコフモデルに基づいて個々の音素(日本語の場合は母音a,i,u,e,o,子音k,s,t,n,…)をモデル化したもの等を用いることができる。
サブワード言語モデル・辞書生成部103は、標準形発音記憶部102に記憶された書き起こしテキストを用いて、後述する音声認識部105が音声認識処理を行う際に必要となるサブワード言語モデル・辞書を生成する。ここに辞書は、例えばサブワードを音節とした場合、「あ,い,う,え,お,か,き,く,け,こ,…」の各音節を1単語として構成された辞書である。各単語、すなわち各音節についてその音響的特徴がわかるように、例えば「あ→a」、「か→ka」、「さ→sa」、…のように、単語から音響モデルへのポインタが付与されている。なお、音声データに一般に含まれ得るすべての音節を辞書が網羅しているなら、辞書は言語モデルと併せて生成する必要はない。この場合は、図示しない記憶部にそのような辞書を記憶しておいてもよい。
また、サブワード言語モデルは、サブワードを単語として、音声認識で広く用いられるn−gramモデルの考え方に基づき、各単語について、履歴hに続いて単語wが出現する確率P(w|h)を規定したモデルである。具体的には、例えばn=3のモデル(trigramモデル)の場合、音節si−2,si−1がこの順に出現したとき、次に音節siが出現する確率P(si|si−2,si−1)が種々のsi−2,si−1,siについて規定されている。さらに、ここで生成されるサブワード言語モデルは、標準形発音記憶部102に記憶された標準形の書き起こしテキストを学習データとして生成される。
例えば、上述の例の みなさん こんにちわ という1発話を学習データに用いて生成されるサブワード言語モデルは、図5のように表される。なお、図5に示されていない履歴hを含む確率については等確率を与えるとすることができる。また、図5に示された履歴hを含むが図5に示されていない確率については0とすることができる。図5の”h”欄において、φは空文字列であり、ここでは特に文頭を意味する。また、#は単語間のポーズ(無音)を意味し、単語間にポーズが入る場合と入らない場合とで確率を二分している。上述のように、1発話のような短い単位の書き起こしテキストから学習されたサブワード言語モデルは、学習した書き起こしテキストを極めて高い確率(多くは確率1)で受理し、それ以外のほとんどすべてのテキストを拒否するサブワード言語モデルとなる。
なお、ここでは1発話を単位としてサブワード言語モデルを生成しているが、第1の実施の形態はこの単位の取り方を制限するものではなく、数個の発話を1単位とする、あるいは1個ないし数個の単語を単位とすることも可能である。また、サブワード言語モデル・辞書を構成する単語の単位を、ここでは音節としているが、一般にサブワードと呼ばれる単位、すなわち、音節、半音節、モーラ、音素等を単位としてサブワード言語モデル・辞書を生成することが可能である。
言語モデル重み制御部108は、サブワード言語モデルの重み値を少なくとも1回決定し、音声認識部105に送る。1回だけ決定する場合は、例えばあらかじめ実験的に定めた定数を使えばよい。また、複数回決定する場合は、同様にあらかじめ実験的に定めた複数個の定数を順に選択したり、あらかじめ定めた初期値から、あらかじめ定めた値を順次加算あるいは減算すればよい。ここにサブワード言語モデルの重み値とは、一般に正の値をとり、後述する音声認識部105が音響モデルやサブワード言語モデル・辞書を参照して音声認識処理を行う際に、サブワード言語モデルから計算されるスコアをどの程度重視するかを規定するパラメータである。
音声認識部105は、音響モデル記憶部104から音響モデルを、サブワード言語モデル・辞書生成部103から言語モデル・辞書をそれぞれ受け取り、また、言語モデル重み制御部108からサブワード言語モデルの重み値を少なくとも1回受け取る。そして、サブワード言語モデルの重み値ごとに、音声データ記憶部101に記憶された音声データに対して音声認識処理を行い、認識結果の音節列を求める。なお、音声認識処理は次の数式1により表すことができ、認識対象の音声データOに対して、認識結果Wが得られる。
Figure 2009078256
ここに、右辺argmax関数内の第1項、第2項は、それぞれ音響スコア、言語スコアと呼ばれる。θAMは音響モデルであり、音響モデル記憶部104に記憶されている。θLMはサブワード言語モデル・辞書であり、サブワード言語モデル・辞書生成部103により生成される。λLMはサブワード言語モデルの重み値であり、言語モデル重み制御部108により決定される。W’は、認識結果Wになる候補であり、いずれかのW’が、Wとして算出される。argmaxは、変数W’を動かしたときに、最大値を与えるW’を求める関数である。
サブワード言語モデルの重み値λLMが十分大きい場合、認識結果は、サブワード言語モデルの学習データとなった書き起こしテキストと極めて高い確率で一致する。逆に、サブワード言語モデルの重み値λLMが小さい場合は、認識結果は先述の図2に示したような、連続音節認識の結果に近づく。なお、サブワード言語モデルの重み値を設定する代わりに、音響モデルの重み値を設定してもよい。すなわち、言語スコアの項に係数λLMをかける代わりに、音響スコアの項に同様の係数をかけても同じことである。サブワード言語モデルの重み値を大きくすることは、音響モデルの重み値を小さくすることと同値である。
差分抽出部106は、音声認識部105から少なくとも1つの認識結果を、また標準形発音記憶部102から標準形の書き起こしテキストをそれぞれ受け取り、両者の差分、すなわち相違箇所を抽出する。図6は、差分抽出部106が音声認識部105から受け取る認識結果の一例である。この例では、複数のサブワード言語モデルの重み値(10.0〜0.5)について、それぞれ得られた認識結果が示されている。差分抽出部106は、図6の認識結果を、標準形の書き起こしテキストと比較して、図7に示すように相違箇所をサブワード言語モデルの重み値とともに抽出する。図7の各行を、ここでは発音変動事例と呼ぶ。
なお、ここでは単語単位で差分すなわち発音変動事例を抽出しているが、第1の実施の形態は単位の取り方を単語に限定するものではなく、他の任意の単位でも実施可能である。例えば、前出の2つ目の文献では、所定の長さの音素系列を単位として差分抽出を行っているが、第1の実施の形態においても、このような形式による差分抽出を容易に適用することが可能である。
発音変動確率推定部107は、差分抽出部106から発音変動事例を受け取り、標準形発音、変形発音ごとに分類し、発音変動規則を得る。図7に示したように、発音変動事例を標準形発音、変形発音、サブワード言語モデルの重み値の組として、音声データ記憶部101に記憶された音声データから、数式2のようなN個の発音変動事例が得られたとする。
Figure 2009078256
サブワード言語モデルの重み値が大きく、言語的制約が強い場合でも観測される変形発音は、一般的に発現しやすいであろうことを考慮すると、標準形発音wを所与とした発音変動規則が数式3のように確率論的に定義される。
Figure 2009078256
ただし、δi,jはクロネッカのデルタ(i=jなら1、そうでなければ0)である。なお、数式3の変形例として、サブワード言語モデルの重み値λiを考慮せず、λiを1に置き換えて計算してもよい。また、数式3のλiを、λiを変数とする関数、例えばλiの多項式関数などに置き換えてもよい。さらに、数式3の確率値を計算する際に、適当な平滑化操作を行ってもよい。適当な平滑化操作とは、例えば、サブワード言語モデルの重み値が小さい発音変動事例を無視する、観測回数が所定値に満たない発音変動事例を無視する等の操作に相当する。
次に、図4のブロック図および図8のフローチャートを参照して、第1の実施の形態における動作について詳細に説明する。まず、音声認識部105は、音響モデル記憶部104から音響モデルを読み込む(図8のステップA1)。次に、サブワード言語モデル・辞書生成部103は、標準形発音記憶部102に記憶された1発話分の書き起こしテキストを選択し(ステップA2)、読み込み(ステップA3)、これを学習データとしてサブワード言語モデルを生成し、および、必要に応じて辞書を生成する(ステップA4)。音声認識部105は、サブワード言語モデル・辞書生成部103が生成したサブワード言語モデル・辞書を読み込む(ステップA5)。次に、音声認識部105は、ステップA2で選択された書き起こしテキストに対応する音声データを、音声データ記憶部101から読み込む(ステップA6)。
言語モデル重み制御部108は、サブワード言語モデルの重み値として所定の値、例えば十分大きな値をセットし、音声認識部105に送る(ステップA7)。音声認識部105は、言語モデル重み制御部108がセットしたサブワード言語モデルの重み値に基づいて、音声認識処理を行い、音声認識結果すなわち音節列と、サブワード言語モデルの重み値を記憶する(ステップA8)。言語モデル重み制御部108は、サブワード言語モデルの重み値を一定量だけ増加又は減少させるなどして、サブワード言語モデルの重み値を更新する(ステップA9)。サブワード言語モデルの重み値の更新が所定回数Iを超えていれば次のステップに進み、そうでなければ、前述のステップA8、A9を繰り返す(ステップA10)。差分抽出部106は、音声認識部105が行った音声認識処理の結果を、図6にすでに示したような形式で受け取り、またステップA3でサブワード言語モデル・辞書生成部103が選択した標準形書き起こしテキストを受け取る。そして、図7や数式2ですでに示したような形式で、両者の相違箇所すなわち発音変動事例を抽出する(ステップA11)。以上示したステップA2からA11までの処理を、未処理の発話がなくなるまで繰り返す(ステップA12)。最後に、発音変動確率推定部107は、差分抽出部106が求めたすべての発音変動事例を、数式3に従ってまとめ上げ、発音変動規則として出力する(ステップA13)。
なお、第1の実施の形態における音声認識部105とわずかに異なる別の音声認識部を適用することが可能である。この別の音声認識部は、図示しない記憶部に無情報なサブワード言語モデルを記憶している。ここで無情報とは、任意の履歴において各単語が等確率で出現し得ることを意味する。無情報なサブワード言語モデルとは、サブワードを音節とした場合、任意の音節の並びであるsi−2,si−1,siについてP(si|si−2,si−1)=constと表されるモデルのことである。無情報なサブワード言語モデルを用いた場合、音声認識処理は数式1に代わり、数式4となる。
Figure 2009078256
ここにθLM0は、無情報なサブワード言語モデルを表す。また、Kはあらかじめ定める定数である(なくてもよい)。数式4を用いた場合でも、言語モデル重み制御部108がサブワード言語モデルの重み値λLMを大小させることによって、第1の実施の形態における音声認識部105の場合と同様の結果が別の音声認識部から得られる。ただしこの場合、サブワード言語モデルの重み値には0≦λLM≦1なる制約が生ずる。よって、言語モデル重み制御部108は、この制約の中でサブワード言語モデルの重み値を決定するよう動作する。
また、音声認識部105、差分抽出部106、および言語モデル重み制御部108の動作についても、第1の実施の形態とわずかに異なる変形例を適用することが可能である。すなわち、第1の実施の形態では、図8のステップA8、A9およびA10を所定の回数だけ反復するとしているが、以下に述べるように、変形例における差分抽出部の抽出結果に応じて適応的に反復回数を決定することも可能である。
例えば、ステップA7にて、十分大きな値をサブワード言語モデルの重み値の初期値とし、ステップA9で順次サブワード言語モデルの重み値が減少するように動作させる場合は、差分抽出部にて標準形発音と認識結果の差分が所定のしきい値よりも大きくなった時点で反復を止めればよい。ここで、標準形発音と認識結果の差分を定量的に測るには、例えば文字列間の相違度合いの一般的尺度として知られている編集距離などが利用できよう。
あるいは逆に、ステップA7にて、十分小さな値をサブワード言語モデルの重み値の初期値とし、ステップA9で順次サブワード言語モデルの重み値が増加するように動作させる場合は、差分抽出部にて標準形発音と認識結果の差分が所定のしきい値よりも小さくなった時点、または標準形発音と認識結果が完全に一致した時点で反復を止めればよい。
次に、第1の実施の形態の効果について説明する。第1の実施の形態では、標準形発音のみ受理可能なサブワード言語モデルを生成するサブワード言語モデル・辞書生成部103と、サブワード言語モデルの重み、すなわちサブワード言語モデルの重み値を決定する言語モデル重み制御部108と、サブワード言語モデルおよびその重み値を用いて標準形発音に対応する音声データを認識する音声認識部105と、音声認識部105が出力する認識結果を標準形発音と比較して相違箇所を発音変動事例として抽出する差分抽出部106と、発音変動事例をまとめ上げて発音変動規則を出力する発音変動確率推定部107とを備える。そして、いくつかのサブワード言語モデルの重み値で音声認識処理を実行した結果をそれぞれ標準形発音と比較し、抽出される差分を発音変動事例とし、この発音変動事例をサブワード言語モデルの重み値を考慮してまとめ上げるようにしているため、正確で汎化性が高く、発現のしやすさに応じて確率値が付与された発音変動規則を獲得できる。
次に、本発明による第2の発明を実施するための最良の形態について図面を参照して詳細に説明する。第2の実施の形態は、第1の実施の形態を、プログラムを用いて実現するものである。このプログラムは、コンピュータを、第1の実施の形態における部101〜108が結合されたものとして機能させる。図9を参照すると、発音変動規則抽出用プログラム92は、コンピュータ読み取り可能な記録媒体90に格納されていて、コンピュータ91に読み込まれ、コンピュータ91の動作を制御する。
発音変動規則抽出用プログラム92は、コンピュータ91に読み込まれた後、起動すると、記憶装置94内の音声データ記憶部941を音声記憶部101として機能させ、標準形発音記憶部942を標準型発音記憶部102として機能させ、および音響モデル記憶部943を音響モデル記憶部104として機能させる。また、データ処理装置93は発音変動規則抽出用プログラム92の制御により、第1の実施の形態におけるサブワード言語モデル・辞書生成部103、音声認識部105、差分抽出部106、発音変動確率推定部107、および言語モデル重み制御部108として機能し、記憶装置94内の音声データ記憶部941、標準形発音記憶部942、および音響モデル記憶部943に記憶されたデータを処理し、発音変動規則を出力する。
本発明によれば、大規模な音声データから発音変動規則を抽出する発音変動抽出装置や、発音変動規則抽出装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、情報入力、情報検索、書き起こし支援、映像インデクシング等に広く用いられる音声認識装置が知られるが、このような音声認識装置が使用する音響モデルや言語モデルを発音変動に対して頑健に作成するための音声認識用モデル作成装置、あるいは発音練習装置、語学学習装置、といった用途にも適用可能である。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、請求の範囲に記載された本願発明の技術的思想の範囲内において、当業者が適宜、様々な変形又は変更を加えることが可能である。
この出願は、2007年12月18日に出願された特許出願番号2007−326132号の日本特許出願に基づいている。本願は、この基礎出願により生じた優先権の利益を享受しており、この基礎出願における開示の内容の全てを、引用により、そっくりそのままここに取り込んでいる。

Claims (20)

  1. 音声データを記憶する音声データ記憶手段と、
    前記音声データの標準形発音を表す標準形発音データを記憶する標準形発音記憶手段と、
    前記標準形発音データからサブワード言語モデルを生成するサブワード言語モデル生成手段と、
    前記サブワード言語モデルを用いて前記音声データを認識する音声認識手段と、
    前記音声認識手段が出力する認識結果と、前記標準形発音データとを比較して、これらの差分を抽出する差分抽出手段とを備える
    発音変動規則抽出装置。
  2. 前記サブワード言語モデルの重み値を制御する言語モデル重み制御手段を更に備え、
    前記言語モデル重み制御手段は、
    複数の重み値を出力し、
    前記音声認識手段は、
    前記複数の重み値のそれぞれについて、前記音声データを認識する
    請求の範囲1記載の発音変動規則抽出装置。
  3. 前記言語モデル重み制御手段は、
    前記重み値を制御する際、あらかじめ定められた値の組に基づいて、所定の回数だけ前記重み値を更新する
    請求の範囲2記載の発音変動規則抽出装置。
  4. 前記言語モデル重み制御手段は、
    前記差分に応じて、前記重み値を更新することの有無を随時決定する
    請求の範囲3記載の発音変動規則抽出装置。
  5. 前記言語モデル重み制御手段は、
    前記差分が所定のしきい値よりも小さい場合に、前記重み値を減少させるように更新する
    請求の範囲4記載の発音変動規則抽出装置。
  6. 前記言語モデル重み制御手段は、
    前記差分が所定のしきい値よりも大きい場合に、前記重み値を増加させるように更新する
    請求の範囲5記載の発音変動規則抽出装置。
  7. 前記差分抽出手段は、
    前記差分を、前記認識結果と前記標準形発音データとの間の編集距離として計算する
    請求の範囲2〜6いずれかに記載の発音変動規則抽出装置。
  8. 前記差分抽出手段は、
    前記差分として、前記認識結果と前記標準形発音データとの相違箇所の文字列対と、前記認識結果が得られたときに前記音声認識手段が前記言語モデル重み制御手段から受け取ったサブワード言語モデルの重み値とを含む発音変動事例を抽出する
    請求の範囲2〜7いずれかに記載の発音変動規則抽出装置。
  9. 前記発音変動事例から発音変動の確率的規則を生成する発音変動確率推定手段を更に備える
    請求の範囲8記載の発音変動規則抽出装置。
  10. 前記発音変動確率推定手段は、
    ある発音変動事例が観測されたときのサブワード言語モデルの重み値の大きさに応じて、前記ある発音変動事例の発現確率が高くなるように前記発音変動の確率的規則を生成する
    請求の範囲9記載の発音変動規則抽出装置。
  11. 音声データの標準形発音を表す標準形発音データを記憶することと、
    前記標準形発音データからサブワード言語モデルを生成することと、
    前記サブワード言語モデルを用いて前記音声データを認識することと、
    前記認識することによる認識結果と、前記標準形発音データとを比較して、これらの差分を抽出することとを具備する
    発音変動規則抽出方法。
  12. 前記サブワード言語モデルの重み値を制御することを更に具備し、
    前記制御することは、
    複数の重み値を出力することを含み、
    前記認識することは、
    前記複数の重み値のそれぞれについて、前記音声データを認識することを含む
    請求の範囲11記載の発音変動規則抽出方法。
  13. 前記制御することは、
    前記重み値を制御する際、あらかじめ定められた値の組に基づいて、所定の回数だけ前記重み値を更新することと、
    前記差分に応じて、前記重み値を更新することの有無を随時決定することと、
    前記差分が所定のしきい値よりも小さい場合に、前記重み値を減少させるように更新することと、
    前記差分が所定のしきい値よりも大きい場合に、前記重み値を増加させるように更新することとを更に含む
    請求の範囲12記載の発音変動規則抽出方法。
  14. 前記抽出することは、
    前記差分を、前記認識結果と前記標準形発音データとの間の編集距離として計算することと、
    前記差分として、前記認識結果と前記標準形発音データとの相違箇所の文字列対と、前記認識結果が得られたときに受け取ったサブワード言語モデルの重み値とを含む発音変動事例を抽出することとを含む
    請求の範囲13記載の発音変動規則抽出方法。
  15. 前記発音変動事例から発音変動の確率的規則を生成することを更に具備し、
    前記確率的規則を生成することは、
    ある発音変動事例が観測されたときのサブワード言語モデルの重み値の大きさに応じて、前記ある発音変動事例の発現確率が高くなるように前記発音変動の確率的規則を生成することを含む
    請求の範囲14記載の発音変動規則抽出方法。
  16. 音声データを記憶する音声データ記憶手段と、
    前記音声データの標準形発音を表す標準形発音データを記憶する標準形発音記憶手段と、
    前記標準形発音データからサブワード言語モデルを生成するサブワード言語モデル生成手段と、
    前記サブワード言語モデルを用いて前記音声データを認識する音声認識手段と、
    前記音声認識手段が出力する認識結果と、前記標準形発音データとを比較して、これらの差分を抽出する差分抽出手段ととしてコンピュータを機能させるための
    発音変動規則抽出用プログラム。
  17. 前記サブワード言語モデルの重み値を制御する言語モデル重み制御手段を更に備え、
    前記言語モデル重み制御手段は、
    複数の重み値を出力し、
    前記音声認識手段は、
    前記複数の重み値のそれぞれについて、前記音声データを認識する
    請求の範囲16記載の発音変動規則抽出用プログラム。
  18. 前記言語モデル重み制御手段は、
    前記重み値を制御する際、あらかじめ定められた値の組に基づいて、所定の回数だけ前記重み値を更新し、
    前記差分に応じて、前記重み値を更新することの有無を随時決定し、
    前記差分が所定のしきい値よりも小さい場合に、前記重み値を減少させるように更新し、
    前記差分が所定のしきい値よりも大きい場合に、前記重み値を増加させるように更新する
    請求の範囲17記載の発音変動規則抽出用プログラム。
  19. 前記差分抽出手段は、
    前記差分を、前記認識結果と前記標準形発音データとの間の編集距離として計算し、
    前記差分として、前記認識結果と前記標準形発音データとの相違箇所の文字列対と、前記認識結果が得られたときに前記音声認識手段が前記言語モデル重み制御手段から受け取ったサブワード言語モデルの重み値とを含む発音変動事例を抽出する
    請求の範囲18記載の発音変動規則抽出用プログラム。
  20. 前記発音変動事例から発音変動の確率的規則を生成する発音変動確率推定手段を更に備え、
    前記発音変動確率推定手段は、
    ある発音変動事例が観測されたときのサブワード言語モデルの重み値の大きさに応じて、前記ある発音変動事例の発現確率が高くなるように前記発音変動の確率的規則を生成する
    請求の範囲19記載の発音変動規則抽出用プログラム。
JP2009546202A 2007-12-18 2008-11-27 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム Expired - Fee Related JP5327054B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009546202A JP5327054B2 (ja) 2007-12-18 2008-11-27 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007326132 2007-12-18
JP2007326132 2007-12-18
JP2009546202A JP5327054B2 (ja) 2007-12-18 2008-11-27 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
PCT/JP2008/071500 WO2009078256A1 (ja) 2007-12-18 2008-11-27 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム

Publications (2)

Publication Number Publication Date
JPWO2009078256A1 true JPWO2009078256A1 (ja) 2011-04-28
JP5327054B2 JP5327054B2 (ja) 2013-10-30

Family

ID=40795375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009546202A Expired - Fee Related JP5327054B2 (ja) 2007-12-18 2008-11-27 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム

Country Status (3)

Country Link
US (1) US8595004B2 (ja)
JP (1) JP5327054B2 (ja)
WO (1) WO2009078256A1 (ja)

Families Citing this family (206)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8949125B1 (en) * 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations
JP5660441B2 (ja) * 2010-09-22 2015-01-28 独立行政法人情報通信研究機構 音声認識装置、音声認識方法、及びプログラム
US9031839B2 (en) * 2010-12-01 2015-05-12 Cisco Technology, Inc. Conference transcription based on conference data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9292487B1 (en) * 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578465B (zh) * 2013-10-18 2016-08-17 威盛电子股份有限公司 语音辨识方法及电子装置
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6125991B2 (ja) * 2013-12-25 2017-05-10 日本電信電話株式会社 発音辞書変換モデル作成装置と発音辞書変換装置とそれらの方法と、プログラムとその記録媒体
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
JP6475517B2 (ja) * 2015-03-02 2019-02-27 日本放送協会 発音系列拡張装置およびそのプログラム
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
JP6568429B2 (ja) * 2015-08-27 2019-08-28 日本放送協会 発音系列拡張装置およびそのプログラム
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10089974B2 (en) 2016-03-31 2018-10-02 Microsoft Technology Licensing, Llc Speech recognition and text-to-speech learning system
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
CN107144317A (zh) * 2017-05-16 2017-09-08 中冶赛迪装备有限公司 一种智能液位计
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10565982B2 (en) 2017-11-09 2020-02-18 International Business Machines Corporation Training data optimization in a service computing system for voice enablement of applications
US10553203B2 (en) 2017-11-09 2020-02-04 International Business Machines Corporation Training data optimization for voice enablement of applications
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
JP2021529338A (ja) * 2018-04-27 2021-10-28 エル ソルー カンパニー, リミテッドLlsollu Co., Ltd. 発音辞書生成方法及びそのための装置
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112382275B (zh) * 2020-11-04 2023-08-15 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质

Family Cites Families (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US5293451A (en) * 1990-10-23 1994-03-08 International Business Machines Corporation Method and apparatus for generating models of spoken words based on a small number of utterances
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5627939A (en) * 1993-09-03 1997-05-06 Microsoft Corporation Speech recognition system and method employing data compression
JP3311460B2 (ja) * 1994-01-28 2002-08-05 富士通株式会社 音声認識装置
JPH08123470A (ja) * 1994-10-25 1996-05-17 Nippon Hoso Kyokai <Nhk> 音声認識装置
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US6490555B1 (en) * 1997-03-14 2002-12-03 Scansoft, Inc. Discriminatively trained mixture models in continuous speech recognition
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
JPH10308887A (ja) * 1997-05-07 1998-11-17 Sony Corp 番組送出装置
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords
US6092038A (en) * 1998-02-05 2000-07-18 International Business Machines Corporation System and method for providing lossless compression of n-gram language models in a real-time decoder
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6208964B1 (en) * 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US6622121B1 (en) * 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
US7447635B1 (en) * 1999-10-19 2008-11-04 Sony Corporation Natural language interface control system
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
DE60111329T2 (de) * 2000-11-14 2006-03-16 International Business Machines Corp. Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
US20020087317A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented dynamic pronunciation method and system
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
US7395205B2 (en) * 2001-02-13 2008-07-01 International Business Machines Corporation Dynamic language model mixtures with history-based buckets
EP1233406A1 (en) * 2001-02-14 2002-08-21 Sony International (Europe) GmbH Speech recognition adapted for non-native speakers
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
US6985861B2 (en) * 2001-12-12 2006-01-10 Hewlett-Packard Development Company, L.P. Systems and methods for combining subword recognition and whole word recognition of a spoken input
CA2475857C (en) * 2002-03-11 2008-12-23 University Of Southern California Named entity translation
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
JP2004053742A (ja) * 2002-07-17 2004-02-19 Matsushita Electric Ind Co Ltd 音声認識装置
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
US7467087B1 (en) * 2002-10-10 2008-12-16 Gillick Laurence S Training and using pronunciation guessers in speech recognition
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
KR100486733B1 (ko) * 2003-02-24 2005-05-03 삼성전자주식회사 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US20040243412A1 (en) * 2003-05-29 2004-12-02 Gupta Sunil K. Adaptation of speech models in speech recognition
US7266495B1 (en) * 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
EP2506252B1 (en) * 2003-11-21 2019-06-05 Nuance Communications, Inc. Topic specific models for text formatting and speech recognition
GB2409750B (en) * 2004-01-05 2006-03-15 Toshiba Res Europ Ltd Speech recognition system and technique
US7231019B2 (en) * 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US20050267757A1 (en) * 2004-05-27 2005-12-01 Nokia Corporation Handling of acronyms and digits in a speech recognition and text-to-speech engine
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7433819B2 (en) * 2004-09-10 2008-10-07 Scientific Learning Corporation Assessing fluency based on elapsed time
US20060069562A1 (en) * 2004-09-10 2006-03-30 Adams Marilyn J Word categories
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
US20070015121A1 (en) * 2005-06-02 2007-01-18 University Of Southern California Interactive Foreign Language Teaching
GB0513225D0 (en) * 2005-06-29 2005-08-03 Ibm Method and system for building and contracting a linguistic dictionary
JP2007047412A (ja) * 2005-08-09 2007-02-22 Toshiba Corp 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US7983914B2 (en) * 2005-08-10 2011-07-19 Nuance Communications, Inc. Method and system for improved speech recognition by degrading utterance pronunciations
US20070055514A1 (en) * 2005-09-08 2007-03-08 Beattie Valerie L Intelligent tutoring feedback
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US7797152B1 (en) * 2006-02-17 2010-09-14 The United States Of America As Represented By The Director, National Security Agency Method of database searching
KR100735820B1 (ko) * 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
US7716049B2 (en) * 2006-06-30 2010-05-11 Nokia Corporation Method, apparatus and computer program product for providing adaptive language model scaling
JP5212910B2 (ja) * 2006-07-07 2013-06-19 日本電気株式会社 音声認識装置、音声認識方法、および音声認識用プログラム
US8401847B2 (en) * 2006-11-30 2013-03-19 National Institute Of Advanced Industrial Science And Technology Speech recognition system and program therefor
WO2008087934A1 (ja) * 2007-01-16 2008-07-24 Nec Corporation 拡張認識辞書学習装置と音声認識システム
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling
US7856351B2 (en) * 2007-01-19 2010-12-21 Microsoft Corporation Integrated speech recognition and semantic classification
JP5207642B2 (ja) * 2007-03-06 2013-06-12 ニュアンス コミュニケーションズ,インコーポレイテッド 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US8077983B2 (en) * 2007-10-04 2011-12-13 Zi Corporation Of Canada, Inc. Systems and methods for character correction in communication devices
US20110224985A1 (en) * 2008-10-31 2011-09-15 Ken Hanazawa Model adaptation device, method thereof, and program thereof
US8095365B2 (en) * 2008-12-04 2012-01-10 At&T Intellectual Property I, L.P. System and method for increasing recognition rates of in-vocabulary words by improving pronunciation modeling
US8073693B2 (en) * 2008-12-04 2011-12-06 At&T Intellectual Property I, L.P. System and method for pronunciation modeling
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
WO2010125736A1 (ja) * 2009-04-30 2010-11-04 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体
KR101587866B1 (ko) * 2009-06-03 2016-01-25 삼성전자주식회사 음성 인식용 발음사전 확장 장치 및 방법

Also Published As

Publication number Publication date
JP5327054B2 (ja) 2013-10-30
WO2009078256A1 (ja) 2009-06-25
US8595004B2 (en) 2013-11-26
US20100268535A1 (en) 2010-10-21

Similar Documents

Publication Publication Date Title
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US11763797B2 (en) Text-to-speech (TTS) processing
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
JP2006039120A (ja) 対話装置および対話方法、並びにプログラムおよび記録媒体
JPWO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
Neubig et al. Bayesian learning of a language model from continuous speech
KR20210034276A (ko) 대화 시스템, 대화 처리 방법 및 전자 장치
Bhatt et al. Continuous speech recognition technologies—a review
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
JP2019012095A (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
Rabiner et al. Speech recognition: Statistical methods
KR100930714B1 (ko) 음성인식 장치 및 방법
JP2016151736A (ja) 音声加工装置、及びプログラム
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
US20040006469A1 (en) Apparatus and method for updating lexicon
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
TOMBALOĞLU et al. Deep Learning Based Automatic Speech Recognition for Turkish
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
Leinonen Automatic speech recognition for human-robot interaction using an under-resourced language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130708

R150 Certificate of patent or registration of utility model

Ref document number: 5327054

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees