JPWO2011096015A1 - 認識辞書作成装置及び音声認識装置 - Google Patents
認識辞書作成装置及び音声認識装置 Download PDFInfo
- Publication number
- JPWO2011096015A1 JPWO2011096015A1 JP2011552580A JP2011552580A JPWO2011096015A1 JP WO2011096015 A1 JPWO2011096015 A1 JP WO2011096015A1 JP 2011552580 A JP2011552580 A JP 2011552580A JP 2011552580 A JP2011552580 A JP 2011552580A JP WO2011096015 A1 JPWO2011096015 A1 JP WO2011096015A1
- Authority
- JP
- Japan
- Prior art keywords
- language
- unit
- reading
- text
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007781 pre-processing Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 35
- 238000006243 chemical reaction Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 27
- 230000007717 exclusion Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Abstract
Description
また、特許文献1の発明は、認識語彙がどの言語で記載されているのかを予め特定して読みを付与しておく必要がある。
一方、一言語のみに対応する音声認識では、読みが付与されていない登録対象テキストに対して、認識対象言語の読みを自動で生成して認識が行われる。このとき、認識対象言語とは別の言語で記載されたテキストについては読みを付与できない。
実施の形態1.
図1は、この発明の実施の形態1による認識辞書作成装置を用いた登録型の音声認識装置の構成を示すブロック図である。図1において、実施の形態1による音声認識装置100は、言語同定部101、読み付与部102、読み変換部103、認識辞書生成部104、認識辞書記憶部105及び音声認識部106を備える。これら構成部のうち、言語同定部101、読み付与部102、読み変換部103、認識辞書生成部104及び認識辞書記憶部105が、実施の形態1による認識辞書作成装置の構成である。
図2は、実施の形態1の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートであり、1つの登録対象テキストに対する、言語同定部101、読み付与部102、読み変換部103及び認識辞書生成部104による動作の詳細を述べる。
先ず、言語同定部101が、登録対象テキストの文字列に言語同定処理を開始し、当該文字列がどの言語で記載されたものであるかを判定する(ステップST201)。具体的には、言語同定部101に設定される複数の言語のうち、入力された登録対象テキストの文字列が、どの言語に該当するかが判定される。
例えば、言語同定部101において、英語、ドイツ語、フランス語、イタリア語、スペイン語、オランダ語の欧州6言語が、言語同定の対象として設定されている場合、入力された登録対象テキストの文字列が“Guten Morgen”であると、言語同定部101は、当該文字列の言語がドイツ語であるとの言語同定の結果を出力する。
言語の同定に失敗する等して言語が同定できなかった場合、言語同定部101は、音声認識部106が音声認識の対象として受理可能な言語を同定結果として出力する。
(参考文献1)“A Mathematical Theory of Communication”,C.E.SHANNON,The Bell System Technical Journal,Vol.27,pp.379-423,623-656,July,October,1948.
言語同定部101は、言語同定の対象となる各言語で記載された学習用テキスト文字列を有しており、学習用文字列中に現れる文字の3連鎖の出現確率を求める。例えば、文字列“MITSUBISHI”の場合、“$$M”、“$MI”、“MIT”、“ITS”、“TSU”、“SUB”、“UBI”、“BIS”、“ISH”、“SHI”、“HI$”、“I$$”の各連鎖に分解できる。なお、“$”は、語頭、語尾を表す文字を意味する。
N−gramを求めるにあたり、言語同定の対象となる複数の言語で共通に記述され、言語同定に寄与しない文字(例えば、数字、括弧やピリオド等の記号)については、これらの文字を特殊文字を表す文字に予め置き換えてN−gramを求めても構わない。例えば、#、@等の特殊文字を使用する。
なお、N−gramの学習に用いるテキスト文字列(言語同定モデルに用いるテキスト文字列)を、認識対象語彙と同じタスクの語彙を用いて学習を行うことにより、言語の同定精度を向上させることが可能である。タスクとは、例えば音楽検索や住所認識等の認識対象語彙が使用される処理を意味する。言語同定部101は、タスクごとの学習用文字列を備え、登録対象テキストが使用されるタスクに対応する学習用文字列を言語同定に用いる。
なお、音素の付与には、例えばG2P(Grapheme to Phoneme)を用いる。また、この読み付与処理において、省略語の判定や記号等の処理のように言語に依存した処理も併せて行う。
このように音素体系を変換する理由は、音声認識部106にて受理可能な音素体系が、音声認識の対象としている認識対象言語のみであり、言語が異なる音素体系は受理されない音素が存在するためである。
このような音素(読み)の変換方法としては、例えば、読み変換部103が、音声認識部106で受理できない言語の音素又は音素の系列に対して、認識対象言語のうち、最も近い音素又は音素の系列を、対応表として予め用意しておき、ステップST203で得られたテキスト文字列の読みに対して、上記対応表に応じて読みの変換(音素マッピング)を行う。
そこで、ドイツ語の発音/a/や/Y/については、図3に示す対応表のように、音声認識部106にて受理可能なイギリス英語に存在する音素のうち、発音が最も近い音素、例えば、/{/(非円唇前舌狭めの広母音)や/}/(円唇前舌半狭母音)と対応付けておく。なお、ここでの発音表記は、X−SAMPA表記を用いている。
この対応表は、言語的に近いもの同士を対応付けてもよいが、例えば、各言語の発音がどの音素表記で認識しやすいか等に基づいて対応関係を決定してもよい。
登録対象テキストである語彙が複数ある場合、各登録対象テキストに対して、上述までの処理を繰り返す。なお、認識辞書の生成は、一語彙ずつの追加登録ではなく、全ての登録対象テキストの語彙に読みを付与した後にまとめて行うようにしても構わない。
認識辞書生成部104によって生成された認識辞書は、認識辞書記憶部105に記憶される。
図4は、実施の形態1の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートであり、言語同定部101にN個の言語が同定された場合を示している。
言語同定部101は、登録対象テキストの文字列に対して言語同定処理を開始し、当該文字列がどの言語で記載されたものであるかを判定して、当該文字列の言語として確からしい上位N個の言語を言語同定結果とする(ステップST301)。
なお、ここで、N個は固定値としてもよいが、言語同定部101で信頼度を表すスコアを出力し、このスコアが予め定めた閾値以上の信頼度である候補の数や、1位の信頼度に対する一定の信頼度差以内の候補の数としても構わない。
例えば、登録対象テキストとして“Hamburg”が入力された場合、言語同定部101は、このテキストから同定される言語がドイツ語と英語である(N=2)との結果を出力する。また、言語の同定に失敗する等して言語が同定できなかった場合や、信頼度のスコアが閾値未満である場合、言語同定部101は、音声認識部106で受理可能な言語(認識対象言語)を、言語の同定結果として出力する。
認識辞書の生成は、1つの登録対象テキストに対する言語同定結果として得られた言語ごとに追加登録するのではなく、1つの登録対象テキストの語彙で同定された全ての言語をまとめて追加登録してもよい。若しくは、全ての登録対象テキストの語彙に対して読みを付与した後にまとめて行っても構わない。
このようにすることで、登録対象テキストがどの言語が不明である場合(例えば、携帯音楽プレーヤに登録されている楽曲に対するタイトルやアーティスト名などの書誌データや、携帯電話に登録されている地名や人名等)であっても、N−gramを用いた言語同定モデルで登録対象テキストの言語を同定し、同定された言語による音素の付与を行い、音声認識で受理可能な言語の音素に変換することにより、音声認識で参照される認識語彙として登録することができる。
図5は、この発明の実施の形態2による認識辞書作成装置を用いた登録型の音声認識装置の構成を示すブロック図である。図5において、実施の形態2による音声認識装置100Aは、上記実施の形態1による音声認識装置の構成に加え、言語同定前処理部107、定型文字列記憶部(除外対象記憶部)108、分割文字列記憶部(分割対象記憶部)109及び変換処理記憶部(処理内容記憶部)110を備える。
言語同定前処理部107は、言語同定部101の前段に配置され、登録対象テキストが入力される構成部であり、言語同定処理を行う前処理として、入力された登録対象テキストの文字列における、特定の文字又は文字列(以下、定型文字又は定型文字列と呼ぶ)を言語同定の対象から除外したり、所定の文字又は文字列(以下、分割文字又は分割文字列と呼ぶ)を基準として、当該登録対象テキストを分割する。
図6は、実施の形態2の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートであり、言語同定前処理部107、言語同定部101、読み付与部102、読み変換部103及び認識辞書生成部104による動作の詳細を述べる。
先ず、言語同定前処理部107は、登録対象テキストを入力すると、定型文字列記憶部108の記憶内容を参照して、当該登録対象テキストの文字列に含まれる定型文字又は定型文字列を検出し、言語同定の対象から除外する(ステップST501)。定型文字又は定型文字列としては、複数の言語に共通して現れる特定の言語による記述が挙げられる。
例えば、“Je vivrai sans toi(I Will Say Goodbye)”という登録対象テキストが入力された場合、分割文字列記憶部109の記憶内容を参照して、言語同定前処理部107は、当該登録対象テキストの文字列に含まれる、括弧“(”や“)”を検出し、これらの文字を基準として当該登録対象テキストの文字列を分割する。これにより、“Je vivrai sans toi”と“I Will Say Goodbye”の2つの文字列に分割される。
このように、大文字列(スペル)や数字等の文字列部分に対して、認識対象言語と同定結果の言語との2種類の読みを付与することで、登録対象テキストにおける、この文字列部分以外の部分を記述する言語(同定結果の言語)に依らず、認識対象言語で発話される文字列部分に正しく読みを付与することが可能となる。
このようにして、読み付与部102及び読み変換部103が、i(i=0〜N)番目の同定結果に相当する言語でステップST508からステップST510までの処理を実行する。なお、ステップST508は、図2で示したステップST202と同様の処理であり、ステップST509は、図2で示したステップST203と同様の処理であり、ステップST510は、図2で示したステップST204と同様の処理である。
このように、特定文字列により入力テキストを分割し、分割部分に対してそれぞれ言語同定処理、読み付与処理を行うことで、登録対象テキストに複数の言語が含まれる場合であっても、登録対象テキストの各分割部分を正しく言語同定することが可能となる。
また、複数の言語に含んで使用される特定言語の単語/フレーズを、特定文字列として予め記憶し、言語同定の対象から除外することにより、言語に関係なく使用される言語のフレーズ(例えば、音楽のアルバムタイトルで“Disc 1”、“Best of”等)を含む場合においても、当該フレーズ以外の文字列部分で言語同定を行うことで各文字列部分の読みの言語を正しく言語同定することが可能となる。
また、認識対象言語に依存した読みをする箇所を分割することにより、当該箇所についても、正しく読みを付与することが可能となる。
Claims (12)
- 入力された登録対象のテキストの読みの言語を同定する言語同定部と、
前記言語同定部によって同定された言語の音素で前記登録対象のテキストに読みを付与する読み付与部と、
前記登録対象のテキストの読みを、前記言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、
前記読み変換部によって変換された前記登録対象のテキストの読みを登録した認識辞書を生成する認識辞書生成部とを備えた認識辞書作成装置。 - 前記言語同定部は、言語同定の対象となる複数の言語のうち、前記登録対象のテキストの読みの言語としての確からしさを示すスコアの上位から所定数の言語を同定結果として出力し、
前記読み付与部は、前記言語同定部によって同定された前記所定数の各言語の音素で前記登録対象のテキストに読みをそれぞれ付与し、
前記読み変換部は、前記登録対象のテキストの読みを、前記言語同定部によって同定された前記所定数の言語の音素から前記認識対象言語の音素へそれぞれ変換することを特徴とする請求項1記載の認識辞書作成装置。 - 前記言語同定部は、前記スコアが所定の閾値未満である場合、前記認識対象言語を同定結果として出力することを特徴とする請求項2記載の認識辞書作成装置。
- 言語同定の除外対象の文字又は文字列を記憶する除外対象記憶部と、
前記登録対象のテキストから、前記除外対象記憶部に記憶した前記除外対象の文字又は文字列に相当する部分を除外する言語同定前処理部と、
前記言語同定前処理部によって前記登録対象のテキストに施された前記除外対象の文字又は文字列の除外処理の内容を記憶する処理内容記憶部とを備え、
前記言語同定部は、前記言語同定前処理部により前記除外対象の文字又は文字列が除外された前記登録対象のテキストの読みの言語を同定し、
前記認識辞書生成部は、前記処理内容記憶部に記憶された除外処理の内容を参照して、前記除外対象の文字又は文字列の読み及び前記除外対象の文字又は文字列を除外した前記登録対象のテキストの読みから、当該登録対象のテキストの読みを求め、これを登録した認識辞書を生成することを特徴とする請求項1記載の認識辞書作成装置。 - 分割対象の文字又は文字列を記憶する分割対象記憶部を備え、
前記言語同定前処理部は、前記分割対象記憶部に記憶した前記分割対象の文字又は文字列で前記登録対象のテキストの文字列を分割し、
前記処理内容記憶部には、前記言語同定前処理部によって前記登録対象のテキストに施された分割処理の内容が記憶され、
前記言語同定部は、前記言語同定前処理部によって分割された前記登録対象のテキストの分割部分ごとに読みの言語を同定し、
前記認識辞書生成部は、前記処理内容記憶部に記憶された分割処理の内容を参照して、前記分割部分ごとの読みから前記登録対象のテキストの読みを求め、これを登録した認識辞書を生成することを特徴とする請求項4記載の認識辞書作成装置。 - 前記分割対象記憶部は、数字又は大文字列を含む分割対象の文字又は文字列及びその認識対象言語の読みを記憶しており、
前記言語同定前処理部は、前記登録対象のテキストから、前記数字又は大文字列を含む分割対象の文字又は文字列を除外して、当該登録対象のテキストの文字列を分割し、
前記言語同定部は、前記言語同定前処理部によって分割された前記登録対象のテキストの分割部分ごとに読みの言語を同定し、
前記読み付与部は、前記数字又は大文字列を含む分割対象の文字又は文字列に対して、前記言語同定部によって同定された前記分割部分の言語の読みを付与し、
前記認識辞書生成部は、前記処理内容記憶部に記憶された除外処理の内容を参照して、前記分割部分ごとの読みと、前記分割対象の文字又は文字列の認識対象言語の読み及び前記分割部分の言語から前記認識対象言語へ変換された読みから、前記登録対象のテキストの読みを求め、これを登録した認識辞書を生成することを特徴とする請求項5記載の認識辞書作成装置。 - 前記言語同定部は、言語同定の対象となる言語ごとのN−gram及びその出現確率を含む言語同定モデルを用いて、前記登録対象のテキストのN−gramの連鎖確率を言語ごとに算出し、前記連鎖確率値に基づく尤度から読みの言語を同定することを特徴とする請求項1記載の認識辞書作成装置。
- 前記言語同定部は、前記登録対象のテキストのうち、言語同定の対象となる複数の言語で共通に記述されて言語同定に寄与しない文字又は文字列については特殊文字に置換してN−gramを生成することを特徴とする請求項7記載の認識辞書作成装置。
- 前記言語同定部は、前記登録対象のテキストに使用言語が限定される文字又は文字列が含まれる場合、前記使用言語のうち、尤度が最も高い言語を同定結果として出力することを特徴とする請求項7記載の認識辞書作成装置。
- 前記言語同定部は、認識対象語彙が使用される処理ごとに言語同定モデルを備え、前記登録対象のテキストが使用される処理に対応する言語同定モデルを言語同定に用いることを特徴とする請求項7記載の認識辞書作成装置。
- 入力された登録対象のテキストの読みの言語を同定する言語同定部と、
前記言語同定部によって同定された言語の音素で前記登録対象のテキストに読みを付与する読み付与部と、
前記登録対象のテキストの読みを、前記言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、
前記読み変換部によって変換された前記登録対象のテキストの読みを登録した認識辞書を生成する認識辞書生成部と、
前記認識辞書生成部によって生成された前記認識辞書を参照して、入力音声の音声認識を行う音声認識部とを備えた音声認識装置。 - 言語同定の除外対象の文字又は文字列を記憶する除外対象記憶部と、
分割対象の文字又は文字列を記憶する分割対象記憶部と、
前記除外対象記憶部及び前記分割対象記憶部に記憶された内容に基づいて、入力された登録対象のテキストから、前記除外対象の文字又は文字列を除外するとともに、前記分割対象の文字又は文字列で分割する言語同定前処理部と、
前記言語同定前処理部により前記登録対象のテキストに施された処理の内容を記憶する処理内容記憶部と、
前記言語同定前処理部により前記処理が施された前記登録対象のテキストの読みの言語を同定する言語同定部と、
前記言語同定部によって同定された言語の音素で前記登録対象のテキストに読みを付与する読み付与部と、
前記登録対象のテキストの読みを、前記言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、
前記処理内容記憶部に記憶された前記処理の内容を参照して、前記言語同定前処理部によって前記処理が施された前記登録対象のテキストの読みを求めて、これを登録した認識辞書を生成する認識辞書生成部と、
前記認識辞書生成部によって生成された前記認識辞書を参照して、入力音声の音声認識を行う音声認識部とを備えた音声認識装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/000709 WO2011096015A1 (ja) | 2010-02-05 | 2010-02-05 | 認識辞書作成装置及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011096015A1 true JPWO2011096015A1 (ja) | 2013-06-06 |
JP5318230B2 JP5318230B2 (ja) | 2013-10-16 |
Family
ID=44355045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011552580A Active JP5318230B2 (ja) | 2010-02-05 | 2010-02-05 | 認識辞書作成装置及び音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8868431B2 (ja) |
JP (1) | JP5318230B2 (ja) |
CN (1) | CN102725790B (ja) |
DE (1) | DE112010005226T5 (ja) |
WO (1) | WO2011096015A1 (ja) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
DE112010005918B4 (de) * | 2010-10-01 | 2016-12-22 | Mitsubishi Electric Corp. | Spracherkennungsvorrichtung |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
KR102084646B1 (ko) * | 2013-07-04 | 2020-04-14 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
CN103578471B (zh) * | 2013-10-18 | 2017-03-01 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
CN105793920B (zh) * | 2013-11-20 | 2017-08-08 | 三菱电机株式会社 | 声音识别装置及声音识别方法 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP6277921B2 (ja) * | 2014-09-25 | 2018-02-14 | 京セラドキュメントソリューションズ株式会社 | 用語集管理装置および用語集管理プログラム |
US10162811B2 (en) * | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US9372848B2 (en) * | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
JP6415929B2 (ja) * | 2014-10-30 | 2018-10-31 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
DE102015014206B4 (de) * | 2015-11-04 | 2020-06-25 | Audi Ag | Verfahren und Vorrichtung zum Auswählen eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DE112017007852B4 (de) * | 2017-09-11 | 2023-05-17 | Mitsubishi Electric Corporation | Spracherkennung-Wörterbuchdaten-Konstruktionsvorrichtung, Spracherkennungsvorrichtung, Spracherkennung-Wörterbuchdaten-Konstruktionsverfahren |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
US10572586B2 (en) * | 2018-02-27 | 2020-02-25 | International Business Machines Corporation | Technique for automatically splitting words |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) * | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
CN114038463A (zh) * | 2020-07-21 | 2022-02-11 | 中兴通讯股份有限公司 | 混合语音处理的方法、电子设备、计算机可读介质 |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
WO2022047252A1 (en) * | 2020-08-27 | 2022-03-03 | Unified Compliance Framework (Network Frontiers) | Automatically identifying multi-word expressions |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5913185A (en) * | 1996-08-19 | 1999-06-15 | International Business Machines Corporation | Determining a natural language shift in a computer document |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US6442524B1 (en) * | 1999-01-29 | 2002-08-27 | Sony Corporation | Analyzing inflectional morphology in a spoken language translation system |
GB2366940B (en) * | 2000-09-06 | 2004-08-11 | Ericsson Telefon Ab L M | Text language detection |
EP1217610A1 (de) | 2000-11-28 | 2002-06-26 | Siemens Aktiengesellschaft | Verfahren und System zur multilingualen Spracherkennung |
ES2281626T3 (es) | 2002-01-17 | 2007-10-01 | Siemens Aktiengesellschaft | Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz. |
JP2004053742A (ja) * | 2002-07-17 | 2004-02-19 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2004053979A (ja) * | 2002-07-22 | 2004-02-19 | Alpine Electronics Inc | 音声認識辞書の作成方法及び音声認識辞書作成システム |
JP3776391B2 (ja) | 2002-09-06 | 2006-05-17 | 日本電信電話株式会社 | 多言語音声認識方法、装置、プログラム |
US20040078191A1 (en) * | 2002-10-22 | 2004-04-22 | Nokia Corporation | Scalable neural network-based language identification from written text |
AU2003277587A1 (en) | 2002-11-11 | 2004-06-03 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation device and speech recognition device |
JP2004271895A (ja) * | 2003-03-07 | 2004-09-30 | Nec Corp | 複数言語音声認識システムおよび発音学習システム |
JP2005241952A (ja) * | 2004-02-26 | 2005-09-08 | Gap Kk | 知識処理装置、知識処理方法および知識処理プログラム |
US20050267755A1 (en) | 2004-05-27 | 2005-12-01 | Nokia Corporation | Arrangement for speech recognition |
JP4245530B2 (ja) * | 2004-08-19 | 2009-03-25 | 三菱電機株式会社 | 言語モデル作成装置及び方法並びにプログラム |
US7840399B2 (en) | 2005-04-07 | 2010-11-23 | Nokia Corporation | Method, device, and computer program product for multi-lingual speech recognition |
JP4163207B2 (ja) * | 2005-11-25 | 2008-10-08 | 日本電信電話株式会社 | 多言語話者適応方法、装置、プログラム |
JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
JP2009169113A (ja) * | 2008-01-16 | 2009-07-30 | Nec Corp | 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム |
JP5119055B2 (ja) | 2008-06-11 | 2013-01-16 | 日本システムウエア株式会社 | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム |
US8583418B2 (en) * | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8224641B2 (en) * | 2008-11-19 | 2012-07-17 | Stratify, Inc. | Language identification for documents containing multiple languages |
US8200478B2 (en) | 2009-01-30 | 2012-06-12 | Mitsubishi Electric Corporation | Voice recognition device which recognizes contents of speech |
US8326602B2 (en) * | 2009-06-05 | 2012-12-04 | Google Inc. | Detecting writing systems and languages |
CN102770910B (zh) * | 2010-03-30 | 2015-10-21 | 三菱电机株式会社 | 声音识别装置 |
DE112010005918B4 (de) * | 2010-10-01 | 2016-12-22 | Mitsubishi Electric Corp. | Spracherkennungsvorrichtung |
-
2010
- 2010-02-05 DE DE112010005226T patent/DE112010005226T5/de not_active Ceased
- 2010-02-05 US US13/505,243 patent/US8868431B2/en active Active
- 2010-02-05 JP JP2011552580A patent/JP5318230B2/ja active Active
- 2010-02-05 CN CN201080062593.4A patent/CN102725790B/zh active Active
- 2010-02-05 WO PCT/JP2010/000709 patent/WO2011096015A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP5318230B2 (ja) | 2013-10-16 |
CN102725790A (zh) | 2012-10-10 |
US8868431B2 (en) | 2014-10-21 |
DE112010005226T5 (de) | 2012-11-08 |
WO2011096015A1 (ja) | 2011-08-11 |
US20120226491A1 (en) | 2012-09-06 |
CN102725790B (zh) | 2014-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5318230B2 (ja) | 認識辞書作成装置及び音声認識装置 | |
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN103714048B (zh) | 用于校正文本的方法和系统 | |
Schuster et al. | Japanese and korean voice search | |
US5949961A (en) | Word syllabification in speech synthesis system | |
TWI532035B (zh) | 語言模型的建立方法、語音辨識方法及電子裝置 | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
CN113692616B (zh) | 用于在端到端模型中的跨语言语音识别的基于音素的场境化 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US11437025B2 (en) | Cross-lingual speech recognition | |
TW201517015A (zh) | 聲學模型的建立方法、語音辨識方法及其電子裝置 | |
JP2002287787A (ja) | 明確化言語モデル | |
JP2022110098A (ja) | 音声処理 | |
US20210090557A1 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP2938865B1 (ja) | 音声認識装置 | |
Hendessi et al. | A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM | |
US12008986B1 (en) | Universal semi-word model for vocabulary contraction in automatic speech recognition | |
JP6003127B2 (ja) | 言語モデル作成プログラム及び言語モデル作成装置 | |
Sajjan et al. | Kannada speech recognition using decision tree based clustering | |
JP3926716B2 (ja) | 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130709 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5318230 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |