JPWO2011096015A1 - 認識辞書作成装置及び音声認識装置 - Google Patents

認識辞書作成装置及び音声認識装置 Download PDF

Info

Publication number
JPWO2011096015A1
JPWO2011096015A1 JP2011552580A JP2011552580A JPWO2011096015A1 JP WO2011096015 A1 JPWO2011096015 A1 JP WO2011096015A1 JP 2011552580 A JP2011552580 A JP 2011552580A JP 2011552580 A JP2011552580 A JP 2011552580A JP WO2011096015 A1 JPWO2011096015 A1 JP WO2011096015A1
Authority
JP
Japan
Prior art keywords
language
unit
reading
text
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011552580A
Other languages
English (en)
Other versions
JP5318230B2 (ja
Inventor
道弘 山崎
道弘 山崎
石井 純
純 石井
石川 泰
泰 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2011096015A1 publication Critical patent/JPWO2011096015A1/ja
Application granted granted Critical
Publication of JP5318230B2 publication Critical patent/JP5318230B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

入力された登録対象テキストの読みの言語を同定し、同定された言語の音素で登録対象テキストに読みを付与するとともに、登録対象テキストの読みを、同定された言語の読みから、音声認識で扱う認識対象言語へ変換した読みを登録した認識辞書を生成する。

Description

この発明は、音声認識の対象となる語彙の辞書を作成する認識辞書作成装置及びこれを用いた音声認識装置に関するものである。
特許文献1には、音声認識の対象となる複数の言語の音響モデルを同時に使用することにより、多言語に対応した音声認識を行うことができる音声認識装置が開示されている。
しかしながら、この特許文献1の発明では、音声認識の対象となる複数の言語の全てに対応した多言語用の音響モデルを持つ必要があり、一般的な一言語のみに対応した音声認識には適用できないという問題点があった。
また、特許文献1の発明は、認識語彙がどの言語で記載されているのかを予め特定して読みを付与しておく必要がある。
一方、一言語のみに対応する音声認識では、読みが付与されていない登録対象テキストに対して、認識対象言語の読みを自動で生成して認識が行われる。このとき、認識対象言語とは別の言語で記載されたテキストについては読みを付与できない。
この発明は、上記のような課題を解決するためになされたもので、認識辞書へ登録する対象となる語彙の言語が不明な場合であっても、当該語彙から音声認識の言語の音素体系に読みを変換した認識辞書を作成できる認識辞書作成装置及びこれを用いた音声認識装置を得ることを目的とする。
特許第3776391号公報
この発明に係る認識辞書作成装置は、入力された登録対象のテキストの読みの言語を同定する言語同定部と、言語同定部によって同定された言語の音素で登録対象のテキストに読みを付与する読み付与部と、登録対象のテキストの読みを、言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、読み変換部によって変換された登録対象のテキストの読みを登録した認識辞書を生成する認識辞書生成部とを備えるものである。
この発明によれば、入力された登録対象のテキストの読みの言語を同定し、同定された言語の音素で登録対象のテキストに読みを付与するとともに、登録対象のテキストの読みを、同定された言語の読みから、音声認識で扱う認識対象言語へ変換した読みを登録した認識辞書を生成する。このようにすることで、認識辞書への登録対象のテキスト(語彙)がどの言語で記述されているか不明である場合であっても、音声認識の言語の音素体系に即した認識辞書を得ることができるという効果がある。
この発明の実施の形態1による認識辞書作成装置を用いた登録型の音声認識装置の構成を示すブロック図である。 実施の形態1の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートである。 ドイツ語と英語で発音が類似する音素の対応表の一例を示す図である。 実施の形態1の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートである。 この発明の実施の形態2による認識辞書作成装置を用いた登録型の音声認識装置の構成を示すブロック図である。 実施の形態2の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートである。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1による認識辞書作成装置を用いた登録型の音声認識装置の構成を示すブロック図である。図1において、実施の形態1による音声認識装置100は、言語同定部101、読み付与部102、読み変換部103、認識辞書生成部104、認識辞書記憶部105及び音声認識部106を備える。これら構成部のうち、言語同定部101、読み付与部102、読み変換部103、認識辞書生成部104及び認識辞書記憶部105が、実施の形態1による認識辞書作成装置の構成である。
言語同定部101は、認識辞書への登録対象となる語彙のテキスト文字列(以下、登録対象テキストと呼ぶ)の言語を同定する構成部である。登録対象テキストには、言語を特定しにくい語彙のテキスト文字列も含まれ、例えば、携帯音楽プレーヤに登録されている楽曲のタイトルやアーティスト名等の書誌データ、携帯電話に登録されている地名や人名等が挙げられる。読み付与部102は、言語同定部101によって同定された言語で登録対象テキストに読みを音素で付与する構成部である。読み変換部103は、読み付与部102によって付与された読みを、音声認識部106が行う音声認識で使用する言語へ音素変換する構成部である。
認識辞書生成部104は、読み変換部103により変換された音素を、音声認識の対象となる語彙(以下、認識対象語彙と呼ぶ)として生成し、認識辞書記憶部105の認識辞書へ登録する構成部である。認識辞書記憶部105は、認識辞書生成部104及び音声認識部106によって読み書き可能な記憶部であって、認識辞書生成部104により生成された認識対象語彙を登録する認識辞書が記憶される。音声認識部106は、認識辞書記憶部105に記憶された認識辞書の認識対象語彙を用いて音声認識を実行し、認識結果を出力する構成部である。
また、言語同定部101、読み付与部102、読み変換部103、認識辞書生成部104、認識辞書記憶部105及び音声認識部106は、この発明の趣旨に従う認識辞書作成プログラムをコンピュータに記憶し、CPUに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータ上で実現することができる。さらに、認識辞書記憶部105及び音声認識部106で用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。
次に動作について説明する。
図2は、実施の形態1の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートであり、1つの登録対象テキストに対する、言語同定部101、読み付与部102、読み変換部103及び認識辞書生成部104による動作の詳細を述べる。
先ず、言語同定部101が、登録対象テキストの文字列に言語同定処理を開始し、当該文字列がどの言語で記載されたものであるかを判定する(ステップST201)。具体的には、言語同定部101に設定される複数の言語のうち、入力された登録対象テキストの文字列が、どの言語に該当するかが判定される。
例えば、言語同定部101において、英語、ドイツ語、フランス語、イタリア語、スペイン語、オランダ語の欧州6言語が、言語同定の対象として設定されている場合、入力された登録対象テキストの文字列が“Guten Morgen”であると、言語同定部101は、当該文字列の言語がドイツ語であるとの言語同定の結果を出力する。
言語の同定に失敗する等して言語が同定できなかった場合、言語同定部101は、音声認識部106が音声認識の対象として受理可能な言語を同定結果として出力する。
また、言語同定部101の言語同定には、例えば、文字のN−gramが使用される。N−gram自体は、Claude Elwood Shannonにより確立された言語情報に関する分析モデルであり、音声認識のための言語モデルや全文検索等に使用されている。これらの一般的なN−gramの利用方法については、下記の参考文献1に記載されている。
(参考文献1)“A Mathematical Theory of Communication”,C.E.SHANNON,The Bell System Technical Journal,Vol.27,pp.379-423,623-656,July,October,1948.
このように、N−gramの概念をテキスト文字列の言語同定に取り入れることで、精度良く言語を同定することが可能である。例えば、Nを3として、文字のTrigramを用いた言語同定について説明する。
言語同定部101は、言語同定の対象となる各言語で記載された学習用テキスト文字列を有しており、学習用文字列中に現れる文字の3連鎖の出現確率を求める。例えば、文字列“MITSUBISHI”の場合、“$$M”、“$MI”、“MIT”、“ITS”、“TSU”、“SUB”、“UBI”、“BIS”、“ISH”、“SHI”、“HI$”、“I$$”の各連鎖に分解できる。なお、“$”は、語頭、語尾を表す文字を意味する。
言語i(i=1,2,・・・,N)の全学習文字列中に各連鎖が出現する頻度を求めた後、言語同定部101は、学習された言語ごとに連鎖の出現確率の上位n個をモデルとして採用し、文字の連鎖とその出現頻度を各言語の言語同定モデルに記憶する。例えば、言語iの言語同定モデルには、文字連鎖(Trigram)“$$M”と、そのときの出現確率Pi($,$,M)等が記憶される。
言語同定部101は、登録対象テキストの文字列に対して、各言語の言語同定モデルを用いて言語ごとに文字連鎖(Trigram)の連鎖確率を求めていき、連鎖確率値が最も大きくなる言語を言語の同定結果として採用する。例えば、“Best”に対する言語iの連鎖確率Piは、Pi=Pi($,$,B)×Pi($,B,E)×Pi(B,E,S)×Pi(E,S,T)×Pi(S,T,$)×Pi(T,$,$)で求められる。この連鎖確率Piが最大となる言語iが、言語の同定結果となる。
なお、言語同定部101は、N−gramが言語同定モデルに記憶されていない場合には、出現確率として予め定めた一定確率を与えて計算を行う。
N−gramを求めるにあたり、言語同定の対象となる複数の言語で共通に記述され、言語同定に寄与しない文字(例えば、数字、括弧やピリオド等の記号)については、これらの文字を特殊文字を表す文字に予め置き換えてN−gramを求めても構わない。例えば、#、@等の特殊文字を使用する。
また、言語同定において、使用される言語が限定される文字が使用されていた場合は、当該文字が使用されている言語のうち、尤度が最も高い言語を同定結果として出力してもよい。使用される言語が限定される文字としては、例えば、ウムラウトを用いた文字等が挙げられる。
なお、N−gramの学習に用いるテキスト文字列(言語同定モデルに用いるテキスト文字列)を、認識対象語彙と同じタスクの語彙を用いて学習を行うことにより、言語の同定精度を向上させることが可能である。タスクとは、例えば音楽検索や住所認識等の認識対象語彙が使用される処理を意味する。言語同定部101は、タスクごとの学習用文字列を備え、登録対象テキストが使用されるタスクに対応する学習用文字列を言語同定に用いる。
次に、読み付与部102は、言語同定部101から同定結果を入力すると、音声認識装置100に設定されている複数の言語のうち、当該同定結果がいずれの言語であるかを判定し(ステップST202)、入力された登録対象テキストの文字列に対して、判定結果の言語による音素で読みを付与する(ステップST203)。音声認識部106にて現在音声認識の対象とされている認識対象言語であると、この認識対象言語による音素で読みが付与される。同様に、判定結果の言語が、認識対象言語以外の言語1,2,・・・,Nのいずれかであっても、図2に示すように、当該言語の音素で読みが付与される。
なお、音素の付与には、例えばG2P(Grapheme to Phoneme)を用いる。また、この読み付与処理において、省略語の判定や記号等の処理のように言語に依存した処理も併せて行う。
読み変換部103は、ステップST203において、認識対象言語以外の言語の音素で読みが付与された登録対象テキストに対して、各言語による音素の読みを、認識対象言語による音素の読みに変換する(ステップST204)。
このように音素体系を変換する理由は、音声認識部106にて受理可能な音素体系が、音声認識の対象としている認識対象言語のみであり、言語が異なる音素体系は受理されない音素が存在するためである。
このような音素(読み)の変換方法としては、例えば、読み変換部103が、音声認識部106で受理できない言語の音素又は音素の系列に対して、認識対象言語のうち、最も近い音素又は音素の系列を、対応表として予め用意しておき、ステップST203で得られたテキスト文字列の読みに対して、上記対応表に応じて読みの変換(音素マッピング)を行う。
図3は、上述のような対応表の一例を示す図であり、ドイツ語と英語の間での対応関係を示している。ドイツ語における発音/a/(非円唇前舌広母音)や/Y/(円唇前舌め広めの狭母音)等は、イギリス英語の発音体系にない。このため、音声認識部106が、イギリス英語を受理する場合、当該読みに対応していない。
そこで、ドイツ語の発音/a/や/Y/については、図3に示す対応表のように、音声認識部106にて受理可能なイギリス英語に存在する音素のうち、発音が最も近い音素、例えば、/{/(非円唇前舌狭めの広母音)や/}/(円唇前舌半狭母音)と対応付けておく。なお、ここでの発音表記は、X−SAMPA表記を用いている。
この対応表は、言語的に近いもの同士を対応付けてもよいが、例えば、各言語の発音がどの音素表記で認識しやすいか等に基づいて対応関係を決定してもよい。
認識辞書生成部104は、ステップST203で読み付与部102によって登録対象テキストの文字列に付与された音素、又はステップST204で読み変換部103によって変換された音素を入力し、音声認識部106が参照可能な形式の認識辞書を生成する(ステップST205)。例えば、認識語彙をバイナリデータに変換する他、必要に応じて形態素解析、単語分割を行って言語制約の作成等を行って認識辞書を得る。
登録対象テキストである語彙が複数ある場合、各登録対象テキストに対して、上述までの処理を繰り返す。なお、認識辞書の生成は、一語彙ずつの追加登録ではなく、全ての登録対象テキストの語彙に読みを付与した後にまとめて行うようにしても構わない。
認識辞書生成部104によって生成された認識辞書は、認識辞書記憶部105に記憶される。
音声認識部106は、認識辞書記憶部105に記憶された認識辞書に記載の認識語彙や文法を参照して入力音声の音声認識を行い、認識結果を出力する。例えば、音声認識部106が、特定の言語の音素体系の音素で記載された認識辞書を読み込み、特定の言語の入力音声を音声認識する。音声認識のアルゴリズムとしては、例えばHMM(隠れマルコフモデル)やDP(Dynamic Programming)マッチング等を用いる。
上述まででは、言語同定部101で同定された言語が1言語である場合の動作を説明したが、続いて、入力された登録対象テキストの文字列から、言語同定部101により複数の言語が同定された場合の動作について説明する。
図4は、実施の形態1の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートであり、言語同定部101にN個の言語が同定された場合を示している。
言語同定部101は、登録対象テキストの文字列に対して言語同定処理を開始し、当該文字列がどの言語で記載されたものであるかを判定して、当該文字列の言語として確からしい上位N個の言語を言語同定結果とする(ステップST301)。
なお、ここで、N個は固定値としてもよいが、言語同定部101で信頼度を表すスコアを出力し、このスコアが予め定めた閾値以上の信頼度である候補の数や、1位の信頼度に対する一定の信頼度差以内の候補の数としても構わない。
例えば、登録対象テキストとして“Hamburg”が入力された場合、言語同定部101は、このテキストから同定される言語がドイツ語と英語である(N=2)との結果を出力する。また、言語の同定に失敗する等して言語が同定できなかった場合や、信頼度のスコアが閾値未満である場合、言語同定部101は、音声認識部106で受理可能な言語(認識対象言語)を、言語の同定結果として出力する。
次に、言語同定部101は、同定結果として得られた言語の数、すなわち言語ごとに行われる後述の処理の回数を示すカウンタiをi=0に初期化(ステップST301−1)し、i番目の同定結果に相当する言語を読み付与部102に設定する。これにより、読み付与部102、読み変換部103及び認識辞書生成部104が、i(i=0〜N)番目の同定結果に相当する言語で、ステップST302からステップST306までの処理を実行する。なお、ステップST302は、図2で示したステップST202と同様の処理であり、ステップST303は、図2で示したステップST203と同様の処理、ステップST304は、図2で示したステップST204と同様の処理、ステップST305は、図2で示したステップST205と同様の処理である。
ステップST306において、言語同定部101は、カウンタiを+1インクリメントして次の同定結果の言語で上記一連の処理を繰り返す。ステップST307において、言語同定部101が、カウンタiのカウント値に基づいて、全ての同定結果の言語に対して上記一連の処理が完了(i≧N+1)したと判定すると、入力された登録対象テキストに対する登録処理を終了する。これにより、1つの登録対象テキストが、複数の言語で記述される場合であっても、これらの言語を同定しその音素で読みをそれぞれ付与してから、認識対象言語の音素による読みにそれぞれ変換することで、認識語彙として認識辞書に登録できる。従って、ユーザが、言語同定部101が同定したいずれの言語で当該テキスト文字列の発話を行っても、認識辞書に登録された対応する認識語彙で音声認識することが可能である。
なお、登録対象テキストが複数ある場合は、同定結果として1つの言語が得られた場合と同様に、各登録対象テキストに対して、上述の処理を繰り返す。
認識辞書の生成は、1つの登録対象テキストに対する言語同定結果として得られた言語ごとに追加登録するのではなく、1つの登録対象テキストの語彙で同定された全ての言語をまとめて追加登録してもよい。若しくは、全ての登録対象テキストの語彙に対して読みを付与した後にまとめて行っても構わない。
以上のように、この実施の形態1によれば、入力された登録対象テキストの読みの言語を同定し、同定された言語の音素で登録対象テキストに読みを付与するとともに、登録対象テキストの読みを、同定された言語の読みから、音声認識で扱う認識対象言語へ変換した読みを登録した認識辞書を生成する。
このようにすることで、登録対象テキストがどの言語が不明である場合(例えば、携帯音楽プレーヤに登録されている楽曲に対するタイトルやアーティスト名などの書誌データや、携帯電話に登録されている地名や人名等)であっても、N−gramを用いた言語同定モデルで登録対象テキストの言語を同定し、同定された言語による音素の付与を行い、音声認識で受理可能な言語の音素に変換することにより、音声認識で参照される認識語彙として登録することができる。
また、この実施の形態1によれば、言語同定部101が、登録対象テキストから複数の言語を同定することで、登録対象テキストが複数の言語に該当する可能性がある場合に、各言語での読みを付与して認識語彙として登録する。このようにすることで、ユーザが、どちらの言語での発音をしても音声認識が可能である。
さらに、この実施の形態1によれば、言語同定部101が、言語の同定結果に対して、各言語に対する信頼度を表すスコアを設定し、このスコアに関する所定の閾値と比較して信頼度が高い言語を最終的な同定結果として出力する。このようにすることで、ユーザに発声される可能性が高い言語の発音のみを採用でき、音声認識性能を向上させることができる。
さらに、この実施の形態1によれば、N−gramを用いて言語同定を行うので、言語ごとに単語辞書等を用意して言語判定を行う場合と比較して、安定した言語同定性能を得ることができる。また、同時に、辞書サイズを小さくすることができ、演算量やメモリ消費量を削減することが可能となる。
さらに、この実施の形態1によれば、N−gramを用いた言語同定において、言語の同定に寄与しない文字(例えば、数字や、括弧、ピリオド等の記号)を、特殊文字を表す1文字に置き換えたN−gramを用いる。これにより、言語同定モデルの記憶領域のサイズを低減でき、言語同定モデルの検索時間やメモリ消費量を削減することができるので、組み込み型の装置等の演算速度やメモリサイズに制限がある装置への本発明の適用が容易である。
さらに、この実施の形態1によれば、ウムラウト等のように、使用される言語が限定される文字が登録対象テキストに存在する場合には、当該文字が使用される言語のうちから言語を同定することにより、言語同定の精度を向上させることが可能となる。
さらに、この実施の形態1によれば、N−gramを用いた言語同定において、言語同定モデルを、認識対象語彙と同じタスク(認識対象語彙が使用された処理)の語彙を用いて作成することにより、言語同定の精度を向上させることが可能である。
実施の形態2.
図5は、この発明の実施の形態2による認識辞書作成装置を用いた登録型の音声認識装置の構成を示すブロック図である。図5において、実施の形態2による音声認識装置100Aは、上記実施の形態1による音声認識装置の構成に加え、言語同定前処理部107、定型文字列記憶部(除外対象記憶部)108、分割文字列記憶部(分割対象記憶部)109及び変換処理記憶部(処理内容記憶部)110を備える。
言語同定前処理部107は、言語同定部101の前段に配置され、登録対象テキストが入力される構成部であり、言語同定処理を行う前処理として、入力された登録対象テキストの文字列における、特定の文字又は文字列(以下、定型文字又は定型文字列と呼ぶ)を言語同定の対象から除外したり、所定の文字又は文字列(以下、分割文字又は分割文字列と呼ぶ)を基準として、当該登録対象テキストを分割する。
定型文字列記憶部108は、言語同定の対象から除外する定型文字又は定型文字列及びその記述言語と読みが記憶された記憶部である。分割文字列記憶部109は、登録対象テキストを分割する際の分割位置となる分割文字又は分割文字列及びその記述言語と読みが記憶された記憶部である。変換処理記憶部110は、言語同定前処理部107によって登録対象テキストに施された前処理の内容(文字列除外や分割)を記憶する記憶部である。
なお、図5において、図1と同一又は同様に動作する構成部には、同一符号を付して説明を省略する。ただし、言語同定部101は、言語同定前処理部107によって前処理が施された登録対象テキストの文字列に対して言語の同定を行う。また、認識辞書生成部104は、認識辞書を生成するにあたり、変換処理記憶部110に記憶されている前処理内容、つまり登録対象テキストの分割された各分割部分間の接続関係や、登録対象テキストから除外された文字列及びその読みを用いて、当該登録対象テキストの文字列にあった認識辞書を生成する。
また、言語同定前処理部107、定型文字列記憶部108、分割文字列記憶部109及び変換処理記憶部110は、この発明の趣旨に従う認識辞書作成プログラムをコンピュータに記憶し、CPUに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータ上で実現することができる。さらに、定型文字列記憶部108、分割文字列記憶部109及び変換処理記憶部110で用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。
次に動作について説明する。
図6は、実施の形態2の認識辞書作成装置による認識辞書の作成動作の流れを示すフローチャートであり、言語同定前処理部107、言語同定部101、読み付与部102、読み変換部103及び認識辞書生成部104による動作の詳細を述べる。
先ず、言語同定前処理部107は、登録対象テキストを入力すると、定型文字列記憶部108の記憶内容を参照して、当該登録対象テキストの文字列に含まれる定型文字又は定型文字列を検出し、言語同定の対象から除外する(ステップST501)。定型文字又は定型文字列としては、複数の言語に共通して現れる特定の言語による記述が挙げられる。
楽曲の書誌データを対象とするシステムにおいて、“Disc”や“Best of”等は、言語に依らずに、複数の言語で共通に記載(英語表記)される。そこで、このような文字又は文字列及びその記述言語(上記例では英語)を定型文字列記憶部108に記憶しておく。例えば、“Best Of Ce n’est que moi”という登録対象テキストが入力された場合、“Best Of”は、定型文字列記憶部108の記憶内容から英語とその読みが得られるため、言語同定前処理部107により言語同定の対象から削除され、言語同定対象の文字列として、“Ce n’est que moi”が残る。
続いて、言語同定前処理部107は、分割文字列記憶部109の記憶内容を参照して、登録対象テキストの文字列に含まれる分割文字又は分割文字列を検出し、分割文字又は分割文字列を基準として、登録対象テキストの文字列を分割する(ステップST502)。分割文字又は分割文字列としては、登録対象テキストの記述を区切る文字である“(”や“)”、“−”等が挙げられる。
例えば、“Je vivrai sans toi(I Will Say Goodbye)”という登録対象テキストが入力された場合、分割文字列記憶部109の記憶内容を参照して、言語同定前処理部107は、当該登録対象テキストの文字列に含まれる、括弧“(”や“)”を検出し、これらの文字を基準として当該登録対象テキストの文字列を分割する。これにより、“Je vivrai sans toi”と“I Will Say Goodbye”の2つの文字列に分割される。
次に、言語同定前処理部107は、分割文字列記憶部109の記憶内容を参照して、登録対象テキストの文字列に含まれる、例えば、大文字列(スペル)や数字等のように表記言語によらず、認識対象言語で読み上げられる文字列を特定し、この文字列を登録対象テキストから除外して分割する(ステップST503)。この文字列部分では、言語同定の結果として言語が特定されず、認識対象言語となるため、認識対象言語による読みが付与される。
なお、この文字列部分(大文字列(スペル)や数字等の文字列)に対して、分割文字列記憶部109に予め認識対象言語での読みを付与して記憶しておくとともに、登録対象テキストにおける、この文字列部分を境とした前後の文字列に対して言語同定部101が同定した言語で読み付与部102が当該文字列部分に読みを付与するようにしてもよい。
このように、大文字列(スペル)や数字等の文字列部分に対して、認識対象言語と同定結果の言語との2種類の読みを付与することで、登録対象テキストにおける、この文字列部分以外の部分を記述する言語(同定結果の言語)に依らず、認識対象言語で発話される文字列部分に正しく読みを付与することが可能となる。
言語同定前処理部107は、ステップST501からステップST503までの前処理の内容を変換処理記憶部110に記憶する。前処理の内容として、登録対象テキストから除外された定型文字又は定型文字列、その記述言語及びこの言語の音素による読み、登録対象テキストの分割位置となる分割文字又は分割文字列、各分割部分間の接続関係等が、変換処理記憶部110に記憶される。
この後、言語同定前処理部107は、登録対象テキストを分割した分割数Kをカウントするカウンタjを初期化(j=0)する(ステップST504)。続いて、言語同定前処理部107は、j番目の分割部分を言語同定の対象となる文字列に設定して言語同定部101へ出力する(ステップST505)。
言語同定部101は、言語同定前処理部107から入力したj番目の分割部分の文字列に対して、上記実施の形態1と同様な手順で言語同定処理を開始し、当該文字列がどの言語で記載されたものであるかを判定して、当該文字列の言語として確からしい上位N個の言語(尤度の高い上位N個の言語)を言語同定結果とする(ステップST506)。
次に、言語同定部101は、同定結果として得られた言語の数、すなわち言語ごとに行われる後述の処理の回数を示すカウンタiをi=0に初期化(ステップST507)し、i番目の同定結果に相当する言語を読み付与部102に設定する。
このようにして、読み付与部102及び読み変換部103が、i(i=0〜N)番目の同定結果に相当する言語でステップST508からステップST510までの処理を実行する。なお、ステップST508は、図2で示したステップST202と同様の処理であり、ステップST509は、図2で示したステップST203と同様の処理であり、ステップST510は、図2で示したステップST204と同様の処理である。
ステップST511において、言語同定部101は、カウンタiを+1インクリメントして次の同定結果の言語で上記一連の処理を繰り返し、ステップST512において、全ての同定結果の言語に対して上記一連の処理が完了(i≧N+1)したと判定されると、カウンタjを+1インクリメントする(ステップST513)。ステップST514で、言語同定部101が、カウンタjのカウント値に基づいて、全ての分割部分の文字列に対して処理が完了(j≧K)したと判定するまで、分割部分の文字列のそれぞれに対して、ステップST505からステップST514までの一連の処理が繰り返される。
認識辞書生成部104は、変換処理記憶部110に記憶された前処理内容を参照して、登録対象テキストの文字列から除外された文字列に対する読みを特定し、当該言語同定の対象から除外された文字列の読みと、読み変換部103から入力した各分割部分の文字列に付与された読みとを合成し、音声認識部106が参照可能な形式の認識辞書を生成する(ステップST515)。例えば、認識語彙をバイナリデータに変換する他、必要に応じて形態素解析、単語分割を行って言語制約の作成等を行って認識辞書を得る。
以上のように、この実施の形態2によれば、定型文字列記憶部108、分割文字列記憶部109、これら記憶部108,109に記憶された内容に基づいて、登録対象テキストに前処理を行う言語同定前処理部107と、言語同定前処理部107による前処理の内容を記憶する変換処理記憶部110とを備え、認識辞書生成部104が、変換処理記憶部110の記憶内容に基づいて、言語同定前処理部107によって前処理が施された登録対象テキストの読みを表す音素を求め、これを登録した認識辞書を生成する。
このように、特定文字列により入力テキストを分割し、分割部分に対してそれぞれ言語同定処理、読み付与処理を行うことで、登録対象テキストに複数の言語が含まれる場合であっても、登録対象テキストの各分割部分を正しく言語同定することが可能となる。
また、複数の言語に含んで使用される特定言語の単語/フレーズを、特定文字列として予め記憶し、言語同定の対象から除外することにより、言語に関係なく使用される言語のフレーズ(例えば、音楽のアルバムタイトルで“Disc 1”、“Best of”等)を含む場合においても、当該フレーズ以外の文字列部分で言語同定を行うことで各文字列部分の読みの言語を正しく言語同定することが可能となる。
また、認識対象言語に依存した読みをする箇所を分割することにより、当該箇所についても、正しく読みを付与することが可能となる。
この発明に係る認識辞書作成装置によれば、記述言語が不明な語彙から音声認識の音素体系における認識辞書を作成することができるので、複数の言語の語彙が混在するデータが扱われる、携帯音楽プレーヤ、携帯電話、車載ナビゲーションシステムなどの音声認識装置に適している。

Claims (12)

  1. 入力された登録対象のテキストの読みの言語を同定する言語同定部と、
    前記言語同定部によって同定された言語の音素で前記登録対象のテキストに読みを付与する読み付与部と、
    前記登録対象のテキストの読みを、前記言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、
    前記読み変換部によって変換された前記登録対象のテキストの読みを登録した認識辞書を生成する認識辞書生成部とを備えた認識辞書作成装置。
  2. 前記言語同定部は、言語同定の対象となる複数の言語のうち、前記登録対象のテキストの読みの言語としての確からしさを示すスコアの上位から所定数の言語を同定結果として出力し、
    前記読み付与部は、前記言語同定部によって同定された前記所定数の各言語の音素で前記登録対象のテキストに読みをそれぞれ付与し、
    前記読み変換部は、前記登録対象のテキストの読みを、前記言語同定部によって同定された前記所定数の言語の音素から前記認識対象言語の音素へそれぞれ変換することを特徴とする請求項1記載の認識辞書作成装置。
  3. 前記言語同定部は、前記スコアが所定の閾値未満である場合、前記認識対象言語を同定結果として出力することを特徴とする請求項2記載の認識辞書作成装置。
  4. 言語同定の除外対象の文字又は文字列を記憶する除外対象記憶部と、
    前記登録対象のテキストから、前記除外対象記憶部に記憶した前記除外対象の文字又は文字列に相当する部分を除外する言語同定前処理部と、
    前記言語同定前処理部によって前記登録対象のテキストに施された前記除外対象の文字又は文字列の除外処理の内容を記憶する処理内容記憶部とを備え、
    前記言語同定部は、前記言語同定前処理部により前記除外対象の文字又は文字列が除外された前記登録対象のテキストの読みの言語を同定し、
    前記認識辞書生成部は、前記処理内容記憶部に記憶された除外処理の内容を参照して、前記除外対象の文字又は文字列の読み及び前記除外対象の文字又は文字列を除外した前記登録対象のテキストの読みから、当該登録対象のテキストの読みを求め、これを登録した認識辞書を生成することを特徴とする請求項1記載の認識辞書作成装置。
  5. 分割対象の文字又は文字列を記憶する分割対象記憶部を備え、
    前記言語同定前処理部は、前記分割対象記憶部に記憶した前記分割対象の文字又は文字列で前記登録対象のテキストの文字列を分割し、
    前記処理内容記憶部には、前記言語同定前処理部によって前記登録対象のテキストに施された分割処理の内容が記憶され、
    前記言語同定部は、前記言語同定前処理部によって分割された前記登録対象のテキストの分割部分ごとに読みの言語を同定し、
    前記認識辞書生成部は、前記処理内容記憶部に記憶された分割処理の内容を参照して、前記分割部分ごとの読みから前記登録対象のテキストの読みを求め、これを登録した認識辞書を生成することを特徴とする請求項4記載の認識辞書作成装置。
  6. 前記分割対象記憶部は、数字又は大文字列を含む分割対象の文字又は文字列及びその認識対象言語の読みを記憶しており、
    前記言語同定前処理部は、前記登録対象のテキストから、前記数字又は大文字列を含む分割対象の文字又は文字列を除外して、当該登録対象のテキストの文字列を分割し、
    前記言語同定部は、前記言語同定前処理部によって分割された前記登録対象のテキストの分割部分ごとに読みの言語を同定し、
    前記読み付与部は、前記数字又は大文字列を含む分割対象の文字又は文字列に対して、前記言語同定部によって同定された前記分割部分の言語の読みを付与し、
    前記認識辞書生成部は、前記処理内容記憶部に記憶された除外処理の内容を参照して、前記分割部分ごとの読みと、前記分割対象の文字又は文字列の認識対象言語の読み及び前記分割部分の言語から前記認識対象言語へ変換された読みから、前記登録対象のテキストの読みを求め、これを登録した認識辞書を生成することを特徴とする請求項5記載の認識辞書作成装置。
  7. 前記言語同定部は、言語同定の対象となる言語ごとのN−gram及びその出現確率を含む言語同定モデルを用いて、前記登録対象のテキストのN−gramの連鎖確率を言語ごとに算出し、前記連鎖確率値に基づく尤度から読みの言語を同定することを特徴とする請求項1記載の認識辞書作成装置。
  8. 前記言語同定部は、前記登録対象のテキストのうち、言語同定の対象となる複数の言語で共通に記述されて言語同定に寄与しない文字又は文字列については特殊文字に置換してN−gramを生成することを特徴とする請求項7記載の認識辞書作成装置。
  9. 前記言語同定部は、前記登録対象のテキストに使用言語が限定される文字又は文字列が含まれる場合、前記使用言語のうち、尤度が最も高い言語を同定結果として出力することを特徴とする請求項7記載の認識辞書作成装置。
  10. 前記言語同定部は、認識対象語彙が使用される処理ごとに言語同定モデルを備え、前記登録対象のテキストが使用される処理に対応する言語同定モデルを言語同定に用いることを特徴とする請求項7記載の認識辞書作成装置。
  11. 入力された登録対象のテキストの読みの言語を同定する言語同定部と、
    前記言語同定部によって同定された言語の音素で前記登録対象のテキストに読みを付与する読み付与部と、
    前記登録対象のテキストの読みを、前記言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、
    前記読み変換部によって変換された前記登録対象のテキストの読みを登録した認識辞書を生成する認識辞書生成部と、
    前記認識辞書生成部によって生成された前記認識辞書を参照して、入力音声の音声認識を行う音声認識部とを備えた音声認識装置。
  12. 言語同定の除外対象の文字又は文字列を記憶する除外対象記憶部と、
    分割対象の文字又は文字列を記憶する分割対象記憶部と、
    前記除外対象記憶部及び前記分割対象記憶部に記憶された内容に基づいて、入力された登録対象のテキストから、前記除外対象の文字又は文字列を除外するとともに、前記分割対象の文字又は文字列で分割する言語同定前処理部と、
    前記言語同定前処理部により前記登録対象のテキストに施された処理の内容を記憶する処理内容記憶部と、
    前記言語同定前処理部により前記処理が施された前記登録対象のテキストの読みの言語を同定する言語同定部と、
    前記言語同定部によって同定された言語の音素で前記登録対象のテキストに読みを付与する読み付与部と、
    前記登録対象のテキストの読みを、前記言語同定部によって同定された言語の音素から音声認識で扱う認識対象言語の音素へ変換する読み変換部と、
    前記処理内容記憶部に記憶された前記処理の内容を参照して、前記言語同定前処理部によって前記処理が施された前記登録対象のテキストの読みを求めて、これを登録した認識辞書を生成する認識辞書生成部と、
    前記認識辞書生成部によって生成された前記認識辞書を参照して、入力音声の音声認識を行う音声認識部とを備えた音声認識装置。
JP2011552580A 2010-02-05 2010-02-05 認識辞書作成装置及び音声認識装置 Active JP5318230B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/000709 WO2011096015A1 (ja) 2010-02-05 2010-02-05 認識辞書作成装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2011096015A1 true JPWO2011096015A1 (ja) 2013-06-06
JP5318230B2 JP5318230B2 (ja) 2013-10-16

Family

ID=44355045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011552580A Active JP5318230B2 (ja) 2010-02-05 2010-02-05 認識辞書作成装置及び音声認識装置

Country Status (5)

Country Link
US (1) US8868431B2 (ja)
JP (1) JP5318230B2 (ja)
CN (1) CN102725790B (ja)
DE (1) DE112010005226T5 (ja)
WO (1) WO2011096015A1 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
DE112010005918B4 (de) * 2010-10-01 2016-12-22 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
CN105793920B (zh) * 2013-11-20 2017-08-08 三菱电机株式会社 声音识别装置及声音识别方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6277921B2 (ja) * 2014-09-25 2018-02-14 京セラドキュメントソリューションズ株式会社 用語集管理装置および用語集管理プログラム
US10162811B2 (en) * 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US9372848B2 (en) * 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
JP6415929B2 (ja) * 2014-10-30 2018-10-31 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
DE102015014206B4 (de) * 2015-11-04 2020-06-25 Audi Ag Verfahren und Vorrichtung zum Auswählen eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DE112017007852B4 (de) * 2017-09-11 2023-05-17 Mitsubishi Electric Corporation Spracherkennung-Wörterbuchdaten-Konstruktionsvorrichtung, Spracherkennungsvorrichtung, Spracherkennung-Wörterbuchdaten-Konstruktionsverfahren
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) * 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
CN114038463A (zh) * 2020-07-21 2022-02-11 中兴通讯股份有限公司 混合语音处理的方法、电子设备、计算机可读介质
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
WO2022047252A1 (en) * 2020-08-27 2022-03-03 Unified Compliance Framework (Network Frontiers) Automatically identifying multi-word expressions

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6442524B1 (en) * 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
GB2366940B (en) * 2000-09-06 2004-08-11 Ericsson Telefon Ab L M Text language detection
EP1217610A1 (de) 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
ES2281626T3 (es) 2002-01-17 2007-10-01 Siemens Aktiengesellschaft Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz.
JP2004053742A (ja) * 2002-07-17 2004-02-19 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004053979A (ja) * 2002-07-22 2004-02-19 Alpine Electronics Inc 音声認識辞書の作成方法及び音声認識辞書作成システム
JP3776391B2 (ja) 2002-09-06 2006-05-17 日本電信電話株式会社 多言語音声認識方法、装置、プログラム
US20040078191A1 (en) * 2002-10-22 2004-04-22 Nokia Corporation Scalable neural network-based language identification from written text
AU2003277587A1 (en) 2002-11-11 2004-06-03 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation device and speech recognition device
JP2004271895A (ja) * 2003-03-07 2004-09-30 Nec Corp 複数言語音声認識システムおよび発音学習システム
JP2005241952A (ja) * 2004-02-26 2005-09-08 Gap Kk 知識処理装置、知識処理方法および知識処理プログラム
US20050267755A1 (en) 2004-05-27 2005-12-01 Nokia Corporation Arrangement for speech recognition
JP4245530B2 (ja) * 2004-08-19 2009-03-25 三菱電機株式会社 言語モデル作成装置及び方法並びにプログラム
US7840399B2 (en) 2005-04-07 2010-11-23 Nokia Corporation Method, device, and computer program product for multi-lingual speech recognition
JP4163207B2 (ja) * 2005-11-25 2008-10-08 日本電信電話株式会社 多言語話者適応方法、装置、プログラム
JP5072415B2 (ja) * 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
JP2009169113A (ja) * 2008-01-16 2009-07-30 Nec Corp 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム
JP5119055B2 (ja) 2008-06-11 2013-01-16 日本システムウエア株式会社 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8224641B2 (en) * 2008-11-19 2012-07-17 Stratify, Inc. Language identification for documents containing multiple languages
US8200478B2 (en) 2009-01-30 2012-06-12 Mitsubishi Electric Corporation Voice recognition device which recognizes contents of speech
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
CN102770910B (zh) * 2010-03-30 2015-10-21 三菱电机株式会社 声音识别装置
DE112010005918B4 (de) * 2010-10-01 2016-12-22 Mitsubishi Electric Corp. Spracherkennungsvorrichtung

Also Published As

Publication number Publication date
JP5318230B2 (ja) 2013-10-16
CN102725790A (zh) 2012-10-10
US8868431B2 (en) 2014-10-21
DE112010005226T5 (de) 2012-11-08
WO2011096015A1 (ja) 2011-08-11
US20120226491A1 (en) 2012-09-06
CN102725790B (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
CN107016994B (zh) 语音识别的方法及装置
CN103714048B (zh) 用于校正文本的方法和系统
Schuster et al. Japanese and korean voice search
US5949961A (en) Word syllabification in speech synthesis system
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
JP6188831B2 (ja) 音声検索装置および音声検索方法
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US11437025B2 (en) Cross-lingual speech recognition
TW201517015A (zh) 聲學模型的建立方法、語音辨識方法及其電子裝置
JP2002287787A (ja) 明確化言語モデル
JP2022110098A (ja) 音声処理
US20210090557A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2938865B1 (ja) 音声認識装置
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
US12008986B1 (en) Universal semi-word model for vocabulary contraction in automatic speech recognition
JP6003127B2 (ja) 言語モデル作成プログラム及び言語モデル作成装置
Sajjan et al. Kannada speech recognition using decision tree based clustering
JP3926716B2 (ja) 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130709

R150 Certificate of patent or registration of utility model

Ref document number: 5318230

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250