JPWO2008069308A1 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JPWO2008069308A1
JPWO2008069308A1 JP2008548349A JP2008548349A JPWO2008069308A1 JP WO2008069308 A1 JPWO2008069308 A1 JP WO2008069308A1 JP 2008548349 A JP2008548349 A JP 2008548349A JP 2008548349 A JP2008548349 A JP 2008548349A JP WO2008069308 A1 JPWO2008069308 A1 JP WO2008069308A1
Authority
JP
Japan
Prior art keywords
utterance
speech recognition
speech
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008548349A
Other languages
English (en)
Other versions
JP5240456B2 (ja
Inventor
江森 正
正 江森
祥史 大西
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008548349A priority Critical patent/JP5240456B2/ja
Publication of JPWO2008069308A1 publication Critical patent/JPWO2008069308A1/ja
Application granted granted Critical
Publication of JP5240456B2 publication Critical patent/JP5240456B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Abstract

音声データにおける発声区間の長さを表す発声長別に音響モデルおよび言語モデルを学習し、それら音響モデルおよび言語モデルを用いて音声認識処理を行う。音声認識装置は、音声データ(101)における発声区間を検出し該発声区間を表す区間情報を生成する手段(103)と、音声データと該音声データから書き起こされたテキストデータ(102)とにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類する手段(104)と、分類されたデータ部分(105)を用いて音響モデルおよび言語モデル(107)を学習する手段(106)とを有する。

Description

本発明は、音声認識技術に関し、特に、音響モデル及び言語モデルを用いた音声認識技術、並びに、モデルの学習技術に関する。
近年、話し言葉の音声認識の研究が盛んに行われている。話し言葉は、発声の怠けといった音響的なあいまい性や、単語の並び方の多様性などの様々な要因から、高精度に認識することが困難である。話し言葉の認識精度を上げる技術として、話し言葉から捉えた現象を利用する技術が提案されている。その一例として、後述の非特許文献1のような発声速度に注目した技術が挙げられる。
人間の話し言葉は、機械的な読み上げ発声や単語発声のように、一定の発声速度で発声されることは少ない。よって、話し言葉の速度は、発声中に大きく揺らぐ。特に、発声速度が速い場合、発声に口の動きが追随し難いため、音声に変形が生じる。このような変形は、認識精度の劣化に大きくかかわると考えられる。
非特許文献1には、発声速度の速い音声に対し発声速度の速い音声だけで学習された専用の音響モデルや、発声変形が登録された辞書を使うという技術が記載されている。同文献の技術は、発声速度専用のモデルを用いることで、認識性能の改善を図るものである。
Takahiro Shinozaki, Sadaoki Furui、"HIDDEN MODE HMM USING BAYESIAN NETWORK FOR MODELING SPEAKING RATE FLUCTUATION"、Automatic Speech Recognition and Understanding (ASRU) workshop 2003、p.417-422 北著、「言語モデルと計算4:確率的言語モデル」、東京大学出版会、1999年、p.57-62 Steve Young et al.、"The HTK Book (for HTK Version 3.3)"、Cambrige University Engineering Department、April 2005、p.35-40, p.54-64, p.127-130
ところで、上記の発声速度は、発声の内容をもとに測定される特徴である。音声認識処理において、発声内容は、入力された音声データの認識結果を用いて推定される。しかしながら、認識結果には誤りが含まれる可能性があるため、そのような認識結果から得られた発声速度は精度に欠ける。よって、発声速度を用いてモデルを学習し、音声認識する手法では、認識精度を向上させ難いという問題がある。また、発声速度を測定した認識結果に実際に誤りが含まれる場合は、認識精度の劣化を招くおそれがある。
上記の問題点は、発声速度のように正確に測定し難い特徴量を、話し言葉の現象を表す特徴量として用いることに起因する。この類の特徴量を用いる音声認識の方法では、特徴量の正解が既知である理想的な条件下では、認識精度が顕著に改善する。しかしながら、実際の場面では、正解が不明であるから認識精度を改善し難い。また、元来、発声速度は音響的な特徴であるが、この発声速度の変化に、言語的特徴である発声内容は関係しない。そのため、発声速度を用いた音声認識の改善範囲は、音響的特徴に限定されることから、改善の絶対値は大きくないと考えられる。
本発明は、上記課題に鑑みてなされたものであり、話し言葉のように、正確な特徴量を捉え難い音声をより高精度に認識する音声認識技術を提供することを目的とする。
本発明に係る音声認識装置は、音響モデルおよび言語モデルを用いて音声認識処理を行う音声認識部と、音声データにおける発声区間の長さを表す発声長別に前記音響モデルおよび言語モデルを学習するモデル学習部とを備える。
本発明によれば、音声認識処理において、話し言葉のように正確な特徴量を捉え難い音声の認識精度を高めることができる。
本発明の第1の実施形態におけるモデル学習部のブロック図である。 本発明の第1の実施形態における音声認識部のブロック図である。 本発明の第2の実施形態におけるモデル学習部のブロック図である。 本発明の第2の実施形態における音声認識部のブロック図である。 本発明の実施形態の音声認識装置のブロック図である。
符号の説明
100 音声認識装置
100A、100A_1、100A_2 モデル学習部
100B、100B_1、100B_2 音声認識部
101 音声データ
102 書き起こしテキストデータ
103 区間検出手段
104 データ選別手段
105 発声長別データ
106 モデル学習手段
107 発声長別モデル
201 発声長判定手段
202、401 モデル選択手段
203 認識手段
301 発声時刻判定手段
302 発声長・発声時刻別データ
303 発声長・発声時刻別モデル
図5に、本発明の実施形態の音声認識装置の構成を示す。音声認識装置100は、音声認識に用いるモデルの学習処理を行うモデル学習部100Aと、入力された音声の認識処理を行いその認識結果を出力する音声認識部100Bとを備える。なお、図示の構成は、後述の第1及び第2の各実施形態に共通のものである。
図1に、第1の実施形態におけるモデル学習部100A_1の構成を示す。モデル学習部100A_1は、音声データ101と、書き起こしテキストデータ102と、区間検出手段103と、データ選別手段104と、発声長別データ105と、モデル学習手段106と、発声長別モデル107とで構成されている。なお、図中に鎖線で囲まれた共通要素110は、本実施形態と後述の第2の実施形態とで共通する構成要素である。
音声データ101は、音響モデルを学習するためのデータであり、例えば、サンプリング周波数を44.1kHzとして、1サンプルあたり16ビットでA/D変換されたデータである。音声データ101は、会話中に捕捉された音が全て含まれたものであるため、音声が発声されている区間と、発声以外の無音や雑音の区間とが混合している。
書き起こしテキストデータ102は、音声データ101を人が聞き取り、その内容を書き起こしたテキストデータである。
区間検出手段103は、入力される音声データ101を分析して音声の区間を検出し、それを音声区間情報として出力する。音声区間の検出方法は、例えば、音声のパワーを計算し、パワーがある閾値を越える区間を音声区間とする方法を用いることができる。音声のパワーは、例えば10msec程度の一定間隔で、音声データの振幅の2乗を足し合わせた値である。ここでは、音声区間の検出方法として、単純な方法を挙げたが、音声区間を検出する方法であれば、他の方法であってもよい。
データ選別手段104は、区間検出手段103により検出された音声区間に応じて音声データを切り出し、また、その区間に対応する書き起こしテキストデータ102を選択して出力する。その際、音声データ及び書き起こしテキストから切り出したデータ部分を、音声区間の長さ、すなわち発声長別に分類し、記憶装置に格納する。本実施形態における分類の単位は、「短い発声」、「長い発声」、「中位の発声」の3つとする。発声長別データ105は、これら3つの単位に分類された音声データ及び書き起こしテキストである。
発声長の分類に関し、上記の3つの単位について説明する。「短い発声」とは、例えば、相手の問いかけに対しての返答や相槌など、1〜2単語で構成される発声に対応する。また、その語彙は、「はい」や「えー」等の応答を表す単語と、問いに対する答えの単語とで構成される。このような発声は、通常、1秒程度であると考えられるため、本実施形態では「短い発声」の発声長を1秒未満と定義する。「中位の発声」とは、例えば、「ありがとうございました」などの定型文や、「あなたは1月1日にどこにいましたか」のような頭の中で整理された簡潔な問いかけなどに対応する。本実施形態では、このような「中位の発声」の発声長を1秒から3秒程度と定義する。「長い発声」とは、ある事象について説明する場合や、頭で整理されていない事項の説明に対応し、本実施形態では、その発声長を3秒以上と定義する。
モデル学習手段106は、発声長別データ105を用いて、音声認識に用いる音響モデル及び言語モデルを上記の分類別に学習する。発声長別モデル107は、発声長の単位別に学習された音響モデル及び言語モデルである。
ここで、言語モデルとその学習方法について説明する。言語モデルは、非特許文献2に記載されているようなNグラムによる近似で表されたモデルであり、その学習方法は、主に最尤推定によって行われる。Nグラムは、言語モデルのモデル化の手法であり、履歴のN-1個の単語を条件としたN個目の単語の出現確率(条件付き確率)を用いて、全単語の出現確率を近似するという手法である。
出現確率は、最尤推定法によると、学習コーパスの単語列の頻度を数えることによって計算することが出来る。例えば、「私」「は」という2単語連鎖の単語列の出現確率は、「私」「は」の出現数を2単語連鎖の総数で割ったものに相当する。音声認識の場合、デコードのプロセスにおいて条件付き確率を用いる。条件付き確率に関し、例えば、P(は|私)は、「私」の後に「は」の出現する確率を表す。このP(は|私)は、P(私,は)の2単語が連続して出現する同時確率と、「私」が出現する確率とを用いて、P(は|私)=P(私,は)/P(私)と計算することが出来る。
一方、音響モデルは、音声の音響的特徴を表現した確率モデルである。音響モデルとしては、例えば、HMM(Hidden Markov Model:隠れマルコフモデル)のツールキットのマニュアルである非特許文献3の35ページから40ページに書かれている、前後の音素コンテキストを考慮したトライフォンを音素として持つHMMが広く使われている。以下、音響モデルの学習について述べる。
音声の音響的特徴は、非特許文献3の54ページから64ページに記載されているように、音声データを10msec程度の一定区間で切り出し、プリエンファシス、FFT、フィルタバンクの処理を行った後、コサイン変換を行うことで抽出される。なお、抽出された特徴に加え、パワーや、前後の時刻の差分を用いることも出来る。
次に、抽出された特徴と、それに対応する書き起こしテキストとを用いて得られたラベルデータを用い、非特許文献3の127ページから130ページに記載されているフォワード・バックワード確率を求める。これにより、特徴とラベルデータとを対応付ける。ここで、ラベルデータとしては、前述のトライフォンなどが考えられる。例えば、「わたくし」と書き起こされた場合、ラベルデータは「*-w+a w-a+t a-t+a t-a+k a-k+u k-u+s s-i+*」のようになる。
モデル学習手段106は、発声長の3つの各単位について、上記のようなプロセスで音響モデル及び言語モデルを学習する。前述の例の場合、発声長が1秒以下の「短い発声」に対するモデル、発声長が1秒から3秒の「中位の発声」に対するモデル、及び、発声長が3秒以上の「長い発声」に対するモデルといった3種類のモデルが学習される。それら学習された音響モデル及び言語モデルが発声長別モデル107である。
図2に、第1の実施形態における音声認識部100B_1の構成を示す。音声認識部100B_1は、区間検出手段103と、発声長判定手段201と、発声長別モデル107と、モデル選択手段202と、認識手段203とで構成されている。
区間検出手段103は、基本的には前述のモデル学習部100A_1のものと同様の機能であり、入力された音声データから音声区間を検出し、その音声区間の開始時刻と終了時刻とを区間情報として出力する。
発声長判定手段201は、区間情報に基づいて、その区間の長さである発声長を計算する。そして、算出した発声長が、前述の「1秒以下」、「1秒から3秒」、「3秒以上」のような規定の単位のうちの何れに対応するかを判定する。
モデル選択手段202は、発声長判定手段201で判定された発声長の単位に対応する音響モデル及び言語モデルを、前述の発声長別モデル107から選択する。
認識手段203は、モデル選択手段202が選択した音響モデル及び言語モデルを用いて、入力音声の認識を行い、その認識結果を出力する。認識する方法は、おおまかには音響分析処理と探索処理とに分けられる。音響分析は、前述の音声の特徴量を計算する処理である。探索は、算出された特徴量と音響モデル及び言語モデルとを用いて単語のスコアを計算し、スコアの高いものを認識候補として出力するという処理である。
このように、第1の実施形態によれば、音声の特徴量としての発声長別に音響モデル及び言語モデルを学習し、そのモデルを用いて音声認識を行うことから、音声認識の精度を高めることができる。
一般に、話し言葉には、その発声長に応じて異なる現象がみられる。例えば、「短い発声」及び「中位の発声」は、「はい」や「ありがとうございます」といった事前に頭で整理された内容であるため、その発声は比較的明確である。一方、「長い発声」の場合は、考えながら発声されるため、途中で「えー」などのフィラーが挿入される、あるいは口籠るというように、発声があいまいになる現象がみられる。また、1〜2単語を発声する「短い発声」と、それ以上の単語を発声する「中位の発声」とでは、後者のほうがより多くの単語を発声しようとする分、口の動きに怠けが生じる可能性が高い。
このような現象を勘案すると、発声長とその発声にみられる現象との間には大きな相関があると考えられる。よって、本実施形態のように音響モデルおよび言語モデルを発声長別に学習し、学習したモデルにより音声認識を行うことで、高精度な音声認識が可能となる。また、発声長の計算には、パワー情報など、発声の内容に直接関与しない情報を用いるため、事前に発声内容を把握することは不要である。よって、学習時と認識時とで同じ精度の安定した音声認識システムを簡易に構築することができる。
なお、学習用のモデルとしては、上記実施形態のように、音響及び言語に分けて作成する以外にも、例えば、発声長を条件とした条件付き確率により表してもよい。また、音声認識時、例えば発声長が3秒の場合に、3秒のモデルだけを用いるのではなく、発声長が2秒や4秒のモデルとの線形和を用いてもよい。
次に、本発明の第2の実施形態について説明する。本実施形態では、音声の特徴量として、前述の発声長に加え、音声区間の先頭からの時刻である発声時刻に着目したモデル学習及び音声認識を行う。
図3に、第2の実施形態におけるモデル学習部の構成を示す。本実施形態のモデル学習部100A_2は、図1に示す前述の共通要素110により得られる発声長別データ105と、発声時刻判定手段301と、発声長・発声時刻別データ302と、モデル学習手段106と、発声長・発声時刻別モデル303とで構成されている。
発声時刻判定手段301は、発声長別に分類されている発声長別データ105の音声データ及び書き起こしデータについて、さらに、先頭から1秒間の部分、最後の1秒間の部分、残りの中央部分の3つに分類する。分類された部分は、本発明における詳細データ部分に対応する。なお、分類の数は、本実施形態のような3つに限らず、4つあるいは5つ等、他の数であってもよい。また、先頭の1秒間と最後の1秒間との組み合わせ等、複数の部分を組み合わせて1つの分類としてもよい。
発声長・発声時刻別データ302は、発声時刻判定手段301で切り分けられた音声データ及び書き起こしテキストを、発声長及び発声時刻別に分類したものである。モデル学習手段106は、発声長・発声時刻別データ302を用いて、発声長別及び発声時刻別に音響モデル及び言語モデルを学習する。学習した音響モデル及び言語モデルが、発声長・発声時刻別モデル303である。
図4に、本実施形態の音声認識部100B_2の構成を示す。音声認識部100B_2は、区間検出手段103と、発声長判定手段201と、発声時刻判定手段301と、発声長・発声時刻別モデル303と、モデル選択手段401と、認識手段203とで構成されている。
区間検出手段103及び発声長判定手段201は、図2に示す前述の音声認識部100B_1のものと同様である。すなわち、入力された音声データから音声区間を検出し、その区間の長さ、すなわち発声長が、何れの単位に対応するかを判定する。発声時刻判定手段301は、区間情報を元に、入力された音声の先頭から1秒間の部分、最後の1秒間の部分、残りの中央部分の3つを認識する。
モデル選択手段401は、発声長と発声時刻の情報とに基づいて、発声長・発声時刻別モデル303から認識対象の音声データに対応する音響モデル及び言語モデルを選択する。モデルの選択にあたっては、例えば、認識対象の音声波形が1秒未満であり、先頭から1秒間を認識したい場合、学習時に用いた音声データの発声長が1秒未満であり、かつ発声時刻が先頭から1秒間のモデルを選択する。
上記第2の実施形態によれば、発声長に発声時刻を加味したことにより、より高精度な音声認識が可能となる。
話し言葉における発声時刻別の語彙の性質は、次のように考えられる。1つの音声区間の先頭から1秒までに発声される単語は、「はい」などの応答や、「あー」などのフィラーの単語が多い傾向にある。また、区間の終盤に発声される単語としては、日本語の性質である「〜です」あるいは「でした」などの文末表現が多い。
このような性質を勘案すると、発声時刻別の音響モデルと言語モデルを作成し、入力された音声から観測された発声時刻に応じて、専用のモデルを使用して音声認識を行うことで、認識性能が向上すると考えられる。また、発声長に発声時刻を加味することで、認識した区間の冒頭部分は「はい」や「あー」などの語彙に絞込み、区間の終盤は「〜です」のような文末表現に絞込むという、処理の効率化を図ることができる。
また、音声の特徴量としての発声時刻は、確定した発声長の先頭からの時刻を計測することにより得られる情報である。よって、発声時刻は、発声長と同様に、発声の内容に直接関与しない情報であり、学習時と認識時とで観測値に差が生じる情報ではないため、安定した音声認識が実現できる。
なお、発声時刻を用いる学習用のモデルとしては、発声長と発声時刻とを条件とした条件付き確率により表してもよい。また、音声認識時、発声長及び発声時刻に基づき選択されたモデルだけを用いるのではなく、隣接する発声長や発声時刻のモデル、あるいは、その他のモデルとの重み付き線形和を用いてもよい。
上記各実施形態では、発声長の分類を「短い発声」、「長い発声」、「中位の発声」の3つとしたが、本発明を実施するにあたっては、発声長を2つあるいは4つ以上に分類してもよい。ただし、2つの場合は、分類が粗いことから認識精度を向上させ難く、また、単位数が増えるほど処理は複雑化する。よって、それらの兼ね合いを考慮して発声長の分類数を設定することが望ましい。
本発明は、高精度な音声認識を必要とされる種々の音声認識装置に好適である。また、本発明は、上記各実施形態における音声認識装置が備える手段に対応したコンピュータプログラムとして実施してもよい。

Claims (19)

  1. 音響モデルおよび言語モデルを用いて音声認識処理を行う音声認識部と、
    音声データにおける発声区間の長さを表す発声長別に前記音響モデルおよび言語モデルを学習するモデル学習部とを備えることを特徴とする音声認識装置。
  2. 前記モデル学習部は、
    音声データにおける発声区間を検出し該発声区間を表す区間情報を生成する手段と、前記音声データと該音声データから書き起こされたテキストデータとにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類する手段と、分類されたデータ部分を用いて音響モデルおよび言語モデルを学習する手段とを有することを特徴とする請求項1記載の音声認識装置。
  3. 前記音声認識部は、
    音声認識処理の対象となる音声データの発声長を算出し該発声長に対応する分類を認識する手段と、認識した分類に対応する音響モデルおよび言語モデルを用いて前記音声データの音声認識処理を実行する手段とを有することを特徴とする請求項2記載の音声認識装置。
  4. 前記モデル学習部は、さらに、区間情報に対応するデータ部分から当該発声区間における所定の期間に対応する詳細データ部分を認識し該詳細データ部分を期間別に分類する手段を有し、
    音響モデルおよび言語モデルを学習するとき、さらに、分類された詳細データ部分を用いて発声区間における所定の期間別に学習を実行することを特徴とする請求項3記載の音声認識装置。
  5. 前記音声認識部は、さらに、音声認識処理の対象となる音声データの発声長が表す発声区間における所定の期間を認識する手段を有し、
    前記音声データの音声認識処理を実行するとき、さらに、認識した期間に対応する音響モデルおよび言語モデルを用いることを特徴とする請求項4記載の音声認識装置。
  6. 前記モデル学習部は、音声データにおいてパワーが閾値より大きな発声区間の長さを前記発声長として認識することを特徴とする請求項1乃至5のいずれか1項に記載の音声認識装置。
  7. 前記モデル学習部は、発声長を1秒未満と1秒から3秒未満と3秒以上とに分類することを特徴とする請求項1乃至6のいずれか1項に記載の音声認識装置。
  8. 前記モデル学習部は、発声区間における前記所定の期間を該発声区間の先頭からの時刻により認識することを特徴とする請求項4乃至7のいずれか1項に記載の音声認識装置。
  9. 前記モデル学習部は、発声区間における前記所定の期間として、発声区間の先頭から1秒間の期間と、発声区間の終尾の1秒間の期間と、前記両期間に挟まれた中央の期間とのうちの2つ以上の組み合わせを適用することを特徴とする請求項8記載の音声認識装置。
  10. コンピュータを請求項1乃至9のいずれか1項に記載の音声認識装置として機能させることを特徴とするプログラム。
  11. 音声認識装置が、音声データにおける発声区間の長さを表す発声長別に音響モデルおよび言語モデルを学習し、前記音響モデルおよび言語モデルを用いて音声認識処理を行うことを特徴とする音声認識方法。
  12. 前記音声認識装置が、
    音響モデルおよび言語モデルを学習するとき、音声データにおける発声区間を検出し該発声区間を表す区間情報を生成し、前記音声データと該音声データから書き起こされたテキストデータとにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類し、分類されたデータ部分を用いて音響モデルおよび言語モデルを学習することを特徴とする請求項11記載の音声認識方法。
  13. 前記音声認識装置が、
    音声認識処理を行うとき、音声認識処理の対象となる音声データの発声長を算出し該発声長に対応する分類を認識し、認識した分類に対応する音響モデルおよび言語モデルを用いて前記音声データの音声認識処理を実行することを特徴とする請求項12記載の音声認識方法。
  14. 前記音声認識装置が、
    音響モデルおよび言語モデルを学習するとき、さらに、区間情報に対応するデータ部分から当該発声区間における所定の期間に対応する詳細データ部分を認識し該詳細データ部分を期間別に分類し、
    音響モデルおよび言語モデルを学習するとき、さらに、分類された詳細データ部分を用いて発声区間における所定の期間別に学習を実行することを特徴とする請求項13記載の音声認識方法。
  15. 前記音声認識装置が、音声認識処理を行うとき、さらに、音声認識処理の対象となる音声データの発声長が表す発声区間における所定の期間を認識し、
    前記音声データの音声認識処理を実行するとき、さらに、認識した期間に対応する音響モデルおよび言語モデルを用いることを特徴とする請求項14記載の音声認識方法。
  16. 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、音声データにおいてパワーが閾値より大きな発声区間の長さを前記発声長として認識することを特徴とする請求項11乃至15のいずれか1項に記載の音声認識方法。
  17. 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声長を1秒未満と1秒から3秒未満と3秒以上とに分類することを特徴とする請求項11乃至16のいずれか1項に記載の音声認識方法。
  18. 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声区間における前記所定の期間を該発声区間の先頭からの時刻により認識することを特徴とする請求項14乃至17のいずれか1項に記載の音声認識方法。
  19. 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声区間における前記所定の期間として、発声区間の先頭から1秒間の期間と、発声区間の終尾の1秒間の期間と、前記両期間に挟まれた中央の期間とのうちの2つ以上の組み合わせを適用することを特徴とする請求項18記載の音声認識方法。
JP2008548349A 2006-12-08 2007-12-07 音声認識装置および音声認識方法 Active JP5240456B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008548349A JP5240456B2 (ja) 2006-12-08 2007-12-07 音声認識装置および音声認識方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006331871 2006-12-08
JP2006331871 2006-12-08
JP2008548349A JP5240456B2 (ja) 2006-12-08 2007-12-07 音声認識装置および音声認識方法
PCT/JP2007/073674 WO2008069308A1 (ja) 2006-12-08 2007-12-07 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JPWO2008069308A1 true JPWO2008069308A1 (ja) 2010-03-25
JP5240456B2 JP5240456B2 (ja) 2013-07-17

Family

ID=39492183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008548349A Active JP5240456B2 (ja) 2006-12-08 2007-12-07 音声認識装置および音声認識方法

Country Status (4)

Country Link
US (1) US8706487B2 (ja)
EP (1) EP2096630A4 (ja)
JP (1) JP5240456B2 (ja)
WO (1) WO2008069308A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5235187B2 (ja) * 2009-11-16 2013-07-10 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP5810912B2 (ja) 2011-12-28 2015-11-11 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
WO2014069122A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
US9754607B2 (en) * 2015-08-26 2017-09-05 Apple Inc. Acoustic scene interpretation systems and related methods
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
EP3474276A4 (en) * 2016-06-15 2019-07-31 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
JP6892426B2 (ja) * 2018-10-19 2021-06-23 ヤフー株式会社 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
JP7229847B2 (ja) * 2019-05-13 2023-02-28 株式会社日立製作所 対話装置、対話方法、及び対話コンピュータプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6239900A (ja) 1985-08-15 1987-02-20 キヤノン株式会社 音声認識装置
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
JP2829014B2 (ja) 1989-01-12 1998-11-25 株式会社東芝 音声認識装置及び方法
US5444817A (en) * 1991-10-02 1995-08-22 Matsushita Electric Industrial Co., Ltd. Speech recognizing apparatus using the predicted duration of syllables
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US6014624A (en) * 1997-04-18 2000-01-11 Nynex Science And Technology, Inc. Method and apparatus for transitioning from one voice recognition system to another
JP3058125B2 (ja) 1997-06-27 2000-07-04 日本電気株式会社 音声認識装置
JP2000099077A (ja) 1998-09-28 2000-04-07 Matsushita Electric Ind Co Ltd 音声認識装置
AU7938300A (en) * 1999-10-06 2001-05-10 Lernout And Hauspie Speech Products N.V. Attribute-based word modeling
EP1189202A1 (en) * 2000-09-18 2002-03-20 Sony International (Europe) GmbH Duration models for speech recognition
US20020087309A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented speech expectation-based probability method and system
JP3893893B2 (ja) 2001-03-30 2007-03-14 セイコーエプソン株式会社 ウエブページの音声検索方法、音声検索装置および音声検索プログラム
JP4124416B2 (ja) 2002-01-28 2008-07-23 独立行政法人情報通信研究機構 半自動型字幕番組制作システム
JP2003330485A (ja) * 2002-05-10 2003-11-19 Tokai Rika Co Ltd 音声認識装置、音声認識システム及び音声認識方法
JP2004126143A (ja) * 2002-10-01 2004-04-22 Mitsubishi Electric Corp 音声認識装置および音声認識プログラム
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
US20060149544A1 (en) * 2005-01-05 2006-07-06 At&T Corp. Error prediction in spoken dialog systems
JP4571922B2 (ja) * 2006-03-17 2010-10-27 日本電信電話株式会社 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体
JP4906379B2 (ja) * 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
US20100324897A1 (en) 2010-12-23
EP2096630A4 (en) 2012-03-14
EP2096630A1 (en) 2009-09-02
WO2008069308A1 (ja) 2008-06-12
US8706487B2 (en) 2014-04-22
JP5240456B2 (ja) 2013-07-17

Similar Documents

Publication Publication Date Title
US11270685B2 (en) Speech based user recognition
JP5240456B2 (ja) 音声認識装置および音声認識方法
CN106463113B (zh) 在语音辨识中预测发音
US11410684B1 (en) Text-to-speech (TTS) processing with transfer of vocal characteristics
US9767792B2 (en) System and method for learning alternate pronunciations for speech recognition
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
Ghai et al. Literature review on automatic speech recognition
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US6618702B1 (en) Method of and device for phone-based speaker recognition
JPH09500223A (ja) 多言語音声認識システム
US20040210437A1 (en) Semi-discrete utterance recognizer for carefully articulated speech
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US11935523B2 (en) Detection of correctness of pronunciation
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
Proença et al. Mispronunciation Detection in Children's Reading of Sentences
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
KR20230094826A (ko) 음소 및 문맥 정보를 고려한 화자 임베딩 추출 방법 및 장치
JP7098587B2 (ja) 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
Shukla Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition
Pisarn et al. An HMM-based method for Thai spelling speech recognition
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101021

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5240456

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150