WO2007000816A1 - 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法 - Google Patents
音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法 Download PDFInfo
- Publication number
- WO2007000816A1 WO2007000816A1 PCT/JP2005/011921 JP2005011921W WO2007000816A1 WO 2007000816 A1 WO2007000816 A1 WO 2007000816A1 JP 2005011921 W JP2005011921 W JP 2005011921W WO 2007000816 A1 WO2007000816 A1 WO 2007000816A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- analysis
- feature vector
- feature
- speech
- speaker
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Abstract
音声特徴抽出装置は、入力音声を周波数分析し、入力音声からスペクトル成分を抽出し、抽出されたスペクトル成分を対数変換し、対数変換された対数スペクトルを多重解像度解析して特徴ベクトルを得るように構成されており、これにより、各分析窓の周波数方向の長さがケフレンシーの高さと共に縮小され、高ケフレンシーになるに従い周波数分解能が高い解析を実施することが可能となることにより、音声の周波数スペクトルから個人性を分析する際に周波数分解能が固定されない。
Description
明 細 書
音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法 技術分野
[0001] 本発明は、入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処 理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置、 音声波に含まれる個人性情報を用いて話者を認識する話者認識装置、プログラム及 び音声特徴抽出方法に関する。
背景技術
[0002] 音声波に含まれる個人性情報を用いて、誰の声であるかを自動的に判定すること を話者認識 (speaker recognition)という。このような話者認識の形態は、話者識別(sp eaker identification)と話者照合(speaker verification)に分けることができる。話者識 別とは、入力音声が、あら力じめ登録されている N人の内の誰の声であるかを判定す るものである。話者照合とは、入力音声と同時に自分が誰であるかの IDを入力して、 その音声が本当にその IDに対応する人の声であるか否かを判定するものである。話 者識別の場合は、多数の登録話者の内から最も類似度 (尤度)の高い話者を選び、 その話者の音声であると判断する。話者照合の場合は、 IDに基づく本人の標準バタ ーンとの類似度 (モデルに対する尤度)力 一定の閾値よりも大きければ本人の音声 であると判定し、それ以外の場合は他人の音声であると判定する。
[0003] ところで、話者識別の性能は、登録話者の内の本人以外の話者が選択される誤り 率で評価される。当然ながら登録話者の数が多くなればそれだけ難しくなるので、話 者識別の誤り率は、登録話者の数が増えるにつれて単調に増加することになる。した がって、登録話者の数が増えた場合であっても、話者識別の誤り率の増加を低く抑 えることが望まれている。
[0004] 近年、話者識別においては、個人性を表す特徴パラメータとして低次ケプストラム 係数が広く用いられている。ここで、ケプストラム法による低次ケプストラム係数を抽出 する手順について図 7を用いて説明する。
[0005] 図 7は、ケプストラム係数を抽出する従来型の分析処理部の各種処理部を示すプロ
ック図である。図 7において、 501は入力される音声波(デジタル音声信号)、 502は 音声波を適当な長さのフレームに切り分け、かつ、ハミング窓などの窓処理を施す時 間窓処理部、 503は離散フーリエ変換処理部、 504は振幅スペクトルを対数変換す る対数変換処理部、 505は逆離散フーリエ変換処理部、 506はリフタリング処理部、 507は出力されるケプストラム係数、である。
[0006] 入力された音声波 501は、時間窓処理部 502において適当な長さ(一般的には 20 〜30ms)のフレームに分割され、順次ノ、ミング窓などの窓が乗じられる。次いで、離 散フーリエ変換部 503にて振幅スペクトルが抽出され、これを対数変換処理部 504 にて対数変換することにより、対数振幅スペクトルが得られる。一般的に、ここで得ら れた対数振幅スペクトル包絡の概形情報に個人性を示す情報が含まれていると言わ れている。この概形情報を抽出するために、逆離散フーリエ変換処理部 505にて逆 フーリエ変換を行いケプストラムを求め、続くリフタリング処理部 506にて高次ケプスト ラムを除くことにより、低次ケプストラム係数が求まる (例えば、非特許文献 1参照)。
[0007] 図 8は、従来型の周波数ケフレンシ一平面上の分析窓と特徴ベクトルを示す模式 図である。逆離散フーリエ変換は、ケフレンシ一に対する分析窓の周波数分解能が 図 8の左図のように一定となる解析手法であって、各分析窓毎に対数振幅スペクトル を逆離散フーリエ変換し、その分析窓に対応するケプストラム係数を求める。各分析 窓毎に求めたケプストラム係数の列力 図 8の右図のような特徴ベクトルとなる。
[0008] 非特許文献 1 :古井貞熙著 "音声情報処理" 森北出版株式会社 P. 25 ところ 力 従来のケプストラム法により抽出されるケプストラム係数においては、各分析窓の 周波数方向の長さが一定であるため、周波数方向の分解能が固定されてしまうという 問題がある。これは、周波数方向に個人性を示す情報が偏って存在していた場合、 話者の識別能に悪影響を及ぼす要因となる。
[0009] 本発明の目的は、音声の周波数スペクトルから個人性を分析する際に周波数方向 の分解能を固定しな 、ようにすることである。
[0010] 本発明の目的は、話者認識精度を向上させることである。
発明の開示
[0011] 本発明は、入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処
理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置 において、窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽 出する第 1の分析手段と、この第 1の分析手段により抽出された前記スペクトル成分 を対数変換する対数変換手段と、この対数変換手段により対数変換された対数スぺ タトルを多重解像度解析し、特徴ベクトルを得る第 2の分析手段と、を備える。
[0012] 別の面から見た本発明は、音声波に含まれる個人性情報を用いて話者を認識する 話者認識装置において、デジタル音声信号を入力する音声入力手段と、入力された デジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個 人性情報を含む特徴ベクトルを出力する前記音声特徴抽出装置と、この音声特徴抽 出装置から入力された特徴ベクトルから個人性特徴モデルを作成するモデル作成手 段と、このモデル作成手段で作成された個人性特徴モデルを登録する登録手段と、 前記音声特徴抽出装置から出力された特徴ベクトルに基づき前記登録手段により登 録されて!/、る個人性特徴モデル力 最も類似度 (尤度)の高 、話者を選択する話者 選択手段と、を備える。
[0013] 更に別の面力 見た本発明は、入力されるデジタル音声信号を適当な長さのフレ ームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力す る音声特徴抽出機能を実行するコンピュータで読取可能なプログラムであって、窓処 理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第 1の分 析機能と、この第 1の分析機能により抽出された前記スペクトル成分を対数変換する 対数変 能と、この対数変 能により対数変換された対数スぺ外ルを多重解 像度解析し、特徴ベクトルを得る第 2の分析機能と、を前記コンピュータに実行させる
図面の簡単な説明
[0014] [図 1]本発明の実施の一形態の話者認識装置の構成を示すブロック図である。
[図 2]特徴ベクトル生成部の各種処理部を示すブロック図である。
[図 3]周波数ケフレンシ一平面上の分析窓と特徴ベクトル (多重解像度パラメータ)を 示す模式図である。
[図 4]特徴ベクトル生成部における処理により出力される特徴ベクトルの変形例を示
す模式図である。
[図 5]特徴ベクトル生成部における処理により出力される特徴ベクトルの別の変形例 を示す模式図である。
[図 6]ソフトウェアによって実現する場合の話者認識装置の構成例を示すブロック図 である。
[図 7]ケプストラム係数を抽出する従来型の分析処理部の各種処理部を示すブロック 図である。
[図 8]従来型の周波数ケフレンシ一平面上の分析窓と特徴ベクトルを示す模式図で ある。
発明を実施するための最良の形態
[0015] 本発明の実施の一形態を図 1ないし図 6に基づいて説明する。
[0016] 図 1は本実施の形態の話者認識装置 100の構成を示すブロック図である。図 1に示 すように、話者認識装置 100は、マイク 1、低域通過フィルタ 2、 AZD変換部 3、特徴 ベクトル生成部 4、話者選択部 5、話者モデル生成部 6、記憶部 7で構成されている。
[0017] マイク 1は、入力された音声を電気的アナログ信号に変換するものである。低域通 過フィルタ 2は、入力されたアナログ信号力 所定の周波数以上の周波数をカットし 出力するものである。 AZD変換部 3は、入力されたアナログ信号を所定のサンプリン グ周波数、量子化ビット数でデジタル信号に変換するものである。以上、マイク 1、低 域通過フィルタ 2、 AZD変換部 3により、音声を入力するための音声入力手段が構 成されている。
[0018] 特徴ベクトル生成部 4は、音声特徴抽出装置として機能するものであり、入力された デジタル信号カゝら個人性特徴情報を抽出し、順次個人性情報を含む特徴データで ある特徴ベクトルを出力するものである。
[0019] 話者モデル生成部 6 (モデル作成手段)は、特徴ベクトル生成部 4で生成された特 徴ベクトルカゝら話者モデル (個人性特徴モデル)を作成するものであり、記憶部 7 (登 録手段)は、話者モデル生成部 6で作成された話者モデル (例えば、コードブック)を 登録するものである。
[0020] 話者選択部 5 (話者選択手段)は、特徴ベクトル生成部 4で生成された特徴ベクトル
と予め記憶部 7に登録されて ヽる話者モデル (例えば、コードブック)から最も類似度 (尤度)の高 ヽ話者を選択し、選択した話者認識結果を出力するものである。
[0021] 図 2は、特徴ベクトル生成部 4の各種処理部を示すブロック図である。特徴ベクトル 生成部 4の各種処理部について、図 2を参照しつつ説明する。図 2に示すように、 11 は入力される音声波(デジタル音声信号)、 12は音声波を適当な長さのフレームに 切り分け、かつ、ハミング窓などの窓処理を施す時間窓処理部、 13は入力音声を周 波数分析し、スペクトル成分を抽出する離散フーリエ変換処理部 (第 1の分析手段)、 14は振幅スペクトルを対数変換する対数変換処理部 (対数変換手段)、 15はゥエー ブレット変換によりスペクトル成分を多重解像度解析(MRA: Multi- Resolution Analy sis)し、特徴ベクトルを得る MRA処理部(第 2の分析手段)、 16は上記の処理により 出力される特徴ベクトル (多重解像度パラメータ)である。
[0022] 図 3は、周波数ケフレンシ一平面上の分析窓と特徴ベクトル (多重解像度パラメータ )を示す模式図である。特徴ベクトル生成部 4で行われる多重解像度分析は、図 3の 左図に示すように、各分析窓の周波数方向の長さがケフレンシ一の高さと共に縮小 されていることにより、高ケフレンシ一になるに従い周波数分解能が高い解析を実施 することが可能となっている。特徴ベクトル生成部 4は、このような解析を実施すること により、図 3の右図に示すような特徴ベクトル (多重解像度パラメータ)を出力する。
[0023] 図 4は、特徴ベクトル生成部における処理により出力される特徴ベクトルの変形例を 示す模式図である。別の実施の形態として、特徴ベクトル生成部 4は、図 4に示したよ うなケプストラム係数を抽出する従来型の分析処理部 (第 3の分析手段)も兼ね備え るようにしても良い。ケプストラム係数を抽出する従来型の分析処理部 (第 3の分析手 段)も兼ね備えるようにすることで、特徴ベクトル生成部 4から出力される特徴ベクトル は、図 4に示すように低次ケプストラム係数と多重解像度パラメータとを合わせた多次 元ベクトルとなる(統合手段)。
[0024] 図 5は、特徴ベクトル生成部における処理により出力される特徴ベクトルの別の実 施の形態を示す模式図である。また、低次ケプストラム係数と多重解像度パラメータと を統合して特徴ベクトルを生成する際には、低次ケプストラム係数と多重解像度パラ メータとを足し合わせて統合するものに限らず、図 5に示すように、ケプストラムの変数
である各ケフレンシ一帯域毎に択一的に統合しても良い(統合手段)。このようにする ことにより、各ケフレンシ一帯域毎に最適な分析窓を採用したことと等価の効果を得る ことができ、より理想的な分析を実施することが可能となる。
[0025] 次に、本実施の形態における話者認識装置 100の登録処理の流れについて説明 する。マイク 1に人力された音声は、電気的アナログ信号として出力される。アナログ 信号として出力された入力音声は、低域通過フィルタ 2によりサンプリング周波数 (例 えば、 12kHz)の 1Z2以上の周波数をカットされる。その後、入力音声は、 AZD変 換部 3にてサンプリング周波数でサンプリングされデジタル信号に変換される。
[0026] AZD変換部 3にてデジタル信号に変換された入力音声は、特徴ベクトル生成部 4 に入力され、音声分析により抽出される個人性情報を含む特徴データが特徴べタト ル (多重解像度パラメータ)として出力される。
[0027] 特徴ベクトル生成部 4から出力された特徴ベクトル (多重解像度パラメータ)は、話 者モデル生成部 6に入力されて話者モデル生成部 6にお ヽて話者モデル (例えば、 コードブック)が作成され、話者モデル生成部 6で作成された話者モデル (例えば、コ ードブック)が記憶部 7に登録される。
[0028] 次に、本実施の形態における話者認識装置 100の話者認識処理の流れについて 説明する。マイク 1に人力された音声は、電気的アナログ信号として出力される。アナ ログ信号として出力された入力音声は、低域通過フィルタ 2によりサンプリング周波数 (例えば、 12kHz)の 1Z2以上の周波数をカットされる。その後、入力音声は、 A/D 変換部 3にてサンプリング周波数でサンプリングされデジタル信号に変換される。
[0029] AZD変換部 3にてデジタル信号に変換された入力音声は、特徴ベクトル生成部 4 に入力され、音声分析により抽出される個人性情報を含む特徴データが特徴べタト ル (多重解像度パラメータ)として出力される。
[0030] 特徴ベクトル生成部 4から出力された特徴ベクトル (多重解像度パラメータ)は話者 選択部 5に入力され、記憶部 7に予め登録されている話者モデル (例えば、コードブ ック)から最も類似度 (尤度)の高 、話者が選択され、選択した話者認識結果が出力 される。
[0031] このように本実施の形態によれば、各分析窓の周波数方向の長さがケフレンシ一の
高さと共に縮小され、高ケフレンシ一になるに従い周波数分解能が高い解析を実施 することが可能となることにより、音声の周波数スペクトル力 個人性を分析する際に 周波数分解能が固定されず、より詳細な分析を行うことができるので、話者認識精度 の向上した話者認識装置 100を提供することができる。
[0032] 図 6は、ソフトウェアによって実現する場合の話者認識装置の構成例を示すブロック 図である。本発明を実施する上では、上記した実施の形態に示す特定のハードゥエ ァ構成に限定されるものではなぐ例えば、ソフトウェアによっても実現可能である。 話者認識装置 100は、この話者認識装置 100の各部を集中的に制御する CPU101 を備えており、この CPU101には、 BIOSなどを記憶した ROMや各種データを書換 え可能に記憶する RAMで構成されるメモリ 102がバス接続されており、マイクロコン ピュータを構成している。また、 CPU101には、 HDD (Hard Disk Drive) 103と、コン ピュータ読み取り可能な記憶媒体である CD (Compact Disc) ROM104を読み取 る CD— ROMドライブ 105と、話者認識装置 100とインターネット等との通信を司る通 信装置 106と、キーボード 107と、 CRT、 LCDなどの表示装置 108と、マイク 1とが、 図示しな!、lZOを介してバス接続されて 、る。
[0033] CD— ROM104などのコンピュータ読み取り可能な記憶媒体には本発明の音声特 徴抽出機能を実現するプログラムが記憶されており、このプログラムを話者認識装置 100にインストールすることにより、 CPU101に本発明の音声特徴抽出機能を実行さ せることができる。また、マイク 1から入力された音声は一時的に HDD103などに格 納される。そして、該プログラムが起動されると、 HDD103などに一時保存された音 声データが読み込まれ、音声特徴抽出処理が実行され、音声特徴抽出処理により抽 出された特徴ベクトルが話者認識処理に供される。
[0034] なお、記憶媒体としては、 CD— ROM104のみならず、 DVDなどの各種の光ディ スク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモ リ等、各種方式のメディアを用いることができる。また、インターネットなどのネットヮー クからプログラムをダウンロードし、 HDD103にインストールするようにしてもよい。こ の場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記 憶媒体である。なお、プログラムは、所定の OS (Operating System)上で動作するも
のであってもよいし、その場合に後述の各種処理の一部の実行を OSに肩代わりさせ るものであってもよ 、し、ワープロソフトなど所定のアプリケーションソフトや OSなどを 構成する一群のプログラムファイルの一部として含まれて 、るものであってもよ 、。
Claims
[1] 入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した 後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置において、 窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第
1の分析手段と、
この第 1の分析手段により抽出された前記スペクトル成分を対数変換する対数変換 手段と、
この対数変換手段により対数変換された対数スペクトルを多重解像度解析し、特徴 ベクトルを得る第 2の分析手段と、
を備えることを特徴とする音声特徴抽出装置。
[2] 前記第 1の分析手段により抽出された前記スペクトル成分カゝらケプストラム係数を抽 出し、特徴ベクトルを得る第 3の分析手段と、
前記第 2の分析手段カゝら得られた特徴ベクトルと前記第 3の分析手段カゝら得られた 特徴ベクトルとを統合する統合手段と、
を備えることを特徴とする請求項 1記載の音声特徴抽出装置。
[3] ケプストラムの変数である各ケフレンシ一帯域毎に択一的にベクトルを統合する、 ことを特徴とする請求項 3記載の音声特徴抽出装置。
[4] 音声波に含まれる個人性情報を用いて話者を認識する話者認識装置において、 デジタル音声信号を入力する音声入力手段と、
入力されたデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した 後、順次個人性情報を含む特徴ベクトルを出力する請求項 1な 、し 3の 、ずれか一 記載の音声特徴抽出装置と、
この音声特徴抽出装置から入力された特徴ベクトルから個人性特徴モデルを作成 するモデル作成手段と、
このモデル作成手段で作成された個人性特徴モデルを登録する登録手段と、 前記音声特徴抽出装置から出力された特徴ベクトルに基づき前記登録手段により 登録されて!、る個人性特徴モデル力 最も類似度 (尤度)の高 、話者を選択する話 者選択手段と、
を備えることを特徴とする話者認識装置。
[5] 入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した 後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出機能を実行するコ ンピュータに読取可能なプログラムであって、
窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第 1の分析機能と、
この第 1の分析機能により抽出された前記スペクトル成分を対数変換する対数変換 機能と、
この対数変 能により対数変換された対数スペクトルを多重解像度解析し、特徴 ベクトルを得る第 2の分析機能と、
を前記コンピュータに実行させることを特徴とするプログラム。
[6] 前記第 1の分析機能により抽出された前記スペクトル成分カゝらケプストラム係数を抽 出し、特徴ベクトルを得る第 3の分析機能と、
前記第 2の分析機能から得られた特徴ベクトルと前記第 3の分析機能から得られた 特徴ベクトルとを統合する統合機能と、
を前記コンピュータに実行させることを特徴とする請求項 5記載のプログラム。
[7] ケプストラムの変数である各ケフレンシ一帯域毎に択一的にベクトルを統合する、 ことを特徴とする請求項 6記載のプログラム。
[8] 入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した 後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出方法において、 窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第
1の分析ステップと、
この第 1の分析ステップにより抽出された前記スペクトル成分を対数変換する対数 変換ステップと、
この対数変換ステップにより対数変換された対数スペクトルを多重解像度解析し、 特徴ベクトルを得る第 2の分析ステップと、
を備えることを特徴とする音声特徴抽出方法。
[9] 前記第 1の分析ステップにより抽出された前記スペクトル成分カゝらケプストラム係数
を抽出し、特徴ベクトルを得る第 3の分析ステップと、
前記第 2の分析ステップ力 得られた特徴ベクトルと前記第 3の分析ステップ力 得 られた特徴ベクトルとを統合する統合ステップと、
を備えることを特徴とする請求項 8記載の音声特徴抽出方法。
ケプストラムの変数である各ケフレンシ一帯域毎に択一的にベクトルを統合する、 ことを特徴とする請求項 9記載の音声特徴抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2005/011921 WO2007000816A1 (ja) | 2005-06-29 | 2005-06-29 | 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2005/011921 WO2007000816A1 (ja) | 2005-06-29 | 2005-06-29 | 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2007000816A1 true WO2007000816A1 (ja) | 2007-01-04 |
Family
ID=37595078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2005/011921 WO2007000816A1 (ja) | 2005-06-29 | 2005-06-29 | 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2007000816A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313902A (zh) * | 2016-06-06 | 2019-02-05 | 思睿逻辑国际半导体有限公司 | 语音用户接口 |
CN110431546A (zh) * | 2017-03-22 | 2019-11-08 | 株式会社东芝 | 发音者检索装置、发音者检索方法以及发音者检索程序 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004341340A (ja) * | 2003-05-16 | 2004-12-02 | Toshiba Tec Corp | 話者認識装置 |
-
2005
- 2005-06-29 WO PCT/JP2005/011921 patent/WO2007000816A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004341340A (ja) * | 2003-05-16 | 2004-12-02 | Toshiba Tec Corp | 話者認識装置 |
Non-Patent Citations (8)
Title |
---|
BLLA J. ET AL.: "RECENT EXPERIMENTS IN LARGE VOCABULARY CONVERSATIONAL SPEECH RECOGNITION", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 1999. ICASSP '99. PROCEEDINGS., 1999 IEEE INTERNATIONAL CONFERENCE, vol. 1, 15 March 1999 (1999-03-15) - 19 March 1999 (1999-03-19), pages 41 - 44, XP010328003 * |
KAWAHARA H.: "Wavelet Kaiseki no Chokaku Kenkyu eno Oyo", JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, HEISEI 3 NEN 6 GATSU 1 NICHI, vol. 47, no. 6, pages 424 - 429 * |
MCCOURT P. ET AL.: "MULTI-RESOLUTION CEPSTRAL FEATURES FOR PHONEME RECOGNITION ACROSS SPEECH SUB-BANDS", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 1998. ICASSP '98. PROCEEDINGS OF THE 1998 IEEE INTERNATIONAL CONFERENCE, vol. 1, 12 May 1998 (1998-05-12) - 15 May 1998 (1998-05-15), pages 557 - 560, XP002901656 * |
NAKAGAWA S.: "Onsei Ninshiki Kenkyu no Doko", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, HEISEI 12 NEN 2 GATSU 25 NICHI, vol. J83-D-II, no. 2, pages 433 - 457 * |
NISHIMURA Y. ET AL.: "Omomi Tsuki Spectrum Tokuchoryo o Mochiita Zatsuon ni Ganken na Onsei Ninshiki", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) 2003 SHUKI KENKYU HAPPYOKAI KOEN RONBUNSHI -I-, 17 September 2003 (2003-09-17), pages 5 - 6 * |
SATO M.: "Wavelet Riron no Sugakuteki Kiso Dai I Bu", JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, HEISEI 3 NEN 6 GATSU 1 NICHI, vol. 47, no. 6, pages 405 - 415 * |
SATO M.: "Wavelet Riron no Sugakuteki Kiso Dai II Bu", JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, HEISEI 3 NEN 6 GATSU 1 NICHI, vol. 47, no. 6, pages 416 - 423 * |
YOSHII K. ET AL.: "Wavelet Henkan o Mochiita Onso Matching Shori", IEICE TECHNICAL REPORT, vol. 102, no. 529, 12 December 2002 (2002-12-12), pages 123 - 128 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313902A (zh) * | 2016-06-06 | 2019-02-05 | 思睿逻辑国际半导体有限公司 | 语音用户接口 |
CN110431546A (zh) * | 2017-03-22 | 2019-11-08 | 株式会社东芝 | 发音者检索装置、发音者检索方法以及发音者检索程序 |
CN110431546B (zh) * | 2017-03-22 | 2023-10-13 | 株式会社东芝 | 发音者检索装置、发音者检索方法以及发音者检索程序 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4802135B2 (ja) | 話者認証登録及び確認方法並びに装置 | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
KR101378696B1 (ko) | 협대역 신호로부터의 상위대역 신호의 결정 | |
JP4757158B2 (ja) | 音信号処理方法、音信号処理装置及びコンピュータプログラム | |
JP5662276B2 (ja) | 音響信号処理装置および音響信号処理方法 | |
JP3364904B2 (ja) | 自動音声認識方法及び装置 | |
TW514867B (en) | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system | |
US20090177468A1 (en) | Speech recognition with non-linear noise reduction on mel-frequency ceptra | |
JP2002140089A (ja) | 挿入ノイズを用いた後にノイズ低減を行うパターン認識訓練方法および装置 | |
JP4061094B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
JP2005049859A (ja) | オーディオデータを自動的に認識する方法及び装置 | |
KR20050049103A (ko) | 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치 | |
JP2002268698A (ja) | 音声認識装置と標準パターン作成装置及び方法並びにプログラム | |
WO2007000816A1 (ja) | 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法 | |
Li et al. | A high-performance auditory feature for robust speech recognition. | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
KR101041035B1 (ko) | 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치 | |
US20070219796A1 (en) | Weighted likelihood ratio for pattern recognition | |
JP2005301022A (ja) | 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法 | |
JP4362072B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP7159767B2 (ja) | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 | |
JP3905620B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWW | Wipo information: withdrawn in national office |
Country of ref document: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 05765403 Country of ref document: EP Kind code of ref document: A1 |