JPS61252594A - 音声パタ−ン照合方式 - Google Patents

音声パタ−ン照合方式

Info

Publication number
JPS61252594A
JPS61252594A JP60094143A JP9414385A JPS61252594A JP S61252594 A JPS61252594 A JP S61252594A JP 60094143 A JP60094143 A JP 60094143A JP 9414385 A JP9414385 A JP 9414385A JP S61252594 A JPS61252594 A JP S61252594A
Authority
JP
Japan
Prior art keywords
pattern
standard
beginning
frame
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60094143A
Other languages
English (en)
Inventor
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP60094143A priority Critical patent/JPS61252594A/ja
Priority to US06/857,838 priority patent/US4776017A/en
Publication of JPS61252594A publication Critical patent/JPS61252594A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 肢血分■ 本発明は、音声認識装置におけるパターン照合方式に関
する。
従米伎血 音声認識装置では速い応答が望まれているが、音声の入
力が終わってから認識のための演算を開始したのでは結
果が得られるまでに時間がかかるので音声がある程度入
力された時点で演算をスタートする方式が考えられてい
る(特願昭59−48333号)。しかし、上記方式は
音声の冒頭の一定長が入力された時点でそこまでのデー
タで類僚の標準パターンを限定しておき、音声が入力し
終わると限定された標準パターンとのみ全体での照合を
行うことにより演算量を減らして結果を得るまでの時間
を短縮しようというものである。ところが標準パターン
の数が多くなると標準パターンの限定に時間がかかり、
音声が入力し終わっているのに未だ標準パターンの限定
演算をやっているということになってしまう。音声の入
力が終わると音声長による標準パターンの限定などもつ
と演算量の少ない方法があり上記の方法では音声の入力
中に実行し終わらないと効果が少ない。
胚 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声パターン照合の演算時間を短くすることを目
的としてなされたものである。
1底 本発明は、上記目的を達成するため、音声のパターンの
冒頭の一定時間長のデータを加え合わせて1フレームの
標準パターンを作成しておき、未知の音声が入力された
時、これを特徴パターンに変換して冒頭の標準パターン
作成時と同じフレーム数を加え合わせて作成した1フレ
ームのパターンと上記の各標準パターン間の類似性を求
め、類似性の高いパターンのみを再照合すること、或い
は、音声のパターンの冒頭の一定時間長のデータを加え
合わせて1フレームのパターンにした後、その中のピー
クが一定になるように正規化し、未知の音声が入力され
た時、これを特徴パターンに変換して冒頭の標準パター
ン作成時と同じフレーム数を加え合わせて作成した1フ
レームのパターンと上記各標準パターンとの間の類似性
を求め、類似性の高いパターンのみを再照合すること、
或いは、音声のパターンの冒頭の一定時間長のデータを
加え合わせて1フレームのパターンを作成し、そのパタ
ーンを何種類かのタイプに分類しておき、未知の音声が
入力された時、これを特徴パターンに変換して冒頭の標
準パターン作成時と同じフレーム数を加え合わせて1フ
レームのパターンにして同様のパターンのタイプ分類し
、同じタイプの標準パターンのみを再照合することを特
徴としたちのでる。以下、本発明の実施例に基づいて説
明する。
第1図は、本発明の一実施例を説明するための電気回路
図で、この実施例は、音声の冒頭の一定長を一つのデー
タにして演算量を減らすという立場から、第1に、音声
パターンの冒頭の一定時間長のデータを加え合わせて1
フレームの標準パターンを作成しておき、未知の音声が
入力された時、これを特徴パターンに変換して冒頭の標
準パターン作成時と同じフレーム数を加え合わせて作成
した1フレームのパターンと上記の各標準パターン間の
類似性を求め、類似性の高いパターンのみを再照合する
ようにしたものである。
第1図において、lはマイク、2は音声区間検出部、3
は特徴量変換部、4はレジスタ、5は冒頭一定フレーム
加算部、6.7は標準パターン部。
8は加算部、9.10は照合部、11は結果出力部で、
二重線部分は標準パターン作成特有の経路。
実線細線部分は認識時の経路、実線太線部は共通経路を
示している。まず、マイクから登録すべき各単語を入力
し、その音声に関する部分だけをとり出して特徴量に変
換する。ここでの例として、特徴量として周波数変換し
たローカルピークを考えるが、これ以外のどのようなも
のでも良い。それを10m秒程度に1回ずつサンプリン
グしてレジスタに格納しておく、このパターンはそのま
ま標準パターン部7に登録され、同じパターンの冒頭の
一定時間、例えば100m秒程度が加算されて標準パタ
ーン部6に登録される。
第4図は、周波数方向へ8個のサンプルをとったパター
ン例を示し、レジスタに格納されているパターンの冒頭
の部分が第4図(a)である0周波数方向へ8個のサン
プル分、つまり1時間サンプル分のデータを1フレーム
のデータと呼ぶ習慣に従うと、冒頭のlOフレーム分を
加算したパターンが第4図(b)であり、標準パターン
部6に格納されるパターンである。こうして登録すべき
−通りの単語を発声して標準パターンを作成した後認識
に入る。未知の音声が入力されると音声区間検出部で音
の立ち上がりをとらえ、そこから1フレ一ム分のデータ
が入力される毎に加算され、これが10回くり返され、
入力音声の第4図(b)のようなパ°ターンを作る。入
力音声はつづきがとり込まれレジスタに格納されながら
加算パターンと標準パターン6内の各単語の加算パター
ンと照合され類似度が求められる。類似度は市街地距離
で求められても良い。いずれにせよ、入力、標準パター
ン共に1フレームしかないため計算量は極端に少ない、
こうして、類似度がある値以上、又は距離がある値以下
の登録語を選んでおき、入力音声が終了するのを待って
選ばれた単語だけ、標準パターンとレジスタに格納され
た全体のパターンを照合して類似度を求め最大顕像を得
たものを認識結果とする。この時の照合方法は本発明で
は限定しない。これによって最終候補の限定が高速に行
える。又、照合部9では類似度の大きい一定数の登録語
を選んでおいても良い。
第2図は、本発明の他の実施例を示す電気回路図で、図
中、12.13は2ビツト正規化部で、その信書1図と
同様の作用をする部分には第1図の場合と同一の参照番
号が付しである。而して、この実施例は、音声のパター
ンの冒頭の一定時間長のデータを加え合わせて1フレー
ムのパターンにした後、その中のピークが一定になるよ
う正規化し、未知の音声が入力された時、これを特徴パ
ターンに変換して冒頭の標準パターン作成時と同じフレ
ーム数を加え合わせて作成した1フレームのパターンと
上記各標準パターンとの間の類似性を求め、類似性の高
いパターンのみを再照合するようにしたものである。こ
の実施例によると、標準パターン6の容量を減らすこと
ができる。つまり先の例で得た第4図(b)のようなパ
ターンは各要素が1〜10まで値をとり得るが、この実
施例ではこれを2ビツトで表わすようにする。つまり最
大値10が3になるように変換する。ここでは第4図(
b)のパターンのO〜1→0.2〜4今1.5〜7→2
,8〜10→3のように変換した。
その結果が第4図(C)であり、容量は半分程度になる
。なお、第2図に示した実施例では、1フレームの加算
パターン間の距離を求めるため入カバターンにも2ビツ
ト正規化をしているが、両フレーム間の対応要素間の積
をとり、それらの値の会社で表されるような類似度を用
いる場合には入力の正規化は不要である。
第3図は、本発明の他の実施例を示す電気回路図で、図
中、14.15は分類部で、この実施例は、音声パター
ンの冒頭の一定時間長のデータを加え合わせて1フレー
ムのパターンを作成し、そのパターンを何種類かのタイ
プに分類しておき、未知の音声が入力された時、これを
特徴パターンに変換して冒頭の標準パターン作成時と同
じフレーム数を加え合わせてlフレームのパターンにし
同様にパターンのタイプ分類し、同じタイプの標準パタ
ーンのみを再照合するようにしたものである。この実施
例では更に距離や類似度の計算を減らすために冒頭の加
算パターンをいくつかの種類に分類しておき、入力の冒
頭の加算パターンと同じ種類に分類される標準パターン
のみ照合するものである。第4図の例で分類の一例を説
明する。
今、周波数の8個のサンプルを低い方から1〜8チヤン
ネルと呼ぶことにすると、2チャンネル分ずつ4分割し
、どの分割部分の値が最大かによって4種類に分類され
、これによって類似度、距離の演算が不要でしかも照合
すべき標準パターンを限定することができる。
立来 以上の説明から明らかなように、本発明によると音声パ
ターン照合の演算時間を短縮することができ、高速の音
声認識装置を提供することができる。
【図面の簡単な説明】
第1図乃至第3図は、それぞれ本発明の詳細な説明する
ための電気回路図、第4図は、本発明の動作説明をする
ためのパターン例を示す図である。 工・・・マイク、2・・・音声区間検出部、3・・・特
徴量変換部、4・・・レジスタ、5・・・冒頭一定フレ
ーム加算部、6.7・・・標準パターン部、8・・・加
算部、9゜10・・・照合部、11・・・結果出力部、
12.132ビット正規化部、14.15・・・分類部

Claims (3)

    【特許請求の範囲】
  1. (1)、音声のパターンの冒頭の一定時間長のデータを
    加え合わせて1フレームの標準パターンを作成しておき
    、未知の音声が入力された時、これを特徴パターンに変
    換して冒頭の標準パターン作成時と同じフレーム数を加
    え合わせて作成した1フレームのパターンと上記の各標
    準パターン間の類似性を求め、類似性の高いパターンの
    みを再照合することを特徴とする音声パターン照合方式
  2. (2)、音声のパターンの冒頭の一定時間長のデータを
    加え合わせて1フレームのパターンにした後、その中の
    ピークが一定になるように正規化し、未知の音声が入力
    された時、これを特徴パターンに変換して冒頭の標準パ
    ターン作成時と同じフレーム数を加え合わせて作成した
    1フレームのパターンと上記各標準パターンとの間の類
    似性を求め、類似性の高いパターンのみを再照合するこ
    とを特徴とする音声パターン照合方式。
  3. (3)、音声のパターンの冒頭の一定時間長のデータを
    加え合わせて1フレームのパターンを作成し、そのパタ
    ーンを何種類かのタイプに分類しておき、未知の音声が
    入力された時、これを特徴パターンに変換して冒頭の標
    準パターン作成時と同じフレーム数を加え合わせて1フ
    レームのパターンにして同様のパターンのタイプ分類し
    、同じタイプの標準パターンのみを再照合することを特
    徴とする音声パターン照合方式。
JP60094143A 1985-05-01 1985-05-01 音声パタ−ン照合方式 Pending JPS61252594A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP60094143A JPS61252594A (ja) 1985-05-01 1985-05-01 音声パタ−ン照合方式
US06/857,838 US4776017A (en) 1985-05-01 1986-04-30 Dual-step sound pattern matching

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60094143A JPS61252594A (ja) 1985-05-01 1985-05-01 音声パタ−ン照合方式

Publications (1)

Publication Number Publication Date
JPS61252594A true JPS61252594A (ja) 1986-11-10

Family

ID=14102159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60094143A Pending JPS61252594A (ja) 1985-05-01 1985-05-01 音声パタ−ン照合方式

Country Status (2)

Country Link
US (1) US4776017A (ja)
JP (1) JPS61252594A (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5347612A (en) * 1986-07-30 1994-09-13 Ricoh Company, Ltd. Voice recognition system and method involving registered voice patterns formed from superposition of a plurality of other voice patterns
GB2202667B (en) * 1986-07-30 1991-03-27 Ricoh Kk Voice recognition
GB8630118D0 (en) * 1986-12-17 1987-01-28 British Telecomm Speaker identification
US5313531A (en) * 1990-11-05 1994-05-17 International Business Machines Corporation Method and apparatus for speech analysis and speech recognition
US6560349B1 (en) 1994-10-21 2003-05-06 Digimarc Corporation Audio monitoring using steganographic information
US8094949B1 (en) 1994-10-21 2012-01-10 Digimarc Corporation Music methods and systems
US6760463B2 (en) * 1995-05-08 2004-07-06 Digimarc Corporation Watermarking methods and media
US7486799B2 (en) 1995-05-08 2009-02-03 Digimarc Corporation Methods for monitoring audio and images on the internet
US7562392B1 (en) 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US6505160B1 (en) 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US6829368B2 (en) 2000-01-26 2004-12-07 Digimarc Corporation Establishing and interacting with on-line media collections using identifiers in media signals
US5893064A (en) * 1997-05-14 1999-04-06 K2 Interactive Llc Speech recognition method and apparatus with voice commands and associated keystrokes
US7689532B1 (en) 2000-07-20 2010-03-30 Digimarc Corporation Using embedded data with file sharing
US8095796B2 (en) 1999-05-19 2012-01-10 Digimarc Corporation Content identifiers
US7302574B2 (en) 1999-05-19 2007-11-27 Digimarc Corporation Content identifiers triggering corresponding responses through collaborative processing
US8205237B2 (en) 2000-09-14 2012-06-19 Cox Ingemar J Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet
US8010988B2 (en) * 2000-09-14 2011-08-30 Cox Ingemar J Using features extracted from an audio and/or video work to obtain information about the work
AU2002232817A1 (en) 2000-12-21 2002-07-01 Digimarc Corporation Methods, apparatus and programs for generating and utilizing content signatures
US7046819B2 (en) 2001-04-25 2006-05-16 Digimarc Corporation Encoded reference signal for digital watermarks
US20030101052A1 (en) * 2001-10-05 2003-05-29 Chen Lang S. Voice recognition and activation system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3969698A (en) * 1974-10-08 1976-07-13 International Business Machines Corporation Cluster storage apparatus for post processing error correction of a character recognition machine
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
JPS59121100A (ja) * 1982-12-28 1984-07-12 株式会社東芝 連続音声認識装置

Also Published As

Publication number Publication date
US4776017A (en) 1988-10-04

Similar Documents

Publication Publication Date Title
JPS61252594A (ja) 音声パタ−ン照合方式
US6574596B2 (en) Voice recognition rejection scheme
CN111243603A (zh) 声纹识别方法、系统、移动终端及存储介质
JP2002229592A (ja) 音声認識装置
JP3114757B2 (ja) 音声認識装置
JP3523949B2 (ja) 音声認識装置及び音声認識方法
JPH06309443A (ja) 個人認識に指紋と音声を融合させた方式
JPS58159598A (ja) 単音節音声認識方式
JPS6131880B2 (ja)
JP3100208B2 (ja) 音声認識装置
JP2655637B2 (ja) 音声パターン照合方式
JPS63223696A (ja) 音声パタ−ン作成方式
JPS62255999A (ja) 単語音声認識装置
JPH027000A (ja) パターン照合方式
JPH0419700A (ja) 音声パターンマッチング方法
JPS60250400A (ja) 音声認識装置
JPS61256397A (ja) 音声認識装置
JPS58159590A (ja) 単音節音声認識方式
JPS63798B2 (ja)
JPS63173100A (ja) キ−ワ−ド抽出装置
JPS58159600A (ja) 単音節音声認識方式
JPS6265093A (ja) 音声認識装置
JPS61261798A (ja) 音声認識装置
JPH0352085A (ja) 自己組織化ネットワークを用いた話者照合方式
JPS6167899A (ja) 音声認識装置