JPS62235998A - 音節識別方式 - Google Patents

音節識別方式

Info

Publication number
JPS62235998A
JPS62235998A JP61078817A JP7881786A JPS62235998A JP S62235998 A JPS62235998 A JP S62235998A JP 61078817 A JP61078817 A JP 61078817A JP 7881786 A JP7881786 A JP 7881786A JP S62235998 A JPS62235998 A JP S62235998A
Authority
JP
Japan
Prior art keywords
syllable
segment
code
pattern
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61078817A
Other languages
English (en)
Inventor
厚夫 田中
伸 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61078817A priority Critical patent/JPS62235998A/ja
Publication of JPS62235998A publication Critical patent/JPS62235998A/ja
Priority to US07/524,663 priority patent/US5054084A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、入力音声を認識してその内容をたとえばCR
T(陰極線管)などに表示するようにできるいわゆる音
声ワードプロセッサなどに好適に用いられる音節識別方
式に関する。
従来技術 自然な連続音声では、一般的な話癖、文脈、方ご等の影
響により母音及び子音の変形、縮小化、脱落などが生じ
、音声自身に多くの変形が見られる。したがって、連続
音声を認識するにはこれらの変形に対する知識、即ち、
音韻論的変形に関する知識を認識システムに取り入れる
ことが必要である。
発明が解決しようとする問題点 従来の音声認識装置では、仮説や認識結果の候補として
の単語、文節、文章などは音韻的に固定した形で表わさ
れることが多く、シたがって少なくともff額列を正確
に発声しなければ正しい解釈ができないという問題点が
あった。
本発明は、この点を鑑みて考案されたものであり、その
目的は、上述の問題点を解決し、所定のffflli周
辺の音韻論的影響に関する知識を認a装置に搭載し、認
識の際に活用できるようにできる音節識別方式を提供す
ることである。
問題点を解決するための手段 本発明は、入力された音声に特徴付けがなされ、その出
力された音節情報に対して音節の識別を行なう方式であ
って、 入力音声に対応する各音節情報の音ff1Iaおよび時
間間隔がキャラクタ列によって表現されるようにしたこ
とを!徴とする音節識別方式である。
1乍   用 本発明においては、入力された音声に特徴付けがなされ
、その出力された音節情報に対して音節の識別を行なう
にあたりで、入力音声に対応する各音節情報の音ff?
i種および時間間隔がキャラクタ列によって表現される
ようにした。すなわち音節をキャラクタ列形式で表現す
るため、音声現象がとC)え易くなり、また、音節周辺
の音韻論的影響に関する知識を表現し易くなる。また、
着目している音節周辺も含めて照合されるため、候補と
して得られる音節は、その周辺状態から見て妥当な音節
になる。しかも、キャラクタ列表現のため、−盲部パタ
ーン当たりのメモリが小さくなるため、パターン照合の
処理時間の短縮や、より多くの音節パターンの格納が図
れる。またそれだけ多くの音節の変動を知識として活m
できる結果、音声の多くの変動に対する解釈が可能にな
り、性能向上が図れる。
実施例 第1図は本発明の一実施例に従う構成のブロック図であ
る。第1図を参照して、入力音声はマイク1を介して眞
処理部2へ入力される。1前処理部2では、制御部3に
よってケプストラム係数などを用いた特徴付けを行なう
。次に前処J!ll!部2の出力は音節識別部4に入力
され、一旦、音節単位に識別される。音節識別部4から
は、後述される音節ラティスが出力される。一方、この
音節ラティス等を考慮に入れ、辞書記憶部5を参照して
、辞書記憶部5の項目中の各3節毎に各音節に対応する
仮説が仮説発生部6から発生される。
前記得られた音節列仮工は、仮説修正部7で元の音節列
仮説から所定の規則に基づいて修正される。仮説検証部
8では、この修正された仮説音節列の有無を音節ラティ
ス上で確認しながら、その音節仮説の後述するスコアを
求めていき、仮説音節列全体としてのスコアを計算する
ことによってVi説検証する。認識のtり定は、各仮説
音節列のスコアを用いて判定部9で行なわれる。
本実施例において、入力音声は、一旦、後述するように
音韻的に特徴付けられたセグメントの時系列に変換され
る。音節ラティスはキャラクタ列から成る記述的な音節
パターンとのマツチング過程の結果、作成される。本発
明は、第1図の二重線で囲まれた音節識別部4、即ち、
音節ラティスを作成する処理に関するものである。たと
えば、元の辞書項目等がら書替え規則に基づいてさらに
生成された仮説音節列は、本発明の処理で得られた音節
ラティス′上でその有無を確認されながら対応f・1け
られ、その仮説音節列のスコアを計算針ることにより評
価される。認識の判定は各音節f規板のスコアを用いて
イ〒われる。以下に、第1図に示す構成要素について詳
述する。
■前処理部2 前処理部2では、マイク等から入力された音声信号は、
用いる周波数帯域に応じて帯域制限され(′タトえば8
KHz以下をカント)、サンプリングされてアナログ/
デンタル(A/D)変換される(たとえば、16KHz
で12ビツトに量子化される)。
その後、適当な時17r1間隔(フレーム)を置いて(
たとえば、4−4−2O毎)、1010−4O程度の時
間窓内で分析されて特徴イ・1けされる。
分析の手法としては、たとえば各種のパラメータの分布
を用いるもの、線形予測分析、ケプストラム分析、ホル
マント情報を用いるものなど種々のらのが考えられる。
その1.y機付けの方法としては、一旦、10種類の無
音、バズバー、・鼻音、母音、弱い摩擦音、摩擦音、強
い摩擦音、有声摩擦音、強い有声摩擦音に粗く特徴付け
し、その後、予め登録されている音素標準パターンとの
重工7レーム阜位のパターンマツチングにより、更にび
素記号によりt、y m付けすることが出来る。
ここでは、以下の18桟類の記号に特徴付けするものと
する。上記の粗い特徴付けで得られた無音(記号「、」
で表す)と、バズバー (記号rBJで表す)の記号と
、16種類の音素記号である。16種類の記号は音素標
準パターンとのマツチングにより得うレルもノテ、A、
I 、U、E、O,S、F、C。
H,に、N、M、R,X、Z、Jがらなっている。A、
■。
U、[E、O,S、F、C,H,に、N、M、R,Z、
Jは記号の意味通りであり、Xははつ音/N/、Fは/
s11/、Cは母音部に/i/  またはよう音を持つ
場合の/11/、/に/を表わしている。1を素標準パ
ターンは予め、たとえば既知音声の音素に該当する部分
からの抽出によって作成される。この結果得られた記号
系列に対して、スムーノングが施される場合も考えられ
る。
入力音声は適当な長さ (20〜100IIls程度の
時間長)に分割(セグメント化)される、第2図(1)
に入力音声から得られるセグメント11..112゜・
・・、11.(必要な場合には参照符11で示す)の系
列12の例を示す。入力音節に関する前記フレーム10
には、12図(1)の入力記号(本実施例ではrZJ汀
U」および「○」)がそれぞれ設定される。
セグメント化は、たとえば、記号変化の池、パワ一時間
変化その池の特徴量の時間変化を併用してもよい。この
例の場合、7フレーム以上同じ記号のフレームが続くと
、その近傍でセグメン)M列12の分割の境界を設ける
ようにしている。このようにして、記号により特徴イ・
1けされたセグメント系列12が得られる。
以下に、本実施例の音声識別処理について説明する。音
声識別は入力音声から得られた前記セグメント系列12
と、後述される音節パターンとのマツチングにより行な
われる。音節パターンはキャラクタ列などの記述的な形
で表現される。たとえば、「ア」汀か」、「き」に関す
るいくつかの音節パターンは下記の11表のように表現
される。
第  1  表 音節表記の後の数字(信頼度係数、以下、Sで表わす)
は、パターンの信頼度に関係しており、この値が小さく
なる程、ペナルティの付加は小さくなる。音素記号の後
の数字はセグメントの持続時間に対応している。「1」
は2〜3フレームを、[2」は4〜Gフレームを、「3
」は7〜10フレームを、「4」は11〜15フレーム
をそれぞれ示しており、rnJは、たとえば(n2+n
+2 ]/ 2−  (n”+3n+2)/27レーム
を示す。。
たとえば、[U24Jは音素記号がrUJでその持続時
間が「2」〜r4J(4〜157レーム)のものである
。「@」はどのような音素記号でもよいことを示し。「
京」はゼロ7レーム、即ちセグメント11が脱落するこ
とら許されることを示している。丸括弧は音節セグメン
トの境界を示している。即ち、記号「(」は音節始端を
、記号「)」は音節終端をそれぞれ表わしている。音節
パターン内の[」(スペース)はセグメント11を分け
るセグメント分離記号に相当している。
例(1)は次のようなセグメント列を示している。
即ち、7〜28フレームの音素記号Zのセグメント11
1〜11.の後にO〜3フレームのセグメントがあり、
その後に7〜28フレームの記号Uのセグメント11.
〜117が続くセグメント系列12を示している。無声
化の例が例(3)である0例(4)はrOJまたはrU
Jの有意なセグメントの挿入が母音f’OJが先行した
場合の「か」に起こる例を示している。無声化によるC
VCからCCへの変形を例(5)に示す。
入力セグメント系列12と音節パターンとの照合は、音
節パターンの各セグメント11を順に入力音声から得ら
れたセグメント系列12と照合することによって実行さ
れる。その方法を第2図(2)を参照して説明する。今
、第2図(1)に示す入力セグメント系列12と、第1
表例(1)のZUに関する音節パターンとの照合につい
て説明する。
まず、音節の始端記号「(」があるので、照合を開始す
る第1セグメント111が音節始端セグメントとなる。
「736」のセグメント系列は7フレームから28フレ
ームまでの時間的な幅を持っているので、入力セグメン
ト系列12の第1とfJS2のセグメント11□ 11
2を合わせたセグメント、及びmlとfJS2と第3の
セグメント11..112,11.を合わせたセグメン
トに対して整合する。しかし、第4セグメント114ま
で幅を広げると、音素記号Uが表われ第2図(2)に示
すように不整合になる。その結果、セグメント「236
」の終端候補は、@2図(3)に示す2笥所の二重M 
、i’ 1 + 、t’ 2の位置になる。
次に、セグメント「0京1」との照合は、それまでに整
合されたセグメン)rZ36Jの終端候補から始まる。
即ち、前のセグメントの終端候補は次のセグメントの始
端候補になる。「0本1」に対して2通りの始端候?l
l’1.ノ2があるので、第2図(4)〜第2図(6)
に示すように、それぞれについて照合する。このように
、セグメント1−U56Jに関しても、12図(7)、
fpJ2図(8)に示すように照合を行なった結果、I
r52図(9)に示すように3箇所の終端候補ノ3.ノ
ー1.ノ5が得られる。
犬に音節境界を示す記号[月があるのでこれら3箇所の
終端候補J!31)4,15を音節境界候補とする。音
節パターンには更に照合すべさセグメントがないので、
音節Z U 1m対する音節パターンとの照合は成功し
、第2図(10)に示すように音節部として、(第1セ
グメント11.〜第5セグメント1ls)、li上セグ
メント11〜第6セグメント116)、(第1セグメン
ト111〜lQ7セグメント11.)の3つの候補13
,14.15が得られる。
上記のセグメン)1列12と音節パターンとの照合を、
各セグメント毎に行なう。各音節候補13〜15はその
スコアと出現位置を情報として持っているので、各々の
結果を集めると音節ラティスが得られる。前記マツチン
グのスコアDは(i傾度係数Sの関数で表わされるが、
たとえば、Fを背型係数として簡単に、 D=FXS            ・・・(1)で表
わすことも出来る。
以下、本実施例において用いられる音節部について説明
する。取+)扱う音節のm類として、たとえば111種
類の日本語音節が考えられる。68音節はCV、JV、
V  (Cは子音、Jはよう音、■は母音を表わす)型
のものとはつ音とからなっている。33種類のCJV型
の音節が有り、先と合わせて101種類の茸からの日本
語音節をRJlしている。外来語で用いられる音節の比
較的頻度の高いもの10種類の音節も含めて、計111
種頭としている。
■音節識別部4 音節識別部4の一実施例を第3図に示す、第1図−r:
tS3図を参照して、音節識別部4は曲処理部2で得ら
れたセグメント系列12を保持するセグ//)1列バッ
フ71G、制御731S3のコントロールにより音節パ
ターンメモリ17から読み出した音節パターンを保持す
る音節パターンバッフ718、セグメント系列12と音
節パターンとを照合する音節パターン照合部19と、照
合した結果をM積して保持する音節ラティスバッフF2
0及び音節パターンを格納する前記メモリ17 h−C
>なっている。上記の音節パターン照合過程を、以下の
第・を図の処理70−で示す。
第1図〜第4図を♂照して、ステップn 1で訪処理部
2から読み込まれるセグメント系列12は、コード列(
S 1t(i= 1 、2、− L s:L aはセグ
メント系列を11η成するフードの総数)から成り、各
コードSi は、萌述したセグメント11のコード、セ
グメント分離記号、セグメン)M列終端コードなどであ
る。音節パターンメモリ17がら読み込まれる各音節パ
ターンは、コード列ICJl(J= 1.2 +・・・
L e:L cは音節パターンを構成するコードの総数
)からなり、各コードCjは、セグメントのフード、音
節始端コード(記号「(」に相当)、音節終端コード(
記号「)」に相当)、セグメント分離記号(記号「(ス
ペース)」に相当)、音節パターン終端コード及びtf
mパターンメモリ終了コードなどである。
マタ、セグメント系列12内の各セグメントコードは、
セグメント11を特徴付ける記号(第4図中、「s」で
表わす)、あるいはセグメント11のフレーム長(第4
図中、「)」で表わす)であり、音節パターン内のセグ
メント系列には、セグメント11を特徴付ける記号(第
4図中、rcJで表わす)、セグメントの許容雇小フレ
ーム長(第4図中、rnJで表わす )、あるいはセグ
メント11の許容最大フレーム長(第4図中、「10」
で表わす」である。
ステップ112  において、照合開始セグメントが更
新され、ステップ:13  において、たとえばPt5
2図(1)図示のセグメン)111〜11.から成るセ
グメント系列が表わすコードS1がセグメント系列終端
コードであれば、処理は終了する。前記ステップ113
において、フードSlがセグメント系列終端コードでな
ければステップ【14  に移り、音節パターンメモリ
17から”JffIiパターンバッフ718への音節パ
ターンfc jlの読み込み史話が行なわれる。
ステ、プ115  では、重犯音節パターンコード列I
c jlにおいて、コードCIが音節パターンメモリ終
了コードであることが検出されると、処理はステノブ1
12;二戻る。ステップ1151こおいて、コードC1
が音節パターンメモリ終了コードでなければ、処理はス
テップ116に移り、音節パターンバッファ18からパ
ターン照合部19へのフード列 (Cjlの読込み更新
が行なわれる。
ステップ117において、コードCjが前記セグメント
分離コードであって、かつセグメント終端候補(第2図
の候補J!1〜I Sなど)が設定登ff1Jされてい
なければ、当該セグメントの照合が失敗したことになり
、処理はステップn4  に戻る。コードCjがステッ
プn 7において、ステップn4  に戻る条件を満た
していなければ、処理はステップn8に移りコードCj
が前記セグメント分離フードであって、かつ前記セグメ
ント終端候補が設定登録されていれば、処理はステップ
n 4に戻る。
照合結果は音節パターンの属する音節番号、その信頼度
係数、音節候補の始端セグメント番号、終端セグメント
番号の群になっている。照合結果は、ステップn4の段
階でクリアされる。したがって、音節パターンの照合終
了時に音節候補・の終端セグメント番号が登Qされてい
なければ(ステップ【17)、照合が失敗したことにな
る。
ステップ118において、フードCjがステップ+14
に戻る条件を満たしていなければ処理はステップ119
に移り、コードCjがrtfJ記音節始端コードであれ
ぼ、当該フードCjが属する音節始端セグメント番号を
保持し、ステップ114  に戻る。ステップn 9に
おいて、コードCjが前記音節始端フードでな(すれば
、ステップn101こおいてコードCjが前記音節終端
コードであるかどうかの判断を行ない、1!i゛定なら
ば当該コードCjlJ/属する音節終端候補セグメント
番号を保持しステップn6に戻る。
ステップnloにおいて、コードCjが音節終端コード
でな(すれば、ステップn1llこおいてコードCjが
音節パターン終端コードであって、音節終端候補セグメ
ント番号が保持されていれば、パターンの照合は成功し
たことになり、照合結果を音節ラティスバッファ20に
転送し、処理はステップ114に戻る。
フードCjがステップ1111におけるステ2プn4に
戻る条1′1−を満たしていなければ、処理はステップ
n12に移り、コードCjが音節パターン終端コードで
あり、かつ音節終端候補セグメント番号が保持されてい
なければ、照合は失敗したことになり処理はステップn
4に戻る。ステップn12においてコードCjがステッ
プn4に戻る条件を満たしていなければ、処理はステッ
プ103 に移りセグメント終端候補の次のセグメント
をセグメント照合開始セグメントとする6次にステップ
1114において、照合セグメン) (S i、セグメ
ントコード(S 、7>)の更新を行なう。
また、セグメント照合の段階で、ステップn13〜11
14  でセグメント照合が失敗すれば、照合結果には
セグメント終端候補が登録されないままになるため、一
つのセグメント照合終了時にはセグメント終端候補が登
録されていなければ、セグメント照合失敗を意味する。
前記ステップn14  において、照会セグメントの更
新が行なわれるとステップ1115  に移り、コード
Cjがセグメントコード(C,11,01)であって、
前記コード要素Cが第1表の記号「@」、および前記コ
ード要素Sと不一致ならば処理はステップn6に戻る。
ステップ1115  においてフードCjステップ11
Gに戻る条件を満たしていないならば、処理はステンブ
1116に移り前記コード要素n、IIIに関して、n
<Jg<ua               ・・・(
2)が成立するならば、セグメント終端候補 (第2図
の終端候補!1,72 ;)3〜ノ5など)を更新し、
ステップ蔦113に戻る。
ステップ1116 において、前記PA2式が成立しな
いならば、処理はステップ+117  に移り前記コー
ド要素、e+lIlにおいて、 l>l                  ・・・(
3)が成立するならば、処理はステップ口6 に戻る。
第3式の条件が成立しないならば、ステップ118で処
理はステップn14に戻る。
この第4図の場合、入力音声から得られたセグメント系
列12の各々のセグメント11にお−1で、それぞれを
開始セグメントとして、順に全ての音節パターンとの照
合を行なっている。即ち、各開始セグメントに対して音
節パターンメモリ17の全ての音節パターンと照合しく
第4図ステップn5)、開始セグメントを移動して(即
ち処理ステップn2 )、更に音節パターンメモリ17
の全ての音節パターンとの照合をするという処理を続け
る場合に相当している。したがって、あるセグメント系
列12に対して全ての処理が終了するのは、fi4図の
ステップn3  において、セグメント系列12内の全
てのセグメント11を開始セグメントとしての音節パタ
ーン照合が終了する時である。
効  果 以上のように本発明に従えば、入力された音声に特徴1
・tけがなされ、その出力された音節情報に対して音節
の識別を打なうにあたって、入力音声に対応する各音節
情報の音節様および時間間隔がキャラクタ列によって表
現されるようにした。すなわち音節をキャラクタ列形式
で表現するため、音声現象がとらえ易くなり、また、音
節周辺の音韻論的影響に関する知識を表現し易くなる。
また、着目している音節周辺も含めて照合されるため、
候補として得られる音節は、その周辺状態から見て妥当
な音節になる。しかも、キャラクタ列表現のため、−a
mパターン当たりのメモリがノドさくなるため、パター
ン照合の処理時間の短縮や、より多くの音節パターンの
格納が図れる。またそれだけ多くの音節の′V&勅を知
識として活用できる結果、音声の多くの変動に対する解
釈が可能になり、性能向上が図れる。
【図面の簡単な説明】
第1図は本発明の一実施例に従う音声v!PR装置の基
本的構成を示すブロック図、第2図は本実施例に従う入
力音節の照合動作を説明する図、pt43図は音ff1
in別部4の構成を示すブロック図、第4図は本実施例
の入力音節の照合動作を示す70−チャートである。 2・・・萌処J!!!部、・1・・・音@:Jt別部、
5・・・辞書記憶部、10・・・フレーム、11・・・
セグメント、12・・・セグメント系列、13〜15・
・・音節候補、16・・・セグメント系列バッファ、1
7・・・音節パターンメモリ、18・・・音節パターン
バッファ、1つ・・・音節パターン照合部、20・・・
音節ラティスパン7ア代理人  弁理士 画数 圭一部 手続補正書(方式) 昭和61年 6月27日 特願昭61−78817 2、発明の名称 音ffl!識別方式 3、補正をする者 事件との関係  出願人 住所 大阪市阿倍野区艮池町22番22号国装置EX 
0525−59135  INTAPT  J国際FA
X GIU&GI[(06)538−0247昭和61
年 6月24日(発送日) 6、補正の対象 図  面 7、補正の内容 図面の浄書(内容に変更なし)。 以  上

Claims (1)

  1. 【特許請求の範囲】 入力された音声に特徴付けがなされ、その出力された音
    節情報に対して音節の識別を行なう方式であつて、 入力音声に対応する各音節情報の音節種および時間間隔
    がキャラクタ列によって表現されるようにしたことを特
    徴とする音節識別方式。
JP61078817A 1986-04-05 1986-04-05 音節識別方式 Pending JPS62235998A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP61078817A JPS62235998A (ja) 1986-04-05 1986-04-05 音節識別方式
US07/524,663 US5054084A (en) 1986-04-05 1990-05-15 Syllable recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61078817A JPS62235998A (ja) 1986-04-05 1986-04-05 音節識別方式

Publications (1)

Publication Number Publication Date
JPS62235998A true JPS62235998A (ja) 1987-10-16

Family

ID=13672392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61078817A Pending JPS62235998A (ja) 1986-04-05 1986-04-05 音節識別方式

Country Status (2)

Country Link
US (1) US5054084A (ja)
JP (1) JPS62235998A (ja)

Families Citing this family (114)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
US5706398A (en) * 1995-05-03 1998-01-06 Assefa; Eskinder Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds
FR2748343B1 (fr) * 1996-05-03 1998-07-24 Univ Paris Curie Procede de reconnaissance vocale d'un locuteur mettant en oeuvre un modele predictif, notamment pour des applications de controle d'acces
US6233557B1 (en) * 1999-02-23 2001-05-15 Motorola, Inc. Method of selectively assigning a penalty to a probability associated with a voice recognition system
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
EP1565906A1 (en) * 2002-11-22 2005-08-24 Koninklijke Philips Electronics N.V. Speech recognition device and method
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60254199A (ja) * 1984-05-31 1985-12-14 富士通株式会社 音声マツチング演算方式

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5842098A (ja) * 1981-09-04 1983-03-11 電子計算機基本技術研究組合 音声認識装置
JPS5855995A (ja) * 1981-09-29 1983-04-02 富士通株式会社 音声認識システム
JPS5972496A (ja) * 1982-10-19 1984-04-24 株式会社東芝 単音識別装置
JPH067357B2 (ja) * 1982-10-19 1994-01-26 シャープ株式会社 音声認識装置
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
US4665548A (en) * 1983-10-07 1987-05-12 American Telephone And Telegraph Company At&T Bell Laboratories Speech analysis syllabic segmenter
US4799261A (en) * 1983-11-03 1989-01-17 Texas Instruments Incorporated Low data rate speech encoding employing syllable duration patterns

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60254199A (ja) * 1984-05-31 1985-12-14 富士通株式会社 音声マツチング演算方式

Also Published As

Publication number Publication date
US5054084A (en) 1991-10-01

Similar Documents

Publication Publication Date Title
JPS62235998A (ja) 音節識別方式
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
Lee et al. Spoken language resources for Cantonese speech processing
US8126714B2 (en) Voice search device
EP2462586B1 (en) A method of speech synthesis
KR20010096490A (ko) 이동통신을 위한 철자 음성인식장치 및 방법
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
Al-Bakeri et al. ASR for Tajweed rules: integrated with self-learning environments
JP3378547B2 (ja) 音声認識方法及び装置
JP6631186B2 (ja) 音声作成装置、方法、及びプログラム、音声データベース作成装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JPH09114482A (ja) 音声認識のための話者適応化方法
JP3277522B2 (ja) 音声認識方法
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Skinner et al. A speech recognition system for connected word sequences
JP2862306B2 (ja) 音声認識装置
JP2005534968A (ja) 漢字語の読みの決定
JPS62235990A (ja) 音声認識方式
JPH0619497A (ja) 音声認識方法
JPH08171396A (ja) 音声認識装置
JPH0827638B2 (ja) 音素を単位とした音声認識装置
Tian et al. Modular design for Mandarin text-to-speech synthesis
JPH0632021B2 (ja) 日本語音声認識装置
JPS6180298A (ja) 音声認識装置