JPS62235998A - 音節識別方式 - Google Patents
音節識別方式Info
- Publication number
- JPS62235998A JPS62235998A JP61078817A JP7881786A JPS62235998A JP S62235998 A JPS62235998 A JP S62235998A JP 61078817 A JP61078817 A JP 61078817A JP 7881786 A JP7881786 A JP 7881786A JP S62235998 A JPS62235998 A JP S62235998A
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- segment
- code
- pattern
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000000926 separation method Methods 0.000 description 5
- 235000013305 food Nutrition 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 229910052799 carbon Inorganic materials 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 229910052731 fluorine Inorganic materials 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 229910052717 sulfur Inorganic materials 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 1
- 101100127891 Caenorhabditis elegans let-4 gene Proteins 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 241000201776 Steno Species 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、入力音声を認識してその内容をたとえばCR
T(陰極線管)などに表示するようにできるいわゆる音
声ワードプロセッサなどに好適に用いられる音節識別方
式に関する。
T(陰極線管)などに表示するようにできるいわゆる音
声ワードプロセッサなどに好適に用いられる音節識別方
式に関する。
従来技術
自然な連続音声では、一般的な話癖、文脈、方ご等の影
響により母音及び子音の変形、縮小化、脱落などが生じ
、音声自身に多くの変形が見られる。したがって、連続
音声を認識するにはこれらの変形に対する知識、即ち、
音韻論的変形に関する知識を認識システムに取り入れる
ことが必要である。
響により母音及び子音の変形、縮小化、脱落などが生じ
、音声自身に多くの変形が見られる。したがって、連続
音声を認識するにはこれらの変形に対する知識、即ち、
音韻論的変形に関する知識を認識システムに取り入れる
ことが必要である。
発明が解決しようとする問題点
従来の音声認識装置では、仮説や認識結果の候補として
の単語、文節、文章などは音韻的に固定した形で表わさ
れることが多く、シたがって少なくともff額列を正確
に発声しなければ正しい解釈ができないという問題点が
あった。
の単語、文節、文章などは音韻的に固定した形で表わさ
れることが多く、シたがって少なくともff額列を正確
に発声しなければ正しい解釈ができないという問題点が
あった。
本発明は、この点を鑑みて考案されたものであり、その
目的は、上述の問題点を解決し、所定のffflli周
辺の音韻論的影響に関する知識を認a装置に搭載し、認
識の際に活用できるようにできる音節識別方式を提供す
ることである。
目的は、上述の問題点を解決し、所定のffflli周
辺の音韻論的影響に関する知識を認a装置に搭載し、認
識の際に活用できるようにできる音節識別方式を提供す
ることである。
問題点を解決するための手段
本発明は、入力された音声に特徴付けがなされ、その出
力された音節情報に対して音節の識別を行なう方式であ
って、 入力音声に対応する各音節情報の音ff1Iaおよび時
間間隔がキャラクタ列によって表現されるようにしたこ
とを!徴とする音節識別方式である。
力された音節情報に対して音節の識別を行なう方式であ
って、 入力音声に対応する各音節情報の音ff1Iaおよび時
間間隔がキャラクタ列によって表現されるようにしたこ
とを!徴とする音節識別方式である。
1乍 用
本発明においては、入力された音声に特徴付けがなされ
、その出力された音節情報に対して音節の識別を行なう
にあたりで、入力音声に対応する各音節情報の音ff?
i種および時間間隔がキャラクタ列によって表現される
ようにした。すなわち音節をキャラクタ列形式で表現す
るため、音声現象がとC)え易くなり、また、音節周辺
の音韻論的影響に関する知識を表現し易くなる。また、
着目している音節周辺も含めて照合されるため、候補と
して得られる音節は、その周辺状態から見て妥当な音節
になる。しかも、キャラクタ列表現のため、−盲部パタ
ーン当たりのメモリが小さくなるため、パターン照合の
処理時間の短縮や、より多くの音節パターンの格納が図
れる。またそれだけ多くの音節の変動を知識として活m
できる結果、音声の多くの変動に対する解釈が可能にな
り、性能向上が図れる。
、その出力された音節情報に対して音節の識別を行なう
にあたりで、入力音声に対応する各音節情報の音ff?
i種および時間間隔がキャラクタ列によって表現される
ようにした。すなわち音節をキャラクタ列形式で表現す
るため、音声現象がとC)え易くなり、また、音節周辺
の音韻論的影響に関する知識を表現し易くなる。また、
着目している音節周辺も含めて照合されるため、候補と
して得られる音節は、その周辺状態から見て妥当な音節
になる。しかも、キャラクタ列表現のため、−盲部パタ
ーン当たりのメモリが小さくなるため、パターン照合の
処理時間の短縮や、より多くの音節パターンの格納が図
れる。またそれだけ多くの音節の変動を知識として活m
できる結果、音声の多くの変動に対する解釈が可能にな
り、性能向上が図れる。
実施例
第1図は本発明の一実施例に従う構成のブロック図であ
る。第1図を参照して、入力音声はマイク1を介して眞
処理部2へ入力される。1前処理部2では、制御部3に
よってケプストラム係数などを用いた特徴付けを行なう
。次に前処J!ll!部2の出力は音節識別部4に入力
され、一旦、音節単位に識別される。音節識別部4から
は、後述される音節ラティスが出力される。一方、この
音節ラティス等を考慮に入れ、辞書記憶部5を参照して
、辞書記憶部5の項目中の各3節毎に各音節に対応する
仮説が仮説発生部6から発生される。
る。第1図を参照して、入力音声はマイク1を介して眞
処理部2へ入力される。1前処理部2では、制御部3に
よってケプストラム係数などを用いた特徴付けを行なう
。次に前処J!ll!部2の出力は音節識別部4に入力
され、一旦、音節単位に識別される。音節識別部4から
は、後述される音節ラティスが出力される。一方、この
音節ラティス等を考慮に入れ、辞書記憶部5を参照して
、辞書記憶部5の項目中の各3節毎に各音節に対応する
仮説が仮説発生部6から発生される。
前記得られた音節列仮工は、仮説修正部7で元の音節列
仮説から所定の規則に基づいて修正される。仮説検証部
8では、この修正された仮説音節列の有無を音節ラティ
ス上で確認しながら、その音節仮説の後述するスコアを
求めていき、仮説音節列全体としてのスコアを計算する
ことによってVi説検証する。認識のtり定は、各仮説
音節列のスコアを用いて判定部9で行なわれる。
仮説から所定の規則に基づいて修正される。仮説検証部
8では、この修正された仮説音節列の有無を音節ラティ
ス上で確認しながら、その音節仮説の後述するスコアを
求めていき、仮説音節列全体としてのスコアを計算する
ことによってVi説検証する。認識のtり定は、各仮説
音節列のスコアを用いて判定部9で行なわれる。
本実施例において、入力音声は、一旦、後述するように
音韻的に特徴付けられたセグメントの時系列に変換され
る。音節ラティスはキャラクタ列から成る記述的な音節
パターンとのマツチング過程の結果、作成される。本発
明は、第1図の二重線で囲まれた音節識別部4、即ち、
音節ラティスを作成する処理に関するものである。たと
えば、元の辞書項目等がら書替え規則に基づいてさらに
生成された仮説音節列は、本発明の処理で得られた音節
ラティス′上でその有無を確認されながら対応f・1け
られ、その仮説音節列のスコアを計算針ることにより評
価される。認識の判定は各音節f規板のスコアを用いて
イ〒われる。以下に、第1図に示す構成要素について詳
述する。
音韻的に特徴付けられたセグメントの時系列に変換され
る。音節ラティスはキャラクタ列から成る記述的な音節
パターンとのマツチング過程の結果、作成される。本発
明は、第1図の二重線で囲まれた音節識別部4、即ち、
音節ラティスを作成する処理に関するものである。たと
えば、元の辞書項目等がら書替え規則に基づいてさらに
生成された仮説音節列は、本発明の処理で得られた音節
ラティス′上でその有無を確認されながら対応f・1け
られ、その仮説音節列のスコアを計算針ることにより評
価される。認識の判定は各音節f規板のスコアを用いて
イ〒われる。以下に、第1図に示す構成要素について詳
述する。
■前処理部2
前処理部2では、マイク等から入力された音声信号は、
用いる周波数帯域に応じて帯域制限され(′タトえば8
KHz以下をカント)、サンプリングされてアナログ/
デンタル(A/D)変換される(たとえば、16KHz
で12ビツトに量子化される)。
用いる周波数帯域に応じて帯域制限され(′タトえば8
KHz以下をカント)、サンプリングされてアナログ/
デンタル(A/D)変換される(たとえば、16KHz
で12ビツトに量子化される)。
その後、適当な時17r1間隔(フレーム)を置いて(
たとえば、4−4−2O毎)、1010−4O程度の時
間窓内で分析されて特徴イ・1けされる。
たとえば、4−4−2O毎)、1010−4O程度の時
間窓内で分析されて特徴イ・1けされる。
分析の手法としては、たとえば各種のパラメータの分布
を用いるもの、線形予測分析、ケプストラム分析、ホル
マント情報を用いるものなど種々のらのが考えられる。
を用いるもの、線形予測分析、ケプストラム分析、ホル
マント情報を用いるものなど種々のらのが考えられる。
その1.y機付けの方法としては、一旦、10種類の無
音、バズバー、・鼻音、母音、弱い摩擦音、摩擦音、強
い摩擦音、有声摩擦音、強い有声摩擦音に粗く特徴付け
し、その後、予め登録されている音素標準パターンとの
重工7レーム阜位のパターンマツチングにより、更にび
素記号によりt、y m付けすることが出来る。
音、バズバー、・鼻音、母音、弱い摩擦音、摩擦音、強
い摩擦音、有声摩擦音、強い有声摩擦音に粗く特徴付け
し、その後、予め登録されている音素標準パターンとの
重工7レーム阜位のパターンマツチングにより、更にび
素記号によりt、y m付けすることが出来る。
ここでは、以下の18桟類の記号に特徴付けするものと
する。上記の粗い特徴付けで得られた無音(記号「、」
で表す)と、バズバー (記号rBJで表す)の記号と
、16種類の音素記号である。16種類の記号は音素標
準パターンとのマツチングにより得うレルもノテ、A、
I 、U、E、O,S、F、C。
する。上記の粗い特徴付けで得られた無音(記号「、」
で表す)と、バズバー (記号rBJで表す)の記号と
、16種類の音素記号である。16種類の記号は音素標
準パターンとのマツチングにより得うレルもノテ、A、
I 、U、E、O,S、F、C。
H,に、N、M、R,X、Z、Jがらなっている。A、
■。
■。
U、[E、O,S、F、C,H,に、N、M、R,Z、
Jは記号の意味通りであり、Xははつ音/N/、Fは/
s11/、Cは母音部に/i/ またはよう音を持つ
場合の/11/、/に/を表わしている。1を素標準パ
ターンは予め、たとえば既知音声の音素に該当する部分
からの抽出によって作成される。この結果得られた記号
系列に対して、スムーノングが施される場合も考えられ
る。
Jは記号の意味通りであり、Xははつ音/N/、Fは/
s11/、Cは母音部に/i/ またはよう音を持つ
場合の/11/、/に/を表わしている。1を素標準パ
ターンは予め、たとえば既知音声の音素に該当する部分
からの抽出によって作成される。この結果得られた記号
系列に対して、スムーノングが施される場合も考えられ
る。
入力音声は適当な長さ (20〜100IIls程度の
時間長)に分割(セグメント化)される、第2図(1)
に入力音声から得られるセグメント11..112゜・
・・、11.(必要な場合には参照符11で示す)の系
列12の例を示す。入力音節に関する前記フレーム10
には、12図(1)の入力記号(本実施例ではrZJ汀
U」および「○」)がそれぞれ設定される。
時間長)に分割(セグメント化)される、第2図(1)
に入力音声から得られるセグメント11..112゜・
・・、11.(必要な場合には参照符11で示す)の系
列12の例を示す。入力音節に関する前記フレーム10
には、12図(1)の入力記号(本実施例ではrZJ汀
U」および「○」)がそれぞれ設定される。
セグメント化は、たとえば、記号変化の池、パワ一時間
変化その池の特徴量の時間変化を併用してもよい。この
例の場合、7フレーム以上同じ記号のフレームが続くと
、その近傍でセグメン)M列12の分割の境界を設ける
ようにしている。このようにして、記号により特徴イ・
1けされたセグメント系列12が得られる。
変化その池の特徴量の時間変化を併用してもよい。この
例の場合、7フレーム以上同じ記号のフレームが続くと
、その近傍でセグメン)M列12の分割の境界を設ける
ようにしている。このようにして、記号により特徴イ・
1けされたセグメント系列12が得られる。
以下に、本実施例の音声識別処理について説明する。音
声識別は入力音声から得られた前記セグメント系列12
と、後述される音節パターンとのマツチングにより行な
われる。音節パターンはキャラクタ列などの記述的な形
で表現される。たとえば、「ア」汀か」、「き」に関す
るいくつかの音節パターンは下記の11表のように表現
される。
声識別は入力音声から得られた前記セグメント系列12
と、後述される音節パターンとのマツチングにより行な
われる。音節パターンはキャラクタ列などの記述的な形
で表現される。たとえば、「ア」汀か」、「き」に関す
るいくつかの音節パターンは下記の11表のように表現
される。
第 1 表
音節表記の後の数字(信頼度係数、以下、Sで表わす)
は、パターンの信頼度に関係しており、この値が小さく
なる程、ペナルティの付加は小さくなる。音素記号の後
の数字はセグメントの持続時間に対応している。「1」
は2〜3フレームを、[2」は4〜Gフレームを、「3
」は7〜10フレームを、「4」は11〜15フレーム
をそれぞれ示しており、rnJは、たとえば(n2+n
+2 ]/ 2− (n”+3n+2)/27レーム
を示す。。
は、パターンの信頼度に関係しており、この値が小さく
なる程、ペナルティの付加は小さくなる。音素記号の後
の数字はセグメントの持続時間に対応している。「1」
は2〜3フレームを、[2」は4〜Gフレームを、「3
」は7〜10フレームを、「4」は11〜15フレーム
をそれぞれ示しており、rnJは、たとえば(n2+n
+2 ]/ 2− (n”+3n+2)/27レーム
を示す。。
たとえば、[U24Jは音素記号がrUJでその持続時
間が「2」〜r4J(4〜157レーム)のものである
。「@」はどのような音素記号でもよいことを示し。「
京」はゼロ7レーム、即ちセグメント11が脱落するこ
とら許されることを示している。丸括弧は音節セグメン
トの境界を示している。即ち、記号「(」は音節始端を
、記号「)」は音節終端をそれぞれ表わしている。音節
パターン内の[」(スペース)はセグメント11を分け
るセグメント分離記号に相当している。
間が「2」〜r4J(4〜157レーム)のものである
。「@」はどのような音素記号でもよいことを示し。「
京」はゼロ7レーム、即ちセグメント11が脱落するこ
とら許されることを示している。丸括弧は音節セグメン
トの境界を示している。即ち、記号「(」は音節始端を
、記号「)」は音節終端をそれぞれ表わしている。音節
パターン内の[」(スペース)はセグメント11を分け
るセグメント分離記号に相当している。
例(1)は次のようなセグメント列を示している。
即ち、7〜28フレームの音素記号Zのセグメント11
1〜11.の後にO〜3フレームのセグメントがあり、
その後に7〜28フレームの記号Uのセグメント11.
〜117が続くセグメント系列12を示している。無声
化の例が例(3)である0例(4)はrOJまたはrU
Jの有意なセグメントの挿入が母音f’OJが先行した
場合の「か」に起こる例を示している。無声化によるC
VCからCCへの変形を例(5)に示す。
1〜11.の後にO〜3フレームのセグメントがあり、
その後に7〜28フレームの記号Uのセグメント11.
〜117が続くセグメント系列12を示している。無声
化の例が例(3)である0例(4)はrOJまたはrU
Jの有意なセグメントの挿入が母音f’OJが先行した
場合の「か」に起こる例を示している。無声化によるC
VCからCCへの変形を例(5)に示す。
入力セグメント系列12と音節パターンとの照合は、音
節パターンの各セグメント11を順に入力音声から得ら
れたセグメント系列12と照合することによって実行さ
れる。その方法を第2図(2)を参照して説明する。今
、第2図(1)に示す入力セグメント系列12と、第1
表例(1)のZUに関する音節パターンとの照合につい
て説明する。
節パターンの各セグメント11を順に入力音声から得ら
れたセグメント系列12と照合することによって実行さ
れる。その方法を第2図(2)を参照して説明する。今
、第2図(1)に示す入力セグメント系列12と、第1
表例(1)のZUに関する音節パターンとの照合につい
て説明する。
まず、音節の始端記号「(」があるので、照合を開始す
る第1セグメント111が音節始端セグメントとなる。
る第1セグメント111が音節始端セグメントとなる。
「736」のセグメント系列は7フレームから28フレ
ームまでの時間的な幅を持っているので、入力セグメン
ト系列12の第1とfJS2のセグメント11□ 11
2を合わせたセグメント、及びmlとfJS2と第3の
セグメント11..112,11.を合わせたセグメン
トに対して整合する。しかし、第4セグメント114ま
で幅を広げると、音素記号Uが表われ第2図(2)に示
すように不整合になる。その結果、セグメント「236
」の終端候補は、@2図(3)に示す2笥所の二重M
、i’ 1 + 、t’ 2の位置になる。
ームまでの時間的な幅を持っているので、入力セグメン
ト系列12の第1とfJS2のセグメント11□ 11
2を合わせたセグメント、及びmlとfJS2と第3の
セグメント11..112,11.を合わせたセグメン
トに対して整合する。しかし、第4セグメント114ま
で幅を広げると、音素記号Uが表われ第2図(2)に示
すように不整合になる。その結果、セグメント「236
」の終端候補は、@2図(3)に示す2笥所の二重M
、i’ 1 + 、t’ 2の位置になる。
次に、セグメント「0京1」との照合は、それまでに整
合されたセグメン)rZ36Jの終端候補から始まる。
合されたセグメン)rZ36Jの終端候補から始まる。
即ち、前のセグメントの終端候補は次のセグメントの始
端候補になる。「0本1」に対して2通りの始端候?l
l’1.ノ2があるので、第2図(4)〜第2図(6)
に示すように、それぞれについて照合する。このように
、セグメント1−U56Jに関しても、12図(7)、
fpJ2図(8)に示すように照合を行なった結果、I
r52図(9)に示すように3箇所の終端候補ノ3.ノ
ー1.ノ5が得られる。
端候補になる。「0本1」に対して2通りの始端候?l
l’1.ノ2があるので、第2図(4)〜第2図(6)
に示すように、それぞれについて照合する。このように
、セグメント1−U56Jに関しても、12図(7)、
fpJ2図(8)に示すように照合を行なった結果、I
r52図(9)に示すように3箇所の終端候補ノ3.ノ
ー1.ノ5が得られる。
犬に音節境界を示す記号[月があるのでこれら3箇所の
終端候補J!31)4,15を音節境界候補とする。音
節パターンには更に照合すべさセグメントがないので、
音節Z U 1m対する音節パターンとの照合は成功し
、第2図(10)に示すように音節部として、(第1セ
グメント11.〜第5セグメント1ls)、li上セグ
メント11〜第6セグメント116)、(第1セグメン
ト111〜lQ7セグメント11.)の3つの候補13
,14.15が得られる。
終端候補J!31)4,15を音節境界候補とする。音
節パターンには更に照合すべさセグメントがないので、
音節Z U 1m対する音節パターンとの照合は成功し
、第2図(10)に示すように音節部として、(第1セ
グメント11.〜第5セグメント1ls)、li上セグ
メント11〜第6セグメント116)、(第1セグメン
ト111〜lQ7セグメント11.)の3つの候補13
,14.15が得られる。
上記のセグメン)1列12と音節パターンとの照合を、
各セグメント毎に行なう。各音節候補13〜15はその
スコアと出現位置を情報として持っているので、各々の
結果を集めると音節ラティスが得られる。前記マツチン
グのスコアDは(i傾度係数Sの関数で表わされるが、
たとえば、Fを背型係数として簡単に、 D=FXS ・・・(1)で表
わすことも出来る。
各セグメント毎に行なう。各音節候補13〜15はその
スコアと出現位置を情報として持っているので、各々の
結果を集めると音節ラティスが得られる。前記マツチン
グのスコアDは(i傾度係数Sの関数で表わされるが、
たとえば、Fを背型係数として簡単に、 D=FXS ・・・(1)で表
わすことも出来る。
以下、本実施例において用いられる音節部について説明
する。取+)扱う音節のm類として、たとえば111種
類の日本語音節が考えられる。68音節はCV、JV、
V (Cは子音、Jはよう音、■は母音を表わす)型
のものとはつ音とからなっている。33種類のCJV型
の音節が有り、先と合わせて101種類の茸からの日本
語音節をRJlしている。外来語で用いられる音節の比
較的頻度の高いもの10種類の音節も含めて、計111
種頭としている。
する。取+)扱う音節のm類として、たとえば111種
類の日本語音節が考えられる。68音節はCV、JV、
V (Cは子音、Jはよう音、■は母音を表わす)型
のものとはつ音とからなっている。33種類のCJV型
の音節が有り、先と合わせて101種類の茸からの日本
語音節をRJlしている。外来語で用いられる音節の比
較的頻度の高いもの10種類の音節も含めて、計111
種頭としている。
■音節識別部4
音節識別部4の一実施例を第3図に示す、第1図−r:
tS3図を参照して、音節識別部4は曲処理部2で得ら
れたセグメント系列12を保持するセグ//)1列バッ
フ71G、制御731S3のコントロールにより音節パ
ターンメモリ17から読み出した音節パターンを保持す
る音節パターンバッフ718、セグメント系列12と音
節パターンとを照合する音節パターン照合部19と、照
合した結果をM積して保持する音節ラティスバッフF2
0及び音節パターンを格納する前記メモリ17 h−C
>なっている。上記の音節パターン照合過程を、以下の
第・を図の処理70−で示す。
tS3図を参照して、音節識別部4は曲処理部2で得ら
れたセグメント系列12を保持するセグ//)1列バッ
フ71G、制御731S3のコントロールにより音節パ
ターンメモリ17から読み出した音節パターンを保持す
る音節パターンバッフ718、セグメント系列12と音
節パターンとを照合する音節パターン照合部19と、照
合した結果をM積して保持する音節ラティスバッフF2
0及び音節パターンを格納する前記メモリ17 h−C
>なっている。上記の音節パターン照合過程を、以下の
第・を図の処理70−で示す。
第1図〜第4図を♂照して、ステップn 1で訪処理部
2から読み込まれるセグメント系列12は、コード列(
S 1t(i= 1 、2、− L s:L aはセグ
メント系列を11η成するフードの総数)から成り、各
コードSi は、萌述したセグメント11のコード、セ
グメント分離記号、セグメン)M列終端コードなどであ
る。音節パターンメモリ17がら読み込まれる各音節パ
ターンは、コード列ICJl(J= 1.2 +・・・
L e:L cは音節パターンを構成するコードの総数
)からなり、各コードCjは、セグメントのフード、音
節始端コード(記号「(」に相当)、音節終端コード(
記号「)」に相当)、セグメント分離記号(記号「(ス
ペース)」に相当)、音節パターン終端コード及びtf
mパターンメモリ終了コードなどである。
2から読み込まれるセグメント系列12は、コード列(
S 1t(i= 1 、2、− L s:L aはセグ
メント系列を11η成するフードの総数)から成り、各
コードSi は、萌述したセグメント11のコード、セ
グメント分離記号、セグメン)M列終端コードなどであ
る。音節パターンメモリ17がら読み込まれる各音節パ
ターンは、コード列ICJl(J= 1.2 +・・・
L e:L cは音節パターンを構成するコードの総数
)からなり、各コードCjは、セグメントのフード、音
節始端コード(記号「(」に相当)、音節終端コード(
記号「)」に相当)、セグメント分離記号(記号「(ス
ペース)」に相当)、音節パターン終端コード及びtf
mパターンメモリ終了コードなどである。
マタ、セグメント系列12内の各セグメントコードは、
セグメント11を特徴付ける記号(第4図中、「s」で
表わす)、あるいはセグメント11のフレーム長(第4
図中、「)」で表わす)であり、音節パターン内のセグ
メント系列には、セグメント11を特徴付ける記号(第
4図中、rcJで表わす)、セグメントの許容雇小フレ
ーム長(第4図中、rnJで表わす )、あるいはセグ
メント11の許容最大フレーム長(第4図中、「10」
で表わす」である。
セグメント11を特徴付ける記号(第4図中、「s」で
表わす)、あるいはセグメント11のフレーム長(第4
図中、「)」で表わす)であり、音節パターン内のセグ
メント系列には、セグメント11を特徴付ける記号(第
4図中、rcJで表わす)、セグメントの許容雇小フレ
ーム長(第4図中、rnJで表わす )、あるいはセグ
メント11の許容最大フレーム長(第4図中、「10」
で表わす」である。
ステップ112 において、照合開始セグメントが更
新され、ステップ:13 において、たとえばPt5
2図(1)図示のセグメン)111〜11.から成るセ
グメント系列が表わすコードS1がセグメント系列終端
コードであれば、処理は終了する。前記ステップ113
において、フードSlがセグメント系列終端コードでな
ければステップ【14 に移り、音節パターンメモリ
17から”JffIiパターンバッフ718への音節パ
ターンfc jlの読み込み史話が行なわれる。
新され、ステップ:13 において、たとえばPt5
2図(1)図示のセグメン)111〜11.から成るセ
グメント系列が表わすコードS1がセグメント系列終端
コードであれば、処理は終了する。前記ステップ113
において、フードSlがセグメント系列終端コードでな
ければステップ【14 に移り、音節パターンメモリ
17から”JffIiパターンバッフ718への音節パ
ターンfc jlの読み込み史話が行なわれる。
ステ、プ115 では、重犯音節パターンコード列I
c jlにおいて、コードCIが音節パターンメモリ終
了コードであることが検出されると、処理はステノブ1
12;二戻る。ステップ1151こおいて、コードC1
が音節パターンメモリ終了コードでなければ、処理はス
テップ116に移り、音節パターンバッファ18からパ
ターン照合部19へのフード列 (Cjlの読込み更新
が行なわれる。
c jlにおいて、コードCIが音節パターンメモリ終
了コードであることが検出されると、処理はステノブ1
12;二戻る。ステップ1151こおいて、コードC1
が音節パターンメモリ終了コードでなければ、処理はス
テップ116に移り、音節パターンバッファ18からパ
ターン照合部19へのフード列 (Cjlの読込み更新
が行なわれる。
ステップ117において、コードCjが前記セグメント
分離コードであって、かつセグメント終端候補(第2図
の候補J!1〜I Sなど)が設定登ff1Jされてい
なければ、当該セグメントの照合が失敗したことになり
、処理はステップn4 に戻る。コードCjがステッ
プn 7において、ステップn4 に戻る条件を満た
していなければ、処理はステップn8に移りコードCj
が前記セグメント分離フードであって、かつ前記セグメ
ント終端候補が設定登録されていれば、処理はステップ
n 4に戻る。
分離コードであって、かつセグメント終端候補(第2図
の候補J!1〜I Sなど)が設定登ff1Jされてい
なければ、当該セグメントの照合が失敗したことになり
、処理はステップn4 に戻る。コードCjがステッ
プn 7において、ステップn4 に戻る条件を満た
していなければ、処理はステップn8に移りコードCj
が前記セグメント分離フードであって、かつ前記セグメ
ント終端候補が設定登録されていれば、処理はステップ
n 4に戻る。
照合結果は音節パターンの属する音節番号、その信頼度
係数、音節候補の始端セグメント番号、終端セグメント
番号の群になっている。照合結果は、ステップn4の段
階でクリアされる。したがって、音節パターンの照合終
了時に音節候補・の終端セグメント番号が登Qされてい
なければ(ステップ【17)、照合が失敗したことにな
る。
係数、音節候補の始端セグメント番号、終端セグメント
番号の群になっている。照合結果は、ステップn4の段
階でクリアされる。したがって、音節パターンの照合終
了時に音節候補・の終端セグメント番号が登Qされてい
なければ(ステップ【17)、照合が失敗したことにな
る。
ステップ118において、フードCjがステップ+14
に戻る条件を満たしていなければ処理はステップ119
に移り、コードCjがrtfJ記音節始端コードであれ
ぼ、当該フードCjが属する音節始端セグメント番号を
保持し、ステップ114 に戻る。ステップn 9に
おいて、コードCjが前記音節始端フードでな(すれば
、ステップn101こおいてコードCjが前記音節終端
コードであるかどうかの判断を行ない、1!i゛定なら
ば当該コードCjlJ/属する音節終端候補セグメント
番号を保持しステップn6に戻る。
に戻る条件を満たしていなければ処理はステップ119
に移り、コードCjがrtfJ記音節始端コードであれ
ぼ、当該フードCjが属する音節始端セグメント番号を
保持し、ステップ114 に戻る。ステップn 9に
おいて、コードCjが前記音節始端フードでな(すれば
、ステップn101こおいてコードCjが前記音節終端
コードであるかどうかの判断を行ない、1!i゛定なら
ば当該コードCjlJ/属する音節終端候補セグメント
番号を保持しステップn6に戻る。
ステップnloにおいて、コードCjが音節終端コード
でな(すれば、ステップn1llこおいてコードCjが
音節パターン終端コードであって、音節終端候補セグメ
ント番号が保持されていれば、パターンの照合は成功し
たことになり、照合結果を音節ラティスバッファ20に
転送し、処理はステップ114に戻る。
でな(すれば、ステップn1llこおいてコードCjが
音節パターン終端コードであって、音節終端候補セグメ
ント番号が保持されていれば、パターンの照合は成功し
たことになり、照合結果を音節ラティスバッファ20に
転送し、処理はステップ114に戻る。
フードCjがステップ1111におけるステ2プn4に
戻る条1′1−を満たしていなければ、処理はステップ
n12に移り、コードCjが音節パターン終端コードで
あり、かつ音節終端候補セグメント番号が保持されてい
なければ、照合は失敗したことになり処理はステップn
4に戻る。ステップn12においてコードCjがステッ
プn4に戻る条件を満たしていなければ、処理はステッ
プ103 に移りセグメント終端候補の次のセグメント
をセグメント照合開始セグメントとする6次にステップ
1114において、照合セグメン) (S i、セグメ
ントコード(S 、7>)の更新を行なう。
戻る条1′1−を満たしていなければ、処理はステップ
n12に移り、コードCjが音節パターン終端コードで
あり、かつ音節終端候補セグメント番号が保持されてい
なければ、照合は失敗したことになり処理はステップn
4に戻る。ステップn12においてコードCjがステッ
プn4に戻る条件を満たしていなければ、処理はステッ
プ103 に移りセグメント終端候補の次のセグメント
をセグメント照合開始セグメントとする6次にステップ
1114において、照合セグメン) (S i、セグメ
ントコード(S 、7>)の更新を行なう。
また、セグメント照合の段階で、ステップn13〜11
14 でセグメント照合が失敗すれば、照合結果には
セグメント終端候補が登録されないままになるため、一
つのセグメント照合終了時にはセグメント終端候補が登
録されていなければ、セグメント照合失敗を意味する。
14 でセグメント照合が失敗すれば、照合結果には
セグメント終端候補が登録されないままになるため、一
つのセグメント照合終了時にはセグメント終端候補が登
録されていなければ、セグメント照合失敗を意味する。
前記ステップn14 において、照会セグメントの更
新が行なわれるとステップ1115 に移り、コード
Cjがセグメントコード(C,11,01)であって、
前記コード要素Cが第1表の記号「@」、および前記コ
ード要素Sと不一致ならば処理はステップn6に戻る。
新が行なわれるとステップ1115 に移り、コード
Cjがセグメントコード(C,11,01)であって、
前記コード要素Cが第1表の記号「@」、および前記コ
ード要素Sと不一致ならば処理はステップn6に戻る。
ステップ1115 においてフードCjステップ11
Gに戻る条件を満たしていないならば、処理はステンブ
1116に移り前記コード要素n、IIIに関して、n
<Jg<ua ・・・(
2)が成立するならば、セグメント終端候補 (第2図
の終端候補!1,72 ;)3〜ノ5など)を更新し、
ステップ蔦113に戻る。
Gに戻る条件を満たしていないならば、処理はステンブ
1116に移り前記コード要素n、IIIに関して、n
<Jg<ua ・・・(
2)が成立するならば、セグメント終端候補 (第2図
の終端候補!1,72 ;)3〜ノ5など)を更新し、
ステップ蔦113に戻る。
ステップ1116 において、前記PA2式が成立しな
いならば、処理はステップ+117 に移り前記コー
ド要素、e+lIlにおいて、 l>l ・・・(
3)が成立するならば、処理はステップ口6 に戻る。
いならば、処理はステップ+117 に移り前記コー
ド要素、e+lIlにおいて、 l>l ・・・(
3)が成立するならば、処理はステップ口6 に戻る。
第3式の条件が成立しないならば、ステップ118で処
理はステップn14に戻る。
理はステップn14に戻る。
この第4図の場合、入力音声から得られたセグメント系
列12の各々のセグメント11にお−1で、それぞれを
開始セグメントとして、順に全ての音節パターンとの照
合を行なっている。即ち、各開始セグメントに対して音
節パターンメモリ17の全ての音節パターンと照合しく
第4図ステップn5)、開始セグメントを移動して(即
ち処理ステップn2 )、更に音節パターンメモリ17
の全ての音節パターンとの照合をするという処理を続け
る場合に相当している。したがって、あるセグメント系
列12に対して全ての処理が終了するのは、fi4図の
ステップn3 において、セグメント系列12内の全
てのセグメント11を開始セグメントとしての音節パタ
ーン照合が終了する時である。
列12の各々のセグメント11にお−1で、それぞれを
開始セグメントとして、順に全ての音節パターンとの照
合を行なっている。即ち、各開始セグメントに対して音
節パターンメモリ17の全ての音節パターンと照合しく
第4図ステップn5)、開始セグメントを移動して(即
ち処理ステップn2 )、更に音節パターンメモリ17
の全ての音節パターンとの照合をするという処理を続け
る場合に相当している。したがって、あるセグメント系
列12に対して全ての処理が終了するのは、fi4図の
ステップn3 において、セグメント系列12内の全
てのセグメント11を開始セグメントとしての音節パタ
ーン照合が終了する時である。
効 果
以上のように本発明に従えば、入力された音声に特徴1
・tけがなされ、その出力された音節情報に対して音節
の識別を打なうにあたって、入力音声に対応する各音節
情報の音節様および時間間隔がキャラクタ列によって表
現されるようにした。すなわち音節をキャラクタ列形式
で表現するため、音声現象がとらえ易くなり、また、音
節周辺の音韻論的影響に関する知識を表現し易くなる。
・tけがなされ、その出力された音節情報に対して音節
の識別を打なうにあたって、入力音声に対応する各音節
情報の音節様および時間間隔がキャラクタ列によって表
現されるようにした。すなわち音節をキャラクタ列形式
で表現するため、音声現象がとらえ易くなり、また、音
節周辺の音韻論的影響に関する知識を表現し易くなる。
また、着目している音節周辺も含めて照合されるため、
候補として得られる音節は、その周辺状態から見て妥当
な音節になる。しかも、キャラクタ列表現のため、−a
mパターン当たりのメモリがノドさくなるため、パター
ン照合の処理時間の短縮や、より多くの音節パターンの
格納が図れる。またそれだけ多くの音節の′V&勅を知
識として活用できる結果、音声の多くの変動に対する解
釈が可能になり、性能向上が図れる。
候補として得られる音節は、その周辺状態から見て妥当
な音節になる。しかも、キャラクタ列表現のため、−a
mパターン当たりのメモリがノドさくなるため、パター
ン照合の処理時間の短縮や、より多くの音節パターンの
格納が図れる。またそれだけ多くの音節の′V&勅を知
識として活用できる結果、音声の多くの変動に対する解
釈が可能になり、性能向上が図れる。
第1図は本発明の一実施例に従う音声v!PR装置の基
本的構成を示すブロック図、第2図は本実施例に従う入
力音節の照合動作を説明する図、pt43図は音ff1
in別部4の構成を示すブロック図、第4図は本実施例
の入力音節の照合動作を示す70−チャートである。 2・・・萌処J!!!部、・1・・・音@:Jt別部、
5・・・辞書記憶部、10・・・フレーム、11・・・
セグメント、12・・・セグメント系列、13〜15・
・・音節候補、16・・・セグメント系列バッファ、1
7・・・音節パターンメモリ、18・・・音節パターン
バッファ、1つ・・・音節パターン照合部、20・・・
音節ラティスパン7ア代理人 弁理士 画数 圭一部 手続補正書(方式) 昭和61年 6月27日 特願昭61−78817 2、発明の名称 音ffl!識別方式 3、補正をする者 事件との関係 出願人 住所 大阪市阿倍野区艮池町22番22号国装置EX
0525−59135 INTAPT J国際FA
X GIU&GI[(06)538−0247昭和61
年 6月24日(発送日) 6、補正の対象 図 面 7、補正の内容 図面の浄書(内容に変更なし)。 以 上
本的構成を示すブロック図、第2図は本実施例に従う入
力音節の照合動作を説明する図、pt43図は音ff1
in別部4の構成を示すブロック図、第4図は本実施例
の入力音節の照合動作を示す70−チャートである。 2・・・萌処J!!!部、・1・・・音@:Jt別部、
5・・・辞書記憶部、10・・・フレーム、11・・・
セグメント、12・・・セグメント系列、13〜15・
・・音節候補、16・・・セグメント系列バッファ、1
7・・・音節パターンメモリ、18・・・音節パターン
バッファ、1つ・・・音節パターン照合部、20・・・
音節ラティスパン7ア代理人 弁理士 画数 圭一部 手続補正書(方式) 昭和61年 6月27日 特願昭61−78817 2、発明の名称 音ffl!識別方式 3、補正をする者 事件との関係 出願人 住所 大阪市阿倍野区艮池町22番22号国装置EX
0525−59135 INTAPT J国際FA
X GIU&GI[(06)538−0247昭和61
年 6月24日(発送日) 6、補正の対象 図 面 7、補正の内容 図面の浄書(内容に変更なし)。 以 上
Claims (1)
- 【特許請求の範囲】 入力された音声に特徴付けがなされ、その出力された音
節情報に対して音節の識別を行なう方式であつて、 入力音声に対応する各音節情報の音節種および時間間隔
がキャラクタ列によって表現されるようにしたことを特
徴とする音節識別方式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61078817A JPS62235998A (ja) | 1986-04-05 | 1986-04-05 | 音節識別方式 |
US07/524,663 US5054084A (en) | 1986-04-05 | 1990-05-15 | Syllable recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61078817A JPS62235998A (ja) | 1986-04-05 | 1986-04-05 | 音節識別方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS62235998A true JPS62235998A (ja) | 1987-10-16 |
Family
ID=13672392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61078817A Pending JPS62235998A (ja) | 1986-04-05 | 1986-04-05 | 音節識別方式 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5054084A (ja) |
JP (1) | JPS62235998A (ja) |
Families Citing this family (114)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5680510A (en) * | 1995-01-26 | 1997-10-21 | Apple Computer, Inc. | System and method for generating and using context dependent sub-syllable models to recognize a tonal language |
US5706398A (en) * | 1995-05-03 | 1998-01-06 | Assefa; Eskinder | Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds |
FR2748343B1 (fr) * | 1996-05-03 | 1998-07-24 | Univ Paris Curie | Procede de reconnaissance vocale d'un locuteur mettant en oeuvre un modele predictif, notamment pour des applications de controle d'acces |
US6233557B1 (en) * | 1999-02-23 | 2001-05-15 | Motorola, Inc. | Method of selectively assigning a penalty to a probability associated with a voice recognition system |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
EP1565906A1 (en) * | 2002-11-22 | 2005-08-24 | Koninklijke Philips Electronics N.V. | Speech recognition device and method |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60254199A (ja) * | 1984-05-31 | 1985-12-14 | 富士通株式会社 | 音声マツチング演算方式 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5842098A (ja) * | 1981-09-04 | 1983-03-11 | 電子計算機基本技術研究組合 | 音声認識装置 |
JPS5855995A (ja) * | 1981-09-29 | 1983-04-02 | 富士通株式会社 | 音声認識システム |
JPS5972496A (ja) * | 1982-10-19 | 1984-04-24 | 株式会社東芝 | 単音識別装置 |
JPH067357B2 (ja) * | 1982-10-19 | 1994-01-26 | シャープ株式会社 | 音声認識装置 |
US4723290A (en) * | 1983-05-16 | 1988-02-02 | Kabushiki Kaisha Toshiba | Speech recognition apparatus |
US4665548A (en) * | 1983-10-07 | 1987-05-12 | American Telephone And Telegraph Company At&T Bell Laboratories | Speech analysis syllabic segmenter |
US4799261A (en) * | 1983-11-03 | 1989-01-17 | Texas Instruments Incorporated | Low data rate speech encoding employing syllable duration patterns |
-
1986
- 1986-04-05 JP JP61078817A patent/JPS62235998A/ja active Pending
-
1990
- 1990-05-15 US US07/524,663 patent/US5054084A/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60254199A (ja) * | 1984-05-31 | 1985-12-14 | 富士通株式会社 | 音声マツチング演算方式 |
Also Published As
Publication number | Publication date |
---|---|
US5054084A (en) | 1991-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS62235998A (ja) | 音節識別方式 | |
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
Lee et al. | Spoken language resources for Cantonese speech processing | |
US8126714B2 (en) | Voice search device | |
EP2462586B1 (en) | A method of speech synthesis | |
KR20010096490A (ko) | 이동통신을 위한 철자 음성인식장치 및 방법 | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
Al-Bakeri et al. | ASR for Tajweed rules: integrated with self-learning environments | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JP6631186B2 (ja) | 音声作成装置、方法、及びプログラム、音声データベース作成装置 | |
JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
JPH09114482A (ja) | 音声認識のための話者適応化方法 | |
JP3277522B2 (ja) | 音声認識方法 | |
Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
Skinner et al. | A speech recognition system for connected word sequences | |
JP2862306B2 (ja) | 音声認識装置 | |
JP2005534968A (ja) | 漢字語の読みの決定 | |
JPS62235990A (ja) | 音声認識方式 | |
JPH0619497A (ja) | 音声認識方法 | |
JPH08171396A (ja) | 音声認識装置 | |
JPH0827638B2 (ja) | 音素を単位とした音声認識装置 | |
Tian et al. | Modular design for Mandarin text-to-speech synthesis | |
JPH0632021B2 (ja) | 日本語音声認識装置 | |
JPS6180298A (ja) | 音声認識装置 |