JPS61186998A - 音声の区分化方法 - Google Patents

音声の区分化方法

Info

Publication number
JPS61186998A
JPS61186998A JP61028766A JP2876686A JPS61186998A JP S61186998 A JPS61186998 A JP S61186998A JP 61028766 A JP61028766 A JP 61028766A JP 2876686 A JP2876686 A JP 2876686A JP S61186998 A JPS61186998 A JP S61186998A
Authority
JP
Japan
Prior art keywords
input terminal
value
speech
output side
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61028766A
Other languages
English (en)
Other versions
JPH0823757B2 (ja
Inventor
ヤン・ペトラス・フアン・ヘメルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Gloeilampenfabrieken NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Gloeilampenfabrieken NV filed Critical Philips Gloeilampenfabrieken NV
Publication of JPS61186998A publication Critical patent/JPS61186998A/ja
Publication of JPH0823757B2 publication Critical patent/JPH0823757B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、音響音声信号を、各信号がN個の連続する時
間間隔の任意の時間間隔1(1は1からNまでの数)に
関連するN個の信号に変換する音声の区分化方法に関す
るものである。また、本発明は前記方法を実施する装置
に関するものでもある。
この種の方法および/または装置は音声を構成する区分
(segment) (の範囲)を決めるために使用す
る。これら区分とは、例えば半音節、音素または2重音
の形態の音である。
かかる処理の目的は、例えば認識手順を得られた結果に
適用し得るようにすることである。この場合には単語若
しくは音声認識を表わす。前記認識手順とは、得られた
区分の音の基本パターンと比較することを意味する。こ
の区分と音の基本パターンとが十分に一致する場合には
、その区分は君忍識される。
他の可能性として、得られた区分を用いて、全て異る音
を全て収集し、後にこの収集した音により、人工的に音
声合成を行なうことができる。このことは、例えばビー
・ニー・ジー エルセンドールン等による「エクスプロ
ーリング ザ ポッシビリティーズ オブ スピーチ 
シンセシスウィズ ダルヒ ダイフt −7J (B、
 A、G、Elsend−oorn、 J、’t Ha
rt: Exploring the possibi
litiesof  5peech  5ynthes
is  with  Dutch  diphones
、   IPOAnnual Progress Re
port no、 17.1982. pp、63−5
.)を参照のこと。現在までのところ1つの言語に対す
る2重音の収集(又はライブラリー)は、熟練した音声
学者により手作業で行われており、その完成には約1年
間の月日がかかる。
2重音の収集を行うための装置は、エム・ステラによる
「フアプリケーション セミ・オートマチック デ デ
ィクショネーアズ デ ダイフ、1−− :/ J (
M、 5tel la: Fabrication s
emi−automati−que de dicti
onnaires de diphones、 Rec
herche/Acoustique、 Centre
 National d’Btudes de Tel
e−communication、 vol、■、 1
982/83. pp、 53−63.)から既知であ
る。このセミ・オートマチックな方法によって、2重音
の72%だけを有効に区切って、その後結果を相互に関
連するように補正する必要がある。
また、見い出すべき音の基本パターンいわゆる半音節に
基づく区分化方法がエル・アール・ラビネル等による「
ア ブーツトラッピング トレーニング テクニック 
フォー オブテイニングデミシラブル リフエレンス 
パターンズJ(L、R。
Rabiner、 A、B、Rosenberg、 J
、G、Wilpon、 T8M、Zamp−1n1:^
bootstrapping training  t
echnique forobtaining  de
misyllable  reference  pa
tterens。
J、 Acoust、Soc、 America、 7
H6)、 June 1982. pp。
1588−95. ) に記載されている。
斯る方法の欠点は、正確な基本パターンを得ようとする
場合に、斯る基本パターンををするライブラリーの構成
に多大な時間を要することである。
これは既知の方法で2重音のライブラリーを構成するた
めに現在必要とされる時間と同程の時間となることもあ
る。その理由は、主に、このようなライブラリーに対す
る基本パターンの数が極めておおく、即ちオランダ語に
ついて約io、 ooo個の半音節および1800個の
2重音があるからである。
ビー・ニス・アタルによる「エフィシエントコーディン
グ オブ LPCパラメータ バイ テンポラル デコ
ンポジションJ (B、S、Atal: Effic−
ient cooding of LPC−param
eters by temporaldecompos
ition、Proc、 of the rcAssP
 ’83(Boston)、 pp、81−4.)  
にも区分化(セグメンテーション)の方法を記載してい
る。しかし、この方法には、見出された区分の数が一定
でなく、得られた区分が何れの音に属するかを決められ
ないという欠点がある。
本発明の目的は、より正確に機能し、それによって、例
えば2重音の収集が短時間で得られる音声の区分化(セ
グメンテーション)方法を提供せんとするにある。
この目的のため、本発明は、音響音声信号を、各信号が
N個の連続する時間間隔の任意の時間間隔l(lは1か
らNまでの数)に関連するN個の信号に変換して音声を
区分化するに当たり、iの或る値に対しjの値がai 
 (ai <i)からす、(b、>i)までの値である
場合に、時間間隔iに関連する信号と、時間間隔」に関
連する信号との一致の程度を表わす量である関数cij
を導出し、 時間間隔の通し番号lに関連し、音声信号の複数の部分
の境界を形成し、その一部分内に位置する時間間隔に関
連する曲線ci、1が少なくともほぼ一致する、これら
lの値を決定するようにしたことを特徴とする。iの値
は、発声音の間の複数の時間点に相当し、区分の境界を
示す。これらlの値を、関数diについて負から正への
Z軸交差点に少なくともほぼ一致するものに決める場合
には、音素の境界を得ることができる。したがって、区
分は音素となる。このような区分は、フォルマントおよ
び帯域幅のような音声パラメータはこの区分内でほとん
ど一定である。、 音素は、単語が変わるとその意味が変わる1つの単語に
おける最小ユニットとして、定義することができる。2
重音は1つの単語の2個の隣接する音素間の遷移を表わ
す。2重音の導出方法は、上記方法で得られた音素に基
づいて、のちに記載する。
補正関数には関数CIJを採用することができる。
この関数は、等しい時間間隔、換言すると1=」に対し
て値1を有し、その値は、時間間隔lおよび」での音の
間の差が大きくなるにつれて減少する。
at及びす、は、関数CLjが基準値Cr に等しい場
合のiの値に等しくすることができる。この基準値は、
Pく1(例えばPが0.8に等しい)の場合における関
数C1Jの最大値のP倍に等しくすることかできる。こ
の結果として、発声音の対応する区分は相互に影響しな
い。これは、一つの区分の中間点m、の決定が、発声音
の後又は前の他の対応する区分の存在により影響されな
い(換言すれば、妨害されない)ことを意味する。
N個の時間間隔において音響音声信号の周波数スペクト
ルを、N個の信号に対し、とることができる。その他の
可能性として、N個の信号に対するN個の時間間隔にお
ける音響音声信号のスペクトルエンベロープを取ること
がある。例えばLPG分析により、スペクトルエンベロ
ープを得る方法は、ジエー・ディー・マーケル及びニー
・エッチ・グレイによる「リニア プレディクション 
オブ スピーチJ (J、D、Markel、 A、f
l、Gray、 Linearprediction 
of 5peech、Springer Verlag
 1976、)から既知である。関数CiJの導出にス
ペクトルエンベロープを使用することによって、実際の
周波数スペクトルそれ自体に存在するピッチの影響を圧
縮する利点を有する。
これがため、上記方法によって、音声信号をさらに再分
割した区分とし、この区分の境界が1の値により決定さ
れ、この値は区分の時間軸に沿う境界を順次に示す。
2重音のライブラリーの導出は、まず最初の音声信号か
らの音素の形態の区分を決定し、次いで、かくして得ら
れた音素から2重音を取り出すことによって達成するこ
ともできる。この目的のため、それ自体既知であり、取
り出すべき多数の2重音を含む発声音に、上記区分手順
を施す。次に曲線dl=mt−iにおいて負から正への
Z軸受差点を取る場合には、既知の発声音を構成する複
数の音素の、音素境界に相当する区分境界を得るように
する。この区分手順によって、発声音の音素と同数の、
発声音の区分を決定し得るようにする。
この場合に、何れの区分が何れの音素に一致するかを正
確に示すことができる。しかし、区分手順によって発声
音を構成する音素の数より正確に多いか又は少ない区分
を形成する場合もある。これらの場合は何れの区分が何
れの音素に対応するかは直ちに明らかにはならない。
上記の場合に、特別な割り当て手順を必要とし、これに
より第1の場合(音素より区分が多い場合)には1個以
上の境界を削除することを必要とし、第2の場合(音素
より区分が少ない場合)には1個以上の境界を追加する
ことを必要とする。これを達成すべく、既知の発声音の
音声信号を、例えば音素から形成される音声区分に区分
するに当たり、既知の時間整合(time align
ment)により、発声音を構成する音の一連の基本パ
ターンと、発声音の音声信号との間で最大の一致が得ら
れるようにし、上記前を1の値により区分される音声区
分に割り当てて、音の境界と対応する音声区分とが最良
の一致となるようにする。区分が音素よりも多い場合に
は発声音の何れかの個所に、1つの音素に対し音素が位
置する2つの隣接区分が存在し得るようになる。これら
2個の区分の間の境界を決めるlの値は、省略される。
区分より音素が多い場合には、発声音の何れかの個所に
、1つの区分に対向して位置する2個の隣接する音素が
存在し得るようになる。この場合には、2個の音素の間
の境界に相当するlの値を追加することにより、当該区
分を分離する。
区分が音素とちょうど同数である場合には、関数diか
ら得られるiの値は維持される。
この音素について得られたlの値から出発し、2重音境
界を、変換規則を使用することにより、決め得るように
する。
このように音素の境界からの導出を経て2重音境界(従
って2重音)を決める理由は、音素の基本パターンが上
記時間整合に使用され得るからである。したがって、オ
ランダ語については約40個の音素のみが存在し、従っ
て、これは50個の基本パターンを取り出して記憶する
必要があり、これを有効に且つ迅速に行なうことができ
ることを意味する。
さらに、音素境界が一連の音素の基本パターンを用いて
、音声信号の上記時間整合から簡単に得られないことが
問題となる。その理由は、このような方法が、特に音声
の調音結合および偶発変動に極めて影響を受けやすいか
らである。この結果、極めて不正確な音素境界が得られ
、従って2重音境界又は2重音の導出を良好に行なうこ
とはできない。
これがため上記時間整合は区分を音素に割当て、必要に
より境界を追加又は削除するために用いられるだけであ
る。
音声信号又は発声音を区分(例えば音素)に細分割する
ことを、発声音の認識に使用することもできる。この目
的のため、本発明の方法は未知の発声音の音声信号を認
識するために、各区分を既知の音の基本パターンと比較
しこの音をこの区分および音の間の一致の程度が最大と
なる区分に割り当てるようにした。これは、特に、発声
音が音素の形態の複数の区分に区切られる場合に適用さ
れる。
この場合に、さらに40個の音素の基本パターンを記憶
し、未知の発声音の区分の各々を最大で40個の基本パ
ターンと比較する必要がある。比較の結果、最大の一致
が得られると、一連の基本パターンによって何れの音素
から既知の発声音が構成されるかを示すことができる。
又、本発明は、音響音声信号に相当する電気信号を受信
する入力端子と、該入力端子に供給される入力端子およ
び出力端子を有する第1装置とを備え、該第1装置では
N個の信号を得、これらN個の信号をその出力側に供給
するようにして本発明方法を実施する装置において、 さらに、前記第1装置の出力側に結合される入力端子と
、出力端子とを有し、時間間隔lおよびJに関連する信
号から連続する間隔1に対する関数cijを得るととも
にその出力側に関数cijを供給する第2装置と、 第2装置の出力側に結合される入力端子と、出力端子と
を有し、1区分内にある時間間隔に関連する曲線CIJ
が少なくともほぼ一致する音声信号の複数の部分の境界
を形成する間隔1の値を決定する副装置とを具えるよう
にしたことを特徴とする。これと関連して前記副装置は
、 前記副装置の入力端に結合される入力端子と、出力端子
とを有し、各間隔lに対する関連する関数Ctjの中間
値m1を得るとともにその出力側に中間値miを供給す
る第3装置と、 前記第3装置の出力側に結合される入力端子と、前記副
装置の出力側に結合される出力端子とを有し、関数di
における零細交差点に少なくともほぼ一致する間隔lの
値を取り出すと共にこれらlの値をその出力に供給する
第4装置とを具えるようにしたことを特徴とすることが
できる。この装置によって、音声信号の、音声パラメー
タがほぼ一定となる複数の区分への区分化を達成するこ
とができる。■の値は、連続した数の時間間隔の形態で
区分の相互の境界を示す。したがって、これら1の値は
音声信号(発声音)中の時間の諸点に相当する。
第4装置が関数di(dt=m+   1)における負
から正への零細交差点に少なくともほぼ相当する間隔l
の値を決定するようにする。
この場合の複数の区分は音素の形態である。
既知の発声音を、例えば音素の形態の区分に区分化する
方法の実施に使用する装置は、さらに、音の基本パター
ンを記憶するメモリと、メモリの出力側に結合される第
1入力端子、第1装置の出力側に結合される第2入力端
子および出力端子を有する第5装置とを具え、該第5装
置は既知の時間整合により、既知の発声音を構成する音
の一連の基本パターンと発声音の音声信号との一致の程
度が最大となるようにするとともに、このようにして得
られた境界をその出力側に供給し、さらに、前記第4装
置の出力側に結合される第1入力端子、前記第5装置の
出力側に結合される第2入力端子および出力端子を有す
る結合装置を具え、前記第5装置は音を間隔lの値によ
り区切られる区分に割り当てて、そのため音の境界およ
びそれと対応する区分が極めて良好な一致を示すように
する。
結合装置は、1の値の数が対応する音より多いか或いは
少ない場合に1個以上の1の値を追加および省略すると
ともに、lの値の変化される群又は変化されない群をそ
の出力側に供給するようにすることができる。この結果
として、40〜50個のみの基本パターンから出発し、
或る特定の音素を第j装置で得られた区分の各々に割り
当て、更に、区分の数が、既知の発声音の構成され音素
の数より少ないか又は多い場合には補正を行なうことが
できる。
2重音を得るために、音声区分化装置は、結合装置の出
力側に結合された入力端子及び出力端子を有する第6装
置を具え、該第6装置は結合装置の1の値から音の境界
へ向かって動き出rとともに変換規則を用いて、2重音
境界を得て、これら2重音境界をその出力側に供給する
ようにすることができる。
また、未知の発声音の音声信号を認識し得るようにする
ため、装置は、さらに、既知の音の基本パターンを格納
するメモリと、該メモリの出力側に結合された第1入力
端子、第4装置の出力側に結合された第2入力端子及び
第1装置の出力側に結合された第3入力端子並びに出力
端子を有する第5装置とを具え、該第5装置は各区分を
既知の音の基本パターンと比較し、この区分および音の
一致の程度が最大となる区分に前記音を割り当て、各々
がこの割り当てた区分と最大限に一致するこれら音の一
連の基本パターンに関係する情報をその出力側に供給。
図面につき本発明を説明する。
第1図は本発明の方法を実施する装置の第1実施例を示
す図である。この装置は2重音収集を行うために使用さ
れる。この目的のため、熟練した話者がマイクロホン1
を経て装置に向けて、既知の音声を発声する。発声を行
う場合には、話者が一定の速さで話すようにする。この
話す速さは、遅速のない速度とする必要がある。さらに
、好適には話者は固定ピッチで話す必要がある。一般に
2重音収集を得るため使用される発声音は、例えば単語
”nenoone”のような意味のない単語とする。
この単語は音素”n″1.11 eII 、 Lr n
″r、 troon、 unn及び′e”から構成され
ている。この単語から、2重音“ne″′。
”en″’、 ”noo’″、 ”oon”及び’ne
”を導出することができる。2重音は2個の音素の遷移
を示すことから、音素より2重音の方が多いことは明ら
かである。
例えばオランダ語の場合、約40乃至50個の音素に対
して約1800個の2重音が存在する。マイクロホン1
を、入力端子2を経てアナログ−デジタル変換2刹3に
結合する。変換器において、電気信号はサンプリング周
波数約IQkHzでサンプリングされ、デジタル化され
る。音声の情報は主に5 kHz以下の周波数範囲にあ
るため、10ktlzのサンプリング周波数が好適とな
る。第3a図は、アナログ−デジタル変換器3の出力側
に現われる単語” n e n o o n e ”の
デジタル化された時間信号を示す。このA/D変換器3
の出力側に第1装置4の入力端5を結合する。この第1
装置4によってN個の信号S+(f)(1く1≦N)が
得られるようにする。これらN個の信号は、第3a図の
時間信号をN個の時間間隔に分割するとともに、例えば
各時間間隔に対して適切な時間間隔の発声音の周波数ス
ペクトルを取ることにより、得られる。
池の手段として、適切な時間間隔の発声音のスペクトル
エンベロープを取るようにする。この目的のためLPG
分析が使用される。従って、長さ10m5の時間間隔を
取るものとすると、関連するスペクトルエンベロープは
100サンプリングより或る時間信号から計算される。
第4図には音声信号の第1の5i’+i′1msに対す
る、第1の50個のスペクトルエンベロープS+(f)
を示す。
第5図には、発声音の周波数スペクトルを時間間@iの
曲線St ’ (f)で示す。このスペクトルは高速フ
ーリエ変換により得られる。この曲線s+ ’ (f)
の主な特徴は、そのピークがf=foおよびその倍数の
個所にあることである。周波数f0は音声信号のピッチ
を示す。曲線S+(f) は多数のd6に亘って上方に
推移するLPG分析により得られたスペクトルエンベロ
ープを示す。この曲線の周波数f、、 f2. f、お
よびf4におけるピークは、第1の4個のフォルマント
を示す。実際には、直列接続された複数(この場合4個
)の2次フィルタから構成される一個のフィルタの全パ
ラメータは、LPG技術で決められる。したがって、関
連のパラメータは(上記フォルマント周波数に対応する
)フィルタの共鳴周波数および帯域幅である(フォグテ
ア (Vogten)の論文(L、 LoM、Vogt
en: Analyse。
zuinige codering en resyn
these van spraak−geluidi 
Thesis、 Technische Hogesc
hool Eindhoven1983、 )、特に、
目2.1参照のこと)。
したがって、これらパラメータを用いることによりその
後の音声を同期化することができる。
“エムイーニー8000  ボイス シンセサイザー、
プリシシプルズアンド インターフェーシング(MBA
 3QQQ Voice 5yntehsizer、 
principles andinterfacing
、 Ph1lips’E1coma publicat
ion no、lot、)の特に第2〜4頁の題名“プ
リンシブルズオブ フォルマント スピーチ シンセシ
ス”の節参照のこと)。
第2装置7の入力端子8を第1装置4の出力端子6に結
合する。第1装置4によりその出力端子6に現われたN
個の信号st (f) (第4図参照)を用いて、第2
装置7の各時間間隔iに亘り関数cijを導出する。こ
こにJはalからす、 (a、<i、bl<i)までの
範囲である。第6図は斯る関数CIJの曲線を示し、第
7図は複数の連続する時間間隔lに対する曲線cijを
示し、ここにC1Jは以下の式により計算される。
および 式(2)から明らかなように、J=iのときにはcij
は値1を有する(第6図参照)。曲線CIJは時間間隔
lおよび時間間隔」に対するスペクトルエンベロープの
一致の程度を示す。第7図から明らかなように、時間間
隔10〜17に対するスペクトルエンベロープは、包括
的に、互いに共通点が多い。同様のことが、時間間隔1
9〜27についても言える。このことは、第4図からも
無理なく理解できるであろう。これらは、スピーチ信号
の部分であり、この部分において、次々と同じような状
態の部分へ変移されるスペクトルエンベロープは極めて
似ている。これがため、各部分は、斯る部分中、フォル
マントおよびそれらと関連する帯域幅のような、上記パ
ラメータがほとんど時間的に一定であることを示してい
る。
第3装置10の入力端子を第2装置7の出力端子9に結
合する。第3装置10は、第2装置7から曲線Ct、+
を受け、各時間間隔に関連する曲線C1,に対し、例え
ば、次式 に従って、この曲線の中点m+を決定する。
値aiおよびbiを任意に選ぶことができる。
」の値をこれらaiおよび5口こするのが好適であり、
この場合、C+、 at =Ct、 t]t =Cr 
 (第6図参照)となり、ここにおいてCrはP−ct
 tに等しい(CiIは曲線C1Jの最大値であり、こ
の例では1に等しい)。さらに、Pは0.8または0.
9に等しくするのが好適である。これらjの値をatお
よびbl と選定することにより、1からNまでの数に
ついて、即ち全ての発声音にわたって、式(3)による
積分を行なう場合よりも、mi値の決定が正確となる。
このような場合において、発声音の、その中点が決定さ
れた区域と相似の他のほぼ同一状態の区域は、その中点
の決定を妨害する。
例えば、単語”nenoone”において、はとんど一
定の区域が、音素r* nnに対応して3回発声する。
したがって、中点m1を真中のn″の一定区域に決定す
る場合には、積分領域は、他の音素パn′″の一つがそ
の範囲に収まるので、そんなに広くとる必要がない。
各時間間隔に対する中点mi に対応するj値は第7図
の垂線で示される。この図から明らかなように、静止区
域内の中点mi は、実際にIQ<i<17および20
< i <27に対して変化しない。
第4装置13の入力端子14を第3装置10の出力端子
12に結合する。第4装置13では、ブロック15にお
いて第3装置10で得られたデータから変数d1を決め
る。
関数d1 に対して、 d1=ml−i      (4) が得られる。
第7図において、各時間間V!iI+の関数diは夏お
よびm、間の水平接続線により示される。その上、第3
b図ではiの関数として曲線d1 を示している。関数
diの正から負へ変化する零細交差点は、関連する静止
部の中点m、に少なくともほぼ一致する。負から正へ変
化する、11〜1Mにより示される零細交差点によって
静止区域(音素)間の遷移の位置を得られる。これら零
細交差点は第4装置13のブロック16において決めら
れる。
第3b図と第3C図とから、第1および最後の区分Sl
は発声音の直前及び直後の黙音と一致する。次に、単語
”nenoone″′を構成する6個の音素に正確に一
致する6個の区分がまだ残されている。したがって、適
切な音素をこれら6個の区分に直接割り当てることがで
きる。
上記割り当て手順を用いることにより、時には、発声音
を構成する音素の数より多いか又は少ない区分を得るこ
ともある。この場合において、特定の音素を1つの区分
に直接割り当てることはできない。これらの場合も音素
を区分に正確に割り当辱るようにするため、装置はさら
にメモ1J18を備えるこのメモリには、各音素Xに対
し、音素の基本パターン並びに最小および最大の音素の
持続時間り、aln及びt8.。8)を記憶する。この
基本パターンは、フォルマント値及びそれと関係する帯
域幅から構成される。これら値から出発してスペクトル
エンベロープS(「)を、第5図に示すようなLPC分
析により計算することができる。このスペクトルエンベ
ロープは特定の音素Xと関連するエンベロープであり、
以後S、、(f)で示すこととする。
式(1)及び(2)から類推して、間隔lの時間信号の
スペクトルエンベローフト音素Xのスペクトルエンベロ
ープの一致を示す変数CI、 pHが得られる。
これは第5装置19内で行なわれる。この目的のため、
この第5装置には、これに、エンベロープs、X(f)
が得られる基本パターンを供給するメモリ18に結合さ
れる第1入力端子20と、時間間隔lと関連するエンベ
ロープSr (f)を供給する第1装置4の出力端子6
に結合される第2入力端子とを設ける。この第5装置1
9において、変数C++IINを得、発声音および一連
の音素の基本パターンの間で時間整合を行なって、両信
号間の一致の程度が最大となるようにする。第8a図は
、第8b図に示される発声音“’nenoone”に対
するこの時間整合した結果を示す。第8a図において、
x=lは発声音の前の無音を表わし、X=2は音素11
 n+1に対応し、x=3は音素”e” 、x = 4
は音素”n” 、 x = 5は音素110011、X
=6は音素”n” 、x = 7は音素II eII、
およびx=8は無音に夫々対応する。
これは既知の発声音に関連するため、どΦ音素が存在す
るか、どの順序でこれら音素が発声するかは既知である
。従って境界l、′〜17′ のみを決めるだけでよい
これら境界は以下のようにして決めることができる。第
10図において、時間を連続な時間間隔の数1で示され
る水平軸に沿ってプロットする。この場合にもlはl<
i<Nとする。次に(基本パターン)の音素pI−p、
lを垂直軸に沿ってプロットする。音素に含められる発
声音の前および後が無音の場合にはXは8に等しい。音
素p8は、時間間隔(lx−l ’ +1)からIX′
までに配置される。
C1+p’の値はグラフの左下から右上に向かう線1上
に常にプロットされる。
今、1.’(1≦x<X)を、以下の関数(ただしi0
/=Qおよびi、’−N)が最大となるように決める。
この上記関数を最大にするには、1.′にjX++ai
n≦1M’1)l−l′≦tN+l1la)1のような
状態が課される場合の動的計画法により実効される。
動的計画法は、それ自体既存の技術であり、アール・ベ
ルマンの[ダイナミック プログラミングJ (RoB
ellman: Dynamic programmi
ng UniversityPress、 Pr1nc
eton New Jersey、  1957.)お
よびネイによる刊行物の[ダイナミック プログラミン
グ アズ ア テクニク フォー パターン リコグニ
ッションJ (H,Mey: Dynamic pro
grammingas a technique fo
r pattern recognition Pro
c。
of the 6th Int、  Conf、  o
n Pat、tern recognition。
Muntch (OH)、  Oct、  19−22
. 1982. I)l)、  1119−25.)を
参照されたい。全ての境界11′から17′ までを上
記文献記載の方法により決める。次に、区分半速から得
られる境界Il乃至I7、および時間整合から得られる
境界11′ 乃至17′ を、結合装置23に供給する
。この目的のため、結合装置23の第1入力端子24を
第4装置13の出力端子17に結合し、第2入力端子2
5を第5装置19の出力端子22に結合する。
この結合装置23は、時間整合および第5装置19(第
8a図参照)により得られる音素を、第4装置13にお
ける区分化方法により得られ、lの値により区分けされ
る区分に、割り当てるために備えており、このため音素
の境界およびそれに応じた区分は極めて良好に一致する
第8aおよび8a図から明らかなように、境界11およ
び11′ はともにグループをなす。同様のことは境界
12および’2’ 、13およびI3’ 、+4および
14′、15および’S’ 、+6およびI6’ 、I
Tおよび17′ についても当てはめられる。これがた
め、この場合に結合装置23はその出力端子に1.乃至
1□の値を出力する。
この区分化手順は、例えば、発声音を構成する音素の数
より少ない区分を出力する場合もある。
このことは、第9aおよび9b図に示されている。第9
a図は区分化手順の結果を示している。境界1、乃至1
4を、図示されいない曲線diから得られるが、発声音
は6個の音素により構成される。次に時間整合の方法か
ら第9b図に示すような境界1.′ 乃至15′ を得
る。ここには曲線C++PMは図示していない。これか
ら、境界11および’l’ 、+2および1゜′、13
および1.′、並びに1.および15′ の間に一致が
見られることが胡らかである。この場合に13′ に応
じた余分の境界が結合装置23により加えられる。
他に、区分化手順により発声音を構成する音素の数より
多い区分を出力する可能性もある。これは第9Cおよび
9a図に示されている。第9c図は、区分化手順の結果
を示し、そこには5個の境界ll乃至I5がある。第9
d図は、時間整合の結果である4個の境界II′乃至!
4′ を示している。これから境界1.および11’ 
、’2および’2’ 、’4および13′ 、並びに1
5および14′ の間に一致が見られることが明らかで
ある。この場合において、境界13は結合装置により省
略される。
したがって、前段の装置により得られ且つ訂正された境
界は第6装置27に供給される。この第6装置27は、
結合装置23により得られた境界lから出発し、表1に
与えられるような変換規則を用い、2重音境界g+乃至
g8を決める。表Iは最も重要且つ共通に発生する2重
音に対する変換規則だけを示している。glおよび82
間に位置する2重音は、無音からn″への遷移を表わし
、同様にg2およびg3間に位置する2重音は’ n 
e ”への遷移を表わし、(以下略記すると)g3およ
び84間は” e n ”への遷移、g4およびg5の
間は’noo”への遷移、g5およびg6の間は“’o
on’″への遷移、g6およびg7の間は”ne″′へ
の遷移、並びにg7およびg8の間は′e″′から無音
への遷移をそれぞれ表わしている。表1のNo、31か
ら明らかなように、2重音境界g2+ g<およびg6
が境界j ll  +2: +3、l、および’S+ 
 ’6により限定された区分の中点に存在する(必要が
ある)。表■のNo、12から明らかなように、2重音
境界g3およびg7が境界12および16の夫々の後に
6時間間隔を取る必要がある。表IのN008から明ら
かなように、2重音境界g、が境界1.のl軸に沿って
6時間間隔後に位置し、表1のNo、17から明らかな
ように、2重音境界g、およびg8は第1および最後の
区分の中間に存在する必要がある。
表1のNo、19からNo、24までの音素は破裂音で
あり、2つの部分から或る。第1の部分は破裂前の無音
に相当する。第2の部分はそれ自体破裂であり、表にお
いてパバース)’(burst)  ′と称している。
上記区分化手順は、一般に、これら音素を2部分に相当
する2つの区分に区分化するものである。
この関連する2重音境界は、破裂に相当する区分の始点
の前にある1時間間隔に表1により選定される。
“声門閉鎖音軸Iottal 5top)”は、例えば
、すでに記した音声同期装置”MEA 8000”の名
称を発音する場合のような個々に離れた文字の間に挿入
された無音に相当する。
さら)ご、最も重要なドイツ語および英語の2重音を得
るための変換規則は、表■および表■に示される。
上記方法により得られた2重音は、次に、2重音のライ
ブラリィの形成のだ杓メモリ30に格納される。この目
的のため、メモリ30の2つの入力端子を、第1装置4
の出力端子6および第6装置27の出力端子29に結合
する。メモリ30では、各2重音および2重音の境界g
内に存在する各時間間隔に対して、 ・上記4個(又は5個)の7オルマントおよびそれと関
連する帯域幅、 ・音の強さに結びつく振幅パラメータ(第1装置でも得
られる)、 ・有声−無声音の判定(例えば、第1装置4内でも1尋
られる周期的信号か又は雑音影信号かどうかの判定) を格納する。この情報について、その後総合音声を達成
することができる(フォグテンの論文参照)。
第2図は本発明の装置の第2の実施例を示している。こ
の装置は、未知の発声音の認識のため使用される。これ
ら第1および2図におい゛C同一・つ)素子には同一の
符号付す。未知の発声音がマイクロホン1に人力され、
A/(1変換器3でデジタル信号に変換される第1装置
4は関数S、(f)を出力する(第4図参照)。第2装
置7は関数Cijを決定する(第7図参照)。次に第3
装置10は中間値m1を決定する(第7図参照)。第4
装置は曲線d1および値j ++ ・・・、1.4を決
定する(第3図参照)。
以上から、未知の発声音を構成する区分に含まれる音素
の多くの基本パターンに、原則として、相当する多数の
区分が得られる。この目的のため、メモリ18は全ての
音素の基本パターンを内部に有している。各区分を音素
の基本パターンと比較し、その音素を、区分と音節との
一致の程度が最大となる1区分に割り当てる第5装置3
1を備える。この目的のため、第5装置は、メモリに結
合される第1入力端子32、第4装置の出力端子17に
結合される第2入力端子33、第1装置の出力端子6に
結合される第3入力端子35、並びに出力端子34を有
する。この出力端子34には、音素が割り当てられる区
分に一致する程度が最大であることを夫々示すこれら音
素の一連の基本パターンに関する情報が現われる。これ
がため、未知の発声音が認識される。
区分の基本パターンとの比較は、例えば、以下のように
して行なわれる。
曲線C++PMを各区分およびある特定の音素Xの基本
パターンに対して、計算する。発声音および発声音にお
いて実際に発音される音素Xの基本i4ターンからの区
分に対して、例えば13′ および14′の間の曲線に
より第8a図に示すような曲線[:++pXを得る。こ
れに対し、境界が13′ および14′ にあれば、必
らず曲線diから得られる13および1.に存在するこ
とを加える必要がある。これがため、音素の基本パター
ンと第4装置13から(尋られた1の値、即ち11乃至
1Mにより区分された区分との間で比較が行なわれる。
発声音の区分と他の基本パターンとの比較において、さ
らに低い値を有する曲線CI、 Pイが得られる。次に
、(区分にわたって積分された)CL、、イが最大値を
有する音素Xは区分に割り当てられる。
したがって、例えば IJ!+l   IJL   11 を決め、ここに11および1゜1は区分の下側境界およ
び上側境界である。そして音素XはOイが最大1直とな
る前記区分に割り当てられる。
この手順を各区分に対して適用する場合には、発声音を
構成する一連の結合音素を最終的に得ることができる。
したがって、発声音が認識される。
本発明は図示の実施例に限定されるものではなく、本発
明の要旨を変更することなく種々の変更を加え得ること
はもちろんである。
39fthiss
【図面の簡単な説明】
第1図は本発明方法の実施に使用する装置の1例を示す
ブロック回路図、 第2図は上記装置の他の例を示すブロック回路図、 第3図はその第3a図において、時間の関数である発声
音の電気信号を示し、その第3b図において区分手順に
て得られた曲線diを示し、その第3C図において得ら
れた区分に属すると考えられる音素を示す説明図、 第4図は第3a図から連続する時間間隔i(1≦i≦N
)に対する音声信号のN個のスペクトルエンベロープを
示す特性図、 第5図は或る特定の時間間隔における音声信号の周波数
スペクトル及びそれと関連する周波数スペクトルエンベ
ロープを示す特性図、 第6図は或る特性の時間間隔1(1≦」≦N)に対する
関数C1Jを示す特性図、 第7図は一連の時間間隔lに対する関数cijを示す特
性図、 第8図はその第8a図において関数CI+ pxを示し
その第8b図において発声音の最初の時間信号を示し、
その第8C図において2重音境界9および区分境界lを
含む関数diを示す特性図、 第9図1ま第9a及び9b図において追加の区分境界の
追加を示し、その第90及び9d図において、区分境界
の省略を示す特性図、 第1O図は発声音及び音素の基本パターン間の時間整合
を示す説明図である。 1・・・マイクロホン  3・・・A/D変換器4・・
・第1装置    7・・・第2装置10・・・第3装
置    13・・・第4装置18、30・・・メモ’
J    19.31・・・第5装置23・・・結合装
置    27・・・第6装置FIG、I FIO,2 −ロ         ロ     Q−m−−+(k
Hzl FIG、9 FIG、10 ローN円ぐい■トロ■ローN円ぐ一■トf−−−−−−
FF−−−NNNNNNNN鴫−一)5       
           喝−邑・−

Claims (1)

  1. 【特許請求の範囲】 1、音響音声信号を、各信号がN個の連続する時間間隔
    の任意の時間間隔i(iは1からNまでの数)に関連す
    るN個の信号に変換して音声を区分化するに当たり、 iの或る値に対しjの値がa_i(a_i<i)からb
    _i(b_i>i)までの値である場合に、時間間隔i
    に関連する信号と、時間間隔jに関連する信号との一致
    の程度を表わす量である関数c_i_jを導出し、 時間間隔の通し番号iに関連し、音声信号の複数の部分
    の境界を形成し、その一部分内に位置する時間間隔に関
    連する曲線c_i_jが少なくともほぼ一致する、これ
    らiの値を決定するようにしたことを特徴とする音声の
    区分化方法。 2、各時間間隔iに対して、この時間間隔iに関連する
    関数c_i_jの中間値m_iを決定し、前記iの値に
    対して、前記中間値と当該時 間間隔iの通し番号との差を示す関数d_iにおける同
    一符号を有する零軸交差点に少なくともほぼ一致するi
    の値をとるようにしたことを特徴とする特許請求の範囲
    第1項記載の音声の区分化方法。 3、関数d_i(d_i=m_i−i)における負から
    正への零軸交差点に少なくともほぼ一致するiの値を決
    定するようにしたことを特徴とする特許請求の範囲第2
    項記載の音声の区分化方法。 4、a_iおよびb_iを、関数c_i_jが基準値c
    rに等しい場合のiの値に等しくするようにしたことを
    特徴とする特許請求の範囲第2項又は第3項に記載の音
    声の区分化方法。 5、前記基準値を、p<1、好ましくはpが0.8に等
    しい場合の、関数c_i_jの最大値のp倍に等しくす
    るようにしたことを特徴とする特許請求の範囲第4項記
    載の音声の区分化方法。 6、N個の時間間隔において音響音声信号の周波数スペ
    クトルをN個の信号に対して得るようにしたことを特徴
    とする特許請求の範囲第2項又は第3項に記載の音声の
    区分化方法。 7、N個の時間間隔において音響音声信号のスペクトル
    エンベロープを、N個の信号に対して得るようにしたこ
    とを特徴とする特許請求の範囲第2項又は第3項に記載
    の音声の区分化方法。 8、既知の発声音の音声信号を、例えば音素から形成さ
    れる音声区分に区分するに当たり、既知の時間整合(t
    ime alignment)により、発声音を構成す
    る音の一連の基本パターンと、発声音の音声信号との間
    で最大の一致が得られるようにし、上記音をiの値によ
    り区分される音声区分に割り当てて、音の境界と対応す
    る音声区分とが最良の一致となるようにしたことを特徴
    とする特許請求の範囲第1項乃至第3項の何れか1項に
    記載の音声の区分化方法。 9、1つの音を2個の隣接する区分に割り当てる場合に
    、これら2個の隣接する区分間の境界に対するiの値を
    省略し、2個の音を1つの区分に割り当てる場合に、2
    個の音の間の境界をiの値のグループに加えるようにし
    たことを特徴とする特許請求の範囲第8項記載の音声の
    区分化方法。 10、前記iの値のグループから出発し、変換規則を用
    いることにより、2重音の境界を得るようにしたことを
    特徴とする特許請求の範囲第9項記載の音声の区分化方
    法。 11、未知の発声音の音声信号を認識するために、各区
    分を既知の音の基本パターンと比較しこの音をこの区分
    および音の間の一致の程度が最大となる区分に割り当て
    るようにしたことを特徴とする特許請求の範囲第1項乃
    至第3項の何れか1項に記載の音声の区分化方法。 12、音響音声信号に相当する電気信号を受信する入力
    端子と、該入力端子に供給される入力端子および出力端
    子を有する第1装置とを備え、該第1装置ではN個の信
    号を得、これらN個の信号をその出力側に供給するよう
    にして本発明方法を実施する装置において、 さらに、前記第1装置の出力側に結合される入力端子と
    、出力端子とを有し、時間間隔iおよびjに関連する信
    号から連続する間隔iに対する関数c_i_jを得ると
    ともにその出力側に関数c_i_jを供給する第2装置
    と、第2装置の出力側に結合される入力端子と、出力端
    子とを有し、1区分内にある時間間隔に関連する曲線c
    _i_jが少なくともほぼ一致する音声信号の複数の部
    分の境界を形成する間隔iの値を決定する副装置とを具
    えるようにしたことを特徴とする音声区分化装置。 13、特許請求の範囲第2項記載の方法を実施する装置
    において、前記副装置は、 前記副装置の入力側に結合される入力端子と、出力端子
    とを有し、各間隔iに対する関連する関数c_i_jの
    中間値m_iを得るとともにその出力側に中間値m_i
    を供給する第3装置と、 前記第3装置の出力側に結合される入力端子と、前記副
    装置の出力側に結合される出力端子とを有し、関数d_
    iにおける零軸交差点に少なくともほぼ一致する間隔i
    の値を取り出すと共にこれらiの値をその出力に供給す
    る第4装置とを具えるようにしたことを特徴とする特許
    請求の範囲第12項記載の音声区分化装置。 14、特許請求の範囲第3項記載の方法を実施する装置
    において、前記第4装置が関数d_i(d_i=m_i
    −i)における負から正への零軸交差点に少なくともほ
    ぼ相当する間隔iの値を決定するようにしたことを特徴
    とする特許請求の範囲第13項記載の音声区分化装置。 15、特許請求の範囲第7項記載の方法を実施する装置
    において、前記第1装置がN個の時間間隔における音響
    音声信号のスペクトルエンベロープの形でN個の信号を
    取り出すようにしたことを特徴とする特許請求の範囲第
    13項記載の音声区分化装置。 16、特許請求の範囲第8項記載の方法を実施する装置
    において、さらに、音の基本パターンを記憶するメモリ
    と、メモリの出力側に結合される第1入力端子、第1装
    置の出力側に結合される第2入力端子および出力端子を
    有する第5装置とを具え、該第5装置は既知の時間整合
    により、既知の発声音を構成する音の一連の基本パター
    ンと発声音の音声信号との一致の程度が最大となるよう
    にするとともに、このようにして得られた境界をその出
    力側に供給し、さらに、前記第4装置の出力側に結合さ
    れる第1入力端子、前記第5装置の出力側に結合される
    第2入力端子および出力端子を有する結合装置を具え、
    前記第5装置は音を間隔iの値により区切られる区分に
    割り当てて、そのため音の境界およびそれと対応する区
    分が極めて良好な一致を示すようにしたことを特徴とす
    る特許請求の範囲第13項乃至第15項の何れか1項に
    記載の音声区分化装置。 17、前記結合装置は、iの値の数が対応する音より多
    いか或いは少ない場合に1個以上のiの値を追加および
    省略するとともに、iの値の変化される群又は変化され
    ない群をその出力側に供給するようにしたことを特徴と
    する特許請求の範囲第16項記載の音声区分化装置。 18、前記音声区分化装置は、結合装置の出力側に結合
    された入力端子及び出力端子を有する第6装置を具え、
    該第6装置は結合装置のiの値から音の境界へ向かって
    動き出すとともに変換規則を用いて、2重音境界を得て
    、これら2重音境界をその出力側に供給するようにした
    ことを特徴とする特許請求の範囲第17項記載の音声区
    分化装置。 19、特許請求の範囲第11項記載の方法を実施する装
    置において、該装置は、さらに、既知の音の基本パター
    ンを格納するメモリと、該メモリの出力側に結合された
    第1入力端子、第4装置の出力側に結合された第2入力
    端子及び第1装置の出力側に結合された第3入力端子並
    びに出力端子を有する第5装置とを具え、該第5装置は
    各区分を既知の音の基本パターンと比較し、この区分お
    よび音の一致の程度が最大となる区分に前記音を割り当
    て、各々がこの割り当てた区分と最大限に一致するこれ
    ら音の一連の基本パターンに関係する情報をその出力側
    に供給するようにしたことを特徴とする特許請求の範囲
    第13項又は第14項記載の音声区分化装置。
JP61028766A 1985-02-12 1986-02-12 音声の区分化方法 Expired - Lifetime JPH0823757B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL8500377A NL8500377A (nl) 1985-02-12 1985-02-12 Werkwijze en inrichting voor het segmenteren van spraak.
NL8500377 1985-02-12

Publications (2)

Publication Number Publication Date
JPS61186998A true JPS61186998A (ja) 1986-08-20
JPH0823757B2 JPH0823757B2 (ja) 1996-03-06

Family

ID=19845500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61028766A Expired - Lifetime JPH0823757B2 (ja) 1985-02-12 1986-02-12 音声の区分化方法

Country Status (6)

Country Link
US (1) US5109418A (ja)
EP (1) EP0191531B1 (ja)
JP (1) JPH0823757B2 (ja)
AU (1) AU584165B2 (ja)
DE (1) DE3675401D1 (ja)
NL (1) NL8500377A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004144683A (ja) * 2002-10-25 2004-05-20 Matsushita Electric Ind Co Ltd 温度センサ、温度測定装置、温度測定システム及びプログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222190A (en) * 1991-06-11 1993-06-22 Texas Instruments Incorporated Apparatus and method for identifying a speech pattern
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
SE517836C2 (sv) * 1995-02-14 2002-07-23 Telia Ab Metod och anordning för fastställande av talkvalitet
JPH10510065A (ja) * 1995-08-14 1998-09-29 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ 多言語テキスト音声合成のための二連音を生成及び利用する方法及びデバイス
EP0811906B1 (en) * 1996-06-07 2003-08-27 Hewlett-Packard Company, A Delaware Corporation Speech segmentation
US6006185A (en) * 1997-05-09 1999-12-21 Immarco; Peter System and device for advanced voice recognition word spotting
FR2786600B1 (fr) * 1998-11-16 2001-04-20 France Telecom Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale
US6389394B1 (en) 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
JP4792703B2 (ja) 2004-02-26 2011-10-12 株式会社セガ 音声解析装置、音声解析方法及び音声解析プログラム
CN1937032B (zh) * 2005-09-22 2011-06-15 财团法人工业技术研究院 切割语音数据序列的方法
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
JP6996627B2 (ja) * 2018-06-27 2022-01-17 日本電気株式会社 情報処理装置、制御方法、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3344233A (en) * 1967-09-26 Method and apparatus for segmenting speech into phonemes
US2903515A (en) * 1956-10-31 1959-09-08 Caldwell P Smith Device for selective compression and automatic segmentation of a speech signal
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
JPS572099A (en) * 1980-06-05 1982-01-07 Tokyo Shibaura Electric Co Voice recognizing device
JPS57178295A (en) * 1981-04-27 1982-11-02 Nippon Electric Co Continuous word recognition apparatus
JPS5972496A (ja) * 1982-10-19 1984-04-24 株式会社東芝 単音識別装置
US4672667A (en) * 1983-06-02 1987-06-09 Scott Instruments Company Method for signal processing
US4665548A (en) * 1983-10-07 1987-05-12 American Telephone And Telegraph Company At&T Bell Laboratories Speech analysis syllabic segmenter

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004144683A (ja) * 2002-10-25 2004-05-20 Matsushita Electric Ind Co Ltd 温度センサ、温度測定装置、温度測定システム及びプログラム

Also Published As

Publication number Publication date
EP0191531A3 (en) 1986-10-29
US5109418A (en) 1992-04-28
AU584165B2 (en) 1989-05-18
AU5333486A (en) 1986-08-21
EP0191531A2 (en) 1986-08-20
EP0191531B1 (en) 1990-11-07
DE3675401D1 (de) 1990-12-13
JPH0823757B2 (ja) 1996-03-06
NL8500377A (nl) 1986-09-01

Similar Documents

Publication Publication Date Title
Taylor Analysis and synthesis of intonation using the tilt model
DK175374B1 (da) Fremgangsmåde ved og udstyr til talesyntese ved sammenlægning-overlapning af bölgesignaler
EP0458859B1 (en) Text to speech synthesis system and method using context dependent vowell allophones
US7035791B2 (en) Feature-domain concatenative speech synthesis
JPS61186998A (ja) 音声の区分化方法
Yadav et al. Prosodic mapping using neural networks for emotion conversion in Hindi language
JPS5827200A (ja) 音声認識装置
US10643600B1 (en) Modifying syllable durations for personalizing Chinese Mandarin TTS using small corpus
US5970454A (en) Synthesizing speech by converting phonemes to digital waveforms
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
EP1511009B1 (en) Voice labeling error detecting system, and method and program thereof
Pitrelli et al. Expressive speech synthesis using American English ToBI: questions and contrastive emphasis
Itoh et al. A new waveform speech synthesis approach based on the COC speech spectrum
Peng et al. Singing Voice Conversion Between Popular Music and Chinese Opera Based on VITS
JP2980382B2 (ja) 話者適応音声認識方法および装置
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
EP0681729B1 (en) Speech synthesis and recognition system
JPH0358100A (ja) 規則型音声合成装置
Dutono et al. Effects of compound parameters on speaker-independent word recognition
Teixeira et al. Automatic system of reading numbers
JP2003108180A (ja) 音声合成方法および音声合成装置
Kumari et al. 20Conversion of English Text-to-Speech (TTS) Using Indian Speech Signal
FalDessai et al. Development of Konkani TTS system using concatenative synthesis
Fekkai Fractal based speech recognition and synthesis