JPS63281199A - 音声セグメンテ−ション装置 - Google Patents

音声セグメンテ−ション装置

Info

Publication number
JPS63281199A
JPS63281199A JP62117826A JP11782687A JPS63281199A JP S63281199 A JPS63281199 A JP S63281199A JP 62117826 A JP62117826 A JP 62117826A JP 11782687 A JP11782687 A JP 11782687A JP S63281199 A JPS63281199 A JP S63281199A
Authority
JP
Japan
Prior art keywords
phoneme boundary
phoneme
candidate
boundary
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62117826A
Other languages
English (en)
Inventor
和彦 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62117826A priority Critical patent/JPS63281199A/ja
Publication of JPS63281199A publication Critical patent/JPS63281199A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は波形編集型音声合成に使用する音声データ収集
等において用いる音声のセグメンテーション装置に関す
る。
(従来の技術) 従来の音声セグメンテーション技術は、音声認識のため
のものであり、日本音響学会講演論文集昭和61年3月
2−1−1Or音声理解システムにおけるセグメンテー
ションとラベル付けの検討J等に詳述されているような
様々な方法が知られている。これらの従来方法は、入力
音声を10ないし20m5のある一定の短い区間(フレ
ーム)に分割し、各々の区間の音素が何であるかを推定
するものである。したがって、従来方法によるセグメン
テーションの時間解像度はフレーム長ということにな・
る。
(発明が解決しようとする問題点) しかしながら、波形編集型音声合成に使用する音声デー
タ収集においては、時間軸での高い解像度が必要であり
、入力音声を短区間に分割して分折を行う従来技術では
対応することができなかった。
第5図は、従来技術の問題点等を説明するための図であ
る。図において縦軸はある音響パラメータ量を、横軸は
時間を表している。この分析は、10ないし20m5の
時間長を持つフレーム毎の音響パラメータを用いて行わ
れるため、時間方向の解像度はこのフレーム長に依存し
て決まる。またこの場合、抽出された音素境界候補51
は、実際の音素境界52とはずれており、このようなず
れは波形編集型音声合成のための音声データを作成する
際には問題となってくる。
これに対して本発明は、入力音声を短区間に分割して分
析を行い、音素境界候補を抽出する手段(手段1)と、
前記短区間より短い時間間隔で音素境界抽出を行う手段
(手段2)とを用い、さらに前記手段1において、入力
音声を表す音素系列に基づき音素境界を抽出する際のい
き値を変化させることよって、エラーが比較的少なく、
かつ時間解像度の高い、音声の自動セグメンテーション
装置を提供することを目的としている。
(問題点を解決するための手段) 本発明は、入力音声と入力音声を表す音素系列とから音
素境界を抽出するに際して、前記入力音声を表す音素系
列に基づいて音素境界を抽出する際のいき値を決定する
手段と、前記入力音声から抽出された音響パラメータか
ら第一の音素境界候補を抽出する手段と、前記第一の音
素境界候補付近において1つ以上の音素境界副候補を抽
出する手段と、前記第一の音素境界候補及び前記音素境
界副候補の各々の付近の前記入力音声から音響パラメー
タを抽出し各音響パラメータ値を比較することによって
、前記第一の音素境界候補及び前記音素境界副候補の中
からいずれかを音素境界として選択する手段とを有する
ことを特徴とする。
(作用) 第2図は、音素境界候補点の抽出方法を説明するための
図である。第一の音素境界候補は、ある一定時間のフレ
ーム長毎に抽出された音響パラメータ値に基づいて抽出
される。このとき、入力音声を表す音素系列に基づき、
音素境界の前後の音素の組合せによって音響パラメータ
のいき値を変化させる。これによって、境界判定の際に
各音素の特徴を考慮することができるようになり、した
がって、エラーの比較的少ないセグメンテーションを行
うことが可能となる。
次に、第一の音素境界候補からΔtの時間間隔で1つ以
上の音素境界副候補を選ぶ。このとき、実際の音素境界
の存在する可能性のある範囲は、前記第一の音素境界候
補の前後のフレーム内であると考えられる。したがって
、音素境界副候補を選択する範囲を、第一の音素境界候
補の前後のフレーム内に限定することができる。このと
きの前記時間間隔Δtが音素境界決定の時間解像度とな
る。ので、これ゛を短くとることによって、時間解像度
を高くすることが可能となる。
(実施例) 第1図は本発明を実現した装置の実施例を示すブロック
図である。音響パラメータ抽出部13では、音声入力端
子12から入力された音声波形から、音響パラメータ値
をある一定のフレーム長を持った短区間毎に抽出する。
いき値決定部14では、音素系列入力端子11から入力
された音素系列に基づいて、音素境界候補を抽出する際
の音響パラメータのいき値を決定する。
第一境界候補抽出部15では前記いき値決定部14にお
いて決定されたいき値に基づいて、前記音響パラメータ
値から第一の音素境界候補を抽出する。
境界側候補抽出部16では、前記第一の音素境界候補の
前後のフレームにおいて、Δtの時間間隔で1つ以上の
点を音素境界副候補として選ぶ。音素境界決定部18に
おいては、以下に詳述する方法によって第一の音素境界
候補及び音素境界副候補の中から音素境界として最適な
点を選択し、この点を音素境界として音素境界出力端子
19に出力する。
以下では、第一の音素境界候補と音素境界側候補の中か
ら、音素境界を決定する方法について詳述する。
第2図は、入力音声/sa/において/s/と/aJの
境界を決定する場合の例を示した図である。前記入力音
声に対してフレーム単位で音響パラメータを分析し、こ
れによって前記手段1により第一の音素境界候補を抽出
する。次に第一の音素境界候補がらΔtの時間間隔で1
つ以上の点を音素境界側候補として選ぶ。
第3図は、本発明による音素境界決定方法を詳しく説明
するための図である。ここでは説明の簡単のため、音素
境界側候補としては1点のみを示す。
第一の音素境界候補31及び音素境界側候補32を中心
として時間軸のそれぞれの左側の区間Lsl、La2、
右側の区間Lal、La2において音響パラメータを抽
出する。/s/と/aJの境界を決定する場合の音響パ
ラメータの例として零交差数が上げられる。前記区間L
sl、Lal、La2及びLa2における零交差数をそ
れぞれZsl、Zal、Zs2及びZa2とすると、Z
sl/Zalは区間んでいるかを示す一つの尺度なって
いる。そこでZsl/ZalとZs2/Za2とを比較
し、その値が大きい方を音素境界として決定する。この
とき用いる音響パラメータは、入力音素系列が既知であ
ることを利用して、その境界の前後の音素の組合せによ
って各音素の違いが最も顕著に現れる音響パラメータを
選択することもできる。また、音素の組合せによっては
1つの音響パラメータだけでは正確な境界決定が困難な
場合もあるので、使用する音響パラメータは1つとは限
らず、音素の組合せによっては複数の音響パラメータを
使用することも可能である。
第4図は、本発明による手段を用いて音素境界が正しく
抽出された例を示した図である。まず、前記手段1によ
りフレーム単位の時間解像度で第一の音素境界候補41
が抽出される。次に前記手段2により、フレーム長より
短い時間間隔Δtで音素境界側候補がいくつか選ばれ、
それらの音素境界候補の中から音素境界側候補の1つ4
2が音素境界として決定された例である。
(発明の効果) 以上述べてきたように、本発明によれば、自動的にかつ
時間軸上での解像度の高いセグメンテーションを行うこ
とができるので、波形編集型音声合成に使用する音声デ
ータ収集等において用いる音声のセグメンテーションを
自動化する装置を実現するのに有用である。また、本発
明を実現する装置は、他の方式の音声合成のための音声
データ収集及び音声認識においても有効である。
【図面の簡単な説明】
、 第1図は本発明による音声セグメンテーション装置
の一実施例を示すブロック図、第2図、第3図、第4図
は音素境界候補の決定方法を説明するための図、第5図
は従来技術の問題点等を説明するための図である。

Claims (1)

    【特許請求の範囲】
  1. 入力音声と入力音声を表す音素系列から音素境界を抽出
    するに際して、前記入力音声を表す音素系列に基づいて
    音素境界を抽出する際のいき値を決定する手段と、前記
    入力音声から抽出された音響パラメータから第一の音素
    境界候補を抽出する手段と、前記第一の音素境界候補付
    近において1つ以上の音素境界副候補を抽出する手段と
    、前記第一の音素境界候補及び前記音素境界副候補の各
    々の付近の前記入力音声から音響パラメータを抽出し各
    音響パラメータ値を比較することによって、前記第一の
    音素境界候補及び前記音素境界副候補の中からいずれか
    を音素境界として選択する手段とを有することを特徴と
    する音声セグメンテーション装置。
JP62117826A 1987-05-13 1987-05-13 音声セグメンテ−ション装置 Pending JPS63281199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62117826A JPS63281199A (ja) 1987-05-13 1987-05-13 音声セグメンテ−ション装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62117826A JPS63281199A (ja) 1987-05-13 1987-05-13 音声セグメンテ−ション装置

Publications (1)

Publication Number Publication Date
JPS63281199A true JPS63281199A (ja) 1988-11-17

Family

ID=14721199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62117826A Pending JPS63281199A (ja) 1987-05-13 1987-05-13 音声セグメンテ−ション装置

Country Status (1)

Country Link
JP (1) JPS63281199A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5156768A (en) * 1991-04-05 1992-10-20 Allied-Signal Inc. Stabilized chlorine-containing refrigeration compositions
US5380449A (en) * 1991-04-05 1995-01-10 Alliedsignal Inc. Stabilized dichlorotrifluoroethane refrigeration compositions
JPH11506845A (ja) * 1995-09-11 1999-06-15 ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5156768A (en) * 1991-04-05 1992-10-20 Allied-Signal Inc. Stabilized chlorine-containing refrigeration compositions
US5380449A (en) * 1991-04-05 1995-01-10 Alliedsignal Inc. Stabilized dichlorotrifluoroethane refrigeration compositions
JPH11506845A (ja) * 1995-09-11 1999-06-15 ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置

Similar Documents

Publication Publication Date Title
US6826350B1 (en) High-speed signal search method device and recording medium for the same
CN100530354C (zh) 信息检测装置、方法和程序
US20130046533A1 (en) Identifying features in a portion of a signal representing speech
US4589131A (en) Voiced/unvoiced decision using sequential decisions
CN108682436B (zh) 语音对齐方法及装置
JP3402748B2 (ja) 音声信号のピッチ周期抽出装置
JPS63281199A (ja) 音声セグメンテ−ション装置
CN111445924A (zh) 基于自回归模型系数检测定位语音片段内平滑处理的方法
JPH0766272B2 (ja) 音声セグメンテ−ション装置
JPS6029800A (ja) 音声分析方式
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JP3031081B2 (ja) 音声認識装置
JPS61223796A (ja) 音声区間検出回路
JP2532618B2 (ja) ピッチ抽出装置
JPS63292198A (ja) 音声セグメンテ−ション装置
JPS61233791A (ja) 音声認識装置における音声区間検出方式
CN113763988A (zh) 机车司机室监控信息与lkj监控信息的时间同步方法及系统
JP2655637B2 (ja) 音声パターン照合方式
CN112019786A (zh) 智能教学录屏方法和系统
JPS61252595A (ja) 音声認識処理方式
JPS58193597A (ja) ピッチ抽出装置
JPS5925238B2 (ja) 音声分析合成方式の音声区間判定方法
JPH0922300A (ja) 音声符号化方法
JPH01310400A (ja) 音声ピッチ抽出装置
JP2000214873A (ja) 音声ピッチマ―ク付与方法及び装置