JPS61254998A

JPS61254998A - 音声単語編集方式

Info

Publication number: JPS61254998A
Application number: JP60095810A
Authority: JP
Inventors: 今井　雅隆; 倉元　洋司
Original assignee: Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1985-05-02
Filing date: 1985-05-02
Publication date: 1986-11-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（発明の分野）本発明は、銀行や学校などにおける警報その他の放送と
か電話でのサービスなどに利用するものであって、ＡＤ
ＰＣＭ　（適応差動パルス符号変調）に基づいた音声単
語編集方式に係り、特には、ＡＤＰＣＭコードで表現さ
れた音声単語データ間に、同じ＜ＡＤＰＣＭコードで表
現された無音データを挿入した状態で、これらのデータ
を接続するための技術に関する。

（発明の概要）本発明は、集音データと単語データとの接続を良好に行
い、自然なかたちでの音声合成ができるようにするもの
である。

（従来技術とその問題点）音声信号は、特に非定常性が強く、平均レベル。

瞬時レベル、標本値間の相関などが絶えず変動する。こ
のような音声信号をＡＤＰＣＭ　（適応差動パルス符号
変調）方式でコード化すると、音声信号の非定常的な変
動に対して良好に追従した状態でコード化することがで
きる。

即ち、ＡＤＰＣＭ方式は、１つ前のサンプリング時点に
おける量子化幅（ステップ幅）Δ、、−１に、その時の
量子化器の出力によって決まる係数Ｍ７−１を乗じたも
のを、現サンプリング時点における量子化幅Δ７とする
ものである。つまり、Δ７＝ΔＭ−１ｘＭｆｉ−，・・
・・・・・・・（１）１６進表示のＡＤＰＣＭコードと
コード値と量子化幅係数との関係を次表に示す。

この表におけるコード値“１°は音声信号のレベル“０
“に対応する。これが一般的には無音データである。

“θ″レベルなるＡＤＰＣＭコード列は、０．８，０，
８．・・・・・・・・・、０，８である。無音データが
例えば１０回連続すると、１０個目の無音データについ
ての量子化幅Δ、。は、１個目の量子化幅をΔ１として
、式（１）から、Δ１゜−０，９”ＸΔ、＃０．３８７
Δ、　　・・・・・・・・・（２）となる。このような
無音データの次にくる単語データの先頭コードが“０゛
〜“３”または“８”〜“Ｂ”であると、先頭データの
量子化幅Δ５．は、Δ□−０，９×Δ１゜＃０．３４９
Δ、　　・・・・・・・・・（３）と、著しく小さくな
る。

このように量子化幅が時系列的に影響を受けるＡＤＰＣ
Ｍ方式で無音データを単語データに接続する場合、その
接続の前後で量子化幅を一敗させる必要がある。

しかしながら、従来の単純なＡＤＰＣＭ方式には、次の
ような問題点がある。

例えば、音声単語「きょうは」と音声単語「よい」と音
声単語「てんきてず」とを、通常の会話と同様に合成す
る場合、無音を“−”で表すとして、〔きょうは−よい−てんきです〕のように音声単語と音声単語との間に無音を挿入した状
態でデータを接続することが好ましい。

しかし、無音“−”のデータ列において、前記のように
最終の無音コードの量子化幅Δ１゜が非常に小さいと、
後続の音声単語「よい」や「てんきてず」の先頭コード
の量子化幅Δ□が著しく小さくなり、接続すべき無音デ
ータと単語データの量子化幅が不一致となるため、「よ
」や「て」が聞こえにくくなる。

ことに先頭データに低レベル部をもつ単語（例えば、さ
行の単語などの摩擦音）の場合には、無音データの影響
で単語レベルが著しく小さくなり、聞こえなくなってし
まう。

一例を挙げると、音声単語「わたしは」と無音「−」と
音声単語「せんせいてすｊとを接続して音声合成すると
、「せんせいです」の先頭の「せ」の先頭データのレベ
ルが著しく低くなって、「せ」自体が不明確となり、例
えば、〔わたしは−んせいです〕のように聞こえるといった具合である。

（発明の目的）本発明は、このような事情に鑑みてなされたものであっ
て、ＡＤＰＣＭコードで表現された音声単語データ間に
、同じ＜ＡＤＰＣＭコードで表現された無音データを挿
入した状態で、これらのデータを接続するに当たって、
良好な接続を可能とする音声単語編集方式を提供するこ
とを目的とする。

（発明の構成と効果）本発明は、このような目的を達成するために、次のよう
な構成をとる。

即ち、本発明の音声単語編集方式は、ＡＤＰＣＭ方式に
よる無音データについての量子化幅係数を、初回サンプ
リングから所定サンプリング回数の第１サンプリング期
間において１未満の値に設定し、かつ、前記第１サンプ
リング期間の経過後の所定サンプリング回数の第２サン
プリング期間において１を超える値に設定したことを特
徴とするものである。

この構成による作用は、次の通りである。

前記の（従来技術とその問題点）の項で挙げた例につい
て述べる。無音データが１０回連続する場合に、例えば
１個目から７個目までの無音デー夕についての量子化幅
係数を“０．９”　（ＡＤＰＣＭコードは０”　（正）
と８”　（負）〕に設定し、８個目から１０個目までの
無音データについての量子化幅係数を１１．２″　（Ａ
ＤＰＣＭコードは“４”　（正）とＣ′　（負）〕に設
定したとする。

′０ルベルとなるＡＤＰＣＭコード列は、０．８．・・
・・・・・・・、Ｏ，Ｃ，４，Ｃ７個　　３個である。従って、１０個目の無音データについての量子
化幅Δ１゜′は、１個目の量子化幅をΔ１として、式（
１）から、 Δ１゜’＝０．９６Ｘ１．２″Δ、＝０．９１８Δｉ・
・・・・・・・・（４）となる。このような無音データの次にくる単語データの
先頭コードが“Ｏ”〜″３”または１８″〜“Ｂ”であ
ると、先頭データの量子化幅ΔＩ１１′は、 Δ□’−０，９ＸΔ１゜’＃０，８２６Δ１・・・・・
・・・・（５）と、十分に大きくなる。

式（２１，ｆ４１および弐Ｆ３＋、　ｆ５１により、従
来の場合と比較すると、 Δ□′／Δ、＝Δ、。′／Δ、。＃２．３７（倍）とな
る。

以上の例から明らかなように、本発明によれば、次のよ
うな効果が発揮される。

（１）無音データについての量子化幅係数をあるサンプ
リング期間において１を超える値に設定しであるため、
量子化幅が時系列的に影響を受けるＡＤＰＣＭ方式を採
用しであるにもかかわらず、さ行の単語などの摩擦音の
ように先頭データに低レベル部をもつ単語の場合でも、
無音データの影響を緩和して、無音データと単語データ
との接続を良好なものとし、明瞭に聞き取れる音声にす
ることができる。

（ｉｉ　）前記（ｉ）のような無音データについての量
子化幅係数の設定により、この量子化幅係数を繰り返し
使用できるため、空き時間をつくりだすことができる。

（実施例の説明）以下、本発明を図面に示す実施例に基づいて詳細に説明
する。第１図は本発明の実施例に係る音声単語編集方式
のブロック図である。

図において、１はマイクロホン、２は、マイクロホン１
から入力した音声のアナログ信号をデジタル信号に変換
するＡ／Ｄコンバータ、３は、Ａ／Ｄコンバータ２から
入力した音声デジタル信号をＡＤＰＣＭによって振幅が
大きい程強く圧縮するＡＤＰＣＭＥ：縮毛段、４は、Ａ
ＤＰＣＭ圧縮手段３からのデータについて有音（音声単
語）と無音とに分離する有音／無音分離手段、５は分離
された無音データの量子化幅算出手段、６は、量子化幅
算出手段５によって算出された量子化幅に基づいて無音
データについてストリング生成式を作成するストリング
生成式発生手段である。ＡＤＰＣＭ圧縮手段３．有音／
無音分離手段４．量子化幅算出手段５およびストリング
生成式発生手段６が音声分析用制御手段７を構成してい
る。

８はメモリであり、有音（音声単語）データのメモリエ
リア８ａと、無音コードのメモリエリア８ｂとを有して
いる。

９は、ひとまとまりの文を合成するための一連のプログ
ラムデータを、複数の文ごとに格納したテーブルである
。例えば、「火災が発生した。緊急に避難せよ。」とい
うひとまとまりの警報文を合成するためのプログラムデ
ータ、その他の文を合成するためのプログラムデータが
格納されている。

１０は、テーブル９から一連のプログラムデータを読み
出し、そのプログラムデータに基づいてメモリエリア８
ａおよびメモリエリア８ｂから要求された単語データお
よび無音データを読み出す放送文選択手段である。この
放送文選択手段１０は、警報出力手段１１その他の出力
手段に接続され、選択された出力手段からの指令信号に
よって前記の読み出し制御を司るように構成されている
。

１２は、メモリエリア８ａおよびメモリエリア８ｂから
読み出した単語データおよび無音データを、ＡＤＰＣＭ
によって振幅が大きい程強く伸長するＡＤＰＣＭ伸長手
段である。放送文選択手段１０とＡＤＰＣＭ伸長手段１
２とが音声合成用制御手段１３を構成している。

１４はＡＤＰＣＭ伸長手段１２から順次的に出力された
単語データおよび無音データをアナログ信号に変換する
Ｄ／Ａコンバータ、１５はＤ／Ａコンバータ１４に接続
されたスピーカである。

次に、この実施例について、ストリング生成式を作成す
る動作を第２図のフローチャートに基づいて説明する。

録音時において、ステップ■では有音／無音分離手段４
により無音データを抽出し、ステップ■では量子化幅算
出手段５により、一般単語に比べて十分に短いサンプリ
ング期間の無音データをもとにし、既出の表に基づいて
量子化幅Δ３を算出する。

ステップ■でｉレジスタの内容をｉ＝５に設定する。ス
テップ■でデータメモリＤ１に１６進表示のＡＤＰＣＭ
コード”４．Ｃ”を入れる。データメモリＤ、は正負の
２データを１セツトとして一時記憶するものである。

ステップ■では量子化幅算出手段５により量子化幅Δ、
を算出する。即ち、 Δ０−Δ、−、ｘＭ、−。

であり、量子化幅Δ、−１は、ステップ■で算出した量
子化幅Δ７よりもかなり小さくなっている。

また、Ｍｅ−＋　＝　１．２　＞　ｌであるから、Δ、
〉Δヨー１である。

ステップ■で量子化幅Δ７と量子化幅Δ、との差が２０
％未満かどうかを判断する。即ち、（Δ、−Δ、）／Δ
、＜０．２の判断を行う。この判断において、ＮＯのと
きはステップ■に移行し、ｉレジスタの内容を°＋１′
する。ステップ■でｉ〉１０かどうかを判断し、Ｎｏの
ときはステップ■にリターンする。

以降、同様にしてステップ■での判断がＹＥＳとなるま
で、ステップ■〜■を繰り返す。この繰り返しにより、
ステップ■で算出される量子化幅Δ、が次第に増加し、
ステップ■での量子化幅Δ７に近づいていく。

ステップ■での判断がＹＥＳのときはストリング生成式
作成のためのプログラムを終了する。このようにするの
は、ホワイトノイズが大き過ぎて無音データのコードを
つくるのに不適当であるため、つまり、コード列が可聴
レベルに入ってしまうためであり、また、一般的にはあ
り得ないためである。

ｉ≦１０の範囲で、ステップ■での判断がＹＥＳとなる
と、ステップ■に移行し、ストリング生成式を作成し、
プログラムを終了する。

ストリング生成式は、データメモリＤ１〜Ｄ４の内容を
それぞれ“０，８″に固定化し、かつ、データメモリＤ
、〜Ｄ、の内容をそれぞれ“４゜Ｃ”にセットし、かつ
、データメモリＤＩ〜Ｄよ。

の内容をそれぞれ０，８”にセントしたものである０例
えば、ｉ＝９＜１０のときにステップ■での判断がＹＥ
Ｓとなったとすると、がストリング生成式となる。

これによって、ｉ＝ｌ〜４のサンプリング期間では量子
化幅係数として０．９が選択され、ｉ＝５〜９の期間で
は量子化幅係数として１．２が選択され、１＝１０〜２
０の期間では量子化幅係数として再び０．９が選択され
る。

Ｄ、〜Ｄ４を“０．８′に固定しであるのは、前段の単
語が途中で途切れた場合でも量子化幅が自動調整されて
、無音データと単語データとの接続を自然なものにする
ためである。

Ｄ、〜Ｄ９　　（−船釣にはり、（５≦ｉ≦１０）〕を
′４．Ｃ”にセットするのは、無音データの影響で後続
の単語データのレベルが小さくなり過ぎ、聞こえなくな
るのを防止するためであり、これが本発明のポイントで
ある。

もし、量子化幅係数を１．２のままにしておくと、無音
データのレベルが上昇し過ぎて可聴レベルに入ってしま
うし、無音データにおける最終サンプリングのデータの
量子化幅が大きくなり過ぎて、後続の単語データのレベ
ルが過剰に大きくなり、その結果、無音データと単語デ
ータとの接続が不良になる。

このことを防止するために、Ｉ）ｔｏ〜Ｄ２゜を“０゜
８”にセットして量子化幅係数を０．９に戻すのである
。

次に、音声を合成する場合の動作を説明する。

例えば、警報出力手段１１から放送文選択手段１０に指
令信号が与えられると、放送文選択手段１０は、テーブ
ル９から一連のプログラムデータを読み出し、そのプロ
グラムデータに基づいてメモリエリア８ａおよびメモリ
エリア８ｂから要求された単語データおよび無音データ
を順次的に読み出す。即ち、例えば、「火災が一発生し
た。−緊急に一避難せよ、」というひとまとまりの警報
文を合成するための単語データおよび無音データを読み
出し、順次的に合成する。

このように合成した単語データおよび無音データのデー
タ列は、ＡＤＰＣＭ伸長手段１２によって、振幅が大き
い程強く伸長され、接続の良好な状態で復元化さね、ろ
、復元化されたデータ列は、Ｄ／Ａコンバータ１４によ
ってアナログ信号に変換されたのち、スピーカ１５から
音声となって出力される。

以上のように、量子化幅が時系列的に影響を受けるＡＤ
ＰＣＭ方式を採用し、ＡＤＰＣＭコードで表現された音
声単語データ間に、同じ＜ＡＤＰＣＭコードで表現され
た無音データを挿入した状態で、これらのデータを接続
するものであるにもかかわらず、さ行の単語などの摩擦
音のように先頭データに低レベル部をもつ単語の場合で
も、無音データの影響を緩和して、無音データと単語デ
ータとの接続を良好なものとし、明瞭に聞き取れる音声
にすることができる。

次に、゛発明の構成による作用の説明で述べたものに対
応する別の実施例について説明する。

それは、第１図において、音声分析用制御手段７におけ
る量子化幅算出手段５およびストリング生成式発生手段
６をなくし、メモリ８のメモリエリア８ｂに固定化した
無音コード、０．８．・・・・・・・・・、Ｏ，Ｃ，４，Ｃ７個　　
３個を予め設定したものに相当する。

その動作は既述の通りであるので、説明を省略する。

【図面の簡単な説明】

第１図は本発明の実施例の音声単語編集方式に係るブロ
ック図、第２図はストリング生成式作成のためのフロー
チャートである。

Claims

【特許請求の範囲】

（１）ＡＤＰＣＭ方式による無音データについての量子
化幅係数を、初回サンプリングから所定サンプリング回
数の第１サンプリング期間において１未満の値に設定し
、かつ、前記第１サンプリング期間の経過後の所定サン
プリング回数の第２サンプリング期間において１を超え
る値に設定した音声単語編集方式。