JPS63236100A - Generation of spectral rough form for voice rule synthesization - Google Patents

Generation of spectral rough form for voice rule synthesization

Info

Publication number
JPS63236100A
JPS63236100A JP62070670A JP7067087A JPS63236100A JP S63236100 A JPS63236100 A JP S63236100A JP 62070670 A JP62070670 A JP 62070670A JP 7067087 A JP7067087 A JP 7067087A JP S63236100 A JPS63236100 A JP S63236100A
Authority
JP
Japan
Prior art keywords
spectral
vcv
speech
vowel
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62070670A
Other languages
Japanese (ja)
Inventor
克彦 白井
毅 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP62070670A priority Critical patent/JPS63236100A/en
Publication of JPS63236100A publication Critical patent/JPS63236100A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 [産業上の利用分野] 自然音声と比較して、規則合成方式で作られた音声は、
音質が悪く自然性や明瞭性(了解性)に欠けているため
、本格的な実用化システムは、まだ現れていない。しか
し、規則合成で得られた音声は、任意の音声を出力する
ことができるだけでなく、発声速度を変化させた声や老
若男女の声や情緒・感情を表す声など、多様性を持たせ
ることが可能である。本発明のスペクトル軌道制御法(
Spectral Locus Control Me
thod :以下ではSLCMと略す)により、規則合
成の音質の向上が実現されれば、電話の時報・駅の構内
の案内放送・自動販売機などに実用化されている波形符
号化方式にとって代わるだけてなく、現在はまだ試作段
階であるが、マン・マシン番インターフェースとしての
利用価値の高い機械との対話システム、聾唖者用読書器
械のテキスト・音声変換システム、翻訳電話の自動翻訳
システム等において音声出力の役割を充分に果たす技術
となる。
[Detailed Description of the Invention] [Industrial Application Field] Compared to natural speech, speech created by the rule synthesis method is
Because the sound quality is poor and lacks naturalness and clarity (understandability), a full-scale practical system has not yet appeared. However, the voices obtained through rule synthesis can not only output arbitrary voices, but also have diversity, such as voices with varying speaking speeds, voices of young and old men and women, voices expressing emotions and feelings, etc. is possible. Spectral trajectory control method of the present invention (
Spectral Locus Control Me
If thod (hereinafter abbreviated as SLCM) improves the sound quality of regular synthesis, it will simply replace the waveform encoding method that has been put into practical use in telephone time signals, station guidance announcements, vending machines, etc. Currently, it is still in the prototype stage, but it can be used in dialogue systems with machines that have high utility as man-machine interfaces, text-to-speech conversion systems for reading devices for the deaf, automatic translation systems for translation phones, etc. This is a technology that fully fulfills the role of output.

[従来の技術] 規則合成の一般的な手順は、音源生成に必要なイントネ
ーションやアクセント・音の強弱・リズム等の韻律的特
徴を規則によって決定し、これを基に生成された駆動音
源信号と、素片の結合や音韻長の伸縮に伴う修正を加え
た調音過程の音響的特徴を表現するパラメータ(音響パ
ラメータ)から、合成音声を得ることができる。この合
成過程には、 ■ 音声生成モデルによる音声分析手法■ 韻律的特徴
の規則化 ■ 調音の動的特徴によるスペクトル特性の変形法 の三つの技術が導入されている。
[Prior Art] The general procedure for rule synthesis is to determine the intonation, accent, strength, rhythm, and other prosodic features required for sound source generation using rules, and then combine them with the generated drive sound source signal based on the rules. , synthesized speech can be obtained from parameters (acoustic parameters) that express the acoustic characteristics of the articulatory process, including modifications due to the combination of fragments and the expansion and contraction of phoneme length. Three techniques have been introduced into this synthesis process: ■ Speech analysis method using a speech generation model ■ Regularization of prosodic features ■ Modification of spectral characteristics using dynamic features of articulation.

そのうち■は、記憶された合成単位(音素片)の編集で
作られた合成音声のスペクトル特性に、連続音声中の音
韻の調音結合や母音の定常部におけるundersho
ot等の音響特性を付加したり、素片間に滑らかな遷移
を施したりして、自然音声の音響的特性にてきるだけ近
い形に表現する技術である。現状では、合成単位(音素
片)を複数の音韻連鎖にして、その素片のもつ音響特性
に連続音声中に起こるスペクトル特性の変形を幾分含ま
せたり、素片間のホルマントの遷移を高次モデルで滑ら
かにしたりして音質の改善を図っている。これまでの音
素片は、仮名文字との対応がよい音節的な単位を重視し
、単音節のV(母音)、CV(子音−母音)や、音韻連
鎖のCvCや、複合音節のVCVが多く用いられてきた
。その中で、素片内に調音結合の効果を多く含むCvC
音素片やVCV音素片は、比較的音質が良いという報告
がなされている。
Among these, ■ is based on the spectral characteristics of synthesized speech created by editing memorized synthesis units (phoneme fragments), the articulatory combination of phonemes in continuous speech, and the undersho in the constant part of vowels.
This is a technique to express acoustic characteristics as close as possible to the acoustic characteristics of natural speech by adding acoustic characteristics such as ot or by creating smooth transitions between segments. Currently, synthesis units (phoneme fragments) are made into multiple phoneme chains, and the acoustic characteristics of the phoneme fragments include some deformation of the spectral characteristics that occurs in continuous speech, and the transition of formants between phoneme fragments is enhanced. We are working to improve the sound quality by making it smoother in the next model. Until now, phoneme fragments have focused on syllabic units that have good correspondence with kana characters, and there have been many monosyllables such as V (vowel) and CV (consonant-vowel), phonological chain CvC, and compound syllable VCV. has been used. Among them, CvC, which contains many effects of articulatory combination within the fragment.
It has been reported that phoneme pieces and VCV phoneme pieces have relatively good sound quality.

[発明が解決しようとする問題点] 本発明は、前述の音声の規則合成の音質を左右する技術
のうち、■の連続音声のスペクトルの特性に着目してい
る。素片を作成する時に用いた分析単語の音韻環境は、
その素片に反映させることができるので、基本単位は単
音節よりも長い複数の音韻連鎖の方が、スペクトル変形
を固定的に吸収できる。しかし、CvC音素片やVCV
音素片では、その素片の前後の音韻環境の違いによる影
響までは表現できない。また、それ以上の長い音韻連鎖
を用いることは、素片総数(記憶情報量)の大幅な増加
が原因で不可能である。高度なスペクトル変形規則を用
いる手法は、スペクトル特性の変形に音韻環境を決める
いくつかの要素が複雑に絡み合っているので、その対応
付けを明確にする必要があり、規則を用いて素片全体の
スペクトル特性を適切に調節することは困難である。現
状では、素片間での滑らかな遷移のために、局所的にス
ペクトル特性を修正する程度である。いずれにせよ、合
成された連続音声のスペクトル特性は自然音声からかけ
離れたものになっており、素片間における不自然さや全
体の音質の劣化を引き起こしている。
[Problems to be Solved by the Invention] The present invention focuses on the spectral characteristics of continuous speech, which are among the techniques that affect the sound quality of the above-mentioned regular synthesis of speech. The phonological environment of the analysis word used to create the segment is
Since it can be reflected in the elemental fragment, multiple phoneme chains whose basic unit is longer than a single syllable can absorb spectral deformation in a fixed manner. However, CvC phoneme pieces and VCV
A phoneme cannot express the effects of differences in the phonetic environment before and after the phoneme. Furthermore, it is impossible to use longer phoneme chains due to the large increase in the total number of segments (the amount of stored information). In methods that use advanced spectral transformation rules, the transformation of spectral characteristics is complicatedly intertwined with several elements that determine the phonological environment, so it is necessary to clarify the correspondence between them. It is difficult to properly adjust the spectral characteristics. At present, the spectral characteristics are only locally modified for smooth transitions between fragments. In any case, the spectral characteristics of synthesized continuous speech are far from natural speech, causing unnaturalness between segments and deterioration of overall sound quality.

本発明は、この音質を劣化させる原因を解決し、自然音
声に限りなく近づいた合成音声の生成を目的としている
。合成音声のスペクトル特性を、自然音声の特性と等し
くするには、合成単位(音素片)が置かれる環境によっ
て、その特性を自然音声に近い形に変形できる、フレキ
シブルな素片をつくる必要がある。そして、技術■を改
良し音質が向上すれば、技術■の韻律制御の規則化の良
否をより正確に且つ客観的に評価することができるので
、技術■の発展にも大いに役立つ。
The present invention aims to solve the cause of this deterioration of sound quality and to generate synthetic speech that is as close to natural speech as possible. In order to make the spectral characteristics of synthesized speech equal to those of natural speech, it is necessary to create flexible speech units (phonetic segments) whose characteristics can be modified to approximate natural speech depending on the environment in which they are placed. . If technology (2) is improved and the sound quality is improved, it will be possible to more accurately and objectively evaluate the quality of the regularization of prosodic control in technology (2), which will greatly contribute to the development of technology (2).

[問題点を解決するための手段] 本発明は、連続音声のスペクトル特性をvC■単位(母
音の定常部から子音を挟み母音の定常部までの区間)に
分割して、その音響パラメータの時系列の特徴を主成分
分析法を用いて抽出し、これを基に大別して得られた代
表的なスペクトル軌道から任意のスペクトル軌道への修
正量を最小二乗法を用いて近似すること及び、主成分分
析法と最小二乗法の分析データを蓄積した、基本単位が
VCVの音素片と、音韻環境を考慮した素片接続用の母
音とを用いてスペクトル特性を推定することを特徴とす
る。
[Means for Solving the Problems] The present invention divides the spectral characteristics of continuous speech into vC units (an interval from the constant part of the vowel to the constant part of the vowel across the consonant), and calculates the time of the acoustic parameter. Extracting the characteristics of the series using principal component analysis, and approximating the amount of correction from the representative spectral trajectory obtained by broadly classifying the series to an arbitrary spectral trajectory using the least squares method based on this, and It is characterized by estimating spectral characteristics using phoneme segments whose basic unit is VCV, which have accumulated analysis data of component analysis method and least squares method, and vowels for connecting phonetic segments in consideration of the phonetic environment.

[作用] 本発明のSLCMの原理を説明する。この方法は、第1
図のSLCMを用いた音声合成の概要に示したSLCM
分析部1とSLCM合成部2から成る。
[Operation] The principle of SLCM of the present invention will be explained. This method
SLCM shown in the outline of speech synthesis using SLCM in the figure
It consists of an analysis section 1 and an SLCM synthesis section 2.

<SLCM分析〉 音声資料は、ある特定の子音Cに着目し、その子音を含
んだ連続音声の中から、先行母音Vの定常部から後続母
音Vの定常部までの波形を切り出したVCv区間の音声
を同一のサンプル群とする。問題之こしている子音を含
んだVCVが、連続音声において存在するあらゆる音響
特性のパターンを含むようここ、子音の前後数個の音韻
の種類やアクセント核の位置や発話速度の変化について
も考慮している。このVCV音声資料を用いてフレーム
毎に音響パラメータを算出し、適当な変数変換を施した
後で主成分分析を行う。
<SLCM analysis> The audio material is a VCv section that focuses on a specific consonant C and cuts out the waveform from the steady part of the preceding vowel V to the steady part of the following vowel V from the continuous speech that includes that consonant. Let the audio be the same sample group. In order to ensure that the VCV containing the consonant in question contains all the patterns of acoustic characteristics that exist in continuous speech, we also take into consideration the types of phonemes in the several places before and after the consonant, the position of the accent nucleus, and changes in speech rate. ing. Acoustic parameters are calculated for each frame using this VCV audio material, and principal component analysis is performed after appropriate variable transformation.

次に基準軌道と補正ベクトルの作成について、第2図の
第1〜3主成分空間上のVCV軌道の近似モデルを用い
て説明する。同一のサンプル群を主成分軌道の類似度に
よって更に数種類の単語集合に分類する。そして、各々
の単語集合における平均的な主成分の軌道を求め、これ
を平均軌道PSl(基準軌道)とする。各々のVCV主
成分軌道P1は、(1)(2)式に示すように、各フレ
ーム毎に基準軌道Psiからのずれり、(補正ベクトル
)を最小二乗法で近似することで求める。ただし、切り
出したVCVの両端の補正ベクトルDB−DEは、近似
のときの既定値として与えられる。つまり、この分析(
SLCM分析と名づける)ではVCV音素片データとし
て、第1図の3の主成分分析での変換行列と逆変換行列
、4のVCV区間のフレーム数分の主成分の基準軌道p
slと近似多項式の係数行列A、・B1を導出すること
を目的としている。
Next, creation of the reference trajectory and correction vector will be explained using an approximate model of the VCV trajectory on the first to third principal component spaces in FIG. 2. The same sample group is further classified into several types of word sets based on the similarity of principal component trajectories. Then, the average trajectory of the principal component in each word set is determined, and this is defined as the average trajectory PS1 (reference trajectory). Each VCV principal component trajectory P1 is obtained by approximating the deviation from the reference trajectory Psi (correction vector) for each frame using the least squares method, as shown in equations (1) and (2). However, the correction vectors DB-DE at both ends of the cut-out VCV are given as default values during approximation. That is, this analysis (
In the SLCM analysis), as VCV phoneme data, the transformation matrix and inverse transformation matrix from the principal component analysis (3) in Figure 1, and the reference trajectory p of the principal component for the number of frames in the VCV section (4) are used as VCV phoneme data.
The purpose is to derive sl and coefficient matrices A and B1 of the approximate polynomial.

<SLCM合成〉 任意の音声を合成する場合には、まず合成する音韻系列
の中でC,VC2の連鎖を取り出す。だだし、C7・C
2は子音(語頭または語尾では無音の場合もある)を表
し、■はその中間の母音を表す。そして、予め用意した
第1図の5の母音の音響パラメータ中から、C1とC2
の組合せに対して中間の母音Vの定常部の音響パラメー
タを選出する。このようにして、合成する全ての母音の
定常部のスペクトルを得た後で、音韻系列をV、C2V
2単位に分割し、第1図の3と4のSLCM分析で蓄積
されたv、C2V2音素片データを用いてスペクトル概
形を生成する。連続音声中の変形したV、C2V2軌道
は、母音定常値V、・v2の与え方によって、(IX2
)式に示すように補正ベクトルD8・D、を用いて主成
分軌道P1を制御することができる。そして、スペクト
ル特性はこれを音響パラメータの空間に戻すことで得ら
れる。
<SLCM Synthesis> When synthesizing arbitrary speech, first extract the chain of C and VC2 from the phoneme sequence to be synthesized. Dashi, C7・C
2 represents a consonant (which may be silent at the beginning or end of a word), and ■ represents a vowel in the middle. Then, from the acoustic parameters of vowel 5 in Figure 1 prepared in advance, C1 and C2
The acoustic parameters of the stationary part of the intermediate vowel V are selected for the combination. In this way, after obtaining the spectra of the stationary parts of all the vowels to be synthesized, the phoneme series is divided into V, C2V
It is divided into two units, and a spectrum outline is generated using the v, C2V2 phoneme piece data accumulated in the SLCM analysis of 3 and 4 in FIG. The deformed V, C2V2 trajectory in continuous speech can be expressed as (IX2
), the principal component trajectory P1 can be controlled using the correction vector D8·D. The spectral characteristics can then be obtained by returning this to the acoustic parameter space.

この過程をSLCM合成と名づける。This process is named SLCM synthesis.

V、C2V2音素片の接続は両端の母音部■、・■2で
行われるが、接続のための変形調節は子音部とその隣接
の遷移部が主になる。そして、自vC2における■の中
央付近の値を与えるだけで滑らかとこ接続される特徴を
持っている。第3図には、SLCMIこよる素片と従来
の素片を比較するために、画素片による連続音声のスペ
クトル軌道の生成モデルを示す。
The connection of the V, C2V2 phoneme is performed at the vowel parts ■, and ■2 at both ends, but the deformation adjustment for the connection is mainly done at the consonant part and its adjacent transition part. And, it has the characteristic that it can be connected smoothly by simply giving a value near the center of ■ in own vC2. FIG. 3 shows a generation model of the spectral trajectory of continuous speech using pixel fragments in order to compare the SLCMI-based fragments with conventional fragments.

[実施例] 以下、図面を参照して実施例を説明をする。[Example] Hereinafter, embodiments will be described with reference to the drawings.

<SLCM分析によるVC■音素片の作成〉SLCM分
析の統計的手法を適用する前に、充分に予備実験を試み
たうえで下記の■〜■の諸事項を決めている。しかし、
本発明は下記の実施例に限定されるものではなく、種々
の変形が可能である。
<Creation of VC ■ Phoneme Pieces by SLCM Analysis> Before applying the statistical method of SLCM analysis, we have conducted sufficient preliminary experiments and decided on the following items (1) to (2). but,
The present invention is not limited to the following examples, and various modifications are possible.

■ 音声資料の選択 本実施例では、音声資料に一人の成人男性話者が発声し
たC、V、C2V22モ一ラ単語を、子音C2は固定し
、前後の音韻C4・V、・v2を変えて可能なパターン
を100個用意している。この単語は拗音・撥音・促音
を除いており、発声速度やアクセント型は一定tこなる
ように注意した。SLCM分析には、母音定常部で挟ま
れたV、C2V2区間の波形を切り出して用いている。
■ Selection of audio materials In this example, the audio materials include C, V, and C2V22 moly words uttered by one adult male speaker, with the consonant C2 fixed and the preceding and following phonemes C4, V, and v2 changed. We have prepared 100 possible patterns. These words excluded consonants, consonants, and consonants, and care was taken to maintain a constant rate of speech and accent type. For the SLCM analysis, the waveform of the V and C2V2 sections sandwiched between vowel stationary parts is cut out and used.

子音C2を更に細かく分類して主成分分析を行う場合に
は、分析単語数はそれ相応に減らした。挟まれた子音C
2が、/に/と/s/においては、後続母音が/i/の
場合とそれ以外の場合で子音の波形や継続時間長が異な
るので、(3)式で示す様に同一子音を更に2種類に分
類した。また、切り出したV、C2V、、部の音韻長の
調整法として、子音の開始端で揃えたり、動的計画法(
[IP)を用いて時間軸の正規化マツチングを行った。
When consonant C2 was further classified into principal component analysis, the number of analyzed words was reduced accordingly. sandwiched consonant C
2, in /ni/ and /s/, the waveform and duration of the consonant are different depending on whether the following vowel is /i/ or not, so the same consonant is further repeated as shown in equation (3). Classified into two types. In addition, as a method of adjusting the phonological length of the cut out parts V, C2V,
Normalized matching of the time axis was performed using [IP].

ただし、スベクトル・マツチング尺度は、LPCケプス
トラム距離である。
However, the spectral matching measure is the LPC cepstral distance.

■ 音響パラメータの選択とその変換 調音のスペクトル形成作用による音響的特徴は、それと
等価な関係にある音響パラメータで代用される。音響パ
ラメータとしては、線形全極システム関数からのLPC
系パラメータやLSP、周波数次元でのホルマント、単
向形処理によるケプストラム、実体的な音響管モデルの
声道断面積比や調音モデルの調音パラメータなど数多く
見受けられる。音声の特徴のどの点に重きを置くかで、
音響パラメータが決まる。本実施例では、LPCケプス
トラムような聴感的なパラメータも試みたが、PARC
OR合成フィルタを使用する時に安定なPARCOR係
数を保証する対数声道断面積比を用いている。ただし、
逆フィルタリングとして、音声波形に1次差分を施して
いる。
■ Selection of acoustic parameters and their transformation Acoustic features resulting from the spectrum-forming action of articulation are substituted by acoustic parameters that have an equivalent relationship. As acoustic parameters, LPC from linear all-pole system function
Many examples can be found, such as system parameters, LSP, formants in the frequency dimension, cepstrum by unidirectional processing, vocal tract cross-sectional area ratio of a physical acoustic tube model, and articulatory parameters of an articulatory model. Depending on which features of the voice you place emphasis on,
Acoustic parameters are determined. In this example, we also tried auditory parameters such as LPC cepstrum, but PARC
A logarithmic vocal tract cross-sectional area ratio is used to ensure stable PARCOR coefficients when using an OR synthesis filter. however,
As reverse filtering, a first-order difference is applied to the audio waveform.

(4)(5)式に示すように、数フレーム長の音響パラ
メータをブロック単位とじて−まとめにし、重み付けを
施す。次のブロックは1フレ一ム分シフトする。このよ
うに1つのブロック内に、調音作用の数フレーム分の動
的特徴を含ませることで時間的変化を安定に抽出するこ
とができる。本実施例におけるLPC分析の仕様を第4
図に示す。また、ブロックの重み付けには(6)式の重
み付は関数〜Vを、音響パラメータの関係を表す行列に
は共分散行列を用いている。
As shown in equations (4) and (5), acoustic parameters of several frame lengths are grouped into blocks and weighted. The next block is shifted by one frame. In this way, by including several frames worth of dynamic features of articulatory action in one block, temporal changes can be extracted stably. The specifications of LPC analysis in this example are as follows.
As shown in the figure. In addition, the weighting function ˜V of equation (6) is used for weighting the blocks, and the covariance matrix is used as the matrix representing the relationship between the acoustic parameters.

p :音響パラメータの次数 ■ 評価尺度 ケプストラムは、(7〉式に示すように対数スペクトル
の正規直交変換であるため、その距離尺度はスペクトル
のそれと等しい。従ってLPC分析においては、スペク
トルにおける客観評価として、(8)式で定義するLP
Cケプストラム距離(CepstrumDistanc
e :以下てはCDと略す)を直接用いることが可能で
ある。本発明はCDをスペクトルの評価尺度として聴感
的な誤差許容範囲内(3〜4 [dB])に抑え、スペ
クトル包絡図を参考にして、主成分空間での情報圧縮を
行っている。
p: Order of acoustic parameter■ Evaluation scale cepstrum is an orthonormal transformation of a logarithmic spectrum as shown in equation (7), so its distance scale is equal to that of the spectrum.Therefore, in LPC analysis, it is used as an objective evaluation of the spectrum. , LP defined by equation (8)
Cepstrum distance
e: hereinafter abbreviated as CD) can be used directly. The present invention uses CD as a spectral evaluation measure to keep it within the perceptual error tolerance range (3 to 4 [dB]), and performs information compression in the principal component space with reference to the spectral envelope diagram.

2π−π = Iim  E (C,−C’、)’    (7)
Ci + C’ : :ケブストラム e:ケブストラム次数 ■ SLCM分析の最適化 近似能力を決定する因子は主成分の次数削減、主成分の
値の最小二乗近似、主成分の軌道の中で冗長性を持った
フレームの間引きが考えられるが、スペクトル歪は、最
小二乗近似と間引きの割合による影響を大きく受ける。
2π-π = Iim E (C, -C',)' (7)
Ci + C': : Kevstrum e: Kevstrum order ■ The factors that determine the optimization approximation ability of SLCM analysis are reduction of the order of principal components, least squares approximation of principal component values, and redundancy in the trajectory of principal components. However, the spectral distortion is greatly affected by the least squares approximation and the rate of thinning.

そのことを考慮して、SLCMの最適化を行った。ここ
では分析結果の一例として、CIVIC2V2音声資料
の子音C2カ/p/と/ r/(D場合のサンプル群各
々 +00単語を用いた実験の結果について説明する。
Taking this into consideration, we optimized the SLCM. Here, as an example of the analysis results, the results of an experiment using +00 words in each sample group for the consonants C2 /p/ and /r/(D in the CIVIC2V2 audio material) will be described.

(1)式の係数行列A、・B、は第m次までの主成分の
値を近似するために上位m個の行列要素を求・  め、
またそれ以外の主成分の近似には、対角要素のみを用い
た。A1φB1の形式を(9)式に示す。
For the coefficient matrix A, B in equation (1), the top m matrix elements are calculated to approximate the values of the principal components up to the mth order.
In addition, only diagonal elements were used to approximate other principal components. The format of A1φB1 is shown in equation (9).

m:mXmの行列要素は全て求める 最小二乗近似は(9)式のmを変えることにょって、そ
の近似力を調節した。また、第5図に示した/p/・/
r/の各々のサンプル群の第1・2主成分上のVCV基
準軌道の中で、直線的変化区間と一定区間を間引いた。
The approximation power of the least squares approximation, in which all matrix elements of m:mXm are determined, was adjusted by changing m in equation (9). Also, /p/・/ shown in Figure 5
The linear change section and constant section were thinned out from the VCV reference trajectory on the first and second principal components of each sample group of r/.

第6図(a)(b)は/p/・/r/各々のサンプル群
について、係数行列A1・B、のmを36次から1次ま
で減少させたときの分析単語100語の平均C[1であ
る。
Figures 6(a) and (b) show the average C of 100 analyzed words when m of the coefficient matrix A1 and B is reduced from 36th order to 1st order for each sample group of /p/./r/. [It is 1.

第6図を見て判るようにmを36次から6次まで減少さ
せると、間引いたフレームの平均CDが減少する傾向に
ある。同一単語を毎回発声した時に音声スペクトルに揺
らぎがあるので、分析するフレームの間引きによるスペ
クトル歪と同程度の歪は、許容範囲内であると考えてい
る。
As can be seen from FIG. 6, when m is decreased from the 36th order to the 6th order, the average CD of the thinned out frames tends to decrease. Since there are fluctuations in the audio spectrum when the same word is uttered every time, we believe that distortion of the same magnitude as the spectral distortion caused by thinning out the frames to be analyzed is within an acceptable range.

第7図(a)(b)は、係数行列A、−B、のm=5で
間引いた時の主成分の次数削減による平均COを示して
いる。VCVに挟まれた子音が/p/・/r/の両方と
も、次数nが18次を境にそれ以上減少すると平均CD
が急に増加する傾向にある。
FIGS. 7(a) and 7(b) show the average CO obtained by reducing the order of the principal component when the coefficient matrices A and -B are thinned out by m=5. For both consonants sandwiched between VCVs /p/ and /r/, if the degree n decreases beyond the 18th degree, the average CD will decrease.
is rapidly increasing.

第8図(aXb)にn=+8.m=5でSLCM分析を
間引いた時のVCV区間のフレーム毎の平均CDを示す
。また、第9図(a)(b)に上記の情報圧縮の過程に
おけるスペクトル特性への影響を分析単語/mepi/
と/dari/を用いて示す。第8図・第9図から判る
ように、子音部やその隣接の遷移部にCDは大きく、原
音声と比べてスペクトル包絡が平均化されている。特に
高周波成分にあるホルマント周波数の帯域幅が広がる傾
向がある。
In FIG. 8 (aXb), n=+8. The average CD for each frame of the VCV section when SLCM analysis is thinned out with m=5 is shown. In addition, Figures 9(a) and 9(b) show the influence of the above information compression process on the spectral characteristics of the word /mepi/
It is indicated using /dari/. As can be seen from FIGS. 8 and 9, the CD is large in the consonant part and the transition part adjacent to it, and the spectral envelope is averaged compared to the original speech. In particular, the band width of formant frequencies in high frequency components tends to widen.

/p/・/「/以外の子音のサンプル群についても、S
LCM分析は上記の結果に似た傾向を示したので、その
他の全ての子音についても、主成分分析の次数nを18
次に、最小二乗近似多項式の係数行列のmを5に決定し
て、SLCM分析を行い、VCV音素片を作成した。各
々のサンプル群における平均CDを第10図にまとめる
。また、基準軌道は主に1つのサンプル群に1つ用意し
、VCV区間のフレーム数の平均41.3%を間引いて
いる。
/p/・/``S
Since the LCM analysis showed a similar tendency to the above results, the order n of the principal component analysis was set to 18 for all other consonants.
Next, m of the coefficient matrix of the least squares approximation polynomial was determined to be 5, SLCM analysis was performed, and VCV phoneme pieces were created. The average CD for each sample group is summarized in Figure 10. Moreover, one reference trajectory is mainly prepared for each sample group, and the number of frames in the VCV section is thinned out by an average of 41.3%.

第11図は喉頭わたり音/h/について後続母音側に第
1争2主成分上にVCV基準軌道を示している。
FIG. 11 shows the VCV reference trajectory on the first and second principal components on the following vowel side for the laryngeal crossing sound /h/.

基準軌道は後続母音によって明らかに異なり、後続母音
に接近した場所に/h/の定常状態がある。こように/
h/が後続母音に似た特性を示すのは、/h/を発声し
ている間も後続母音と同じ声道の構えになっているから
である。従って、基準軌道も後続母音側に5種類に分類
した。
The reference trajectory clearly differs depending on the following vowel, with a steady state of /h/ located close to the following vowel. Koyouni/
The reason why h/ exhibits characteristics similar to the following vowel is that the vocal tract remains in the same stance as the following vowel even while uttering /h/. Therefore, the reference trajectory was also classified into five types on the trailing vowel side.

任意単語におけるSLCM分析の評価を行うために、自
然音声からVCVの両端の母音の対数声道断面積比を与
えてSLCM合成を試みた。分析単語以外の2モ一ラ単
語における評価は、分析単語に用いた場合と比較して、
平均CDが第10図より更に約0.5[dB]の劣化だ
けで済むことが確認された。有意味3モ一ラ単語91個
における評価は、平均CDと最大CDの平均値がそれぞ
れ3.8[dB]、6.9[dB:lであった。これは
、自然音声との子音の継続時間長のずれによる影響や母
音定常部での既定値の与え方の問題を考慮すると、スペ
クトル特性はかなり正確に合成できたと評価できる。
In order to evaluate SLCM analysis for arbitrary words, we attempted SLCM synthesis by giving the logarithmic vocal tract cross-sectional area ratios of vowels at both ends of the VCV from natural speech. The evaluation of bimolar words other than analysis words is as follows:
It was confirmed from FIG. 10 that the average CD only deteriorated by about 0.5 [dB] further. In the evaluation of 91 meaningful trimorphic words, the average values of average CD and maximum CD were 3.8 [dB] and 6.9 [dB:l], respectively. This can be evaluated as a fairly accurate synthesis of the spectral characteristics, considering the influence of the difference in consonant duration from natural speech and the problem of how to give default values in the vowel stationary part.

<VCV音素片の接続法〉 母音定常部の対数声道断面積比は、SLCM分析でつく
られたVCV音素片内部のスペクトル特性を推定するた
めや素片を接続するために必要である。
<Method of connecting VCV phoneme segments> The logarithmic vocal tract cross-sectional area ratio of the vowel stationary part is necessary for estimating the spectral characteristics inside the VCV phoneme segment created by SLCM analysis and for connecting the phoneme segments.

第12図は、分析単語C,V、C2v2)うちC3が/
b/(D V。
Figure 12 shows the analysis words C, V, C2v2), of which C3 is /
b/(DV.

(AI、Il、Ul、El、01)と、C2が/b#)
V2(A2. +2.U2.C2゜02)の対数声道断
面積比の分布の範囲と孤立発声母音(A、 I 、tJ
、E、0)の分布を、主成分分析して得られた空間上に
示したものである。vlの分布は、■2に比べて分散が
大きい。この理由は、v2は先行音韻V、C2からだけ
の影響を受けるのに対して、■、はC1と後続音韻C2
v2からの影響を受けるからでる。
(AI, Il, Ul, El, 01) and C2 is /b#)
Range of distribution of logarithmic vocal tract cross-sectional area ratio of V2 (A2. +2.U2.C2゜02) and isolated voiced vowels (A, I, tJ
, E, 0) is shown on the space obtained by principal component analysis. The distribution of vl has a larger variance compared to ■2. The reason for this is that v2 is influenced only by the preceding phoneme V and C2, whereas ■, is influenced by C1 and the following phoneme C2.
This is because it is influenced by v2.

第13図は、分析単M C+ VI C2V2のうちC
2が/n/と/r/の単語各々100個について、母音
定常値を下記の3種類に設定してSLCM合成を行った
結果の平均CDをフレーム毎に示したものである。
Figure 13 shows C of analysis single M C+ VI C2V2.
2 shows, for each frame, the average CD of the results of SLCM synthesis for 100 words each with /n/ and /r/, with vowel steady values set to the following three types.

■ 分析単語内の値を用いる場合。■ When using the value within the analysis word.

■ C2v2毎の母音v2の平均値を用いる場合。つま
り、与える母音定常値V、・v2は、各々の先行子音C
l−C2だけを考慮している。C2v2毎に分析単語を
集め、v2の平均を求めることで母音定常値を作成する
■ When using the average value of vowel v2 for each C2v2. In other words, the given vowel steady value V, ・v2 is the value of each preceding consonant C
Only l-C2 is considered. A vowel stationary value is created by collecting analysis words for each C2v2 and finding the average of v2.

■ 孤立発声母音を与える場合。■ When giving isolated vocal vowels.

第13図から/計・/「/共に、設定■の与え方ては先
行母音V、が設定■と比へて大きく異なっている。
From Figure 13, /Total・/'/In both cases, the way in which the setting ■ is given is that the preceding vowel V is greatly different from the setting ■.

これは、VCV音素片の接続に用いる母音の対数声道断
面積比によってSLCM合成の性能は大きく左右される
からである。当然のことながら、SLCM分析で用いた
分析単語内にある実際の母音V、・v2に近い母音定常
値が、v1C2v2の平均CDを小さくすることができ
る。従って本実施例では、VCVの両端の母音定常値は
、素片接続のために素片間で共有することよりも、素片
内の平均CDを下げることに重きを置いている。SLC
M合成には、SLCM分析で分類した子音C2の種類別
に、先行母音V、はC,V、C2のように隣接の子音C
2・C2を考慮した母音定常値を75種類用意し、後続
母音v2はC2v2のように先行子音C2を考慮した母
音定常値を5種類用意している。
This is because the performance of SLCM synthesis is greatly influenced by the logarithmic vocal tract cross-sectional area ratio of the vowel used to connect VCV phoneme pieces. Naturally, a vowel stationary value close to the actual vowel V, v2 in the analysis word used in the SLCM analysis can reduce the average CD of v1C2v2. Therefore, in this embodiment, emphasis is placed on lowering the average CD within a segment rather than sharing the vowel steady values at both ends of the VCV between segments for segment connection. S.L.C.
For M synthesis, for each type of consonant C2 classified by SLCM analysis, the preceding vowel V is replaced with the adjacent consonant C, such as C, V, C2.
75 types of vowel steady values are prepared in consideration of 2.C2, and 5 types of vowel steady values are prepared in consideration of the preceding consonant C2, such as C2v2 for the subsequent vowel v2.

〈文音声におけるSLCM合成〉 平均3.5秒の長さの40文に含まれる653個のVC
Vについて、前述の母音の与え方でSLCM合成を試み
た。本実施例では、SLCM分析で作成したVCV素片
を用いるので、SLCM合成ではcvcv音声資料のV
CV区間のスペクトル特性を推定することができる。従
っ文章中のVCVと音韻環境が若干異なるが、それによ
るスペクトル推定誤差は、発声毎の揺らぎによる誤差と
同程度と考えている。第14図(a)(b)の(1)は
自然音声のvC■スペクトル、(2)はSLCM合成で
得られた[]て示したcvcv内のvcシスベクトルを
示し、その誤差CDを(3)に示す。同種類のVCV/
unげにおいて、VCVの先行子音/c/と/に/の違
いで自然音声のVCvスペクトルが異なり、推定された
スペクトル特性もその特徴が表れている。これは、従来
のvcv素片のような固定されたスペクトル特性よりも
、SLCM合成によって推定されたスペクトル特性が自
然音声にマツチしていることを示している。
<SLCM synthesis of sentence speech> 653 VCs included in 40 sentences with an average length of 3.5 seconds
For V, SLCM synthesis was attempted using the method of giving the vowels described above. In this example, since the VCV segment created by SLCM analysis is used, the VCV of cvcv audio material is used for SLCM synthesis.
Spectral characteristics of the CV interval can be estimated. Therefore, although the VCV in a sentence and the phonological environment are slightly different, the spectrum estimation error caused by this is considered to be about the same as the error caused by fluctuations in each utterance. In Fig. 14 (a) and (b), (1) shows the vC ■ spectrum of natural speech, (2) shows the vc cis vector in cvcv shown in [] obtained by SLCM synthesis, and its error CD is ( 3). Same type of VCV/
In unge, the VCv spectrum of natural speech differs depending on the preceding consonants /c/ and /ni/ in the VCV, and this feature is also reflected in the estimated spectral characteristics. This indicates that the spectral characteristics estimated by SLCM synthesis match natural speech better than the fixed spectral characteristics of conventional vcv segments.

自然音声を分析して得られるスペクトル特性とSLCM
合成で生成されるスペクトル特性を用いて、合成音声の
受聴比較実験による音質の評価を試みた。いずれも音源
にはピッチパルスと残差を用い、簡単なピッチバタンモ
デルで韻律を制御している。
Spectral characteristics and SLCM obtained by analyzing natural speech
Using the spectral characteristics generated by synthesis, we attempted to evaluate the sound quality through comparative listening experiments of synthesized speech. In both cases, pitch pulses and residuals are used as sound sources, and prosody is controlled by a simple pitch bang model.

スペクトル誤差が目たつvC■音声でも音質面では劣化
が感じられず、文全体では自然音声から得られたスペク
トル特性による合成音声と同レベルの高品質な音声が確
認された。
Even with vC■ speech, which has noticeable spectral errors, there was no noticeable deterioration in sound quality, and the overall sentence quality was confirmed to be on the same level as synthesized speech using spectral characteristics obtained from natural speech.

本実施例では音声資料を2モ一ラ単語に限定した。しか
し、3モ一ラ以上の単語か6 V、 C2v2区間を切
り出す方が、両端の母音v1・v2は両側の隣接子音か
ら影響を受けるという等しい環境を持てるので、素片間
で母音定常値を共有できる。また、音響パラメータの変
形の4フレ一ム長以上のブロック化や、重み付けの工夫
次第で、より効果的に調音の動的特徴を表すことが可能
である。VCV素片では合成できない語頭・語尾や連母
音・長母音については、本手法の多少の変更(音声資料
の選択や基準軌道の作り方や定常母音の与え方等)で、
スペクトル特性を推定することが可能である。また、拗
音・撥音・促音を含むVCVについては、同様の分析法
でVCV素片を作ることができる。
In this embodiment, the audio materials are limited to bimolar words. However, it is better to cut out words with 3 or more moles or 6 V, C2v2 intervals, so that the vowels v1 and v2 at both ends can have an equal environment where they are influenced by the adjacent consonants on both sides, so it is possible to maintain the constant vowel value between elements. Can be shared. Furthermore, it is possible to express the dynamic characteristics of articulation more effectively by creating blocks of four frames or more in length for deforming the acoustic parameters and by devising weighting. Word beginnings and endings, continuous vowels, and long vowels that cannot be synthesized using VCV segments can be synthesized by making slight changes to this method (selecting audio materials, creating a reference trajectory, giving stationary vowels, etc.).
It is possible to estimate spectral properties. Further, for VCVs containing obscene sounds, cursive sounds, and consonant sounds, VCV fragments can be created using the same analysis method.

最後に、従来のVCV素片とSLCMの■Cv素片の記
憶情報量の比較を第15図にまとめる。第15図は音響
パラメータに限った、特定の子音に前後の母音を各々5
種類ずつ用意した計25種類のVCV音素片の総情報量
の比較である。SLCM分析で作られた素片は、従来の
素片と比較して1/2の情報量でVCVの前の子音を考
慮した15倍の種類のスペクトル特性を得ることができ
る。
Finally, a comparison of the amount of stored information between the conventional VCV segment and the SLCM ■Cv segment is summarized in FIG. Figure 15 shows 5 vowels before and after a specific consonant, limited to acoustic parameters.
This is a comparison of the total amount of information of a total of 25 types of VCV phoneme pieces prepared for each type. The segment created by SLCM analysis can obtain 15 times more kinds of spectral characteristics considering the consonant before the VCV with 1/2 the amount of information compared to the conventional segment.

[発明の効果] 以上の説明から明らかなように、本発明のSLCM分析
を用いれば、連続音声の複雑に変化するスペクトル特性
をVCV単位で効果的に特徴を抽出することが可能であ
る。また、抽出結果を蓄積データとしたVCV音素片は
、その両側の母音の定常的なスペクトル特性によって素
片内のスペクトル軌道を容易に制御できる。更に同一の
VCVであっても連続音声中の環境の違いによって微妙
に変化しているスペクトル特性を、その母音定常値を自
然音声にできるだけ近づけるだけで正確に推定すること
ができる。
[Effects of the Invention] As is clear from the above description, by using the SLCM analysis of the present invention, it is possible to effectively extract the features of the complexly changing spectral characteristics of continuous speech in units of VCV. Further, in a VCV phoneme whose extraction results are stored data, the spectral trajectory within the phoneme can be easily controlled by the stationary spectral characteristics of the vowels on both sides of the VCV phoneme. Furthermore, even if the VCV is the same, the spectral characteristics that vary slightly due to differences in the environment during continuous speech can be accurately estimated simply by making the vowel stationary value as close as possible to natural speech.

そして、本発明を用いた規則合成は、素片作成に使用し
た話者の個人性が音質に表れていて、素片間の不連続さ
が少しも感じられない滑らかな音声を得ることができる
だけでなく、自然音声を分析して得られたスペクトル特
性を用いた合成音声と比較しても、音質の違いがほとん
ど聴き取れない程の高品質の音声を合成することが可能
である。
Furthermore, the rule-based synthesis method using the present invention can produce smooth speech that reflects the individuality of the speaker used to create the segment in the sound quality, and does not have the slightest sense of discontinuity between segments. Instead, it is possible to synthesize speech of such high quality that the difference in sound quality is almost inaudible, even when compared with synthesized speech using spectral characteristics obtained by analyzing natural speech.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はSLCMを用いた音声合成システムの概要を表
す図、第2図はSLCM分析におけるVCV軌道の近似
モデルを示す図、第3図は連続音声のスペクトル軌道の
生成モデルを示す図、第4図はLPC分析の仕様を示す
図、第5図はVCV基準軌道の例を示す図、第6図は係
数行列A1・B1のmによる近似誤差の例を示す図、第
7図は主成分分析の次数nによる近似誤差の例を示す図
、第8図は分析仕様がn=18゜1=59間引く場合の
近似誤差の例を示す図、第9図はSLCM分析の仕様を
変えたときのスペクトル概形の図、第10図は最適な仕
様で子音別にSLCM分析を行った場合の近似誤差を示
す図、第11図は子音が/h/て後続母音別の■Cv基
準軌道を示す図、第12図は母音の前後の音韻環境が異
なるときの母音の定常値の分布の範囲と孤立発声母音の
分布を示す図、第13図は母音の定常値の与え方が異な
るときのvCV区間の推定誤差の例を示す図、第14図
は文章においてVCVスペクトルが正確に生成されてい
ることを説明する図、第15図はVCV素片の記憶情報
量の比較を示す図である。
Figure 1 is a diagram showing an overview of a speech synthesis system using SLCM, Figure 2 is a diagram showing an approximation model of VCV trajectory in SLCM analysis, Figure 3 is a diagram showing a generation model of continuous speech spectral trajectory, Figure 4 shows the specifications of LPC analysis, Figure 5 shows an example of the VCV reference trajectory, Figure 6 shows an example of the approximation error due to m in the coefficient matrices A1 and B1, and Figure 7 shows the principal components. A diagram showing an example of approximation error depending on the order of analysis n. Figure 8 is a diagram showing an example of approximation error when the analysis specification is thinned out by n = 18° 1 = 59. Figure 9 is when the specification of SLCM analysis is changed. Figure 10 shows the approximation error when SLCM analysis is performed for each consonant with the optimal specifications. Figure 11 shows the Cv standard trajectory for each consonant followed by a vowel. Figure 12 shows the range of the distribution of vowel steady-state values and the distribution of isolated vocal vowels when the phonetic environment before and after the vowel differs, and Figure 13 shows the vCV when the steady-state values of the vowel are given differently. FIG. 14 is a diagram illustrating an example of an estimation error in a section, FIG. 14 is a diagram illustrating that a VCV spectrum is accurately generated in a text, and FIG. 15 is a diagram illustrating a comparison of the amount of stored information of VCV segments.

Claims (2)

【特許請求の範囲】[Claims] (1)連続音声のスペクトル特性をVCV単位(母音の
定常部から子音を挟み母音の定常部までの区間)に分割
して、その音響パラメータの時系列の特徴を主成分分析
法を用いて抽出し、これを基に大別して得られた代表的
なスペクトル軌道から任意のスペクトル軌道への修正量
を、最小二乗法を用いて近似する音声の規則合成のため
のスペクトル概形の生成法。
(1) Divide the spectral characteristics of continuous speech into VCV units (the section from the stationary part of the vowel to the stationary part of the vowel across the consonant) and extract the time-series characteristics of the acoustic parameters using principal component analysis. Based on this, a method for generating a spectral outline for regular speech synthesis uses the least squares method to approximate the amount of correction from the representative spectral trajectory obtained by broadly classifying it to an arbitrary spectral trajectory.
(2)主成分分析法と最小二乗法の分析データを蓄積し
た基本単位がVCVの音素片と、音韻環境を考慮した素
片接続用の母音とを用いてスペクトル特性を推定する音
声の規則合成のためのスペクトル概形の生成法。
(2) Ruled synthesis of speech that estimates spectral characteristics using phoneme segments whose basic unit is VCV, which has accumulated analysis data of principal component analysis and least squares methods, and vowels for connecting the segments, taking into account the phonological environment. A method for generating spectral outlines for.
JP62070670A 1987-03-25 1987-03-25 Generation of spectral rough form for voice rule synthesization Pending JPS63236100A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62070670A JPS63236100A (en) 1987-03-25 1987-03-25 Generation of spectral rough form for voice rule synthesization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62070670A JPS63236100A (en) 1987-03-25 1987-03-25 Generation of spectral rough form for voice rule synthesization

Publications (1)

Publication Number Publication Date
JPS63236100A true JPS63236100A (en) 1988-09-30

Family

ID=13438330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62070670A Pending JPS63236100A (en) 1987-03-25 1987-03-25 Generation of spectral rough form for voice rule synthesization

Country Status (1)

Country Link
JP (1) JPS63236100A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102121227B1 (en) * 2019-07-02 2020-06-10 경북대학교 산학협력단 Methods and systems for classifying the harmonic states to check the progress of normal pressure hydrocephalus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102121227B1 (en) * 2019-07-02 2020-06-10 경북대학교 산학협력단 Methods and systems for classifying the harmonic states to check the progress of normal pressure hydrocephalus

Similar Documents

Publication Publication Date Title
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
JPH031200A (en) Regulation type voice synthesizing device
JP5039865B2 (en) Voice quality conversion apparatus and method
Aryal et al. Foreign accent conversion through voice morphing.
Erro et al. Weighted frequency warping for voice conversion.
Delić et al. A review of Serbian parametric speech synthesis based on deep neural networks
JP2002358090A (en) Speech synthesizing method, speech synthesizer and recording medium
Eichner et al. Voice characteristics conversion for TTS using reverse VTLN
Lee et al. A segmental speech coder based on a concatenative TTS
JP2904279B2 (en) Voice synthesis method and apparatus
Pfitzinger Unsupervised speech morphing between utterances of any speakers
Yakcoub et al. Speech assistive technology to improve the interaction of dysarthric speakers with machines
JPS63236100A (en) Generation of spectral rough form for voice rule synthesization
JP3622990B2 (en) Speech synthesis apparatus and method
Juneja et al. An event-based acoustic-phonetic approach for speech segmentation and E-set recognition
JPH0580791A (en) Device and method for speech rule synthesis
Lenarczyk Parametric speech coding framework for voice conversion based on mixed excitation model
Park et al. Automatic speech synthesis unit generation with MLP based postprocessor against auto-segmented phoneme errors
Jung et al. Pitch alteration technique in speech synthesis system
JP3368948B2 (en) Voice rule synthesizer
Kain et al. Spectral control in concatenative speech synthesis
Ngo et al. Toward a rule-based synthesis of vietnamese emotional speech
López Methods for speaking style conversion from normal speech to high vocal effort speech
Ramírez López Methods for speaking style conversion from normal speech to high vocal effort speech
JPH0836397A (en) Voice synthesizer