JPS63262699A

JPS63262699A - 音声分析，合成装置

Info

Publication number: JPS63262699A
Application number: JP9774487A
Authority: JP
Inventors: 大山　隆之; 佐藤　泰雄
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1987-04-20
Filing date: 1987-04-20
Publication date: 1988-10-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概要〕本発明は、音声分析、合成装置において、情報量が多く
、又、高品質な音声を再生できな（Ｘ従来の問題点を解
決するため、入力音声信号と入力音声に関する言語情報とを用いて音
声分析してピッチパターン及び時間ｆｉ造情報を出力し
、入力音声信号から得られたピッチパターンと言語情報
及び時間構造情報とを用（Ｘで音声合成することにより
、従来の規則合成装置よりもより自然な高品質の音声を再
生し得、又、従来の分析合成装置よりも少ない情報量で
処理できるようにしたものである。

〔産業上の利用分野〕

本発明は、音声分析系において音声の情報量を圧縮して
伝送或いは蓄積し、音声合成系において分析系からの情
報から高品質の音声を再生する音声分析、合成装置に関
する。この場合、情報量としては極力少なく、又、再生
音声としては極力高品質であることが必要である。

〔従来の技術〕

従来から上記の如き分析合成装置が考えられている一方
、カナ文字列から任意の音声を合成する規則合成装置も
近年研究が進んでいる。

従来の分析合成装置は、音声の生成機構をモデル化し、
音源信号と調音器官による音響フィルタ特性とに着目し
たものである。例えば、音源信号は、ピッチパラメータ
を用いて有声部を周期的インパルス列、無声部を白色雑
音で近似し、音響フィルタは線型予測分析法に基づく全
極型フィルタを用いる方式が一般に用いられている。

これによれば、例えば音声は有声音及び無声音の区別、
周期音源に関するピッチ周波数、音源振幅情報、全極型
フィルタの特性を表わす線型予測係数によって表わされ
、高品質の再生音が得られる。

一方、従来の規則合成装置は、発声の仕組を規則化する
ことで音の種類、高低２時間長を制御して音声波形を生
成するもので、カナ文字列等の言語情報から任意の音声
を生成できる。従って、音声出力に必要な情報としては
カナ文字列と若干の韻律制御信号（ピッチパターンを生
成するために必要）のみでよいので、情報量は例えば約
５０ｂｐｓ程度と比較的少なくて済む。

第４図は従来の規則合成装置のブロック図を示す。日本
語の規則合成では、自然発声された音声から分割された
音節ファイルを入力文字列に従って結合し、音声のスペ
クトルを生成する方式が用いられることが多い。音節フ
ァイルの単位としては、単音節のような子音、母音の組
合せでもよく、母音、子音、母音の組合せでもよい。

第４図において、カナ文字及び韻律制御信号からなる入
力文字列は時間長設定部１０２に供給され、ここで各音
節の時間長が決定される。これは、例えば文字列の長さ
、音節の位置、前後の音節環境等からテーブル検索によ
って決定される。一方、入力文字列は音節ファイル選択
部１０３に供給され、ここで必要な上記音節ファイルが
音節ファイル格納部１０４力冒ろ読出される。音節ファ
イル格納部１０４には前述の如く、自然音声から分割さ
れた音声ファイルやスペクトル包絡情報が、有声音無声
音を区別する情報や音源の振幅を規定する情報と共にＰ
ＡＲＣＯＲ（偏自己相関係数）やＬＳＰ（線スペクトル
対）等のパラメータの形で格納されている。

時間長設定部１０２の出力及び音節ファイル選択部１０
３の出力は音節結合部１０５に供給され、ここで、時間
長設定部１０２からの各音節の時間長に従＝　　４　− って音節ファイルの選択部１０３からの各音節ファイル
が結合され、スペクトルパラメータが生成される。この
とき、音節ファイルの時間長と設定された時間長とは一
般には一致していないため、通常は母音部の長さを調整
することにより時間長を合わせる。

一方、入力文字列及び時間長設定部１０２の出力はピッ
チパターン生成部１０１に供給され、各音節の時間長よ
りピッチパターンが生成される。このピッチパターン及
び音節結合部１０５からのスペクトルパラメータは音源
生成部１０７に供給され、ここで、無声部は白色雑音、
有声部はピッチ周期に対応したインパルス列の駆動音源
が生成される。

駆動音源及びスペクトルパラメータは波形合成部１０６
に供給され、ここで音声波形が合成される。

（発明が解決しようとする問題点）従来の分析合成装置は、前述のように、規則合成装置に
用いるようなカナ文字列等の言ｔＲ情報を使用しておら
ず、音源パラメータやスペクトル包絡パラメータを伝送
、蓄積してこれから音声合成している。一般にスペクト
ル包絡パラメータを表わす情報量は言語情報量や音源情
報量に比して極めて多く、このため、従来の分析合成装
置で扱う情報量は例えば１．２ｋｂｐｓ〜９．６ｋｂｐ
Ｓと多くなる問題点があった。

一方、従来の規則合成装置は、主としてピッチパターン
を規則的に生成するために自然な音声を得ることができ
ず、音質劣化を生じる問題点があった。

〔問題点を解決するための手段〕

第１図は本発明装置の原理ブロック図を示す。

同図（Ａ）は音声分析装置で、同図中、１１はピッチ抽
出部、１３は時間構造抽出部である。本発明になる音声
分析装置は、入力音声信号からピッチパターンを抽出し
て音声合成装置へ送出するピッチ抽出部１１と、入力音声に関する言語情報と上記入力音声信号とから上
記入力音声信号の時間構造を抽出して音声合成装置へ送
出する時間構造抽出部１３とを有してなる。

一方、同図（Ｂ）は音声合成装置で、同図中、１はスペ
クトルパラメータ生成部、２は音源生成部、４は波形合
成部である。本発明になる音声合成装置は、合成すべぎ
音声に関する言語情報と音声分析装置から送出される時
間構造情報とから合成すべき音声のスペクトル包絡情報
を表わすスペクトルパラメータを生成するスペクトルパ
ラメータ生成部１と、音声分析装置から送出されるピッ
チパターンと、スペクトルパラメータ生成部１にて得ら
れたスペクトルパラメータとから音響フィルタの駆動音
源信号を生成する音源生成部２と、スペクトルパラメー
タ生成部１にて得られたスペクトルパラメータと音源生
成部２にて得られた駆動音源信号とから音声波形を合成
する波形合成部４とを有してなる。

〔作用〕

第１図（Ａ＞に示す音声分析装置において、ピッチ抽出
部１１にて入力音声信号からピッチパターンを抽出し、
時間構造抽出部１３にて入力音声信号及び言語情報から
時間構造情報を得る。一方、第１図（Ｂ）に示す音声合
成装置において、音声分析装置からの時間構造情報ど言
語情報とからスペクトルパラメータ生成部１にてスペク
トルパラメータを生成し、音源生成部２にてスペクトル
パラメータとピッチパターンとから駆動音源信号を生成
し、波形合成部４にてスペクトルパラメータと駆動音源
信号とから音声波形を合成する。

〔実施例〕

第２図は本発明装置の一実施例のブロック図を示す。同
図中、１０は音声分析装置で、入力音声信号からピッチ
パターンを抽出するピッチ抽出部１１、入力音声信号及
び言語情報（カナ文字列や発音記号列）から入力音声の
時間構造（合成時に他の音響パラメータとの時間内位相
合ぜを行なうため）を抽出する時間構造抽出部１３にて
構成されている。

−δ　　− ２ｏは音声合成装置で、言語情報及び音声分析装置１０
から出力される時間構造から時間長を決定され、スペク
トルパラメータを生成するスペクトルパラメータ生成部
１、音声分析装置１０から出力されるピッチパターンと
スペクトルパラメータとからインパルス列及び白色雑音
の駆動音源を生成する音源生成部２、駆動音源及びスペ
クトルパラメータから音声波形を合成する波形合成部４
にて構成されている。

先ず、音声分析装置１０の動作について説明する。入力
音声信号はピッチ抽出部１１にて音高を抽出され、ピッ
チパターンとして取出される。ここで、ピッチパターン
とは入力音声信号のピッチ周波数の時系列であり、その
抽出方法としてはＡＭＤＦ法や変形相関法等従来から用
いられている方法を用いる。

一方、入力音声信号及び言語情報信号は時間構造抽出部
１３にて時間構造を抽出される。第３図は時間構造抽出
部１３の具体的ブロック図を示す。

ここでは、入力の言語情報がカナ文字列、出力の時間構
造が各音節の時間長（一般に、自然発声の場合、各音節
の時間長は等しくない）の場合を例に説明する。

入力言語情報は音節結合部６２に供給され、ここでカナ
文字列に対応する音節のスペク１〜ルパラメータの時系
列が音節ファイル格納部６３がら読出され、入力カナ文
字列の順に対応して結合される。音節ファイル格納部６
３には、使用される可能性のある音節について、発声音
をスペクトルパラメータ抽出部６１で抽出するものと同
様のパラメータが予め格納されている。

入力音声信号はスペクトルパラメータ抽出部６１にて周
波数分析され、スペクトルパラメータの時系列が抽出さ
れる。ここで抽出されるスペク１〜ルパラメータどして
は、例えば、線型予測分析によって得られる線型予測係
数等である。スペクトルパラメータ抽出部６１で得られ
た入力音声信号のスペクトルパラメータの時系列及び音
節結合部６２で得られた言語情報のスペクトルパラメー
タの時系列とは照合部６７１に供給され、ここで両者の
対応付けがなされ、時間構造決定部６５にて該対応付け
に従って各音節の時間長が決定される。

照合部６４における対応付けの方法としては、音声認識
等で一般に用いられているＤＰ（動的計画法）を用いる
。

次に、音声合成装置２０の動作について説明する。音声
分析装置１０から出力されたピッチパターンは音源生成
部２に供給される。一方、音声分析装置１０から出力さ
れた時間構造及び言語情報はスペクトルパラメータ生成
部１に供給され、ここで、入力された時間構造情報によ
って指定された時間長に従って従来の規則合成装置と同
様の方法でスペク１〜ルパラメータが生成される。

音声分析装置１０から出力されたピッチパターン及びス
ペクトルパラメータ生成部１から出力されたスペクトル
パラメータは音源生成部２に供給され、従来の規則合成
装置と同様の方法でインパルス列及び白色雑音の駆動音
源が生成される。この駆動音源及びスペクトルパラメー
タ生成部１からのスペクトルパラメータは波形合成部４
に供給され、従来の規制合成装置と同様の方法で音声波
形が合成される。

このように本発明装置は、従来の規則合成装置のように
韻律制御信号に基づいて音声合成するのではなく、入力
音声信号から得られたピッチパターンから音声合成して
いるので、従来の規則合成装置に比してより自然な高品
質の音声を書生じ冑、又、時間構造情報を用いているの
で更に自然な音声を再生し得る。

又、本発明装置は比較的情報量の少ない言語情報やピッ
チパターンを用いて音声合成しているので、比較的情報
量の多いスペクトル包絡パラメータや音源パラメータを
用いる従来の分析合成装置に比して少ない情報ｍで音声
合成し得る。この場合、例えばピッチパターンについて
６　ｂｉｔ／２０ｍ５ｅｃ程度（３００ｂ　ｉ　ｔ／ｓ
ｅｃ　）の情報量をうえ、その伯に言語情報として普通
の速さで発声する場合６音節／秒程度とし、音節の種類
と時間長に夫々８ｂｉｔ／音節の情報ｆＡ　（９６ｂｉ
ｔ／ｓｅｃ　＞を与えると、両者合計で３９６ｂｉ　ｔ
／　ｓｅｃの情報量となる。この情報量は言語情報を用
いないでスペクトル情報のみを用いる従来の分析合成装
置の１．２ｋｂｉｔ／ｓｅｃ　〜９．６ｋｂｉｔ／　ｓ
ｅｃに比して大幅に少なくし得る。

〔発明の効果〕

本発明によれば、入力音声信号から得られたピッチパタ
ーンから音声合成しているので、従来の規則合成装置に
比してより自然な高品質の音声を再生し得、又、時間構
造情報を用いているので更に自然な名声を再生し得、又
、比較的情報量の少ない言語情報やピッチパターンを用
いて音声合成しているので、比較的情報量の多いスペク
トル包絡パラメータや音源パラメータを用いる従来の分
析合成装置に比して少ない情報量で音声合成し得る。

【図面の簡単な説明】

第１図は本発明装置の原理ブロック図、第２図は本発明
装置の一実施例のブロック図、第３図は時間構造抽出部
の具体的ブロック図、第４図は従来の規則合成装置のブ
ロック図である。図において、１はスペクトルパラメータ生成部、２は音源生成部、４は波形合成部、１０は音声分析装置、１１はピッチ抽出部、１３は詩間構造抽出部、２０は音声合成装置、６１はスペクトルパラメータ抽出部、６２は音節結合部、６３は音節ファイル格納部、６４は照合部、６５は時間１造決定部である。

Claims

【特許請求の範囲】

（１）音声信号を入力として音声の分析を行ない、情報
圧縮して音声合成装置へ送出する音声分析装置において
、入力音声信号からピッチパターンを抽出して音声合成装
置へ送出するピッチ抽出部（１１）と、入力音声に関す
る言語情報と上記入力音声信号とから上記入力音声信号
の時間構造を抽出して音声合成装置へ送出する時間構造
抽出部（１３）とを有してなることを特徴とする音声分
析装置。
（２）音声分析装置から送出される情報圧縮された音声
分析情報を入力として音声の合成を行なう音声合成装置
において、合成すべき音声に関する言語情報と音声分析装置から送
出される時間構造情報とから合成すべき音声のスペクト
ル包絡情報を表わすスペクトルパラメータを生成するス
ペクトルパラメータ生成部（１）と、音声分析装置から送出されるピッチパターンと、該スペ
クトルパラメータ生成部（１）にて得られたスペクトル
パラメータとから音響フィルタの駆動音源信号を生成す
る音源生成部（２）と、上記スペクトルパラメータ生成
部（１）にて得られたスペクトルパラメータと該音源生
成部（２）にて得られた駆動音源信号とから音声波形を
合成する波形合成部（４）とを有してなることを特徴と
する音声合成装置。