JPS63262699A - 音声分析,合成装置 - Google Patents

音声分析,合成装置

Info

Publication number
JPS63262699A
JPS63262699A JP9774487A JP9774487A JPS63262699A JP S63262699 A JPS63262699 A JP S63262699A JP 9774487 A JP9774487 A JP 9774487A JP 9774487 A JP9774487 A JP 9774487A JP S63262699 A JPS63262699 A JP S63262699A
Authority
JP
Japan
Prior art keywords
speech
information
sound source
spectral
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9774487A
Other languages
English (en)
Inventor
大山 隆之
佐藤 泰雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP9774487A priority Critical patent/JPS63262699A/ja
Publication of JPS63262699A publication Critical patent/JPS63262699A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Liquid Crystal Substances (AREA)
  • Steroid Compounds (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 本発明は、音声分析、合成装置において、情報量が多く
、又、高品質な音声を再生できな(X従来の問題点を解
決するため、 入力音声信号と入力音声に関する言語情報とを用いて音
声分析してピッチパターン及び時間fi造情報を出力し
、入力音声信号から得られたピッチパターンと言語情報
及び時間構造情報とを用(Xで音声合成することにより
、 従来の規則合成装置よりもより自然な高品質の音声を再
生し得、又、従来の分析合成装置よりも少ない情報量で
処理できるようにしたものである。
〔産業上の利用分野〕
本発明は、音声分析系において音声の情報量を圧縮して
伝送或いは蓄積し、音声合成系において分析系からの情
報から高品質の音声を再生する音声分析、合成装置に関
する。この場合、情報量としては極力少なく、又、再生
音声としては極力高品質であることが必要である。
〔従来の技術〕
従来から上記の如き分析合成装置が考えられている一方
、カナ文字列から任意の音声を合成する規則合成装置も
近年研究が進んでいる。
従来の分析合成装置は、音声の生成機構をモデル化し、
音源信号と調音器官による音響フィルタ特性とに着目し
たものである。例えば、音源信号は、ピッチパラメータ
を用いて有声部を周期的インパルス列、無声部を白色雑
音で近似し、音響フィルタは線型予測分析法に基づく全
極型フィルタを用いる方式が一般に用いられている。
これによれば、例えば音声は有声音及び無声音の区別、
周期音源に関するピッチ周波数、音源振幅情報、全極型
フィルタの特性を表わす線型予測係数によって表わされ
、高品質の再生音が得られる。
一方、従来の規則合成装置は、発声の仕組を規則化する
ことで音の種類、高低2時間長を制御して音声波形を生
成するもので、カナ文字列等の言語情報から任意の音声
を生成できる。従って、音声出力に必要な情報としては
カナ文字列と若干の韻律制御信号(ピッチパターンを生
成するために必要)のみでよいので、情報量は例えば約
50bps程度と比較的少なくて済む。
第4図は従来の規則合成装置のブロック図を示す。日本
語の規則合成では、自然発声された音声から分割された
音節ファイルを入力文字列に従って結合し、音声のスペ
クトルを生成する方式が用いられることが多い。音節フ
ァイルの単位としては、単音節のような子音、母音の組
合せでもよく、母音、子音、母音の組合せでもよい。
第4図において、カナ文字及び韻律制御信号からなる入
力文字列は時間長設定部102に供給され、ここで各音
節の時間長が決定される。これは、例えば文字列の長さ
、音節の位置、前後の音節環境等からテーブル検索によ
って決定される。一方、入力文字列は音節ファイル選択
部103に供給され、ここで必要な上記音節ファイルが
音節ファイル格納部104力冒ろ読出される。音節ファ
イル格納部104には前述の如く、自然音声から分割さ
れた音声ファイルやスペクトル包絡情報が、有声音無声
音を区別する情報や音源の振幅を規定する情報と共にP
ARCOR(偏自己相関係数)やLSP(線スペクトル
対)等のパラメータの形で格納されている。
時間長設定部102の出力及び音節ファイル選択部10
3の出力は音節結合部105に供給され、ここで、時間
長設定部102からの各音節の時間長に従=  4 − って音節ファイルの選択部103からの各音節ファイル
が結合され、スペクトルパラメータが生成される。この
とき、音節ファイルの時間長と設定された時間長とは一
般には一致していないため、通常は母音部の長さを調整
することにより時間長を合わせる。
一方、入力文字列及び時間長設定部102の出力はピッ
チパターン生成部101に供給され、各音節の時間長よ
りピッチパターンが生成される。このピッチパターン及
び音節結合部105からのスペクトルパラメータは音源
生成部107に供給され、ここで、無声部は白色雑音、
有声部はピッチ周期に対応したインパルス列の駆動音源
が生成される。
駆動音源及びスペクトルパラメータは波形合成部106
に供給され、ここで音声波形が合成される。
(発明が解決しようとする問題点) 従来の分析合成装置は、前述のように、規則合成装置に
用いるようなカナ文字列等の言tR情報を使用しておら
ず、音源パラメータやスペクトル包絡パラメータを伝送
、蓄積してこれから音声合成している。一般にスペクト
ル包絡パラメータを表わす情報量は言語情報量や音源情
報量に比して極めて多く、このため、従来の分析合成装
置で扱う情報量は例えば1.2kbps〜9.6kbp
Sと多くなる問題点があった。
一方、従来の規則合成装置は、主としてピッチパターン
を規則的に生成するために自然な音声を得ることができ
ず、音質劣化を生じる問題点があった。
〔問題点を解決するための手段〕
第1図は本発明装置の原理ブロック図を示す。
同図(A)は音声分析装置で、同図中、11はピッチ抽
出部、13は時間構造抽出部である。本発明になる音声
分析装置は、入力音声信号からピッチパターンを抽出し
て音声合成装置へ送出するピッチ抽出部11と、 入力音声に関する言語情報と上記入力音声信号とから上
記入力音声信号の時間構造を抽出して音声合成装置へ送
出する時間構造抽出部13とを有してなる。
一方、同図(B)は音声合成装置で、同図中、1はスペ
クトルパラメータ生成部、2は音源生成部、4は波形合
成部である。本発明になる音声合成装置は、合成すべぎ
音声に関する言語情報と音声分析装置から送出される時
間構造情報とから合成すべき音声のスペクトル包絡情報
を表わすスペクトルパラメータを生成するスペクトルパ
ラメータ生成部1と、音声分析装置から送出されるピッ
チパターンと、スペクトルパラメータ生成部1にて得ら
れたスペクトルパラメータとから音響フィルタの駆動音
源信号を生成する音源生成部2と、スペクトルパラメー
タ生成部1にて得られたスペクトルパラメータと音源生
成部2にて得られた駆動音源信号とから音声波形を合成
する波形合成部4とを有してなる。
〔作用〕
第1図(A>に示す音声分析装置において、ピッチ抽出
部11にて入力音声信号からピッチパターンを抽出し、
時間構造抽出部13にて入力音声信号及び言語情報から
時間構造情報を得る。一方、第1図(B)に示す音声合
成装置において、音声分析装置からの時間構造情報ど言
語情報とからスペクトルパラメータ生成部1にてスペク
トルパラメータを生成し、音源生成部2にてスペクトル
パラメータとピッチパターンとから駆動音源信号を生成
し、波形合成部4にてスペクトルパラメータと駆動音源
信号とから音声波形を合成する。
〔実施例〕
第2図は本発明装置の一実施例のブロック図を示す。同
図中、10は音声分析装置で、入力音声信号からピッチ
パターンを抽出するピッチ抽出部11、入力音声信号及
び言語情報(カナ文字列や発音記号列)から入力音声の
時間構造(合成時に他の音響パラメータとの時間内位相
合ぜを行なうため)を抽出する時間構造抽出部13にて
構成されている。
−δ  − 2oは音声合成装置で、言語情報及び音声分析装置10
から出力される時間構造から時間長を決定され、スペク
トルパラメータを生成するスペクトルパラメータ生成部
1、音声分析装置10から出力されるピッチパターンと
スペクトルパラメータとからインパルス列及び白色雑音
の駆動音源を生成する音源生成部2、駆動音源及びスペ
クトルパラメータから音声波形を合成する波形合成部4
にて構成されている。
先ず、音声分析装置10の動作について説明する。入力
音声信号はピッチ抽出部11にて音高を抽出され、ピッ
チパターンとして取出される。ここで、ピッチパターン
とは入力音声信号のピッチ周波数の時系列であり、その
抽出方法としてはAMDF法や変形相関法等従来から用
いられている方法を用いる。
一方、入力音声信号及び言語情報信号は時間構造抽出部
13にて時間構造を抽出される。第3図は時間構造抽出
部13の具体的ブロック図を示す。
ここでは、入力の言語情報がカナ文字列、出力の時間構
造が各音節の時間長(一般に、自然発声の場合、各音節
の時間長は等しくない)の場合を例に説明する。
入力言語情報は音節結合部62に供給され、ここでカナ
文字列に対応する音節のスペク1〜ルパラメータの時系
列が音節ファイル格納部63がら読出され、入力カナ文
字列の順に対応して結合される。音節ファイル格納部6
3には、使用される可能性のある音節について、発声音
をスペクトルパラメータ抽出部61で抽出するものと同
様のパラメータが予め格納されている。
入力音声信号はスペクトルパラメータ抽出部61にて周
波数分析され、スペクトルパラメータの時系列が抽出さ
れる。ここで抽出されるスペク1〜ルパラメータどして
は、例えば、線型予測分析によって得られる線型予測係
数等である。スペクトルパラメータ抽出部61で得られ
た入力音声信号のスペクトルパラメータの時系列及び音
節結合部62で得られた言語情報のスペクトルパラメー
タの時系列とは照合部671に供給され、ここで両者の
対応付けがなされ、時間構造決定部65にて該対応付け
に従って各音節の時間長が決定される。
照合部64における対応付けの方法としては、音声認識
等で一般に用いられているDP(動的計画法)を用いる
次に、音声合成装置20の動作について説明する。音声
分析装置10から出力されたピッチパターンは音源生成
部2に供給される。一方、音声分析装置10から出力さ
れた時間構造及び言語情報はスペクトルパラメータ生成
部1に供給され、ここで、入力された時間構造情報によ
って指定された時間長に従って従来の規則合成装置と同
様の方法でスペク1〜ルパラメータが生成される。
音声分析装置10から出力されたピッチパターン及びス
ペクトルパラメータ生成部1から出力されたスペクトル
パラメータは音源生成部2に供給され、従来の規則合成
装置と同様の方法でインパルス列及び白色雑音の駆動音
源が生成される。この駆動音源及びスペクトルパラメー
タ生成部1からのスペクトルパラメータは波形合成部4
に供給され、従来の規制合成装置と同様の方法で音声波
形が合成される。
このように本発明装置は、従来の規則合成装置のように
韻律制御信号に基づいて音声合成するのではなく、入力
音声信号から得られたピッチパターンから音声合成して
いるので、従来の規則合成装置に比してより自然な高品
質の音声を書生じ冑、又、時間構造情報を用いているの
で更に自然な音声を再生し得る。
又、本発明装置は比較的情報量の少ない言語情報やピッ
チパターンを用いて音声合成しているので、比較的情報
量の多いスペクトル包絡パラメータや音源パラメータを
用いる従来の分析合成装置に比して少ない情報mで音声
合成し得る。この場合、例えばピッチパターンについて
6 bit/20m5ec程度(300b i t/s
ec )の情報量をうえ、その伯に言語情報として普通
の速さで発声する場合6音節/秒程度とし、音節の種類
と時間長に夫々8bit/音節の情報fA (96bi
t/sec >を与えると、両者合計で396bi t
/ secの情報量となる。この情報量は言語情報を用
いないでスペクトル情報のみを用いる従来の分析合成装
置の1.2kbit/sec 〜9.6kbit/ s
ecに比して大幅に少なくし得る。
〔発明の効果〕
本発明によれば、入力音声信号から得られたピッチパタ
ーンから音声合成しているので、従来の規則合成装置に
比してより自然な高品質の音声を再生し得、又、時間構
造情報を用いているので更に自然な名声を再生し得、又
、比較的情報量の少ない言語情報やピッチパターンを用
いて音声合成しているので、比較的情報量の多いスペク
トル包絡パラメータや音源パラメータを用いる従来の分
析合成装置に比して少ない情報量で音声合成し得る。
【図面の簡単な説明】
第1図は本発明装置の原理ブロック図、第2図は本発明
装置の一実施例のブロック図、第3図は時間構造抽出部
の具体的ブロック図、第4図は従来の規則合成装置のブ
ロック図である。 図において、 1はスペクトルパラメータ生成部、 2は音源生成部、 4は波形合成部、 10は音声分析装置、 11はピッチ抽出部、 13は詩間構造抽出部、 20は音声合成装置、 61はスペクトルパラメータ抽出部、 62は音節結合部、 63は音節ファイル格納部、 64は照合部、 65は時間1造決定部である。

Claims (2)

    【特許請求の範囲】
  1. (1)音声信号を入力として音声の分析を行ない、情報
    圧縮して音声合成装置へ送出する音声分析装置において
    、 入力音声信号からピッチパターンを抽出して音声合成装
    置へ送出するピッチ抽出部(11)と、入力音声に関す
    る言語情報と上記入力音声信号とから上記入力音声信号
    の時間構造を抽出して音声合成装置へ送出する時間構造
    抽出部(13)とを有してなることを特徴とする音声分
    析装置。
  2. (2)音声分析装置から送出される情報圧縮された音声
    分析情報を入力として音声の合成を行なう音声合成装置
    において、 合成すべき音声に関する言語情報と音声分析装置から送
    出される時間構造情報とから合成すべき音声のスペクト
    ル包絡情報を表わすスペクトルパラメータを生成するス
    ペクトルパラメータ生成部(1)と、 音声分析装置から送出されるピッチパターンと、該スペ
    クトルパラメータ生成部(1)にて得られたスペクトル
    パラメータとから音響フィルタの駆動音源信号を生成す
    る音源生成部(2)と、上記スペクトルパラメータ生成
    部(1)にて得られたスペクトルパラメータと該音源生
    成部(2)にて得られた駆動音源信号とから音声波形を
    合成する波形合成部(4)とを有してなることを特徴と
    する音声合成装置。
JP9774487A 1987-04-20 1987-04-20 音声分析,合成装置 Pending JPS63262699A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9774487A JPS63262699A (ja) 1987-04-20 1987-04-20 音声分析,合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9774487A JPS63262699A (ja) 1987-04-20 1987-04-20 音声分析,合成装置

Publications (1)

Publication Number Publication Date
JPS63262699A true JPS63262699A (ja) 1988-10-28

Family

ID=14200395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9774487A Pending JPS63262699A (ja) 1987-04-20 1987-04-20 音声分析,合成装置

Country Status (1)

Country Link
JP (1) JPS63262699A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864814A (en) * 1996-12-04 1999-01-26 Justsystem Corp. Voice-generating method and apparatus using discrete voice data for velocity and/or pitch
US5875427A (en) * 1996-12-04 1999-02-23 Justsystem Corp. Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864814A (en) * 1996-12-04 1999-01-26 Justsystem Corp. Voice-generating method and apparatus using discrete voice data for velocity and/or pitch
US5875427A (en) * 1996-12-04 1999-02-23 Justsystem Corp. Voice-generating/document making apparatus voice-generating/document making method and computer-readable medium for storing therein a program having a computer execute voice-generating/document making sequence

Similar Documents

Publication Publication Date Title
JP3437064B2 (ja) 音声合成装置
JPS63262699A (ja) 音声分析,合成装置
JP3233036B2 (ja) 歌唱音合成装置
JP2642617B2 (ja) 音声合成装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP3394281B2 (ja) 音声合成方式および規則合成装置
JPS5914752B2 (ja) 音声合成方式
JPS63262698A (ja) 音声分析、合成装置
JPH05224689A (ja) 音声合成装置
JP3771565B2 (ja) 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体
JPH11161297A (ja) 音声合成方法及び装置
JP2956069B2 (ja) 音声合成装置のデータ処理方式
JPH09230892A (ja) テキスト・音声変換装置
JPS58168097A (ja) 音声合成装置
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
JP2573586B2 (ja) 規則型音声合成装置
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JP2586040B2 (ja) 音声編集合成装置
JPH03160500A (ja) 音声合成装置
JP2001166787A (ja) 音声合成装置および自然言語処理方法
JP2573587B2 (ja) ピッチパタン生成装置
JP2004004952A (ja) 音声合成装置および音声合成方法
JPH01118200A (ja) 音声合成方式
JPS626299A (ja) 電子歌唱装置