JPS62502572A - 音響波形の処理 - Google Patents

音響波形の処理

Info

Publication number
JPS62502572A
JPS62502572A JP50177986A JP50177986A JPS62502572A JP S62502572 A JPS62502572 A JP S62502572A JP 50177986 A JP50177986 A JP 50177986A JP 50177986 A JP50177986 A JP 50177986A JP S62502572 A JPS62502572 A JP S62502572A
Authority
JP
Japan
Prior art keywords
frequency
waveform
frame
component
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP50177986A
Other languages
English (en)
Other versions
JP2759646B2 (ja
Inventor
マコーリー,ロバート ジエイ
クウオテイエリ,トマス エフ.,ジユニア
Original Assignee
マサチユ−セツツ インステイテユ−ト オブ テクノロジ−
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マサチユ−セツツ インステイテユ−ト オブ テクノロジ− filed Critical マサチユ−セツツ インステイテユ−ト オブ テクノロジ−
Publication of JPS62502572A publication Critical patent/JPS62502572A/ja
Application granted granted Critical
Publication of JP2759646B2 publication Critical patent/JP2759646B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Surgical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 米国政府は、空軍省(Departm@nt of the Air Fore s )契約第F19−028−80−C−0002に従って、この発明での権利 を有する。
技術分野 本発明の分野は一般的には音声技術であり、特に、音声または他の音響波形の分 析とディジタル形符合化と修正および合成のための方法および装置である。
発明の背景 標準的には、音声信号を表現することの問題は、声門前の励起波形が時間変化す る線形フィルターを通じた結果として音声が考察され声道の共鳴特性をモデル化 するところの音声生成モデルを使うことにより着手される。
種々の音声応用において、声門前の励起は、有声または無声音に対応する2つの 可能な状態の一つにあることができると仮定することで十分である。有声音状態 において、励起は、分析フレームレート(標準的には10〜20 ms )に対 して、時間に関してゆっくりと変化することが許容される周期と共に周期的であ る。無声音状態について、声門前の励起は、平坦なスペクトルと共にランダムノ イズとしてモデル化される。両方の場合において、励起でのパワーレイ4戸ぐ、 ナたゆ・?・ニーr1. =:・1に襄イヒす不と考えら217−)。
この2進9・〜ブ゛Aa It 、挟間な、ゲ、ス・・ダおよび音声合成システ ムを設計するのに有効に使用されてきたが、その限界がよく知られている。たと えば、励起は、有声および無声成分の両方を同時に有して混合されることが多く またしばしばスペクトルの一部のみが実際に調波的(ハーモニック)である。さ らに、2進モデルは、データの各フレームが有声または無声のいずれかとして分 類されることを必要とするが、その決定は、もし音声にもまた付加的な音響雑音 が課されているならば、行うことが特に困難である。
従来の伝送線路と両立する(コンパチブル)レート(すなわち2.4〜9.6キ ロビツト/秒)での音声ニーズは相当なニーズに出会うであろう。この種のレー トでは、2進モデルは符号化応用に不適当である。さらに、使用者が、波形を再 構成する場合に種々のパラメータを修正することを許容する音声処理装置および 方法が相当に有用である。たとえば、(ピッチ変更なしの)時間スケール修正が 、種々の音声応用(すなわち、Iil訳目的のために音声を遅くすることまた走 査目的のために音声を速くすること)ならびに音楽的な合成または分析のために 非常に有用な特徴となろう。残念なことに、時間スケール(および他のパラメー タ)修正もまた2進モデルを採用する装置によっては、高品質をもって実現され ない。
かtl、2て、可聴波形を処理するためのより良好な方法および装置に対する必 T性がある。#に、ff声の知覚品質を鋏持し、同時し一陶音作用のし・・−F を変えるや:とかてを、シンセサイザー(11戸合成器)と同様に中@ i h 、−・−・トτまた雑音珍境に′おい“(動作可1i?:な音)カフ・ダが、K し1式の簡f8のイ今μ慕’6.を炭、F底しが′ン汀台11分虞6ニイ、J廿 ;ンγt5す・答打音声分析および合成ならびに符号化および時間スケール修正 とが、音声状態に無関係である音声波形の時間−周波数表現を採用することによ り、簡単にまた効果的に実現されることが発見された。明確にいうと、音声波形 のための正弦モデルが新規な分析/合成技術を増進するのに使用される。
本発明の基本方法は、 (a)サンプルのフレーム(すなわち約20〜40 msの窓)を波形から選択 し、 (bj −組の周波数成分を抽出するためにサンプルの各フレームを分析し、 (c) 〜フレームから次のフレームへと成分をトラッキング(追跡)し、 (d) 波形のパラメトリック表現を得るために、−フレームから次のフレーム へと成分の値を補間する諸段陪を備える。
次に、合成波形が、パラメトリック表現に対応する一連の正弦波を発生すること により構成される。
本発明の一つの簡単な実施例では、波形を表現するのに、成分正弦波の振幅およ び周波数だけを使用する装置が開示される。このいわゆる「γグエチェード(大 きさ)だけjのシアーf′ム「おいて、位相π統性が、位相な瞬間周波数の桁分 ないり、複合であると定員することにより紡持さJz、 %、 oより応用力の ある実施例において、被測定位K1づr「庁り○抄柊ぶ、7よび周波数がε〕蓚 に利用される。
本発明は特に音声符号化および時間スケール修正に有用でありまたこれらの応用 の両方で有効性が立証された。
付加的な音響雑音の環境において動作するよう、耐久性のある装置が本発明によ り製造される。本発明はまた単一および複数の話者信号または音楽の音響または 生物学的前管でさえも分析するのに使用できる。本発明はまた、たとえば盲人の ための読取り機械および放送ジャーナリズム纒集および遠隔の演奏装置などへの 伝送での応用を見出す。
本発明の一例示の実施例において、上に要約される基本方法は、音声状態と独立 に、被測定信号のペリオドグラム(Periodgram )でのもつとも大き なピークに対応する振幅と周波数と位相とを選択するよう使用される。−フレー ムで評価される複数の正弦波の振幅と周波数と位相は、音声波形を再構成するた めに、整合(マツチ)されまた次のフレームで設定される対応するパラメータに 連続的に展開することが許容される。評価される複数のピークは一定でなくまた ゆっくりと変化しているので、マツチング処理は簡単ではない。たとえば、無声 7M声変化などの音声の急速に変化する領域が、ピークの位訪および数の両方で 大きな変化を結果し得る。スペクトルエネルギーでのこの種の急速な動きを考慮 するため、に、正弦的成分の「パース(birth ) Jおよび「デス(d@ ath)Jの概念が、各フレームで評価される周波数に基づく最近接隣同士式マ ツチング方法で使用される。もし、新しいピークが出現するならば、「パース」 が生ずるよう宣言されまた新しいトラックが開始される。もし、古いピークが整 合されないならば、「デス」が生ずるよう宣言されまた対応するトラックはゼロ へ減退するようなされる。
連続フレームでのパラメータがいったん整合されると、各正弦的成分の位相連続 性が、位相を展開する(unvrapp−ing )ことにより保証される。好 ましい一実施例において、位相は、フレーム境界で被測定位相および周波数制約 を満足するよう選択されるパラメータ値をもつ3次位相補間関数を用いて展開さ れると同時にフレーム期間にわたりできるだけ大きな滑らかさくスムースネス) を維持する。最後に、対応する正弦的振幅は、各フレームを横切って線形態様で 簡単に補間される。
音声符号化応用において、ピッチ評価が、周波数成分の割り当てられる一組の調 波(ハーモニック)周波数ビンを設定するのに使用される。(ピッチはここでは 、話者の声帯が振動しているところの基本レートを意味するよう使用されている 。)成分の振幅は、周波数を横切って適応性パルス符号変調(ADPCM)を使 用して直接的に符号化されるかまたは線形予測符号化を使用して間接的に符号化 される。各調波周波数ビンでは、もつとも大きい振幅をもつピークが選択されま たビンの中央で周波数に割り当てられる。これは、符号化されるピッチ周期に基 づく調和級数を結果する。次に位相は、フレームの終わりで位相を予測するため に周波数を用いて符号化され、被測定位相をこの予測に関して展開しそして次に 4ビット/位相ピークを用いて位相残差を符号化する。もし位相ピークのすべて を符号化できるのに十分なビット数がないならば(たとえばローピッチの話者の 場合)、高周波数ピークのための位相トラックが人工的に発生される。好ましい 一実施例では、これは、ベースバンドピークの周波数トラックを符号化されない 位相ピークの高周波数に変換することにより行われる。この新規な符号化計画は 、各話者ごとにビットを適応的に割り当てるという重要な特性を有し、それゆえ ローピッチおよびハイピッチの話者の両方に自己同調である。ピッチは、サイド 情報を符号化アルゴリズムに提供するのに使用されるけれども、音声のための標 準的なボイス励起モデルは使用されない。これは、遡求(recourte ) がM声/無声決定について決して行われないことを意味する。結果として、本発 明は雑音での耐久性がありまた単にビット割当てのための規則を変えることによ り種々のデータ伝送レートで応用できる。
本発明はまた時間スケール修正に良好に適合される。
これは、周波数変動が維持されるように、振幅および位相を時間スケール処理す ることにより実現される。音声が再生ないし返送される時間スケールは、整合さ れるビクが補間されるレートを変えることにより簡単に制御される。これは、時 間スケールがいずれかの因子により速くまたは遅くできることを意味する。この レートは、操作者に時間スケールを変化させるのに完全な融通性を許容するパネ ルノブにより制御される。時間スケール処理を遂行するのに知覚遅れはない。
本発明は、一定の例示の実施例に関連して以下で開示される。しかし、本発明の 技術思想から逸脱することなく、種々の変更および修正が、当技術分骨に精通し た者によってなされることは明らかである。たとえば、別のサンプリング技術が 、可変フレーム長およびハミング窓の使用に置き換えられる。さらに、この種の フレームおよび窓の長さは、特定の応用に応じて変化できる。同様に、周波数マ ツチングが種々の手段により達成できる。
種々の重数装置が、フーリエ分析を遂行するのに利用可能である。この種の分析 もまたカスタムハードウェアまたは特別に設計されるプログラムにより遂行され る。
ピッチf#報を抽出するのに権々の技術が採用される。
たとえば、ピッチ周期はフーリエ変換から導出される。
たとえばゴールド・マーバス(Gold −Malpamm )技術もまた使用 できる。一般的には、M、 L、 MalpaasによGold Plteh  Detector in a Real Time Environn>ant  −およびB、Goldによるフォースインターナショナル22〜28日、19 62年)の” Description of a ComptusrProg rarq for Pitch Detection ’およびB、Goldに よる、ジャーナルオブザアコーステイカルソサイエテイ1659〜1661ペー ジ(1964))の” Note onBuzz−H1s@Dets+etio n ” を参照されたい。これらはすべて、参考文献としてここに合体されるも のである。
種々の符合化技術が、以下に開示せるものと共に交換して使用することもできる 。チャネル符号化技術が、J。
N、 )(olmeaによるアイイーイーピーアールオーシーのThe J S RU Channel Vocoder ”に開示されている。
適応性パルス符号変調が、L、 R,RablnerとR,W。
5hafer著、「デイジタルプ賞セシングオブシグナル(Digltml P rocessing of Signal 、 Prentice I(all  。
1978年)」に開示される。線形予測符号化が、J、D。
Markel著、「リニアプレデイクションオブスピーチ(Linear Pr @diction of 5peech ) s Springer−Verl ogs1967年)に開示されている。これらの技術もまた参考用に合体される 。
「補間(1nterpolation ) Jという言葉は、本出願ではフレー ム境界で測定されるデータ値間でデータ値を補充するための種々の技術を含むよ う広く使用されている。
マグニチュードのみの系では、線形補間が、振幅および周波数の値を補充するた めに使用される。この簡単な系では、位相値は、まず一フレームから次のフレー ムへと整合される周波数成分の補間により一連の糾問周波数値を画定し次に一連 の補間される位相値を得るために一連の瞬間周波数値を積分ないし複合すること により得られる。より応用力のある系では、各フレームの位相値は直接的に導出 されまた3次長項式が、フレームからフレームへとできるだけ大きく滑らかな位 相補間を得るのに使用される。
同様の目的を実現する別の技術もまた本出願で補間技術として言及される。たと えば、データ値を補充するいわゆる「重複および加算」技術(” 0verla p and add ”method ) もまた使用される。この方法では、 加重重複関数が、各フレーム中に発生される正弦波の結果に付加され次に重復値 は、フレーム境界で測定されるそれらの間で値を補充するために加算される。
図面の簡単な説明 第1図は、成分のマグニチュードおよび周波数だけが、サンプルされる波形を再 構成するのに使用される本発明の一実施例の模式ブロック図である。
第2図は本発明によりサンプルされる波形の抽出された振幅および周波数成分の 実例である。
第3図は本発明の周波数マツチング方法の一般的例示である。
第4図は、本発明による周波数マツチング方法の詳細な模式的例示である。
第5図は、模範的な音声パターンのトラックされた周波数成分の例示である。
第6図は、周波数成分の位相およびマグニチュードが、サンプルされる波形を再 構成するために使用される本発明の別の実施例の模式ブロック図である。
第7図は、「できるだけ大きく滑らかな」位相関数が選択される第6図の実施例 と関連して有用な位相関数の平滑化のための3次位相補間関数の組の例示である 。
第8図は、時間スケール修正に特に有用な本発明の別の実施例の模式ブロック図 である。
第9図は、第8図のシステム評価関数の実施例を示す模式ブロック図である。
第10図は本発明の一つの実時間実行のブロック図である。
詳細な説明 本発明において、音声波形は正弦波の和としてモデル化される。もし1l(rI )がサンプルされる音声波形を表わすならば、 s(、)=Σat(n)sin(φ、(n)) <11である。ここで、a(n )およびφ1(n)は、1番目の音調(tone )の時間変化する振幅および 位相である。
簡便な実施例において、位相は瞬間の周波数fl(n)の積分ないし複合である よう画成されそれゆえ、漸化式%式%(2) を満足する。
ここで、f3はサンプリング周波数である。もし、音調が調波関係にあるならば 、 rt(n)= i fo(n) (3)である。ここでfo(n) は時間nで の基本周波数を表わす。上のモデルの一つの特に興味ある特性は、位相の連続性 それゆえ波形の連続性が瞬間周波数の点からの位相の定義の結果として保証され ているという事実である。
これは、高分解能式のスペクトル分析が成分正弦波の振幅および周波数を明らか にするので、波形の再構成がマグニチュード(大きさ)だけのスペクトルから可 能であることを意味する。
本発明による分析/合成システムのブロック図が第1図に示されている。窓処理 波形の離散形7−リエ変換(DFT、 discrete Fourier t ranaform )の大きさのピークは、(下に凹の)傾きの変化の場所を決 定することにより簡単に見出される。さらにピークの全体数は制限でき、この制 限は予想される話し手の平均ピッチに適合される。
簡単な実施例において、音声波形は10 kHzのサンプリングレートでディジ タル化でき、5 kHzで低周波ろ波され、20m5のハミング(Hammin g ) Zと一緒に20m5のフレーム間隔で分析される。本発明による音声表 現は、可変時間の分析窓を採用することによっても得られる。ある種の応用に関 して、分析窓の幅に、たとえば20m5の最小幅と共に平均ピッチ周期の2.5 倍で設定されるよう、ピッチ適応性をもたせることが好ましい。
第2図にプロットされたものは、先の手続きを用いて評価される振幅および周波 数に沿う音声フレームのための標準的なペリオドグラム(周期図)である。離散 形7−リエ変換DFTは512ポイント式の高速フーリエ変換(FFT % f ast FotIrier trans form )を用いて計算された。こ れらのパラメータの種々の組が各分析フレームごとに得られる。
第3図は周波数成分マツチングの基本処理を例示する。
もし仮にピークの数が一定かつフレームからフレームへと緩慢に変化すると仮定 するならば、−フレームで評価されろパラメータを次のフレームでのパラメータ とマツチングすることの問題は、単にピークの周波数順序割当てを要求すること となろう。しかし、実際には、サイドローブ相互作用の影すにより変動するスプ リアスピークがあり、ピークの場所は、ピッチが変化するにつれて変化しまた、 たとえば有声/無声転換でのように、音声の急速な変化領域に対応して、ピーク の場所および数の両方の急速な変化がある。この桐のスペクトルピークでの急歯 な動きを考慮するために、本発明では、マツチング処理の部分として、正弦的成 分の「パース(birth ) Jおよび「デス(dHth )Jの概念を使用 する。
マツチング処理はさらに第4図の考えにより説明される。フレームkまでのピー クはマツチングされまたフレームに+1のために設定される新しいパラメータが 発生されると仮定する。フレームにおよびに+1で選択される周波数を各々ωo k、、、に、・・・(IIk およびω。k+11ω、k+1、・・・ωに+1 〔ここでNおよびMは各フレームで選択されるピークの全体数を表わす(一般に N〆Mである)〕で表示する。フレームにでの周波数(ω )をフレームに+1 でのある周波数(ω )にマツチングする一つのプロセスは次の3つのステップ で与えられる。
周波数#ト、ω−1・・・”n−1について一つの整合(マツチ)が見出される と仮定する。いま、整合が周波数ω譜について企図される。第4(a)図は、フ レームに−)−1でのすべての周波数ω。 が、ω。の「マツチング間隔」Δの 外側にある場合を示す。すなわちすべてのmについて、 である。この場合、ω0に関連される周波数トラックは、フレームに+1に入る 際に「デッド(dead )と宣言され、またaInはフレームに+1でそれ自 身にしかしゼt−振幅と一緒に整合される。その後、周波数ω1はこれ以上考え に入れられることなく、ステップ1がリストでの次の周波数ω譜+1について縁 り返される。
他方、もしフレームに+1に、マツチング間隔内にて、に近傍にあり、この種の 周波数−すなわち、mに等しくないすべてのlについて、 k+1 に最も近接している周波数ω が存在するならば、s k + I G、) #  kに候補整合(candidate match )であるとm n 宣言される。確定整合(definitive match )がまだ行われて いない。なぜなら周波数ωに+1に対してフレームにでのより良好な整合、ステ ップ2で考慮される不確定性が存在するかもしれないからである。
このステップにおいて、ステップ1からの候補整合がF Bされる。フレームに の周波数ω1がフレームに+1に+1 の周波数ω に試験的に整合されたと仮定する。もしωに+1がフレームにの残 りの不整合周波数に対してより良好な整合を有さないならば、候補整合は確定整 合であると宣言される。第4(c)図に例示のこの条件はによって与えられる。
これが生ずるときに、周波数ωkk+I およびω はそれ以上の考察から外されまたステップに 1がリストでの次の周波数の について繰り返される。
n+1 もし条件(6)が満足されないならば、フレームに+1での周波数ωに+1は、 試験周波数ωkに対してよりも、フレームにの周波数#2 に対してより良好に 整合される。
n+1 2つの追加のケースが次に考察される。第4(d)図に例示される第1のケース において、崎りの残りの低い方の周波数ω菖↓)(もし存在するならば)は、マ ツチング間隔よりも下にあるので、何ら整合は行われない。その結果、mkに関 連される周波数トラックはフレームに+1に入る際に「デッド」と宣言されまた 。にはゼロ振幅と一緒にそれ自身に整合される。第4(C)図に例示される第2 のケースにおいて、周波数ω1 は、マツチング間隔内にて#2近傍にあり、確 定整合が行われる。いずれかのケースの後に、ステップ1がフレームにでの次の 周波数ω。−1を使って繰り返される。このステップでは、他の多くの状況が可 能であるが、トラッカの代替物をできるだけ簡単にしておくために、2つのケー スのみ論述してフレームにのすべての周波数が試験され!た継続するトラックま たは死んでいる( dying ) )ラックに割り当てられたとき、フレーム に+1には何の整合も行われていない周波数が残存し得る。ωに+1がこの種の 周波数でk’1 あると仮定すると、ω はフレームにで「生れた(born)」と結論されまた その整合(新しい周波数)ωに+1がゼロの大きさと一緒にフレームにで発生さ れる。
これは1この種の不整合同波数すべてに関して行われる。
この最後のステップは第4(f)図に例示される。
トラッカを実際の音声のセグメントに応用することによる結果が第5図に示され 、これはたとえば有声/無声転換および有声/無声混合領域などの一時的な音声 の振舞いを通じてすばやく適合するトラッカの能力を証明する。
簡単なマグニチュード(大きさ)だけのシステムにおいて、合成が、回りくどく ならない方法で実現される。
各一対の整合周波数(およびそれらの対応するマグニチュード)が、連続的なフ レーム境界を横切って線形補間される。上に述べたように、マグニチュードだけ のシステムでは位相の連続性が、瞬間の周波数の点からの位相の宇義により保証 される。補間値は、次に、第1図に図示の合成波形を生ずる正弦波発生器をドラ イブするのに使用される。パフォーマンスが、窩い方の周波数で相関窓の大きさ Δを減することにより改谷されることに注意されたい。
第1図に例示される(また以下にfMfflにtRiT4される)さらに別の特 徴が、本発明は時間スケール修正に理論上適合されることである。第3図から、 時間スケールを単に拡張または圧縮することにより、場所およびマグニチュード は保持されたままそれらの時間変化レートを修正することが31Mされよう。変 化レートbに1響を与えるために、合成合成器補間レー)R’(第1図を参照さ れたい)はR’=bRによって与えられる。さらに、このシステムと一緒に、時 間変化する変化レートを招来することは簡単である。なぜなら、周波数は、時間 で補間レートを変化することにより引き伸ばされるかまたは圧縮されようからで ある。
第6図は、位相が直接的に測定されるより一層包容力のあるシステムのブロック 図を示す。このシステムでは、周波数成分および毎れらの振幅は、先に説明され また第1図に例示のマグニチュードだけのシステムと同様の方法で決定される。
しかし、位相測定値は、評価される周波数ピークで逆正接を計算することにより 、離散形フーリエ変換から直接に導出される。
第6図の包容力のあるシステムにおいて、−組の振幅および周波数および位相が 各フレームごとに評価されるを使用して合成音声を発生することにより、k番目 のフレームでの元の音声波形を評価することは合理的であろうと思われる。しか し、パラメータの時間変化性により、この回りくどい方法は、合成音声の質をひ どく損うフレーム境界での非連続性へと導く。それゆえ、一つのフレームから測 定されるパラメータを、次に得られるパラメータに滑らかに補間するための方法 が見出されねばならない。
先の段落で説明された周波数マツチングアルゴリズムの結果として、任意のフレ ・−ムkについて測定されるすべてのパラメータは、フレームに+1に関するパ ラメーkk りの対応組に関連される。(A、ω7、θ6〕およびに+1 k+1 k+1  。
(AL 、1ω6 、θ 〕か、を番目の周波数トラックについてのパラメータ の連続組を示すことにすると、振幅補間問題に対する解決は、 (ここで、n=1.2、・・・、Nはに番目のフレームでの時間サンプルである )を行うことである。(トラックの下付き記号rzJは便宜のために省略された )。
残念なことにこの種の簡単な方法は、測定される位相θ1は2πを法として(m odulo 2π)得られるので、周波数および位相を補間するのに使用できな い。それゆえ、位相のunwrapplng (展開)が、周波数トラックがフ レーム境界を横切って「できるだけ最大に滑らか」であることを保証するために 遂行されねばならない。この問題を解決する第1のステップは、3次の多項式す なわちθ(t)=ξ十γt+αt2+βt 3 (9)である位相補間関数を仮 定することである。位相補間関数があたかも連続時間変数tの関数のごとく、フ レームkに対応して1=0およびフレームに+1に対応してt=Tと一緒に、位 相関数を取り扱うことが便利である。
多項式のパラメータは、フレーム境界で得られる周波数および位相測定値を満足 するように選択されねばならない。討間の周波数は位相の導関数であるので、1 I(t)=γ+2αt+3βt 2 (10,)でありまた始点1=0で、 となり、また終点t=Tで θ(T)=θに十ωkT+αT2+βT3−θ +2πMk+1 θ(T)二ω +2αT+3βT2=ω (12)となる。ここで再び、トラッ クの下付き記号「t」は便宜のため省略されている。
k+1 終点の位相θ は2πを法として測定されるので、結果として得られる周波数関 数を「できるだけ最大に滑らかに」するために、項2πM (Mは整数)だけそ れを増加することが必要である。この時点で、Mは未知であるが、各Mの値ごと に、それがどんな値であろうと、式(12)はα(M)およびβ(M)について 解くことができる(Mへの依存性はここに明瞭に示された)。解は、マドを満足 するように容易に示される。
Mおよび位相展開(unwrapping )問題に対する解を究極的に決定す るために、「できるだけ大きく滑らかな」標準(criterion )を定置 化する追加の制約が課されることを必要とする。第7図は、複数のMの値ごとの 3次の位相補間関数の標準的な組を例示する。直観的基礎に基づいて、選ぶのに 最もよい位相関数は、できるだけ少ない変動をもつものである。これは、できる だけ大きく滑らかな周波数トラックにより意味されることである。
実際、もしかりに周波数が一定でありまた声道(マoc+altract )が 不動である仮定するならば、真実の位相は線形(1inear )となろう。そ れゆえ、「滑らかさ」のため(ここでθ(t ;M)は時間変数tに関するθ( t# M )の2階導関数を示す)が最小となるようMを選択することである。
Mは整数と評価されるけれども、f(M)はMにおいて2次であるので、問題は 、連続変数Xに関してf (X)を最小とすることによりまた次にXにもつとも 近い整数となるようMを選択することによりもつとも容易に解かれる。
回りくどくないが退屈な代数の後、Xの最小値は、であることが示され、これか らM8が決定されまた式(13)で使用して、α(M )およびβ(M )を計 算し次に展開された( unwrapped )位相補間関数はθ(L)=01 +ωkt十α(M”)t2+β(M”)t3 (1(S)となる。この位相関数 は、SI定される位相および周波数の終点制約のすべてを満足するだけでなく、 θ(1)ができるだけ最大に滑らかであるような仕方で位相を展開する。
上の分析は、フレームにの始点での周波数ω に対応する初期展開位相θ の仮 宇と共に始まったので、フレーム禎間手続きの初期化を明記することが必要であ る。これは、任意の時点で考察下のトラックが生じた( born )ことを注 意することにより行われる。この事象が起きた時に、振幅と周波数と位相とがフ レームに+1で測定され、これらの測定値が対応するフレームにでのパラメータ は振幅をゼロに設定(すなわちAk=O)L同時に同様の周波数を維持する(す なわちω =ω )ことにより画定される。位相補間制約が初期的に満足される ことをに+1 保証するために、展開位相は測定される位モイθ となるよう画定されまた開始 位相は、 (ここでNは、フレームに+1がらフレームにへと戻る場合に横断されるサンプ ルの数である)となるよう画定される。
上に述べた位相展開手続の結果として、各周波数トラックは、各正弦成分の周波 数による急速な位相変化と声門前のパルスおよびマocal trackの伝達 関数による緩慢に変化する位相変化との両方を考慮に入れる瞬間の展開位相をそ れに関連してもつこととなる。θL(1)がt番目のトラックに関する展開位相 関数を示すとすると、最終的な合成波形は (ここで、kN<n≦(h+1)NXAt(n)は(8)により与えられ、θt (、)は式(16)のサンプルデータ変形であり、L(k)はに番目のフレーム について評価される正弦波の数である。
第6図に結合して説明される本発明は、8キシビット/秒での動作のために、音 声符合化(コーディング)システムを発展させるのに使用された。このレートで は、高品質の音声は、位相測定に大いに依存するので、位相符合化は高い優先順 位である。正弦的表示はまた振幅および周波数の特定を要求するので、利用可能 な複数ビットのすべてが使用されるよりも前に、相当に少ないピークが符号化さ れることは明らかである。それゆえ、第1のステップは、符合付されねばならな い複数パラメータを大幅に減するべきである。これを行うための一つの方法は、 すべての周波数を調波せしめることである。
有声音の間、すべてのピークが調波的に関係されることを期待しようそれゆえ基 本を符号化することにより、すべての周波数の位置はレシーバで利用可能である 。無声音声の間、ピークの周波数位置はこの場合に調波でない。しかし、ランダ ムプロセス理論から、ノイズ様の波形は、隣接の調波間の間隔が、パワースペク トルのエンロープにごくわずかの変化がある(すなわち約100Hz以下の間隔 )よう十分小さいならば、正弦波の調波拡張の点から(全体的平均2乗誤差の意 味において)表現できる。この表現は、振幅および位相がフレームがらフレーム へとランダムに変化しているならば、入力の音声の統計学的特性を保持する。振 幅および位相は符合化されるべきであるので、測定変数に固有のこのランダムな 変化は合成波形で保持される。
実際上・各フレームでの周波数の組を特性付ける基本周波数を評価することが好 ましく、これは次にピッチ抽出に関係する。たとえば、ピッチ抽出は、知覚の標 準に応じて入力音声への最も良好な適合を発生するために、−組の調波正弦波の 基本周波数を選択することにより実現される。他のピッチ抽出技術もまた採用で きる。
調波周波数モデルを使用することの即座の結果として、符号化されるべき正弦波 成分の数は基本により除算される符号化音声の帯域幅となる。測定されるピーク の数はこの調波数に等しいとする保証はなにもないので、符合化されるべきピー クの数を調節するために、対策がなされるべきである。基本に基づいて、−組の 調波周波数のビン(bin )が設定されまた各ビンにあるピークの数は検査さ れる。もし1以上のピークが見出されるならば、最も大きなピークに対応する振 幅および位相だけが符号化のために保持される。もし、所与のビンにピークがな いならば、ビンの中央に対応する周波数で短時間のフーリエ変換をサンプルする ことにより得られる振幅および位相をもつ仮想のピークが生成される。
振幅は次に、チャネルボコーダ−で使用されると同様の技術な応用することによ り符合化される。すなわち、たとえば、第1のピーク(すなわち300Hz以上 の第1のピーク)Ll)振幅を符合化するのに2デシベル/レベルと共に5ビツ トを用いることにより、ゲインレベルが設定される。次のピークは、周波数を横 切ってデルタ変調技術を使用することにより、対数的に符号化される。−シミュ レーションにおいて、五6kbpHが、50Hzのフレームレートで振幅を符合 化するのに割り当てられた。
追加のビット割当て規則が、ピークに複数ビットを割当てるのに使用できる。た とえば、もしピッチが高いならば、符号化するのに相当に少ないピークがありま たピークあたりより多くのビットがある。反対に、ピッチが低いとき、ピークあ たり相当に少ないビットがあり、しかし、ピークは共に接近するので、それらの 値はより相関され、それゆえADPCMコーダはニーらを良好にトラックできる ようにされるべきである。
位相を符号化するために、ピークあたり固定数のビット(標準的には4または5 )が使用される。位相を符号化するための一つの方法は、測定される位相を、− πからπの範囲の2#(秒)等間隔の一つに割り当てることであり、ここでn  = 4または5である。別の方法は、現在のフレームの端部で位相を予想し、値 を展開し、次に位相ピークあたり4または5ビツトと一緒にADPCM技術を使 用して位相の残りを符号化するために、(符合化される)位相に対応する周波数 トラックを使用する。位相および基本(7ビツトが使用される)を符号化するの に4.4 kbpsだけが残っているので、5(l]Hzのフレームレートで、 せいぜい16ビークが符合化できることとなる。4 kHzの音声帯域幅および 1位相あたり4ビツトで、ピッチが250)(zよりも大きい場合に、すべての 位相が符合化される。もしピッチが250Hz以下ならば、符合化されない高周 波数ピークのために、位相トラックを再発生するために対策がなされねばならな い。これは、騎間の3次位相の導関数とこのトラックのための終点の周波数の線 形補間との間の差である差分周波数を計算することにより行われる。差分周波数 は、それを符合化されない位相のトラックに対応する終点周波数の線形補間に付 加することにより、高周波数領域に変換される。得られる瞬間周波数関数は次に 、正弦波発生器に付加される瞬間位相関数を与えるために積分ないし複合される 。
このようにして、有声音に内在の位相コヒーレンスおよび無声音の位相の非コヒ ーレンス特性は非符号化周波数領域に効果的に変換される。
第8図には、特に時間スケール修正に適合するようなされた本発明の他の実施例 が例示される。この例示において、表示の正弦波はシステム貢献度(すなわち声 道がらの)と励起貢献度(すなわち声帯からの)とを備えるようさらに画定され る。励起位相貢献度は3次補間のために選定される。手続は、他の実施例に関係 して先に述べられたものにほぼ従うが、さらに別のステップにおい−k、、 て、測定される振幅A A 10よび位相θ〉は声道成分および励起成分に分解 される。方法は第1に、各分析フレームで周波数の関数として(すなわちM(ω 、kR)およびφ(ω、kR))の声道振幅および位相の評価を形成することで ある。選択される周波数ω〉でのシステム振幅および位相評価は次に、 Mt−M(s%、kR) (19) および に− φt (# ’2. 、kR) (20)によって与えられる。
最彼に、各分析フレーム境界での励起パラメータ評価は、 kk ”t At / Mt (21) および kk Ω7−θ6−φt(22) として得られる。
分解の問題はそれからM(ω、kR)およびφ(ω、kR)を高分解能スペクト ルX(ω、kR)から周波数の関数としてj・1価することの問題となる。(も ちろん実際上は、均等に離間される周波数サンプルはDFTから利用可能である 。)たとえば全極形モデル化および準同形デコンボルーションなどの高分解能ス ペクトルからシステムマグニチュードを該別するための複数の確立された方法が ある。もし声道伝達関数が最小位相であると仮定されるならば、システム位相お よびシステムマグニチュードの対数はヒルベル) (Hilbert )変換対 を形成する。この条件のもとで、位相評価φ(m、kR)はヒルベルト変換を通 じて、システム関数の大きさ評価M(ω、kR)の対数から導出される。さらに 、得られる位相評価は周波数の関数として滑らかでありまた展開される。
システムマグニチュードの評価の一方法およびヒルベルト変換の使用を通じるシ ステム位相の対応する評価は第9図に例示されまた準則形変換に基づく。この技 術では、高分解能スペクトルからのシステム振幅の識別およびこの振幅評価のヒ ルベルト変換の計算は実際上同時に遂行される。高分解能マグニチュードの対数 の7−リエ変換は、「ケプストラム(eepstrum )Jを得るために第1 に計算される。右側窓が、平均ピッチ期間に比例する時間と一緒に、次に付加さ れる。得られる逆フーリエ変換の虚数成分は所望の位相であり、実数部分は滑ら かな対数マグニチュードである。実際には、フーリエ変換の均等に離間されるサ ンプルがFFTと一緒に計算、される。
FFTの長さは、ケプストラムでのal ias ing ti: aけるのに 十分大きかった512で選択された。かくして、正弦波周波数を評価するのに使 用される高分解能スペクトルは、声道システム関数を評価するのにも使用される 。
第8図の時間スケール修正システムでの残余の分析ステップは、他の実施例に関 連して先に開示されるステップに類似である。マツチングアルゴリズムの結果と して、任意のフレームkについて測宇される励起成分およびシステム成分の振幅 および位相のすべてはフレームに+1についての対応する組のパラメータに関連 される。合成での次のステップは、フレーム境界を横切って整合される励起パラ メータおよびシステムパラメータを補間することである。補間手続は、励起関数 およびシステム関数はフレーム境界を横切って緩慢に変化しているという仮定に 基づく。これは、モデルパラメータが声道インパルス応答の時間に比して緩慢に 変化しているという仮定と首尾一貫している。この緩慢変化の制約は緩慢変化の 励振およびシステム振幅に写像(mJIp)するので、それは、これらの関数を 線形に補間することを満足する。
声道システムは、連続的なフレームにわたり、緩慢に変化していると仮定される ので、その位相も緩慢に変化していると仮定することは合理的であり、かくして 、位相サンプルの線形補間もまた満足する。しかし、「砂慢な変化」の特性は、 システムマグニチュードについてよりもシステム位相について実現するのにより 困岨である。
これは、追加の制約が測定される位相に賦課されねばならない−すなわち、位相 は各フレーム境界で周波数の関数として滑らかかつ展開される−という理由によ る。
ここに、もしシステム位相が2πを法として得られるならば、線形補間が、フレ ーム境界間に、(不当に)急速に変化するシステム位相を結果することができる ことが示される。第9図の準則形分析器(アナライザー)の使用の重要性がここ に明らかである。準同形分析から導出されるシステム位相評価は周波数で展開さ れまたかくしてシステム振幅(これからそれが導出された)が緩慢に変化してい る時に緩慢に変化している。この関数のサンプルの線形補間は次に、基確となる 声道運動を映す位相軌跡を結果する。この位相関数は、φt(0)が式(22) のφ〉に対応するところのφt(1)として言及される。最後に、前のように、 3次多項式が励起位相およ・び周波数を補間するのに使用される。これは、Ωt (0)が式(22)のΩ〉に対応するところのΩt(1)に帰せられる。
時間スケール修正の目的は、調音の見掛は速度(レート)を変化すると同時に、 もとの音声の知覚品質を維持することである。これは、励起の周波数軌跡(した がってピッチイントネーション曲線(eontoυr))は時間で伸長または圧 縮されまた声道は、ゆっくりとまたは速いレートで変化することを意味する。先 の合成方法は、明確な関数表現がそのために導出されたところの声帯励起および 声道システム貢献度から構成される正弦波の和をそれは含むので、この変換に申 し分なく適合する。
新しい時間スケールにより時間toで起こる音声事象は、もとの時間スケールで の一−Itoで起こる。上の正弦波モデルを時間スケール修正に適用するために 、時間スケール化した「事象」は、各周波数トラックに沿うシステム振幅および 位相ならびに励起振幅および位相である。非修正合成のパラメータ評価は時11 CC連に島にメとして利用でき、それで理論において、いずれのレート変化も可 能である。式(19)〜式(22)と共に、時間スケール化される合成波形は a”(n)=ΣI!2At、(p−1n)cos(Ωt(p−”n)/p−”+ φz(p−”n))(ここで、L(n)は時間nで評価される正弦波の数である )のように表現できる。式(23)で要求される値は、時間β−1nでAL(t )とΩt(t)とφt(1)をスケールしく scaling )また得られる 励起位相をP によりシールする( sealing )だけで得られる。
提案される時間修正システムと一緒に、時間変化するレート変動を付加すること も簡単である。ここに、時間歪曲変換は1 、。=W(t、’ ) =戸’ p(T)d・T(24)(ここで、P(T)は 所望の時間変化レート変動である)により与えられる。この−膜化では、各時間 微分dTは、異なる因子p(T)によりスケールされる。新しい時間スケール時 間toで起こる音声事象は、もとの時間スケールで時間to =W−”(to) で起こる。もし、t(1がto′へ戻り写像するならば、一つの近似が、 ts’ ”:: to’ + P −”(t6’) (25)により与えられる 。
正弦成分のパラメータは時間の連続関数として利用できるので、それらはつねに 、要求されるt1′で見出される。
tllが時間t1りの反転を示イ゛6−すると、合成波形はit’(n)=2” 、!、、、’ A4(t、’、)cot (Ωl(t、/)十φ、(t、’)  (26)により与えられる。ここで、 01′(n)=Ω、′(n 1)+ωt(tn’) (27)および tn’ = tn’−、t +p−”Ct ni 1/ ) (28)であり、 ω1<1>は3次の位相関数Ωt(1)の1次導関数により与えられる2次関数 でありまたto = O(29) である。
特定のトラックが生ずる( born )時間に、3次の位相関数Ω、’(n) はP(tn’)ΩL(tn′)値により初期化される。ここでΩt(ttl’) は式(17)を使用して得られる初期励起位相である。
本発明は、周波数およびピッチスケーリングを遂行するのに使用できることも評 価されるべきである。合成波形の短時間スペクトル包絡(エンベロープ)は各周 波数成分をスケールすることにより変化されまた合成波形のピッチは励起貢献さ れる周波数成分をスケールすることにより変えられる。
第10図では、実時間で動作および実行された本発明の最後の実応例が例示され る。例示の実施例は、4つのリンカーンディジタルシグナルプロセッサ(LDS P)を使用して、16ビツト固宕小数点演算で実行される。フォアグラウンドプ ログラムは、1oo入力音声サンプルを10m5バツフアに集めて、入力A/D サンプルごとに動作する。同様の時間に、合成される音声の10m5バツフアは D/Aフンパータを通じて出力される。各フレームの終りに、最近の音声のほと んどは600 mmバッファにブツシュダウン(後入れ先出し)される。ピッチ 適応性ハミング(Hamming ) ’IIのためのデータが引き出されまた 512ポイント高速クーリエ変換(FFT)が適用されるのはこのバッファから である。次に、−組の振幅および位相が、FFTのマグニチュードのピークを捜 し出すことにより得られる。データは、ピッチ適応窓を制御するピッチ評価値が 発生されるピッチ抽出モジュールに供給される。このパラメータはまた、データ 圧縮応用で符合化モジュールに供給される。いったんピッチが評価されると、別 のピッチ適応性ハミング窓が、並列計算のために、バッファに入れられまた別の LDSPに転送される。符号化および音声修正方法が適用される別の512ポイ ントFFTが振幅と周波数と位相を評価する目的のために用いられる。いったん これらのピークが決定されると、周波数トラッキングおよび位相補間方法が実行 される。応用に応じて、これらのパラメータは音声変換を実効ならしめるよう、 符合化または修正されまた正弦波の7J”Jnが実行される別の一対のLDSP に転送されよう。得られる合成波形は次に、それがD/Affl力のためにフォ アグラウンドプログラムによりアクセスされるべき適当なバッファに入力される ところのマスターLDSPへ戻り転送される。
FIo、5 FIG、11 FIG、9 FIG、1θ 国際調査報告

Claims (1)

  1. 【特許請求の範囲】 1.音響波形を処理する方法において、a.一連の離散サンプルを得るために 波形をサンプリングし、それから、複数のサンプルにまたがる各一連のフレーム を構成し、b.個々の振幅をもつ一組の周波数成分を抽出するためにサンプルの 各フレームを分析し、 c.一フレームから次のフレームへと前記成分をトラツキングし、 d.波形のパラメトリック表現を得るために一フレームから次のフレームへと成 分の値を補間して、パラメトリック表現の被補間値に対応する一組の正弦波を発 生することにより合成波形が構成される諸段階を備える方法。 2.サンプリンクの段階は、ピツチ周期に応じて変化し、波形のピツチ周期の少 なくとも2倍である可変長さをもつフレームを構成することを含む請求の範囲第 1項記載の方法。 3.サンプリングの段階は、ハミング窓に応じて波形をサンプリングすることを 含む請求の範囲第1項記載の方法。 4.分析の段階は、フーリエ分析により各フレームを分析することを含む請求の 範囲第1項記載の方法。 5.分析の段階は、周波数成分に接近するために調和級数を選択することを含む 請求の範囲第1項記載の方法。 4.調和級数での周波数成分の数は、波形のピツチ周期に応じて変化する請求の 範囲第5項記載の方法。 7.トラツキングの段階は、一フレームからの周波数成分を同様の値をもつ次の フレームでの成分とマツチングすることを含む請求の範囲第1項記載の方法。 8.前記マツチングは、新しい周波数成分のバースおよび古い周波数成分のデス を提供する請求の範囲第7項記載の方法。 9.値を補間することの段階は、一フレームから次のフレームへ整合される周波 数成分を補間することにより一連の瞬間周波数値を画定し次に一連の被補間位相 値を得るために一連の瞬間周波数値を複合することを含む請求の範囲第1項記載 の方法。 10.補間の段階は、各フレームで得られる周波数および位相測定から位相値を 導出し次に位相測定を補間することを含む請求の範囲第1項記載の方法。 11.補間の段階は重複および加算関数により達成される請求の範囲第1項記載 の方法。 12.ディジタル伝送のために周波数成分を符合化することを備える請求の範囲 第1項記載の方法。 13.周波数成分は、複数の調波周波数ビンにより画定される予じめ決められた 数に制限される請求の範囲第12項記載の方法。 14前記成分の一つだけの振幅はゲィンのために符合化されまた他のものの振幅 は次の最も低い周波数で隣接する成分に関して符合化される請求の範囲第13項 記載の方法。 15.位相は、パルス符合変調技術を予測される位相残差に適用することにより 符合化される請求の範囲第12項記載の方法。 16.高周波再生が付加される請求の範囲第12項記載の方法。 17.抽出される成分に周波数および振幅で対応する一連の成分正弦波を発生す ることにより合成波形を構成することを備える請求の範囲第1項記載の方法。 18.前記の再構成される波形の時間スケールは、前記一連の成分正弦波が補間 されるレートを変えることにより変化される請求の範囲第17項記載の方法。 19.時間スケールは、ある画定される範囲にわたり連続的に可変である請求の 範囲第18項記載の方法。 20.抽出される成分に周波数と振幅と位相とで対応する一連の成分正弦波を発 生することにより、合成波形を構成することを備える請求の範囲第1項記載の方 法。 21.前記再構成される波形の時間スケールは、前記一連の成分正弦波が補間さ れるレースを変えることにより変化される請求の範囲第20項記載の方法。 22.時間スケールは、ある画定される範囲にわたり連続的に可変である請求の 範囲第21項記載の方法。 23.成分正弦波は、システム貢献度および励起貢献度によりさらに画定離され またここで、前記再構成される波形の時間スケールは、正弦波のシステム貢献度 を画定するパラメータが補間されるレートを変えるととにより変化される請求の 範囲第20項記載の方法。 24.合成波形の短時間スペクトル包絡(エンベロープ)は各周波数成分をスケ ール処理することにより変化される請求の範囲第17項記載の方法。 25.合成波形のピツチは、励起貢献周波数成分をスケール処理することにより 変更される請求の範囲第23項記載の方法。 26.音響波形を処理するための装置において、a.一連の離散サンプルを得る ために波形をサンプリプリングし、それから、複数のサンプルにまたがる各一連 のフレームを構成するためのサンプリング手段と、b.個々の振幅をもつ一組の 周波数成分を抽出するためにサンプルの各フレームを分析するための分析手段と 、c.一フレームから次のフレームへと前記成分をトラツキングするためのトラ ツキング手段と、d.波形のパラメトリツク表現を得るために一フレームから次 のフレームへと成分の値を補間して、パラメトリツク表現の被補間値に対応する 一組の正弦波を発生することにより合成波形が構成されるための補間手段とを備 える装置。 27.サンプリング手段は、ピツチ周期に応じて変化し、波形のピツチ周期の少 なくとも2倍である可変長さをもつフレームを構成するための手段を含む請求の 範囲第26項記載の装置。 28.サンプリング手段は、ハミング窓に応じてサンプリングするための手段を 含む請求の範囲第24項記載の装置。 29.分析手段はフーリエ分析により各フレームを分析するための手段を含む請 求の範囲第23項記載の装置。 30.分析手段は、周波数成分に接近するために調和級数を選択するための手段 を含む請求の範囲第26項記載の装置。 31.調和級数での周波数成分の該は、波形のピツチ周期に応じて変化する請求 の範囲第30項記載の装置。 32.トラツキング手段は、一フレームからの周波数成分を同様の値をもつ次の フレームでの成分とマツチングするための手段を含む請求の範囲第26項記載の 装置。 33.前記マッチング手段は、新しい周波数成分のバースおよび古い周波数成分 のデスを提供する請求の範囲第32項記載の装置。 34.補間手段は、一フレームから次のフレームへ、整合される周波数成分を補 間することにより一連の瞬間周波数値を画定する手段と一連の被補間位相値を得 るために一連の瞬間周波数値を複合するための手段を含む請求の範囲第26項記 載の装置。 35.補間手段は、各フレームで得られる周波数および位相測定から位相値を導 出し次に位相測定を補間するための手段を含む請求の範囲第26項記載の装置。 36.補間手段は重複および加算関数を遂行するための手段を含む請求の範囲第 26項記載の装置。 37.ディジタル伝送のために周波数成分を符合化するための符合化手段を含む 請求の範囲第26項記載の装置。 38.周波数成分は、複数の調波周波数ビンにより画定される予じめ決められた 数に制限される請求の範囲第32項記載の装置。 39.前記成分の一つだけの振幅はゲインのために符合化されまた他のものの振 幅は次の最も低い周波数の隣接する成分に関して符合化される請求の範囲第38 項記載の装置。 40.符合化手段は、パルス符合変調技術を予測される位相残差に適用するため の手段を備える請求の範囲第37項記載の装置。 41.符合化手段は、高周波成分を発生するための手段を備える請求の範囲第3 7項記載の装置。 42.抽出される成分に周波数および振幅で対応する一連の成分正弦波を発生す ることにより合成波形を構成するための手段を備える請求の範囲第21項記載の 装置。 43.前記の再構成される波形の時間スケールは、前記一連の成分正弦波が補間 されるレートを変えることにより変化される請求の範囲第42項記載の装置。 44.時間スケールは、ある画定される範囲にわたり連続的に可変である請求の 範囲第43項記載の装置。 45.抽出される成分に周波数と振幅と位相とで対応する一連の成分正弦波を発 生することのより、合成波形を構成するための手段を備える請求の範囲第26項 記載の装置。 46.前記再構成される波形の時間スケールは、前記一連の成分正弦波が補間さ れるレートを変えることにより変化される請求の範囲第45項記載の装置。 47.時間スケールは、ある画定される範囲にわたり連続的に可変である請求の 範囲第46項記載の装置。 48.成分正弦波は、システム貢献度および励起貢献度によりさらに画定されま たここで、前記再構成される波形の時間スケールは、正弦波のシステム貢献度を 画定するパラメータが補間されるレートを変えることにより変化される請求の範 囲第42項記載の装置。 49.周波数成分をスケール処理するためのスケール処理手段を含む請求の範囲 第24項記載の装置。 50.励起貢献周波数成分をスケール処理するためのスケール処理手段を含む請 求の範囲第48項記載の装置。 51.a.一連の離散サンプルを得るために波形をサンプリングし、それから、 複数のサンプルにまたがる各一連のフレームを構成するためのサンプリング手段 と、b.個々の振幅値をもつ一組の周波数成分を抽出するためにフーリエ分析に よりサンプルの各フレームを分析するための分析手段と、 c.一フレームから次のフレームへと前記成分をトラツキングするためのトラッ キング手段と、d.成分値を符合化するための符合化手段とを備える音声符合化 装置。 52.符合化手段は、周波数成分に接近するために調和級数のビンを選択するた めの手段を含みまたビンの数は波形のピツチに応じて変化する請求の範囲第51 項記載の音声符合化装置。 53.前記成分の一つだけの振幅はゲインのために符合化されまた他の成分の振 幅は次の最も低い周波数で隣接する成分に関して符合化される請求の範囲第51 項記載の音声符合化装置。 54.成分の振幅は線形予測技術により符合化される請求の範囲第51項記載の 音声符合化装置。 55.成分の振幅は適応性デルタ変調技術により符合化されろ請求の範囲第51 項記載の音声符合化装置。 56.分析手段は、各周波数成分ことに位相値を測定するための手段を備える請 求の範囲第51項記載の音声符合化装置。 57.符合化手段は、パルス符合変調を予測される位相残差に適用することによ り位相値を符合化するための手段を備える請求の範囲第56項記載の音声符合化 装置。 58.符合化手段は、高周波数成分値を符合化された低周波数成分値から発生す るための手段を含む請求の範囲第56項記載の音声符合化装置。 59.可聴波形の時間スケールを変えるための装置において、 a.一連の離散サンプルを得るために波形をサンプリングし、それから、複数の サンプルにまたがる各一連のフレームを構成するためのサンプリング手段と、b .個々の振幅をもつ一組の周波数成分を抽出するためにサンプルの各フレームを 分析するための分析手段と、c.一フレームから次のフレームへと前記成分をト ラツキングするためのトラツキング手段と、d.波形の表現を得るために一フレ ームから次のフレームへと成分の振幅および周波数値を補間して、被補間表現に 対応する一組の正弦波を発生することにより合成波形が構成されるための補間手 段と、 e.補間のレートを変えるためのスケール処理手段と、f.抽出される成分に周 波数および振幅で対応し、前記変更可能な補間レートで発生される一連の成分正 弦波を発生することにより、時間スケール処理される合成波形を構成するための 合成手段と を備える装置。 60.瞬間スケールは、ある画定される範囲にわたり連続的に可変である請求の 範囲第59項記載の装置。 61.分析手段は、各周波数成分ごとに位相値を測定するための手段を備える請 求の範囲第59項記載の装置。 62.成分位相値は3次補間により補間される請求の範囲第61項記載の装置。 63.時間スケールは、ある画定される範囲にわたり連続的に可変である請求の 範囲第61項記載の装置。 64.測定される周波数成分をシステム貢献度および励起貢献度へ分離し、ここ で、合成波形の時間スケールは、システム貢献度を画定する値が補間されるレー トを変えることにより変化されるための手段を備える請求の範囲第61項記載の 装置。 65.スケール処理手段は、システム振幅および位相および励起振幅および周波 数が補間されるレートを変化する請求の範囲第64項記載の装置。
JP61501779A 1985-03-18 1986-03-14 音響波形の処理 Expired - Lifetime JP2759646B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US71286685A 1985-03-18 1985-03-18
US712866 1985-03-18

Publications (2)

Publication Number Publication Date
JPS62502572A true JPS62502572A (ja) 1987-10-01
JP2759646B2 JP2759646B2 (ja) 1998-05-28

Family

ID=24863876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61501779A Expired - Lifetime JP2759646B2 (ja) 1985-03-18 1986-03-14 音響波形の処理

Country Status (5)

Country Link
EP (1) EP0215915A4 (ja)
JP (1) JP2759646B2 (ja)
AU (1) AU597573B2 (ja)
CA (1) CA1243122A (ja)
WO (1) WO1986005617A1 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07181990A (ja) * 1993-12-22 1995-07-21 Tech Res & Dev Inst Of Japan Def Agency 信号検出装置
JPH09257559A (ja) * 1996-03-25 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 周波数成分抽出装置
JPH10512375A (ja) * 1995-01-09 1998-11-24 ザ ボード オブ トラスティーズ オブ ザ リーランド スタンフォード ジュニア ユニバーシティ 高調波及び周波数ロックループピッチトラッカー及び音声分離システム
JP2001249698A (ja) * 2000-03-06 2001-09-14 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータ取得方法、音声復号方法及び装置
WO2002058053A1 (en) * 2001-01-22 2002-07-25 Kanars Data Corporation Encoding method and decoding method for digital voice data
JP2004514178A (ja) * 2000-11-17 2004-05-13 フォルスカーパテント アイ エスワイディ アクチボラゲット 音声の分析の方法及び装置
JP2010521712A (ja) * 2007-03-16 2010-06-24 サムスン エレクトロニクス カンパニー リミテッド 正弦波オーディオコーディング方法及び装置
US8027242B2 (en) 2005-10-21 2011-09-27 Qualcomm Incorporated Signal coding and decoding based on spectral dynamics
US8392176B2 (en) 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
JP2014517932A (ja) * 2012-01-20 2014-07-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 正弦波置換を用いた音声符号化および復号化のための装置および方法
JP2019512740A (ja) * 2016-03-18 2019-05-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
CA1332982C (en) * 1987-04-02 1994-11-08 Robert J. Mcauley Coding of acoustic waveforms
US5029509A (en) * 1989-05-10 1991-07-09 Board Of Trustees Of The Leland Stanford Junior University Musical synthesizer combining deterministic and stochastic waveforms
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
DE4425767C2 (de) * 1994-07-21 1997-05-28 Rainer Dipl Ing Hettrich Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
CN1266674C (zh) * 2000-02-29 2006-07-26 高通股份有限公司 闭环多模混合域线性预测语音编解码器和处理帧的方法
WO2002003381A1 (en) * 2000-02-29 2002-01-10 Qualcomm Incorporated Method and apparatus for tracking the phase of a quasi-periodic signal
AU2003291862A1 (en) * 2003-12-01 2005-06-24 Aic A highly optimized method for modelling a windowed signal

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57197600A (en) * 1981-05-29 1982-12-03 Matsushita Electric Ind Co Ltd Phonemic piece editting type voice synthesization system
JPS5898800A (ja) * 1981-12-08 1983-06-11 松下電器産業株式会社 音素片編集型音声合成方式
JPS592033A (ja) * 1982-06-28 1984-01-07 Hitachi Ltd 背面投写スクリ−ン
JPS597399A (ja) * 1982-07-02 1984-01-14 松下電器産業株式会社 単音節音声認識装置
JPS5942598A (ja) * 1982-09-03 1984-03-09 日本電信電話株式会社 法則合成結合処理回路
JPS6088326A (ja) * 1983-10-19 1985-05-18 Kawai Musical Instr Mfg Co Ltd 音響解析装置
JPS6097398A (ja) * 1983-11-01 1985-05-31 株式会社河合楽器製作所 音響解析装置
JPS6097397A (ja) * 1983-11-01 1985-05-31 株式会社河合楽器製作所 音響解析装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3360610A (en) * 1964-05-07 1967-12-26 Bell Telephone Labor Inc Bandwidth compression utilizing magnitude and phase coded signals representative of the input signal
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57197600A (en) * 1981-05-29 1982-12-03 Matsushita Electric Ind Co Ltd Phonemic piece editting type voice synthesization system
JPS5898800A (ja) * 1981-12-08 1983-06-11 松下電器産業株式会社 音素片編集型音声合成方式
JPS592033A (ja) * 1982-06-28 1984-01-07 Hitachi Ltd 背面投写スクリ−ン
JPS597399A (ja) * 1982-07-02 1984-01-14 松下電器産業株式会社 単音節音声認識装置
JPS5942598A (ja) * 1982-09-03 1984-03-09 日本電信電話株式会社 法則合成結合処理回路
JPS6088326A (ja) * 1983-10-19 1985-05-18 Kawai Musical Instr Mfg Co Ltd 音響解析装置
JPS6097398A (ja) * 1983-11-01 1985-05-31 株式会社河合楽器製作所 音響解析装置
JPS6097397A (ja) * 1983-11-01 1985-05-31 株式会社河合楽器製作所 音響解析装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07181990A (ja) * 1993-12-22 1995-07-21 Tech Res & Dev Inst Of Japan Def Agency 信号検出装置
JPH10512375A (ja) * 1995-01-09 1998-11-24 ザ ボード オブ トラスティーズ オブ ザ リーランド スタンフォード ジュニア ユニバーシティ 高調波及び周波数ロックループピッチトラッカー及び音声分離システム
JPH09257559A (ja) * 1996-03-25 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 周波数成分抽出装置
JP2001249698A (ja) * 2000-03-06 2001-09-14 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータ取得方法、音声復号方法及び装置
JP2004514178A (ja) * 2000-11-17 2004-05-13 フォルスカーパテント アイ エスワイディ アクチボラゲット 音声の分析の方法及び装置
WO2002058053A1 (en) * 2001-01-22 2002-07-25 Kanars Data Corporation Encoding method and decoding method for digital voice data
US8027242B2 (en) 2005-10-21 2011-09-27 Qualcomm Incorporated Signal coding and decoding based on spectral dynamics
US8392176B2 (en) 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
JP2010521712A (ja) * 2007-03-16 2010-06-24 サムスン エレクトロニクス カンパニー リミテッド 正弦波オーディオコーディング方法及び装置
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
JP2014517932A (ja) * 2012-01-20 2014-07-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 正弦波置換を用いた音声符号化および復号化のための装置および方法
US9343074B2 (en) 2012-01-20 2016-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio encoding and decoding employing sinusoidal substitution
JP2019512740A (ja) * 2016-03-18 2019-05-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング
US10607630B2 (en) 2016-03-18 2020-03-31 Fraunhofer-Gesellschaft Zur Förderung Der Encoding by reconstructing phase information using a structure tensor on audio spectrograms

Also Published As

Publication number Publication date
WO1986005617A1 (en) 1986-09-25
EP0215915A1 (en) 1987-04-01
AU5620886A (en) 1986-10-13
CA1243122A (en) 1988-10-11
EP0215915A4 (en) 1987-11-25
JP2759646B2 (ja) 1998-05-28
AU597573B2 (en) 1990-06-07

Similar Documents

Publication Publication Date Title
JPS62502572A (ja) 音響波形の処理
US4885790A (en) Processing of acoustic waveforms
RU2679254C1 (ru) Устройство и способ для обработки аудиосигнала для получения обработанного аудиосигнала с использованием целевой огибающей во временной области
RU2667629C1 (ru) Гармоническое преобразование, усовершенствованное перекрестным произведением
CN1838239B (zh) 一种用于增强信源解码器的设备及方法
Moulines et al. Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones
US6741960B2 (en) Harmonic-noise speech coding algorithm and coder using cepstrum analysis method
RU2591733C2 (ru) Устройство и способ изменения звукового сигнала посредством формирования огибающей
JP5467098B2 (ja) オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法
Macon et al. Sinusoidal modeling and modification of unvoiced speech
US20050065784A1 (en) Modification of acoustic signals using sinusoidal analysis and synthesis
Serra Introducing the phase vocoder
JPH01221800A (ja) 音響波形のコード化方式
Goodwin et al. Time-frequency signal models for music analysis, transformation, and synthesis
McLoughlin et al. LSP-based speech modification for intelligibility enhancement
JP2001508197A (ja) 構成信号にノイズを加算してlpc原理により符号化された音声のオーディオ再生のための方法及び装置
Hanna et al. Time scale modification of noises using a spectral and statistical model
Ito et al. TEMPO MODIFICATION OF MUSIC SIGNAL USING SINU-SOIDAL MODEL AND LPC-BASED RESIDUE MODEL
Liang et al. Decomposition of speech signal into a periodic and an aperiodic part
Van Schalkwyk et al. Frequency domain multi-pulse coding at 2400 b/s
Disch Modulation vocoder for analysis, processing and synthesis of audio signals with application to frequency selective pitch transposition

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term