JPS63223799A - ピツチ検出方法 - Google Patents

ピツチ検出方法

Info

Publication number
JPS63223799A
JPS63223799A JP63008601A JP860188A JPS63223799A JP S63223799 A JPS63223799 A JP S63223799A JP 63008601 A JP63008601 A JP 63008601A JP 860188 A JP860188 A JP 860188A JP S63223799 A JPS63223799 A JP S63223799A
Authority
JP
Japan
Prior art keywords
samples
pitch
value
autocorrelation
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63008601A
Other languages
English (en)
Other versions
JP2505015B2 (ja
Inventor
クラウデ・ガランド
ミツチエル・ロソ
ジエリイー・リザート
フイリツプ・エイリー
エマニエル・ランコン
ヒユーバー・クリイピイー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS63223799A publication Critical patent/JPS63223799A/ja
Application granted granted Critical
Publication of JP2505015B2 publication Critical patent/JP2505015B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 本発明は音声信号のコード化に関するものである。
B、従来技術及び問題点 非常に多くの音声コーグが既に知られており。
たとえば、いわゆるボコーダや線形予測コーグ(LPG
)などがある、簡単にいうと、ボコーダはもとの音声信
号を処理しそこから残差信号を引き出すのに用いられる
係数のセットをこのもとの音声信号から算出することに
基づいている。ピッチ情報は、言葉にされた音声信号に
ついての残差から非出され、さもなければ、その残差信
号は単にノイズとされる。相関的なデコーディングプロ
セスは、L記係数によって合成されたピッチ又はノイズ
信号を復調することを含む、このようなコーディング手
法の相対的な効率(品質とビットレート)は、ピッチの
値を非常に正確に決定しない限り悪いものとなる。した
がって、ピッチの効率的な決定方法は重要な事項である
。一方、コーグの複雑さが増すにつれて、LPCコーダ
のコーディング又はデコーディングのオペレーションも
改善されてきた。計算の複雑さを抑えることで、プロセ
ッサの仕事量を最小にすることができる。ビットレート
の改善は音声伝送又は記憶装置において重要である。コ
ーディングの品質を変えることなくコーディングビット
を節約するため(すなわち、音声信号をコーディングす
るのに必要なビットレートの最小化を図るため)コーグ
の最適化を図ることに努力が払わiてきたのは、このよ
うな理由からである。
LPCタイプのコーディング手法においては、ピッチの
検出を効率的に行うことによって7及び残差信号につい
て通常なされるよりも多い情報を付加することによって
コーディング、デコーディングの品質をかなり改善する
ことができる。同種のコーグでもコーグのアーキテクチ
ャを適当にすることによって改善が可能である。その例
として、次のようなものが挙げられる。
Ll I  B M   Journal  of  
Re5earch  andDeve1op+nent
第29巻、第2号、3月、1985年、に開示されるよ
うなV E P C(VoiceExcited Pr
edictive Cocfer)sI E E E 
 Transactior+s on Acousti
cs 5peechand Signal Proce
ssing Vol A S S P 34NO05,
10月、1986年におけるP 、 Kroonらによ
る’ Regul、ar Pulge Excitat
ion+a NovelApproaeh to ef
feetiveand efficientMulti
pulss Coding a 5peech’と題す
る論文に開示されるようなMPE (阿ulti−pu
lse ExcitedCoder)又はRP E (
Regular Pu1se ExejtedCode
r) C8開題点を解決するための手段 本発明の目的は、音声ピッチの効率的な決定方法を提供
することにある。
この目的を達成するため、複数のサンプルから成る連続
的な固定長のブロックに分けられるようなサンプルされ
た音声信号からピッチを検出する本発明の方法は、(a
)音声信号において正のしきい値及び負のしきい値を設
定し、正のしきい値より大きいサンプル及び負のしきい
値より小さいサンプルを検出して記憶し、記憶されたサ
ンプルの中から符号の遷移を検出し、連続的に存在する
符号の遷移の間のサンプルの個数M′を計算し現ブロッ
クについてM′の平均値として第1次のピッチ情報Mを
計算するステップと、(b)このMの倍数の近くで自己
相関領域を設定し、現ブロックを連続的な複数のサブブ
ロックに分割し、現サブブロックと、最初の1つのサン
プルが自己相関領域の中の1つであるサブブロックとの
自己相関をとり、この自己相関のピークを検出して微調
されたピッチ情報Mの値を決定するステップとを有する
ことを特徴としている。
D、実施例 本実施例を概説すると1次のようになる。もとの音声信
号を処理して、そこから音声の残差信号を導入し、ピッ
チ検出オペレーションによって調整された長区間予測手
段を使って残差予測信号を計算し1両方の現に予測され
た残差を組み合せて残差誤差信号及びコードを生成する
。このコードはP E C(Pulse Excita
tion Coding)手法を用いるものである。コ
ーディング機構の効率は、2つのステップを含むプロセ
スを使ってそのピッチ又はピッチの倍音(この明細書で
は、単にピッチ、又はピッチに関連した°情報ともいう
)を検出することによって大幅に改善される。このプロ
セスは。
ピーク検出による粗いピッチの決定と、検出されたピッ
チのピークについての自己相関操作とを含むものである
第1図は本発明の実施例のコーグのブロック図である。
ナイキストの周波数でサンプルされ1サンプル当り12
ビツトでPCMコード化されたもとの音声信号S (n
)が、連続するブロックの160個のサンプルの長さに
わたって、適応型短区間予測フィルタ10に供給される
。Z領域におけるフィルタの式は次のようなものである
換言すれば、短区間予測フィルタは、aiがタップ係数
である通常のトランスバーサルディジタルフィルタから
成るs A iは装置13におけるステップアラプロシ
ージャによって、通常のLeroux−Guegenの
方法を使って源信号から導出されたいわゆるPARCO
R係数K (i)から導出され、次にU n / Y 
a n gのアルゴリズムを使って28ビツトでコード
化される。
これらの方法及びアルゴリズムは下記の文献に記載され
る。
J 、 Laroux、 C,Guegen” A  
fixed pointcomputation of
 partial correlationcoeff
icients” I E E E  Trans o
n A S S P第257ないし259頁、1977
年6月;C,K、  Y u n 、  S 、  C
,YangJPiecawiselinear  qu
antization of  L P Cvefle
xioncoefficient”Proc、Int、
Cant、on  A S S P 。
Hartford、 1977年5月;J 、D 、M
arkal、A 、H,Gray’ LinearPr
ediction of 5peech”、Sprin
ger Verlag  1976 、5tep up
 Procedura第94ないし第95頁短区間予測
フィルタは、比較的フラットな周波数特性を示し、ピッ
チに関連する周波数で幾分の冗長度をもつ残差信号r 
(n)を送る目的で構成される。装置12はこの残差信
号を処理してそこからピッチまたは高調波データを導出
する。すなわち、ピッチに関連する情報Mと利得パラメ
ータbである。これらの情報M及びパラメータbは、次
のような式で2領域の演算を実行する長区予瀾フィルタ
14における調整に使用される。
したがって、式(2)の演算を実行する装置は、M(ピ
ッチ又は高調波)及び利得すを動的に調整する長さの遅
延線を含んでいなければならない。
この装置の詳細については後述する。b及びMを効率よ
く測定することは、コーグにとって重要な要素である。
というのは、長区間予測フィルタからの予測残差信号出
力x (n)は、残差信号から減算されるからである。
この減算は長区間の相関解除された予測誤差信号s (
n)を導出するために行われる。この予測誤差信号a 
(n)は次にパルス励起(P F)法を用いてパルス列
にコード化される。換言すれば、PE装置16を用いて
、たとえば40個の連続するPCMコード化されたe(
n)のサンプルの各サブグループをより少ない数、たと
えば15個のパルスに変換する。この変換にはMPE手
法又はRPE手法のいずれを用いることもできる。 a
 (n)の動的な度合が小さくなればなるほど、所与の
ビットレートにおける量子化又はコード化の効率はよく
なる。
第1図に示すコーグのアーキテクチャの大きな利点は、
Mがピッチ又はピッチの高調波の代表値となり得るとい
う事実に基づくものである。すなわち、ピッチに関連し
たパラメータしか必要としない。
MPHの場合、e (n)の平均2乗誤差を最小にする
ためe (n)のサンプル中から、たとえば6又は8個
のサンプルを選択する。これらの6又は8個のサンプル
は、動的な度合の小さい信号を得るためにフィルタ14
によって適当な相関解除がなされる限り、効率よ<a(
n)を表わす。
装!16によって供給される新しいサンプルは2つのパ
ラメータセットを用いてコード化される。
1つは、重要な基準、たとえば処理される40個のサン
プルから成るサブブロックの始点に関するパルス位置を
表わすもので、もう1つは、各パルスの振幅を表わすも
のである。パルス位置を表わすものは、特に重要であり
、その位置に関する誤差で音声コード化の品質がかなり
変わる。
RPEの場合、これらのパルスに必要な計算の量はMP
Hに比して少ないが、e (n)のサンプルの各サブグ
ループを表わすのに使用されるパルスの数は若干多くな
る(たとえば13個ないしl5個)。こうして5回線の
エラーに対してより強い保護がより少ないピッ1〜数で
得られる。
簡単にいえば、RPE手法を用いる場合は、40個のサ
ンプルから成る各サブグループがインターリーブされた
シーケン、入に分けられる。たとえば、1−3個のサン
プル群2つと、14個のサンプル群1つがインターリー
ブされる。RPE装置(16)は3つのインターリ・−
ブされたシーケンスの中から1つのシーケンスを選択す
るようにされ、再び最小平均2乗誤差を提供する。各サ
ンプル位置をコード化する必要は全くない。2つのビッ
トで選択されたシーケンスを識別することで十分である
。RPEコーディングオペレーションについては必要が
あれば上記Kroonの文献を参照されたい。
規則的なパルス励起に関連する長区間の予測により、全
体のビットレートと品質パラメータとの関係を最適化す
ることができる。特に、r (n)に限りなく近いパル
ス列r’(n)を長区間予測フィルタ(14)に供給す
る場合(すなわち、装置1−6及び量子化器20による
コード化ノイズ及び量子化ノイズが補償された場合)は
、顕著である。このため、デコーディングオペレーショ
ンは、装置(22)で遂行され、その出力P’(n)が
予測された残差x (n)に加えられて、再構成された
残差r’(n、)が供給される。また、RPEコーダに
ついての閉ループ構造が、最小限界及び最大限界をピッ
チ検出ウィンドウに制限するごとによって実時間で構成
される。これに・ついては後述釘る。
時間領域における各種の信号!l (n)及びr(n)
は第2図げアナログ形式で示されている。
この図から、残差信号r (n)の中になおある種の余
分なピッチ関連信号が含まれていることがわかる。
長区間予測フィルタ(LTP)のパラメータの計算は以
下のように表わすことができる。まず、160個のr 
(n)のサンプルの各ブロックは、PEコーディング装
置16内の計算の複雑さを仰え、かつ装[16によって
供給される情報をよす速くリフレッシュすることができ
るよう、サブウィンドを使って40個のサンプルから成
る4つのサブブロックに分けられる。各サブブロックに
対し、次のようなデータが利用できる。
・40個の、(n)のサンプル ・現在の1つを含む連続する4つのサブブロックに割り
当てられた短区間予測係数aiの1つのセット b及びMは40個のサンプル(サブウィンドウ)及びプ
リデッサを使って160個の各ブロックにわたって4回
計算される。
、:れらのデータが供給された装置には長区間予測係数
Mを計算しく後述)、これを用いて次式に基づき利得係
数すを導出する。
N          N b=Σr(n)r(n−M)/Σr(n−M)” (3
)n = 1        n = 1N=40 Mを決定する方法は、品質及び簡明さの両方の観点から
コーダ全体の効率を出すだけでなく、長区間予測を実時
間で行うことにも欠くことができないものである。これ
は、M>Nに強制し、かつ、Mの決定プロセスを2つの
ステップに分けることによって達成される。ピッチに関
連したMの粗い値を決定する第1のステップ(したがっ
て計算量は少ない)の後には、限られた個数の値で自己
相関法を用いるMの細かな調整が行われる。
1、第1のステップ 粗い近似は可変しきい値及びゼロクス検出を含む非線形
の手法を用いることに基づくものである。
第1のステップは詳しくいうと次のようなものである。
・可変の値Mを経験的に決定された値(たとえばM=4
0)又は測定された前のMの値に強制することによって
初期化を行うこと ・40個のサンプルから成る現サブブロックと、120
個の前のサンプル(市の3つのサブブロック)を含む1
60個のサンプルから成る1つのブロックベクトルをロ
ードする。:と ・上記ベクトル内において正(Vmax)及び負(Vm
in)のピークを検出すること ・以下のしきい値を計算すること 正のしきい値TH=α X Vmax + 負のしきい値TH=α X Vmin αは経験的に選択される値(たとえばα=0゜・以下の
基準に基づいて現サブロックを表わす新しいベクトル×
(n)を設定すること r  (n)≧THならX(n)=1 + r (n)≧≦THならX(n)=−1TH≦r < 
n≦THならX (n) =0十 =1、Ol又は1の値だけをとるこの新しいベクトルを
以下″整理されたベクトルゝという。
・整理されたベクトルの2つの値の間におけるゼロクロ
ス(すなわち符号の遷移)を検出すること・検出された
連続的なゼロクスの間のr (n)のサンプル間隔の個
数を表わすM′の値を計算すること ′と前の粗いMとを比較し、M′を、ΔMが所定の値(
たとえばに=5)であるような任意の値に下げること ・下げられていない複数のM′の値の平均値として粗い
Mの値を計算すること 第3図は成る残差信号の波形についての粗いMの決定の
例を示す図である。説明の簡単のため、残差信号及び整
理されたベクトルはアナログ波形で動作するものとして
表わされている。実際には。
PCMでサンプルされた表示と考えることができる。整
理されたベクトルについての斜線領域はTHより大きい
か又はTHより小さい1以上の連+ 続的なサンプルを表わす(これらのサンプルはそれぞれ
+1又は−1にコード化されている)。整理されたベク
トルは制限された個数のサンプルにわたって+1から−
1への遷移領域へ位置付けられるよう走査される。TR
IないしTR5で示された5個の遷移領域は、この例に
おいて位置付けられたものである。連続するTRの位置
の間のサンプルの個数は、160個の1つのブロック全
体について、M’=35.34.35及び34となるM
′として計算される。前に測定されたMがM=35であ
ると仮定すると、ΔMはそれぞれΔM=0.1.0及び
1となる。下げるべき35から離れたM′の値はない。
最終の粗いMの値は、したがってM=35に等しいとさ
れる。
経験的に選択された〆の値は0.5であることに留意さ
れたい。〆の値は、少なくとも1つのM′の値が検出さ
れると、数個のサンプルが無視され5次の遷移が探索さ
れる。このことにより、n=60及びn=90の近くに
位置するサンプルでみられるように、そのピッチについ
てのノイズ的なピークの影響を最小にすることができる
。無視されるサンプルの個数は検出可能な最小のピッチ
に対応する。最終的には、許容しうる最大のΔMの値は
多数のM′にわたる平均のMの値の計算を確めるのに十
分高い値となるはずである。
2、第2のステップ 調整されたMの決定は自己相関法に基づくものであるが
、これは、ピッチの定められたパルスの付近に位置付け
られたサンプルのまわりで少ない個数のサンプルにわた
って行われる。
換言すれば、値R(k’)のセットが次のようにして導
出される。
R(k’) =Σr (n)  r (n−k ’) 
  (1)n=1 に’=KM±Δ(そのブロック内にサンプルを位置付け
る) n=1はサブブロック0にゝのr(1)のことをいう(
第4図参照)。
Kはに=1.2,3である。
Kは粗いMの倍数のところにピークを位置付けるサンプ
ルのランクインデックスであり、またΔはピッチの定め
られたピークのまわりのサンプル位置の個数を規定する
ものである。
すなわち6式(4)の自己相関の演算は40個のサンプ
ルから成るサブブロック(k、)と40個のサンプルと
の間で行ねt99、その最初の1つは自己相関領域のサ
ンプルの1つであり、それから次の自己相関領域に飛ぶ
。このようにして計算量を少なくすることができる。
第4図にしめされた第2のステップは次のようなもので
ある。
・Mの値を、それがゼロでないと仮定した場合測定され
たばかりの粗いMの値又は最後に調整又は微調されたM
の値に初期化すること ・粗く位置付けられたピッチ及びΔに基づき自己相関領
域を位置付けること ・これらの領域から重要でないインデックス値に′を除
去すること(k ’は40≦に′≦120を満たすだけ
でよい) たとえば、第4図の例は領域]における部分的な除去を
示す。
・式(4)を使って自己相関係数R(k’)を計算する
こと ・調整又は微調されたMの値を検出するため、最大のR
(k’)を位置付けること ・式(3)に基づいて利得係数すを計算することΔの値
はたとえば5に七ッ1−され、自己相関領域は、3つの
第1の粗いMで分布されたピークに限定される。
データについての節約は第5図に示すように、式(4)
においてサンプルr(n−に’)の代わりに再構成され
シフトされたサンプルr’(n−に’)を用い、さらに
式(3)においてサンプルr (n)の代わりにサンプ
ルr’(n)を用いることによって達成される。
第8図ないし第11図は、これまでに説明したピッチM
の決定を実現するのに用いられるアルゴリズムをあられ
す流れ図で瓦る。
、L不ンj−L必二九乙■旦工TCHルこのサブルーチ
ンは自己相関によって細かなピッチ及び利得すを処理す
る。
入力パラメータ: XWORK  Nalのサンプルr (n) 、 n=
1〜40、のテーブル MMIN  Mに割り振られた最小値 MMAX  Mに割り振られた最大値 出力パラメータ: MP I TCH細かなMの値 BETA  利得係数す 狛]生う−ブ西−二フしZ (])サブルーヂン#PIT″′ これは、中央クリッピング、ゼロクロス操作及び平均化
を用いて粗いMの値を決定する。
入力パラメータ: BUFr(n)の信号サンプル、n = 1〜160、
のテーブル I FEN  バッファの長さ 出力パラメータ: P I TCH粗いMの値 このサブルーチンは2つのステップ撃合む。
第1のステップ: テープ#”TAB (1,−・・、KMAX)”に記憶
されているピッチの選択(第9図) 第2のステップ: 却く評価されたPITCHをカウントするための重要で
ない値の除去及び平均化(第10図)(2)サブルーチ
ン″HPITCH’ 細かいピッチの決定 入力パラメータ: PITCH@いピッチMの値 出力パラメータ: MP I TCH細かいピッチMの値 第11図は、このサブルーチンの詳細を示したものであ
る。
長区間予測フィルタ(14)の実施例を第5図に示した
。再構成された残差信号は160個分のサンプルの長い
遅延線(又はシフトレジスタ)14へ供給され、その出
力が、r (n)との相互相関による後の処理のために
LTP係数計算手段(12)に供給される。遅延!1A
14のタップは。
以前に計算された細かなMの値に調整さ九ている。
利得係数すは、e (n)を生成するため残差予測X 
(n)としてr (n)から引かれる前に、上記タップ
で利用可能なデータに加えられる。
長区間予測による残差信号が残差信号から引かれる。こ
れは、量子化器Q (20)で量子化される前にパルス
励起装置(16)によってコード化される誤差信号e 
(n)を導出するためである。
e (n)のコーディングの最適なアプローチRP E
 (Regular Pu1se Excited)コ
ーグを用いて実現される。その原理は前掲のKroon
らの文献に記載されている。
第6図には、第1図のコーグを考慮しながら、RPEの
機能を実現する装置が示されている。残差は装置(52
)でローパスフィルタがかけられて1.86kHzで帯
域が制限される。そうして40個の各サブブロックX 
(n)は装置(54)で以下に示すようにインターリー
ブされた3つのシーケンスXO,Xi、及びX2に分け
られる。
x  xooxooxooxooxooxooxoox
ooxooxooxooxoox。
X x   oxooxooxooxooxooxo。
xooxooxooxooxooxooxO x    ooxooxooxooxooxoox。
0XOOXOOXOOXOOXOOXOO3つのパルス
列xO1x1及びx2が計算され最高のエネルギを示す
パルス列が選択され、考慮中のサンプル40個の長い時
間ウィンドウについての残差信号e (n)をあられす
。選択されたシーケンスXO,Xi又はx2を定義する
のに2ビツトのパラメータLを用いる。このパラメータ
は、160個のサンプルごとに4回ずつコーグの出力に
供給される0選択されたパルスはシーケンス2X?に量
子化される。したがって、L及びXゞのパラメータで、
コード化された信号e (n)が定義される。実際には
、PCM技法で圧縮されたブロックがXのサンプルのシ
ーケンスをコード化するのに用いられる。こうした手法
は、”International Sem1nar 
on DigitalCommunication Z
urich  1974”でCroisierによって
提供された。
40個のサンプルの長さのe (n)の各シーケンスは
最終的には、5ビツトでコード化される指数項及び3ビ
ツトでそれぞれコード化される13又は14個のサンプ
ルにコード化される。
第7図には本実施例で用いるデコーダ又はシンセサイザ
が示されている。受信されたデータ列は(70)で多重
化解除され、各種成分(C1X、L、b、M及びk (
i) )に分離される。 e (n)のパルス列を再生
するのに通常の8626MデコーダにおいてC及びXを
用いる。e (n)のパルス列の時間的な位置は、パラ
メータLを用いてブロックの時間の原点を基準として調
整される。換言すれば5選択されたパルス列がxOlX
l又はX2のどれであるかをLが示すかによって、追加
的な時間遅延がゼロ、1又は2個のサンプル期間に設定
される。デコードされたパルスP’(n)は次に適長区
間予測フィルタ(74)に供給される。このパラメータ
はbおよびMによって調整される。これらの動作は40
個のサンプルすなわち1つのサブロックウィンドウごと
に行われる。上記逆フィルタは、逆短区間予測フィルタ
(76)に供給されるデコードされた残差信号r’(n
)を供給する。この係数はPARCOR係数k (i)
(又は対応する係数a(i))を用いて160個のサン
プルの長区間ごとに調整される。デコードされた音声信
号S’(n)は逆短区間予測フィルタの出力のところに
供給される。
長区間予測パラメータ、もっと詳しくいえばピッチに関
連したパラメータMを検出するための非常に効率的な方
法により、非常に効率的な16kbpsの音声コーディ
ングが達成される。さらに詳しくいうと、ビットの割当
てが以下のように行われる。
20ミリ秒の音声信号の各ブロックにつきParcor
 (Ki)       28ビツト指数部(C)  
     4X5=20ビット振幅(X)    4 
x 14 x 3 = 168ビツト位置(L)   
      4X2=8ビット利得(b)      
   4X2=8ピッ1−ピッチ(M)       
4X7=28ビット合計             2
60ビツトこれは、16Kb p sのコーグ(13K
bpsとエラー保護用の3Kbp s)についてのレー
トに対応するものである。
E0発明の詳細 な説明したように本発明によれば、ピッチの効率的な決
定方法が得られる。
【図面の簡単な説明】
第1図は本発明に基づ〈実施例の音声コーグのブロック
図、第2図は音声信号及び残差信号の波形の例を示す図
、第3図及び第4図は本発明に基づくピッチ検出方法の
説明に供する図、第5図及び第6図はコーグのブロック
図、第7図はデコーダのブロック図、第8図はピッチ決
定の一般的なブロック図、第9図は考えられるピッチの
値の選択に関するアルゴリズムを示す図、第10図は重
要でない値の除去及び粗いピッチの値の決定のための平
均化に関するアルゴリズムを示す図、第11図は細かな
ピッチの決定についてのアルゴリズムを示す図である。 出願人  インターナショナル・ビジネス・マシーンズ
・コーポレーション 代理人  弁理士  頓  宮  孝  −(外1名) 肯矛コーグ′ 箒 1 口 I       N       2N       
3N       4N篤 4 回 コーグ 蔓 5 図 第 6 口 40ザンプルニと           、+60−リ
”ンブル二゛とテ′ゴ −グ 裕  7  匹〕 ′t、10 図

Claims (1)

  1. 【特許請求の範囲】 複数のサンプルから成る連続的な固定長のブロックに分
    けられるようなサンプルされた音声信号からピッチ情報
    Mを検出する方法であって、(a)音声信号において正
    のしきい値及び負のしきい値を設定し、 上記正のしきい値より大きいサンプル及び上記負のしき
    い値より小さいサンプルを検出して記憶し、 上記記憶されたサンプルの中から符号の遷移を検出し、 連続的に存在する上記符号の遷移の間のサンプルの個数
    M′を計算し現ブロックについてM′の平均値として第
    1次のピッチ情報Mを計算するステップと、 (b)上記Mの倍数の近くで自己相関領域を設定し、 現ブロックを連続的な複数のサブブロックに分割し、 現サブブロックと、最初の1つのサンプルが自己相関領
    域の中の1つであるサブブロックとの自己相関をとり、 該自己相関のピークを検出して微調されたピッチ情報M
    の値を決定するステップと、 を有することを特徴とするピッチ検出方法。
JP63008601A 1987-03-05 1988-01-20 ピツチ検出方法 Expired - Fee Related JP2505015B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP87430006.4 1987-03-05
EP87430006A EP0280827B1 (en) 1987-03-05 1987-03-05 Pitch detection process and speech coder using said process

Publications (2)

Publication Number Publication Date
JPS63223799A true JPS63223799A (ja) 1988-09-19
JP2505015B2 JP2505015B2 (ja) 1996-06-05

Family

ID=8198298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63008601A Expired - Fee Related JP2505015B2 (ja) 1987-03-05 1988-01-20 ピツチ検出方法

Country Status (5)

Country Link
US (1) US4924508A (ja)
EP (1) EP0280827B1 (ja)
JP (1) JP2505015B2 (ja)
DE (1) DE3783905T2 (ja)
ES (1) ES2037101T3 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5891659A (en) * 1996-03-04 1999-04-06 Kikkoman Corporation Bioluminescent adenosine phosphate ester assay and reagent

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69029120T2 (de) * 1989-04-25 1997-04-30 Toshiba Kawasaki Kk Stimmenkodierer
US5105464A (en) * 1989-05-18 1992-04-14 General Electric Company Means for improving the speech quality in multi-pulse excited linear predictive coding
EP0401452B1 (en) * 1989-06-07 1994-03-23 International Business Machines Corporation Low-delay low-bit-rate speech coder
US5097508A (en) * 1989-08-31 1992-03-17 Codex Corporation Digital speech coder having improved long term lag parameter determination
JPH03123113A (ja) * 1989-10-05 1991-05-24 Fujitsu Ltd ピッチ周期探索方式
DE9006717U1 (de) * 1990-06-15 1991-10-10 Philips Patentverwaltung GmbH, 22335 Hamburg Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen
US5528629A (en) * 1990-09-10 1996-06-18 Koninklijke Ptt Nederland N.V. Method and device for coding an analog signal having a repetitive nature utilizing over sampling to simplify coding
NL9001985A (nl) * 1990-09-10 1992-04-01 Nederland Ptt Werkwijze voor het coderen van een analoog signaal met een herhalend karakter en een inrichting voor het volgens deze werkwijze coderen.
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
JP2947685B2 (ja) * 1992-12-17 1999-09-13 シャープ株式会社 音声コーデック装置
JPH06250697A (ja) * 1993-02-26 1994-09-09 Fujitsu Ltd 音声符号化方法及び音声符号化装置並びに音声復号化方法及び音声復号化装置
US5659659A (en) * 1993-07-26 1997-08-19 Alaris, Inc. Speech compressor using trellis encoding and linear prediction
US5673364A (en) * 1993-12-01 1997-09-30 The Dsp Group Ltd. System and method for compression and decompression of audio signals
AU725711B2 (en) * 1994-02-16 2000-10-19 Qualcomm Incorporated Block normalisation processor
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
JP3500690B2 (ja) 1994-03-28 2004-02-23 ソニー株式会社 オーディオピッチ抽出装置及びオーディオ処理装置
JP3601074B2 (ja) * 1994-05-31 2004-12-15 ソニー株式会社 信号処理方法及び信号処理装置
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5497337A (en) * 1994-10-21 1996-03-05 International Business Machines Corporation Method for designing high-Q inductors in silicon technology without expensive metalization
JPH10105194A (ja) 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
US5832443A (en) * 1997-02-25 1998-11-03 Alaris, Inc. Method and apparatus for adaptive audio compression and decompression
EP1326479B2 (en) * 1997-04-16 2018-05-23 Emma Mixed Signal C.V. Method and apparatus for noise reduction, particularly in hearing aids
EP1002312B1 (en) * 1997-07-11 2006-10-04 Philips Electronics N.V. Transmitter with an improved harmonic speech encoder
DE69932786T2 (de) * 1998-05-11 2007-08-16 Koninklijke Philips Electronics N.V. Tonhöhenerkennung
US6470311B1 (en) 1999-10-15 2002-10-22 Fonix Corporation Method and apparatus for determining pitch synchronous frames
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
EP1513137A1 (en) * 2003-08-22 2005-03-09 MicronasNIT LCC, Novi Sad Institute of Information Technologies Speech processing system and method with multi-pulse excitation
US8583772B2 (en) 2008-08-14 2013-11-12 International Business Machines Corporation Dynamically configurable session agent
US10510363B2 (en) * 2016-03-31 2019-12-17 OmniSpeech LLC Pitch detection algorithm based on PWVT

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6050720A (ja) * 1983-08-31 1985-03-20 Ricoh Co Ltd 磁気記録媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1170306A (en) * 1967-11-16 1969-11-12 Standard Telephones Cables Ltd Apparatus for Analysing Complex Waveforms
US3916105A (en) * 1972-12-04 1975-10-28 Ibm Pitch peak detection using linear prediction
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
DE2621693C3 (de) * 1976-05-15 1979-09-13 Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt Einrichtung zum Bestimmen der Grundperiode eines Sprachsignals aus dem bei Prädiktionsvocodern entstehenden Differenzsignal
JPS5918717B2 (ja) * 1979-02-28 1984-04-28 ケイディディ株式会社 適応形ピツチ抽出方式
GB2102254B (en) * 1981-05-11 1985-08-07 Kokusai Denshin Denwa Co Ltd A speech analysis-synthesis system
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
JPS62234435A (ja) * 1986-04-04 1987-10-14 Kokusai Denshin Denwa Co Ltd <Kdd> 符号化音声の復号化方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6050720A (ja) * 1983-08-31 1985-03-20 Ricoh Co Ltd 磁気記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5891659A (en) * 1996-03-04 1999-04-06 Kikkoman Corporation Bioluminescent adenosine phosphate ester assay and reagent

Also Published As

Publication number Publication date
US4924508A (en) 1990-05-08
DE3783905D1 (de) 1993-03-11
DE3783905T2 (de) 1993-08-19
JP2505015B2 (ja) 1996-06-05
EP0280827B1 (en) 1993-01-27
EP0280827A1 (en) 1988-09-07
ES2037101T3 (es) 1993-06-16

Similar Documents

Publication Publication Date Title
JPS63223799A (ja) ピツチ検出方法
US4933957A (en) Low bit rate voice coding method and system
EP0331858B1 (en) Multi-rate voice encoding method and device
CA1218745A (en) Speech signal processing system
US4860355A (en) Method of and device for speech signal coding and decoding by parameter extraction and vector quantization techniques
US5621852A (en) Efficient codebook structure for code excited linear prediction coding
EP0751494B1 (en) Speech encoding system
JP2650201B2 (ja) ピツチ関連遅延値を導出する方法
US5359696A (en) Digital speech coder having improved sub-sample resolution long-term predictor
JPS5912186B2 (ja) 雑音の影響を減少した予測音声信号符号化
US4945565A (en) Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses
US4354057A (en) Predictive signal coding with partitioned quantization
JP2001509616A (ja) 長期間予測と多重パルス励起信号を用いて音声信号を符号化および/または復号化する方法
JP3266372B2 (ja) 音声情報符号化方法およびその装置
CA2205093C (en) Signal coder
USRE32124E (en) Predictive signal coding with partitioned quantization
CA2440820A1 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
EP0852375B1 (en) Speech coder methods and systems
US5692101A (en) Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques
US5231669A (en) Low bit rate voice coding method and device
EP0333425A2 (en) Speech coding
JP2000322095A (ja) 音声復号装置
EP0987680A1 (en) Audio signal processing
JPH0446440B2 (ja)
JPS6151200A (ja) 音声信号符号化方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees