JPWO2005117366A1 - 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 - Google Patents

音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 Download PDF

Info

Publication number
JPWO2005117366A1
JPWO2005117366A1 JP2006513918A JP2006513918A JPWO2005117366A1 JP WO2005117366 A1 JPWO2005117366 A1 JP WO2005117366A1 JP 2006513918 A JP2006513918 A JP 2006513918A JP 2006513918 A JP2006513918 A JP 2006513918A JP WO2005117366 A1 JPWO2005117366 A1 JP WO2005117366A1
Authority
JP
Japan
Prior art keywords
voice
packets
buffer
waveform
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006513918A
Other languages
English (en)
Other versions
JP4146489B2 (ja
Inventor
仲 大室
仲 大室
岳至 森
岳至 森
祐介 日和▲崎▼
祐介 日和▲崎▼
片岡 章俊
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2005117366A1 publication Critical patent/JPWO2005117366A1/ja
Application granted granted Critical
Publication of JP4146489B2 publication Critical patent/JP4146489B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/062Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
    • H04J3/0632Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

受信パケットを受信バッファに蓄積すると共に状態検出部によりそのパケットの到着時の最大遅延ゆらぎと受信バッファのバッファ量とを検出し、制御部により最大遅延ゆらぎに対応する最適バッファ量を予め決めた表から求め、検出バッファ量と最適バッファ量からバッファ量の調整の緊急度を判定し、受信バッファから読み出したパケットから復号された現フレームの復号音声データ列に対し、消費量調整部において上記緊急度と、検出したバッファ量と、上記最適バッファ量とに基づいて上記復号音声データ列に対し波形の伸張、短縮を行って再生フレームの消費量を調整することにより、受信バッファが空になることを阻止する。

Description

この発明は、デジタル化された音声、音楽などの音響信号(以下総称して音声信号)をインターネットをはじめとするパケット通信網を介して送信する際に、受信側において安定した品質で音声信号を再生するために用いる音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム及びこのプログラムを記録した記録媒体に関する。
音声信号をVoice over IP技術(以下単に音声パケット通信と称す)を利用して送信し受信するサービスが普及しつつある。図1はその概要を示す。入力音声信号は音声信号送信装置5で音声パケットに変換され、パケット通信網6に送出される。音声信号受信装置7は自己宛に送られて来る音声パケットを識別して受信し、音声パケットを復号して音声を出力する。
図2に送信すべき音声データ列と音声パケットの関係を示す。図2Aは送信すべき音声データ列を示す。送信すべき音声データ列は一般にPCMデジタルサンプル列で構成される。このディジタル音声データ列をフレームと呼ばれる一定の時間単位(一般的には10ミリ秒〜20ミリ秒程度)に区切って音声符号化し、音声符号に送信時刻を表わすタイムスタンプ等を付加して音声パケットとして送信される。音声パケットは図2Bに示すように時間軸方向に圧縮された間欠信号とされ、間欠信号の空き時間は他のパケット通信に利用される。音声信号送信装置5から送り出される音声パケットの送り出しの時間の間隔は音声データ列のフレーム長に該当し、フレーム長に相当する時間間隔でパケット通信網6に送り出される。
音声信号受信装置7はフレーム長に相当する時間間隔で到来する音声パケットを受信し、音声パケットを復号することにより図2Cに示すように1音声パケットが1フレーム長の音声データ列に復号され、1フレーム長に相当する時間間隔で音声パケットを受信することにより、音声信号受信装置7は連続した音声を再生することができる。
ところで、通信網の状態によってはパケットの到来時間に大きなゆらぎが生じ、その結果、制限時間内(フレーム長に相当する時間内)にパケットが届かない現象が発生し、再生する音声が途切れるという問題がある。この問題に対して、ゆらぎ吸収バッファとも呼ばれる受信バッファを設けて、常に一定量のパケットを受信バッファに溜めておく方法が知られている。このとき、受信バッファに溜めておくパケットの量を多くすると、パケットの到着遅延の大きなゆらぎには強いが、パケットを受信してから音声が再生されるまでの遅延、即ち通話の遅延も大きくなり、双方向で話しづらいという問題がある。逆に、受信バッファに溜めておくパケットの量を少なくすると、通話の遅延は少ないが、パケットの到着遅延のゆらぎが発生したときに、音声が途切れやすいという問題がある。つまり、通話の遅延と音声の途切れやすさはトレードオフの関係にある。
この問題に対して、受信バッファに溜めるパケット量をダイナミックにコントロールする方法が知られている。これは、通話開始時は受信バッファに溜めるパケット量を少なくして、通話遅延を小さくするが、通話中にバッファに溜めたパケットが枯渇すると、通話途中で一旦音声再生処理を中止して受信バッファに溜めるパケット量を一定量増加させ、以降において通話音声が途切れにくくするものである。
人間が発声する音声を10ミリ秒〜20ミリ秒の時間単位に区切って見ると、通常の発声では発生時間の数十パーセント程度は非音声区間(背景雑音区間及び無音区間)であると言われている。そこで、受信バッファ中の受信パケット数が第1の閾値を超えた場合、復号音声中の非音声区間を削除することによりフレーム長を短縮して受信バッファ中の音声再生のための次のパケットへのアクセス時点を早め、受信バッファ中の受信パケット数が第1の閾値より小さい第2の閾値より小さくなった場合は、復号音声信号中の非音声区間を伸張し、それによって受信バッファ中の音声再生のための次のパケットへのアクセス時点を遅延させることにより遅延ゆらぎに対処することができる。この方法は、非音声区間の発生頻度が著しく小さくなったり、長時間にわたって非音声区間が無かったりすると、受信バッファによる調整ができなくなってしまう。
一方、音声区間(有声音区間及び無声音区間)において、ピッチ波形を単位として挿入、削除すれば、聴覚的な品質劣化をほとんど生じさせることなく、時間長の伸縮が可能であることが非特許文献1に記載されている。この方法を用いて前記非音声区間だけでは十分な受信バッファの調整ができない問題を解決するため、受信バッファ内の蓄積パケット量が下限値より下がると音声区間においてピッチ長の補間音声波形を追加し、上限値を超えると音声区間においてピッチ長の音声波形を間引くことが特許文献1に示されている。しかしながら、ピッチ長の波形を挿入あるいは間引くことにより音質劣化を低減しているものの、このピッチ長の波形の挿入又は間引きは、バッファ内の蓄積パケット量が上限閾値と下限閾値の間になるまで一連のフレームに対し実施されるため、再生音声に望ましくない程度の音質劣化を与える可能性がある。また、下限値及び上限値は固定されているため、遅延ゆらぎの急激な変化に対応できず、パケットロスが生じてしまう場合もある。
日本国特許出願公開2003-050598号公報 森田、板倉、"ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸張圧縮とその評価"、日本音響学会講演論文集、1-4-14.1986年10月
本発明の目的は、ピッチ波形を単位とした挿入、削除処理を応用して、より高性能な音声パケット再生方法、及び装置を提案しようとするものである。
この発明によれば、音声データ列のフレーム毎の符号化により生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生方法は、以下のステップを含む:
(a) 受信パケットを受信バッファに蓄積し、
(b) 上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最大値又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるバッファ蓄積パケット数とを検出し、
(c) 上記最大遅延ゆらぎから、予め決めた最大遅延ゆらぎと最適蓄積パケット数の関係を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、を求め、
(d) 上記検出したバッファ蓄積パケット数と上記最適蓄積パケット数の相違の程度を複数の段階で判定し、
(e) 上記受信バッファから現フレームに対応するパケットを取り出し、そのパケット中の音声符号を復号して現フレームの復号音声データ列を得て、
(f)上記相違の程度の段階ごとに定めた規則に基づいて、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように、上記復号音声データ列に対しその波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する。
この発明によれば、音声データ列のフレーム毎の符号化により生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生装置は、
入力音声データ列のフレーム毎の符号化により生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生装置であり、
音声パケットをパケット通信網から受信するパケット受信部と、
受信したパケットを一時的に蓄積し、要求に応じてパケットを読み出す受信バッファと、
上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最大値又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるバッファ蓄積パケット数を検出する状態検出部と、
上記最大遅延ゆらぎから、予め決めた最大遅延揺らぎと最適蓄積パケット数の関係を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、を求め、上記検出したバッファ蓄積パケット数と上記最適パケット数の相違の程度を複数の段階で判定し、上記相違の程度の段階ごとに予め定めた規則に基づいて、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように波形の伸張、短縮、又は現状維持を指示する制御信号を生成する制御部と、
上記受信バッファから取り出された現フレームに対応するパケット中の音声符号を復号して現フレームの復号音声データ列を得る音声パケット復号部と、
上記制御信号に従って、上記現フレームの復号音声データ列に対し、その波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する消費量調整部、
とを含むように構成される。
パケット到着時間の遅延ゆらぎの大きいパケット通信網によってリアルタイムに音声信号を通信する場合に、本発明を適用することによって、音声の有無を問わずに定常的に音声データ列の消費量を制御し、受信バッファ内のパケット量を調整するから通信網の状態(ゆらぎ時間)の変化に追随して、受信バッファの最適コントロールが可能となる。この結果、音声の途切れがなく、かつ通話遅延を必要最小限に抑えた音声通話が実現される。また、パケット通信網はコストを抑えるために、ある程度のゆらぎを許容するように設計するのが一般的であり、本発明の利用によって、回線自体のゆらぎが少ない高品質ネットワークを利用しなくても音声の途切れが発生しないため、ネットワークの利用に関するコスト削減にも効果がある。
パケット通信の概要を説明するためのブロック図。 パケット通信の概要を説明するためのタイミングチャート。 本発明の音声パケット再生装置の一実施例を説明するためのブロック図。 最大遅延ゆらぎに対する最適バッファ量を示す表。 図5Aは受信パケットの処理手順を示し、図5Bはパケットの読み出し、復号、波形処理の手順を示す。 図3における音声分析部15の構成例を示すブロック図。 図3におけるフレーム波形伸張部21の機能構成例を示すブロック図。 図7に示したフレーム波形伸張部21による波形伸張処理を模式的に説明するための波形図。 図7に示したフレーム波形伸張部21による波形伸張処理の他の例を説明するための波形図。 図3におけるフレーム波形伸張部21の他の構成を説明するためのブロック図。 図3に示したフレーム波形短縮部22の内部を構成を説明するためのブロック図。 図11に示したフレーム波形短縮部22の動作を説明するための波形図。 図3に示した消費量調整部20の動作を説明するためのタイミングチャート。 バッファ調整の緊急度を判定する手順を示すフローチャート。 緊急度に対する消費量調整部20の制御例を示す表1。 緊急度に対する消費量調整部20の制御例を示す表2。 緊急度に対する消費量調整部20の制御例を示す表3。 緊急度に対する消費量調整部20の制御例を示す表4。 図3における音声分析部15の第2の実施例を示すブロック図。 図3における音声分析部15の第3の実施例を示すブロック図。 図20における音声フレームの区間の判定手順を示すフローチャート。 図21による判定結果の音声フレームに対する消費量調整部20の制御例を示す表5。
本発明は、コンピュータ本体とコンピュータプログラムによって実行することが可能であるし、デジタルシグナルプロセッサや専用LSIに実装して実現することも可能である。特に切替スイッチはプログラムの条件分岐として実装することができる。
第1実施例
図3は、本発明における音声信号受信部の構成例であり、パケット受信部11と、受信バッファ12と、音声パケット復号部13と、状態検出部14と、音声分析部15と、制御部16と、消費量調整部20と、サウンドデバイス18とから構成されている。パケット受信部11は、通信網から音声パケットを受信し、その受信バッファ12に蓄積すると共に、そのパケットの到着時刻とそのパケットのタイムスタンプを状態検出部14に与える。音声パケットには、フレームと呼ばれる一定の時間単位(一般的には10ミリ秒〜20ミリ秒程度)に区切った音声信号を音声符号化の手法によって変換した音声符号と、送信側におけるパケット作成の時間順序を示すタイムスタンプ(フレーム番号に対応)が含まれている。代表的な音声符号化手段としては、ITU-T(国際電気通信連合)の標準であるG.711方式があるが、その他任意の方式でもよい。
受信バッファ12は、受信音声パケットを蓄積し、音声パケット復号部13から転送要求がある毎に、音声パケットを音声パケット復号部13にタイムスタンプ順に送る。受信バッファ12から音声パケットが音声パケット復号部13に転送されるごとに、受信バッファ12内のその音声パケットは破棄される。
音声パケット復号部13は、音声パケットに含まれる音声符号を復号して、音声データ列を出力し、消費量調整部20と音声分析部15に与える。ここでいう音声データ列とはデジタル音声サンプル列であり、一般的にはPCMフォーマットで扱われることが多い。以下、特に音声信号がアナログかデジタルかの表記はしないが、最終的に人間の耳で聞く音がアナログ信号である以外の処理途中の信号はデジタル信号である。
また、送信側ではPCM信号をフレームごとに符号化してからパケットに収容して送信する場合と、PCM信号をそのままフレームごとにパケットに収容して送信する場合がある。前者の場合、受信側において受信パケットから取り出した音声符号を復号する手段を必要とするが、後者の場合は必要としない。しかしながら、PCM信号も一種の符号であると考えれば、受信側においてパケットから取り出したPCM信号をディジタルオーディオ信号に変換する復号化手段を必要とする。図3に示したこの発明の音声パケット再生装置における音声パケット復号部13はいずれの場合であってもよい。
状態検出部14はパケット受信部11で受信されたパケットの到着時刻とタイムスタンプが与えられ、遅延ゆらぎを検出すると共に、受信バッファ12に蓄積されているパケット数を検出して制御部16に与える。ここで簡単のため現パケットのタイムスタンプをフレーム番号Fn(n=0, 1, 2, ...)と同じとし、到着時刻をTnとし、直前のパケットのタイムスタンプをFn-mとし、その到着時刻をTn-mとする。信号伝送路の遅延量の変動が小さければ通常はm=1であるが、遅延量が大きく変動すると到着パケットの順番の逆転が生じる可能性があるので一般にはm=1とは限らない。フレーム長をLfとし、遅延ゆらぎjnを例えばjn=(Tn-Tn-m)-m×Lf又はその絶対値で表すことにする。遅延ゆらぎjnの定義はゆらぎの程度を数値で表すことができれば他の定義式を用いてもよい。
状態検出部14は前回のパケットの到着時刻Tn-mとタイムスタンプFn-mを内部の情報記憶部14Mに保持すると共に、一定期間(例えば2秒間)過去に遡って受信された各パケットについて計算した遅延ゆらぎjn, jn-1, ...を保持している。現パケット(タイムスタンプFn)の受信時点における過去一定期間(2秒)内の遅延ゆらぎの最大値又は統計値(以下最大遅延ゆらぎと呼ぶ)をJと表すことにする。あるいは一定期間の代わりに、一定数(例えば100)の受信されたパケットに対する最大遅延ゆらぎをJとしてもよい。状態検出部14は、パケット受信部11からパケットの到着時刻TnとタイムスタンプFnが与えられる毎に最大遅延ゆらぎJを求め、現時点の受信バッファ12の蓄積パケット数(バッファ量)Sと共に制御部16に与える。
音声分析部15は、まず音声パケット復号部13から出力された復号音声データ列を分析して、当該フレームが音声区間であるか非音声区間であるかを判定する。なお、ここで言う音声区間とは、人間の発声した音声信号が含まれる区間、非音声区間とは音声信号が含まれない区間と定義する。音声区間は有声音区間又は無声音区間のいずれかであり、非音声区間は音声区間以外の区間、即ち、背景雑音区間又は無音区間のいずれかである。その判定方法としては、例えば、フレーム内の音声信号のパワーを計算し、パワーが閾値以上であれば音声フレーム(音声区間)、閾値未満であれば非音声フレーム(非音声区間)と決めることにする。
当該フレームが音声区間と判定された場合には、ピッチ長の分析が行なわれる。ピッチ長は、例えば、音声波形又は音声波形にスペクトル包絡の逆特性を持つフィルタをかけた信号の自己相関係数を計算することによって得られる。当該フレームが非音声区間と判定された場合には、ピッチ長の分析は行なわず、ピッチ長Lpとして一定値、例えばフレーム長Lfの1/2を設定する。後述するように、ピッチ長Lpはフレーム長Lfの1/2以下が以後の処理に都合がよいためである。フレーム長Lfの1/4、1/6といった1/2以下の任意の値でもよい。
当該フレームが音声区間と判定された場合であっても、その音声が有声音の場合と無声音の場合がある。無声音の場合にはピッチという音声の物理的特徴量は存在しない。その場合でも、ピッチ分析の手法を用いて得られた値をピッチ長として以後の処理に利用して差し支えないし、非音声区間と同様にピッチ長として一定値に設定してしまっても本発明の効果に大差はない。
背景雑音がある場合の背景雑音区間(音声区間以外)では、音声区間と同様にピッチ分析の手法を用いてピッチ長を算出する。このとき得られるピッチ長は、音声の物理的特徴量としてのピッチとは異なるが、信号に含まれる主要な基本周波数に対応する周期として利用する。なお、音声の符号化方法によっては音声符号中にピッチに関する情報が含まれている場合があり、その場合には音声符号中のピッチ情報を用いてピッチ長を求めればよい。
制御部16は予め実験により最大遅延ゆらぎとそれに対する受信バッファ12の最適蓄積パケット数を決めた例えば図4に示す表16Tを有している。図4に示す表16Tは、フレーム長Lfが20msecの場合であり、従って、隣接パケットとの理想的な受信間隔も20msecである。制御部16は、状態検出部14から与えられた最大遅延ゆらぎJから表16Tを参照して求めた最適パケット数Bと現在の受信バッファ12の蓄積パケット数Sとの差S−Bに基づいて、受信バッファ12に必要とされるバッファ量の調整の緊急度を判定する。なお、表16Tを用いる代わりに、例えば最大遅延ゆらぎJと最適蓄積パケット数Bの関係を近似的に表す式を予め決め、それを使用してもよい。即ち、最大遅延ゆらぎJと最適蓄積パケット数Bの予め決めた関係を使用するのであればどのような方法でもよい。
制御部16は判定した緊急度と、音声分析部15から与えられた音声/非音声判定結果に基づいて、音声パケット復号部13からの現フレームの復号音声波形データに対し、伸張するか、短縮するか、あるいは変更しないかを決め、その決定による制御を消費量調整部20に与える。
消費量調整部20は制御部16の制御に従って、音声パケット復号部13からの復号音声波形データをそのまま出力するか、伸張して出力するか、短縮して出力する。復号音声波形を伸張すれば音声パケット復号部13の受信バッファ12に対し次のパケットの転送要求が遅れることになり、単位時間当たりのパケット消費量が少なくなる。逆に、復号音声波形を短縮すれば、単位時間当たりのパケット消費量が多くなる。即ち音声信号として出力するための単位時間当たりの処理フレーム数を制御することにより受信バッファ12からのパケットの読み出し量を制御する。
サウンドデバイス18は図示してないD/A変換器を有しており、音声データ列をアナログ信号に変換し実際にスピーカで再生する。消費量調整部20からデジタルの音声信号がサウンドデバイス18に送られると、アナログ音響信号である出力音声が再生される。サウンドデバイス18は受け取った時間長(1フレームに相当する時間)の信号の再生が終わると、次のパケットの復号音声データ列を受け取る。サウンドデバイス18の中にもサウンドデバイス用のバッファを持つのが一般的で、ダブルバッファと呼ばれる方法がよく知られている。ダブルバッファとは、2つのバッファを持ち、一方が再生中は他方は次の再生のための信号を受け取って準備する方法である。バッファが満杯のときは、一方の再生が終了するまでは次の信号は受け取らない。バッファ内に次の信号を格納できる空き領域が発生すると、直ちに次の信号の読み込みが実行される。
図5A及び図5Bは図3に示したこの発明による音声パケット再生装置におけるパケット受信部11と受信バッファ12と、状態検出部14による上述した受信パケットの処理手順と、それ以外の構成部による音声データ列の再生処理手順を示す。
図5Aの処理では、ステップS1Aでパケット受信部11により音声パケットが受信されると、ステップS2Aで受信パケットのタイムスタンプと到着時刻とを状態検出部14に保存する。
ステップS3Aで、状態検出部14により受信パケットの到着時刻とタイムスタンプから直前の受信パケットに対する遅延ゆらぎを求め、到着時刻、タイムスタンプと共に保存し、過去一定時間内の最大遅延ゆらぎJを求め、受信バッファ12の現時点の蓄積パケット数(バッファ量)Sを検出し、制御部16に最大遅延ゆらぎJとバッファ量Sを与える。
ステップS4Aで、受信パケットを受信バッファ12に蓄積し、ステップS1Aに戻って次のパケットを待つ。
図5Bの処理では、ステップS1Bで音声パケット復号部13からの要求により受信バッファ12から再生処理における現フレームに対応するパケットを読み出し、ステップS2Bで音声パケット復号部13によりパケット中の音声符号を復号化して音声データ列を得る。
ステップS3Bで、音声分析部15により復号音声データ列が音声区間であるか非音声声区間であるか判別し、ステップS4Bで制御部16により最大遅延ゆらぎJに対する最適バッファ量Bを図4の表から決定する。
ステップS5Bで、制御部16によりさらに最適バッファ量Bと検出バッファ量Sに基づいてバッファ量の調整の緊急度を判定する。
ステップS6Bで、判定された緊急度に応じて消費量調整部20により現フレームの復号音声データ列に対し波形伸張/短縮処理を行う。
ステップS7Bで、波形伸張/短縮処理された音声データ列を出力し、ステップS1Bに戻って次のパケットの再生処理に移る。
以下、図3に示したこの発明による音声パケット再生装置の要部を詳細に説明する。
図6は音声分析部15の機能構成例を示す。ここでは、音声分析部15は、高域通過フィルタ151と、分析用バッファ152と、フレーム内パワー計算部153と、区間判定部154と、ピッチ抽出部15Aとから構成されている。音声パケット復号部13からのフレームごとの復号音声データは高域通過フィルタ151により直流分や、本来音声に含まれていない極端に低い周波数(例えば50Hz以下)の成分が除去された後、以降の処理のために分析用バッファ152に一時保持され、フレーム内パワー計算部153によりフレーム内のパワーPfが計算される。区間判定部154は予め決めたパワー閾値Pthよりもフレーム内パワーPfが大きければ音声区間、Pth以下であれば非音声区間と判定し、判定結果を出力する。
ピッチ抽出部15Aは区間判定部154の判定結果が音声区間と判定した場合に復号音声データ列からピッチ抽出処理を実行する。ピッチ抽出部15Aは線形予測分析部155と、逆フィルタ係数算出部156と、逆フィルタ157と、ピッチ相関計算部158とから構成されている。線形予測分析部155は分析用バッファ152に保持されている1フレーム分の復号音声データ列を線形予測分析し、線形予測係数を得て逆フィルタ係数算出部156に与える。逆フィルタ係数算出部156は線形予測係数から、復号音声信号のスペクトル包絡を平坦化するような逆フィルタ係数を算出し、線形フィルタで構成された逆フィルタ157の係数として設定する。従って、逆フィルタ157は与えられた復号音声データ列を逆フィルタ処理し、それによってスペクトル包絡が平坦化された音声データ列がピッチ相関計算部158に与えられる。ピッチ相関計算部158は与えられた音声データの自己相関値をサンプル点を順次ずらしてそれぞれ計算し、得られた一連の相関値のピークの間隔をピッチ長Lpとして検出し、消費量調整部20に与える。
尚、ピッチ長の分析には、当該フレームの信号だけでなく、過去のフレームの信号も利用することが多い。その場合には分析用バッファ152のサイズを2フレーム以上とし、現フレームと過去のフレームの復号音声データ列を保持し、過去から現在に渡る複数フレームの音声データ列に対するピッチ長分析を行えばよい。音声/非音声の判定結果は制御部16に、ピッチ長Lpは音声データ列の消費量を調整する消費量調整部20に送られる。
図3に戻って、消費量調整部20は、フレーム波形伸張部21と、フレーム波形短縮部22と、波形伸張用バッファ23と、スルーパス24と、スイッチSW1、SW2とによって構成される。スイッチSW1は3つの切替端子A1、B1、C1を持ち、スイッチSW2は3つの切替端子A2,B2,B3を持ち、これら切替端子の組A1,A2;B1,B2;C1,C2間にそれぞれフレーム波形伸張部21、スルーパス24、フレーム波形短縮部22が接続されており、制御部16の制御に従ってこれらのいずれかを選択するように連動して切り替えられる。スイッチSW2により選択された音声波形データ列はサウンドデバイス18に与えられると共に、波形伸張用バッファ23に書き込まれる。波形伸張用バッファ23から読み出された音声信号はフレーム波形伸張部21に与えられる。
フレーム波形伸張部21の機能構成例を図7に、フレーム波形伸張部21による波形伸張処理の例を図8に示す。
フレーム波形伸張部21は、波形処理用バッファ21-0と、波形挿入処理部21-1と、第1波形切出し部21-2と、ピッチ波形生成部21-3と、第2波形切出し部21-4とから構成されている。第2波形切出し部21-4は音声分析部15からのピッチ長Lpを使って、波形伸張用バッファ23に蓄積されている1フレーム過去の出力音声信号波形WF1から、図8,行Aに示すピッチ長Lpの区間の波形Xを切り出す。即ち、バッファ23内の最後のサンプル点から、過去の時間方向に向かって1ピッチ長Lpの波形Xを切り出す。
第1波形切出し部21-2は、波形処理用バッファ21-0内の現フレームの音声信号波形WF0から、図8の行Aにおけるピッチ長Lpの区間の波形Yを切り出す。即ち、入力された現フレームの音声信号波形WF0の先頭サンプル点から正の時間方向に向かって1ピッチ長Lpの波形を切り出す。
ピッチ波形生成部21-3は、前記切り出した波形Xと波形Yにそれぞれ三角窓の重み付けを行なった後、互いに加算して、図8の行Bに示す波形Zを作成する。ここで利用する重み付け三角窓は、非特許文献1に記載されている三角窓と同様のものを利用することができる。即ち、波形区間の始点から終点に向かって、重みが波形Xでは0から1に、波形Yでは1から0に直線的に変化する形状を利用できる。
波形挿入処理部21-1は、図8の行Cに示すように現フレームの音声波形の先頭に付加した1ピッチ長Lpの区間に、行Dに示すように前記波形Zを挿入する。
図8、行Aでは、波形Xは波形伸張用バッファ23内の1フレーム前の信号から切り出し、波形Yは波形処理用バッファ21-0内の現フレームの信号から切り出しているが、ピッチ長Lpがフレーム長Lfの1/2以下の場合には、現フレームの音声波形のみを使って挿入波形を作成してもよい。例えば、図9、行A中に示すように、図8、行Aの波形X、波形Yに対応する波形X’、Y’を現フレームの先頭から連続して2ピッチ長の区間から切り出し、切り出した波形X′、Y′に三角窓をかけて互いに加算して波形Z′(図9、行B)を作成し、現フレームの波形X′とY′の間(図9、行C)に波形Z′を挿入して長さLf+Lpの波形とすれば(図9、行D)、図8の手法と同様の効果が得られる。
図9の手法では、図8の手法で使用した波形伸張用バッファ23は不要になるメリットがある反面、ピッチ長Lpがフレーム長Lfの1/2以下である制限がある。しかしながら、波形処理用バッファ21-0のサイズを例えば2フレーム分として現フレームとその直前のフレームの波形を保持するようにし、伸張処理を2フレーム分の音声信号に対して行うことにより、ピッチ長LpがLf/2を超えても波形伸張処理を行うことができる。
フレーム波形伸張部21の処理によって、長さLfの現フレームの音声信号波形は、図8、行D及び図9、行Dに示すように長さがLf+Lpに伸張された信号波形となって出力される。
図3におけるフレーム波形短縮部22の機能構成例を図11に、フレーム波形短縮部22による波形短縮処理の例を図12に示す。フレーム波形短縮部22は、波形処理用バッファ22-0と、波形置換処理部22-1と、第3波形切出し部22-2と、ピッチ波形生成部22-3と、第4波形切出し部22-4とから構成されている。
第3波形切出し部22-2は、図12の行Aに示すように、波形処理用バッファ22-0に保持されている現フレームの音声信号波形の先頭サンプルから1ピッチ長Lpの区間の波形Dを切り出す。第4波形切出し部22-4は現フレームの音声信号波形の波形Dに続く1ピッチ長Lpの区間の波形Eを切出す。
ピッチ波形生成部22-3は、前記切り出した波形Dと波形Eにそれぞれ三角窓の重み付けを行った後加算して、図12の行Bに示す波形Fを作成する。ここで利用する重み付け三角窓としては、やはり非特許文献1に記載されているが、波形区間の始点から終点に向かって、波形Dでは1から0に、波形Eでは0から1に直線的に変化する形状を使用できる。
波形置換処理部22-1は、行Aに示す現フレームの連続する計2ピッチ長の波形D、Eの区間を行Cに示すように1ピッチ長の区間に短縮して、1ピッチ長の前記波形Fで置換する(行D)。
フレーム波形短縮部22の処理によって、フレーム長Lfの入力音声信号は、Lf-Lpに短縮された信号となって出力される。
フレーム波形短縮部22において、ピッチ長Lpがフレーム長Lfの1/2を超えることがある場合は、前記短縮処理を行なうことができない。つまり波形Eがフレーム内から切り出せないためである。例えば、フレーム長Lfを20ミリ秒とすると、ピッチ長Lpは10ミリ秒以下でなくてはならず、これはピッチ周波数が100Hz以上でなくてはならないことを意味する。男性音声では、ピッチ周波数が100Hz未満である場合もある。このようにピッチ長Lpがフレーム長Lfの1/2を超える場合は、フレーム波形短縮部22の波形処理用バッファ22-0のサイズを2フレーム分とし、現フレームとその直前のフレームの連続する2フレーム長の音声信号に対し、上述の短縮処理を行えばよい。
ピッチ長Lpがフレーム長Lfよりも長い場合には、前記2フレーム分の入力音声信号に対する短縮処理も、前記フレーム波形伸張部21の処理も、ともに行なうことができないが、ピッチ長が20ミリ秒より大きい、即ちピッチ周波数が50Hzよりも低いことは滅多にありえないことから、仮に入力されたピッチ長Lpがフレーム長Lfよりも長い場合には、フレーム波形伸張処理、フレーム波形短縮処理とも無処理のまま入力信号をそのまま出力すればよい。
再び図3に戻って、制御部16は状態検出部14からの最大遅延ゆらぎJと受信バッファ12の蓄積パケット数(バッファ量)Sとに基づいて、受信バッファ12に蓄積するパケットの量を増やすべきか、減らすべきか、そのまま維持するのかの判断を行う。
蓄積するパケットの量を増加すべきと判断する状況の例としては次の場合が考えられる。
(a) 受信バッファに蓄積されている音声パケットの量が減少傾向にある場合。
(b) 受信バッファに蓄積されている音声パケットの数が所定値より少なくなった場合。
(c) 受信パケットの到着時間の間隔が増加傾向にある場合。
蓄積するパケットの量を減少すべきと判断する状況の例としては次の場合が考えられる。
(a) 受信バッファに蓄積されている音声パケットの量が増加傾向にある場合。
(b) 受信バッファに蓄積されている音声パケットの数が所定値以上に達した場合。
(c) 受信パケットの到着時間の間隔が短縮傾向にある場合。
それ以外で、パケット到着時点の最大遅延ゆらぎに対して、その時点で蓄積しているパケット量が適切であると判断されるときは、そのまま維持という判断をする。尚、実際の遅延ゆらぎが何ミリ秒の時にパケット蓄積量はいくらが適切であるかについては図4に例を示したが、一定期間(例えば2秒間)内のパケット受信部11へのパケット到着間隔の最大値よりも、蓄積されたパケットの数Sで算出されるフレームの長さの合計時間S×Lfが少し長い程度がよいと考えられる。
制御部16は、蓄積するパケットの量を増やすべきであると判断した場合、スイッチSW1、SW2をそれぞれ端子A1、A2に切り替える。蓄積するパケットの量を減らすべきであると判断した場合には、スイッチSW1、SW2をそれぞれ端子C1、C2に切り替える。蓄積するパケットの量をそのまま維持すべきであると判断した場合には、スイッチSW1、SW2をそれぞれ端子B1、B2に切り替え、各切り替え位置により消費量調整部20の消費量が設定される。
波形伸張用バッファ23は、スイッチSW2の出力側の音声データ列を蓄積し、蓄積された音声データ列は、前述のように、フレーム波形伸張部21で利用される。
音声データ列がサウンドデバイス18に送られると、所定速度のクロックに同期して出力音声が再生される。サウンドデバイス18は受け取った時間長の音声データ列の再生が終わると、次のパケットから復号した音声データ列を受け取る。
前述のように、サウンドデバイス18の中にもサウンドデバイス用のバッファを持つのが一般的で、ダブルバッファと呼ばれる方法がよく用いられる。ダブルバッファの両方のバッファが満杯のときは、一方のバッファの再生が終了し、そのバッファが空になるまでは次の音声データ列は受け取らない。
スイッチSW1、SW2がそれぞれ端子C1、C2側、即ちフレーム波形短縮部22側にセットされると、もとの1フレーム長に満たない長さの信号がスイッチSW2より出力される。1フレーム長に満たない長さの信号をそのままサウンドデバイス18に送ると、サウンドデバイスのオーバーヘッドが大きくなって、時に音声の途切れが発生することがある。サウンドデバイス18の仕様としてフレーム長の許容最低値がある場合には、スイッチSW2とサウンドデバイス18の間に中間のバッファを設けるのがよい。
スイッチSW1、SW2を端子A1、A2側に切り替えると、音声パケット復号部13から出力された復号音声データ列は、フレーム波形伸張部21を通ってサウンドデバイス18に送られる。長さLfの復号音声データ列がフレーム波形伸張部21を通ることによって、長さLf+Lpのデータ列に伸張されるので、サウンドデバイス18での再生時間もLf+Lpになる。即ち、通常、サウンドデバイス18が音声データ列を受け取る時間間隔がLfであったのが、Lf+Lpの信号の再生時には音声データ列を受け取る時間間隔はLf+Lpになる。
音声パケット復号部13は、サウンドデバイス18が音声データ列を受け取らないと受信バッファ12に対して次の送信要求を出さないので、パケット受信部11が一定の間隔でパケットを受信していれば、受信バッファ12に蓄積されるパケット量は平均として増えることになる。平均として増えるとは、Lp<Lfであるので、1回のフレーム波形伸張処理では、受信バッファに蓄積されるパケット量の増分は1フレーム分には満たない。復号音声信号に対し複数フレーム(Nとする)にわたってフレーム波形伸張部21の伸張処理を行うと、Nよりも小さいMフレーム分だけ受信バッファ12に蓄積されるパケット量が増加する。
図13を用いてその様子を説明する。図13の行Aは受信バッファ12に順次蓄積されるパケットP1, P2, P3, ...を、また図13の行Bは定常の音声フレームF1, F2, F3, ...の消費状態を示す。つまり、スイッチSW1とSW2が端子B1、B2にセットされている場合は受信バッファ12に格納されているパケットを1個ずつ取り出して音声パケット復号部13で1フレーム長Lf毎の音声データ列に復号し、圧縮、伸張の処理を受けずにスルーパス24を通ってサウンドデバイス18に与えられる。サウンドデバイス18では1フレーム長Lf毎の音声データ列を音声に再生する。従って、この状態では1パケットを消費する毎に1フレーム長の音声が再生され、1パケット分の音声が再生されると、次のパケットが受信バッファ12から取り出され、音声パケット復号部13で音声データ列の復号が行われる。
これに対し、図13の行Cに示す消費量小の状態では、スイッチSW1とSW2は端子A1とA2に接続され、復号音声データ列は伸張処理を受けるので、サウンドデバイス18に与えられる音声データ列の時間長はLf+Lpとなる。従って、行Cに示すように伸張されたフレームF’1, F’2, F’3, ...がサウンドデバイス18に与えられることになる。サウンドデバイス18は1パケットから復号した各フレーム長Lfの音声データ列をLf+Lpの時間を掛けて音声を再生することになるからサウンドデバイス18側から音声パケット復号部13に復号音声データ列を出力することを要求するタイミングはLf+Lpの周期となる。図13、行Bに示した定常消費状態の例では時間TM内に6個のパケットを消費したが、図13、行Cに示す受信バッファ12からパケットを取り出す周期がLf+Lpの消費状態例ではパケットを4個消費することになる。これによりパケットの消費量を定常の消費状態より少なくすることができる。
スイッチSW1、SW2を端子C1、C2側に切り替えると、音声パケット復号部13から出力された復号音声データ列は、フレーム波形短縮部22を通ってサウンドデバイス18に送られる。長さLfの復号音声データ列がフレーム波形短縮部22を通ることによって、長さLf−Lpの音声データ列に短縮されるので、図13、行Dに示すように短縮されたフレームF”1, F”2, F”3, ...がサウンドデバイス18に与えられることになる。そのため、サウンドデバイス18での各短縮フレームの再生時間もLf−Lpになる。即ち、通常、サウンドデバイス18が音声データ列を受け取る時間間隔がLであったのが、Lf−Lpの信号の再生時には間隔がLf−Lpになる。この結果、音声パケット復号部13も、通常1フレーム長Lfの時間間隔よりも短い間隔で受信バッファ12に対して次の送信要求を出すので、パケット受信部11が一定の間隔でパケットを受信していれば、受信バッファに蓄積されるパケット量は平均として減ることになる。平均として減るとは、Lp<Lfであるので、1回のフレーム波形短縮処理では、受信バッファに蓄積されるパケット量の減少分は1フレーム分には満たない。複数フレーム(Nとする)にわたってフレーム波形短縮部22を通ると、Nよりも小さいMフレーム分受信バッファに蓄積されるパケット量が減少する。
図13の行Dに示す例では、フレーム短縮部22を通すことにより、同じ時間TMの間にパケットを10個消費することを表わしている。このようにパケットの消費量を大きくすることにより、受信バッファ12に蓄えられるパケットの数を少なくすることができる。
制御部16により、より高度なバッファ量制御が可能である。例えば、状態検出部14からのバッファ量Sと最大遅延ゆらぎJに基づいて、受信バッファに蓄積するパケットの量を増やすべき、減らすべきと判断する際に、緊急に増やすべき/ゆるやかに増やすべき、緊急に減らすべき/ゆるやかに減らすべき、という増減速度を判断に加えることができる。具体的には、通信網の状態が突然悪化したときに、受信バッファに蓄積するパケットの量をゆるやかに増やしていたのでは、音声の途切れが発生してしまうかもしれない。通信網の状態変化が急激であれば、バッファに蓄積するパケット量の制御も緊急に行うべきである。逆に、一般にドリフトと言われる、送信側と受信側のクロックずれやタイミングのわずかなずれの蓄積により、バッファに蓄積するパケット量が徐々に所望の量より増えてきてしまった、あるいは減ってきてしまったという場合には、ゆるやかに増減すればよい。
緊急に増減が必要な場合は、音声区間、非音声区間にかかわらず、消費量調整部20のスイッチSW1、SW2をそれぞれ端子A1、A2側、あるいは端子C1、C2側にセットして、迅速な波形伸縮を行うことによって、パケット蓄積量の増減も迅速に制御することができる。逆に、ゆるやかな増減でよい場合は、音声分析部15における音声/非音声判定の結果、非音声フレームにおいてのみスイッチSW1、SW2をそれぞれ端子A1、A2側、あるいは端子C1、C2側にセットするという方法でもよい。さらに、非音声フレームの場合には、ピッチ長を実際にピッチ分析した値ではなく、フレーム長Lfの1/2以下の任意の値に設定してよいので、よりゆるやかな増減の場合には、任意に設定するピッチ長を短い値にするとよい。
図14は図3の構成において図6に示した音声分析部15による音声/非音声判定結果と、状態検出部14により検出した現受信パケットに対し過去T秒間(例えば2秒間)における最大遅延ゆらぎJと、受信バッファ12内の蓄積パケット数Sとに基づいて、バッファ量の調整が緊急を要するかその緊急度を判定する手順の例を示す。
ステップS1:状態検出部14における最大遅延ゆらぎJを受信バッファ12内の各パケットの受信時刻から求める。
ステップS2:制御部16により最大遅延ゆらぎJに対応する最適バッファ量Bを図4の表16Tを参照して決める。
ステップS3:状態検出部14により現時点における受信バッファ12のバッファ量(蓄積されているパケット数)Bを求める。
ステップS4:制御部16により決定した最適バッファ量Bと状態検出部14により検出した実際のバッファ量Sとの差の絶対値|S−B|が予め決めた正の値Eより小であるか判定し、小であればバッファ量の調整は必要ないものと判断し、現状を維持する(これを緊急度0と定義する)。
ステップS5:差の絶対値|S−B|がEより小でない場合は、バッファ量の調整が必要であることを意味し、差S−Bが−E以下であるが判定する。−E以下であることはバッファ量を増大する必要があることを意味し、以下のステップS6,S7を実行してバッファ量を増大する緊急度を判定する。S−Bが−E以下でない場合はS−BがE以上であり、バッファ量を減少する必要があることを意味し、以下のステップS8,S9を実行してバッファ量を減少する緊急度を判定する。
ステップS6:現時点のバッファ量Sが0以上でかつ最適バッファ量Bの20%以下であるか判定し、もしそうであればバッファ量の調整(ここでは増大)の緊急度が大であると判定する。なお、Bが1以上でSが0のとき、即ちバッファが枯渇して音切れの危険がある状態もこのステップで緊急度が大であると判定される。
ステップS7:現時点のバッファ量Sが最適バッファ量Bの20%より大で、かつ50%以下であるか判定する。そうであればバッファ量調整の緊急度は中と判定し、そうでなければ緊急度は小と判定する。
ステップS8:S−B<−Eの場合はバッファ量を増加する必要があり、現時点のバッファ量Sが最適バッファ量Bの200%以上であるか判定する。もしそうであれば、緊急度大と判定する。
ステップS9:SがBの200%以上でない場合は、SがBの200%より小で、かつ150%以上であるか判定し、もしそうであれば、緊急度は中であると判定し、そうでなければ緊急度は小であると判定する。
制御例1
図15に示す表1は、図14の手順により判定した緊急度(大、中、小、0)と、音声/非音声判定結果に基づいて制御部16が実行する消費量調整部20の第1の制御例を示す。
判定結果が緊急度大の場合、音声信号の音声/非音声判定結果にかかわらず、スイッチSW1,SW2を、バッファ量を増すべきときは端子A1,A2側に、バッファ量を減らすべきときは端子C1,C2側に制御して現フレームの復号音声データ列に対し、伸張/短縮処理を必ず行う。判定結果が緊急度中の場合も緊急度大の場合と同じ制御を行う。
判定結果が緊急度小の場合は、現フレームの復号音声データ列が音声区間であればスイッチSW1,SW2を端子B1,B2に固定して伸張/短縮を行わず、非音声区間であれば、スイッチSW1,SW2を、バッファ量を増すべきときは端子A1,A2側に、バッファ量を減らすべきときはC1,C2側にセットする。
制御例2
図16に示す表2は、図14の手順により判定した緊急度(大、中、小、0)と、音声/非音声判定結果に基づいて制御部16が実行する消費量調整部20の第2の制御例を示す。この制御例は第1の制御例に比べて、緊急度が小のときの音声区間でN1フレームに1回の割合でA1,A2側又はC1,C2側にスイッチSW1,SW2をセットし、それ以外のフレームではB1,B2側にセットしている。これは音声の状態(通話環境)によっては、非音声区間がまったく検出されない場合が想定されるため、非音声区間が検出されない場合でも、バッファ量を変更できるようにしたものである。N1の値は1以上の整数であるが、例えばN1=5とする。その他は第1の制御例と同様である。
制御例3
図17に示す表3は、制御部16が実行する消費量調整部20の第3の制御例を示す。この例は、図16に示した第2の制御例における緊急度が中の制御を緊急度が大の制御と異ならしており、音声区間ではN2フレームに1回の割合でA1,A2側又はC1,C2側にスイッチSW1,SW2をセットし、それ以外のフレームではB1,B2側にセットする。N2の値は1以上の整数であるが、N1より小さい(即ちA1,A2側又はC1,C2側にセットする頻度が制御例2の対応する制御より小さい)例えばN2=2とするのが好ましい。その他は第2の制御例と同様である。
制御例4
図18に示す表4は、制御部16が実行する消費量調整部20の第4の制御例を示す。この制御例では、緊急度と音声/非音声区のすべての組に対応してそれぞれ予め決めたフレーム数ごとに1回の割合でスイッチSW1,SW2をA1,A2側又はC1,C2側にセットし、それ以外ではB1,B2側にセットする汎用的な手法を定義している。即ち、緊急度が小と大の場合の音声区間での制御は図17の第3制御例と同様であるが、さらに緊急度が大の場合には音声区間/非音声区間にかかわらずN3フレームごとに1回の割合でスイッチSW1,SW2をA1,A2側又はC1,C2側にセットする。また、緊急度が中の場合は、非音声区間においてN4フレームごとに1回の割合でスイッチSW1,SW2をA1,A2側又はC1,C2側にセットし、それ以外のフレームではB1,B2側にセットし、緊急度が小の場合は、非音声区間においてN5フレームごとに1回の割合でスイッチSW1,SW2をA1,A2側又はC1,C2側にセットし、それ以外のフレームではB1,B2側にセットする。
N3の値は1以上の整数であり、例えばN3=1とする。N4の値は1以上の整数であり、例えばN4=1とする。N5の値は1以上の整数であり、例えばN5=2とする。これらの値N1〜N5を適切に選ぶことにより、音質の低下(違和感の増加)とバッファ量の変更速度のバランスを調整することができる。
第2実施例
図6に示した音声分析部15では、固定の閾値PthとフレームパワーPfを比較することにより現フレームの復号音声信号が音声区間であるか非音声区間であるかの判定を行っている。この構成は簡便でよいが、復号音声信号にレベルの高い背景雑音(空調騒音やオフィスのざわつき、街頭騒音など)が含まれている場合に、音声区間/非音声区間を正確に判定できない場合がある。音声/非音声判定に背景雑音を考慮することによりこの点を改善した構成を図19に示す。
図19に示す音声分析部15の構成は、図6の構成に対しさらに動的パワー閾値計算部150が設けられ、ピッチ相関計算部158においてはピッチ分析を行ってピッチ長Lpを求めると共にピッチ相関値(相関ピーク値)rを求める。動的パワー閾値計算部150は所定時間(例えば数秒乃至数十秒)過去に遡った範囲内のそれぞれのフレームのパワーPfの系列とそれぞれのフレームについて求めたピッチ相関値rを用いてパワー閾値Pdを動的に決定する。例えば、ピッチ相関rが高いフレーム、例えばr≧0.7のフレームはほぼ確実に音声区間であるとみなしてそれらのフレームのパワーの長時間平均Pav1を計算することにより音声信号レベルが推定される。
一方、ピッチ相関rが低いフレーム、例えばr≦0.4のフレームは、音声区間でない(即ち、背景雑音)か、音声区間の無声音区間(有声音区間でない)と推定される。背景雑音か無声音かの正確な区別は難しいが、無声音区間は相対的に少ないとみなせば、当該背景雑音か無声音区間とみなされるフレームのパワーの長時間平均Pav2を計算することによって、非音声区間の信号レベルが推定される。もちろん、背景雑音と無声音を区別して、背景雑音のフレームのみでパワーの長時間平均を計算できるほうが好ましいので、ピッチ相関値rが低いフレームでも、フレームパワーの時系列の定常性を観測して、定常性の低い区間は無声音区間とみなし、上記パワーの長時間平均の計算から除外してもよい。
動的パワー閾値計算部150では、推定された音声信号レベルPav1と、非音声区間(即ち、背景雑音区間)の信号レベルPav2に基づいて、動的パワー閾値Pdを動的に決定、更新する。例えば、動的パワー閾値PdはレベルPav1とPav2の間の値に選ぶが、好ましくは非音声区間のレベル値Pav2よりわずかに大きい値に決めるのがよい。区間判定部154は、フレームのパワーPfが動的パワー閾値Pdよりも大きければそのフレームを音声区間と判定し、そうでなければ非音声区間と判定する。
上述の第2実施例による判定結果は、前述の図15〜18に示した第1乃至第4制御例のいずれに適用してもよい。
第3実施例
前述の第1及び第2実施例では各フレームが音声区間か非音声区間かの2通りに判定していたが、この実施例では音声区間が有声音区間であるか無声音区間であるか区別し、非音声区間が背景雑音区間であるか無音区間であるか区別する。従って、各フレームを、有声音、無声音、背景雑音、無音の4通りに判定し、その判定に基づいて消費量調整部20を制御する。そのための音声分析部15の構成を図20に示す。
図20に示す音声分析部15の構成は、図19に示した構成において区間判定部154にもピッチ相関値rを与え、区間判定部154においてパワー閾値として動的パワー閾値Pdと固定パワー閾値Pthの両方を使用し、フレームパワーPfとピッチ相関値rからフレームが上記4通りのいずれの区間かを判定する。
図21は区間判定の処理手順を示す。
ステップS1:フレームのパワーPfが固定閾値Pth以下か判定し、そうであれば無音区間と判定する。
ステップS2:PfがPth以下でない場合は、フレームパワーPfが動的パワー閾値Pd以下か判定し、そうであれば背景雑音区間と判定する。
ステップS3:PfがPd以下でない場合は、ピッチ相関値rが予め決めた正の値Rc以下か判定し、そうであれば音声区間の無声音区間と判定し、そうでなければ音声区間の有声音区間と判定する。
図22に示す表5は、図14の手順により判定した緊急度(大、中、小、0)と、図21の処理による区間判定結果に基づいて制御部16が実行する消費量調整部20の制御例を示す。この制御例では、緊急度が大と判定された場合は、区間判定結果に関係なく無条件で消費量調整部20のスイッチSW1,SW2を端子A1,A2側又はC1,C2側にセットする。
緊急度が中と判定された場合は、判定結果が有声音、無声音、背景雑音、無音、に対しそれぞれ予め決めた整数値N6, N7, N8, N9のフレーム数ごとに1フレームの割合でスイッチSW1,SW2を端子A1,A2側又はC1,C2側にセットする。予め決めた整数値としては例えばN6=2, N7=2, N8=1, N9=1を使用することができるが、これらに限定されるものでない。
緊急度が小と判定された場合も同様に、判定結果が有声音、無声音、背景雑音、無音、に対しそれぞれ決めた整数値N10, N11, N12, N13のフレーム数ごとに1フレームの割合でスイッチSW1,SW2を端子A1,A2側又はC1,C2側にセットする。予め決めた整数値としては例えばN10=5, N11=4, N12=4, N13=2を使用することができるが、これらに限定されるものでない。
整数値N6〜N13を適切に選択することにより、音質の低下(違和感の増加)とバッファ量の変化速度のバランスを調整することができる。
尚、上述の各実施例ではサウンドデバイス18を終段に接続した実施例を説明したが、受信した音声データ列を蓄積するだけの場合もあり、必ずしも音声を再生しない場合もある。
以上説明した本発明の音声パケット再生方法はコンピュータに本発明による音声パケット再生プログラムを実行させることにより実現することができ、またコンピュータに本発明による音声パケット再生プログラムをインストールし、CPUに解読させて実行させることにより、コンピュータによって本発明の音声パケット再生装置を構築することができる。本発明による音声パケット再生プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク或はCD−ROMのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールするか、或は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられたCPUに解読されて音声パケット再生動作を実行する。
IP通信網上で音声通信を行う利用形態が普及してきており、本発明を適用することによって、安価で信頼性の高い音声通信が実現できる。

Claims (14)

  1. 入力音声データ列のフレーム毎の符号化により生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生方法であり、以下のステップを含む:
    (a) 受信パケットを受信バッファに蓄積し、
    (b) 上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最大値又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるバッファ蓄積パケット数とを検出し、
    (c) 上記最大遅延ゆらぎから、予め決めた最大遅延ゆらぎと最適蓄積パケット数の関係を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、を求め、
    (d) 上記検出したバッファ蓄積パケット数と上記最適蓄積パケット数の相違の程度を複数の段階で判定し、
    (e) 上記受信バッファから現フレームに対応するパケットを取り出し、そのパケット中の音声符号を復号して現フレームの復号音声データ列を得て、
    (f)上記相違の程度の段階ごとに定めた規則に基づいて、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように、上記復号音声データ列に対しその波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する。
  2. 請求項1記載の音声パケット再生方法において、上記ステップ(f) は、
    (f-1) 上記復号音声データ列についてのピッチ長を求めるステップと、
    (f-2) 上記音声データ列を分析して音声区間であるか非音声区間であるかを判定する音声非音声判定ステップと、
    (f-3) 上記音声非音声判定結果と、上記相違の程度の段階の判定結果とに基づいて、上記復号音声データ列に対し上記ピッチ長に対応する波形を挿入又は削除するか又は上記復号音声データ列を変更しないことにより伸張、短縮又は現状維持の処理を行うステップ、
    とを含む。
  3. 請求項2記載の音声パケット再生方法において、
    上記ステップ(d) は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、
    上記ステップ(f-3) は、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段階が緊急度小の場合は、上記復号音声データ列が非音声区間の場合にのみ上記復号音声データ列の波形の伸張又は短縮を実行するステップを含む。
  4. 請求項2記載の音声パケット再生方法において、
    上記ステップ(d) は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、
    上記ステップ(f-3) は、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段階が緊急度小の場合は、上記復号音声データ列が音声区間の場合には予め決めたフレーム数N1毎に1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行し、上記復号音声データ列が非音声区間の場合には予め決めたフレーム数N2ごとに1回の割合で上記音声復号データ列の波形の伸張又は短縮を実行するステップを含み、上記N1及びN2は1以上の整数であり、かつN2はN1より小である。
  5. 請求項1記載の音声パケット再生方法において、上記ステップ(f) は、
    (f-1) 上記復号音声データ列についてのピッチ長を求めるステップと、
    (f-2) 上記復号音声データ列を分析して有声音区間、無声音区間、背景雑音区間、無音区間のいずれであるか区間判定するステップと、
    (f-3) 上記区間判定結果と、上記相違の程度の段階の判定結果とに基づいて、上記復号音声データ列に対し上記ピッチ長に対応する波形を挿入又は削除するか又は上記復号音声データ列を変更しないことにより伸張、短縮又は現状維持の処理を行うステップ、
    とを含む。
  6. 請求項5記載の音声パケット再生方法において、
    上記ステップ(d) は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、
    上記ステップ(f-3) は、上記段階が緊急度大の場合は、上記区間判定結果にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行し、上記段階が緊急度小の場合は、上記有声音区間、上記無声音区間、上記背景雑音区間、上記無音区間に対しそれぞれ予め決めたフレーム数N1, N2, N3, N4毎に1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行するステップを含み、上記N1, N2, N3, N4は正の整数であり、それらのうち少なくとも1つは2以上でかつ他の3つとは異なる値である。
  7. 入力音声データ列のフレーム毎の符号化により生成された音声符号を収容して送信された一連の音声パケットを受信して再生する音声パケットの再生装置であり、
    音声パケットをパケット通信網から受信するパケット受信部と、
    受信したパケットを一時的に蓄積し、要求に応じてパケットを読み出す受信バッファと、
    上記受信パケットの到着時間のゆらぎを一定期間観測して得られるゆらぎの最大値又は統計値、以下最大遅延ゆらぎと呼ぶ、と上記受信バッファに蓄積されているパケット数であるバッファ蓄積パケット数を検出する状態検出部と、
    上記最大遅延ゆらぎから、予め決めた最大遅延ゆらぎと最適蓄積パケット数の関係を用いて、上記受信バッファに蓄積すべき最適なパケット数、以下最適蓄積パケット数と呼ぶ、を求め、上記検出したバッファ蓄積パケット数と上記最適パケット数の相違の程度を複数の段階で判定し、上記相違の程度の段階ごとに予め定めた規則に基づいて、上記バッファ蓄積パケット数を上記最適蓄積パケット数に近づけるように波形の伸張、短縮、又は現状維持を指示する制御信号を生成する制御部と、
    上記受信バッファから取り出された現フレームに対応するパケット中の音声符号を復号して現フレームの復号音声データ列を得る音声パケット復号部と、
    上記制御信号に従って、上記現フレームの復号音声データ列に対し、その波形の伸張、短縮又は現状維持のいずれかの処理を行い、現フレームの再生音声データとして出力する消費量調整部、
    とを含む。
  8. 請求項7記載の音声パケット再生装置において、
    上記音声分析部は上記復号音声データ列を分析して音声区間であるか非音声区間であるか判定してその判定結果を上記制御部に与えると共に、上記復号音声データ列についてのピッチ長を求めて上記消費量調整部に与えるようにされており、
    上記制御部は上記判定結果と、上記相違の程度の段階の判定結果とに基づいて上記消費量調整部に対し、現フレームの上記復号音声データ列の伸張、短縮又は現状維持の制御を与えるようにされており、
    上記消費量調整部は上記制御に従って上記ピッチ長に対応する波形を上記復号音声データ列に対し挿入又は削除するか又は上記復号音声データ列を変更しないようにされている。
  9. 請求項8記載の音声パケット再生装置において、
    上記制御部は、上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記消費量調整部に対し、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与え、上記段階が緊急度小の場合は、上記復号音声データ列が非音声区間の場合にのみ上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与えるようにされている。
  10. 請求項8記載の音声パケット再生装置において、
    上記制御部は上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記段階が緊急度大の場合は、上記音声区間又は非音声区間にかかわらず上記消費量調整部に対し上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与え、上記段階が緊急度小の場合は、上記消費量調整部に対し、上記復号音声データ列が音声区間の場合には予め決めたフレーム数N1毎に1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行させ、上記復号音声データ列が非音声区間の場合には予め決めたフレーム数N2ごとに1回の割合で上記音声復号データ列の波形の伸張又は短縮を実行させる制御を与えるようにされており、上記N1及びN2は1以上の整数であり、かつN2はN1より小である。
  11. 請求項7記載の音声パケット再生装置において、上記音声分析部は上記復号音声データ列を分析して有声音区間、無声音区間、背景雑音区間、無音区間のいずれであるか区間判定してその判定結果を制御部に与えると共に、上記復号音声データ列についてのピッチ長を求めて上記消費量調整部に与えるようにされており、
    上記制御部は、上記区間判定結果と、上記相違の程度の段階の判定結果とに基づいて、上記消費量調整部に対し、現フレームの上記復号音声データ列の伸張、短縮又は現状維持の処理を実行させる制御を与えるようにされており、
    上記消費量調整部は、上記制御に従って上記ピッチ長に対応する波形を上記復号音声データ列に対し挿入又は削除するか又は上記復号音声データ列を変更しないようにされている。
  12. 請求項11記載の音声パケット再生装置において、上記制御部は上記相違の程度の段階が、上記バッファ蓄積パケット数を緊急に増加又は減少させるべき状況である緊急度大であるか、上記バッファ蓄積パケット数を緩やかに増加又は減少させるべき状況である緊急度小であるかを判定し、上記消費量調整部に対し、上記段階が緊急度大の場合は上記区間判定結果にかかわらず上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与え、上記段階が緊急度小の場合は、上記有声音区間、上記無声音区間、上記背景雑音区間、上記無音区間に対しそれぞれ予め決めたフレーム数N1, N2, N3, N4毎に1回の割合で上記復号音声データ列の波形の伸張又は短縮を実行させる制御を与えるようにされており、上記N1, N2, N3, N4のうち、少なくとも1つは2以上の整数であり、かつ他の3つとは異なる値である。
  13. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1記載の音声パケット再生方法を実施させる音声パケット再生プログラム。
  14. コンピュータが読取り可能な記録媒体によって構成され、この記録媒体に請求項13記載の音声パケット再生プログラムを記録した記録媒体。
JP2006513918A 2004-05-26 2005-05-25 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 Active JP4146489B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004156069 2004-05-26
JP2004156069 2004-05-26
PCT/JP2005/009569 WO2005117366A1 (ja) 2004-05-26 2005-05-25 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JPWO2005117366A1 true JPWO2005117366A1 (ja) 2008-04-03
JP4146489B2 JP4146489B2 (ja) 2008-09-10

Family

ID=35451246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006513918A Active JP4146489B2 (ja) 2004-05-26 2005-05-25 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体

Country Status (5)

Country Link
US (1) US7710982B2 (ja)
EP (1) EP1750397A4 (ja)
JP (1) JP4146489B2 (ja)
CN (1) CN1926824B (ja)
WO (1) WO2005117366A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015076741A (ja) * 2013-10-09 2015-04-20 日本電信電話株式会社 音声パケット再生装置とその方法とプログラム

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672742B2 (en) * 2005-02-16 2010-03-02 Adaptec, Inc. Method and system for reducing audio latency
US8411662B1 (en) 2005-10-04 2013-04-02 Pico Mobile Networks, Inc. Beacon based proximity services
US20070115916A1 (en) * 2005-11-07 2007-05-24 Samsung Electronics Co., Ltd. Method and system for optimizing a network based on a performance knowledge base
US8832540B2 (en) * 2006-02-07 2014-09-09 Nokia Corporation Controlling a time-scaling of an audio signal
JP2007235221A (ja) * 2006-02-27 2007-09-13 Fujitsu Ltd 揺らぎ吸収バッファ装置
US7830794B2 (en) * 2006-03-29 2010-11-09 Intel Corporation Method and apparatus for improved isochronous data delivery over non-isochronous communication fabric
US20070294087A1 (en) * 2006-05-05 2007-12-20 Nokia Corporation Synthesizing comfort noise
US8239190B2 (en) 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8483243B2 (en) * 2006-09-15 2013-07-09 Microsoft Corporation Network jitter smoothing with reduced delay
US8311814B2 (en) * 2006-09-19 2012-11-13 Avaya Inc. Efficient voice activity detector to detect fixed power signals
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
US7647229B2 (en) * 2006-10-18 2010-01-12 Nokia Corporation Time scaling of multi-channel audio signals
JP4894476B2 (ja) * 2006-11-21 2012-03-14 富士通東芝モバイルコミュニケーションズ株式会社 音声送信装置および移動通信端末
US8279884B1 (en) * 2006-11-21 2012-10-02 Pico Mobile Networks, Inc. Integrated adaptive jitter buffer
JP5046661B2 (ja) * 2007-01-23 2012-10-10 アルパイン株式会社 オーディオ装置
US20080222636A1 (en) * 2007-03-05 2008-09-11 David Tzat Kin Wang System and method of real-time multiple-user manipulation of multimedia threads
JP2009047914A (ja) * 2007-08-20 2009-03-05 Nec Corp 音声復号化装置、音声復号化方法、音声復号化プログラムおよびプログラム記録媒体
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US20100290454A1 (en) * 2007-11-30 2010-11-18 Telefonaktiebolaget Lm Ericsson (Publ) Play-Out Delay Estimation
US8589720B2 (en) * 2008-04-15 2013-11-19 Qualcomm Incorporated Synchronizing timing mismatch by data insertion
JPWO2009150894A1 (ja) * 2008-06-10 2011-11-10 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
US9380401B1 (en) 2010-02-03 2016-06-28 Marvell International Ltd. Signaling schemes allowing discovery of network devices capable of operating in multiple network modes
JP5440272B2 (ja) * 2010-03-08 2014-03-12 富士通株式会社 プッシュ信号の伝送状況判定方法、プログラム及び装置
US8532804B2 (en) * 2010-06-18 2013-09-10 Microsoft Corporation Predictive resampler scheduler algorithm
JP5734517B2 (ja) 2011-07-15 2015-06-17 華為技術有限公司Huawei Technologies Co.,Ltd. 多チャンネル・オーディオ信号を処理する方法および装置
KR102058714B1 (ko) 2011-10-20 2019-12-23 엘지전자 주식회사 지터 버퍼 관리 방법 및 이를 이용하는 지터 버퍼
US9286907B2 (en) * 2011-11-23 2016-03-15 Creative Technology Ltd Smart rejecter for keyboard click noise
US9094254B2 (en) 2012-11-15 2015-07-28 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for antenna array calibration using traffic signals
US9025575B2 (en) * 2012-11-15 2015-05-05 Telefonaktiebolaget Lm Ericsson (Publ) Antenna array calibration using traffic signals
JP6123315B2 (ja) * 2013-02-01 2017-05-10 沖電気工業株式会社 音声受信再生装置
JP2014167525A (ja) * 2013-02-28 2014-09-11 Mitsubishi Electric Corp 音声復号装置
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
KR20170059757A (ko) * 2015-11-23 2017-05-31 삼성전자주식회사 영상 신호 송신 장치, 그의 영상 신호 송신 방법, 영상 신호 수신 장치 및 그의 영상 신호 수신 방법
EP3465952B1 (en) 2016-05-24 2020-09-09 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for antenna array calibration using on-board receiver
US10686897B2 (en) * 2016-06-27 2020-06-16 Sennheiser Electronic Gmbh & Co. Kg Method and system for transmission and low-latency real-time output and/or processing of an audio data stream
US10290303B2 (en) * 2016-08-25 2019-05-14 Google Llc Audio compensation techniques for network outages
US9779755B1 (en) * 2016-08-25 2017-10-03 Google Inc. Techniques for decreasing echo and transmission periods for audio communication sessions
CN106534980B (zh) * 2016-11-15 2019-12-06 广州华多网络科技有限公司 音频处理系统的异常检测方法、日志记录方法及装置
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
JP6388048B1 (ja) * 2017-03-23 2018-09-12 カシオ計算機株式会社 楽音生成装置、楽音生成方法、楽音生成プログラム及び電子楽器
US10972193B2 (en) 2017-09-06 2021-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for antenna array calibration with interference reduction
CN109561347B (zh) * 2017-09-27 2022-01-25 中国移动通信集团山东有限公司 一种互联网视频播放质量判定方法及系统
US11184065B2 (en) 2017-10-31 2021-11-23 Telefonaktiebolaget Lm Ericsson (Publ) Orthogonal training signals for transmission in an antenna array
US10728180B2 (en) * 2018-08-21 2020-07-28 At&T Intellectual Property I, L.P. Apparatus, storage medium and method for adaptive bitrate streaming adaptation of variable bitrate encodings
TWI721522B (zh) 2019-08-12 2021-03-11 驊訊電子企業股份有限公司 音訊處理系統及方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2612868B2 (ja) 1987-10-06 1997-05-21 日本放送協会 音声の発声速度変換方法
US5694521A (en) * 1995-01-11 1997-12-02 Rockwell International Corporation Variable speed playback system
US5623483A (en) * 1995-05-11 1997-04-22 Lucent Technologies Inc. Synchronization system for networked multimedia streams
US5809454A (en) * 1995-06-30 1998-09-15 Sanyo Electric Co., Ltd. Audio reproducing apparatus having voice speed converting function
US6072809A (en) * 1997-08-14 2000-06-06 Lucent Technologies, Inc. Statistical method for dynamically controlling the playback delay of network multimedia streams
KR100722707B1 (ko) 1999-01-06 2007-06-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 멀티미디어 신호를 전송하기 위한 전송 시스템
US6377931B1 (en) * 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
JP4110734B2 (ja) 2000-11-27 2008-07-02 沖電気工業株式会社 音声パケット通信の品質制御装置
JP2003050598A (ja) 2001-08-06 2003-02-21 Mitsubishi Electric Corp 音声復号装置
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015076741A (ja) * 2013-10-09 2015-04-20 日本電信電話株式会社 音声パケット再生装置とその方法とプログラム

Also Published As

Publication number Publication date
CN1926824B (zh) 2011-07-13
EP1750397A4 (en) 2007-10-31
US20070177620A1 (en) 2007-08-02
JP4146489B2 (ja) 2008-09-10
EP1750397A1 (en) 2007-02-07
WO2005117366A1 (ja) 2005-12-08
CN1926824A (zh) 2007-03-07
US7710982B2 (en) 2010-05-04

Similar Documents

Publication Publication Date Title
JP4146489B2 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
EP1243090B1 (en) Method and arrangement in a communication system
JP4630876B2 (ja) 話速変換方法及び話速変換装置
US8340973B2 (en) Data embedding device and data extraction device
KR20070065876A (ko) 인터넷 프로토콜을 통한 음성통화용 적응성 디-지터 버퍼
KR100262721B1 (ko) 수신 데이터 신장장치
WO2005109401A1 (ja) 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム
KR101952192B1 (ko) 품질 제어를 이용하는 오디오 디코더, 방법 및 컴퓨터 프로그램
JPH07319496A (ja) 入力音声信号の速度を変更する方法
JP2004361731A (ja) オーディオ復号装置及びオーディオ復号方法
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
JP3891755B2 (ja) パケット受信装置
JP4558734B2 (ja) 信号復号化装置
JP3784583B2 (ja) 音声蓄積装置
JP4022111B2 (ja) 信号符号化装置及び信号符号化方法
JPH07334191A (ja) パケット音声復号方法
JP5074749B2 (ja) 音声信号受信装置、それに使用される音声パケット消失補償方法、その方法を実施するプログラム、及びそのプログラムを記録した記録媒体
JP2003050598A (ja) 音声復号装置
JP2006135657A (ja) データ受信装置及びデータ受信方法
JP4212253B2 (ja) 話速変換装置
JPH0845177A (ja) 話速変換装置
JP2005316499A (ja) 音声符号化装置
JP4597360B2 (ja) 音声復号装置及び音声復号方法
JPH08147874A (ja) 話速変換装置
JPH07192392A (ja) 話速変換装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080610

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080619

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4146489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130627

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140627

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350