JPWO2005109402A1 - 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体 - Google Patents

音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体 Download PDF

Info

Publication number
JPWO2005109402A1
JPWO2005109402A1 JP2006516897A JP2006516897A JPWO2005109402A1 JP WO2005109402 A1 JPWO2005109402 A1 JP WO2005109402A1 JP 2006516897 A JP2006516897 A JP 2006516897A JP 2006516897 A JP2006516897 A JP 2006516897A JP WO2005109402 A1 JPWO2005109402 A1 JP WO2005109402A1
Authority
JP
Japan
Prior art keywords
sound quality
audio signal
complementary
level
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006516897A
Other languages
English (en)
Other versions
JP4320033B2 (ja
Inventor
岳至 森
岳至 森
仲 大室
仲 大室
祐介 日和▲崎▼
祐介 日和▲崎▼
片岡 章俊
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2005109402A1 publication Critical patent/JPWO2005109402A1/ja
Application granted granted Critical
Publication of JP4320033B2 publication Critical patent/JP4320033B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

入力音声を符号化部(11)で符号化し、この符号化音声を復号化部(12)で復号化し、補完音声作成部(20)で過去の復号音声を用いて現フレームの音声を補完する補完音声を作成し、音質判定部(40)で入力音声と補完音声を用いて補完音声の音質を評価し、その音質評価値が低い程、段階的に大きな値をとる重複レベルを作り、パケット作成部(15)で符号化音声に対し、重複レベルで指定される数の同一のパケットを作成して送信することにより受信側でパケットロスの生じる可能性を小さくする。

Description

この発明は、IP(インターネットプロトコル)ネットワークでの音声パケット送信方法、装置、及びその方法を実行するプログラムとそれを記録した記録媒体に関する。
現在インターネットではIP(Internet Protocol)(非特許文献1参照)パケットにより電子メールやWWW(World Wide Web)等さまざまな通信が行われている。
現在広く使われているインターネットはベストエフォート型のネットワークであり、パケットが確実に送信先に到着する保証がないため、TCP(Transmission Control Protocol)(非特許文献2参照)プロトコルなどによる再送制御を実現した通信により確実なパケット通信を行うことが多い。しかしVoIP(Voice over Internet Protocol)など通信のリアルタイム性が重要となる場合には、パケットロス発生時に再送制御により紛失パケットを求めると、パケットの到着が大きく遅れるために、受信バッファにおける蓄積状態のパケット数を大きく設定しなければならず、リアルタイム性が損なわれてしまうという問題がある。そのためVoIPなどでは再送制御を行わないUDP(User Datagram Protocol)(非特許文献3参照)プロトコルにより通信が行われることが多いが、ネットワークの輻輳時にパケットロスが発生し、音質の劣化が生じてしまう問題があった。
パケットを再送することなく音質劣化を防止する従来手法として、送信時にパケット損失率に応じて同じパケットを重複送信しパケット到着確率を上げることで、音切れを防止する手法があるが(特許文献1参照)パケットロスが頻繁に発生するのはネットワークの輻輳時であり、この状態で過剰にパケットを重複送信すると送信情報量の増加や送信パケット数の増加によりネットワークの更なる輻輳を招きパケットロスが更に増加してしまう問題がある。また、パケット損失率が高い状態の間は絶えずパケットを重複送信するためネットワーク送信インタフェースに過剰に負荷がかかってしまい、パケットの送信遅延を招いてしまうといった問題があった。
また、遅延を増やさずにパケットロスによる音質劣化を防止する手法として、音声データの補完手法があり、例えば消失部分のデータを過去のピッチ区間のデータを繰り返すことで補完するG.711 appendix I(非特許文献4参照)があるが、この方法では音声の立ち上がり区間のような信号が急激に変化している領域の音声データが欠落したときに、音声パワ、ピッチが元音声と異なるデータを過去から合成してしまうために異音が発生してしまうという問題があった。
受信側でパケットロスが生じることを送信側で予め想定し、送信側で現フレーム中のピッチ長の音声波形の繰り返しにより音声波形を合成し、その合成音声波形の次フレームの原音声波形に対する品質が閾値より小さければ、現フレームの音声符号と共に次フレームの圧縮音声符号をサブフレーム符号としてパケットにより送信することが提案されている(特許文献2)。この方法によれば、受信側では、現フレームのパケットロスが生じた場合、その前後のフレームのパケットにサブフレーム符号が含まれていなければ前フレーム中の1ピッチ長の波形から現フレームを合成し、もしサブフレーム符号が含まれていればそれを復号して使用する。いずれにしても原音声信号より品質の低下した音声波形が生じることになるが、補完波形の品質が規定より悪い場合に、現フレームに加えて前後パケットにサブコーデックの情報を加える方式のため、サブコーデックの情報を前後のパケットにより送信しても、3連続以上のパケットロスが発生すると、現フレームに対する符号化情報及びサブコーデックの符号化情報が共に利用できなくなり、復号音声の音質が劣化してしまう問題があった。
特開平11−177623号公報 特開2003−249957号公報 "Internet Protocol",RFC791,1981. "Transmission Control Protocol",RFC793,1981. "User Datagram Protocol",RFC768,1980. ITU−T Recommendation G.711 Appendix I,"A high quality low−complexity algorithm for packet loss concealment with G.711",pp.1−18,1999. J.Nurminen,A.Heikkinen & J.Saarinen,"Objective evaluation of methods for quantization of variable−dimension spectral vectors in WI speech coding,"in Proc.Eurospeech 2001,Aalborg,Denmark,Sep.2001,pp.1969−1972
この発明は、上述の問題点に鑑みてなされたものであり、リアルタイム性が重要となる双方向音声通信を行う際に、遅延やネットワークへの過剰な通信負荷を抑えながら音声再生に重要なフレームデータのロスの発生を抑え、再生音質の劣化を軽減することができる音声パケット送信方法、その装置、およびプログラムの記録媒体を提供することを目的とする。
この発明によれば現処理フレーム音声信号を除いた音声信号から現処理フレーム音声信号に関する補完音声信号を作成し、その補完音声信号の音質評価値を計算し、この音質評価値に基づき、補完信号の音質が悪いほど段階的に大きな値をとる重複レベルを求め、この重複レベルにより指定される数だけ同一の音声パケットを作成し、この同一の音声パケットをネットワークに送信する。
この発明の構成によれば、補完音声信号により十分な再生音質が確保できないフレーム音声信号のみ重複送信されることになり、パケットロスが音声信号のうちどのタイミングで発生しても、パケット遅延を増加させることなく、かつネットワークに過剰な負荷をかけることなく、受信側で音質のよい再生音声信号を得ることができる。
[図1]図1Aはこの発明の音声パケット送信装置の第1実施形態の機能構成例を示すブロック図であり、図1Bはパケットの構成例を示す図。
[図2]図1A中の補完音声作成部20の具体的機能構成例を示すブロック図。
[図3A]波形合成方法を説明するための図。
[図3B]ピッチがフレームより長い場合の波形合成方法を説明するための図。
[図4]波形合成方法の他の例を説明するための図。
[図5]図5Aは図4において波形を接続するための一方の重み関数の例を示す図であり、図5Bは他方の重み関数の例を示す図。
[図6]図1中の音質判定部40の具体的機能構成例を示すブロック図。
[図7]音質評価値と重複レベルとの関係例を規定するテーブルの例を示す図。
[図8]音質評価値と重複レベルとの関係例を規定するテーブルの他の例を示す図。
[図9]音質評価値と重複レベルとの関係を規定するテーブルの更に他の例を示す図。
[図10]図1における音質判定部40の他の構成例を示す図。
[図11]図10の音質判定部を使用する場合の音質評価値と重複レベルの関係を規定するテーブルの例を示す図。
[図12]図1における音質判定部40とパケット生成部105の処理手順を示すフロー図。
[図13]図1の送信装置に対応する受信装置の機能構成例を示すブロック図。
[図14]図14Aは図13における受信パケットの処理手順を示すフロー図であり、図14Bは図13における再生音声の生成手順を示すフロー図。
[図15]この発明の音声パケット送信装置の第2実施形態の機能構成例を示すブロック図。
[図16]図15中の音質判定部40の具体的機能構成例を示すブロック図。
[図17]評価値と重複レベルとの関係を規定するテーブルの更に他の例を示す図。
[図18]図15の送信装置における音質判定部40とパケット作成部15の処理手順を示すフロー図。
[図19]図15に示した音声パケット送信装置に対応する音声パケット受信装置の機能構成例を示すブロック図。
[図20]この発明の音声パケット送信装置の第3実施形態の機能構成例を示すブロック図。
[図21]図20中の補完音声作成部20の具体的機能構成例を示すブロック図。
[図22]図20に示した送信装置に対応する受信装置の機能構成例を示すブロック図。
[図23]この発明の音声パケット送信装置の第4実施形態の機能構成を示すブロック図。
[図24]図23における補助情報作成部30の具体的構成例を示すブロック図。
[図25]図23における補完音声作成部20の具体的構成例を示すブロック図。
[図26]図23における音質判定部40の具体的構成例を示すブロック図。
[図27]評価値と重複レベル及び音質劣化レベルとの関係を規定するテーブルの例を示す図。
[図28]評価値と音質劣化レベルの関係を規定するテーブルの例を示す図。
[図29]図23の送信装置の第1動作例における音質判定部40とパケット作成部15の処理手順を示すフロー図。
[図30]図23の送信装置の第2動作例における音質判定部40とパケット作成部15の処理手順を示すフロー図。
[図31]図23の送信装置の第3動作例における音質判定部40とパケット作成部15の処理手順の前半部を示すフロー図。
[図32]図31の後半部のフロー図。
[図33]図23の送信装置の第4動作例における音質判定部40とパケット作成部15の処理手順の後半部のフロー図。
[図34]図23の送信装置に対応する受信装置の例を示すブロック図。
[図35]図34における補完音声作成部70の具体的構成例を示すブロック図。
[図36]図36Aは図34における受信パケットの処理手順を示すフロー図であり、図36Bは図34における再生音声の生成処理手順を示すフロー図。
[第1実施形態]
図1に、この発明による音声パケット送信装置の第1実施形態の機能構成例を示す。この発明では、パケットはUDP/IPプロトコルにより送受信される。UDP/IPプロトコルによれば、各パケットは図1Bに示すように、送信先アドレスDEST ADD、送信元アドレスORG ADD、RTPフォーマットによるデータを含んでいる。このRTPフォーマットにおけるデータとして音声信号のフレーム番号FR#と音声データDATAを含ませる。音声データは、入力されたPCM音声信号を符号化した符号化音声信号であっても、入力されたPCM音声信号そのままであってもよいが、この実施形態では、パケットに格納する音声データは符号化音声信号の場合である。以降の説明では1つのパケットに1フレームの音声データを格納して送信するものとして説明するが、1つのパケットに複数フレームの音声データを格納してもよい。
入力端子100からのPCM音声入力信号は符号化部11に入力されて符号化される。符号化部11における符号化アルゴリズムは入力音声信号帯域に対応可能な符号化アルゴリズムであれば良く、ITU−T G.711などの音声帯域信号(〜4kHz)用符号化アルゴリズムやITU−T G.722などの4kHz帯域以上の広帯域信号用符号化アルゴリズムなども使用することが出来る。一般に符号化方法により異なるが、1フレームの音声信号の符号化により、その符号化方法で扱う複数種類のパラメータの符号が生成されるが、ここではそれらをまとめて単に符号化音声信号と呼ぶことにする。
符号化部11から出力される符号化音声信号の符号列はパケット作成部15に送られると同時に復号化部12に送られ、復号化部12で符号化部11に対応した復号化アルゴリズムによりPCM音声信号に復号化される。復号化部12において復号化された音声信号は補完音声作成部20に送られ、補完音声作成部20において、相手の受信装置においてパケットロスが発生した場合に行われる補完処理と同様な処理により補完音声信号が作成される。補完音声信号としては、現フレームより過去のフレームの波形から外挿法で作成してもよいし、現フレームの前後のフレームの波形から内挿法で作成してもよい。
図2に補完音声作成部20の具体的機能構成例を示す。ここでは外挿法により補完音声信号を作成する。復号音声信号は入力端子201よりメモリ202の領域A0に格納される。メモリ202の各領域A0,…,A5は符号化処理の分析フレーム長のPCM音声信号が格納できるサイズを有し、例えば8kHzサンプリングの音声信号を10msごとの分析フレーム長で符号化を行う場合には、80サンプルの復号音声信号が1つの領域に格納されることになる。新たな分析フレームの復号音声信号がメモリ202に入力されるごとに、既に領域A0〜A4に格納されている過去のフレームの復号音声信号は領域A1〜A5へシフトされ、現フレームの復号音声信号が領域A0に書き込まれる。
メモリ202内に格納されている音声信号を用いて、現フレームに対する補完音声信号が紛失信号生成部203で作成される。紛失信号生成部203には、メモリ202内の0番領域A0を除いた領域A1〜A5内の音声信号が入力される。ここではメモリ202において領域A1〜A5の連続5フレームの音声信号を紛失信号生成部203に送る場合について説明しているが、メモリ202には1フレーム(1パケット)分の補完音声信号を生成するアルゴリズムに必要な過去のPCM音声信号分だけは蓄積できるメモリを用意する必要がある。紛失信号生成部203ではこの例では入力された音声信号(現フレームの信号)を除く過去の復号音声信号(この実施例では5フレーム分)から現フレームに対する音声信号を補完法により作成して出力する。
紛失信号合成部203はピッチ検出部203Aと、波形切り出し部203Bと、フレーム波形合成部203Cとから構成されている。ピッチ検出部203Aはメモリ領域A1〜A5内の一連の音声波形の自己相関値をサンプル点を順次ずらして計算し、自己相関値のピークの間隔をピッチ長として検出する。図2のように過去の複数のフレームに対するメモリ領域A1〜A5を設けておくことにより、音声信号のピッチ長が1フレーム長より長い場合でも、ここでは5フレーム長以内であればピッチを検出することができる。
図3Aではメモリ領域A0〜A5に書き込まれた音声波形データの現フレームmから過去のフレームm−3の途中までの波形例を模式的に示している。波形切り出し部203Bは検出されたピッチ長の波形3Aを現フレームより過去のフレームからコピーし、図3Aに示すように1フレーム長となるまで過去側から未来方向に向かって波形3B、3C,3Dのように繰り返し貼り付けて現フレームに対する補完音声信号を合成する。ただし、一般にフレーム長はピッチ長の整数倍とは限らないので、貼り付ける最後の波形はそのフレームの残りの区間に合わせて切り取る。また、検出されたピッチ長が1フレーム長より長い場合は、例えば図3Bに示すように、現フレームの直前の1ピッチ長の波形の過去側開始点から1フレーム長の波形3Aをコピーした波形3Bを現フレームの補完音声信号として使用する。
図4は補完音声信号の合成方法の他の例を示す。この例では検出したピッチ長よりΔL長い波形4Aを繰り返しコピーして波形4B,4C,4Dを得る。これら互いに隣接する波形の前後端でΔLだけ互いに重なるように波形を配置し、互いに重なる前後端のΔLの区間にそれぞれ図5A,5Bの重み関数W1,W2を乗算して互いに加算することにより切り出し波形を連続的に接続して1フレーム長の波形4Eを得ることができる。例えば、時点t1とt2の重なり区間では、波形4Bの後端ΔLに対し時点t0からt1にかけて図5Aに示す1から0に直線的に減少する重み関数W1を乗算し、同じ区間の波形4Cの前端ΔLに図5Bに示す0から1に直線的に増加する重み関数W2を乗算し、これら乗算結果を区間t0〜t1に渡って互いにサンプル値を加算する。他の重なり区間も同様である。
このようにして、紛失信号生成部203は直前の少なくとも1つのフレームの音声信号に基づいて1フレーム分の補完音声信号を生成し、音質判定部40に与える。紛失信号生成部203での補完音声信号生成アルゴリズムは例えば非特許文献4に示すもの、その他のものでもよい。
図1の説明に戻る。入力端子100より音声信号(原音声信号)、復号化部12の出力信号および補完音声作成部20の出力信号は音質判定部40に送られ、パケットの重複レベルLdを決定する。
図6に音質判定部40の具体例を示す。まず補完音声信号の音質を表わす評価値が評価値計算部41で計算される。ここでは入力端子100に与えられた入力音声信号(原音声信号)と、復号化部12の出力信号(復号音声信号)とから第1計算部412において現フレームの原音声信号に対する現フレームの復号音声信号の客観評価値Fw1を計算する。同様に現フレームの入力音声信号(原音声信号)と、過去のフレームの復号音声信号から作成した現フレームに対する補完音声作成部20の出力信号(補完音声信号)とから第2計算部413において原音声信号に対する補完音声信号の客観評価値Fw2を計算する。具体的には、第1計算部412と第2計算部413で計算する客観評価値Fw1、Fw2としては例えばSNR(信号対雑音比)を使用する。ここでは、第1計算部412では1フレームの原音声信号のパワーPorgを信号Sとし、1フレームの原音声信号と復号音声信号の差のパワー(両信号の対応するサンプルの値の差の2乗の1フレームにわたる総和)Pdif1を雑音Nとして次式
Fw1=10log(S/N)=10log(Porg/Pdif1) (1)
の計算を行う。各フレームのサンプル数をNとし、原音声信号及び復号音声信号のフレーム内のn番目のサンプルイ直をそれぞれx、yとすれば、Porg=Σx 、Pdif1=Σ(x−yである。ただしΣはフレーム内のサンプル番号0からN−1についての総和をあらわす。同様に、第2計算部413では、客観評価値Fw2として、1フレームの原音声信号のパワーPorgを信号Sとし、1フレームの原音声信号と補完音声信号の差のパワーPdif2を雑音Nとして、
Fw2=10log(S/N)=10log(Porg/Pdif2) (2)
の計算を行う。ただし、補完音声信号のフレーム内のn番目のサンプル値をzとすれば、Pdif2=Σ(x−zである。
信号対雑音比SNRの代わりにWSNR(重み付信号対雑音比;例えば非特許文献5:J.Nurminen,A.Heikkinen & J.Saarinen,“Objective evaluation of methods for quantization of variable−dimension spectral vectors in WI speech coding,”in Proc.Eurospeech 2001,Aalborg,Denmark,Sep.2001,pp.1969−1972.参照)、やSNRseg(セグメンタルSNR:各フレームを複数の単位区間に分割し、それらの単位区間のSNRの平均値)、WSNRseg,CD(ケプストラム距離、ここでは第1計算部412で求める原音声信号Orgと復号音声信号Decとのケプストラム距離、以下CD(Org,Dec)と表し、歪に対応する)やPESQ(ITU−T規格P.862に規定された総合評価尺度)などの評価値を使用することが出来る。また、客観評価値は1種類のみに限らず、2種類以上の客観評価値を併用しても良い。
第1計算部412および第2計算部413でそれぞれ計算された1種類以上の客観評価値を使って、第3計算部411で更に補完音声信号の音質を表わす評価値が計算されて重複送信判定部42に送られる。重複送信判定部42はこれら評価値に基づき、補完音声信号の音質が悪い程、段階的に大きな整数値となる重複レベルLdが決定される。つまり評価値により求めた音質を表わす値に応じて、離散的値をとる重複レベルLdの1つに決定される。パケットの重複レベルLdの決定方法としては、例えばWSNRを客観評価値として使用する場合、式(1)における差のパワーPdif1としてPdif1=Σ(x−yを使う代わりに聴覚重み付けした差信号の2乗和WPdif1=Σ[WF(x−y)]を使用する。WF(x−y)は差信号(x−y)に対する聴覚重み付けフィルタ処理を表している。聴覚重み付けフィルタの係数は原音声信号の線形予測係数から決めることができる。式(2)についても同様である。
第1計算部412で得られたWSNR出力をFw1、第2計算部413で得られたWSNR出力をFw2として第3計算部411でFd=Fw1−Fw2が計算され、これが評価値として重複送信判定部42に入力され、例えば図7のテーブルを参照してFdの値から重複レベルLdを決定すると効果的である。つまり復号音声信号の原音声信号に対する評価値Fw1から補完音声信号の原音声信号に対する評価値Fw2を差し引いた値Fdが大きいほど、重複レベルLdを大きくする。Fd=Fw1−Fw2が大きい程、補完音声信号の復号音声信号に対する音質が悪いから、そのような音声信号のフレームはなるべく高い確率で受信側に到着するように、同一フレームを重複して送るパケットの数を多くする。逆に、Fd=Fw1−Fw2が小さい場合は、パケットロスが生じてそのフレームの音声信号を補完音声信号で代用しても受信側の再生音声信号の品質はそれ程劣化しない。よってFd=Fw1−Fw2が小さい場合は同一フレームに対するパケットの重複送信回数Ldを小さくする。Ld=1の場合は同一フレームについてのパケットは一回のみ送信する(即ち重複送信しない)。図7のテーブルは予め実験に基づいて作成し、重複送信判定部42内のテーブル格納部42Tに設けられている。
種別が異なる複数の客観評価値を使用してもよい。例えばWSNRとCDの値を客観評価値として使用する場合、前記第1計算部412でCD(Org,Dec)も計算し、この計算したCDをFd1として、Fd=Fw1−Fw2と共に重複送信判定部42へ入力し、図8のテーブルを参照してFdの値から重複レベルLdを決定すると効果的である。原音声信号に対する復号音声信号の歪Fd1=CD(Org,Dec)が小さければ、先の場合と同様にFd=Fw1−Fw2が大きい程、重複レベルLdの値を大きくするが、Fd1が大きければ、パケットロスが生じなくても良い音質が得られないフレームであることを意味している。従って、重複レベル値Ldの値を大きくしてもその利益が得られないからLdを小さくし、かつFd=Fw1−Fw2の値によるLdの差も2段階にしか分けていない。なお、評価値計算部41で復号音声信号Decに対する補完音声信号Comのケプストラム距離CD(Dec,Com)を計算して、この値Fd2も重複レベルLdの決定に用いても良い。そのテーブルの例を図9に示す。この例は図8のテーブルにおけるFd=Fw1−Fw2が2dB未満の領域と2dB以上10dB未満の領域を10dB未満の領域1つに置き換え、この領域においてFd2が1未満の領域と1以上の領域の2つに分けたものである。
図1中のパケット作成部15では、符号化部11からの符号化音声信号を、音質判定部40から受け取ったパケット重複レベルLdの数だけ複製し、Ld個のパケットを作成して送信部16に送り、ネットワークにパケットを送信する。Ld=1の時は、パケットを重複させることなく、1個だけ送信する。
前述の図6の例においては評価値計算部41は客観評価値として原音声信号のパワーPorgと、原音声信号と復号音声信号の差のパワーPdif1とから式(1)により求めた評価値Fw1と、原音声信号のパワーPorgと、原音声信号と補完音声信号の差のパワーPdif2とから式(2)により求めた評価値Fw2との2つの評価値を使用して重複レベルLdを決める例を示したが、図10に音質判定部40の他の例を示すように、復号音声信号と補完音声信号だけから客観評価値を求めてもよい。即ち、評価値計算部41では、復号音声信号のパワーPdecと、復号音声信号と補完音声信号の差のパワーPdif’とから評価値Fw’を次式
Fw’=10log(Pdec/Pdif’) (3)
により求める。この場合、差のパワーPdif’が大きくなれば評価値Fw’が小さくなり、それだけ補完音声信号の音質が悪くなることを意味している。重複送信判定部42内のテーブルには例えば図11に示すように、評価値Fw’が10dB以上ではLd=1、2dB≦Fw’<10dBではLd=2,Fw’<2dBではLd=3のように評価値Fw’に対し重複レベルLdを規定してある。このテーブルは予め実験に基づいて決めてある。
図12は図6の音質判定部40が図7のテーブルを使って重複レベルLdを求める場合の図1の送信装置における音質判定部40とパケット作成部15による処理手順を示す。ただし客観評価値として重み付信号対雑音比WSNRを使用するものとする。以下の処理において、ステップS1〜S3は図6の評価値計算部41により実行され、ステップS4〜S10は重複送信判定部42により実行され、ステップS11は図1のパケット作成部15により実行される。
ステップS1:評価値計算部41において、原音声信号OrgのパワーPorgと、原音信号Orgと復号音声信号Decの聴覚重み付け差信号のパワーWPdif1から
WSNR=10log(Porg/WPdif1)を評価値Fw1として求める。以後この計算を
Fw1=WSNR(Org,Dec)と表すことにする。
ステップS2:評価値計算部41において原音声信号のパワーPorgと、原音信号と補完音声信号Comの聴覚重み付け差信号のパワーWPdif2から
WSNR=10log(Porg/WPdif2)を評価値Pw2として求める。以後この計算を
Fw2=WSNR(Org,Ext)と表すことにする。
ステップS3:差分Fd=Fw1−Fw2を求める。
ステップS4:重複送信判定部42においてFd<2dBか判定し、2dBより小であればステップS5でLd=1と決め、そうでなければステップS6に移る。
ステップS6:2dB≦Fd<10dBであるか判定し、そうであればステップS7で図7のテーブルからLd=2と決め、そうでなければステップS8に移る。
ステップS8:10dB≦Fd<15dBか判定し、そうであればステップS9で図7のテーブルからLd=3と決め、そうでなければステップS10でLd=4と決める。
ステップS11:パケット作成部15はLd個のパケットにそれぞれ同じ現フレームの音声データを格納し、順次送信する。
図1に示した音声パケット送信装置と対応する音声パケット受信装置の機能構成を図13に示す。受信装置は受信部50と、符号構成部61と、復号化部62と、補完音声作成部70と、出力信号選択部63とから構成されている。受信部50はパケット受信部51と、バッファ52と、制御部53とから構成されている。制御部53はパケット受信部51で受信されたパケットが格納する音声データのフレーム番号と同じフレーム番号の音声データを格納したパケットが既にバッファ52に蓄積されているかチェックし、もし既に蓄積されていれば、受信パケットを破棄し、蓄積されてなければその受信パケットをバッファ52に蓄積する。
制御部53はバッファ52からフレーム番号順に、各フレーム番号の音声データを格納するパケットを探索し、パケットがあればそのパケットを取り出して符号列構成部61に与える。符号列構成部61は与えられたパケット中の1フレーム分の符号化音声信号を取り出し、符号化音声信号を構成する各種パラメータ符号を所定の順に並べて復号化部62に与える。復号化部62は与えられた符号化音声信号を復号して1フレーム分の音声信号を生成し、出力選択部63と補完音声作成部70に与える。バッファ52に現フレームの符号化音声信号を格納するパケットがなかった場合、制御部53はパケットロスを表す制御信号CLSTを発生し、補完音声作成部70と、出力信号選択部63とに与える。
補完音声作成部70は送信装置における補完音声作成部20とほぼ同様の構成であり、メモリ702と、紛失信号生成部703とから構成されており、紛失信号生成部703の構成も図2に示した送信側における紛失信号生成部203と同様に構成されている。復号化部62から復号音声信号が与えられると補完音声作成部70は、制御信号CLSTが与えられていなければ、まずメモリ702の領域A0〜A4の音声信号を領域A1〜A5にシフトし、与えられた復号音声信号を領域A0に書き込む。さらに、出力信号選択部63により選択された復号音声信号が再生音声信号として出力される。
制御部53によりパケット紛失が検出され、制御信号CLSTが発生された場合は、バッファ52から現フレームのパケットが得られないので、補完音声作成部70はメモリ702の領域A0〜A4の音声信号を領域A1〜A5にシフトし、これらシフトされた音声信号に基づいて紛失信号生成部703により補完音声信号を生成し、メモリ702の領域A0に書き込むとともに、出力信号選択部63を介して再生音声信号として出力する。
図14A、14Bは図13の受信装置によるパケット受信処理と、音声信号再生処理の手順を示す。パケット受信処理は、図14Aにおいて、ステップS1Aでパケットが受信されたか判定し、受信されるとステップS2Aでそのパケットが格納する音声データのフレーム番号と同じフレーム番号の音声データを格納したパケットが既にバッファ52に蓄積されているか判定する。同じフレーム番号の音声データを格納したパケットが見つかればステップS3Aで受信パケットを破棄し、ステップS1Aで次のパケットを待つ。バッファ52に同一フレーム番号の音声データを格納したパケットがなければ、ステップS4Aで受信パケットをバッファ52に蓄積し、ステップS1Aに戻り次のパケットを待つ。
音声信号再生処理は、図14Bにおいて、ステップS1Bでバッファ52に現フレームの音声データが格納されたパケットが蓄積されているか判定し、あればステップS2Bでそのパケットを取り出して符号列構成部61に与える。符号列構成部61は与えられたパケットからから現フレームの音声データである符号化音声信号を取り出し、その符号化音声信号を構成するパラメータ符号を所定の順に配列して復号化部62に与える。ステップS3Bで復号化部62は符号化音声信号を復号して音声信号を生成し、ステップS4Bで音声信号をメモリ702に格納し、ステップS6Bで音声信号を出力する。ステップS1Bでバッファ52に現フレームの音声データを格納したパケットがなかった場合は、ステップS5Bで前フレームの音声信号から補完音声信号を生成し、ステップS4Bでその生成した補完音声信号をメモリ702に格納し、ステップS4Bでその生成した補完音声信号を出力する。
[第2実施形態]
図15に、この発明による音声パケット送信装置の第2実施形態の機能構成を示す。ここでは第1実施形態に示した符号化部11、および復号化部12を設けず、入力PCM音声信号を直接パケット化し、送信する。入力端子100よりのPCM入力音声信号から補完音声作成部20にて補完音声信号を作成する。補完音声作成部20の処理は図2に示した処理と同じである。ここで作成した補完音声信号は、音質判定部40に送られる。音質判定部40ではパケットの重複レベルLdを決定し、パケット作成部15へ出力する。
図16に音質判定部40の具体例を示す。ここでは入力端子100から送られた現フレームの入力PCM原音声信号に対する、補完音声作成部20の出力補完音声信号の客観評価値を評価値計算部41で計算する。ここでは客観評価値としてSNRやWSNR、またはSNRseg,WSNRseg、CDやPESQなどの評価値を使用することが出来る。また客観評価値は1種類のみに限らず、2種類以上の客観評価値を併用しても良い。評価値計算部41で計算された客観評価値は重複送信判定部42に送られ、パケットの重複レベルLdを決定する。パケットの重複レベルLdの決定方法としては、例えばWSNRを客観評価値として使用する場合、評価値計算部41のWSNR出力をFwとし、図17に示すようにLdを決定すると効果的である。この場合は評価値Fwが大きい程、重複レベルLdを小さくする。この例では重複送信判定部42内に図17に示すテーブルを設けることになる。この場合は評価値計算部41における計算は原音声信号のパワーを信号Sとし、原音声信号と補完音声信号との重み付き差信号のパワを雑音RとしてWSNRを計算しているから、WSNRが大きければパケットロスに対して補完音声信号を用いても音質劣化が少ないため、WSNRが大きい程、重複レベル値Ldを小さくしている。
パケット作成部15では、処理フレームサイズ分の入力PCM音声信号を、音質判定部40から受け取ったパケット重複レベルLdの数だけ複製し、Ld個のパケットを作成して送信部16に送り、ネットワークにパケットを送信する。
図18は図15の送信装置において、図17のテーブルを使って図16の音質判定部40により重複レベルLdを求める処理と、パケット作成部15によるパケット作成処理の手順を示す。この例も評価値Fwとして重み付信号対雑音比WSNRを使用するものとする。ステップS1で原音声信号OrgのパワーPorgと、原音声信号Orgと補完音声信号Comの聴覚重み付き差信号のパワーWPdifから評価値Fwを
WSNR=10log(Porg/WPdif)
として求める。以降この計算をFw=WSNR(Org,Com)と表すことにする。ステップS2で評価値Fwが2dB未満か判定し、そうであればステップS3で図17のテーブルを参照してFwの値から重複レベルLd=3と決定する。Fwが2dB未満でなければステップS4でFwが2dB以上、10dB未満であるが判定し、そうであればステップS5で図17のテーブルを参照してLd=2と決定し、そうでなければステップS6でLd=1と決定する。ステップS7でパケット作成部15は決定された重複レベルLdに従って、Ld個の各パケットにそれぞれ現フレームの音声信号を格納して送信部16に与え、順次送信する。
図15に示した送信装置と対応するパケット受信装置を図19に示す。受信部50と補完音声作成部70は図13の受信部50及び補完音声作成部70と同様の構成である。ここでは受信部50で受信したパケットデータからPCM音声信号構成部64でPCM出力音声信号列を取り出す。送信側からパケットが重複して送られ、複数パケットを受信部50で受信した場合には、2番目以降に到着した重複パケットは破棄される。パケットを正常に受信した場合、PCM音声信号構成部64でパケットからPCM音声信号が取り出され、出力信号選択部63に送られると同時に次フレーム以降の補完音声信号のために補完音声作成部70内のメモリ(図13参照)に格納される。受信部50より制御信号CLSTでパケットロス発生が通知されると、補完音声作成部70は図2を参照して説明した動作と同様に補完音声信号を作成し、出力信号選択部63に送る。出力信号選択部63では、受信部50よりパケットロス発生が通知されると、補完音声作成部70の出力補完音声信号を出力音声信号として選択し、パケットロスが発生していない場合にはPCM音声信号構成部64の出力を出力音声信号として選択し、出力する。
[第3実施形態]
前述の各実施形態では、補完音声信号を過去のフレームから外挿法により作成する場合を示したが、この第3実施形態では現フレームに対し前後のフレームの波形から内挿法で補完音声信号を作成する。図20に、この発明による音声パケット送信装置の第3実施形態の機能構成を示す。この実施例における符号化部11、復号化部12、音質判定部40、パケット作成部15、送信部16の構成及び動作は図1の実施例のそれぞれ対応するものと同じである。この実施例は現フレームの音声信号に対する補完音声信号を、それより過去のフレームの音声信号と、現フレームの次のフレームの音声信号から内挿法により作成するように構成されている。
符号化部11で符号化された符号化音声は1フレーム期間の遅延を与えるデータ遅延部19に送られると同時に復号化部12に送られる。復号化部12において復号化された音声信号は1フレーム期間の遅延を与えるデータ遅延部18を介して音質判定部40に与えると共に、補完音声作成部20に送られ、現フレームより1フレーム過去のフレームにパケットロスが発生したと仮定した場合の補完音声が作成される。音質判定部40にはデータ遅延部17により1フレーム期間遅延された原音声信号が与えられると共に、補完音声作成部20からの補完音声信号と、データ遅延部18からの復号音声信号が与えられ、図1の実施例と同様に重複レベルLdが決定される。
内挿法を用いたこの補完音声作成部20の具体例を図21に示す。復号音声信号はメモリ202の領域A−1にコピーされる。メモリ202の領域A0を除いた領域A−1および領域A1〜A5にそれぞれ格納されている各1フレームの復号音声信号が紛失信号生成部203に入力される。この場合はパケットロスとなったフレームの音声信号に対する補完音声信号をそのフレームに対し、未来の先読み復号音声信号と過去の復号音声信号を用いて生成する。紛失信号生成部203では送信しようとする現フレームの音声信号に対し、過去の復号音声信号(この実施例中では5フレーム分)と前記現フレームに対して先読みした未来の復号音声信号(この実施例では1フレーム分)から前記現フレームの音声信号の補完音声信号を作成して出力する。
具体的には、例えば領域A1〜A5の音声信号をつかって図3Aの場合と同様にピッチ長を検出し、そのピッチ長の波形を領域A1の終了点(現フレームとの隣接点)から過去の方向に切り出して、繰り返し繋げて過去からの外挿波形を作成し、同様に領域A0の開始点からピッチ長の波形を未来方向に切り出して、繰り返しつなげて未来からの外挿波形を作成し、これら2つの外挿波形の対応するサンプルをそれぞれ加算して2分の1とすることにより内挿音声信号を補完音声信号として得る。この例では未来フレームとして1フレーム長のメモリ領域A−1を設けているので、ピッチ長が1フレーム以内の場合にしか適用できないが、未来フレーム用として複数フレームに渡るよう複数領域を設けることにより1フレーム長より長いピッチ長に対応できることは明らかである。その場合、その未来フレームの数に合わせてデータ遅延部17,18,19の遅延量を増加する必要がある。次のフレームの復号音声信号がメモリ202に入力されると、各領域A−1,…,A4に格納されている復号音声信号を領域番号が1大きい領域A0,…,A5にシフトする。
図20において入力端子100よりの入力音声信号はデータ遅延部17に送られ、1フレーム期間だけ遅延されて、音質判定部40に送られる。また、復号化部12からの復号音声信号もデータ遅延部18により、1フレーム期間だけ遅延されて音質判定部40に送られる。データ遅延部17からの原音声信号、データ遅延部18からの復号音声信号および補完音声作成部20からの補完音声信号は音質判定部40に送られ、パケットの重複レベルLdを決定する。音質判定部40の動作は図6を参照して説明した動作と同様である。データ遅延部19では、符号化部11から送られた符号化音声信号を1フレーム期間遅らせてパケット作成部15に送る。
図20に示した音声パケット送信装置と対応する音声パケット受信装置の機能構成例を図22に示す。受信部50、符号列構成部61、復号化部62、出力信号選択部63等の構成及び動作は図13の対応するものと同様である。図13と異なる点は、復号化部62の出力側に復号音声信号に対し1フレーム期間の遅延を与えるデータ遅延部67が設けられ、かつ、受信部50内の制御部(図13参照)がパケットロスを検出した場合に出力する制御信号CLSTを1フレーム期間だけ遅延して補完音声作成部70及び出力信号選択部63に与えるデータ遅延部68が設けられていること、補完音声作成部70が図21と同様の過去の復号音声信号と、現フレームに対して先読みした未来の復号音声信号とから内挿音声信号を補完音声信号として作成することである。
復号化部62にて復号された復号音声信号はデータ遅延部67に送られると同時に次フレーム以降の補完音声作成のために図21に示したと同様な補完音声作成部70内のメモリ(図示せず)に格納される。データ遅延部67は復号音声信号を1フレーム遅延して出力信号選択部63に送る。受信部50よりデータ遅延部68を通して1フレーム期間遅延されたパケットロスの発生が検出され、制御信号CLSTが出力されると、制御信号CLSTは1フレーム期間だけ遅延されて補完音声作成部70及び出力信号選択部63に与えられる。補完音声作成部70は、図21を参照して説明した動作と同様に補完音声信号を作成して出力する。出力信号選択部63では、受信部50よりパケットロス発生が通知されると、補完音声作成部70の出力を出力音声信号として選択し、パケットロスが発生していない場合にはデータ遅延部67の出力を出力音声信号として選択し、復号音声信号を出力する。
[第4実施形態]
前述の各実施形態では、送信側において現フレームの音声信号に対し、それに隣接する少なくとも1つのフレームから作成した補完音声信号の音質が規定より低い場合は、受信側においてそのフレームに対応するパケットの損失が生じた場合に隣接フレームから補完音声信号を作成しても、その音質が悪い。そこで、できるだけパケットロスが生じないよう、同じそのフレームの音声信号を格納するパケットを、予測される補完音声信号の客観評価値に応じて決めた重複レベルLd回数だけ繰り返し送信する。その場合、補完音声信号の作成は、隣接する少なくとも1つのフレームの音声波形からピッチ長の波形をコピーして、1フレーム長となるまで繰り返し貼り付ける例を説明した。
以下の実施形態では、補完音声信号の作成に現フレームのピッチ(及びパワー)を使ったほうが音質の優れた補完音声信号を合成可能であると判定された場合に、現フレームの符号化音声信号をパケットで送信すると共に、重複して送信していた符号化音声信号の代わりに補助情報として同じ現フレームのピッチパラメータ(及びパワーパラメータ)を同じフレームについての別のパケットで送信し、受信側でそのフレームの符号化音声信号のパケットが受信できず、補助情報のパケットが受信された場合は、その補助情報を使用することにより送信するデータ量を減らすことができ、かつ、より品質の高い補完音声信号を作成することを可能にする。
図23はそのような補助情報を使用可能にする送信装置の構成例を示す。この構成は、図1の送信装置に更に現フレームの音声信号のピッチパラメータ(及びパワーパラメータ)を求める補助情報作成部30を設ける。また、補完音声作成部20は、
(1)図1と同様に少なくとも1つの隣接フレームから、そのピッチを検出してピッチ長の波形を切り出し、その波形に基づいて第1補完音声信号を作成する第1機能と、
(2)前記第1機能において隣接フレームの波形から検出したピッチを使用する代わりに、補助情報作成部30により検出した現フレームの音声信号のピッチパラメータを使用して隣接フレームの波形からピッチ長の波形を切り出して第2補完音声波形を作成する第2機能と、
(3)更に前記第2機能において補助情報作成部30で求めた現フレームの音声信号のパワーパラメータに基づいて前記合成した第2補完音声信号のパワーを調整し、現フレームの音声信号パワーと一致した第3補完音声波形を作成する第3機能、
を有している。
音質判定部40ではこれらの第1、第2及び第3補完音声波形による評価値Fd1,Fd2,Fd3をそれぞれ求め、評価値Fd1に対応する重複レベルLdと音質劣化レベルQL_1、評価値Fd2に対応する音質劣化レベルQL_2、及び評価値Fd3に対応する音質劣化レベルQL_3を予め決めたテーブルを参照して決める。
パケット作成部15は、重複レベルLdの値及び音質劣化レベルQL_1、QL_2、QL_3間の比較結果に基づいて、Ld個のパケットに現フレームの音声データを格納して送出するか、1つのパケットに現フレームの音声データを格納し、残りのLd−1個のパケットに同じ補助情報(ピッチパラメータ、又はピッチパラメータとパワーパラメータ)をそれぞれ格納して送信するかを判定し、判定結果に従ってパケットを作成し送信する。これらの処理については後でフローチャートを参照して説明する。
図24は補助情報作成部30の構成例を示す。現フレームの音声信号はパワー計算部301に与えられてそのフレームの音声信号のパワーP=Σx が計算され、そのパワー値をパワーパラメータとして得る。一方、音声信号は線形予測部303に与えられてそのフレームの音声信号の線形予測係数を求める。得られた線形予測係数は平坦化部302に与えられ、線形予測分析によるスペクトル包絡の逆特性を持つ逆フィルタを構成する。これにより音声信号は逆フィルタ処理され、そのスペクトル包絡が平坦化される。逆フィルタ処理された音声信号は自己相関係数計算部304に与えられ、その自己相関係数
Figure 2005109402
が計算される。ただし、入力音声信号が8kHzの場合、40≦k≦120として計算するとよい。ピッチパラメータ決定部305は自己相関係数R(k)がピークとなるkをピッチとして検出し、ピッチパラメータを出力する。
図25は補完音声作成部20の機能構成を示す。図2の場合と同様に現フレームの復号音声信号はメモリ202の領域A0に書き込まれると共に、それまで領域A0〜A4に保持されていた過去のフレームの音声信号は領域A1〜A5にシフトされる。紛失信号作成部203は第1、第2、及び第3補完信号作成部21,22,23を有している。第1補完信号作成部21は、前述の第1機能による第1補完音声信号を図2の場合と同様に、領域A1〜A5の波形から検出したピッチ長を使って切り出した波形の繰り返し連結合成により形成する。第2補完信号作成部22は、前述の第2機能による第2補完音声信号を、補助情報作成部30から与えられた補助情報である現フレームのピッチパラメータを使って領域A1の音声波形からピッチ長の波形を切り出し、繰り返し連結して合成する。第3補完信号作成部23は、前述の第3機能による第3補完音声信号を、前記第2補完信号作成部22により作成された第2補完音声信号のパワーを補助情報作成部30から補助情報として与えられた現フレームのパワーパラメータにより現フレームのパワーと等しくなるように調整することにより作成する。具体的には、例えばパワーパラメータをPpとし、パワー調整前の補完音声信号のパワーをPc=Σy とすると、K=(Pp/Pc)1/2を計算し、補完音声信号の各サンプルyにKを乗算することによりパワー調整された補完音声信号を得ることができる。
図26は音質判定部40の構成例を示す。音質判定部40は図6の例と同様に評価値計算部41と、重複送信判定部42とから構成されている。評価値計算部41は原音声信号Orgと復号音声信号DecからFw1=WSNR(Org,Dec)を計算する第1計算部412と、原音信号Orgと第1補完音声信号Com1からFw2_1=WSNR(Org,Com1)を計算する第2−1計算部413Aと、原音信号Orgと第2補完音声信号Com2からFw2_2=WSNR(Org,Com2)を計算する第2−2計算部413Bと、原音信号Orgと第3補完音声信号Com3からFw2_3=WSNR(Org,Com3)を計算する第2−3計算部413Cと、第1評価値Fd1=Fw1−Fw2_1、第2表価値Fd2=Fw1−Fw2_2、第3評価値Fd3=Fw1−Fw2_3を計算する第3計算部411とを有している。これら評価値Fd1,Fd2,Fd3は重複送信判定部42に与えられる。
重複送信判定部42のテーブル格納部42Tには、図27に示す第1評価値Fd1に対する重複レベルLdと音質劣化レベルQL_1を規定するテーブルと、図28に示す第2評価値Fd2に対する音質劣化レベルQL_2を規定するテーブルと、第3評価値Fd3に対する音質劣化レベルQL_3を規定する図28と同様な図示してないテーブルとが格納されている。図27,28のテーブルにおいて、評価値の値が大きいほうが音質劣化レベルが段階的に大きくなるように決められている。なお、図27のテーブルの例ではたまたま評価値Fd1に対する重複レベルLdと音質劣化レベルQL_1の値が同じになっているが、同じになる必要性はなく、これらの値は予め実験により決められる。
第1動作実施例
図29は図23の送信装置による第1の動作実施例を示す。ここでは図1で示した過去のフレームの波形とピッチ長を使用して補完音声信号Ext1を作成する場合と、現フレームのピッチと過去のフレームの波形を使って補完音声信号Ext2を作成する場合とを、音質劣化レベルによって選択する。ここで、補完音声作成部20には現フレームの入力音声信号に対し、補助情報作成部30で求めたピッチパラメータと、パワーパラメータと、現フレームの音声信号を符号化部11で符号化し、その符号化音声を復号化部12で復号化した復号音声信号とが与えられている。
ステップS1:補完音声作成部20により原音声信号(Org)と復号音声信号(Dec)からFw1=WSNR(Org,Dec)を計算し、原音声信号(Org)と第1補完音声信号(Com1)からFw2=WSNR(Org,Com1)を計算し、原音声信号(Org)と第2補完音声信号(Com2)からFw3=WSNR(Org,Com2)を計算する。
ステップS2:差分評価値Fd1=Fw1−Fw2とFd2=Fw1−Fw3を計算する。
ステップS3〜S9Bにおいては、差分評価値Fd1が図27のテーブルにおいてどの領域に属するか判定し、その領域に対応する重複レベルLdと音質劣化レベルQL_1の値をそれぞれ決定する。
ステップS10〜S16においては、差分評価値Fd2が図28のテーブルにおいてどの領域に属するか判定し、その領域に対応する音質劣化レベルQL_2の値を決定する。
ステップS17:音質劣化レベルQL_1がQL_2より小さいか、即ち、現フレームのピッチを用いて作成した補完音声信号Com2のほうが過去のフレームのピッチを用いて作成した補完音声信号Com1より音質劣化レベルが小さいか判定する。小さくない場合、即ち現フレームのピッチを使っても音質が改善されない場合、ステップS18でLd個のパケットすべてに現フレームの符号化音声データを格納して順次送信する。
ステップS19:音質劣化レベルQL_2がQL_1より小さければ、過去のフレームの音声信号だけで作成した補完音声信号Ext1より、現フレームの音声信号のピッチを使って過去のフレームの音声波形から切り出したピッチ長の波形により作成した補完音声信号Ext2のほうが音質が改善されるので、1個のパケットに現フレームの符号化音声データを格納し、Ld−1個のすべてのパケットにそれぞれ補助情報として現フレームのピッチパラメータを格納して送信する。
このようにすれば、受信側で現フレームの音声データを格納したパケットを受信できればその現フレームの音声信号を再生できるし、現フレームの音声データを格納したパケットが受信されなかった場合でも、現フレームの補助情報(ピッチパラメータ)を格納したパケットが受信できれば、その現フレームのピッチを使って過去のフレームの音声波形から補完音声信号を作成することにより音質劣化をある程度抑えることができる。
第2動作実施例
図30に第2動作実施例を示す。この動作例において、ステップS1〜S18は図29のステップS1〜S18とまったく同じであり、それ以降のステップが異なる。即ち、ステップS19で劣化レベル差Ndup1=QL_1−QL_2を補助情報(ピッチパラメータ)の重複数と決め、ステップS20でLd個のパケットのうち、Ndup1個のパケットに現フレームの補助情報(ここではピッチパラメータ)をそれぞれ格納し、残りのLd−Ndup1個のパケットにそれぞれ現フレームの符号化音声データを格納し、送信する。即ち、この動作例では、過去のフレームの音声データだけから補完音声信号を作成するよりも現フレームのピッチを使って作成したほうが音質劣化が少ない場合、その音質劣化の低減効果に応じて同一補助情報を送出するパケット重複数を変えることにより、同じ現フレームの符号化音声データを送出するパケットの重複数も相反的に変化できるようにしている。
第3動作実施例
図31,32に第3動作実施例を示す。この動作例では、第1及び第2動作例における第1及び第2補完音声信号Com1,Com2に加えて、更に現フレームのピッチパラメータとパワーパラメータを補助情報として使い、過去のフレームの波形から第3補完音声信号Com3を作成する。これに伴い、ステップS1では図30におけるステップS1におけるWSNRの計算に更に第4評価値Fw4=WSNR(Org,Com3)の計算が追加され、ステップS2では図30のステップS2におけるWSNR差分計算として更にFd3=Fw1−Fw4の計算が追加される。また、図30のステップS10〜S16によるFd2に対する音質劣化レベルQL_2の決定と同様なFd3に対する音質劣化レベルQL_3の決定ステップS110〜S116が追加されている。
ステップS17ではQL_2とQL_3の小さいほうがQL_1より小さいか判定し、小さくなければステップS18でLd個の全てのパケットに現フレームの符号化音声データをそれぞれ格納して送信する。QL_1より小さければ、ステップS19でQL_3がQL_2より小さいか判定し、小さくなければステップS20で図29のステップS19と同様に現フレームの符号化音声データを格納した1つのパケットと、現フレームのピッチパラメータを格納したLd−1個のパケットを作成し、送信する。QL_3がQL_2より小さければ、ステップS21で現フレームの符号化音声データを格納した1個のパケットと、現フレームのピッチとパワーを格納したLd−1個のパケットを作成し、送信する。
第4動作実施例
第4動作実施例は第3動作実施例の変形であり、その前半のステップは第3動作実施例である図31のステップS1〜S16とまったく同じであり、図31を兼用するものとする。ステップS16より後の処理を図33のステップS110〜S23に示す。これらのうち、Fd3に対する音質劣化レベルQL_3を決めるステップS110〜S116も第3動作実施例の図32に示すステップS110〜S116と同様であり、更にステップS17,S18も同様である。
ステップS19でQL_3がQL_2より小さくない場合、補助情報として現フレームのピッチパラメータとパワーパラメータを使っても、現フレームのピッチパラメータのみを使う場合より補完音声信号の音質を改善できないことを意味し、ステップS20でピッチパラメータに対する重複数をNdup1=QL_1−QL_2と決め、ステップS21で現フレームのピッチパラメータをNdup1個のパケットにそれぞれ格納し、残りのLd−Ndup1個のパケットに現フレームの符号化音声データをそれぞれ格納して送信する。ステップS19でQL_3がQL_2より小であれば、補助情報として現フレームのピッチパラメータだけを使うより、ピッチパラメータとパワーパラメータの両方を使ったほうが補完音声信号の音質が改善されることを意味しており、ステップS22で補助情報(ピッチとパワー)に対する重複値をNdup2=QL_1−QL_3と決め、ステップS23で現フレームの補助情報をNdup2個のパケットにそれぞれ格納し、残りのLd−Ndup2個の全てのパケットに現フレームの符号化音声データを格納して送信する。
図34は図23の送信装置に対応する受信装置の構成例を示す。この構成は図13に示した受信装置に補助情報抽出部81が追加されている。また、補完音声作成部70は図35に示すように、メモリ702と紛失信号生成部703と、信号選択部704とから構成されている。紛失信号生成部703はピッチ検出部703Aと、波形切り出し部703Bと、フレーム波形合成部703Cと、ピッチ切替部703Dとから構成されている。
制御部53は、受信されたパケットが格納するデータと同じフレームに対するパケットがバッファ52に既に蓄積されているかチェックし、蓄積されてなければバッファ52に受信パケットを蓄積する。この処理の詳細は図36Aのフローを参照して後で詳述する。
音声信号の再生処理においては、図36Bのフローを参照して後でも説明するが、制御部53は、現在必要とするフレームのパケットがバッファ52に蓄積されているかチェックし、蓄積されてない場合はパケットロスと判定して制御信号CLSTを発生する。制御部53が制御信号CLSTを発生すると、信号選択部704は紛失信号生成部703の出力を選択し、ピッチ切替部703Dはピッチ検出部703Aの検出ピッチを選択して波形切り出し部703Bに与えてそのピッチ長の波形をメモリ702の領域A1から切り出し、フレーム波形合成部703Cで切り出し波形から1フレーム長の波形に合成し、合成した波形を補完音声信号として出力選択部63に与えると共に信号選択部704を介してメモリ702の領域A0に書き込む。
制御部53がバッファ52中に現フレームの符号化音声データを格納したパケットを見つけた場合は、そのパケットを符号列構成部61に与えて符号化音声データが取り出され、復号化部62で復号化されて復号音声信号が出力信号選択部63を介して出力されると共に、補完音声作成部70のメモリ702の領域A0に信号選択部704を介して書き込まれる。制御部53がバッファ52中に現フレームの補助情報を格納したパケットを見つけた場合は、そのパケットを補助情報抽出部81に与える。
補助情報抽出部81はそのパケットから現フレームの補助情報(ピッチパラメータ、又はピッチパラメータとパワーパラメータの組)を抽出し、補完音声作成部70の紛失信号生成部703に与える。補助情報が与えられると補助情報中の現フレームのピッチパラメータがピッチ切替部703Dを介して波形切り出し部703Bに与えられ、従って、波形切り出し部703Bは与えられた現フレームのピッチ長の波形を領域A1の音声波形から切り出し、それに基づいてフレーム波形合成部703Cにおいて1フレーム長の波形が合成され、補完音声信号として出力される。補助情報中に現フレームのパワーパラメータも含まれている場合は、フレーム波形合成部703Cはそのパワーパラメータにより、合成フレーム波形のパワーを調整し、補完音声信号として出力する。補完音声信号を作成した場合は、いずれも信号選択部704を介してメモリ702の領域A0に書き込む。
図36Aは、パケット受信部51で受信されたパケットを制御部53の制御に従ってバッファ52に蓄積する処理の例を示す。
ステップS1Aでパケットが受信されたか判定し、受信されたならステップS2Aでその受信パケットが格納するデータのフレーム番号と同じフレーム番号のデータを格納するパケットがバッファ52内に既に存在するかチェックし、もし存在すればステップS3Aでバッファ内のそのパケットのデータが符号化音声データであるかチェックする。もし符号化音声データであれば、受信パケットは不要であり、ステップS4Aで受信パケットを破棄し、ステップS1Aに戻り次のパケットを待つ。
ステップS3Aで、バッファ内の同じフレームのパケットのデータが符号化音声データでなかった場合、即ち、補助情報であった場合、ステップS5Aで受信パケットのデータが符号化音声データであるか判定し、符号化音声データでなかった場合(即ち補助情報であった場合)、ステップS4Aで受信パケットを破棄し、ステップS1Aに戻る。ステップS5Aで受信パケットのデータが符号化音声データであった場合、ステップS6Aでバッファ内にある同じフレームのパケットを受信パケットで置き換えてステップS1Aに戻る。即ち、同じフレームについての受信パケットが符号化音声データであれば、補完音声を作成する必要はないので補助情報は不要である。ステップS2Aでバッファ内に同じフレームに対するパケットがなかった場合は、ステップS7Aで受信パケットをバッファ52に蓄積し、ステップS1Aに戻って次のパケットを待つ。
図36Bは、制御部53の制御に従ってバッファ52から読み出したパケットから音声データを取り出し、再生音声信号を出力する処理の例を示す。
ステップS1Bでバッファ52に必要とする現フレームに対するパケットが存在するかチェックし、存在しなければパケットロスと判定してステップS2Bで紛失信号生成部703のピッチ検出部703Aにより過去のフレームからピッチを検出する。検出ピッチ長を使ってステップS3Bで過去のフレームの音声波形からピッチ長の波形を切り出し、1フレームの波形を合成し、ステップS7Bでその合成波形を補完音声信号としてメモリ702の領域A0に格納し、ステップS8Bで補完音声信号を出力してステップS1Bに戻り、次のフレームの処理を開始する。
ステップS1Bで現フレームに対するパケットがバッファ52に存在していた場合は、ステップS4Bでそのパケットのデータが補助情報であるか判定し、補助情報であればステップS5Bでその補助情報からピッチパラメータを抽出し、ステップS3Bでそのピッチパラメータを使って補完音声信号を作成する。ステップS4Bでバッファ内の現フレームに対するパケットが補助情報でなかった場合は、そのパケットのデータは符号化音声データであり、ステップS6Bその符号化音声データを復号して音声波形データを得て、ステップS7Bでその音声波形データを目盛り402Aの領域A0に書き込み、ステップS8Bで音声信号として出力してステップS1Bに戻る。
図36Bの処理は送信側による図30の動作例に対応する処理であるが、図31,32,33の動作例に対応する処理の場合は、ステップS5Bで括弧内に示すように更にパワーパラメータを補助情報から抽出し、ステップS3Bで括弧内に示すように、パワーパラメータに従って合成波形のパワーを調整する。
図4は補完音声信号の合成方法の他の例を示す。この例では検出したピッチ長よりΔL長い波形4Aを繰り返しコピーして波形4B,4C,4Dを得る。これら互いに隣接する波形の前後端でΔLだけ互いに重なるように波形を配置し、互いに重なる前後端のΔLの区間にそれぞれ図5A,5Bの重み関数W1, W2を乗算して互いに加算することにより切り出し波形を連続的に接続して1フレーム長の波形4Eを得ることができる。例えば、時点t1とt2の重なり区間では、波形4Bの後端ΔLに対し時点t1からt2にかけて図5Aに示す1から0に直線的に減少する重み関数W1を乗算し、同じ区間の波形4Cの前端ΔLに図5Bに示す0から1に直線的に増加する重み関数W2を乗算し、これら乗算結果を区間t1〜t2に渡って互いにサンプル値を加算する。他の重なり区間も同様である。
図1中のパケット作成部15では、符号化部11からの符号化音声信号を、音質判定部40から受け取ったパケット重複レベルLdの数だけ複製し、Ld個のパケットを作成して送信部16に送り、ネットワークにパケットを送信する。Ld=1の時は、パケットを重複させることなく、1個だけ送信する。
前述の図6の例においては評価値計算部41は客観評価値として原音声信号のパワーPorgと、原音声信号と復号音声信号の差のパワーPdif1とから式(1)により求めた評価値Fw1と、原音声信号のパワーPorgと、原音声信号と補完音声信号の差のパワーPdif2とから式(2)により求めた評価値Fw2との2つの評価値を使用して重複レベルLdを決める例を示したが、図10に音質判定部40の他の例を示すように、復号音声信号と補完音声信号だけから客観評価値を求めてもよい。即ち、評価値計算部41では、復号音声信号のパワーPdecと、復号音声信号と補完音声信号の差のパワーPdif'とから評価値Fw’を次式
Fw’=10log(Pdec/Pdif') (3)
により求める。この場合、差のパワーPdif'が大きくなれば評価値Fw’が小さくなり、それだけ補完音声信号の音質が悪くなることを意味している。重複送信判定部42内のテーブルには例えば図11に示すように、評価値Fw’がdB未満ではLd=1、2dB≦Fw’<10dBではLd=2,Fw’≧10dBではLd=3のように評価値Fw’に対し重複レベルLdを規定してある。このテーブルは予め実験に基づいて決めてある。
ステップS2:評価値計算部41において原音声信号のパワーPorgと、原音信号と補完音声信号Comの聴覚重み付け差信号のパワーWPdif2からWSNR=10log(Porg/WPdif2)を評価値Pw2として求める。以後この計算をFw2=WSNR(Org, Ext)と表すことにする。
ステップS3:差分Fd=Fw1-Fw2を求める。
ステップS4:重複送信判定部42においてFd<2dBか判定し、2dBより小であればステップS5でLd=1と決め、そうでなければステップS6に移る。
ステップS6:2dB≦Fd<10dBであるか判定し、そうであればステップS7で図7のテーブルからLd=2と決め、そうでなければステップS8に移る。
ステップS8:10dB≦Fd<15dBか判定し、そうであればステップS9で図7のテーブルからLd=3と決め、そうでなければステップS10でLd=4と決める。
ステップS11:パケット作成部15はLd個のパケットにそれぞれ同じ現フレームの音声データを格納し、順次送信する。
図1に示した音声パケット送信装置と対応する音声パケット受信装置の機能構成を図13に示す。受信装置は受信部50と、符号構成部61と、復号化部62と、補完音声作成部70と、出力信号選択部63とから構成されている。受信部50はパケット受信部51と、バッファ52と、制御部53とから構成されている。制御部53はパケット受信部51で受信されたパケットが格納する音声データのフレーム番号と同じフレーム番号の音声データを格納したパケットが既にバッファ52に蓄積されているかチェックし、もし既に蓄積されていれば、受信パケットを破棄し、蓄積されてなければその受信パケットをバッファ52に蓄積する。
図16に音質判定部40の具体例を示す。ここでは入力端子100から送られた現フレームの入力PCM原音声信号に対する、補完音声作成部20の出力補完音声信号の客観評価値を評価値計算部41で計算する。ここでは客観評価値としてSNRやWSNR、またはSNRseg,WSNRseg、CDやPESQなどの評価値を使用することが出来る。また客観評価値は1種類のみに限らず、2種類以上の客観評価値を併用しても良い。評価値計算部41で計算された客観評価値は重複送信判定部42に送られ、パケットの重複レベルLdを決定する。パケットの重複レベルLdの決定方法としては、例えばWSNRを客観評価値として使用する場合、評価値計算部41のWSNR出力をFwとし、図17に示すようにLdを決定すると効果的である。この場合は評価値Fwが大きい程、重複レベルLdを小さくする。この例では重複送信判定部42内に図17に示すテーブルを設けることになる。この場合は評価値計算部41における計算は原音声信号のパワーを信号Sとし、原音声信号と補完音声信号との重み付き差信号のパワを雑音としてWSNRを計算しているから、WSNRが大きければパケットロスに対して補完音声信号を用いても音質劣化が少ないため、WSNRが大きい程、重複レベル値Ldを小さくしている。
復号化部62にて復号された復号音声信号はデータ遅延部67に送られると同時に次フレーム以降の補完音声作成のために図21に示したと同様な補完音声作成部70内のメモリ(図示せず)に格納される。データ遅延部67は復号音声信号を1フレーム遅延して出力信号選択部63に送る。受信部50よりパケットロスの発生が検出され、制御信号CLSTが出力されると、制御信号CLSTは遅延部68を通して1フレーム期間だけ遅延されて補完音声作成部70及び出力信号選択部63に与えられる。補完音声作成部70は、図21を参照して説明した動作と同様に補完音声信号を作成して出力する。出力信号選択部63では、受信部50よりパケットロス発生が通知されると、補完音声作成部70の出力を出力音声信号として選択し、パケットロスが発生していない場合にはデータ遅延部67の出力を出力音声信号として選択し、復号音声信号を出力する。
[第4実施形態]
前述の各実施形態では、送信側において現フレームの音声信号に対し、それに隣接する少なくとも1つのフレームから作成した補完音声信号の音質が規定より低い場合は、受信側においてそのフレームに対応するパケットの損失が生じた場合に隣接フレームから補完音声信号を作成しても、その音質が悪い。そこで、できるだけパケットロスが生じないよう、同じそのフレームの音声信号を格納するパケットを、予測される補完音声信号の客観評価値に応じて決めた重複レベルLd回数だけ繰り返し送信する。その場合、補完音声信号の作成は、隣接する少なくとも1つのフレームの音声波形からピッチ長の波形をコピーして、1フレーム長となるまで繰り返し貼り付ける例を説明した。
図26は音質判定部40の構成例を示す。音質判定部40は図6の例と同様に評価値計算部41と、重複送信判定部42とから構成されている。評価値計算部41は原音声信号Orgと復号音声信号DecからFw1=WSNR(Org, Dec)を計算する第1計算部412と、原音信号Orgと第1補完音声信号Com1からFw2_1=WSNR(Org, Com1)を計算する第2-1計算部413Aと、原音信号Orgと第2補完音声信号Com2からFw2_2=WSNR(Org, Com2)を計算する第2-2計算部413Bと、原音信号Orgと第3補完音声信号Com3からFw2_3=WSNR(Org, Com3)を計算する第2-3計算部413Cと、第1評価値Fd1=Fw1-Fw2_1、第2価値Fd2=Fw1-Fw2_2、第3評価値Fd3=Fw1-Fw2_3を計算する第3計算部411とを有している。これら評価値Fd1, Fd2, Fd3は重複送信判定部42に与えられる。
ステップS1Bで現フレームに対するパケットがバッファ52に存在していた場合は、ステップS4Bでそのパケットのデータが補助情報であるか判定し、補助情報であればステップS5Bでその補助情報からピッチパラメータを抽出し、ステップS3Bでそのピッチパラメータを使って補完音声信号を作成する。ステップS4Bでバッファ内の現フレームに対するパケットが補助情報でなかった場合は、そのパケットのデータは符号化音声データであり、ステップS6Bその符号化音声データを復号して音声波形データを得て、ステップS7Bでその音声波形データをメモリ402Aの領域A0に書き込み、ステップS8Bで音声信号として出力してステップS1Bに戻る。

Claims (13)

  1. 入力音声信号をフレームごとにパケットにより送信する音声パケット送信方法であって、
    (a)現処理フレームと隣接する少なくとも1つのフレームの音声信号から現処理フレームの音声信号に対する補完音声信号を作成するステップと、
    (b)前記補完音声信号の音質評価値を計算するステップと、
    (c)前記音質評価値に基づき、補完音声信号の音質が悪いほど段階的に大となる整数値の1以上の重複レベルを決めるステップと、
    (d)前記重複レベルにより指定される数だけ、前記現フレームの音声信号についてのパケットを作成するステップと、
    (e)前記作成されたパケットをネットワークに送信するステップ、
    とを含む音声パケット送信方法。
  2. 請求項1記載の音声パケット送信方法において、
    前記ステップ(b)は前記入力音声信号と前記補完音声信号とから前記音質評価値を計算するステップであり、
    前記ステップ(d)は、前記現フレームの入力音声信号をそのままパケットに作成するステップを含む。
  3. 請求項1記載の音声パケット送信方法において、
    前記ステップ(a)は、前記入力音声信号を符号化して符号列を生成するステップと、前記符号列を復号化して復号音声信号を生成するステップとを含み、
    前記ステップ(b)は、前記入力音声信号と前記復号音声信号から第1音質評価値を計算するステップと、前記入力音声信号と前記補完音声信号とから第2音質評価値を計算するステップとを含み、
    前記ステップ(c)は、前記第1音質評価値と前記第2音質評価値に基づき前記重複レベルを求めるステップを含む。
  4. 請求項1記載の音声パケット送信方法において、
    前記ステップ(a)は、
    (a−1)前記現フレームの音声信号の特徴パラメータである少なくともピッチパラメータを含む補助情報を作成するステップと、
    (a−2)前記少なくとも1つの隣接フレームの音声信号から、その音声信号のピッチを有する第1の補完音声信号を作成するステップと、
    (a−3)前記補助情報中の少なくともピッチパラメータを使用して前記少なくとも1つの隣接フレームの音声信号から第2の補完音声信号を作成するステップ、
    とを含み、
    前記ステップ(b)は、前記第1補完音声信号の第1音質評価値を求めるステップと、前記第2補完音声信号の第2音質評価値を求めるステップとを含み、
    前記ステップ(c)は、前記第1音質評価値に基づいて音質が悪いほど段階的に大となる前記重複レベルと第1音質劣化レベルを決めるステップと、前記第2音質評価値に基づいて音質が悪いほど段階的に大となる第2音質劣化レベルを決めるステップとを含み、
    前記ステップ(d)は、前記第2音質劣化レベルが前記第1音質劣化レベルより小さくないときは前記現フレームの音声信号のパケットを前記重複レベル数だけ作成し、前記第2音質劣化レベルが前記第1音質劣化レベルより小さいときは、前記現フレームの音声信号のパケットを1個以上と、前記補助情報のパケットを1個以上とを合計で前記重複レベルと同数だけ作成するステップを含み、
    前記ステップ(e)は、前記現フレームについて前記合計で重複レベルと同数のパケットを送信するステップである。
  5. 請求項4記載の音声パケット送信方法において、
    前記ステップ(c)は、更に前記第1音質劣化レベルと前記第2音質劣化レベルの差を補助情報重複数として計算するステップを含み、
    前記ステップ(d)は、前記第2音質劣化レベルが前記第1音質劣化レベルより小さくないときに、前記補助情報のパケットを前記補助情報重複数だけ作成する。
  6. 請求項1記載の音声パケット送信方法において、
    前記ステップ(a)は、
    (a−1)前記現フレームの音声信号の特徴パラメータであるピッチパラメータとパワーパラメータを含む補助情報を作成するステップと、
    (a−2)前記少なくとも1つの隣接フレームの音声信号から、その音声信号のピッチを有する第1の補完音声信号を作成するステップと、
    (a−3)前記補助情報中のピッチパラメータを使用して前記少なくとも1つの隣接フレームの音声信号から第2の補完音声信号を作成するステップと、
    (a−4)前記補助情報中の前記ピッチパラメータと前記パワーパラメータとを使って前期少なくとも1つの隣接フレームの音声信号から第3の補完音声信号を作成するステップ、
    とを含み、
    前記ステップ(b)は、前記第1補完音声信号の第1音質評価値を求めるステップと、前記第2補完音声信号の第2音質評価値を求めるステップと、前記第3補完音声信号の第3音質評価値を求めるステップとを含み、
    前記ステップ(c)は、
    (c−1)前記第1音質評価値に基づいて音質が悪いほど段階的に大となる前記重複レベルと第1音質劣化レベルを決めるステップと、
    (c−2)前記第2音質評価値に基づいて音質が悪いほど段階的に大となる第2音質劣化レベルを決めるステップと、
    (c−3)前記第3音質評価値に基づいて音質が悪いほど段階的に大となる第3音質劣化レベルを決めるステップ、
    とを含み、
    前記ステップ(d)は、前記第2及び第3音質劣化レベルのうち小さい方が前記第1音質劣化レベルより小さくないときは、前記現フレームの音声信号のパケットを前記重複レベル数だけ作成するステップと、
    前記第2及び第3音質劣化レベルが前記第1音質劣化レベルより小さいときは、前記第3音質劣化レベルが前記第2音質劣化レベルより小さくなければ前記現フレームの音声信号のパケットを1個以上と、前記ピッチパラメータのパケットを1個以上とを合計で前記重複レベル数だけ作成し、前記第3音質劣化レベルが前記第2音質劣化レベルより小さければ、前記現フレームの音声信号のパケットを1個以上と、前記ピッチパラメータと前記パワーパラメータを含む補助情報のパケットを1個以上とを合計で前記重複レベルと同数だけ作成するステップとを含み、
    前記ステップ(e)は、前記現フレームについて前記合計で重複レベルと同数のパケットを送信するステップである。
  7. 請求項6記載の音声パケット送信方法において、
    前記ステップ(c)は、更に前記第1音質劣化レベルと前記第2音質劣化レベルの差を第1補助情報重複数として計算するステップと、前記第1音質劣化レベルと前記第3音質劣化レベルの差を第2補助情報重複数として計算するステップとを含み、
    前記ステップ(d)は、前記第3音質劣化レベルが前記第2音質劣化レベルより小さくないときに、前記ピッチパラメータのパケットを前記第1補助情報重複数だけ作成し、前記第3音質劣化レベルが前記第2音質劣化レベルより小さいときは、前記ピッチパラメータと前記パワーパラメータを含む補助情報のパケットを前記第2補助情報重複数だけ作成する。
  8. 入力音声信号をフレームごとにパケットにより送信する音声パケット送信装置であって、
    現フレームと隣接する少なくとも1つのフレームの音声信号からから現フレームに対する補完音声信号を作成する補完音声作成部と、
    少なくとも前記補完音声信号が入力され、その補完音声信号の音質評価値を計算する評価値計算部と、
    前記音質評価値に基づき補完音声信号の音質が悪いほど段階的に大となる整数値の重複レベルを決める重複送信判定部と、
    前記重複レベルにより指定される数だけ、前記現フレームの音声信号についてのパケットを作成するパケット作成部と、
    前記作成された音声パケットをネットワークに送信する送信部、
    とを含む音声パケット送信装置。
  9. 請求項8記載の音声パケット送信装置は、更に前記現フレームの入力音声を符号化し、符号化音声を得る符号化部と、前記符号化音声を復号化して復号音声を得る復号化部とを含み、前記補完音声作成部は前記現フレームと隣接する少なくとも1つのフレームの前記復号音声を使って前記補完音声を作成する。
  10. 請求項8記載の音声パケット送信装置は、更に前記現フレームの音声信号のピッチパラメータを補助情報として作成する補助情報作成部を含み、
    前記補完音声作成部は前記現フレームに隣接する少なくとも1つのフレームの音声信号のみから第1補完音声を作成し、前記現フレームの前記ピッチパラメータを使って前記隣接する少なくとも1つのフレームの音声信号から第2補完音声を作成し、
    前記音質評価値計算部は前記第1補完音声の第1音質評価値と、前記第2補完音声の第2音質評価値を求め、前記重複送信判定部は前記第1音質評価値に基づいて音質が悪いほど段階的に大となる前記重複レベルと第1音質劣化レベルを決め、前記第2音質評価値に基づいて音質が悪いほど段階的に大となる第2音質劣化レベルを決め、
    前記パケット作成部は前記第2音質劣化レベルが前記第1音質劣化レベルより小さくないときは前記現フレームの音声信号のパケットを前記重複レベル数だけ作成し、前記第2音質劣化レベルが前記第1音質劣化レベルより小さいときは、前記現フレームの音声信号のパケットを1個以上と、前記補助情報のパケットを1個以上とを合計で前記重複レベル数と同数だけ作成する。
  11. 請求項8記載の音声パケット送信装置は、更に前記現フレームの音声信号のピッチパラメータとパワーパラメータを補助情報として作成する補助情報作成部を含み、
    前記補完音声作成部は前記現フレームに隣接する少なくとも1つのフレームの音声信号のみから第1補完音声を作成し、前記現フレームのピッチパラメータを使って前記隣接する少なくとも1つのフレームの音声信号から第2補完音声を作成し、前記現フレームのピッチパラメータとパワーパラメータとを使って前記隣接する少なくとも1つのフレームの音声信号から第3補完音声を作成し、
    前記音質評価値計算部は前記第1補完音声の第1音質評価値と、前記第2補完音声の第2音質評価値と、前記第3補完音声の第3音質評価値とを求め、
    前記重複送信判定部は前記第1音質評価値に基づいて音質が悪いほど段階的に大となる前記重複レベルと第1音質劣化レベルを決め、前記第2音質評価値に基づいて音質が悪いほど段階的に大となる第2音質劣化レベルを決め、前記第3温室評価値に基づいて音質が悪いほど段階的に大となる第3音質劣化レベルを決め、
    前記パケット作成部は、前記第2及び第3音質劣化レベルのうち小さい方が前記第1音質劣化レベルより小さくないときは、前記現フレームの音声信号のパケットを前記重複レベル数だけ作成し、前記第2及び第3音質劣化レベルが前記第1音質劣化レベルより小さいときは、前記第3音質劣化レベルが前記第2音質劣化レベルより小さくなければ前記現フレームの音声信号のパケットを1個以上と、前記ピッチパラメータのパケットを1個以上とを合計で前記重複レベル数だけ作成し、前記第3音質劣化レベルが前記第2音質劣化レベルより小さければ、前記現フレームの音声信号のパケットを1個以上と、前記ピッチパラメータと前記パワーパラメータを含む補助情報のパケットを1個以上とを合計で前記重複レベル数と同数だけ作成する。
  12. 請求項1記載の音声パケット送信方法をコンピュータで実行可能なプログラム。
  13. 請求項1に記載した音声パケット送信方法をコンピュータで実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006516897A 2004-05-11 2005-05-10 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体 Active JP4320033B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004141375 2004-05-11
JP2004141375 2004-05-11
PCT/JP2005/008519 WO2005109402A1 (ja) 2004-05-11 2005-05-10 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPWO2005109402A1 true JPWO2005109402A1 (ja) 2008-03-21
JP4320033B2 JP4320033B2 (ja) 2009-08-26

Family

ID=35320431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006516897A Active JP4320033B2 (ja) 2004-05-11 2005-05-10 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体

Country Status (6)

Country Link
US (1) US7711554B2 (ja)
EP (1) EP1746581B1 (ja)
JP (1) JP4320033B2 (ja)
CN (1) CN100580773C (ja)
DE (1) DE602005019559D1 (ja)
WO (1) WO2005109402A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
JP4969454B2 (ja) * 2005-11-30 2012-07-04 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
US8255213B2 (en) 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
US8005678B2 (en) 2006-08-15 2011-08-23 Broadcom Corporation Re-phasing of decoder states after packet loss
JP5074749B2 (ja) * 2006-12-04 2012-11-14 日本電信電話株式会社 音声信号受信装置、それに使用される音声パケット消失補償方法、その方法を実施するプログラム、及びそのプログラムを記録した記録媒体
US7873064B1 (en) * 2007-02-12 2011-01-18 Marvell International Ltd. Adaptive jitter buffer-packet loss concealment
US8380525B2 (en) * 2007-06-25 2013-02-19 Telefonaktiebolaget Lm Ericsson (Publ) Continued telecommunication with weak links
CN101588341B (zh) * 2008-05-22 2012-07-04 华为技术有限公司 一种丢帧隐藏的方法及装置
US8537844B2 (en) * 2009-10-06 2013-09-17 Electronics And Telecommunications Research Institute Ethernet to serial gateway apparatus and method thereof
US20110196673A1 (en) * 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
US8612242B2 (en) * 2010-04-16 2013-12-17 St-Ericsson Sa Minimizing speech delay in communication devices
US20110257964A1 (en) * 2010-04-16 2011-10-20 Rathonyi Bela Minimizing Speech Delay in Communication Devices
US8976675B2 (en) * 2011-02-28 2015-03-10 Avaya Inc. Automatic modification of VOIP packet retransmission level based on the psycho-acoustic value of the packet
CN102833037B (zh) * 2012-07-18 2015-04-29 华为技术有限公司 一种语音数据丢包的补偿方法及装置
US8875202B2 (en) * 2013-03-14 2014-10-28 General Instrument Corporation Processing path signatures for processing elements in encoded video
JP7059852B2 (ja) * 2018-07-27 2022-04-26 株式会社Jvcケンウッド 無線通信装置、音声信号制御方法、およびプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097295A (ja) 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
US6167060A (en) * 1997-08-08 2000-12-26 Clarent Corporation Dynamic forward error correction algorithm for internet telephone
JP3734946B2 (ja) 1997-12-15 2006-01-11 松下電器産業株式会社 データ送出装置、データ受信装置及びデータ伝送装置
JP3644477B2 (ja) 1998-10-09 2005-04-27 富士ゼロックス株式会社 音声受信装置および音声送受信装置
KR100722707B1 (ko) 1999-01-06 2007-06-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 멀티미디어 신호를 전송하기 위한 전송 시스템
US7047190B1 (en) * 1999-04-19 2006-05-16 At&Tcorp. Method and apparatus for performing packet loss or frame erasure concealment
FR2804813B1 (fr) 2000-02-03 2002-09-06 Cit Alcatel Procede de codage facilitant la restitution sonore des signaux de parole numerises transmis a un terminal d'abonne lors d'une communication telephonique par transmission de paquets et equipement mettant en oeuvre ce procede
KR100438167B1 (ko) * 2000-11-10 2004-07-01 엘지전자 주식회사 인터넷 전화통신을 위한 음성신호 송수신장치
JP2002162998A (ja) * 2000-11-28 2002-06-07 Fujitsu Ltd パケット修復処理を伴なう音声符号化方法
JP3628268B2 (ja) * 2001-03-13 2005-03-09 日本電信電話株式会社 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
US6910175B2 (en) * 2001-09-14 2005-06-21 Koninklijke Philips Electronics N.V. Encoder redundancy selection system and method
JP3722366B2 (ja) 2002-02-22 2005-11-30 日本電信電話株式会社 パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム
JP4022427B2 (ja) * 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
JP4050961B2 (ja) 2002-08-21 2008-02-20 松下電器産業株式会社 パケット型音声通信端末
US7251241B1 (en) * 2002-08-21 2007-07-31 Cisco Technology, Inc. Devices, softwares and methods for predicting reconstruction of encoded frames and for adjusting playout delay of jitter buffer
JP2004120619A (ja) * 2002-09-27 2004-04-15 Kddi Corp オーディオ情報復号装置
US7359979B2 (en) * 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP

Also Published As

Publication number Publication date
US20070150262A1 (en) 2007-06-28
DE602005019559D1 (de) 2010-04-08
WO2005109402A1 (ja) 2005-11-17
US7711554B2 (en) 2010-05-04
JP4320033B2 (ja) 2009-08-26
EP1746581A1 (en) 2007-01-24
EP1746581A4 (en) 2008-05-28
EP1746581B1 (en) 2010-02-24
CN100580773C (zh) 2010-01-13
CN1906662A (zh) 2007-01-31

Similar Documents

Publication Publication Date Title
JP4320033B2 (ja) 音声パケット送信方法、音声パケット送信装置、および音声パケット送信プログラムとそれを記録した記録媒体
JP4473869B2 (ja) 音響信号のパケット通信方法、送信方法、受信方法、これらの装置およびプログラム
US9270722B2 (en) Method for concatenating frames in communication system
KR101513184B1 (ko) 계층적 디코딩 구조에서의 디지털 오디오 신호의 송신 에러에 대한 은닉
US6389006B1 (en) Systems and methods for encoding and decoding speech for lossy transmission networks
US7778824B2 (en) Device and method for frame lost concealment
RU2713605C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
KR20090051760A (ko) 에코 제거/억압 방법 및 장치
US7302385B2 (en) Speech restoration system and method for concealing packet losses
Lindblom et al. Packet loss concealment based on sinusoidal modeling
KR100594599B1 (ko) 수신단 기반의 패킷 손실 복구 장치 및 그 방법
JP5074749B2 (ja) 音声信号受信装置、それに使用される音声パケット消失補償方法、その方法を実施するプログラム、及びそのプログラムを記録した記録媒体
JP4236675B2 (ja) 音声符号変換方法および装置
JP4093174B2 (ja) 受信装置および方法
JP3754819B2 (ja) 音声通信方法及び音声通信装置
Gokhale Packet loss concealment in voice over internet
JP2004020676A (ja) 音声符号化/復号化方法及び音声符号化/復号化装置
JP2005534984A (ja) 音声フレームのエラー軽減用の音声通信ユニットおよび方法
JP2003295900A (ja) 音声処理方法、音声処理装置、音声処理プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090519

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090529

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4320033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130605

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140605

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350