JPWO2005099243A1 - 音声通信方法及び装置 - Google Patents

音声通信方法及び装置 Download PDF

Info

Publication number
JPWO2005099243A1
JPWO2005099243A1 JP2006500616A JP2006500616A JPWO2005099243A1 JP WO2005099243 A1 JPWO2005099243 A1 JP WO2005099243A1 JP 2006500616 A JP2006500616 A JP 2006500616A JP 2006500616 A JP2006500616 A JP 2006500616A JP WO2005099243 A1 JPWO2005099243 A1 JP WO2005099243A1
Authority
JP
Japan
Prior art keywords
voice
data
encoding
audio
voice communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006500616A
Other languages
English (en)
Other versions
JP4367657B2 (ja
Inventor
洋明 出井
洋明 出井
一範 小澤
一範 小澤
達也 中澤
達也 中澤
和広 小山
和広 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2005099243A1 publication Critical patent/JPWO2005099243A1/ja
Application granted granted Critical
Publication of JP4367657B2 publication Critical patent/JP4367657B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/28Flow control; Congestion control in relation to timing considerations
    • H04L47/283Flow control; Congestion control in relation to timing considerations in response to processing delays, e.g. caused by jitter or round trip time [RTT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)
  • Communication Control (AREA)
  • Telephone Function (AREA)

Abstract

音声通信装置201に複数の符号化部及び復号部を備え、利用可能な伝送帯域、またはユーザの音質要求や遅延要求に応じて符号化方式を切り替える。受信した音声符号化データは該データに付加された符号化方式識別子あるいは通信相手の音声通信装置201から通知される設定情報に基づき最適な復号部を選択して復号する。
復号された音声データは音声データバッファ216に一旦格納されて再生される。この音声データバッファ216に格納される音声データ量は再生する音声が途切れないように制御される。

Description

本発明は、ネットワークを経由して互いに音声を送受信するための音声通信方法及び装置に関する。
近年、ネットワークを経由してパケットにより音声データを送受信する、いわゆるVoIP(Voice over IP)と呼ばれる音声通信が普及してきている。このような音声通信では、音声(音楽や各種の効果音等も含む)を所定の符号化方式を用いて符号化し、該符号化された音声データを送受信することで、広い伝送帯域を専有することなく音質劣化の少ない通信を可能にしている。
音声の符号化方式の代表例としては、G.711、G.729、AMR−NB(Adaptive Multi Rate − Narrow Band)、AMR−WB(Adaptive Multi Rate − Wide Band)、MPEG(Moving Picture Experts Group)−4 AAC(Advanced Audio Codec)等が知られている。これらの符号化方式で符号化された音声データ(以下、音声符号化データと称す)を、パケット交換方式を採用したIP(Internet Protocol)ネットワークを利用して配信する手法がVoIPである(例えば特開2004−072242号公報参照)。VoIPは、今後、PHS(Personal Handyphone System)や携帯電話網等の移動通信システムでも急速に普及することが予想されている。
なお、データの送受信にパケット交換方式のネットワークを利用する場合、受信側ではパケットの到着揺らぎ(ジッタ)が発生する。音声通信装置には、この揺らぎを吸収するために受信データを一時的に蓄積するバッファが必要になる。このバッファのサイズが大きければ、より大きな揺らぎにも対応できるが、音声を再生するまでに時間を要するため音声通信の遅延が拡大する。逆に、バッファサイズを小さくすると、遅延は少なくなるが揺らぎを十分に吸収できないため、再生した音声が途切れる問題が発生する。バッファの制御方法としては、例えばバッファに蓄積されたパケットのデータ量が予め設定されたしきい値を一定時間以上下回った場合に復号処理を停止する方法(特開2002−204258号公報参照)、あるいは受信側で復号処理の周期を調整する方法等が知られている(特開2003−087318号公報参照)。また、受信側からの通知により送信側にてパケットの送信周期を調整する方法もある(特開2003−249977号公報参照)。
上述したVoIP技術を利用した音声通信では、符号化処理の速度である符号化ビットレートの変更が可能になるが、1セッション毎に用いる符号化方式は固定であるため、利用者(ユーザ)のニーズやネットワークの状態に応じて必ずしも最適な符号化方式が選択されるとは限らない。
符号化方式を通信途中で選択可能にする手法として、例えば複数種類の音声符号化データを送信することで、受信側で最適な符号化方式を選択する方法が考えられる。しかしながら、このような方法は利用可能な伝送帯域に余裕のある伝送路でなければ採用することが困難である。
また、上述した特許文献に記載されたバッファの制御方法を音声通信に適用する場合、特開2002−204258号公報に記載された方法では、再生するデータ量よりも受信したデータ量が多い場合にバッファからデータが溢れることで音声が途切れるおそれがある。また、特開2003−087318号公報に記載された方法では、復号処理の周期を調整するために十分なバッファサイズを確保する必要があるため遅延が増加する問題がある。また、特開2003−249977号公報に記載された方法では、ベストエフォート型のネットワークや無線ネットワークのように不安定な伝送路を利用する場合に、通知されたメッセージ自体に揺らぎや欠落が発生する。また、揺らぎの変動が大きいと、これに追従してメッセージの通知や制御を行うのが困難である。
さらに、VoIP技術を利用した音声通信では、音声通信を行う音声通信装置間で特性差がある場合に、音声の取り込みや再生周期に違いが生じるため、これも再生した音声が途切れる要因となる。
また、ネットワークによる伝送遅延に加えて符号化処理による遅延も発生するため、符号化方式によっては、符号化に必要なデータのサンプル数が多くなり、サンプル点の確保に要する時間が音声通信に対する遅延要求を満たさない場合がある。
また、音声通信の上りリンクと下りリンクとで利用可能な帯域や遅延等の通信環境が異なる場合、通信を行う音声通信装置どうしの通信環境を一致させるためには、処理能力の低い方に合わせて低ビットレートで音声符号化データを送受信しなくてはならないため、再生した音声の品質が劣化する問題がある。
さらに、遅延や音質に対するユーザの要求に柔軟に対応するために符号化方式を任意に切り替える場合、単純に切り替えるだけでは、その切り替え時に音声データが不連続となるため、再生した音声が途切れる等の音質劣化が生じる問題もある。
そこで本発明の目的は、音声通信中であっても異なる符号化方式への切り替えを可能にして、音質の劣化や遅延の増加を抑制できる音声通信方法及び装置を提供することにある。
上記目的を達成するため本発明では、音声通信装置に、複数種類の符号化方式に対応するために複数の符号化部及び復号部を備え、利用可能な伝送帯域、あるいは利用者が要求する音質や遅延に応じて符号化方式や標本化周波数を切り替えるようにする。
このようにすると、音声通信中であっても異なる符号化方式への切り替えが可能になるため、音質の劣化や遅延の増加を抑制できる。また、上りリンクと下りリンクとで音声通信装置の通信環境が異なる場合でも、送信する音声データの符号化方式と受信した音声符号化データの復号方式を、上りリンク及び下りリンクの通信環境に応じてそれぞれ最適に選択できるため、より品質の高い安定した音声通信を実現できる。
そして、符号化後の音声符号化データに対応する音声が同期するように、各符号化方式の処理開始タイミングや各符号化方式のフレーム長の違いを考慮して切り替えタイミングを調整すれば、符号化方式の切り替え時に音声が途切れることなく再生できる。
[図1]音声通信システムの一構成例を示すブロック図である。
[図2]本発明の音声通信装置の一構成例を示すブロック図である。
[図3]図2に示した第1の符号化部及び第2の符号化部による符号化処理のタイミングを示すタイミングチャートである。
[図4]本発明の音声通信装置が備えるバッファ制御部の第1の実施の形態の構成を示すブロック図である。
[図5]本発明の音声通信装置が備えるバッファ制御部の第2の実施の形態の構成を示すブロック図である。
次に本発明について図面を参照して説明する。
(第1の実施の形態)
図1は音声通信システムの一構成例を示すブロック図であり、図2は本発明の音声通信装置の一構成例を示すブロック図である。また、図3は図2に示した第1の符号化部及び第2の符号化部による符号化処理のタイミングを示すタイミングチャートであり、図4は本発明の音声通信装置が備えるバッファ制御部の第1の実施の形態の構成を示すブロック図である。なお、図2に示す音声通信装置201は、図1に示した音声通信装置101及び音声通信装置103にそれぞれ適用可能な共通の構成例を示している。
図1に示すように、音声通信システムは、音声データを互いに送受信する2つの音声通信装置101及び音声通信装置103がIP(Internet Protocol)網であるネットワーク102を介して互いに通信可能に接続される構成である。音声通信装置101及び音声通信装置103は互いに周知の呼接続処理を実行することで呼を確立して音声通信を行う。
ネットワーク102には、音声通信装置101及び音声通信装置103に対して呼の確立に必要な情報(呼接続データ)を供給する呼接続サーバ装置104が接続されていてもよい。その場合、音声通信装置101及び音声通信装置103は、先に呼接続サーバ装置104から呼接続データを取得し、その後、取得した呼接続データを用いて呼を確立する。
音声通信装置101及び音声通信装置103は、符号化された音声データや呼接続データをパケット交換方式で送受信する、例えば携帯電話機やパーソナルコンピュータ等の情報処理装置で実現可能である。また、呼接続サーバ装置104は、音声通信装置101及び音声通信装置103に呼接続データを供給して、互いの呼(通信)を確立させるサーバコンピュータ等の情報処理装置で実現可能である。音声通信装置101及び音声通信装置103として携帯電話機を用いる場合、これらは不図示の無線基地局装置を介してネットワーク102へ接続される。
図2に示すように、音声通信装置201は、音声取り込み部205、標本化周波数変換部206、設定・呼接続処理部204、第1の符号化部207、第2の符号化部208、パケット化処理部209、送信部210、受信部211、ペイロード抽出部212、第1の復号部213、第2の復号部214、バッファ制御部215、音声データバッファ216及び音声再生部217を有する構成である。上述したように、音声通信装置201に情報処理装置を用いる場合、図2に示す各構成要素は、CPUを含む情報処理装置とLSIや論理回路等との組み合わせによって実現される。その場合、例えば音声取り込み部205や音声再生部217はLSI(A(Analog)/D(Digital)変換器、D/A変換器)やトランジスタ回路等によって実現される。また、その他の構成要素は、該情報処理装置が備えるCPUが所定のプログラムにしたがって以下に記載する各構成要素の処理を実行することで実現される。なお、音声通信装置201は、図2に示す各構成要素の機能を実現するLSIや論理回路等によって構成されていてもよい。
音声取り込み部205は、マイクロフォン等の音声入力部202から入力された音声信号(アナログ信号)を、設定・呼接続処理部204が指定する標本化周波数や量子化ビット数、あるいは予め設定された標本化周波数や量子化ビット数に基づきデジタルデータから成る音声データに変換する。
第1の符号化部207及び第2の符号化部208は、音声取り込み部205でA/D変換された音声データを、設定・呼接続処理部204が指定する符号化方式や標本化周波数等の符号化情報、あるいは予め設定された符号化情報に基づいて符号化する。
本実施形態では、第1の符号化部207がMPEG−4 AAC方式を用いて音声データを符号化し、第2の符号化部208がAMR−WB方式を用いて音声データを符号化するものとして説明する。第1の符号化部207及び第2の符号化部208が用いる符号化方式は、これらに限定されるものではなく、どのような方式であってもよい。また、第1の符号化部207及び第2の符号化部208は、異なる種類の符号化方式を用いる必要はなく、標本化周波数が異なれば同じ符号化方式を用いてもよい。本実施形態では、説明を簡単にするために2つの符号化部を有する構成を示しているが、符号化部の数は2つに限定されるものではなく、いくつであってもよい。なお、利用可能な伝送帯域に余裕のある伝送路を用いる場合、音声通信装置は複数の符号化部で符号化した音声符号化データをそれぞれ送信してもよい。
パケット化処理部209は、第1の符号化部207及び第2の符号化部208で符号化された音声符号化データの少なくとも一つに、設定・呼接続処理部204が指定する符号化方式の識別子(符号化方式識別子)、あるいは予め設定された符号化方式識別子を付与してパケット化する。この音声符号化データの符号化方式と符号化方式識別子とは互いに対応する関係にあるものとする。
送信部210は、パケット化処理部209で生成されたパケットを、宛先アドレスに応じて設定・呼接続処理部204が指定するポート、あるいは予め設定されたポートを介してネットワーク102へ送出する。例えば、音声符号化データをRTP(Real−time Transport Protocol)にしたがってパケット化して送信する場合、パケット化処理部209は、付加するRTPヘッダに含まれるペイロードの形式やSSRC(Synchronization Source identifier)またはCSRC(Contributing Source identifler)を符号化方式識別子に用いてパケット化する。RTPについては、例えばH.Schulzrinne,S.Casner,R.Frederick,V.Jacobson,″RTP:A Transport Protocol for Real−Time Applications″,RFC 1889,January 1996、インターネット〈URL:http://www.ietf.org/rfc/rfc1889.txt〉やH.Schulzrinne,″RTP Profile for Audio and Video Conferences with Minimal Control″,RFC 1890,January 1996等に詳細に記載されている。
なお、パケット化処理部209及び送信部210は、少なくともその一方を複数の符号化部に対応して複数設けてもよい。その場合、例えば送信部210は、対応するパケット化処理部209で生成されたパケットを、設定・呼接続処理部204が指定する宛先アドレス及びポート、あるいは予め設定された宛先アドレス及びポートを介してネットワーク102にそれぞれ送出すればよい。
本実施形態の音声通信装置201は、設定・呼接続処理部204の制御により、周知のSIP(Session Initiation Protocol)やSDP(Session Description Protocol)を用いて通信相手の音声通信装置と通信に必要な情報を送受信する。その場合、
・通信相手のアドレス及び受信ポート番号、
・送信する音声符号化データの符号化方式、符号化設定(オプション)、
・ペイロードタイプやペイロード・フォーマット、
等の設定情報を通信相手へ通知できる。例えば、符号化方式がAMR−NBであり、RTPのペイロードタイプが97である場合、SDPを用いると、a=rtpmap:97 AMR/8000と記述した情報を送信することで、符号化方式と符号化方式識別子との対応関係を通知できる。このとき、符号化方式と符号化方式識別子との対応関係は、音声通信を行う音声通信装置どうしで予め決定しておいてもよい。但し、符号化方式によっては、ペイロードタイプがRFC1890で既に定められているものがある。例えば、G.729の音声符号化方式では「18」という数値が使用される。これにより符号化方式を特定できる。
設定・呼接続処理部204は、決定した符号化方式の処理を実行するように、音声取り込み部205、標本化周波数変換部206、第1の符号化部207、第2の符号化部208、パケット化処理部209、及び送信部210、受信部211、ペイロード抽出部212、第1の復号部213、第2の復号部214及び音声再生部217に対して、それぞれ必要な指示を与える。
本実施形態の音声通信装置201は、利用者が所望の指示を入力するために不図示の入力手段を備えていてもよい。入力手段を介して音質や遅延時間等の要求が入力された場合、設定・呼接続処理部204は、利用可能な伝送路帯域または入力手段を介して入力された利用者からの要求を基に最適な符号化方式や標本化周波数を選択する。そして、選択した符号化方式にしたがって処理を実行するように、音声取り込み部205、標本化周波数変換部206、第1の符号化部207、第2の符号化部208、パケット化処理部209、送信部210、受信部211、ペイロード抽出部212、第1の復号部213、第2の復号部214及び音声再生部217に対してそれぞれ必要な指示を与える。
受信部211は、設定・呼接続処理部204が指定するポート、あるいは予め設定されたポートを用いて、ネットワーク102を介して送信されたパケットを受信する。
ペイロード抽出部212は、受信部211で受信したパケットから音声符号化データ及び符号化方式識別子をそれぞれ抽出し、設定・呼接続処理部204からの指示にしたがって第1の復号部213または第2の復号部214へ抽出した音声符号化データを供給する。
第1の復号部213及び第2の復号部214は、ペイロード抽出部212から供給された音声符号化データを、設定・呼接続処理部204が指定する復号方式、あるいは予め設定された復号方式にしたがって復号する。
本実施形態では、第1の復号部213がMPEG−4 AAC方式を用いて音声符号化データを復号し、第2の復号部214がAMR−WB方式を用いて音声符号化データを復号するものとして説明する。上述した符号化部と同様に、第1の復号部213及び第2の復号部214が用いる復号方式は、これらに限定されるものではなく、どのような方式であってもよい。また、第1の復号部213及び第2の復号部214は、異なる復号方式を用いる必要はなく、標本化周波数が異なれば同じ復号方式を用いてもよい。本実施形態では、説明を簡単にするために2つの復号部を有する構成を示しているが、復号部の数は2つに限定されるものではなく、いくつであってもよい。
設定・呼接続処理部204は、通信相手の音声通信装置から通知された符号化方式とパケットに付加された符号化方式識別子との組み合わせから受信した音声符号化データの符号化方式を判断し、パケットから抽出した音声符号化データに対応する最適な復号部を選択してペイロード抽出部212へ指示する。
したがって、本実施形態では、送信側の音声通信装置が有する符号化部で符号化された音声符号化データが、受信側の音声通信装置が備える該符号化方式に対応する復号部で再生されるため、通信途中で音声符号化データの符号化方式が切り替わっても正しく復号できる。
バッファ制御部215は、第1の復号部213または第2の復号部214で復号された音声データを、音声データバッファ216のサイズに合わせて縮小または伸張し、音声データバッファ216へ格納する。
音声再生部217は、音声データバッファ216に格納された音声データ(デジタルデータ)を順次読み出してアナログ信号から成る音声信号に変換する。また、必要に応じてD/A変換された音声信号を電力増幅する。音声再生部217によってD/A変換された音声信号はスピーカ等の音声出力部203から出力される。
なお、受信部211及びペイロード抽出部212は、少なくともその一方を複数の復号部に対応して複数設けてもよい。その場合、設定・呼接続処理部204を用いて通信相手の音声通信装置からセッション(またはポート番号)毎の符号化方式や設定情報を受け取るか、あるいはこれらを予め音声通信を行う音声通信装置間で決めておけば、ペイロード抽出部212は、符号化方式識別子が無くても、受信したセッション(またはポート番号)を基に音声符号化データを適切な復号部へ渡すことができる。
上述したように、本実施形態の音声通信装置201では、例えばSDPにしたがって対応可能な符号化方式や復号方式を通信相手の音声通信装置へ通知する。SDPにより対応可能な符号化方式や復号方式を通知する場合、該符号化方式や復号方式は、a=sendonly、a=recvonly等の記述を列挙した情報で表される。このSDPを利用した通信では、送信側の符号化方式と受信側の復号方式とが異なっていてもよく、通信を行う音声通信装置どうしが同一の符号化方式や復号方式を備えていなくてもよい。すなわち、SDPを利用すると、通信を行う音声通信装置どうしが同一の符号化方式と復号方式の組み合わせに対応していなくてもメッセージを送受信することができる。
一方、SIPを用いて呼接続処理を行う場合、図1に示した音声通信装置101及び音声通信装置103は、呼接続サーバ104から通信相手の音声通信装置のアドレスをそれぞれ取得し、SDPを利用して対応する符号化方式の情報等を取得して音声通信を開始する。
SDPについてはM.Handley,V.Jacobson,″SDP: Session Description Protocol″,RFC 2327,April 1998、インターネット〈URL:http://www.ietf.org/rfc/rfc2327.txt〉等に詳細に記載されている。また、SIPについてはM.Handley,H.Schulzrinne,E.Schooler,J.Rosenberg,″SIP: Session Initiation Protocol″,RFC 2543,March 1999、インターネット〈URL:http://www.ietf.org/rfc/rfc2543.txt〉等に詳細に記載されている。
ところで、図2に示した音声通信装置201において、通話時に音声が途切れないように符号化方式を切り替えるためには、音声取り込み部205でA/D変換された音声データを、第1の符号化部207及び第2の符号化部208でそれぞれ符号化する必要がある。
ここで、第1の符号化部207と第2の符号化部208の符号化方式や標本化周波数が異なる場合、本実施形態では、音声取り込み部205でA/D変換された音声データを、標本化周波数変換部206を用いてそれぞれの符号化方式に対応する標本化周波数の音声データに変換する。
例えば、音声取り込み部205が32kHzで標本化を行い、第1の符号化部207が32kHzの標本化周波数でMPEG−4 AAC方式を用いて音声データを符号化し、第2の符号化部208が16kHzの標本化周波数でAMR−WB方式を用いて音声データを符号化する例を考える。この場合、標本化周波数変換部206は、第1の符号化部207に対して標本化周波数を変えずに音声データを出力し、第2の符号化部208に対して標本化周波数を16kHzに変換(ダウンサンプリング)して音声データを出力する。このようにすれば、1つの音声取り込み部205で取り込まれた音声データを、複数の符号化部でそれぞれの符号化方式にしたがって符号化できる。
標本化周波数変換部206は、各符号化部の符号化方式が同一であっても標本化周波数が異なっていれば同様の処理を行う。標本化周波数の変換方法については、周知のどのような技術を用いてもよいため、ここではその詳細な説明を省略する。
なお、音声データの符号化方式には、符号化効率を高めるために過去の音声データを利用して符号化を行う方式がある。そのような符号化方式では、音声入力から対応する音声符号化データが出力されるまでに遅れが生じる。例えば、AMR−WB方式では符号化処理に5ms前の音声データを用いるため、音声入力から対応する音声符号化データが出力されるまでに5msの遅れが生じる。また、MPEG−4 AAC方式では符号化処理で2フレーム分の遅れが生じるため、標本化周波数が32kHzの場合、音声入力から対応する音声符号化データが出力されるまでに64msの遅れが生じる。したがって、送信側で符号化方式を切り替える際には、符号化後の音声符号化データに対応する音声が同期するように、各符号化処理の開始点をそれぞれ調整する。具体的には、図3に示すように、第2の符号化部208によるAMR−WB方式の符号化開始点(t=0)に対して、第1の符号化部207が59ms遅れてMPEG−4 AAC方式の符号化処理を開始すれば、これらの音声符号化データから再生される音声が一致する。
さらに、AMR−WB方式とMPEG−4 AAC方式とで符号化単位であるフレームの長さが異なるため、本実施形態では、送信側で符号化方式を切り替える際に、符号化後の音声符号化データに対応する音声が同期するよう、各符号化方式のフレーム長の違いを考慮して切り替えタイミングを調整する。具体的には、図3に示すように8個のAMR−WB方式のフレーム(AMR出力符号化フレーム)に対して、5個のMPEG−4 AAC方式のフレーム(AAC出力符号化フレーム)が出力された時点で符号化方式を切り替えれば、これらの音声符号化データから再生される音声が一致する。
本実施形態の音声通信装置では、第1の符号化部207及び第2の符号化部208が同時に符号化処理を開始する必要はないが、上述したように、各符号化部による符号化処理の開始(再開)タイミングのずれ、あるいはフレーム長の違いを考慮して符号化方式を切り替える。一方、受信側の音声通信装置では、上記フレーム単位で各復号部が復号方式を切り替えることで音声を途切れることなく再生する。
また、本実施形態の音声通信装置では、設定・呼接続処理部204が指定する符号化方式及び標本化周波数、または予め設定された符号化方式及び標本化周波数に基づき、符号化後の音声符号化データに対応する音声が同期するように、音声データのサンプル数を考慮して符号化方式を切り替えてもよい。例えばAMR−WB符号化方式では、1[ms]当りのサンプル数が16であり、MPEG−4 AAC符号化方式では、標本化周波数が32kHzの場合、1[ms]当りのサンプル数が32となる。すなわち、このサンプル数の関係が維持されるタイミングで符号化方式を切り替えればよい。
なお、標本化周波数が異なる同一の符号化方式へ切り替える場合も、同様の処理を行えば、符号化方式の切り替えによる音質劣化を抑制できる。
次に、図2に示した音声通信装置が備えるバッファ制御部の第1の実施の形態について図4を用いて説明する。
図4に示すように、本実施形態のバッファ制御部215は、バッファ量監視部401、変換パラメータ決定部402及び標本化周波数変換部403を有する構成である。
上述したように、音声データバッファ216に格納されるデータ量は、受信部211で受信するパケットの到着揺らぎ、及び送信側の音声取り込み部205による音声の取り込み周期と受信側の音声再生部217による再生周期のずれによって増減する。
このパケットの到着揺らぎや取り込み周期と再生周期のずれに対応するために音声データバッファ216が存在するが、大きな到着揺らぎに対応するためには、大きなバッファサイズ及び音声データバッファ216へ格納する目標とする音声データ量(以下、標準量と称す)を大きく設定しなければならないために音声通信の遅延が増加する。
本実施形態では、受信部211で音声符号化データの到着間隔の揺らぎを計測し、この音声データバッファ216に格納する音声データの標準量が、揺らぎの大きさに合わせることで大きくなり過ぎないように最適に設定する。
さらに、より小さいサイズの音声データバッファ216で対応可能とするために、バッファ制御部215は復号された音声データを加工して音声データバッファ216へ格納する。また、バッファ制御部215は音声データバッファ216に格納されたデータ量をバッファ量監視部401で監視する。
変換パラメータ決定部402は、音声データバッファ216内の音声データの残存量と、設定・呼接続処理部204が指定する符号化方式にしたがって変換後の標本化周波数を決定する。
標本化周波数変換部403は、バッファ制御部215に入力される音声データの標本化周波数を、変換パラメータ決定部401が決定した標本化周波数へ変換し、音声データバッファ216へ出力する。例えば、符号化方式や標本化周波数が異なる音声データへの切り替えがなく、音声データバッファ216内のデータ量が減少傾向にある場合、標本化周波数変換部403は、その割合に応じて標本化周波数が高くなるように周波数変換(アップサンプリング)する。その場合、音声データのサンプル数が増えるため、音声データバッファ216に格納される音声データの減少を補うことができる。逆に、音声データバッファ216内のデータ量が増加傾向にある場合、標本化周波数変換部403は標本化周波数が低くなるように周波数変換(ダウンサンプリング)する。その場合、音声データのサンプル数が減るため、音声データバッファ216に格納される音声データの増加を抑制できる。
なお、第1の復号部213から出力される音声データと第2の復号部214から出力される音声データとを途切れることなく切り替えるためには、これらの音声データを一つの音声データバッファ216へ格納して再生する必要がある。
バッファ制御部215は、復号方式を切り替える際、上述した音声データバッファ216内のデータ量を調整するために、標本化周波数を変換する処理に加えて、以下に記載する復号方式に応じた標本化周波数の変換処理も行う。
具体的には、第2の復号部214から出力されるAMR−WB方式で復号された音声データの標本化周波数(16kH)を、第1の復号部213から出力されるMPEG−4 AAC方式で復号された音声データの標本化周波数(32kHz)と一致するように周波数変換を行う。但し、標本化周波数が異なる場合、符号化処理や復号処理が可能な音声信号の帯域も異なるため、異なる復号方式の音声データへ切り替えると、再生した音声の帯域の違いが聴感上で違和感となることがある。
MPEG−4 AAC方式のように一定のサンプル周期毎に符号化処理を行う方式では、標本化周波数を高くすることで符号化処理による遅延が少なくなるが、符号化ビットレートが同一であってもネットワーク102へ送出するパケット数が増加するため、(RTP/)UDP(User Datagram Protocol)/IPヘッダに要するオーバヘッド量が増加してしまう。したがって、利用可能な伝送帯域が低い伝送路においては、遅延が多くなるが、音質を維持するために標本化周波数を低くして少ないオーバヘッド量で送信する。また、利用可能な伝送帯域に余裕がある伝送路においては、オーバヘッド量が多くなるが、標本化周波数を高くして少ない遅延量で送信する手法も可能である。
しかしながら、このような手法でも再生する音声の帯域の違いによる違和感は無くすことができない。そのため、本実施形態の音声通信装置では、このような違和感を抑制するために、
ア)より低い方の標本化周波数に揃うように標本化周波数を変換する。
イ)各符号化部における符号語の割り当てを、最も低い標本化周波数の音声データの帯域までとする。
特に、音楽ではなく音声のみを送信する場合は、第1の符号化部207及び第2の符号化部208における符号語の割り当て帯域制限が音質の向上につながる場合がある。本実施形態では、複数種類の符号化方式や標本化周波数の音声符号化データを受信した場合も、復号処理はいずれか1つの音声符号化データに対して行えばよいため、復号処理に必要な演算量の増加を最小限に抑制できる。
バッファ量監視部401は、音声データバッファ216に格納される音声データが無くなるおそれがあるとき、パディングデータ挿入部404に指示して無音の音声データを音声データバッファ216へ挿入することで補充する。または、音声データを再生している復号部に対して、該復号部の復号方式が備えるエラー隠蔽(コンシールメント)処理による音声データの出力を指示し、これを音声データバッファ216へ挿入する。このような処理を行うことで、音声データバッファ216が空になることによる再生音声の途切れを防止できる。
さらに、バッファ量監視部401は、音声データバッファ216に格納された音声データが溢れそうなとき、標本化周波数変化部403に対して入力された音声データを廃棄するように指示し、再生音声の途切れを抑制する。その際、入力音声データの音量(電力)または振幅量の少なくともいずれか一方に基づいて無音と判定した音声データを廃棄すれば、再生音の劣化を最小限に抑制できる。
バッファ量監視部401は、設定・呼接続処理部204、音声再生部217、第1の復号部213または第2の復号部214の少なくともいずれか1つの指示にしたがって上記処理を実行してもよく、タイマー等を用いて所定の時間毎に上記処理を実行してもよい。音声再生部217による指示とは、音声再生部217で一定量の音声データを再生する毎にバッファ量監視部401に音声データバッファ216のデータ残存量を確認させる指示であり、監視結果に基づいて前記の処理を実行させればよい。
また、本実施形態の音声通信装置201では、受信部211の後段に受信バッファ218を備え、該受信バッファ218に受信した音声符号化データを一時的に格納してもよい。その場合、音声再生部217は、一定量の音声データを再生する毎に、格納している音声符号化データの先頭データをペイロード抽出部212へ出力するように受信バッファ218へ指示すればよい。その際、受信バッファ218が空のときは、音声データを再生している復号部に対して、該復号部の復号方式が備えるエラー隠蔽処理による音声データの出力を指示する。この場合、音声再生部217における音声再生が処理の起動トリガとなるため、音声データを消費した分だけ、それに続く音声符号化データが受信バッファ218から出力される。したがって、音声データバッファ216に格納すべき音声データの標準量を最小限に設定できるため、遅延が少ない音声通信が可能になる。
本実施形態の音声通信装置のように音声データに対する符号化方式を切り替えるメリットとしては、音声通信中でも利用者が要求する音質や遅延時間、あるいは伝送路の利用可能な帯域に応じて、符号化方式を最適に切り替えることができることにある。
本実施形態の場合、第1の符号化部207や第1の復号部213で採用するMPEG−4 AAC方式は、音声だけでなく音楽の伝送も可能な高品質な符号化方式であるが、符号化や復号に要する処理時間が長くなる。一方、第2の符号化部208や第2の復号部214で採用するAMR−WB方式は、音声に特化した符号化方式であるため、音楽のような広帯域の信号を伝送するには不向きである。しかしながら、AMR−WB方式は、符号化や復号に要する処理時間が短く、かつ符号化ビットレートも低くて済むため、伝送帯域が制限される通信環境下であっても安定した音声通信を実現できる。
本実施形態の音声通信装置は、音声データの符号化部や復号部を複数備えているため、送信用と受信用の符号化方式と復号方式が一致していなくても音声通信が可能になる。例えば、上りリンク(送信)と下りリンク(受信)とで帯域または伝送路の安定性が非対称の通信網を利用する場合でも音声通信が可能である。具体的には、上りリンクでは帯域が制限され、下りリンクでは帯域に余裕がある通信環境下の場合、第2の符号化部208を用いてAMR−WB方式で符号化した音声符号化データを上りリンクを介して送信し、MPEG−4 AACで符号化された音声符号化データを下りリンクを介して受信し、第1の復号部213で復号して再生することが可能である。そのため、より品質の高い安定した音声通信を実現できる。
なお、符号化方式の切り替えは、上述した設定・呼接続処理部204からの指示、あるいは予め設定しておく手法だけでなく、例えばパケットの到着揺らぎやパケット損失率等のパケット到着状況を設定・呼接続処理部204を用いて通信相手の音声通信装置へ通知し、該パケット到着状況に応じて送信側で符号化方式を切り替える方法でもよい。また、送信側の音声通信装置に対して符号化方式の変更を指示する方法でもよい。
(第2の実施の形態)
次に本発明の音声通信装置の第2の実施の形態について図面を用いて説明する。
図5は本発明の音声通信装置が備えるバッファ制御部の第2の実施の形態の構成を示すブロック図である。
本実施形態の音声通信装置は、バッファ制御部215の構成が第1の実施の形態と異なっている。その他の構成や動作は第1の実施の形態と同様であるため、その詳細な説明は省略する。
図5に示すように、第2の実施の形態のバッファ制御部は、第1の実施の形態で示した変換パラメータ決定部402及び標本化周波数変換部403に代えて、データ選択決定部501を有する構成である。バッファ量監視部401及びパディングデータ挿入部404については、第1の実施の形態と同様であるため、その説明は省略する。
データ選択決定部501は、バッファ量監視部401による音声データバッファ216の監視結果にしたがって、音声データバッファ216に格納されたデータ量が増加傾向にある場合は、その割合に合わせて第1の復号部213または第2の復号部214で復号された音声データを間引いて音声データバッファ216へ格納する。その際、データ選択決定部501は、音声データの音量を判定し、無音と判定した音声データを廃棄すれば再生音の劣化を最小限に抑制できる。
本実施形態の音声通信装置は、音声データを間引くために第1の実施の形態の音声通信装置に比べて再生音質が劣化するおそれがある。しかしながら、標本化周波数変換のような大きな演算量を要する処理を行わないため、大きな演算量を実行できない、例えば携帯電話機等を音声通信装置として用いる場合に容易に適用できる。

Claims (68)

  1. 送信対象の音声データを、対応可能な複数種類の符号化方式を用いてそれぞれ符号化し、
    該符号化された音声データである音声符号化データのうち、少なくとも一つの種類の音声符号化データを送信し、
    前記音声符号化データを受信すると、該音声符号化データを、対応可能な複数種類の復号方式の中から該音声符号化データに適切な復号方式で復号し、
    前記復号された音声データを音声データ用のバッファへ一時的に格納し、
    前記音声データ用のバッファから該音声データを順次読み出して再生する音声通信方法。
  2. 複数種類の符号化方式は、それぞれが異なる標本化周波数である請求項1記載の音声通信方法。
  3. 送信する音声符号化データの符号化方式と、受信した音声符号化データを復号する復号方式に対応する符号化方式とが異なる種類である請求項1記載の音声通信方法。
  4. 符号化後の音声符号化データに対応する音声が同期するように、各符号化方式の処理開始タイミングをそれぞれ移動させる請求項1記載の音声通信方法。
  5. 符号化後の音声符号化データに対応する音声が同期するように、各符号化方式の音声データのサンプル数をそれぞれ設定する請求項1記載の音声通信方法。
  6. 符号化後の音声符号化データに対応する音声が同期するように、符号化方式毎に異なる符号化単位であるフレームの長さに応じて、前記符号化方式の切り替えタイミングを調整する請求項1記載の音声通信方法。
  7. 音声符号化データを、符号化方式毎に異なるフレーム単位で復号する請求項1記載の音声通信方法。
  8. 送信対象の音声データの標本化周波数を、各符号化方式に対応する標本化周波数にそれぞれ変換する請求項1記載の音声通信方法。
  9. 符号化方式毎に割り当てる符号語の帯域を、複数種類の符号化方式のうち、最も低い標本化周波数の音声データの帯域までとする請求項1記載の音声通信方法。
  10. 音声符号化データに、該音声符号化データの符号化方式に対応する符号化方式識別子を付与して送信する請求項1記載の音声通信方法。
  11. 利用可能な伝送路の帯域または入力手段を介して入力された利用者からの要求の少なくともいずれか一方を基に、送信する音声符号化データを選択する請求項1記載の音声通信方法。
  12. 復号した音声データの標本化周波数を、音声データ用のバッファに格納された音声データ量に応じて変換する請求項1記載の音声通信方法。
  13. 音声データ用のバッファに格納する、音声データの目標量である標準量を、音声符号化データの到着揺らぎに合わせて設定する請求項1記載の音声通信方法。
  14. 音声データ用のバッファに格納される音声データ量が該音声データ用のバッファのサイズを越える場合、無音と判定した音声データを廃棄する請求項1記載の音声通信方法。
  15. 音声データ用のバッファに格納された音声データ量が無くなる場合、音声データを補充する請求項1記載の音声通信方法。
  16. 受信した音声符号化データを一時的に受信バッファへ格納し、
    所定量の音声データが再生される毎に前記受信バッファに格納されている先頭の音声符号化データを出力し、前記受信バッファが空になる場合は音声データを補充する請求項1記載の音声通信方法。
  17. 補充する音声データは、無音の音声データである請求項15記載の音声通信方法。
  18. 補充する音声データは、前記復号方式が備えるエラー隠蔽復号データである請求項15記載の音声通信方法。
  19. 補充する音声データは、無音の音声データである請求項16記載の音声通信方法。
  20. 補充する音声データは、前記復号方式が備えるエラー隠蔽復号データである請求項16記載の音声通信方法。
  21. 受信した音声符号化データに付加される符号化方式を識別するための符号化方式識別子、呼接続処理により得られる符号化方式の情報、呼接続処理により得られる符号化に関する設定情報、または音声符号化データを受信するセッションのうち、少なくとも1つの情報を基に受信した音声符号化データの復号方式を選択する請求項1記載の音声通信方法。
  22. 受信した音声符号化データの到着揺らぎまたは損失率を含む受信データの到着状況を通信相手へ送信し、
    前記到着状況を受信すると、該到着状況に応じて送信する音声符号化データの符号化方式または標本化周波数の少なくとも一方を切り替える請求項1記載の音声通信方法。
  23. 送信対象となる音声から所定の標本化周波数でデジタル化された音声データを生成する音声取り込み部と、
    前記音声データを対応可能な複数種類の符号化方式でそれぞれ符号化する複数の符号化部と、
    前記符号化された音声データである音声符号化データのうち、少なくとも一つの種類の音声符号化データを送信する送信部と、
    前記音声符号化データを受信すると、該音声符号化データを、対応可能な複数種類の復号方式の中から該音声符号化データに適切な復号方式で復号する、それぞれが異なる種類の復号方式で復号する複数の復号部と、
    前記復号部で復号された音声データを一時的に格納する音声データバッファと、
    前記音声データバッファから該音声データを順次読み出して再生する音声再生部と、
    前記符号化方式及び前記復号方式の切り替えを制御する設定・呼接続処理部と、を有する音声通信装置。
  24. 複数の符号化部は、
    それぞれが異なる標本化周波数で符号化する請求項23記載の音声通信装置。
  25. 送信部で送信する音声符号化データの符号化方式と、受信した音声符号化データを復号する復号方式に対応する符号化方式とが異なる種類である請求項23記載の音声通信装置。
  26. 複数の符号化部は、
    符号化後の音声符号化データに対応する音声が同期するように、それぞれの処理開始タイミングを移動させる請求項23記載の音声通信装置。
  27. 複数の符号化部は、
    符号化後の音声符号化データに対応する音声が同期するように、それぞれの音声データのサンプル数を設定する請求項23記載の音声通信装置。
  28. 複数の符号化部は、
    符号化後の音声符号化データに対応する音声が同期するように、符号化方式毎に異なる符号化単位であるフレームの長さに応じて、前記符号化方式の切り替えタイミングを調整する請求項22記載の音声通信装置。
  29. 複数の復号部は、
    音声符号化データを、符号化方式毎に異なるフレーム単位で復号する請求項23記載の音声通信装置。
  30. 送信対象の音声データの標本化周波数を、符号化部の符号化方式に対応する標本化周波数にそれぞれ変換する標本化周波数変換部を有する請求項23記載の音声通信装置。
  31. 複数の符号化部は、
    符号化方式毎に割り当てる符号語の帯域を、複数種類の符号化方式のうち、最も低い標本化周波数の音声データの帯域までとする請求項23記載の音声通信装置。
  32. 音声符号化データに、該音声符号化データの符号化方式に対応する符号化方式識別子を付与して送信するパケット化処理部を有する請求項23記載の音声通信装置。
  33. 設定・呼接続処理部は、
    利用可能な伝送路の帯域または入力手段を介して入力された利用者からの要求の少なくともいずれか一方を基に、送信する音声符号化データを送信部に選択させる請求項23記載の音声通信装置。
  34. 復号した音声データの標本化周波数を、音声データバッファに格納された音声データ量に応じて変換するバッファ制御部を有する請求項23記載の音声通信装置。
  35. バッファ制御部は、
    音声データバッファに格納する音声データの目標量である標準量を、音声符号化データの到着揺らぎに合わせて設定する請求項34記載の音声通信装置。
  36. バッファ制御部は、
    音声データバッファに格納される音声データ量が該音声データバッファのサイズを越える場合、無音と判定した音声データを廃棄する請求項34記載の音声通信装置。
  37. バッファ制御部は、
    音声データバッファに格納された音声データ量が無くなる場合、音声データを補充する請求項34記載の音声通信装置。
  38. 受信した音声符号化データが一時的に格納される受信バッファを有し、
    音声再生部は、
    所定量の音声データが再生される毎に前記受信バッファに格納されている先頭の音声符号化データを出力するように指示し、前記受信バッファが空になる場合は音声データを補充する請求項23記載の音声通信装置。
  39. 補充する音声データは、無音の音声データである請求項37記載の音声通信装置。
  40. 補充する音声データは、前記復号方式が備えるエラー隠蔽復号データである請求項37記載の音声通信装置。
  41. 補充する音声データは、無音の音声データである請求項38記載の音声通信装置。
  42. 補充する音声データは、前記復号方式が備えるエラー隠蔽復号データである請求項38記載の音声通信装置。
  43. 設定・呼接続処理部は、
    受信した音声符号化データに付加される符号化方式を識別するための符号化方式識別子、呼接続処理により得られる符号化方式の情報、呼接続処理により得られる符号化に関する設定情報、または音声符号化データを受信するセッションのうち、少なくとも1つの情報を基に受信した音声符号化データの復号方式を選択する請求項23記載の音声通信装置。
  44. 設定・呼接続処理部は、
    受信した音声符号化データの到着揺らぎまたは損失率を含む受信データの到着状況を通信相手へ送信し、
    前記到着状況を受信すると、該到着状況に応じて送信する音声符号化データの符号化方式または標本化周波数の少なくとも一方を切り替える請求項23記載の音声通信装置。
  45. ネットワークを介して互いに通信可能に接続される請求項23記載の音声通信装置を有する音声通信システム。
  46. 音声通信装置間の呼の確立に必要な情報を該音声通信装置にそれぞれ供給する、ネットワークを介して前記音声通信装置と通信可能に接続される呼接続サーバ装置を有する請求項45記載の音声通信システム。
  47. ネットワークを経由して互いに音声を送受信するコンピュータに実行させるためのプログラムであって、
    所定の標本化周波数でデジタル化された送信対象の音声データを、対応可能な複数種類の符号化方式を用いてそれぞれ符号化し、
    該符号化された音声データである音声符号化データのうち、少なくとも一つの種類の音声符号化データを送信部から送信させ、
    前記音声符号化データを受信すると、該音声符号化データを、対応可能な複数種類の復号方式の中から該音声符号化データに適切な復号方式で復号し、
    前記復号された音声データを音声データ用のバッファへ一時的に格納し、
    前記音声データ用のバッファから前記音声データを順次読み出して再生するための処理をコンピュータに実行させるためのプログラム。
  48. 複数種類の符号化方式は、それぞれが異なる標本化周波数である請求項47記載のプログラム。
  49. 送信する音声符号化データの符号化方式と、受信した音声符号化データを復号する復号方式に対応する符号化方式とが異なる種類である請求項47記載のプログラム。
  50. 符号化後の音声符号化データに対応する音声が同期するように、各符号化方式の処理開始タイミングをそれぞれ移動させる請求項47記載のプログラム。
  51. 符号化後の音声符号化データに対応する音声が同期するように、各符号化方式の音声データのサンプル数をそれぞれ設定する請求項47記載のプログラム。
  52. 符号化後の音声符号化データに対応する音声が同期するように、符号化方式毎に異なる符号化単位であるフレームの長さに応じて、符号化方式の切り替えタイミングを調整する請求項47記載のプログラム。
  53. 音声符号化データを、符号化方式毎に異なるフレーム単位で復号する請求項47記載のプログラム。
  54. 送信対象の音声データの標本化周波数を、各符号化方式に対応する標本化周波数にそれぞれ変換する請求項47記載のプログラム。
  55. 符号化方式毎に割り当てる符号語の帯域を、複数種類の符号化方式のうち、最も低い標本化周波数の音声データの帯域までとする請求項47記載のプログラム。
  56. 音声符号化データに、該音声符号化データの符号化方式に対応する符号化方式識別子を付与して送信部より送信させる請求項47記載のプログラム。
  57. 利用可能な伝送路の帯域または入力手段を介して入力された利用者からの要求の少なくともいずれか一方を基に、送信する音声符号化データを選択する請求項47記載のプログラム。
  58. 復号した音声データの標本化周波数を、音声データ用のバッファに格納された音声データ量に応じて変換する請求項47記載のプログラム。
  59. 音声データ用のバッファに格納する音声データの目標量である標準量を、音声符号化データの到着揺らぎに合わせて設定する請求項47記載のプログラム。
  60. 音声データ用のバッファに格納される音声データ量が該音声データ用のバッファのサイズを越える場合、無音と判定した音声データを廃棄する請求項47記載のプログラム。
  61. 音声データ用のバッファに格納された音声データ量が無くなる場合、音声データを補充する請求項47記載のプログラム。
  62. 受信した音声符号化データを一時的に受信バッファへ格納し、
    所定量の音声データが再生される毎に前記受信バッファに格納されている先頭の音声符号化データを出力し、前記受信バッファが空になる場合は音声データを補充する請求項47記載のプログラム。
  63. 補充する音声データは、無音の音声データである請求項61記載のプログラム。
  64. 補充する音声データは、前記復号方式が備えるエラー隠蔽復号データである請求項61記載のプログラム。
  65. 補充する音声データは、無音の音声データである請求項62記載のプログラム。
  66. 補充する音声データは、前記復号方式が備えるエラー隠蔽復号データである請求項62記載のプログラム。
  67. 受信した音声符号化データに付加される符号化方式を識別するための符号化方式識別子、呼接続処理により得られる符号化方式の情報、呼接続処理により得られる符号化に関する設定情報、または音声符号化データを受信するセッションのうち、少なくとも1つの情報を基に受信した音声符号化データの復号方式を選択する請求項47記載のプログラム。
  68. 受信した音声符号化データの到着揺らぎまたは損失率を含む受信データの到着状況を通信相手へ送信部に送信させ、
    前記到着状況を受信すると、該到着状況に応じて送信する音声符号化データの符号化方式または標本化周波数の少なくとも一方を切り替える請求項47記載のプログラム。
JP2006500616A 2004-04-09 2005-04-08 音声通信方法及び装置 Expired - Fee Related JP4367657B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004115408 2004-04-09
JP2004115408 2004-04-09
PCT/JP2005/006904 WO2005099243A1 (ja) 2004-04-09 2005-04-08 音声通信方法及び装置

Publications (2)

Publication Number Publication Date
JPWO2005099243A1 true JPWO2005099243A1 (ja) 2008-03-06
JP4367657B2 JP4367657B2 (ja) 2009-11-18

Family

ID=35125453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006500616A Expired - Fee Related JP4367657B2 (ja) 2004-04-09 2005-04-08 音声通信方法及び装置

Country Status (6)

Country Link
US (1) US20070223660A1 (ja)
EP (1) EP1742455A1 (ja)
JP (1) JP4367657B2 (ja)
KR (1) KR20070001267A (ja)
CN (1) CN1947407A (ja)
WO (1) WO2005099243A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653533B2 (en) 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
BRPI0707135A2 (pt) * 2006-01-18 2011-04-19 Lg Electronics Inc. aparelho e método para codificação e decodificação de sinal
JP4280272B2 (ja) * 2006-05-31 2009-06-17 株式会社東芝 情報処理装置
WO2008011902A1 (de) 2006-07-28 2008-01-31 Siemens Aktiengesellschaft Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern
KR100921869B1 (ko) * 2006-10-24 2009-10-13 주식회사 대우일렉트로닉스 음원의 오류 검출 장치
US8279889B2 (en) 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
US20080170562A1 (en) * 2007-01-12 2008-07-17 Accton Technology Corporation Method and communication device for improving the performance of a VoIP call
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
ES2376178T3 (es) * 2007-06-14 2012-03-09 France Telecom Post-tratamiento de reducción del ruido de cuantificación de un codificador en la decodificación.
KR101381513B1 (ko) 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
JP2010124063A (ja) * 2008-11-17 2010-06-03 Oki Electric Ind Co Ltd 接続制御装置、方法及びプログラム
JP2010197957A (ja) * 2009-02-27 2010-09-09 Seiko Epson Corp 画像音声供給装置、画像音声出力装置、画像供給方法、画像音声出力方法、及びプログラム
JP5318658B2 (ja) * 2009-05-21 2013-10-16 株式会社エヌ・ティ・ティ・ドコモ 通信制御装置、及びコーデック切替方法
CN101616218A (zh) * 2009-07-31 2009-12-30 中兴通讯股份有限公司 彩铃试听方法、终端和服务器
US8532804B2 (en) * 2010-06-18 2013-09-10 Microsoft Corporation Predictive resampler scheduler algorithm
JP5749462B2 (ja) 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
CN101902257A (zh) * 2010-08-27 2010-12-01 李湛 移动终端远程设置方法
CN105229730A (zh) * 2012-11-09 2016-01-06 斯托明瑞士有限责任公司 多信道信号的非线性逆编码
WO2014139085A1 (en) * 2013-03-12 2014-09-18 Hewlett-Packard Development Company, L.P. Identifying transport-level encoded payloads
US9437205B2 (en) * 2013-05-10 2016-09-06 Tencent Technology (Shenzhen) Company Limited Method, application, and device for audio signal transmission
EP2863386A1 (en) * 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
CN104254007B (zh) * 2014-09-03 2017-11-03 海信集团有限公司 一种音频处理方法及装置
JPWO2016088582A1 (ja) * 2014-12-04 2017-09-21 ソニー株式会社 データ処理装置、データ処理方法、及び、プログラム
WO2016157657A1 (ja) * 2015-04-03 2016-10-06 株式会社Nttドコモ ユーザ装置及び基地局
DE102017100076A1 (de) * 2017-01-04 2018-07-05 Sennheiser Electronic Gmbh & Co. Kg Verfahren zur latenzarmen Audioübertragung in einem LTE-Netzwerk
US10097594B1 (en) * 2017-08-31 2018-10-09 T-Mobile Usa, Inc. Resource-managed codec selection
JP6824212B2 (ja) * 2018-03-12 2021-02-03 日本電信電話株式会社 断監視終端装置及び断監視方法
CN109450490B (zh) * 2018-11-02 2019-11-19 南京中感微电子有限公司 一种音频数据通信设备及系统
CN110855619B (zh) * 2019-10-12 2021-03-23 安徽文香信息技术有限公司 播放音视频数据的处理方法、装置、存储介质及终端设备
CN111199743B (zh) * 2020-02-28 2023-08-18 Oppo广东移动通信有限公司 音频编码格式确定方法、装置、存储介质及电子设备
CN113472944B (zh) * 2021-08-05 2022-12-13 苏州欧清电子有限公司 智能终端的语音自适应处理方法、装置、设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5157728A (en) * 1990-10-01 1992-10-20 Motorola, Inc. Automatic length-reducing audio delay line
JPH06180948A (ja) * 1992-12-11 1994-06-28 Sony Corp ディジタル信号処理装置又は方法、及び記録媒体
JP3216319B2 (ja) * 1993-03-23 2001-10-09 ソニー株式会社 ディジタルオーディオ送信装置及び受信装置並びに送受信装置
US20020069074A1 (en) * 1998-11-03 2002-06-06 Mark E. Eidson Mixing diversely encoded data streams
US6760323B1 (en) * 1999-02-04 2004-07-06 Concerto Software, Inc. System and method for providing audio communication over a computer network using differing communication formats
US6952668B1 (en) * 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
JP4218186B2 (ja) * 1999-05-25 2009-02-04 パナソニック株式会社 音声伝送装置
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
JP4211165B2 (ja) * 1999-12-10 2009-01-21 ソニー株式会社 符号化装置及び方法、記録媒体、並びに復号装置及び方法
DE10006245A1 (de) * 2000-02-11 2001-08-30 Siemens Ag Verfahren zum Verbessern der Qualität einer Audioübertragung über ein paketorientiertes Kommunikationsnetz und Kommunikationseinrichtung zur Realisierung des Verfahrens
JP3891755B2 (ja) * 2000-03-27 2007-03-14 沖電気工業株式会社 パケット受信装置
JP2001308919A (ja) * 2000-04-25 2001-11-02 Oki Electric Ind Co Ltd 通信装置
JP2002247137A (ja) * 2000-04-25 2002-08-30 Canon Inc 通信装置及び通信方法
US7111049B1 (en) * 2000-08-18 2006-09-19 Kyle Granger System and method for providing internet based phone conferences using multiple codecs
EP1215663A1 (en) * 2000-12-15 2002-06-19 BRITISH TELECOMMUNICATIONS public limited company Encoding audio signals
JP2002290973A (ja) * 2001-03-28 2002-10-04 Mitsubishi Electric Corp マルチメディア通信装置
US7457358B2 (en) * 2001-09-26 2008-11-25 Interact Devices, Inc. Polymorphic codec system and method
JP2003198655A (ja) * 2001-10-03 2003-07-11 Victor Co Of Japan Ltd 伝送出力装置、復号装置、伝送出力プログラム、及び、復号プログラム

Also Published As

Publication number Publication date
EP1742455A1 (en) 2007-01-10
WO2005099243A1 (ja) 2005-10-20
CN1947407A (zh) 2007-04-11
JP4367657B2 (ja) 2009-11-18
US20070223660A1 (en) 2007-09-27
KR20070001267A (ko) 2007-01-03

Similar Documents

Publication Publication Date Title
JP4367657B2 (ja) 音声通信方法及び装置
US8089948B2 (en) Header compression of multimedia data transmitted over a wireless communication system
CN107408395B (zh) 会议音频管理
KR100763269B1 (ko) 화상 부호화 데이터의 전환 방법 및 장치, 시스템 및 프로그램을 기록한 기록 매체
JP5442771B2 (ja) 通信システムにおけるデータ送信方法
JP4426454B2 (ja) 通信リンク間の遅延トレードオフ
US7680099B2 (en) Jitter buffer adjustment
EP2105014B1 (en) Receiver actions and implementations for efficient media handling
US20070198878A1 (en) Two-way communication method, apparatus, system, and program
JP2009076952A (ja) Tv会議装置およびtv会議方法
US20090259460A1 (en) Silence-based adaptive real-time voice and video transmission methods and system
JP4050961B2 (ja) パケット型音声通信端末
JP4218456B2 (ja) 通話装置、通話方法及び通話システム
JP2005045739A (ja) 通話装置、通話方法及び通話システム
JP2006074555A (ja) マルチメディアゲートウェイにおける音声・動画調整方式
JP2008099209A (ja) コンテンツ再生装置とその再生タイミング同期方法
JP2009124320A (ja) 通信端末装置及びコンピュータプログラム
JP2009055469A (ja) 送信端末
JP2005244751A (ja) 音声通信システム及び移動局
JP2005045740A (ja) 通話装置、通話方法及び通話システム
JP2005045737A (ja) 通話装置及び通話方法、並びに通話システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090805

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090818

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120904

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees