WO2010106743A1

WO2010106743A1 - 画像音声通信装置およびその通信方法

Info

Publication number: WO2010106743A1
Application number: PCT/JP2010/001362
Authority: WO
Inventors: 本田義雅
Original assignee: パナソニック株式会社
Priority date: 2009-03-16
Filing date: 2010-03-01
Publication date: 2010-09-23
Also published as: US9007525B2; CN102067595B; JP5490782B2; JPWO2010106743A1; US20110063504A1; CN102067595A

Abstract

ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる画像音声通信装置は、ネットワークを通じて、画像および音声を送受信する送受信部（１０６／１０８）と、前記送受信部により送信される音声、または前記送受信部により受信された画像もしくは音声の内容に基づいて、当該受信された画像または音声におけるＰＴＳの補正量を更新すべきタイミングを判定するＰＴＳ補正タイミング判定部（１１１）と、前記ＰＴＳ補正タイミング判定部により判定されたタイミングに当該受信された画像または音声におけるＰＴＳの補正量を更新することにより、当該ＰＴＳを補正するＰＴＳ補正部（１１２）と、前記画像音声通信装置が示す現在時刻における補正された当該ＰＴＳに対応する当該受信された画像および音声を出力する画像音声出力部（１１３）とを備える。

Description

画像音声通信装置およびその通信方法

　本発明は、画像音声通信装置およびその通信方法に関し、特にＴＶ会議を行うための画像音声通信装置およびその通信方法に関する。

　近年、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）および光ファイバー網が急速に普及し、低価格で高速なインターネット接続が利用可能となっている。また、こうした低価格の高速インターネットを利用して遠隔の拠点間の映像音声データを双方向に伝送することにより、簡易にＴＶ会議システムを構築することも可能となっている。

　そして、構築可能なＴＶ会議システムとして、ＨＤ（Ｈｉｇｈ　Ｄｅｆｉｎｉｔｉｏｎ）解像度を撮像可能なカメラの出現とＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）に代表されるディスプレイ大型化とにより、大画面ディスプレイに等身大で人物を表示するなど対面感のある臨場感の高いＴＶ会議システムがある。

　このような対面感のある臨場感の高い大画面ＴＶ会議システムでは、例えば１９２０ｘ１０８０画素のフルＨＤで秒６０フレームの高精細の動きが滑らかな映像を用いて、等身大で表示することが可能である。そのため、映像の途切れあるいは音声の途切れは品質劣化につながってしまう。

　また、ＴＶ会議装置システムでは、映像音声の一方方向の放送と異なり、映像音声の双方向通信を行うが、送信端末となるＴＶ会議装置と受信端末となるＴＶ会議装置のシステムクロックを同期させることができない。

　そのため、受信端末となるＴＶ会議装置では、送信端末となるＴＶ会議装置側でパケット毎に付与したタイムスタンプに従いＡＶ（Ａｕｄｉｏ　Ｖｉｄｅｏ）再生を行うが、送信端末と受信端末とのシステムクロックが同期していないことにより、再生時刻にズレが発生してしまう。

　例えば受信端末側のＴＶ会議装置におけるシステムクロックが送信端末側であるＴＶ会議装置より早い（進んでいる）場合、受信端末側のＴＶ会議装置では、ＡＶ再生タイミングは送信端末側であるＴＶ会議装置よりも早いため、再生データが不足する（アンダーフロー）状態となる。逆に、受信端末側のＴＶ会議装置におけるシステムクロックが送信端末側であるＴＶ会議装置より遅い（遅れている）場合、受信端末側のＴＶ会議装置では、ＡＶ生成タイミングは送信端末側であるＴＶ会議装置よりも遅いため、再生データが蓄積する（オーバーフロー）状態となる。

　これに対応するためのＴＶ会議装置が開示されている（下記特許文献１参照。）。このＴＶ会議装置では、入力されたストリーム中のタイムスタンプと自走タイムスタンプとの時刻差に基づいて入力タイムスタンプの精度を算出し、算出した精度の誤差が範囲外の場合には、画像データをスキップまたはリピートする制御を行う。それにより、再生する画像データの補正を行う。

特開２００４－１５５５３号公報

　しかしながら、上記特許文献１に開示されるＴＶ会議端末により構成される対面感がある臨場感の高いＴＶ会議システムでは、例えばフレームのスキップまたはフレームのリピートなど画像データのスキップまたはリピートの制御が行われると、例えば映像が会話中に一時的に停止してしまうことがあり画像が一時的だが途切れてしまう。すなわち、特許文献１に開示されるＴＶ会議端末では、送信端末と受信端末との再生時刻のズレを抑制することができるものの、映像の途切れなどの品質劣化を生んでしまうことになる。

　このように、上記特許文献１に開示されるＴＶ会議端末では、品質劣化によりコミュニケーションが阻害されてしまうので、対面感がある臨場感の高いＴＶ会議システムに代表されるコミュニケーション用途用としては不適である。

　そこで、本発明は、上記のような点に鑑みて、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる画像音声通信装置およびその通信方法を提供することを目的とする。

　上記目的を達成するために、本発明に係る画像音声通信装置は、画像音声通信装置であって、ネットワークを通じて、画像および音声を送受信する送受信部と、前記送受信部により送信される音声、または前記送受信部により受信された画像もしくは音声の内容に基づいて、当該受信された画像または音声におけるＰＴＳ（Ｐｒｅｓｅｎｔａｔｉｏｎ　Ｔｉｍｅ　Ｓｔａｍｐ）の補正量を更新すべきタイミングを判定するタイミング判定部と、前記タイミング判定部により判定されたタイミングに当該受信された画像または音声におけるＰＴＳの補正量を更新することにより、当該ＰＴＳを補正するＰＴＳ補正部と、前記画像音声通信装置が示す現在時刻における補正された当該ＰＴＳに対応する当該受信された画像および音声を出力する画像音声出力部とを備える。

　この構成によれば、ユーザが気づきにくいタイミングを判定することができ、判定したタイミングにおいてＰＴＳ補正が行われた画像または音声を出力することができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。

　また、前記画像音声通信装置は、さらに、ユーザ操作によりユーザ操作情報が入力されるユーザ入力部を備え、前記タイミング判定部は、前記ユーザ入力部に入力されたユーザ操作情報が前記受信された画像の画面レイアウト変更を伴うユーザ操作を示す場合に、当該画面レイアウト変更を伴うユーザ操作のタイミングを、前記補正量を更新すべきタイミングとして判定してもよい。

　この構成によれば、画面レイアウトが変更されるタイミングにおいて画像のＰＴＳ補正が行われることにより、例えばフレームのスキップなどの、画像のＰＴＳ補正をユーザに気づかせずにすることができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。

　また、前記タイミング判定部は、前記送受信部により受信された画像と当該受信された画像の時間的に前の画像との相関値が予め設定した閾値より高い場合に、当該受信された画像が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定してもよい。

　この構成によれば、表示する画像の時間的相関が高く画面内の動きが少ないタイミングにおいて画像のＰＴＳ補正が行われることにより、例えばフレームのスキップまたはフレームのリピートなどの、画像のＰＴＳ補正をユーザに気づかせずにすることができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。

　また、前記タイミング判定部は、前記送受信部により受信された画像のデータ量が予め設定した閾値より小さい場合に、前記受信された画像が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定してもよい。

　この構成によれば、出力する画像のデータ量が小さく画面内の動きが少ないと予想されるタイミングにおいて画像のＰＴＳ補正が行われることにより、例えばフレームのスキップまたはフレームのリピートなどの、画像のＰＴＳ補正をユーザに気づかせずにすることができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。

　また、前記タイミング判定部は、前記送受信部により受信された音声のレベルが予め設定した閾値よりも小さい場合に、前記受信された音声が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定するとしてもよい。

　この構成によれば、再生する音のレベルが小さいタイミングにてＰＴＳ補正が行われることにより、例えば音とびなどによる音声のＰＴＳ補正をユーザに気づかせずにすることができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。

　また、前記画像音声通信装置は、さらに、前記送受信部により送信される音声がマイクを用いて収音されて入力される音声入力部とを備え、前記タイミング判定部は、前記音声入力部に入力された音声のレベルが予め設定した閾値よりも大きい場合に、前記入力された音声が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定してもよい。

　この構成によれば、例えば周辺の音が大きいまたはユーザなどの話者が発話状態にあるように入力される音声のレベルが大きいタイミングにてＰＴＳ補正が行われることにより、例えば音とびなどによる音声のＰＴＳ補正をユーザに気づかせずにすることができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。

　また、前記画像音声通信装置は、さらに、前記送受信部により受信された画像または音声を一時的に記憶するバッファと、前記バッファの容量の残量を監視し、当該残量に基づいて、ＰＴＳ補正量を算出するＰＴＳ補正量算出部とを備え、前記ＰＴＳ補正部は、前記タイミング判定部により判定されたタイミングの画像または音声におけるＰＴＳに前記ＰＴＳ補正量算出部により算出されたＰＴＳ補正量を加算することを用いて、当該判定されたタイミングの画像または音声におけるＰＴＳを補正してもよい。

　この構成によれば、システムクロックのズレ量を相殺する方向にＰＴＳ補正量を算出することができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる。

　なお、本発明は、装置として実現するだけでなく、このような装置が備える処理手段を備える集積回路として実現したり、その装置を構成する処理手段をステップとする方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、それらプログラムは、ＣＤ－ＲＯＭなどの記録媒体やインターネットなどの通信媒体を介して配信してもよい。

　本発明によれば、ユーザに対して画像・音声の違和感を生むことなくシステムクロックのズレを解消することができる画像音声通信装置およびその通信方法を実現することができる。

　具体的には、ユーザが気づきにくいＰＴＳの補正量を更新すべきタイミングを判定し、そのタイミングで画像または音声のＰＴＳが補正されることにより、ＰＴＳ補正が行われることに伴い発生する例えば音とびまたはフレームのスキップなどによる違和感をユーザに感じさせずにシステムクロックのズレを解消することができる。

図１は、本発明の画像音声通信装置を備えるＴＶ会議システム構成例を示す図である。図２は、本発明に係る画像音声通信装置の構成を示すブロック図である。図３は、本発明に係る画像音声通信装置の送信側処理を説明するためのフローチャートである。図４は、本発明に係る画像音声通信装置の受信処理を説明するためのフローチャートである。図５は、本発明に係るＰＴＳ補正量決定処理の１例を説明するためのフローチャートである。図６は、本発明に係る画像差分値算出処理を説明するためのフローチャートである。図７は、本発明に係る画面レイアウト判定処理を説明するためのフローチャートである。図８は、本発明に係る入力音声レベル検出処理を説明するためのフローチャートである。図９は、本発明に係る受信音声レベル検出処理を説明するためのフローチャートである。図１０は、本発明に係る画像音声通信装置の画像のＰＴＳ補正タイミング判定処理を説明するためのフローチャートである。図１１は、本発明に係る画像音声通信装置の音声のＰＴＳ補正タイミング判定処理を説明するためのフローチャートである。図１２は、本発明に係る画像音声通信装置の最小構成を示すブロック図である。

　以下、本発明の実施の形態について、図面を参照して詳細に説明する。

　（実施の形態１）
　図１は、本発明の画像音声通信装置を備えるＴＶ会議システム構成例を示す図である。

　図１に示すように、ＴＶ会議システムは、画像音声通信装置１００がネットワーク２０７を介して他の画像音声通信装置３００と、画像音声データを双方向に伝送する。

　画像音声通信装置１００は、ネットワーク２０７を介して、他の画像音声通信装置３００にカメラ・マイク１０１により撮像された画像音声を送信し、かつ、他の画像音声通信装置３００から画像音声データを受信する。また、画像音声通信装置１００は、受信した画像音声データのＰＴＳ補正を行うことにより他の画像音声通信装置３００との間すなわち装置間のクロックのズレにより発生するオーバーフローやアンダーフローを防止しつつ画像音声データをモニタ・スピーカ１０３に出力する。

　他の画像音声通信装置３００は、ネットワーク２０７を介して、他の画像音声通信装置３００にカメラ・マイク３０１により撮像された画像音声を送信する。また、他の画像音声通信装置３００は、画像音声通信装置１００から画像音声データを受信し、受信した画像音声データをモニタ・スピーカ３０３に出力する。

　図２は、本発明に係る画像音声通信装置の構成を示すブロック図である。

　図２に示すように、画像音声通信装置１００は、画像音声入力部１０４と、符号化部１０５と、送信部１０６と、受信部１０８と、ＰＴＳ補正量算出部１０９と、復号化部１１０と、ＰＴＳ補正タイミング判定部１１１と、ＰＴＳ補正部１１２と、画像音声出力部１１３と、受信バッファ１１４と、出力バッファ１１５とを備える。また、画像音声通信装置１００は、画像を撮像するカメラ・マイク１０１が外部に接続され、ユーザからの操作であるＧＵＩ操作が入力されるユーザインターフェースであるユーザ入力部１０２が接続されている。また、画像音声通信装置１００は、画像音声データを再生するモニタ・スピーカ１０３に接続されている。

　画像音声入力部１０４は、画像を撮像するカメラ・マイク１０１から非圧縮の画像および音声データを入力するインターフェースである。画像音声入力部１０４は、カメラ・マイク１０１によりフレーム単位で入力された画像および音声データ（以下、自装置画像音声データと記載。）を、符号化部１０５と画像音声出力部１１３とＰＴＳ補正タイミング判定部１１１とに出力する。

　符号化部１０５は、画像音声入力部１０４より入力された自装置画像音声データを符号化（圧縮符号化）し、符号化した自装置画像音声データを送信部１０６に出力する。ここで、符号化部１０５は、例えばＨ．２６４およびＭＰＥＧ－４　ＡＡＣなどの圧縮符号化方式を用いて自装置画像音声データの圧縮符号化を行う。

　送信部１０６は、符号化部１０５より入力された符号化後の自装置画像音声データをネットワーク２０７に出力する。ここで、例えば、送信部１０６は、自装置画像音声データを例えばＲＴＰ（Ｒｅａｌｔｉｍｅ　Ｔｒａｎｓｐｏｒｔ　Ｐｒｏｔｏｃｏｌ）パケット化して出力する。具体的には、送信部１０６は、ＲＴＰパケットのＲＴＰヘッダのタイムスタンプ領域に出力時刻であるＰＴＳ（Ｐｒｅｓｅｎｔａｔｉｏｎ　Ｔｉｍｅ　Ｓｔａｍｐ）を記述して、ＲＴＰパケット化を行った自装置画像音声データを、ネットワーク２０７を介して他の画像音声通信装置３００に出力する。

　受信部１０８は、受信バッファ１１４を備え、ネットワーク２０７経由で他の画像音声通信装置３００から送信された画像および音声データ（以下、相手装置画像音声データと記載。）を受信し、受信した相手装置画像音声データを復号化部１１０に出力するとともに、受信データ量をＰＴＳ補正量算出部１０９に出力する。具体的には、受信部１０８は、受信バッファ１１４に受信した相手装置画像音声データのＲＴＰパケットを一旦保存する。受信部１０８は、受信バッファ１１４に保存する相手装置画像音声データのＲＴＰパケットから抽出した受信時刻と受信データ量とをＰＴＳ補正量算出部１０９に出力し、受信バッファ１１４に保存する相手装置画像音声データのＲＴＰパケットを復号化部１１０に出力する。

　受信バッファ１１４は、受信部１０８が受信した相手装置画像音声データのＲＴＰパケットを一時的に保存する。受信バッファ１１４が保存している相手装置画像音声データのＲＴＰパケットは、復号化部１１０に、受信部１０８を介して出力される。

　ＰＴＳ補正量算出部１０９は、受信データ量を観測しており、観測している受信データ量に基づいてＰＴＳ補正量を算出している。具体的には、ＰＴＳ補正量算出部１０９は、受信部１０８から入力される受信データ量と復号化部１１０より入力される受信バッファ１１４の容量の残量を用いてＰＴＳ補正量を算出し、算出したＰＴＳ補正量をＰＴＳ補正タイミング判定部１１１に出力する。

　復号化部１１０は、受信部１０８より入力された相手装置画像音声データの復号化を行い、復号化後の相手装置画像音声データをＰＴＳ補正部１１２とＰＴＳ補正タイミング判定部１１１とに出力する。また、復号化部１１０は、受信バッファ１１４の容量の残量を確認し、ＰＴＳ補正量算出部１０９に出力しつつ、出力バッファ１１５に空きがある状態である復号化可能状態かどうかを確認する。そして、復号化部１１０は、復号化可能状態である場合に復号化処理を行う。すなわち、復号化部１１０は、出力バッファ１１５に空きがある状態である復号化可能状態である場合に、受信バッファ１１４から相手装置画像音声データのＲＴＰパケットを受け取り、復号化処理を行う。

　具体的には、復号化部１１０は、受信バッファ１１４から受け取ったＲＴＰパケットの復号化処理として、ＲＴＰパケットから符号化画像データ形式および符号化音声データ形式への変換を行い、出力時刻であるＰＴＳを算出する。さらに、復号化部１１０は、符号化画像データに対してはＨ．２６４で復号化を、符号化音声データに対してはＭＰＥＧ－４　ＡＡＣ復号化を行い、復号化後の画像データおよび音声データ（以下、相手装置復号化後画像音声データと記載する。）をＰＴＳ補正タイミング判定部１１１に出力する。それと同時に、復号化部１１０は、相手装置復号化後画像音声データとそれにＰＴＳを関連付けて出力バッファ１１５に保存する。

　ＰＴＳ補正タイミング判定部１１１は、送信部１０６により送信される音声、または受信部１０８により受信された画像もしくは音声の内容に基づいて、すなわち画像音声入力部１０４から入力された自装置画像音声データ、ユーザ入力部１０２から入力されたユーザ操作情報および復号化部１１０より入力された復号化後画像音声データの少なくとも１つを用いて、ＰＴＳの補正量を更新すべきタイミングであるＰＴＳ補正タイミングを判定し、ＰＴＳ補正量算出部１０９で算出されたＰＴＳ補正量と共に、ＰＴＳ補正部１１２にＰＴＳ補正要求とを出力する。すなわち、ＰＴＳ補正タイミング判定部１１１は、クロックのズレ補正を行うタイミングとして、ユーザが気づきにくいタイミングをＰＴＳの補正量を更新すべきタイミングと判定し、ＰＴＳ補正部１１２にＰＴＳ補正タイミングをＰＴＳ補正要求で通知する。

　ＰＴＳ補正部１１２は、ＰＴＳ補正タイミング判定部１１１より入力されたＰＴＳ補正要求に応じて、相手装置復号化後画像音声データに関連付けられたＰＴＳの補正を行う。具体的には、ＰＴＳ補正部１１２は、復号化部１１０より出力バッファ１１５に保存された相手装置復号化後画像音声データに関連付けられたＰＴＳ情報に対して、ＰＴＳ補正タイミング判定部１１１より出力されたＰＴＳ補正量を用いてＰＴＳ情報を補正し、補正後のＰＴＳ情報を画像音声出力部１１３に出力する。

　画像音声出力部１１３は、ＰＴＳ補正部１１２より入力される補正後のＰＴＳ情報に従い、出力バッファ１１５に保存されている相手装置復号化後画像音声データをモニタ・スピーカ１０３に出力する。すなわち、画像音声出力部１１３は、ＰＴＳ補正部１１２より入力された補正後のＰＴＳ値と画像音声通信装置１００のシステムクロック（現在時刻）とを比較して、そのシステムクロックに近いＰＴＳの相手装置復号化後画像および音声データを出力バッファ１１５からモニタ・スピーカ１０３に出力する。

　以上のようにして、画像音声通信装置１００は構成される。

　次いで、上記構成を有する画像音声通信装置１００の動作について、図を用いて説明する。なお、以下に説明する動作は、画像音声通信装置１００の図示しない例えばＲＯＭやフラッシュメモリなどの記憶装置に制御プログラムとして記憶されており、ＣＰＵによって制御される。

　図３は、本発明に係る画像音声通信装置の送信処理を説明するためのフローチャートである。

　まず、画像音声通信装置１００は、画像音声入力処理を行う（Ｓ２０１）。具体的には、画像音声入力部１０４は、外部に接続されたカメラ・マイク１０１から非圧縮の自装置画像音声がフレーム単位で入力され、入力された自装置画像音声データを符号化部１０５とＰＴＳ補正タイミング判定部１１１と画像音声出力部１１３とに出力する。

　次に、画像音声通信装置１００は、画像音声符号化処理を行う（Ｓ２０２）。具体的には、符号化部１０５は、画像音声入力部１０４より入力された非圧縮の自装置画像音声データに対して、例えばＨ．２６４およびＭＰＥＧ－４　ＡＡＣなどの圧縮符号化方式を用いて圧縮符号化を行い、符号化後の自装置画像音声データを送信部１０６に出力する。

　次に、画像音声通信装置１００は、送信処理を行う（Ｓ２０３）。具体的には、送信部１０６は、符号化部１０５から入力された符号化後の自装置画像音声データを例えばＲＴＰ（Ｒｅａｌｔｉｍｅ　Ｔｒａｎｓｐｏｒｔ　Ｐｒｏｔｏｃｏｌ）パケット化する。すなわち、送信部１０６は、ＲＴＰヘッダのタイムスタンプ領域に出力時刻であるＰＴＳ（Ｐｒｅｓｅｎｔａｔｉｏｎ　Ｔｉｍｅ　Ｓｔａｍｐ）を記述して、ＲＴＰパケット化を行った自装置画像音声データを、ネットワーク２０７を介して他の画像音声通信装置３００に出力する。

　以上のように、画像音声通信装置１００は、自装置画像音声データをネットワーク２０７を介して他の画像音声通信装置３００に出力する。

　図４は、本発明に係る画像音声通信装置の受信側処理を説明するためのフローチャートである。

　まず、画像音声通信装置１００は、パケット受信処理を行う（Ｓ３０１）。具体的には、受信部１０８は、ネットワーク２０７経由で他の画像音声通信装置３００から送信された相手装置画像音声データのＲＴＰパケットを受信し、受信した相手装置画像音声データのＲＴＰパケットを受信バッファ１１４に一旦保存する。そして、受信バッファ１１４に保存している受信した相手装置画像音声データから抽出した受信時刻と受信データ量とをＰＴＳ補正量算出部１０９に出力するとともに、復号化部１１０が復号化可能状態である場合に、受信した相手装置画像音声データのＲＴＰパケットを復号化部１１０に出力する。

　次に、画像音声通信装置１００は、パケット復号化処理を行う（Ｓ３０２）。具体的には、復号化部１１０は、受信バッファ１１４の容量の残量を確認し、ＰＴＳ補正量算出部１０９に出力しつつ、出力バッファ１１５に空きがある状態である復号化可能状態かどうかを確認する。そして、復号化可能状態である場合に受信バッファ１１４から受け取った相手装置画像音声データのＲＴＰパケットの復号化処理を行い、出力時刻であるＰＴＳを算出するとともに、復号化後の相手装置画像音声データをＰＴＳ補正タイミング判定部１１１に出力する。また、復号化部１１０は、復号化画像データおよび復号化音声データとそれぞれのＰＴＳを関連付けて出力バッファ１１５に保存する。

　次に、画像音声通信装置１００は、ＰＴＳ補正量算出処理を行う（Ｓ３０３）。具体的には、ＰＴＳ補正量算出部１０９は、受信部１０８から入力された受信データ量と復号化部１１０より入力された受信バッファ１１４の容量の残量を用いてＰＴＳ補正量を算出し、算出したＰＴＳ補正量をＰＴＳ補正タイミング判定部１１１に出力する。なお、ＰＴＳ補正量算出処理の詳細については、後述するためここでは説明を省略する。

　次に、画像音声通信装置１００は、ＰＴＳ補正タイミング判定処理を行う（Ｓ３０４）。具体的には、ＰＴＳ補正タイミング判定部１１１は、画像音声入力部１０４より入力された自装置画像音声データ、ユーザ入力部１０２から入力されたユーザ操作情報および復号化部１１０より入力された復号化後画像音声データの少なくとも１つを用いてＰＴＳ補正タイミングを判定する。なお、ＰＴＳ補正タイミング判定の詳細については、後述するためここでは説明を省略する。

　ＰＴＳ補正タイミング判定部１１１は、Ｓ３０４において、ＰＴＳ補正タイミングを判定する場合（Ｓ３０４のＹＥＳの場合）、ＰＴＳ補正量算出部１０９より算出されたＰＴＳ補正量と共に、ＰＴＳ補正部１１２にＰＴＳ補正要求とを出力する。

　次に、画像音声通信装置１００は、ＰＴＳオフセット変更を行い（Ｓ３０５）、ＰＴＳ補正を行う（Ｓ３０６）。具体的には、ＰＴＳ補正部１１２は、復号化部１１０より出力バッファ１１５に保存された相手装置復号化後画像音声データに関連付けられたＰＴＳ情報に対して、ＰＴＳ補正タイミング判定部１１１より出力されたＰＴＳ補正量を用いてＰＴＳ情報を補正する。そして、補正後のＰＴＳ情報を画像音声出力部１１３に出力する。

　ここで、ＰＴＳ補正部１１２が行うＰＴＳ補正方法の例について説明する。ＰＴＳ補正部１１２は、下記の（式１）～（式４）に基づいてＰＴＳを補正する。

　（式１）および（式２）において、Ｏｆｆｓｅｔ＿ＶおよびＯｆｆｓｅｔ＿Ａは、それぞれ画像データおよび音声データのＰＴＳオフセット値を示し、Ｏｆｆｓｅｔ＿Ｖ＿ｐｒｅｖおよびＯｆｆｓｅｔ＿Ａ＿ｐｒｅｖは、それぞれ画像データおよび音声データのＰＴＳオフセット値の前回の値を示す。また、Ｃｏｒｒｅｃｔ＿ＶおよびＣｏｒｒｅｃｔ＿Ａは、それぞれ画像データおよび音声データのＰＴＳ補正値を示す。また、（式３）および（式４）において、ＰＴＳ＿Ｖ’（ｔ）およびＰＴＳ＿Ａ’（ｔ）は、それぞれフレームｔの画像および音声のＰＴＳ補正後のＰＴＳ値を示し、ＰＴＳ＿Ｖ（ｔ）およびＰＴＳ＿Ａ（ｔ）は、それぞれフレームｔの画像および音声のＰＴＳ値を示す。

　ＰＴＳ補正部１１２は、（式１）～（式４）に基づいて、出力バッファ１１５に保存されたフレームｔの画像および音声データのＰＴＳ値（ＰＴＳ＿Ｖ（ｔ）および　ＰＴＳ＿Ａ（ｔ））に、ＰＴＳオフセット値（Ｏｆｆｓｅｔ＿ＶおよびＯｆｆｓｅｔ＿Ａ）を加えることによりＰＴＳ値を常に補正する。

　さらに、ＰＴＳ補正部１１２は、ＰＴＳ補正タイミング判定部１１１より出力されたＰＴＳ補正量（Ｃｏｒｒｅｃｔ＿ＶおよびＣｏｒｒｅｃｔ＿Ａ）を用いてＰＴＳ補正に用いるオフセット値（Ｏｆｆｓｅｔ＿Ｖおよび　Ｏｆｆｓｅｔ＿Ａ）の更新を行う。

　このようにして、ＰＴＳ補正部１１２は、ＰＴＳ補正タイミング判定部１１１により決定されたタイミングでＰＴＳ補正量を用いてオフセットを更新することによりＰＴＳを不連続に変更することができる。

　次に、画像音声通信装置１００は、画像音声出力処理を行う（Ｓ３０７）。具体的には、画像音声出力部１１３は、ＰＴＳ補正部１１２より入力された補正後のＰＴＳ値と画像音声通信装置１００のシステムクロック（現在時刻）とを比較して、そのシステムクロック（現在時刻）に近いＰＴＳの相手装置復号化後画像音声データを出力バッファ１１５からモニタ・スピーカ１０３に出力する。

　なお、ＰＴＳ補正タイミング判定部１１１は、Ｓ３０４において、ＰＴＳ補正タイミングを判定しない場合（Ｓ３０４のＮＯの場合）、ＰＴＳ補正部１１２にはなにも出力しない。

　その場合、ＰＴＳ補正部１１２は、ＰＴＳのオフセット変更を行わない（Ｓ３０６）。そして、画像音声出力部１１３は、ＰＴＳ補正部１１２より入力されたＰＴＳ値と画像音声通信装置１００のシステムクロック（現在時刻）とを比較して、そのシステムクロック（現在時刻）に近いＰＴＳの相手装置復号化後画像音声データを出力バッファ１１５からモニタ・スピーカ１０３に出力する。

　以上のようにして、画像音声通信装置１００は、受信側の処理を行う。

　図５は、本発明に係る画像音声通信装置のＰＴＳ補正量算出処理の１例を説明するためのフローチャートである。

　まず、画像音声通信装置１００は、平均受信レート算出処理を行う（Ｓ３０３１）。具体的には、ＰＴＳ補正量算出部１０９は、受信部１０８から入力された受信データ量を用いて、平均受信レート（ＡｖｅｒａｇｅＢｐｓ）を算出する。（式５）に平均受信レートの算出式を示すが、受信レートの算出方法は、（式５）に示される算出式に限定されるものではない。

　ここで、ＡｖｅｒａｇｅＢｐｓは、平均受信レート（ｂｉｔ／ｓ）を示しており、ＲｅｃｖＢｉｔｓは受信データ量（ｂｉｔ）を示している。Ｎは、予め設定された統計区間Ｎ（秒）を示しており、ＳＵＭ（ＲｅｃｖＢｉｔｓ）は、統計区間Ｎ（秒）に受信部１０８が受信した受信データ量の合計値を示している。

　ＰＴＳ補正量算出部１０９は、（式５）に示すように、統計区間Ｎ（秒）に受信部１０８が受信したデータ量の平均値を用いて平均受信レートを算出する。

　次に、画像音声通信装置１００は、受信バッファ１１４の残量統計処理を行う（Ｓ３０３２）。具体的には、ＰＴＳ補正量算出部１０９は、復号化部１１０より入力された受信バッファ１１４の容量の残量を統計処理し、バッファ残量が増加傾向にあるのか減少傾向にあるのかを判定する。ここでは、増減傾向の評価値として、バッファ容量の残量の増減が及ぼす影響の１つである遅延時間を用いて説明する。増減傾向の評価値である現在遅延時間（ＣｕｒｒＤｅｌａｙ）の算出式を（式６）に示す。

　ここで、ＣｕｒｒＤｅｌａｙは、現在遅延時間を示し、ＢｕｆｆｅｒＬｅｖｅｌは、現在の受信バッファ１１４の容量の残量（ｂｉｔ）を示している。ＡｖｅｒａｇｅＢｐｓは、平均受信レート（ｂｉｔ／ｓ）を示し、ＩＮＩＴ＿ＤＥＬＡＹは、予め設定された初期遅延時間を示している。

　ＰＴＳ補正量算出部１０９は、（式６）に示すように、バッファ容量の残量を平均受信レートで割ることによりバッファを消費するために必要な時間を算出し、算出したバッファを消費するために必要な時間から初期遅延時間を差分することで現在遅延時間とする。すなわち、現在遅延時間の傾向を見ることにより、受信バッファ１１４の容量の残量が遅延時間に及ぼす傾向を観測する。ただし、ここでは説明を簡単にするために、現在遅延時間の増減傾向を統計処理することはしないで、一定間隔で（式６）により現在遅延時間（ＣｕｒｒＤｅｌａｙ）を算出するものとして説明する。なお、平均受信レートは、平均符号化レートと等価であるため、バッファを消費するための時間を算出するのに用いる。

　次に、画像音声通信装置１００は、ＰＴＳ補正量決定処理を行う（Ｓ３０３３）。具体的には、ＰＴＳ補正量算出部１０９は、平均受信レート（ＡｖｅｒｅｇｅＢｐｓ）と受信バッファ１１４の容量の残量とを用いてＰＴＳ補正量を算出する。（式７）にＰＴＳ補正量の算出式を示す。

　ここで、ＣｕｒｒＤｅｌａｙは、現在遅延時間を、Ｃｏｒｒｅｃｔ＿Ａは、音声のＰＴＳ補正量を、Ｃｏｒｒｅｃｔ＿Ｖは、画像のＰＴＳ補正量を示している。ＴＨ＿ＨおよびＴＨ＿Ｌは、予め決められた閾値（ただしＴＨ＿Ｌ＜　ＩＮＩＴ＿ＤＥＬＡＹ＜　ＴＨ＿Ｌとする。）を示しており、ＳＣＡＬＥは、秒からＰＴＳ単位である９０ｋＨＺに変換するための定数を示している。

　また、（式７）は次の１～３について示している。１．現在遅延時間が正であり、絶対値が閾値（ＴＨ＿Ｈ）よりも大きい場合、ＰＴＳ補正量を負の値とする。２．現在遅延時間が負であり、絶対値が閾値（ＴＨ＿Ｌ）よりも大きい場合、ＰＴＳ補正量を正の値とする。３．上記１および２以外の場合、ＰＴＳ補正量は０とする。

　このように、ＰＴＳ補正量算出部１０９は、（式７）に示すように現在遅延時間の閾値判定によりＰＴＳ補正量を決定する。

　なお、ＰＴＳ補正量算出部１０９は、（式７）によりＰＴＳ補正量を画像と音声とで同じ値として算出しているが、ＰＴＳ補正量の算出方法は（式７）に限定されない。例えば現在遅延時間および平均受信レートを画像と音声とで別々に扱うことにより、画像と音声とで個別のＰＴＳ補正量を算出してもよい。

　以上のようにして、画像音声通信装置１００は、ＰＴＳ補正量算出処理を行う。

　次に、図６～図１１を用いて、画像音声通信装置１００におけるＰＴＳ補正タイミング判定処理の例を説明する。

　図６は、本発明に係る画像差分値算出処理を説明するためのフローチャートである。

　まず、ＰＴＳ補正タイミング判定部１１１は、復号化部１１０より入力された復号化画像データを用いて連続する画像間で差分処理を行い、画像差分値として値絶対和（ＳＡＤ）を算出する（Ｓ４０１）。

　次に、ＰＴＳ補正タイミング判定部１１１は、算出した画像差分値が、予め定めた閾値より小さいどうかを判定する（Ｓ４０２）。

　ＰＴＳ補正タイミング判定部１１１は、算出した画像差分値が予め定めた閾値よりも小さい場合（Ｓ４０２のＹＥＳの場合）、ＰＴＳ補正タイミングであると判定する（Ｓ４０３）。このように、ＰＴＳ補正タイミング判定部１１１は、表示画像の動きが小さくユーザがフレームのスキップなどのスキップまたはリピート制御に気づきにくいタイミングを、ＰＴＳ補正量を更新すべきＰＴＳ補正タイミングであると判定する。

　一方、ＰＴＳ補正タイミング判定部１１１は、算出した画像差分値が予め定めた閾値よりも大きい場合（Ｓ４０２のＮＯの場合）、ＰＴＳ補正タイミングではないと判定する（Ｓ４０４）。

　以上のように、ＰＴＳ補正タイミング判定部１１１は、復号化部１１０より入力された復号化画像データを用いて、ＰＴＳ補正タイミングを判定する。

　上述した画像差分値としての差分値絶対和（ＳＡＤ）は、例えば（式８）により算出する。

　ここで、ＳＡＤ（ｉ）は、ｉ番目の画像の差分絶対和を示しており、Ｙ（ｘ、ｙ、ｉ）は、ｉ番目の画像のｘおよびｙ座標の画素の輝度値を示している。Ｗは、画像の水平画素数を示しており、Ｈは、画像の垂直画素数を示している。

　また、（式８）に示すように、画像差分値は、連続する画像間の差分絶対値の合計値となっており、画像差分値が小さいほど時間的に動きの少ない画像であるといえる。したがって、このように算出した画像差分値が予め定めた閾値よりも小さい場合に、クロックのズレの補正を行うタイミングとしてユーザが気づきにくいＰＴＳ補正量を更新すべきタイミングであると判定する。

　なお、画像差分値の算出方法は、（式８）に限定されるものではなく、画像内の動きを検出できる方法であればよい。画像内の動きを検出する別の方法としては、例えば受信画像のデータ量を監視し、受信画像のデータ量が小さい場合には動きの少ない画像であると判定する方法でもよい。なぜなら、画像符号化においては、フレーム間の差分画像を予測し符号化処理を行うことが多く、動きの少ない画像では、その差分値が小さくなり符号化結果であるデータ量も小さくなるためである。

　図７は、本発明に係る画面レイアウト判定処理を説明するためのフローチャートである。

　まず、ＰＴＳ補正タイミング判定部１１１は、ユーザ入力部１０２より入力された例えばユーザ要求であるユーザ操作情報を解析し（Ｓ４１１）、画面レイアウト変更があるか否かを判定する（Ｓ４１２）。

　ＰＴＳ補正タイミング判定部１１１は、ユーザ操作情報を解析し下記１～３に示す画面遷移が行われる場合に画面レイアウト変更があると判定した場合（Ｓ４１２のＹＥＳの場合）、ＰＴＳ補正タイミングであると判定する（Ｓ４１３）。

　１．自画像表示と相手画像表示との画面遷移
　２．相手画像表示とＧＵＩ表示との画面遷移
　３．ＧＵＩ表示と自画像表示との画面遷移
　このように、ＰＴＳ補正タイミング判定部１１１は、画面レイアウトが大きく変わることで、フレームのスキップなどの画像のＰＴＳ補正にユーザが気づきにくいタイミングを、ＰＴＳ補正量を更新すべきＰＴＳ補正タイミングであると判定する。

　一方、ＰＴＳ補正タイミング判定部１１１は、ユーザ操作情報により、上記に示すような画面遷移は行われないと解析する場合、画面レイアウト変更はないと判定し（Ｓ４０２のＮＯの場合）、ＰＴＳ補正タイミングではないと判定する（Ｓ４１４）。

　以上のように、ＰＴＳ補正タイミング判定部１１１は、ユーザ入力部１０２から入力されたユーザ操作情報を用いてＰＴＳ補正タイミングを判定する。

　なお、画面レイアウト変更ありと判定される画面遷移は、上述した画面表示が大きく変わる１～３の場合に限らない。例えば、ユーザが見ている画面にＧＵＩ表示が常にされていたとしても、例えばユーザによりＧＵＩに対してメニュー操作などが行われている場合には、画面レイアウト変更ありと判定してもよい。

　図８は、本発明に係る入力音声レベル検出処理を説明するためのフローチャートである。

　まず、ＰＴＳ補正タイミング判定部１１１は、画像音声入力部１０４より入力された入力音声データを用いて、入力音声レベル（ＡｕｄｉｏＩｎＬｅｖｅｌ）を検出する（Ｓ４２１）。ここで、検出される入力音声レベルは、例えば一定区間の平均音量としている。

　次に、ＰＴＳ補正タイミング判定部１１１は、検出した入力音声レベルが、予め定めた閾値より大きいかどうかを判定する（Ｓ４２２）。

　検出した入力音声レベルが、予め定めた閾値よりも大きい場合（Ｓ４２２のＹＥＳの場合）、ＰＴＳ補正タイミング判定部１１１は、ＰＴＳ補正タイミングであると判定する（Ｓ４２３）。なぜなら、検出する入力音声レベルが大きい場合は、周辺の音声が大きいまたはユーザ（話者）が発言中であり、受信音声の音とびに気づきにくいので、ＰＴＳ補正量を更新すべきＰＴＳ補正タイミングであると判定できるからである。

　一方、ＰＴＳ補正タイミング判定部１１１は、検出した入力音声レベルが、予め定めた閾値よりも小さい場合（Ｓ４２２のＮＯの場合）、ＰＴＳ補正タイミングではないと判定する（Ｓ４２４）。

　以上のように、ＰＴＳ補正タイミング判定部１１１は、画像音声入力部１０４から入力された自装置の入力音声データを用いて、ＰＴＳ補正タイミングを判定する。

　図９は、本発明に係る受信音声レベル検出処理を説明するためのフローチャートである。

　まず、ＰＴＳ補正タイミング判定部１１１は、復号化部１１０より入力された復号化音声データを用いて、受信音声レベル（ＡｕｄｉｏＯｕｔＬｅｖｅｌ）を検出する（Ｓ４３１）。ここで、検出される受信音声レベルは、例えば一定区間の平均音量としている。

　次に、ＰＴＳ補正タイミング判定部１１１は、検出した受信音声レベルが、予め定めた閾値より小さいかどうかを判定する（Ｓ４３２）。

　ＰＴＳ補正タイミング判定部１１１は、検出した入力音声レベルが、予め定めた閾値よりも小さい場合（Ｓ４３２のＹＥＳの場合）、ＰＴＳ補正タイミングであると判定する（Ｓ４３３）。これは、検出した受信音声レベルが予め定めた閾値よりも小さいときは、受信音声の音とびに気づきにくいので、ＰＴＳ補正量を更新すべきＰＴＳ補正タイミングであると判定できるからである。

　一方、ＰＴＳ補正タイミング判定部１１１は、検出した入力音声レベルが、予め定めた閾値よりも大きい場合（Ｓ４２２のＮＯの場合）、ＰＴＳ補正タイミングではないと判定する（Ｓ４２４）。

　以上のように、ＰＴＳ補正タイミング判定部１１１は、復号化部１１０より入力された復号化後の音声データを用いて、ＰＴＳ補正タイミングを判定する。

　また、ＰＴＳ補正タイミング判定部１１１は、上述の図６～図９の少なくとも１つを用いてＰＴＳ補正タイミングを判定すればよい。例えば、画像に関してのみＰＴＳ補正タイミングを判定してもよいし、音声に関してのみＰＴＳ補正タイミングを判定してもよい。

　図１０は、本発明に係る画像音声通信装置の画像のＰＴＳ補正タイミング判定処理を説明するためのフローチャートである。

　図１０に示すように、まず、ＰＴＳ補正タイミング判定部１１１は、画像差分値算出処理を行う（Ｓ４００）。次いで、ＰＴＳ補正タイミング判定部１１１は、画面レイアウト判定処理を行う（Ｓ４１０）。なお、Ｓ４００の画像差分値算出処理は、上述したＳ４０１～４０４の処理を行い、Ｓ４２０の画面レイアウト判定処理は、上述したＳ４１１～４１４の処理を行うため説明を省略する。

　次に、ＰＴＳ補正タイミング判定部１１１は、Ｓ４００およびＳ４２０の少なくとも１つの処理でＰＴＳ補正タイミングと判定されたかを確認する（Ｓ４５２）。

　ＰＴＳ補正タイミング判定部１１１は、Ｓ４００およびＳ４２０の少なくとも１つの処理で、ＰＴＳ補正タイミングであると判定された場合（Ｓ４５２のＹＥＳの場合）、ＰＴＳ補正タイミングであると判定する（Ｓ４５３）。

　このように、ユーザがフレームのスキップなどのスキップまたはリピート制御に気づきにくいタイミングとして、画面の動きが少ないときまたは画面レイアウトが大きく変わるときのタイミングを、ＰＴＳ補正量を更新すべきＰＴＳ補正タイミングであると判定する。

　一方、ＰＴＳ補正タイミング判定部１１１は、Ｓ４００およびＳ４２０のいずれの処理でも、ＰＴＳ補正タイミングではないと判定された場合（Ｓ４５２のＮＯの場合）、ＰＴＳ補正タイミングでないと判定する（Ｓ４５４）。

　以上のように、ＰＴＳ補正タイミング判定部１１１は、画像のＰＴＳ補正タイミングを判定する。

　以下同様に、音声のＰＴＳ補正タイミングを判定する場合を説明する。

　図１１は、本発明に係る画像音声通信装置の音声のＰＴＳ補正タイミング判定処理を説明するためのフローチャートである。

　図１１に示すように、まず、ＰＴＳ補正タイミング判定部１１１は、入力音声レベル検出処理を行う（Ｓ４２０）。次いで、ＰＴＳ補正タイミング判定部１１１は、受信音声レベル検出処理を行う（Ｓ４３０）。なお、Ｓ４２０の入力音声レベル検出処理は、上述したＳ４２１～４２４の処理を行い、Ｓ４３０の受信音声レベル検出処理は、上述したＳ４３１～４３４の処理を行うため説明を省略する。

　次に、ＰＴＳ補正タイミング判定部１１１は、Ｓ４２０およびＳ４３０の少なくとも１つの処理でＰＴＳ補正タイミングと判定されたかを確認する（Ｓ４５２）。ＰＴＳ補正タイミング判定部１１１は、Ｓ４３０およびＳ４２０の少なくとも１つの処理で、ＰＴＳ補正タイミングであると判定された場合（Ｓ４５２のＹＥＳの場合）、ＰＴＳ補正タイミングであると判定する（Ｓ４５３）。

　このように、ユーザが音飛びに気づきにくいタイミングとして、入力音声レベルが大きいときまたは受信音声レベルが小さいときのタイミングを、ＰＴＳ補正量を更新すべきＰＴＳ補正タイミングであると判定する。

　以上のように、ＰＴＳ補正タイミング判定部１１１は、音声のＰＴＳ補正タイミングを判定する。

　なお、ＰＴＳ補正タイミング判定部１１１は、図１０および図１１に示すような画像および音声のＰＴＳ補正タイミングを同時に判定してもよく、Ｓ４００、Ｓ４１０、Ｓ４２０およびＳ４３０を自由に組み合わせてＰＴＳ補正タイミングを判定すればよい。

　以上のように、本実施の形態では、ＰＴＳ補正量算出部１０９が受信バッファ１１４の容量の増減傾向を監視しシステムクロックのズレ量を相殺する方向にＰＴＳ補正量を算出し、ＰＴＳ補正タイミング判定部１１１が、ユーザが画像または音声の補正に気づきにくいタイミングとしてＰＴＳ補正タイミングを判定する。そして、ＰＴＳ補正部１１２は、ＰＴＳ補正タイミング判定部１１１により判定されたＰＴＳ補正要求に応じて、ＰＴＳ補正量を用いて画像または音声のＰＴＳを補正し、画像音声出力部１１３が補正されたＰＴＳに従い画像および音声の出力を行う。

　以上、本発明によれば、画像音声通信装置１００と他の画像音声通信装置３００とのような送受信端末間のシステムクロック差により必要となる出力時刻補正（システムクロックのズレの解消）を、ユーザに対して画像・音声の違和感を生じさせずに行うことができる。

　また、本発明では、上述のようにＰＴＳ補正を行うことによりＡＶ同期を保ちつつ受信バッファ１１４のオーバーフローまたはアンダーフローを防止することができる。

　また、本発明は、特に大画面を利用する臨場感の高いＴＶ会議装置として使用される画像音声通信装置において、対面感を低下させるフレームのスキップや音飛びによる主観品質の低下を防止することが可能であり有用である。

　なお、上記の説明では、本発明に係る画像音声通信装置１００は、画像音声入力部１０４と、符号化部１０５と、送信部１０６と、受信部１０８と、ＰＴＳ補正量算出部１０９と、復号化部１１０と、ＰＴＳ補正タイミング判定部１１１と、ＰＴＳ補正部１１２と、画像音声出力部１１３と、受信バッファ１１４と、出力バッファ１１５とを備えるとしたが、それに限られない。図１２に示すように、画像音声通信装置１００の最小構成として、送受信部１０６／１０８と、ＰＴＳ補正タイミング判定部１１１と、ＰＴＳ補正部１１２と、画像音声出力部１１３とを少なくとも備えていればよい。

　具体的には、最小構成として画像音声通信装置１００は、ネットワークを通じて、画像および音声を送受信する送受信部１０６／１０８と、送受信部１０６／１０８により送信される音声の内容、送受信部１０６／１０８により受信された画像の内容、または送受信部１０６／１０８により受信された音声の内容に基づいて、受信された画像または音声におけるＰＴＳの補正量を更新すべきタイミングを判定するＰＴＳ補正タイミング判定部１１１と、ＰＴＳ補正タイミング判定部１１１により判定されたタイミングに当該受信された画像または音声におけるＰＴＳの補正量を更新することにより、当該ＰＴＳを補正するＰＴＳ補正部１１２と、前記画像音声通信装置が示す現在時刻における補正された当該ＰＴＳに対応する当該受信された画像および音声を出力する画像音声出力部１１３とを備える。ここで、送受信部１０６／１０８は、上記の、送信部１０６と受信部１０８との機能を一体にしたものである。
そして、この最小構成によれば、ユーザが気づきにくいタイミングを判定することができ、判定したタイミングにおいてＰＴＳ補正が行われた画像または音声を出力することができる。それにより、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消する効果を奏することができる。すなわち、ユーザに対して画像・音声の違和感を生じさせずにシステムクロックのズレを解消することができる画像音声通信装置を実現することができる。

　以上、本発明の画像音声通信装置およびその通信方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。

　本発明は、画像音声通信装置およびその方法に利用でき、特に、特に大画面を利用する臨場感の高い画像音声通信装置およびその方法に利用することができる。

　１００　画像音声通信装置
　１０１、３０１　カメラ・マイク
　１０２　ユーザ入力
　１０３、３０３　モニタ・スピーカ
　１０４　画像音声入力部
　１０５　符号化部
　１０６　送信部
　１０８　受信部
　１０９　ＰＴＳ補正量算出部
　１１０　復号化部
　１１１　ＰＴＳ補正タイミング判定部
　１１２　ＰＴＳ補正部
　１１３　画像音声出力部
　１１４　受信バッファ
　１１５　出力バッファ
　２０７　ネットワーク
　３００　他の画像音声通信装置

Claims

　画像音声通信装置であって、
　ネットワークを通じて、画像および音声を送受信する送受信部と、
　前記送受信部により送信される音声の内容、前記送受信部により受信された画像の内容、または前記送受信部により受信された音声の内容に基づいて、当該受信された画像または音声におけるＰＴＳ（Ｐｒｅｓｅｎｔａｔｉｏｎ　Ｔｉｍｅ　Ｓｔａｍｐ）の補正量を更新すべきタイミングを判定するタイミング判定部と、
　前記タイミング判定部により判定されたタイミングに当該受信された画像または音声におけるＰＴＳの補正量を更新することにより、当該ＰＴＳを補正するＰＴＳ補正部と、
　前記画像音声通信装置が示す現在時刻における補正された当該ＰＴＳに対応する当該受信された画像および音声を出力する画像音声出力部とを備える
　画像音声通信装置。
　前記画像音声通信装置は、さらに、
　ユーザ操作によりユーザ操作情報が入力されるユーザ入力部を備え、
　前記タイミング判定部は、前記ユーザ入力部に入力されたユーザ操作情報が前記受信された画像の画面レイアウト変更を伴うユーザ操作を示す場合に、当該画面レイアウト変更を伴うユーザ操作のタイミングを、前記補正量を更新すべきタイミングとして判定する
　請求項１に記載の画像音声通信装置。
　前記タイミング判定部は、
　前記送受信部により受信された画像と当該受信された画像の時間的に前の画像との相関値が予め設定した閾値より高い場合に、当該受信された画像が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
　請求項１に記載の画像音声通信装置。
　前記タイミング判定部は、
　前記送受信部により受信された画像のデータ量が予め設定した閾値より小さい場合に、前記受信された画像が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
　請求項１に記載の画像音声通信装置。
　前記タイミング判定部は、
　前記送受信部により受信された音声のレベルが予め設定した閾値よりも小さい場合に、前記受信された音声が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
　請求項１に記載の画像音声通信装置。
　前記画像音声通信装置は、さらに、前記送受信部により送信される音声がマイクを用いて収音されて入力される音声入力部とを備え、
　前記タイミング判定部は、
　前記音声入力部に入力された音声のレベルが予め設定した閾値よりも大きい場合に、前記入力された音声が前記画像音声出力部により出力されるタイミングを前記補正量の更新すべきタイミングとして判定する
　請求項１に記載の画像音声通信装置。
　前記画像音声通信装置は、さらに、前記送受信部により受信された画像または音声を一時的に記憶するバッファと、
　前記バッファの容量の残量を監視し、当該残量に基づいて、ＰＴＳ補正量を算出するＰＴＳ補正量算出部とを備え、
　前記ＰＴＳ補正部は、前記タイミング判定部により判定されたタイミングの画像または音声におけるＰＴＳに前記ＰＴＳ補正量算出部により算出されたＰＴＳ補正量を加算することを用いて、当該判定されたタイミングの画像または音声におけるＰＴＳを補正する
　請求項１に記載の画像音声通信装置。
　前記ＰＴＳ補正量算出部は、
　当該残量が単調増加する場合にマイナス値のＰＴＳ補正量を算出し、当該残量が単調減少する場合にプラス値のＰＴＳ補正量を算出する
　請求項７に記載の画像音声通信装置。
　画像音声通信装置の通信方法であって、
　ネットワークを通じて、画像および音声を送受信する送受信ステップと、
　前記送受信ステップにおいて送信される音声、または前記送受信部により受信された画像もしくは音声の内容に基づいて、当該受信された画像または音声におけるＰＴＳの補正量を更新すべきタイミングを判定するタイミング判定ステップと、
　前記タイミング判定ステップにおいて判定されたタイミングに当該受信された画像または音声におけるＰＴＳの補正量を更新することにより、当該ＰＴＳを補正するＰＴＳ補正ステップと、
　前記画像音声通信装置が示す現在時刻における補正された当該ＰＴＳに対応する当該受信された画像および音声を出力する画像音声出力ステップとを含む
　通信方法。
　画像音声通信装置が通信するためのプログラムであって、
　ネットワークを通じて、画像および音声を送受信する送受信ステップと、
　前記送受信ステップにおいて送信される音声、または前記送受信部により受信された画像もしくは音声の内容に基づいて、当該受信された画像または音声におけるＰＴＳの補正量を更新すべきタイミングを判定するタイミング判定ステップと、
　前記タイミング判定ステップにおいて判定されたタイミングに当該受信された画像または音声におけるＰＴＳの補正量を更新することにより、当該ＰＴＳを補正するＰＴＳ補正ステップと、
　前記画像音声通信装置が示す現在時刻における補正された当該ＰＴＳに対応する当該受信された画像および音声を出力する画像音声出力ステップとを含む
　ことをコンピュータに実行させるためのプログラム。
　画像音声通信装置の集積回路であって、
　ネットワークを通じて、画像および音声を送受信する送受信部と、
　前記送受信部により送信される音声、または前記送受信部により受信された画像もしくは音声の内容に基づいて、当該受信された画像または音声におけるＰＴＳの補正量を更新すべきタイミングを判定するタイミング判定部と、
　前記タイミング判定部により判定されたタイミングに当該受信された画像または音声におけるＰＴＳの補正量を更新することにより、当該ＰＴＳを補正するＰＴＳ補正部と、
　前記画像音声通信装置が示す現在時刻における補正された当該ＰＴＳに対応する当該受信された画像および音声を出力する画像音声出力部とを備える
　集積回路。