WO2022269788A1

WO2022269788A1 - 伝送システム、送信システム、受信システム及び伝送方法

Info

Publication number: WO2022269788A1
Application number: PCT/JP2021/023733
Authority: WO
Inventors: 英一郎松本; 真二深津; 広夢宮下; 麻衣子井元
Original assignee: 日本電信電話株式会社
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2022-12-29
Also published as: JPWO2022269788A1

Abstract

実施形態によれば、伝送システムは、送信システム、受信システム、情報収集部及び同期制御部を具備する。送信システムは、映像データ及び音声データを接続されたネットワークに送信できる。受信システムは、ネットワークを介して映像データ及び音声データを受信できる。情報収集部は、送信システム又は受信システムに設けられるとともに、映像及び音声の同期の要否の判定結果と判定項目とを対応付けて、同期制御データとして収集する。同期制御部は、送信システム又は受信システムに設けられるとともに、同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する。

Description

伝送システム、送信システム、受信システム及び伝送方法

　本発明は、伝送システム、送信システム、受信システム及び伝送方法に関する。

　マルチメディアコンテンツの伝送システムでは、送信システムが、ネットワークを介して通信可能な受信システムに、カメラ及びマイクから入力された映像及び音声を相互に同期させて送信する。送信された映像及び音声に基づいて、受信システムが映像表示装置に映像を表示するともに、スピーカから音声を再生する。例えば、離れたシステム間で映像及び音声をリアルタイムで共有する場合、映像及び音声の伝送遅延が５０ミリ秒を超えない程度であれば、システム間で互いに連携して作業を行う際に障害が生じにくい。また、映像及び音声が相互に同期しているため、音声の遅延の程度が、映像の遅延の程度と同程度となってしまう。そのため、映像及び音声に関連する遅延を抑制可能な伝送システムが求められている。

日本国特許第5595348号公報

西堀佑，外２名，"遅延のある演奏系での遅延の認知に関する実験とその考察"，情報処理学会研究報告，2003年12月21日，第127(2003-MUS-053)巻，p．37－42

　本発明は、映像及び音声に関連する遅延を抑制可能な伝送システム、送信システム、受信システム及び伝送方法を提供することを目的とする。

　実施形態によれば、映像及び音声に関連する遅延を抑制可能な伝送システム、送信システム、受信システム及び伝送方法を提供することができる。

図１は、実施形態に係る伝送システムを概略的に示すブロック図である。図２は、実施形態に係る伝送システムの送信システム及び受信システムのハードウェア構成を概略的に示すブロック図である。図３は、実施形態に係る伝送システムの同期制御部で実行される処理の一例を説明するフローチャートである。図４は、実施形態に係る伝送システムの変形例を概略的に示すブロック図である。

　本発明の一実施形態について、適宜図面を参照しながら詳細に説明する。

　実施形態に係る伝送システム１は、例えば、スポーツやエンターテインメント等を離れた場所において観戦・観覧する場合に使用される。観戦・観覧する場所（拠点）が異なっていても、観戦・観覧する人が同時にスポーツやエンターテインメント等を楽しむためには、観戦・観覧する場所にスポーツやエンターテインメント等の映像及び音声を可能な限り遅延することなく伝送することが求められる。しかしながら、通常、映像及び音声は互いに同期した状態で伝送されるため、映像の伝送が遅延することにより音声の伝送も遅延してしまう。その結果、互いに離れた場所にいる観戦・観覧者同士が同時に（連携して）スポーツやエンターテインメント等を楽しむことは難しい場合があった。本実施形態の伝送システム１は、同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期（独立）音声データ、のいずれかを選択する。これにより、スポーツやエンターテインメント等の観戦・観覧者は、映像及び音声の同期が必要なタイミングにおいて、同期した映像及び音声を視聴することができるようになる。例えば、試合中の選手の映像が流れている場合、映像及び音声を同期させて伝送するため、観戦・観覧者は違和感なく視聴することができる。一方で、観客席の映像等が流れている場合等、必ずしも映像及び音声を同期させる必要がない場合、映像及び音声を同期させることなく伝送することで音声遅延が所定の閾値以下に抑制される。これにより、離れた場所にいる観戦・観覧者同士が連携しながら応援することができる。

　図１は、実施形態に係る伝送システムを概略的に示すブロック図である。伝送システム１は、送信システム２及び受信システム３を備える。送信システム２は、撮影部２１、集音部２２、映像処理部２３、オーディオシステム２４、エンコーダ２５、判定部２６、及び、情報収集部２７を備える。判定部２６は、映像判定部２６１、音声判定部２６２、設定判定部２６３、及び、音量判定部２６４を備える。受信システム３は、デコーダ３１、同期制御部３２、オーディオシステム３３、映像表示部３４、及び、発音部３５を備える。送信システム２及び受信システム３は、ネットワーク４を介して互いに通信可能である。ネットワーク４は、例えば、インターネット（登録商標）である。なお、図１の破線は、後述する同期制御データが送信される経路を示す。

　図２は、実施形態に係る伝送システムの送信システム及び受信システムのハードウェア構成を概略的に示すブロック図である。送信システム２及び受信システム３のそれぞれは、例えば、コンピュータである。送信システム２及び受信システム３のそれぞれは、プロセッサ４１、記憶媒体４２、ユーザインタフェース４３、及び、通信部４４を備える。プロセッサ４１、記憶媒体４２、ユーザインタフェース４３、及び、通信部４４は、互いに対してバス４５を介して接続される。

　プロセッサ４１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）、マイコン、ＦＰＧＡ（Field Programmable Gate Array）、及び、ＤＳＰ（Digital Signal processor）等のいずれかを含む。記憶媒体４２には、メモリ等の主記憶装置４６に加え、補助記憶装置４７が含まれ得る。

　主記憶装置４６は、非一時的な記憶媒体である。主記憶装置４６は、例えば、ＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）等の書き込み及び読み出しが随時に可能な不揮発性メモリ、ＲＯＭ（Read Only Memory）等の不揮発性メモリ等である。また、これらの不揮発性メモリが組み合わせて使用されているものであってもよい。補助記憶装置４７は、有形の記憶媒体である。補助記憶装置４７は、前述の不揮発性メモリ、ＲＡＭ（Random Access Memory）等の揮発性メモリが組み合わせて使用されるものである。送信システム２及び受信システム３では、プロセッサ４１及び記憶媒体４２のそれぞれは、１つのみ設けられてもよく、複数設けられてもよい。

　送信システム２及び受信システム３のそれぞれでは、プロセッサ４１は、記憶媒体４２等に記憶されるプログラム等を実行することにより、処理を行う。また送信システム２及び受信システム３はでは、プロセッサ４１によって実行されるプログラムは、インターネット等のネットワークを介して接続されたコンピュータ（サーバ）、又は、クラウド環境のサーバ等に格納されてもよい。この場合、プロセッサ４１は、ネットワーク経由でプログラムをダウンロードする。送信システム２において、映像処理部２３、オーディオシステム２４、エンコーダ２５、判定部２６、及び、情報収集部２７は、送信システム２に備えられるプロセッサ４１で実行される処理の少なくとも一部を実行する。受信システム３において、デコーダ３１、同期制御部３２、及び、オーディオシステム３３は、受信システム３に備えられるプロセッサ４１で実行される処理の少なくとも一部を実行する。

　ユーザインタフェース４３では、伝送システム１の使用者によって各種の操作等が入力されるとともに、使用者に告知する情報等が表示等によって告知される。ユーザインタフェースは、ディスプレイなどの表示部４８であったり、タッチパネルやキーボードなどの入力部４９であったりする。なお、入力部４９として、送信システム２及び受信システム３に接続されたデバイスが使用されてもよく、ネットワーク４を介して通信可能な他の情報処理装置の入力部が使用されてもよい。

　ある一例では、送信システム２及び受信システム３は、互いにネットワーク４を介して通信可能なサーバである。別のある一例では、送信システム２及び受信システム３は、クラウド環境に構築されるクラウドサーバである。この場合、クラウド環境のインフラは、仮想ＣＰＵ等の仮想プロセッサ及びクラウドメモリによって、構成される。仮想プロセッサによって実行される処理の一部を、映像処理部２３、オーディオシステム２４、エンコーダ２５、判定部２６、及び、情報収集部２７が実行する。また、仮想プロセッサによって実行される処理の一部を、デコーダ３１、同期制御部３２、及び、オーディオシステム３３が実行する。

　送信システム２の構成について説明する。撮影部２１は、映像（動画）データを撮影する。撮影部２１は、例えば、カメラである。集音部２２は、撮影部２１が撮影した映像データで使用される音声データを集音する。集音部２２は、例えば、マイクである。映像処理部２３は、撮影部２１が撮影した映像データに基づいて、所定の処理を実行する。映像処理部２３は、例えば、撮影した映像データに文字情報や図形情報等を重ねて表示する処理を実行する。オーディオシステム２４は、集音部２２が集音した音声データに基づいて、所定の処理を実行する。オーディオシステム２４は、例えば、集音した音声データの音量等をネットワーク４を介して伝送するにあたり最も適切な状態へ調整する処理を実行する。エンコーダ２５は、映像処理部２３から入力された映像データ及びオーディオシステム２４から入力された音声データに基づいて、エンコードを実行する。エンコーダ２５は、エンコードした映像データ及び音声データを、ネットワーク４を介して受信システム３に送信する。

　エンコーダ２５は、映像データと同期して音声を出力可能な同期音声データ、及び、映像データとは独立して音声を出力可能な非同期音声データの両方を、ネットワーク４を介して受信システム３に送信する。同期音声データ及び非同期音声データの両方は、いずれも集音部２２で集音された音声データである。ここでは、映像データと同期して（映像データとともに）受信システム３に送信される場合の音声データを同期音声データと呼ぶ。また、映像データとは無関係に（独立して）受信システム３に送信される場合の音声データを非同期音声データと呼ぶ。本実施形態では、エンコーダ２５が映像データ及び同期音声データをまとめて受信システム３に送信し、非同期音声データを映像データとは独立して受信システム３に送信する。したがって、非同期音声データは、映像データの処理やネットワーク４における映像データの送信速度等に影響されずに、受信システム３に送信される。判定部２６は、撮影部２１が撮影した映像データ及び集音部２２が集音した音声データに基づいて、同期の要否を判定する。情報収集部２７は、判定部２６で生成された判定結果を収集するとともに、判定結果と判定に用いられる判定項目とを互いに関連付けて、ネットワーク４を介して受信システム３に送信する。

　受信システム３の構成について説明する。デコーダ３１は、映像及び音声をデコードする。デコードされた映像データは映像表示部３４に出力されるとともに、デコードされた音声データは同期制御部３２に出力される。このとき、同期制御部３２は、同期音声データ及び非同期音声データの両方をデコーダ３１から取得する。同期制御部３２は、送信システム２から、判定結果及び判定項目が互いに関連付けられた同期制御データを取得する。同期制御部３２は、同期制御データに基づいて後述する処理を実行し、同期音声データ又は非同期音声データのいずれかを選択する。同期制御部３２は、選択したいずれかの音声データをオーディオシステム３３に出力する。オーディオシステム３３は、入力された音声データに基づいて、所定の処理を実行する。オーディオシステム３３は、例えば、発音部３５から再生するのに適切な音量となるよう調整する処理を実行する。映像表示部３４は、入力された映像データを表示する。映像表示部３４は、例えば、ディスプレイやプロジェクタである。発音部３５は、入力された音声データを再生する。発音部３５は、例えば、スピーカである。

　次に、送信システム２の判定部２６及び情報収集部２７について説明する。判定部２６は、前述したように、映像判定部２６１、音声判定部２６２、設定判定部２６３、及び、音量判定部２６４を備える。

　映像判定部２６１は、撮影部２１から判定に使用する映像データを取得する。映像判定部２６１は、取得した映像データに基づいて、映像の種別を判定する。ある一例では、映像判定部２６１は、取得した映像データに基づいて、映像が引き画であるか寄り画であるかを判定する。映像判定部２６１は、例えば、機械学習による事前の学習結果に基づいて、前述した映像データを判定してもよい。映像判定部２６１は、映像データの判定結果を情報収集部に出力する。

　音声判定部２６２は、集音部２２から判定に使用する音声データを取得する。音声判定部２６２は、取得した音声データに基づいて、音声の種別を判定する。ある一例では、音声判定部２６２は、取得した音声データに基づいて、音声が声援であるか否かを判定する。音声判定部２６２は、例えば、機械学習による事前の学習結果に基づいて、前述した音声データを判定してもよい。音声判定部２６２は、音声データの判定結果を情報収集部２７に出力する。

　設定判定部２６３は、例えば撮影部２１の設定情報を機材データとして、撮影部２１から取得する。設定情報は、レンズの焦点距離に関する情報を含む。設定判定部２６３は、取得した設定情報及び予め設定された閾値に基づいて、撮影部２１が寄り画で撮影しているか又は撮影部２１が引き画で撮影しているかを判定する。すなわち、レンズの焦点距離が予め設定された閾値よりも大きい場合、撮影部２１が寄り画で撮影していると判定し、レンズの焦点距離が予め設定された閾値以下である場合、撮影部２１が引き画で撮影していると判定する。設定判定部２６３は、撮影部２１の判定結果を情報収集部２７に出力するとともに、撮影部２１の設定情報を情報収集部２７に出力する。予め設定されたレンズの焦点距離の閾値は、例えば、撮影部２１が撮像素子３５ｍｍのカメラである場合、１００ｍｍである。

　音量判定部２６４は、集音部２２から判定に使用する音声データを取得する。音量判定部２６４は、取得した音声データの音量に基づいて、音声の種別を判定する。ある一例では、音量判定部２６４が、取得した音声データの音量及び予め設定された音量の閾値に基づいて、音声データが声援であるか否かを判定する。音声データの音量としては、例えば、客席に設置されたマイクから入力された声援のゲイン値（音量）を示す情報が含まれる。音量判定部２６４は、音声データの音量の判定結果を情報収集部２７に出力する。予め設定された音量の閾値は、例えば、７５．０ｄＢである。

　情報収集部２７は、前述した判定部２６から、映像データの判定結果、音声データの判定結果、及び、機材データに基づく判定結果のそれぞれを取得する。情報収集部２７は、映像判定部２６１による判定結果が映像データに関連することを示す情報と、映像判定部２６１による判定結果とを関連付ける。情報収集部２７は、音声判定部２６２による判定結果が音声データに関連することを示す情報と、音声判定部２６２による判定結果とを関連付ける。情報収集部２７は、設定判定部２６３による判定結果が機材データに関連することを示す情報と、設定判定部２６３による判定結果とを関連付ける。情報収集部２７は、音量判定部２６４による判定結果が音声データに関連することを示す情報と、音量判定部２６４による判定結果とを関連付ける。情報収集部２７は、前述のようにして、判定結果と判定項目とが関連付けられた同期制御データを、ネットワーク４を介して同期制御部３２に送信する。

　次に、同期制御部３２について説明する。同期制御部３２は、同期制御データに基づいて、受信システム３の発音部３５から出力される音声データを選択する。同期制御部３２は、同期制御データに含まれる判定項目及び判定結果に対応した処理を実行することで、適切な音声データを選択する。判定項目が映像データに関連し、かつ、判定結果として映像の種別が寄り画である場合、同期制御部３２は、出力される音声データとして同期音声データを選択する。また、判定項目が音声データに関連し、かつ、判定結果として音声の種別が声援以外である場合、同期制御部３２は、出力される音声データとして同期音声データを選択する。また、判定項目が機材データに関連し、かつ、判定結果として焦点距離が閾値を超える場合、同期制御部３２は、出力される音声データとして同期音声データを選択する。また、判定項目が音声データに関連し、かつ、判定結果として音声データの音量が閾値を超える場合、同期制御部３２は、出力される音声データとして同期音声データを選択する。これらの場合、映像データに伝送に対する音声データの伝送に際して低遅延が求められないため、同期制御部３２は、出力される音声データとして同期音声データを選択する。これら以外の場合、同期制御部３２は音声データとして非同期音声データを選択する。すなわち、この場合、映像データに伝送に対する音声データの伝送に際して低遅延が求められるため、同期制御部３２は、出力される音声データとして非同期音声データを選択する。同期制御部３２は、前述のようにして選択した音声データをオーディオシステム３３に出力する。同期制御部３２は、前述した処理において、同期制御データに含まれる判定項目及び判定結果のいずれか１つを利用してもよく、複数を組み合わせて使用してもよい。

　なお、同期制御部３２は、あらかじめ音声データの判定基準となる基準情報を受信システム３から取得する。基準情報は、例えば、映像データと音声データとの同期の判定に用いられる閾値、同期の判定を実行する判定周期（時間間隔）等のデータを含む。同期の判定に用いられる閾値は、例えば、複数の判定結果を用いて同期音声データの選択の要否を判定する場合、同期音声データを選択する判定結果の割合が５０％以上であること、である。この場合、同期音声データを選択する判定結果の割合が５０％以上であるとき同期音声データが選択され、同期音声データを選択する判定結果の割合が５０％未満であるとき非同期音声データが選択される。また、判定周期は、例えば、撮影部２１が秒間６０枚の映像を撮影するカメラである場合、１／６０秒である。

　同期制御部３２が音声データを選択する場合、選択の前後において音声データが同期音声データから非同期音声データに、又は、非同期音声データから同期音声データに切り替わる場合がある。このとき、同期制御部３２は、音声データの切替にともなう不自然な音の変化（例えば、無音区間の発生や音声波形の断裂）を抑制するため、所定の緩衝処理を実行してもよい。緩衝処理は、例えば、音声データの切替時には瞬時に切り替えるのではなく、切り替える前の音声データの音量を段々小さくしていったものと、切り替えた後の音声データの音量を段々大きくしていったものを合成して出力する等の処理である。

　図３は、同期制御部３２で実行する処理の一例を説明するフローチャートである。図３の処理は、送信システム２から受信システム３に映像データ及び音声データが入力されるたびに、同期制御部３２によって実行される。したがって、図３の処理は、伝送システム１の音声データの入力において実行される処理の一例を示す。

　図３の処理が開始されると、同期制御部３２は、音声データの判定基準となる基準情報を受信システム３から取得する（Ｓ１０１）。同期制御部３２は、判定結果と判定項目とが関連付けられた同期制御データを、ネットワーク４を介して送信システム２から取得する（Ｓ１０２）。送信システム２から受信システム３に映像データ及び音声データを伝送するのに要した時間（遅延時間）が時間閾値以上である場合（Ｓ１０３－Ｙｅｓ）、同期制御部３２は、同期音声データの取得が完了しているか否かを判定する（Ｓ１０４）。同期音声データの取得が完了している場合（Ｓ１０４－Ｙｅｓ）、同期制御部３２は、出力される音声データとして同期音声データを選択する（Ｓ１０６）。同期音声データの取得が完了していない場合（Ｓ１０４－Ｎｏ）、同期制御部３２は、出力される音声データとして非同期音声データを選択する（Ｓ１０７）。このように、遅延時間が時間閾値以上である場合には、取得が完了している音声データを出力される音声データとして選択することで、音声再生の停止を防止することができる。

　送信システム２から受信システム３に映像データ及び音声データを伝送するのに要した時間（遅延時間）が時間閾値未満である場合（Ｓ１０３－Ｎｏ）、同期制御部３２は、音声データが低遅延であることが優先されるか否かを判定する（Ｓ１０５）。低遅延の優先の要否は、前述のように、同期制御データに含まれる判定結果及び判定項目に対応して判定される。低遅延が優先される場合（Ｓ１０５－Ｙｅｓ）、処理はＳ１０４に進み、Ｓ１０４以降の処理が実行される。低遅延が優先されない場合（Ｓ１０５－Ｎｏ）、同期制御部３２は、出力される音声データとして非同期音声データを選択する（Ｓ１０７）。

　同期制御部３２は、出力される音声データの選択により、選択前の音声データと選択後の音声データが切替わっているか否かを判定する（Ｓ１０８）。音声データが切替わっている場合（Ｓ１０８－Ｙｅｓ）、同期制御部３２は前述した緩衝処理を実行する（Ｓ１０９）。その後、同期制御部３２は緩衝処理が実行された音声データを出力する（Ｓ１１０）。音声データが切替わっていない場合（Ｓ１０８－Ｎｏ）、同期制御部３２がＳ１０９を実行することなく、処理がＳ１１０へ進む。音声データの出力により、オーディオシステム３３に音声データが入力されるとともに、発音部３５から音声が出力される。また、発音部３５からの音声出力は、映像表示部３４の映像データの再生にあわせて適宜実行される。

　同期制御部３２は、基準情報として取得した音声データの判定周期を超えているか否かを判定する（Ｓ１１１）。判定周期以下である場合（Ｓ１１１－Ｎｏ）、処理はＳ１１１に戻り、同期制御部３２はＳ１１１以降の処理を実行する。判定周期を超えている場合（Ｓ１１１－Ｙｅｓ）、同期制御部３２は、音声データの入力が継続しているか否かを判定する（Ｓ１１２）。音声データの入力が継続している場合（Ｓ１１２－Ｙｅｓ）、処理はＳ１０２に戻り、同期制御部３２はＳ１０２以降の処理を実行する。音声データの入力が継続していない場合（Ｓ１１２－Ｎｏ）、処理は終了する。

　前述のように本実施形態の伝送システム１は、情報収集部２７及び同期制御部３２を具備する。情報収集部２７は、映像及び音声の同期の要否の判定結果と判定項目とを対応付けて、同期制御データとして収集する。同期制御部３２は、同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する。これにより、伝送システム１では、適切なタイミングで非同期音声データを出力することができる。そのため、本実施形態の伝送システムでは、映像の伝送を待たずに音声が伝送されることで、音声遅延を例えば５０ミリ秒以下に抑えることができる。よって、離れた場所で観戦・観覧している者同士が連携しながら、応援等をすることが可能となる。

　本実施形態の伝送システム１では、同期制御部３２は、同期制御データが音声の低遅延を要求する情報である場合に同期音声データを選択し、同期制御データが音声の低遅延を要求しない情報である場合に非同期音声データを選択することが好ましい。これにより、伝送システム１では適切なタイミングで映像とは同期しない非同期音声データを出力することができる。

　本実施形態の伝送システム１では、同期制御部３２は、同期制御データに基づいた選択により、出力される音声が同期音声データと非同期音声データとの間で切り替わる場合、音声の緩衝処理を実行することが好ましい。これにより、音声データの切替にともなって発生する不自然な音の発生を抑制することができるとともに、視聴者は違和感なく映像及び音声を視聴し続けることができる。

　このような伝送システム１を使用することにより、例えば、映像が寄り画の場合（スポーツ選手をズームアップして撮影している場合等）に映像及び音声が同期して再生され、映像が切替わって引き画の場合（観客席全体を撮影している場合等）に映像及び音声が同期されずに再生される。そのため、映像の視聴者は、映像と音声とのずれを顕著に認識するタイミングにおいて映像と音声とが同期しているため、違和感を感じることなく視聴を続けることができる。さらに、映像の視聴者が映像と音声とのずれを顕著に認識するタイミングとは別のタイミングにおいて、映像と音声とが同期されずに再生されるため、視聴者が違和感を感じることなく、映像及び音声に関連する遅延を抑制することができる。

　（変形例）
　図４は、実施形態の伝送システムの変形例を示す概略的なブロック図である。本変形例では、複数のエンコーダ２５が送信システム２に設けられるとともに、複数のデコーダ３１が受信システム３に設けられる。図４の一例では、送信システム２が２つのエンコーダ２５１，２５２を備え、受信システム３が２つのデコーダ３１１，３１２を備える。この場合、エンコーダ２５１が映像処理部２３から出力された映像データ及びオーディオシステム２４から出力された音声データを同期させて、送信システム２から受信システム３にネットワーク４を介して送信する（実線の矢印で示す）。また、エンコーダ２５２が、オーディオシステム２４から出力された非同期音声データを、映像データと同期させることなく独立して、送信システム２から受信システム３にネットワーク４を介して送信する（一点鎖線の矢印で示す）。一方、デコーダ３１１が受信した映像データ及び同期音声データをデコードするとともに、映像データを映像表示部３４に出力し、同期音声データを同期制御部３２に出力する（実線の矢印で示す）。また、デコーダ３１２が、受信した非同期音声データを同期制御部３２に出力する（一点鎖線の矢印で示す）。この変形例においても、伝送システム１は、同期制御データに基づいて、同期音声データ又は非同期音声データのいずれかを選択することができる。よって、これらの変形例においても前述の実施形態と同様の効果を奏する。

　ある変形例では、情報収集部２７及び同期制御部３２が送信システム２に設けられてもよい。また、別のある変形例では、情報収集部２７及び同期制御部３２が受信システム３に設けられてもよい。これらの変形例の場合、同期制御部３２は、情報収集部２７からネットワーク４を介することなく、同期制御データを取得する。これらの変形例においても、伝送システム１は、同期制御データに基づいて、同期音声データ又は非同期音声データのいずれかを選択することができる。よって、これらの変形例においても前述の実施形態と同様の効果を奏する。

　実施形態等に記載された手法は、コンピュータに実行させることができるプログラム（ソフトウエア）として、例えば、磁気ディスク、光ディスク、半導体メモリ等の記憶媒体に格納して頒布され得る。記憶媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含む。また、実施形態に記載された手法は、通信媒体により伝送して頒布され得る。媒体側に格納されるプログラムには、コンピュータに実行させるソフトウエアをコンピュータ内に構成させる設定プログラムをも含む。ソフトウェアには、実行プログラムのみならずテーブル、データ構造も含む。本システムを実現するコンピュータは、記憶媒体に記録されたプログラムを読み込むとともに、ソフトウェアにより動作が制御されることで、前述の処理を実行する。ソフトウェアは、コンピュータが設定プログラムにより構築してもよい。

　なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

　１…伝送システム
　２…送信システム
　３…受信システム
　４…ネットワーク
　２１…撮影部
　２２…集音部
　２３…映像処理部
　２４…オーディオシステム
　２５，２５１，２５２…エンコーダ
　２６…判定部
　２７…情報収集部
　３１，３１１，３１２…デコーダ
　３２…同期制御部
　３３…オーディオシステム
　３４…映像表示部
　３５…発音部

Claims

　映像データ及び音声データを接続されたネットワークに送信可能な送信システムと、
　前記ネットワークを介して前記映像データ及び前記音声データを受信可能な受信システムと、
　前記送信システム又は前記受信システムに設けられるとともに、映像及び音声の同期の要否の判定結果と前記判定結果の判定項目とを対応付けて、同期制御データとして収集する情報収集部と、
　前記送信システム又は前記受信システムに設けられるとともに、前記同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する同期制御部と、
を具備する、伝送システム。
　前記同期制御部は、前記同期制御データが音声の低遅延を要求する情報である場合に前記同期音声データを選択し、前記同期制御データが音声の低遅延を要求しない情報である場合に前記非同期音声データを選択する、
　請求項１に記載の伝送システム。
　前記同期制御部は、前記同期制御データに基づいた選択により、出力される音声が前記同期音声データと前記非同期音声データとの間で切り替わる場合、音声の緩衝処理を実行する、
　請求項１又は２に記載の伝送システム。
　前記同期制御データは、前記映像データに関連する前記同期制御データ、前記音声データに関連する前記同期制御データ、及び、機材データに関連する前記同期制御データから選択される少なくとも１つを含む、
　請求項１～３のいずれか１項に記載の伝送システム。
　前記送信システムは、前記情報収集部を備え、
　前記受信システムは、前記送信システムとは別のシステムであるとともに、前記同期制御部を備え、
　前記同期制御部は、前記情報収集部から前記同期制御データを取得する、
　請求項１～４のいずれか１項に記載の伝送システム。
　映像データ及び音声データを接続されたネットワークに送信可能な送信システムであって、
　映像及び音声の同期の要否の判定結果と前記判定結果の判定項目とを対応付けて、同期制御データとして収集する情報収集部を具備する、
送信システム。
　映像データ及び音声データを接続されたネットワークから受信可能な受信システムであって、
　映像及び音声の同期の要否の判定結果と判定結果の判定項目とを対応付けた同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する同期制御部を具備する、
受信システム。
　映像及び音声の同期の要否の判定結果と前記判定結果の判定項目とを対応付けて、同期制御データとして収集し、
　前記同期制御データに基づいて、映像と同期して音声を出力可能な同期音声データ、又は、映像とは独立して音声を出力可能な非同期音声データ、のいずれかを選択する、
伝送方法。