WO2011016165A1

WO2011016165A1 - 切替制御装置、切替制御用集積回路、切替制御方法、及び制御プログラム

Info

Publication number: WO2011016165A1
Application number: PCT/JP2010/002804
Authority: WO
Inventors: 藤田隆久; 佐藤泰教; 山口浩平
Original assignee: パナソニック株式会社
Priority date: 2009-08-05
Filing date: 2010-04-19
Publication date: 2011-02-10

Abstract

　本発明に係る切替制御装置は、それぞれが音声を含む複数のストリームのうち、第１ストリームについて、所定長Ｌ分の音声データ(第１照合対象)を格納し、第２ストリームについて、第１及び第２ストリームに含まれる、同時刻に生じた音声に基づき生成された音声データそれぞれが受信される際の時間差Ｚ０が特定されてない場合には、第１照合対象の受信開始時刻Ｔ０を含む所定時間幅Ｗ内に受信を開始した各Ｌ分の音声データ(第２照合対象)を格納し、特定後は、時刻(Ｔ０+Ｚ０)を含む所定時間幅Ｗ１(Ｗ１<Ｗ)内に受信を開始した各Ｌ分の音声データ(第２照合対象)を格納し、各照合対象を照合することで前記特定を行う。

Description

切替制御装置、切替制御用集積回路、切替制御方法、及び制御プログラム

　本発明は、それぞれが少なくとも音声を含むＡＶ（オーディオ・ビデオ）ストリーム等の複数のストリームを編集し、１つのストリームを生成する技術に関する。

　近年、デジタルビデオカメラや携帯電話機等、少なくとも音声を含むストリーム（例えば、ＡＶストリーム）の記録が可能な装置が普及してきており、例えば、運動会や旅行等のイベントでは、各人が、その様子をそれぞれの装置で記録するようなことが行われている。

　ここで、ＡＶストリームは、映像ストリームと音声ストリームとから構成され、映像ストリームは、所定時間（例えば１／３０ｓ）毎に生成された複数の映像フレームを含んで構成されるものである。

　例えば、ＡＶストリームの記録（いわゆる動画撮影）が可能な装置（以下、「撮影装置」という）が共通する被写体（複数の人物等）を撮影した場合、一般的には、それぞれ異なる位置から撮影した各映像ストリームが生成される。従って、各撮影装置で生成された複数の映像ストリームから各場面に適した位置で撮影された１つ以上の映像フレームを選択し、選択した映像フレームをつなぎ合わせて１つの映像ストリームを生成するようなことが可能である。これにより、１台の撮影装置で撮影した映像ストリームよりも、より表現力に富んだ映像ストリームを生成することができる。例えば、遠くから被写体を撮影した撮影装置の映像フレームと、近くからその被写体を撮影した撮影装置の映像フレームとをつなぎ合わせることで、被写体に一気にズームアップするような映像効果を有する映像ストリームを生成することができる。

　ここで、生成された１つの映像ストリームを構成する各映像フレームの撮影時刻は過去から現在に向かって連続している必要がある。この撮影時刻とは、撮影が行われた際の実際の時刻を表している。

　例えば、上述の例で、１つの被写体を２つの撮影装置で撮影し、一方の撮影装置の映像ストリームに含まれている映像フレームＡに、他方の撮影装置の映像ストリームに含まれている映像フレームＢをつなぎ合わせて１つの映像ストリームを生成する場合に、映像フレームＢの撮影時刻が映像フレームＡの撮影時刻より過去であったとすると、生成された１つの映像ストリームを再生したときに、時間が逆戻りしたような不自然な印象を視聴者に与えてしまうことになる。

　この問題に対し、各撮影装置で生成されたＡＶストリーム（映像ストリーム及び音声ストリーム）における音声ストリームを比較して音声パターンが一致する箇所を検出することで、同時刻に生じた音声に基づき生成された音声データの位置を特定し、この位置のずれ（時間差）を考慮して、各撮影装置で生成されたＡＶストリームから１つのＡＶストリームを生成することを可能にする技術が知られている（例えば、特許文献１）。

　これにより、１つの撮影装置で生成された映像ストリームに含まれる映像フレームと、その映像フレームの撮影時刻からほぼ１フレーム分撮影時刻が進んだ、他の撮影装置で撮影された映像ストリームに含まれる映像フレームとをつなぎ合わせるようなことが可能になる。

日本国特許公開２００９－１０５４８号公報

　しかしながら、特許文献１の方法では、各ＡＶストリームに付与されている、各撮影装置での記録開始又は終了時刻を表す時刻情報に基づいて、記録時間が重複している各音声データの全体又は一部を比較して音声パターンが一致する箇所を検出する。

　各撮影装置は、通常、現在時刻を計時する機能を備えており、自装置が計時している時刻に基づいて、自装置が生成したＡＶストリームに上述の時刻情報を付与する。

　従って、もしも計時している時刻が、実際の時刻と大きくずれている撮影装置があった場合には、その撮影装置で生成されたＡＶストリームに付与されている時刻情報も実際の記録開始等の時刻と大きくずれたものとなるため、特許文献１の方法では、各ＡＶストリームにおいて、同時刻に生じた音声に基づき生成された音声データの位置の特定ができない場合が生じ得る。

　また、特許文献１の技術は、各撮影装置での撮影が終了した後に、各ＡＶストリームを順番に取り込み、１つのＡＶストリームを生成することを想定したものである。しかしながら、この１つのＡＶストリームを生成する際の利便性を考えれば、各撮影装置で撮影が行われている最中に、各撮影装置で生成が済んでいる部分のＡＶストリームを用いて、リアルタイムに１つのストリームを生成していくほうが望ましい。

　リアルタイムに１つのストリームを生成していくためには、各ＡＶストリームにおいて、同時刻に生じた音声に基づき生成された音声データの位置の特定を、より高速に行う必要がある。この特定に時間がかかりすぎれば、ユーザが望むタイミングでの、あるＡＶストリームから別のＡＶストリームへの切替ができないからである。

　そこで、本発明は係る問題に鑑みてなされたものであり、それぞれが少なくとも音声を含むＡＶストリーム等の複数のストリームから各ストリーム間の時間差を考慮した１つのストリームをリアルタイムに生成する際に利用可能な切替制御装置を提供することを目的とする。

　上記課題を解決するために、本発明に係る切替制御装置は、入力される複数のストリームのうちの１つを出力し、出力対象とするストリームの切替の際にストリーム出力タイミングを調整する切替制御装置であって、それぞれが少なくとも音声を含む複数のストリームを受信する受信手段と、前記複数のストリームから、第１及び第２のストリームを選定する選定手段と、第１及び第２の照合対象を記憶する記憶手段と、第１及び第２のストリーム間で前記切替を行うために、前記記憶手段に記憶されている各照合対象を照合することにより、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づき生成された音声データそれぞれが前記受信手段により受信される際の時間差Ｚ０を前記調整用の値として特定する特定手段と、前記選定手段による前記選定が行われると、第１のストリームについて、所定長Ｌ分の音声データを第１の照合対象として前記記憶手段に格納し、第２のストリームについて、前記特定手段が前記特定を行う前においては、前記受信手段による第１の照合対象の受信開始時刻Ｔ０を含む所定時間幅Ｗ内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、前記特定手段が一旦前記特定を行った後においては、前記受信手段が時刻（Ｔ０＋Ｚ０）を含む所定時間幅Ｗ１（Ｗ１＜Ｗ）内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、各照合対象についての格納後に、前記特定手段に前記特定を行わせるよう制御する制御手段とを備えることを特徴とする。

　上記構成を備える本発明に係る切替制御装置は、所定長Ｌ分の第１のストリームについての音声データを第１の照合対象とし、時間差Ｚ０が特定されているか否かに応じて、この第１の照合対象の受信開始時刻を含む所定の時間幅内で受信を開始した第２のストリームについての音声データを第２の照合対象として、各照合対象の照合を行う。従って、各ストリームに付与されたそのストリームの記録開始時刻等が正確でないために従来技術では第１及び第２のストリームにおける時間差を特定できないときでも、本発明に係る切替制御装置では、この時間差を特定できる場合がある。

　また、時間幅Ｗ１が時間幅Ｗと比べて十分に小さい場合には、時間差Ｚ０が特定される前より特定された後のほうが、第２の照合対象とする音声データのサイズが小さくなる。従って、一旦時間差Ｚ０が特定された後においては、第１及び第２の照合対象の照合をより高速に行うことが可能になるので、本発明に係る切替制御装置は、複数のストリームからリアルタイムに１つのストリームを生成していく際に利用し得る。

　また、前記制御手段は、第２のストリームについて、前記特定手段が前記特定を行う前においては、前記受信手段による受信時刻が時刻（Ｔ０－Ｚ）から２×Ｚ時間後までを時間幅Ｗとし、前記特定手段が一旦前記特定を行った後においては、前記受信手段による受信時刻が時刻（Ｔ０＋Ｚ０－Ｚ１）から２×Ｚ１時間後までを時間幅Ｗ１とし、Ｚは、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づいて生成された音声データそれぞれを前記受信手段が受信する際の時間差のうちの最大時間差の推定値であり、Ｚ１は、第１及び第２のストリームを生成した装置それぞれが備えるクロックの誤差により、当該ストリームに含まれる同時刻に生じた音声に基づいて生成された音声データが送信される時間差のうちの最大時間差の推定値であることとしてもよい。

　これにより、本発明に係る切替制御装置は、時間差Ｚ０が特定される前においては、第１の照合対象の受信開始時刻の前後Ｚ時間の間に受信を開始した各音声データを第２の照合対象とする。このＺは、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づいて生成された音声データそれぞれを前記受信手段が受信する際の時間差のうちの最大時間差の推定値である。従って、本発明に係る切替制御装置は、この第１の照合対象と第２の照合対象とを照合することで時間差Ｚ０を確実に特定できる。

　また、本発明に係る切替制御装置は、一旦時間差Ｚ０が特定をされた後においては、第１の照合対象の受信開始時刻から時間差Ｚ０ずれた時刻の前後Ｚ１時間の間に受信を開始した各音声データを第２の照合対象とする。このＺ１は、第１及び第２のストリームを生成した装置それぞれが備えるクロックの誤差により、当該ストリームに含まれる同時刻に生じた音声に基づく音声データが送信される時間差のうちの最大時間差の推定値である。従って、一旦時間差Ｚ０が特定をされた後に、各装置が備えるクロックの誤差により、同時刻に生じた音声に基づく各音声データを受信する際の受信時刻に揺らぎが生じた場合でも、本発明に係る切替制御装置は、その揺らぎが反映された時間差Ｚ０を再度特定できる。

　また、前記切替制御装置は、前記受信手段が受信した各ストリームから一のストリームを選択し、当該ストリームを出力する出力手段を備え、前記出力手段は、前記出力に係るストリームを第１から第２のストリームに切り替える必要が生じた場合に、第２のストリームの出力タイミングを前記特定手段により特定された時間差Ｚ０に基づいて決定することとしてもよい。

　これにより、本発明に係る切替制御装置は、第１のストリームから第２のストリームへの出力ストリームの切替タイミングを、第１及び第２のストリームについて特定された時間差Ｚ０に基づいて決定するので、第１及び第２のストリーム間の時間差を考慮した出力ストリームの切替が可能になる。つまり、出力されたストリームを再生した場合に、時間が逆戻りしたような不自然な印象を視聴者に与えないで済む。

　また、前記受信手段は、無線ネットワークを介して各ストリームを受信するものであり、前記制御手段は、第２のストリームについて、前記特定手段が前記特定を行う前においては、前記受信手段による受信時刻が時刻（Ｔ０－Ｚ）から２×Ｚ時間後までを時間幅Ｗとし、前記特定手段が一旦前記特定を行った後においては、前記受信手段による受信時刻が時刻｛Ｔ０＋Ｚ０－（Ｚ１＋Ｚ２）｝から２×（Ｚ１＋Ｚ２）時間後までを時間幅Ｗ１とし、Ｚは、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づいて生成された音声データそれぞれを前記受信手段が受信する際の時間差のうちの最大時間差の推定値であり、Ｚ１は、第１及び第２のストリームを生成した装置それぞれが備えるクロックの誤差により、当該ストリームに含まれる同時刻に生じた音声に基づいて生成された音声データが送信される時間差のうちの最大時間差の推定値であり、Ｚ２は、前記無線ネットワークの遅延の揺らぎにより、第１及び第２のストリームに含まれる同時刻に生じた音声に基づいて生成された音声データそれぞれを前記受信手段が受信する際の時間差のうちの最大時間差の推定値であることとしてもよい。

　これにより、本発明に係る切替制御装置は、一旦時間差Ｚ０が特定をされた後において、無線ネットワークの遅延の揺らぎが生じた場合でも、その揺らぎが反映された第１及び第２のストリームにおける時間差Ｚ０を再度特定できる。

　また、複数のストリームそれぞれは、更に映像ストリームを含み、複数のストリームそれぞれには、Ｌ毎に、当該ストリームに係る映像と音声とを同期するための時間情報が付与されており、前記切替制御装置は、前記特定手段及び前記制御手段に代えて、第１及び第２のストリーム間で前記切替を行うために、前記記憶手段に格納された各照合対象を照合することにより、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づき生成された音声データそれぞれを検出し、各音声データに付与された時間情報が示す各時間の差分である時間差Ｚ３を前記調整用の値として特定する第２特定手段と、第１のストリームについて、所定長Ｌ分の音声データを第１の照合対象として前記記憶手段に格納し、第２のストリームについて、前記特定手段が前記特定を行う前においては、前記受信手段が時刻（Ｔ０－Ｚ）から２×Ｚ時間後までに受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、前記特定手段が一旦前記特定を行った後においては、時間情報が示す時間が（Ｚ４－Ｚ５）から（Ｚ４＋Ｚ５）に含まれる各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、各照合対象についての格納後に、前記特定手段に前記特定を行わせるよう制御する第２制御手段とを備え、Ｚ４は、前記記憶手段に記憶されている第１の照合対象に付与されている時間情報が示す時間にＺ３を加えた時間であり、Ｚ５は、第１及び第２のストリームを生成した装置それぞれが備えるクロックの誤差により、当該ストリームに含まれる同時刻に生じた音声に基づいて生成された音声データが送信される時間差のうちの最大時間差の推定値であるＺ１の間に前記受信手段が受信を開始する第２のストリームについての各Ｌ分の音声データのうち、最後に受信を開始する音声データと最初に受信を開始する音声データとにそれぞれ付与された時間情報が示す各時間の差分であることとしてもよい。

　これにより、本発明に係る切替制御装置は、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づき生成された各音声データに付与された時間情報が示す各時間の差分である時間差Ｚ３を特定する。

　従って、各時間情報が示す時間が、実際の時間に対して正確であるか否かによらず、本発明に係る切替制御装置では、第１及び第２のストリームに付与された時間情報を用いて、第１及び第２のストリームにおける時間差を特定できる。

　また、前記出力手段は、ユーザからの切替後のストリームの指定を含むストリームの切替指示を受け付け、当該切替指示で指定されたストリームを選択するものであり、前記選定手段は、前記出力手段により前記切替指示が受け付けられると、当該受け付けの直前に前記出力手段により選択されていたストリームを第１ストリームとして選定し、当該切替指示で指定されたストリームを第２のストリームとして選定し、当該選定に係る第１及び第２ストリームの各照合対象ついての前記特定手段による前記特定を完了するまでは、次の選定は行わないこととしてもよい。

　これにより、記憶手段の記憶容量を、１組の照合対象（第１及び第２の照合対象）を記憶するために必要となる容量にまで抑えることができるので、本発明に係る切替制御装置の処理を、比較的少ないメモリ容量で実現できる。

　また、前記出力手段は、前記一のストリームに係る音声の出力を、前記記憶手段に記憶されている当該一のストリームについての照合対象を用いて行うこととしてもよい。

　これにより、別途、出力対象の音声を記憶するためのメモリ等を用いることなく本発明に係る切替制御装置の処理を、比較的少ないメモリ容量で実現できる。

　また、上述の構成を備えることにより、本発明に係る切替制御用集積回路は、入力される複数のストリームのうちの１つを出力し、出力対象とするストリームの切替の際にストリーム出力タイミングを調整する切替制御用集積回路であって、それぞれが少なくとも音声を含む複数のストリームを受信する受信手段と、前記複数のストリームから、第１及び第２のストリームを選定する選定手段と、第１及び第２の照合対象を記憶する記憶手段と、第１及び第２のストリーム間で前記切替を行うために、前記記憶手段に記憶されている各照合対象を照合することにより、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づき生成された音声データそれぞれが前記受信手段により受信される際の時間差Ｚ０を前記調整用の値として特定する特定手段と、前記選定手段による前記選定が行われると、第１のストリームについて、所定長Ｌ分の音声データを第１の照合対象として前記記憶手段に格納し、第２のストリームについて、前記特定手段が前記特定を行う前においては、前記受信手段による第１の照合対象の受信開始時刻Ｔ０を含む所定時間幅Ｗ内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、前記特定手段が一旦前記特定を行った後においては、前記受信手段が時刻（Ｔ０＋Ｚ０）を含む所定時間幅Ｗ１（Ｗ１＜Ｗ）内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、各照合対象についての格納後に、前記特定手段に前記特定を行わせるよう制御する制御手段とを備えることを特徴とする。

　これにより、上記構成を備える本発明に係る切替制御用集積回路は、所定長Ｌ分の第１のストリームについての音声データを第１の照合対象とし、時間差Ｚ０が特定されているか否かに応じて、この第１の照合対象の受信開始時刻を含む所定の時間幅内で受信を開始した第２のストリームについての音声データを第２の照合対象として、各照合対象の照合を行う。従って、各ストリームに付与されたそのストリームの記録開始時刻等が正確でないために従来技術では第１及び第２のストリームにおける時間差を特定できないときでも、本発明に係る切替制御用集積回路では、この時間差を特定できる場合がある。

　また、時間幅Ｗ１が時間幅Ｗと比べて十分に小さい場合には、時間差Ｚ０が特定される前より特定された後のほうが、第２の照合対象とする音声データのサイズが小さくなる。従って、一旦時間差Ｚ０が特定された後においては、第１及び第２の照合対象の照合をより高速に行うことが可能になるので、本発明に係る切替制御用集積回路は、複数のストリームからリアルタイムに１つのストリームを生成していく際に利用し得る。

実施の形態１に係る切替制御装置１００を含む編集システムの構成図である。実施の形態１に係る切替制御装置１００が受信した各ＡＶストリーム中の音声ストリームを示す図である。実施の形態１に係る切替制御装置１００の機能ブロック図である。３つのＡＶストリームに係る各映像の表示例を示す図である。ずれ時間量管理テーブル５０のデータ構成及び内容例を示す図である。対応テーブル６０のデータ構成及び内容例を示す図である。ずれ時間量管理テーブル５０にずれ時間量が登録されていない場合の各照合対象の範囲の特定方法を説明するための図である。ずれ時間量管理テーブル５０にずれ時間量（正の値）が登録されている場合の各照合対象の範囲の特定方法を説明するための図である。ずれ時間量管理テーブル５０にずれ時間量（負の値）が登録されている場合の各照合対象の範囲の特定方法を説明するための図である。切替制御装置１００が音声フレームを受信した際の範囲指定部１１４等の処理を示すフローチャートである。範囲指定部１１４による、新たなＡＶストリームの受信を開始した際の各照合対象の範囲の特定処理を示すフローチャートである。範囲指定部１１４による、ユーザによる切替指示がなされた際の各照合対象の範囲の特定処理を示すフローチャートである。出力制御部１１３による出力制御処理を示すフローチャート図である。切替制御装置１００の範囲指定部１１４の動作を具体的に説明するための図である。実施の形態２に係る切替制御装置２００の機能ブロック図である。ずれ時間量管理テーブル７０のデータ構成及び内容例を示す図である。時刻情報テーブル８０のデータ構成及び内容例を示す図である。切替制御装置２００が音声フレームを受信した際の範囲指定部２０４等の処理を示すフローチャートである。範囲指定部２０４による、新たなＡＶストリームの受信を開始した際の各照合対象の範囲の特定処理を示すフローチャートである。範囲指定部２０４による、ユーザによる切替指示がなされた際の各照合対象の範囲の特定処理を示すフローチャートである。音声比較部２０５による比較後時間量算出処理を示すフローチャートである。

　以下、本発明に係る切替制御装置の一実施形態を、図面を参照しながら説明する。

　≪実施の形態１≫
　＜システム構成＞
　図１は、実施の形態１に係る切替制御装置１００を含む編集システムの構成図である。

　同図に示すように、編集システムは、切替制御装置１００の他、動画撮影機能を有する撮影装置の一例であるビデオカメラ１０Ａ、デジタルカメラ１０Ｂ、携帯電話機１０Ｃを含んで構成される。

　各撮影装置（１０Ａ、１０Ｂ、１０Ｃ）は、共通する被写体（複数の人物）を異なる位置から撮影し、順次、映像フレーム及び音声フレームを生成し、生成された各フレームからなるＡＶストリームを、圧縮符号化し多重化しパケット化したＲＴＰ（Real-time Transport Protocol）パケットを、ＷＡＮ（Wide Area Network）１を介して切替制御装置１００に送信するものである。

　なお、本実施の形態では、一例として、映像フレームは、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ規格に準拠した方式で、音声フレームは、ＡＡＣ（Advanced Audio Coding）規格に準拠した方式でそれぞれ圧縮符号化されるものとして説明する。

　ここで、切替制御装置１００は、受信した各ＡＶストリームから、ユーザ操作に基づいて、リアルタイムに１つのＡＶストリーム（以下、「編集ストリーム」という）を生成していくものである。

　＜編集ストリームの生成＞
　以下、この編集ストリームをどのように生成していくかを具体的に説明するが、説明を簡略化するために、各ＡＶストリーム中の音声ストリームに着目して説明する。

　図２は、実施の形態１に係る切替制御装置１００が受信した各ＡＶストリーム中の音声ストリームを示す図である。

　同図に示す音声ストリームＡ～Ｃは、それぞれビデオカメラ１０Ａ、デジタルカメラ１０Ｂ、携帯電話機１０ＣからＷＡＮ１を介して切替制御装置１００が受信したものである。

　また、同図の横軸は、各音声ストリームを構成する音声フレームを切替制御装置１００が受信した時刻を表しており、右側にある音声フレームほど、後に受信した音声フレームであることを示している。例えば、同図の音声ストリームＡにおいては、音声フレームＡ１、Ａ２、Ａ３、Ａ４・・・の順で受信し、各音声ストリームに含まれる音声フレームのうち、音声フレームＡ１、Ｂ１、Ｃ１の受信時刻がほぼ一致していることを示している。

　ここで、同時刻に生じた音声に基づいて各撮影装置で生成された各音声フレームを切替制御装置１００が受信する時刻は一致しない場合がある。これは、各撮影装置が備えるクロックの誤差、生成された音声フレームを圧縮符号化する際の各撮影装置の性能の違いやネットワークの遅延、及びネットワークの遅延の揺らぎが原因と考えられる。

　なお、上述の「同時刻に生じた音声」とは、図１の例のように、各撮影装置が、共通する被写体を撮影しているような状況において、その場所で流れている音楽やある人物が発した声などの同じ音源から出た音をいう。

　図２において、以下では、音声フレームＡ５、Ｂ２、Ｃ１が同時刻に生じた音声に基づき生成された音声フレームであるとして説明する。この場合、音声フレームＡ５、Ｂ２、Ｃ１の受信時刻は、２フレーム分ずつずれていることになる。

　以下では、同時刻に生じた映像又は音声に基づき生成された各フレームの受信時刻のずれのことを、単に、「各ストリーム間のずれ」と表現する。なお、このずれの検出方法は、後述する。

　切替制御装置１００は、編集ストリームに含ませるフレームを、あるＡＶストリームのフレームから別のＡＶストリームのフレームに切り替える旨のユーザ操作（以下、「切替指示」ともいう）がなされた場合に、両ＡＶストリーム間のずれを考慮してこの切替を行う。

　例えば、上述のように各ＡＶストリーム間のずれが２フレーム分であるとした場合において、当初は音声ストリームＡに係るＡＶストリームが選択されており、音声フレームＡ５までが編集ストリームに含められたタイミングで、音声ストリームＢに係るＡＶストリームへの切替指示がなされたとすると、切替制御装置１００は、音声フレームＡ６までは引き続き音声ストリームＡの音声フレームを編集ストリームに含ませるようにし、次の音声フレームＡ７に替えて、音声ストリームＢの音声フレームＢ３以降のフレームを順次、編集ストリームに含ませるように切り替える。

　また、音声ストリームＢの音声フレームＢ４が編集ストリームに含められたタイミングで、音声ストリームＣに係るＡＶストリームへの切替指示がなされたとすると、切替制御装置１００は、音声フレームＢ５までは引き続き音声ストリームＢの音声フレームを編集ストリームに含ませるようにし、次の音声フレームＢ６に替えて、音声ストリームＣの音声フレームＣ３以降の音声フレームを順次、編集ストリームに含ませるように切り替える。

　このように切替を行った場合、この例では、各音声ストリームに２フレーム分ずつのずれがあるため、音声ストリームＡの音声フレームＡ７と音声ストリームＢの音声フレームＢ３と、及び音声ストリームＢの音声フレームＢ６と音声ストリームＣの音声フレームＣ３とはそれぞれ同時刻に生じた音声に基づき生成された音声フレームとなるので、生じた時刻が過去から未来に向かって連続する音声に基づいて生成された各音声フレームからなる編集ストリームを生成することができる。なお、切替制御装置１００は、このような切替を実現するために、各フレームを記憶するためのバッファを有している。

　この結果、この編集ストリームの再生した場合に、ユーザは、時間が逆戻りするような違和感のない映像及び音声を視聴することができる。

　＜構成＞
　図３は、実施の形態１に係る切替制御装置１００の機能ブロック図である。

　切替制御装置１００は、プロセッサとメモリとを含んで構成され、機能面においては、同図に示す通り、無線通信部１０１、操作部１０２、音声出力部１０３、表示部１０４、編集データ記憶部１０５、パケット蓄積部１０６、復号部１０７、出力制御部１１３、範囲指定部１１４、復号データ蓄積部１１５、音声比較部１１６、範囲指定変更部１１７、及び時間情報変更部１１８を備える。

　なお、同図は、本発明の特徴を実現する上で重要な各機能構成要素の関係を示している。

　以下では、一例として、切替制御装置１００が同時に受信可能なＡＶストリームの数が３つである場合を説明する。

　ここで、無線通信部１０１は、アンテナを備え、いわゆるアクセスポイントとの間で、電波の送受信を行う回路であり、例えば、ＩＥＥＥ　８０２．１１ｂ規格に従って、各撮影装置（ビデオカメラ１０Ａ、デジタルカメラ１０Ｂ、携帯電話機１０Ｃ）から各ＡＶストリームを受信する機能を有する。各ＡＶストリームは、映像ストリーム及び音声ストリームから構成され、ＲＴＰパケットに分割されて各撮影装置から送信されるため、無線通信部１０１は、このＲＴＰパケットを逐次受信する。

　操作部１０２は、テンキー等のボタン群を含むものであり、ユーザにより押下されたボタンに対応する信号を出力制御部１１３に送出するものである。操作部１０２は、特に、ユーザが切替指示を行う際、つまり、編集ストリームに含ませるフレームに係るＡＶストリームをユーザが選択する際に使用される。

　音声出力部１０３は、スピーカを含み、出力制御部１１３の指示に応じて、編集ストリームの音声フレームに基づき音声を出力するものである。

　表示部１０４は、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）を含み、出力制御部１１３の指示に応じて、受信している各ＡＶストリームに係る映像を表示するものである。ユーザは、通常、表示部１０４に表示されている各映像を見て、気に入った映像に係る１つのＡＶストリームを、編集ストリームに含ませるフレームに係るＡＶストリームとして選択することになる。

　ここで、表示部１０４における各ＡＶストリームに係る映像の表示例を説明する。

　図４は、３つのＡＶストリームに係る各映像の表示例を示す図である。

　液晶ディスプレイにおける画面２０全体の領域は、４つの領域２１～２４に論理的に分割されている。

　領域２１は、１番目、つまり切替制御装置１００の起動後最初に受信を開始したＡＶストリームに係る映像を、領域２２は、２番目に受信を開始したＡＶストリームに係る映像を、領域２３は、３番目に受信を開始したＡＶストリームに係る映像をそれぞれ表示する領域である。また、領域２４は、編集ストリームに含ませるフレームに係るＡＶストリームとして選択されているＡＶストリームに係る映像を表示する領域である。

　同図では、ビデオカメラ１０ＡからのＡＶストリーム、デジタルカメラ１０ＢからのＡＶストリーム、携帯電話機１０ＣからのＡＶストリームの順で受信を開始し、ビデオカメラ１０ＡからのＡＶストリームがユーザにより選択されている場合の表示例を示している。

　また、領域２１～２３の右下隅には、その領域に表示されている映像に係るＡＶストリームを選択する際に、ユーザが押下すべき操作部１０２におけるボタンの番号３１～３３が、領域２４の右下隅には、選択されているＡＶストリームに対応するボタンの番号４１が表示される。

　同図の例では、領域２４の右下隅には「１」（番号４１）が表示されており、つまり、ビデオカメラ１０ＡからのＡＶストリームが選択されていることを示している。

　この状態において、例えば、ユーザが操作部１０２のボタン「２」を押下することで、領域２４には、現在選択中のビデオカメラ１０ＡからのＡＶストリームに替えて、デジタルカメラ１０ＢからのＡＶストリームに係る映像が表示され、番号４１には「２」が表示されることになる。

　なお、同図では、切替制御装置１００が同時に受信可能なＡＶストリームの数が３つである場合において、３つのＡＶストリームを受信しているときに、各ＡＶストリームに係る映像を表示した例を示しているが、実際には、切替制御装置１００が動作を開始してから、徐々に受信しているＡＶストリームの数が増えるようなケースが想定される。

　そのようなケースでは、各領域への表示が順に開始される。例えば、ビデオカメラ１０ＡからＡＶストリームの受信を開始し、受信しているＡＶストリームの数が１つのときには、領域２１及び２４へのそのＡＶストリームに係る映像の表示が開始され、領域２２、２３には、何も表示されない。その後、デジタルカメラ１０ＢからもＡＶストリームの受信を開始し、受信しているＡＶストリームの数が２つになったときには、領域２２へのデジタルカメラ１０ＢからのＡＶストリームに係る映像の表示が開始され、領域２３には引き続き何も表示されない。最後に、携帯電話機１０ＣからもＡＶストリームの受信を開始し、受信しているＡＶストリームの数が３つになったときには、領域３３への携帯電話機１０ＣからのＡＶストリームに係る映像の表示が開始される。

　再び、図３を用いて、切替制御装置１００の残りの構成要素について説明する。

　編集データ記憶部１０５は、出力制御部１１３の指示に従って、編集ストリームの各映像フレーム及び各音声フレームを記憶する機能を有し、メモリカードやハードディスク等の記憶媒体により実現される。つまり、編集データ記憶部１０５には、編集ストリームを構成する映像ストリーム及び音声ストリームが記憶されることになる。

　パケット蓄積部１０６は、ＤＲＡＭ（Dynamic Random Access Memory）等のメモリを含み、無線通信部１０１を介して各撮影装置（１０Ａ、１０Ｂ、１０Ｃ）から受信したＲＴＰパケットを一時的に記憶する機能を有し、１映像フレーム又は１音声フレームを構成する複数のＲＴＰパケット（以下では、単に「１フレーム分のＲＴＰパケット」という）を記憶する毎に、その旨を復号部１０７に通知する。

　復号部１０７は、パケット蓄積部１０６から１フレーム分のＲＴＰパケットを読み出し、各ＲＴＰパケットのペイロードに含まれるデータ（１フレーム分のデータ）を復号する機能を有し、映像蓄積部１０８、音声蓄積部１０９、解析部１１０、映像復号器１１１、音声復号器１１２を備える。

　ここで、映像蓄積部１０８は、映像復号器１１１から受領した映像フレームを、映像復号器１１１の指示に従って、その映像フレームが含まれるＡＶストリームに対応した領域に一時的に記憶する機能を有する。

　音声蓄積部１０９は、音声復号器１１２から受領した音声フレームを、音声復号器１１２の指示に従って、その音声フレームが含まれるＡＶストリームに対応した領域に一時的に記憶する機能を有する。

　映像蓄積部１０８及び音声蓄積部１０９は、ＤＲＡＭ等のメモリにより実現され、フレームを記憶する毎に、その旨を出力制御部１１３に通知する。

　解析部１１０は、パケット蓄積部１０６からの１フレーム分のＲＴＰパケットを記憶した旨の通知に基づいて、そのＲＴＰパケットをパケット蓄積部１０６から読み出し、そのペイロードに含まれるデータの種類によって、そのデータを映像復号器１１１と音声復号器１１２とのいずれかへ送出する機能を有する。

　なお、ペイロードに含まれているデータの種類については、読み出した１フレーム分のＲＴＰパケットの先頭パケットのヘッダに含まれているＰＴ（Payload Type）に基づき判定し、そのデータが映像フレーム（圧縮符号化されたもの）であれば映像復号器１１１へ、音声フレーム（圧縮符号化されたもの）であれば音声復号器１１２へ送出する。

　また、解析部１１０は、読み出した１フレーム分のＲＴＰパケットの先頭パケットのヘッダに含まれているＳＳＲＣ（Synchronization Source）を、そのＲＴＰパケットが含まれるＡＶストリームの識別子として取得し、上述の送出の際に、取得したこのＡＶストリームの識別子も映像復号器１１１、音声復号器１１２へ送出する。なお、ＳＳＲＣは、そのＳＳＲＣを含むＲＴＰパケットの送信元である撮影装置で生成された乱数であり、もしもＳＳＲＣの重複（衝突）が発生した場合には、ＲＴＰの一般的な動作として知られているように、再生成を行い衝突しないように制御される。

　また、特に、取得した識別子が、切替制御装置１００が起動後これまでに取得した識別子と異なるものであった場合には、新たなＡＶストリームの受信を開始したとして、その識別子を出力制御部１１３及び範囲指定部１１４に送出する。

　解析部１１０の機能は、上述のプロセッサが上述のメモリに記憶されたプログラムを実行することにより実現される。

　映像復号器１１１は、解析部１１０から受領した圧縮符号化された映像フレームをＨ．２６４／ＭＰＥＧ－４ＡＶＣ規格に準拠した方式で復号し、復号した映像フレームを映像蓄積部１０８に送出する機能を有する。この送出の際、映像復号器１１１は、解析部１１０から受領したＡＶストリームの識別子に対応した領域に記憶するように、映像蓄積部１０８に指示する。

　映像復号器１１１は、ＤＳＰ（Digital Signal Processor）を含み、このＤＳＰが上述のメモリに記憶されたプログラムを実行することにより、映像復号器１１１の機能が実現される。

　音声復号器１１２は、解析部１１０から受領した圧縮符号化された音声フレームをＡＡＣ規格に準拠した方式で復号し、復号した音声フレームを音声蓄積部１０９及び範囲指定部１１４に送出する機能を有する。この送出の際、音声復号器１１２は、解析部１１０から受領したＡＶストリームの識別子に対応した領域に記憶するように、音声蓄積部１０９に指示すると共に、その識別子を範囲指定部１１４に送出する。

　音声復号器１１２はＤＳＰを含み、このＤＳＰが上述のメモリに記憶されたプログラムを実行することにより、音声復号器１１２の機能が実現される。

　なお、本実施の形態では、映像復号器１１１及び音声復号器１１２の機能は、それぞれが備えるＤＳＰがメモリに記憶されたプログラムを実行することにより実現されるものとして説明しているが、各機能の実現方法は、これに限らない。例えば、各ＤＳＰが自ＤＳＰ内部のメモリに記憶されたプログラムを実行することにより各機能を実現してもよいし、上述のプロセッサが上述のメモリに記憶されたプログラムを実行することにより各機能を実現してもよい。

　出力制御部１１３は、映像フレーム及び音声フレームを映像蓄積部１０８及び音声蓄積部１０９から読み出し、音声出力部１０３、表示部１０４、及び編集データ記憶部１０５へ必要なフレームを出力する機能を有する。

　具体的には、音声出力部１０３には選択しているＡＶストリームの音声フレームを、表示部１０４には受信している各ＡＶストリームの映像フレームを、編集データ記憶部１０５には選択しているＡＶストリームの映像フレーム及び音声フレームを出力する。なお、受信しているＡＶストリームの数が１つの場合には、そのＡＶストリームが選択されたものとしてこの出力を行う。

　詳細は後に説明するが、図２で説明したように、各ＡＶストリーム間のずれを考慮して各フレームの出力を行う必要があるため、出力制御部１１３は、範囲指定部１１４が記憶するずれ時間量管理テーブル（後述）と同様のテーブルを保持し、このテーブルに基づいて出力を行う。

　また、出力制御部１１３は、図４で説明した各ボタンの番号（３１～３３）とその番号が表示される領域に表示される映像に係るＡＶストリームの識別子との対応テーブルを保持し、操作部１０２を介してユーザからＡＶストリームの選択が行われる毎に、そのＡＶストリームの識別子を範囲指定部１１４に通知する機能も有する。なお、対応テーブルのデータ構造等については後述する（図６）。

　範囲指定部１１４は、各ＡＶストリーム間のずれ時間量を管理するためのずれ時間量管理テーブルを保持し、ずれ時間量を検出させる対象として選定した２つのＡＶストリーム間のずれ時間量がずれ時間量管理テーブルに登録済みか否かに応じて、音声比較部１１６に比較させる各ＡＶストリームにおける各照合対象(音声データ)の範囲を特定する機能を有する。なお、このずれ時間量管理テーブルのデータ構造等（図５）、及び各照合対象の範囲の特定方法（図７～９）については後述する。

　範囲指定部１１４は、ずれ時間量を検出させる対象として、出力制御部１１３において現在選択されているＡＶストリームを第１ストリームとして、新たに受信が開始されたＡＶストリーム、又はユーザによる切替指示に係る切替後のＡＶストリームを第２ストリームとして選定する。

　また、範囲指定部１１４は、音声復号器１１２から受領した音声フレームのうち、特定した各照合対象の範囲に含まれる音声フレームを復号データ蓄積部１１５に記憶させる機能を有する。

　なお、範囲指定部１１４は、各照合対象の範囲の特定の際に、第１ストリーム及び第２ストリームの各識別子を音声比較部１１６に送出すると共に、両ＡＶストリーム間のずれ時間量が既にずれ時間量管理テーブルに登録されている場合には、このずれ時間量（以下、「比較前時間量」という）もあわせて送出する。

　復号データ蓄積部１１５は、ＤＲＡＭ等のメモリを含み、範囲指定部１１４の指示に従い、２つのＡＶストリームにおける各照合対象を記憶する機能を有する。

　音声比較部１１６は、第１ストリーム及び第２ストリーム間のずれ時間量を、音声の比較により特定する機能を有する。

　より詳しくは、音声比較部１１６は、復号データ蓄積部１１５に記憶された各照合対象に対しフィルタ処理を施すことで、所定の周波数帯域における所定の音圧レベル範囲のデータを抽出し、抽出後の各データにおいて、音声パターンが一致する箇所、例えば、音圧レベルの触れが最大である箇所同士の受信時刻の差（第２ストリームにおける照合対象中の音圧レベルの触れが最大である箇所の受信時刻－第１ストリームにおける照合対象中の音圧レベルの触れが最大である箇所の受信時刻）をずれ時間量として検出する。なお、音声比較部１１６は、例えば、特許文献１の図６に記載された編集部２０２と同様の方法で音声パターンが一致する箇所を特定するものであるため、特許文献１の内容も参考にされたい。

　音声比較部１１６は、検出したずれ時間量に基づいて第１ストリーム及び第２ストリーム間のずれ時間量（以下、「比較後時間量」という）を算出し、算出した比較後時間量を、範囲指定部１１４から受領した両ＡＶストリームの識別子と共に、時間情報変更部１１８及び範囲指定変更部１１７に送出する。

　範囲指定変更部１１７及び時間情報変更部１１８ぞれぞれは、音声比較部１１６から受領した比較後時間量及び両ＡＶストリームの識別子に基づいて、範囲指定部１１４及び出力制御部１１３のずれ時間量管理テーブルを更新する機能を有する。

　＜データ＞
　　＜ずれ時間量管理テーブル＞
　まず、範囲指定部１１４が保持するずれ時間量管理テーブル５０について説明する。

　図５は、ずれ時間量管理テーブル５０のデータ構成及び内容例を示す図である。

　ずれ時間量管理テーブル５０は、同図に示すように、第１識別子５１と第２識別子５２とずれ時間量５３とを対応付けて構成される情報である。

　ここで、第１識別子５１は、第１ストリームの識別子を示すデータであり、第２識別子５２は、第２ストリームの識別子を示すデータである。また、ずれ時間量５３は、対応する第１識別子に係る第１ストリームに対する、対応する第２識別子に係る第２ストリームのずれ時間量を示すデータである。

　なお、同図における「ＡＶストリームａの識別子」は、ビデオカメラ１０ＡからのＡＶストリームａの識別子を表す具体的なデータを、「ＡＶストリームｂの識別子」は、デジタルカメラ１０ＢからのＡＶストリームｂの識別子を表す具体的なデータを、「Ｚａｂ」、「Ｚｂａ」は具体的な値（ずれ時間量）を示しているものとする。

　同図は、例えば、第１識別子「ＡＶストリームａの識別子」が示すＡＶストリームａに対する、第２識別子「ＡＶストリームｂの識別子」が示すＡＶストリームｂのずれ時間量は「Ｚａｂ」であることを示している。また、第１識別子「ＡＶストリームｂの識別子」が示すＡＶストリームｂに対する、第２識別子「ＡＶストリームａの識別子」が示すＡＶストリームａのずれ時間量は「Ｚｂａ」であることを示している。この「Ｚａｂ」と「Ｚｂａ」とは符合のみが異なる（絶対値が一致する）値である。

　また、ずれ時間量が正の値である場合には、同時刻に生じた音声に基づき生成された、第１ストリーム及び第２ストリームにおける各音声フレームの受信は、第１ストリームの音声フレームのほうが早いことを表しているものとする。

　ここで、ずれ時間量管理テーブル５０への新たなレコードの登録、登録済みのレコードの更新は、音声比較部１１６から第１ストリーム及び第２ストリームの識別子と、比較後時間量を受領した際に、範囲指定変更部１１７により行われる。なお、ここでは、対応する第１識別子と第２識別子とずれ時間量とからなる情報を、レコードと表現している。

　ずれ時間量管理テーブル５０への新たなレコードの登録は、範囲指定変更部１１７が音声比較部１１６から受領した第１ストリームの識別子と第２ストリームの識別子を含むレコードが範囲指定部１１４のずれ時間量管理テーブル５０に記憶されていない場合に行われる。詳細には、「第１識別子」が受領した第１ストリームの識別子、「第２識別子」が受領した第２ストリームの識別子、「ずれ時間量」が受領した比較後時間量であるレコードをずれ時間量管理テーブル５０に登録する。また、「第１識別子」が受領した第２ストリームの識別子、「第２識別子」が受領した第１ストリームの識別子、「ずれ時間量」が受領した比較後時間量の符号を反転させた値であるレコードをずれ時間量管理テーブル５０に登録する。

　このように２つのレコードを登録するのは、このずれ時間量管理テーブル５０の例では、第１識別子が示すＡＶストリームを基準として、第２識別子が示すＡＶストリームのずれ時間量を管理しているためである。

　また、ずれ時間量管理テーブル５０に登録済みのレコードの更新は、音声比較部１１６から受領した第１ストリームの識別子と第２ストリームの識別子を含むレコードがずれ時間量管理テーブル５０に記憶されている場合に行われる。詳細には、「第１識別子」が受領した第１ストリームの識別子、「第２識別子」が受領した第２ストリームの識別子であるレコードの「ずれ時間量」を受領した比較後時間量で更新する。また、「第１識別子」が受領した第２ストリームの識別子、「第２識別子」が受領した第１ストリームの識別子であるレコードの「ずれ時間量」を受領した比較後時間量の符号を反転させた値で更新する。

　なお、ずれ時間量管理テーブル５０に登録されたレコードは、切替制御装置１００の電源がＯＦＦにされることにより削除されるものとする。つまり、切替制御装置１００の起動直後（電源がＯＮにされた直後）においては、ずれ時間量管理テーブル５０にはレコードの登録はされていないことになる。

　なお、ここでは、範囲指定部１１４が保持するずれ時間量管理テーブル５０について説明したが、出力制御部１１３は、これと同様のずれ時間量管理テーブルを保持しており、このずれ時間量管理テーブルへのレコードの登録、更新、削除は、上述のずれ時間量管理テーブル５０の場合と同様の方法で時間情報変更部１１８により行われる。

　　＜対応テーブル＞
　まず、出力制御部１１３が保持する対応テーブル６０について説明する。

　図６は、対応テーブル６０のデータ構成及び内容例を示す図である。

　対応テーブル６０は、同図に示すように、ＡＶストリーム毎に、番号６１と識別子６２とを対応付けて構成される情報である。

　ここで、番号６１は、そのＡＶストリームをユーザが選択する際に押下する操作部１０２におけるテンキーボタンの番号を示すデータであり、「１」からの連番になるように各ＡＶストリームに対応付けられる。識別子６２は、そのＡＶストリームの識別子を示すデータである。

　なお、同図における「ＡＶストリームａの識別子」は、ビデオカメラ１０ＡからのＡＶストリームａの識別子を表す具体的なデータを、「ＡＶストリームｂの識別子」は、デジタルカメラ１０ＢからのＡＶストリームｂの識別子を表す具体的なデータを、「ＡＶストリームｃの識別子」は、携帯電話機１０ＣからのＡＶストリームｃの識別子を表す具体的なデータを示しているものとする。

　同図は、例えば、識別子が「ＡＶストリームａの識別子」であるＡＶストリームａには、テンキーボタンの番号「１」が対応付けられていることを示している。

　ここで、対応テーブル６０への新たなレコードの登録は、解析部１１０から新たに受信が開始されたＡＶストリームの識別子を受領した際に、出力制御部１１３により行われる。なお、ここでは、対応する番号と識別子とからなる情報を、レコードと表現している。

　具体的には、「番号」が、既に登録済みの各レコードにおける「番号」の最大値に１を加えたものであり、「識別子」が、解析部１１０から受領したＡＶストリームの識別子であるレコードを対応テーブル６０に登録する。なお、切替制御装置１００の起動後最初に対応テーブル６０に登録されるレコードの「番号」は「１」とする。

　なお、登録済みのレコードの更新は行われないものとする。また、対応テーブル６０に登録されたレコードは、上述のずれ時間量管理テーブル５０と同様に、切替制御装置１００の電源がＯＦＦにされることにより削除されるものとする。

　＜各照合対象の範囲の特定＞
　以下では、範囲指定部１１４における第１ストリーム及び第２ストリームの各照合対象の範囲を特定する方法を、図７～９を用いて説明する。

　なお、図７～９における横軸は、第１ストリームにおける音声ストリーム及び第２ストリームにおける音声ストリームそれぞれを構成する音声フレームを切替制御装置１００が受信した時刻を表しており、右側にある音声フレームほど、後に受信した音声フレームであることを示しているのは、図２と同様である。

　　＜ずれ時間量が未登録の場合＞
　まず、第１ストリームと第２ストリームとの間のずれ時間量が未だずれ時間量管理テーブル５０に登録されていない場合の、各照合対象の範囲の特定方法を説明する。

　図７は、ずれ時間量管理テーブル５０にずれ時間量が登録されていない場合の各照合対象の範囲の特定方法を説明するための図である。

　ここで、同図に示す時刻Ｔ１０は、第２ストリームの音声フレームの受信を開始した時刻を示している。

　範囲指定部１１４は、同時刻からＺ時間後の時刻（Ｔ１１）から受信を開始する音声データ長Ｌ分の第１ストリームの音声フレームを第１ストリームにおける照合対象の範囲と特定する（同図の符号Ｒ１１参照）。Ｌは、音声比較部１１６が各照合対象を比較する際に必要とされる音声データ長以上の長さであればよく、この例では、音声符号化で用いられることが多い符号化音声フレーム長（例えば、１００ｍｓ）であるものとする。

　また、範囲指定部１１４は、時刻Ｔ１０から２×Ｚ時間後の時刻（Ｔ１２）までに受信を開始する第２ストリームの音声データ長がＬである各音声フレームを第２ストリームにおける照合対象の範囲と特定する（同図の符号Ｒ２１参照）。

　ここで、Ｚは、各ＡＶストリームに含まれる同時刻に生成された音声に基づき生成された音声フレームそれぞれを、切替制御装置１００が受信する際の時間差のうちの最大時間差の推定値であり、以下の数式で表される。

　　［数１］
　Ｚ＝Ｚｃｌｋ＋Ｚｅｎｃ＿ｎｅｔ＋Ｚｊｔｔ
　ここで、Ｚｃｌｋは、各ＡＶストリームを生成する撮影装置（１０Ａ～１０Ｃ）が備えるクロックの誤差により生じ得る、各ＡＶストリームに含まれる同時刻に生じた音声に基づき生成された音声フレームそれぞれが送出される時間差のうち最大時間差の推定値（数ｍｓ～数十ｍｓ程度）を表している。例えば、各撮影装置が所定時間（例えば、１／１０ｓ）毎に音声フレームを生成し送信する場合に、この所定時間の計時は各撮影装置が備えるクロックにより行われることになる。従って、そのクロックの精度や使用状況（温度変化や経年変化等）の違いにより、同じ所定時間を計時したつもりでも、多少の誤差を生じて音声フレームの生成及び送信が行われる場合があるためである。

　Ｚｅｎｃ＿ｎｅｔは、各撮影装置の符号化処理能力の違い、及びネットワークの遅延により生じ得る、各ＡＶストリームに含まれる同時刻に生じた音声に基づき生成された音声フレームそれぞれを切替制御装置１００が受信する際の時間差のうちの最大時間差の推定値（数十ｍｓ～数ｓ程度）を表している。

　また、Ｚｊｔｔは、各撮影装置とアクセスポイント、及びアクセスポイントと切替制御装置１００間の通信が無線により行われることによるネットワークの遅延の揺らぎにより生じ得る、各ＡＶストリームに含まれる同時刻に生じた音声に基づき生成された音声フレームそれぞれを切替制御装置１００が受信する際の時間差のうちの最大時間差の推定値（数ｍｓ～数百ｍｓ程度）を表している。

　なお、ここでは、時刻Ｔ１０は、第２ストリームの音声フレームの受信を開始した時刻であるとして説明したが、時刻Ｔ１０が、操作部１０２を介して、ユーザにより第１ストリームに替えて、第２ストリームを選択する旨の操作がなされた時刻である場合でも、同様にして各照合対象の範囲を特定することができる。

　　＜ずれ時間量が登録済の場合＞
　次に、第１ストリームと第２ストリームとの間のずれ時間量がずれ時間量管理テーブル５０に登録されている場合の、各照合対象の範囲の特定方法を説明する。

　図８は、ずれ時間量管理テーブル５０にずれ時間量（正の値）が登録されている場合の各照合対象の範囲の特定方法を説明するための図である。

　同図では、第１ストリームと第２ストリームとの間のずれ時間量がＺａｂ（正の値）である場合の例を示している。このことは、このずれ時間量Ｚａｂが検出された時点において、同時刻に生じた音声に基づき生成された、第１ストリームの音声フレームは時刻Ｔ２０に、第２ストリームの音声フレームは時刻Ｔ２２に受信を開始する関係にあったことを示している。

　同図に示すように、ずれ時間量Ｚａｂが正の値であるような状態を、以下では、第１ストリームに対し、第２ストリームがＺａｂ時間分遅れていると表現する。

　ここで、同図に示す時刻Ｔ２０は、操作部１０２を介して、ユーザにより第１ストリームに替えて、第２ストリームを選択する旨の操作がなされた時刻を示している。

　範囲指定部１１４は、同時刻から受信を開始する音声データ長Ｌ分の第１ストリームにおける音声フレームを第１ストリームにおける照合対象の範囲と特定する（同図の符号Ｒ１２参照）。

　また、範囲指定部１１４は、時刻Ｔ２０より｛Ｚａｂ－（Ｚｃｌｋ＋Ｚｊｔｔ）｝時間後の時刻（Ｔ２１）から２×（Ｚｃｌｋ＋Ｚｊｔｔ）時間後の時刻（時刻Ｔ２３）までに受信を開始する第２ストリームの音声データ長がＬである各音声フレームを第２ストリームにおける照合対象の範囲と特定する（同図の符号Ｒ２２参照）。

　上記数１に示す数式から、この（Ｚｃｌｋ＋Ｚｊｔｔ）はＺより明らかに小さい値である。従って、上述したずれ時間量が登録されていない場合と比較し、第２ストリームにおける照合対象の範囲のデータ量が減少することになり、音声比較部１１６は、各照合対象の範囲の比較をより高速に行うことができる。

　同図では、第１ストリームに対し、第２ストリームがＺａｂ時間分遅れている場合について説明したが、以下では、反対に、第１ストリームに対し、第２ストリームがＺａｂ時間分進んでいる場合についても簡単に説明する。

　図９は、ずれ時間量管理テーブル５０にずれ時間量（負の値）が登録されている場合の各照合対象の範囲の特定方法を説明するための図である。

　同図では、第１ストリームに対し、第２ストリームがＺａｂ時間分進んでいるため、このずれ時間量Ｚａｂ（負の値）が検出された時点において、同時刻に生じた音声に基づき生成された、第１ストリームの音声フレームは時刻Ｔ３３に、第２ストリームの音声フレームは時刻Ｔ３１に受信を開始する関係にあったことを示している。

　ここで、同図に示す時刻Ｔ３０は、操作部１０２を介して、ユーザにより第１ストリームに替えて、第２ストリームを選択する旨の操作がなされた時刻を示している。

　範囲指定部１１４は、同時刻から２×（Ｚｃｌｋ＋Ｚｊｔｔ）時間後の時刻（時刻Ｔ３２）までに受信を開始する第２ストリームの音声データ長がＬである各音声フレームを第２ストリームにおける照合対象の範囲と特定する（同図の符号Ｒ２３参照）。

　また、範囲指定部１１４は、時刻Ｔ３０から｛（Ｚｃｌｋ＋Ｚｊｔｔ）＋｜Ｚａｂ｜｝時間後の時刻（Ｔ３３）から受信を開始する音声データ長Ｌ分の第１ストリームにおける音声フレームを第１ストリームにおける照合対象の範囲と特定する（同図の符号Ｒ１３参照）。

　なお、｜Ｚａｂ｜は、Ｚａｂの絶対値を示している。

　＜動作＞
　次に、上記構成を備え、上記データを取り扱う切替制御装置１００の動作を説明する。

　　＜復号部、範囲指定部、音声比較部、各変更部の処理＞
　図１０は、切替制御装置１００が音声フレームを受信した際の範囲指定部１１４等の処理を示すフローチャートである。

　以下では、同図に即して、切替制御装置１００が音声フレームを受信した際の範囲指定部１１４の処理を中心に説明する。

　パケット蓄積部１０６は、無線通信部１０１を介して受信したＲＴＰパケットを逐次記憶し、１フレーム分のＲＴＰパケットを記憶すると、その旨を復号部１０７に通知する（ステップＳ１）。

　復号部１０７の解析部１１０は、ステップＳ１の通知に基づき、パケット蓄積部１０６から１フレーム分のＲＴＰパケットを読み出し、この例では、１フレーム分のＲＴＰパケットに含まれるデータの種類が音声であるため、１フレーム分の音声フレーム（圧縮符号化されたもの）を、そのＲＴＰパケットから取得したＡＶストリームの識別子と共に音声復号器１１２へ送出する。

　この際、解析部１１０は、取得した識別子が、過去に取得した識別子とは異なる新たな識別子である場合、つまり、切替制御装置１００が、新たなＡＶストリームの受信を開始した場合には、出力制御部１１３と範囲指定部１１４とにその識別子を送出する。

　解析部１１０から圧縮符号化された音声フレームを受領した音声復号器１１２は、その音声フレームを復号し、復号後の音声フレームを、音声蓄積部１０９に送出する（ステップＳ２）。この際、音声復号器１１２は、解析部１１０から受領した識別子が示すＡＶストリームに対応する領域に、その復号後の音声フレームを記憶するよう指示すると共に、復号後の音声フレーム及び識別子を範囲指定部１１４にも送出する。

　音声復号器１１２から受領した復号後の音声フレームを記憶した音声蓄積部１０９は、その旨を出力制御部１１３に通知する。なお、出力制御部１１３の処理は後述する（図１３）。

　範囲指定部１１４は、切替制御装置１００が新たなＡＶストリームの受信を開始したか否かを判定する（ステップＳ３）。範囲指定部１１４は、解析部１１０から新たなＡＶストリームの識別子を受領した場合に肯定的な判定を行う。

　ステップＳ３で、新たなＡＶストリームの受信を開始した場合には（ステップＳ３：ＹＥＳ）、範囲指定部１１４は、出力制御部１１３により現在選択されているＡＶストリーム（第１ストリーム）と新たに受信を開始したＡＶストリーム（第２ストリーム）についての各照合対象の範囲の特定処理を行い（ステップＳ４）、ステップＳ７の処理に進む。ステップＳ４の処理内容については後述する（図１１）。

　一方、新たなＡＶストリームの受信を開始していない場合には（ステップＳ３：ＮＯ）、範囲指定部１１４は、ユーザによるＡＶストリームの切替指示がなされたか否かを判定する（ステップＳ５）。範囲指定部１１４は、出力制御部１１３からＡＶストリームの識別子を受領した場合に、肯定的な判定を行う。

　ユーザによるＡＶストリームの切替指示がなされていないと判定した場合には（ステップＳ５：ＮＯ）、そのままステップＳ７の処理に進み、ユーザによるＡＶストリームの切替指示がなされたと判定した場合には（ステップＳ５：ＹＥＳ）、範囲指定部１１４は、切替指示の前に出力制御部１１３において選択されていたＡＶストリーム（第１ストリーム）と切替によって出力制御部１１３において選択されることになるＡＶストリーム（第２ストリーム）とについての各照合対象の範囲の特定処理を行い（ステップＳ６）、ステップＳ７の処理に進む。ステップＳ６の処理内容については後述する（図１２）。

　続いて、範囲指定部１１４は、音声復号器１１２から受領した音声フレームに係るＡＶストリームについて照合対象の範囲が特定されているか否かを判定し（ステップＳ７）、特定されてない場合には（ステップＳ７：ＮＯ）、処理を終了し、特定されている場合には（ステップＳ７：ＹＥＳ）、音声復号器１１２から受領した音声フレームが特定されている照合対象の範囲内の音声フレームであるか否かを、この音声フレームと共に音声復号器１１２から受領した識別子と、受信時刻とに基づいて判定する（ステップＳ８）。

　特定されている範囲内の音声フレームでない場合には（ステップＳ８：ＮＯ）、処理を終了し、特定されている照合対象の範囲内の音声フレームである場合には（ステップＳ８：ＹＥＳ）、この音声フレームを復号データ蓄積部１１５に送出し、対応するＡＶストリーム（第１ストリーム又は第２ストリーム）の照合対象として記憶させる（ステップＳ９）。

　範囲指定部１１４は、第１ストリーム及び第２ストリームについての各照合対象の格納が完了したか否かを判定し（ステップＳ１０）、完了していない場合には（ステップＳ１０：ＮＯ）、処理を終了し、完了した場合には（ステップＳ１０：ＹＥＳ）、音声比較部１１６に処理の開始を指示する。

　この指示に基づき、音声比較部１１６は、各照合対象に各種フィルタ処理を施した後にこれらを比較して音声パターンが一致する箇所を特定し、当該箇所のずれ時間量を検出し、検出したずれ時間量から比較後時間量を算出する（ステップＳ１１）。ここで、比較後時間量は、後述する図１１又は図１２のステップＳ２７で範囲指定部１１４からずれ時間量（比較前時間量）が送出された場合には、この比較前時間量と検出したずれ時間量との和であり、比較前時間量が送出されなかった場合には、検出したずれ時間量そのものである。

　音声比較部１１６は、後述する図１１又は図１２のステップＳ３３で範囲指定部１１４から送出された第１ストリームの識別子及び第２ストリームの識別子と、算出した比較後時間量とを範囲指定変更部１１７及び時間情報変更部１１８へ送出する。

　受領した第１ストリームの識別子及び第２ストリームの識別子と比較後時間量とに基づいて、範囲指定変更部１１７は、範囲指定部１１４が保持するずれ時間量管理テーブル５０を、時間情報変更部１１８は、出力制御部１１３が保持するずれ時間量管理テーブルを更新し（ステップＳ１２）、処理を終了する。

　ここで、範囲指定部１１４は、各照合対象の範囲を特定後、その各照合対象に係る２つのＡＶストリーム間のずれ時間量がずれ時間量管理テーブル５０に反映されると、その照合対象の範囲の特定を解除するものとする。

　なお、ここでは、切替制御装置１００が音声フレームを受領した場合の処理について説明したが、切替制御装置１００が映像フレームを受領した際には、上述のステップＳ１及びＳ２の処理を行い終了するだけなので、詳細な説明は省略する。但し、ステップＳ１の通知を受けた復号部１０７は、１フレーム分のデータ（圧縮符号化された映像フレーム）を映像復号器１１１に送出し、ステップＳ２の復号処理はこの映像復号器１１１が行い、復号後の映像フレームを映像蓄積部１０８に記憶させることになる。

　　＜新たなＡＶストリームの受信を開始した際の各照合対象の範囲の特定処理＞
　図１１は、範囲指定部１１４による、新たなＡＶストリームの受信を開始した際の各照合対象の範囲の特定処理を示すフローチャートである。

　同図に即して、図１０のステップＳ４の処理内容を詳細に説明する。

　範囲指定部１１４は、受信を開始したＡＶストリームが１つ目のＡＶストリームであるか否かを判定する（ステップＳ２１）。範囲指定部１１４は、解析部１１０からの新たなＡＶストリームの識別子の受領が１回目の受領である場合に肯定的な判定を行う。

　１つ目のＡＶストリームである場合には（ステップＳ２１：ＹＥＳ）、範囲指定部１１４は、解析部１１０から受領した新たなＡＶストリームの識別子を、第１ストリームの識別子として記憶し（ステップＳ２２）、処理を終了する。切替制御装置１００が受領しているＡＶストリームの数は１つであり、未だ２つのＡＶストリーム間のずれ時間量の検出はできないためである。

　一方、１つ目のＡＶストリームでない場合には（ステップＳ２１：ＮＯ）、範囲指定部１１４は、解析部１１０から受領した新たなＡＶストリームの識別子を、第２ストリームの識別子として記憶し（ステップＳ２３）、第１ストリームと第２ストリームとの間のずれ時間量がずれ時間量管理テーブル５０に登録されているかを判定する（ステップＳ２４）。より詳細には、ずれ時間量管理テーブル５０に、「第１識別子」が第１ストリームの識別子であり、「第２識別子」が第２ストリームの識別子であるレコードが登録されているか否かを判定する。

　該当のレコードが登録されていない場合には（ステップＳ２４：ＮＯ）、範囲指定部１１４は、現時刻から２×Ｚ経過後までに受信を開始する第２ストリームの音声データ長がＬである各音声フレームを第２ストリームの照合対象の範囲と特定する（ステップＳ２５）。

　また、範囲指定部１１４は、現時刻よりＺ時間後の時刻から受信を開始する音声データ長Ｌ分の第１ストリームにおける音声フレームを第１ストリームの照合対象の範囲と特定する（ステップＳ２６）。

　範囲指定部１１４は、ステップＳ２５、Ｓ２６の処理が完了すると、第１ストリームの識別子及び第２ストリームの識別子を、音声比較部１１６に送出し（ステップＳ３３）、処理を終了する。

　一方、ステップＳ２４において、該当のレコードが登録されている場合には（ステップＳ２４：ＹＥＳ）、範囲指定部１１４は、そのレコードに含まれている「ずれ時間量」（比較前時間量のことであり、以下では、「Ｚｘｙ」と表記する）を音声比較部１１６に送出する（ステップＳ２７）。

　続いて、範囲指定部１１４は、第１ストリームに対し、第２ストリームが遅れているか否かを判定する（ステップＳ２８）。範囲指定部１１４は、ステップＳ２７で送出したずれ時間量Ｚｘｙが正の値である場合に肯定的な判定を行う。

　第２ストリームが遅れている場合には（ステップＳ２８：ＹＥＳ）、現時刻から受信を開始する音声データ長Ｌ分の第１ストリームにおける音声フレームを第１ストリームの照合対象の範囲と特定する（ステップＳ２９）。

　また、範囲指定部１１４は、現時刻より｛Ｚｘｙ－（Ｚｃｌｋ＋Ｚｊｔｔ）｝経過後の時刻から２×（Ｚｃｌｋ＋Ｚｊｔｔ）経過後までに受信を開始する第２ストリームの音声データ長がＬである各音声フレームを第２ストリームの照合対象の範囲と特定し（ステップＳ３０）、上記同様ステップＳ３３の処理を行って、処理を終了する。

　また、ステップＳ２８において、第２ストリームが遅れていない場合には（ステップＳ２８：ＮＯ）、範囲指定部１１４は、現時刻より２×（Ｚｃｌｋ＋Ｚｊｔｔ）経過後までに受信を開始する第２ストリームの音声データ長がＬである各音声フレームを第２ストリームの照合対象の範囲として特定する（ステップＳ３１）。

　また、範囲指定部１１４は、現時刻より（Ｚｃｌｋ＋Ｚｊｔｔ＋｜Ｚｘｙ｜）経過後の時刻から受信を開始する音声データ長Ｌ分の第１ストリームにおける音声フレームを第１ストリームの照合対象の範囲と特定し（ステップＳ３２）、上記同様ステップＳ３３の処理を行って、処理を終了する。

　　＜切替指示がなされた際の各照合対象の範囲の特定処理＞
　図１２は、範囲指定部１１４による、ユーザによる切替指示がなされた際の各照合対象の範囲の特定処理を示すフローチャートである。

　同図に即して、図１０のステップＳ６の処理内容を説明する。

　範囲指定部１１４は、出力制御部１１３から受領したＡＶストリームの識別子を第２ストリームの識別子として記憶すると（ステップＳ４１）、図１１で説明したステップＳ２４～Ｓ３３の処理を行う。このステップＳ２４～Ｓ３３の処理内容は、上述した通りであるため、詳細な処理内容の説明は省略する。

　このステップＳ３３の処理に続いて、範囲指定部１１４は、第２ストリームの識別子を第１ストリームの識別子として記憶し（ステップＳ４２）、処理を終了する。

　　＜出力制御処理＞
　図１３は、出力制御部１１３による出力制御処理を示すフローチャート図である。

　以下では、同図に即して出力制御部１１３の出力制御処理について説明する。

　これまでは詳しく説明してなかったが、出力制御部１１３は、各ＡＶストリームにおける映像フレームと音声フレームとを同期して出力するために、各映像フレーム及び各音声フレームに対応付けられているｔｉｍｅｓｔａｍｐを利用して、各蓄積部（１０８、１０９）から対応する映像フレームと音声フレームとを読み出し出力する。

　このために、復号部１０７の解析部１１０は、読み出した１フレーム分のＲＴＰパケットの先頭パケットのヘッダに含まれているｔｉｍｅｓｔａｍｐを取得し、各復号器（１１１、１１２）へ１フレーム分のデータを送出する際に、あわせて取得したｔｉｍｅｓｔａｍｐを送出し、各復号部は、復号した１フレーム分のデータ（映像フレーム又は音声フレーム）とｔｉｍｅｓｔａｍｐとを対応付けて各蓄積部（１０８、１０９）に記憶させているものとする。

　出力制御部１１３は、新たなＡＶストリームの受信を開始した際に解析部１１０から受領するそのＡＶストリームの識別子を最初に受領したときから出力制御処理を開始する。

　まず、出力制御部１１３は、保持しているずれ時間量管理テーブルに基づいて、現在選択しているＡＶストリームとの間のずれ時間量が既知であるＡＶストリームを特定し、現在選択しているＡＶストリーム及び特定したＡＶストリームの映像フレームを映像蓄積部１０８から読み出し、表示部１０４に出力する（ステップＳ５１）。

　より詳細には、保持しているずれ時間量管理テーブルの「第１識別子」が現在選択しているＡＶストリームの識別子である各レコードの「第２識別子」が示すＡＶストリームを、現在選択しているＡＶストリームとの間のずれ時間量が既知であるＡＶストリームと特定する。特定したＡＶストリームについては、現在選択しているＡＶストリームの映像フレームに対し、ずれ時間量管理テーブルに登録されているずれ時間量だけずれて受信した映像フレームを読み出すようにする。但し、現在選択しているＡＶストリームに対し、特定したＡＶストリームのほうが遅れている場合には、ずれ時間量分ずれた映像フレームは未だ受信していないことになるので、直近に受信したフレームを読み出すものとする。

　また、各映像フレームを表示部１０４へ出力する際に、出力制御部１１３は、対応テーブル６０を参照し、テンキーボタンの番号が「１」であるＡＶストリームについての映像フレームを領域２１へ、テンキーボタンの番号が「２」であるＡＶストリームの映像フレームを領域２２へ、テンキーボタンの番号が「３」であるＡＶストリームの映像フレームを領域２３へ表示するように表示部１０４に指示する（図４参照）。

　続いて、出力制御部１１３は、編集ストリームに含ませるフレームに係るＡＶストリームの切替指示があったか否かを判定する（ステップＳ５２）。出力制御部１１３は、操作部１０２からユーザにより押下されたボタンに対応する信号を受領した場合に、肯定的な判定を行う。なお、この信号を受領した後、実際に切替を行う（後述するステップＳ５６の処理の実行）までは、出力制御部１１３はステップＳ５２において肯定的な判定をし続けるものとする。

　ステップＳ５２において、切替指示がなかった場合には（ステップＳ５２：ＮＯ）、出力制御部１１３は、ステップＳ５１で読み出した現在選択しているＡＶストリームの映像フレームと対応するｔｉｍｅｓｔａｍｐが付された音声フレームを音声蓄積部１０９から読み出し、音声出力部１０３に出力すると共に、この音声フレームとステップＳ５１で読み出した現在選択しているＡＶストリームの映像フレームを編集データ記憶部１０５に出力し（ステップＳ５３）、ステップＳ５１の処理に戻る。

　ステップＳ５３の処理により、音声出力部１０３からは編集ストリームに含まれる音声フレームに係る音声が出力され、編集データ記憶部１０５には、編集ストリームに含まれる音声フレーム及び映像フレームが記憶されることになる。

　一方、ステップＳ５２において、切替指示があった場合には（ステップＳ５２：ＹＥＳ）、出力制御部１１３は、その旨の通知として、その切替指示においてユーザが選択したＡＶストリームの識別子を範囲指定部１１４に送出する（ステップＳ５４）。このＡＶストリームの識別子は、対応テーブル６０において、操作部１０２から受領した信号に係るボタンの番号と対応付けられたＡＶストリームの識別子である。なお、ステップＳ５４の処理を１回実行した後、後述するステップＳ５６の処理が実行されるまでは、ステップＳ５４の処理は行われないものとする。１回の切替指示についての通知を繰り返し送出する必要はないためである。

　出力制御部１１３は、現在選択しているＡＶストリームと、切替指示に係るＡＶストリーム（切替後のＡＶストリーム）との間の比較後時間量が算出されたか否かを判定する（ステップＳ５５）。上述のステップＳ５４の通知に基づいて、図１０のステップＳ６～Ｓ１２の処理が実行されることにより、算出された比較後時間量が、出力制御部１１３が保持するずれ時間量管理テーブルに反映された場合に、肯定的な判定を行う。

　未だ比較後時間量が算出されていない場合には（ステップＳ５５：ＮＯ）、ステップＳ５１で読み出した現在選択しているＡＶストリームの映像フレームと対応するｔｉｍｅｓｔａｍｐが付された音声フレームを音声蓄積部１０９から読み出し、音声出力部１０３に出力すると共に、この音声フレームとステップＳ５１で読み出した現在選択しているＡＶストリームの映像フレームを編集データ記憶部１０５に出力し（ステップＳ５３）、ステップＳ５１の処理に戻る。

　一方、比較後時間量が算出された場合には（ステップＳ５５：ＹＥＳ）、現在選択されているＡＶストリームから、算出された比較後時間量だけずれて受信した切替後のＡＶストリームの映像フレーム、及び対応するｔｉｍｅｓｔａｍｐが付された音声フレームをそれぞれ映像蓄積部１０８、音声蓄積部１０９から読み出し、読み出した音声フレームを音声出力部１０３に出力すると共に、この音声フレーム及び映像フレームを編集データ記憶部１０５に出力し（ステップＳ５６）、ステップＳ５１の処理に戻る。

　なお、このステップＳ５６を実行後、再びステップＳ５１の処理が行われる際には、上述のステップＳ５６における切替後のＡＶストリームが、現在選択しているＡＶストリームとして処理されることになる。

　＜具体例＞
　図１４は、切替制御装置１００の範囲指定部１１４の動作を具体的に説明するための図である。

　なお、以下の説明開始時において、範囲指定部１１４が保持するずれ時間量管理テーブル５０には、いずれのレコードも登録されていないものとする。

　時刻Ｔ４０は、ビデオカメラ１０ＡからのＡＶストリームａの受信を開始するタイミングを示している。

　このタイミングでは、新たなＡＶストリームの受信を開始したので（図１０のステップＳ３：ＹＥＳ）、範囲指定部１１４は、新たなＡＶストリームの受信開始時の各照合対象の範囲の特定処理（ステップＳ４）を行う。

　この処理では、１つ目のストリームなので（図１１のステップＳ２１：ＹＥＳ）、範囲指定部１１４は、ＡＶストリームａの識別子を第１ストリームの識別子として記憶する（ステップＳ２２）だけで、各照合対象の範囲の特定は行わない。

　続いて、時刻Ｔ４１は、ＡＶストリームｂの受信を開始するタイミングを示している。

　この処理では、１つ目のストリームではないので（図１１のステップＳ２１：ＮＯ）、範囲指定部１１４は、ＡＶストリームｂの識別子を第２ストリームの識別子として記憶し（ステップＳ２３）、ずれ時間量は未だ登録されていないので（ステップＳ２４：ＮＯ）、現時刻（Ｔ４１）から２×Ｚ経過後の時刻（Ｔ４３）までに受信を開始するＡＶストリームｂの各音声フレームをＡＶストリームｂにおける照合対象の範囲と特定する（ステップＳ２５）。また、現時刻（Ｔ４１）からＺ時間後の時刻（Ｔ４２）から受信を開始するＡＶストリームａの音声フレームをＡＶストリームａにおける照合対象の範囲と特定し（ステップＳ２６）、ＡＶストリームａ及びＡＶストリームｂの識別子を音声比較部１１６に送出する（ステップＳ３３）。

　その後、時刻Ｔ４３で受信を開始するＡＶストリームｂの音声フレームを格納することで、各照合対象の格納が完了するので（ステップＳ９、Ｓ１０：ＹＥＳ）、比較後時間量が算出され（ステップＳ１１）、ずれ時間量管理テーブル５０が更新されることになる（ステップＳ１２）。

　以下では、上記ステップＳ１１で算出された比較後時間量（ＡＶストリームａに対するＡＶストリームｂのずれ時間量）は、Ｚａｂ（正の値）であったものとする。

　時刻Ｔ４４は、ＡＶストリームａに替えて、ＡＶストリームｂを選択する旨のユーザ操作（切替指示）がなされたタイミングを示している。

　このタイミングでは、新たなＡＶストリームの受信を開始しておらず（図１０のステップＳ３：ＮＯ）、ＡＶストリームの切替指示がなされたので（ステップＳ５：ＹＥＳ）、範囲指定部１１４は、切替指示がなされた際の各照合対象の範囲の特定処理（ステップＳ６）を行う。

　この処理では、範囲指定部１１４は、ＡＶストリームｂの識別子を第２ストリームの識別子として記憶し（ステップＳ４１）、ずれ時間量は登録されているので（ステップＳ２４：ＹＥＳ）、ずれ時間量Ｚａｂを音声比較部１１６に送出する（ステップＳ２７）。

　また、範囲指定部１１４は、このずれ時間量Ｚａｂが正なので（ステップＳ２８：ＹＥＳ）、現時刻（Ｔ４４）から受信を開始するＡＶストリームａの音声フレームをＡＶストリームａにおける照合対象の範囲とする（ステップＳ２９）。また、範囲指定部１１４は、現時刻（Ｔ４４）より｛Ｚａｂ－（Ｚｃｌｋ＋Ｚｊｔｔ）｝時間後の時刻（Ｔ４５）から２×（Ｚｃｌｋ＋Ｚｊｔｔ）時間後の時刻（Ｔ４７）までに受信を開始するＡＶストリームｂの音声フレームをＡＶストリームｂにおける照合対象の範囲とする（ステップＳ３０）。

　範囲指定部１１４は、ＡＶストリームａ及びＡＶストリームｂの識別子を音声比較部１１６に送出し（ステップＳ３３）、第２ストリームの識別子（ＡＶストリームｂの識別子）を第１ストリームの識別子として記憶する（ステップＳ４２）。

　その後、時刻Ｔ４７で受信を開始するＡＶストリームｂの音声フレームを格納することで、各照合対象の格納が完了するので（ステップＳ９、Ｓ１０：ＹＥＳ）、比較後時間量が算出され（ステップＳ１１）、ずれ時間量管理テーブル５０が更新されることになる（ステップＳ１２）。

　≪変形例１≫
　実施の形態１に係る範囲指定部１１４は、２つ目以降の新たなＡＶストリームの受信を開始した際、及びユーザによる切替指示がなされた際のみに、２つのＡＶストリーム間のずれ時間量を検出するために、その２つのＡＶストリームについての各照合対象を復号データ蓄積部１１５に記憶させるものとして説明した。

　以下では、受信している各ＡＶストリームについての各照合対象を継続的に復号データ蓄積部１１５に記憶させるようにした範囲指定部の一変形例を説明する。

　変形例１に係る範囲指定部は、例えば、ＡＶストリームａに続いて、ＡＶストリームｂの受信を開始すると、実施の形態１に係る範囲指定部１１４と同様に、各照合対象の範囲を決定し（図１１のステップＳ２５及びＳ２６）、復号データ蓄積部１１５に各照合対象を記憶させ（図１０のステップＳ９、Ｓ１０：ＹＥＳ）、音声比較部１１６は、各照合対象を比較することで比較後時間量を算出し（ステップＳ１１）、この比較後時間量がずれ時間量管理テーブル５０に反映される（ステップＳ１２）。

　その後も、変形例１に係る範囲指定部は、このＡＶストリームａからＡＶストリームｂに切り替える旨のユーザ操作（切替指示）がなされた際の範囲指定部１１４と同様に動作し、即ち、上記ずれ時間量管理テーブル５０に反映された比較後時間量の正負に応じてＡＶストリームａ及びＡＶストリームｂについての各照合対象の範囲を特定し（図１１のステップＳ２９及びＳ３０、又はＳ３１及びＳ３２）、各照合対象を継続的に復号データ蓄積部１１５に記憶させる。

　ここで、「継続的に」とは、復号データ蓄積部１１５に記憶されている各照合対象が、各受信時刻において、上記特定した範囲（図１１のステップＳ２９及びＳ３０、又はＳ３１及びＳ３２）の関係を有するように、照合対象の内容を順次更新していくことをいう。

　この結果、実際に、このＡＶストリームａからＡＶストリームｂに切り替える旨のユーザ操作（切替指示）がなされた際には、既に、復号データ蓄積部１１５において、ＡＶストリームａ及びＡＶストリームｂについての各照合対象の格納が完了しているため、各照合対象の格納の完了を待つことなく音声比較部１１６による各照合対象の比較を速やかに開始できる。従って、切替指示がなされてからより高速に編集ストリームに含ませるフレームの切り替えることが可能になる。

　なお、再度音声比較部１１６による各照合対象の比較が行われて、再び比較後時間量を算出され、この比較後時間量がずれ時間量管理テーブル５０に反映されると、以降、変形例１に係る範囲指定部は、反映されたこの比較後時間量の正負に応じて、各照合対象の範囲を再度決定し（図１１のステップＳ２９及びＳ３０、又はＳ３１及びＳ３２）、各照合対象を継続的に復号データ蓄積部１１５に記憶させる。

　≪変形例２≫
　変形例１に係る範囲指定部が上述のように動作する結果、復号データ蓄積部１１５には、受信している各ＡＶストリームの各照合対象が継続的に記憶されることになる。

　そこで、変形例１に係る切替制御装置の復号部１０７から音声蓄積部１０９の構成を取り除き、出力制御部１１３が音声フレームを読み出す先を、音声蓄積部１０９から変形例１で説明した復号データ蓄積部１１５に変える更なる変形が考えられる。

　これにより、音声蓄積部１０９用に使用していたメモリ領域を削減できる。

　≪変形例３≫
　実施の形態１に係る範囲指定部１１４は、２つ目以降の新たなＡＶストリームの受信を開始した際、及びユーザによる切替指示がなされた際に、２つのＡＶストリーム間のずれ時間量を検出するために、その２つのＡＶストリームについての各照合対象を復号データ蓄積部１１５に記憶させるものとして説明した。

　例えば、ＡＶストリームａが出力制御部１１３により選択されているときに、ＡＶストリームｂの受信を開始し、ＡＶストリームａ及びＡＶストリームｂについての各照合対象の復号データ蓄積部１１５への格納が行われている最中にＡＶストリームｃの受信を開始したとする。

　この場合、実施の形態１に係る範囲指定部１１４は、ＡＶストリームａ及びＡＶストリームｂの各照合対象とは別に、ＡＶストリームａ及びＡＶストリームｃ間のずれ時間量を算出するために、これらの各照合対象を復号データ蓄積部１１５へ格納していた。

　しかしながら、このようにした場合、比較的記憶容量の大きいメモリを用いて復号データ蓄積部１１５を実現する必要がある。

　そこで、一旦格納を開始した各照合対象に基づくずれ時間量が算出され、ずれ時間量管理テーブル５０への反映がなされるまでは、新たなＡＶストリームの受信を開始しても、そのＡＶストリームについての照合対象の格納は行わないように変形することが考えられる。

　また、上述の例で、実施の形態１に係る範囲指定部１１４は、ＡＶストリームａ及びＡＶストリームｃについての各照合対象の復号データ蓄積部１１５への格納が行われている最中に、ＡＶストリームａからＡＶストリームｂに切り替える旨のユーザ指示（切替指示）がなされた場合に、ＡＶストリームａ及びＡＶストリームｃについての各照合対象の格納とは別に、ＡＶストリームａ及びＡＶストリームｂについての各照合対象を格納していた。

　これについても、一旦格納を開始した各照合対象に基づくずれ時間量が算出され、ずれ時間量管理テーブル５０への反映がなされるまでは、切替指示があっても、その切替後のＡＶストリームについての照合対象の格納は行わないように変形することが考えられる。

　しかしながら、このように変形した場合には、復号データ蓄積部１１５を実現するためのメモリ容量は少なくなるが、切替指示がなされてから編集ストリームに含ませるフレームの切替が可能になるまでにかかる時間が長くなってしまう。

　そこで、切替指示があった場合には、一旦格納を開始した各照合対象（上述の例では、ＡＶストリームａ及びＡＶストリームｃについての各照合対象）を破棄して、切替前のＡＶストリームと切替後のＡＶストリームについての各照合対象を優先して復号データ蓄積部１１５に格納するように実施の形態１に係る範囲指定部１１４を変形することが考えられる。

　≪実施の形態２≫
　実施の形態１では、同時刻に生じた音声に基づいて各撮影装置で生成された各音声フレームが切替制御装置１００により受信された際の時間差を、各ＡＶストリーム間のずれ時間量として用いる例を説明した。

　実施の形態２では、同時刻に生じた音声に基づいて各撮影装置で生成された各音声フレームに付与された時刻情報が示す各時間の差を、各ＡＶストリーム間のずれ時間量として用いる例を、実施の形態１からの変更点を中心に説明する。

　　＜構成＞
　図１５は、実施の形態２に係る切替制御装置２００の機能ブロック図である。

　同図に示すように、切替制御装置２００は、実施の形態１に係る切替制御装置１００の復号部１０７、範囲指定部１１４、音声比較部１１６に代えて、復号部２０１、範囲指定部２０４、音声比較部２０５を備える。

　ここで、復号部２０１は、実施の形態１に係る復号部１０７の解析部１１０に代えて解析部２０３を含み、更に、時刻蓄積部２０２を含む。

　時刻蓄積部２０２は、解析部２０３から受領した時刻情報（ｔｉｍｅｓｔａｍｐ）を、解析部２０３の指示に従って、一時的に記憶する機能を有し、ＤＲＡＭ等のメモリにより実現される。

　解析部２０３は、実施の形態１に係る解析部１１０の機能に加え、パケット蓄積部１０６から読み出した１フレーム分のＲＴＰパケットの先頭パケットのヘッダから取得したｔｉｍｅｓｔａｍｐを時刻情報として、時刻蓄積部２０２に記憶させる点で解析部１１０とは異なる。

　この際、解析部２０３は、パケット蓄積部１０６から読み出した１フレーム分のＲＴＰパケットの先頭パケットのヘッダに含まれているシーケンス番号も取得し、このシーケンス番号と上述の取得した時刻情報とを対応付けて、そのＲＴＰパケットに係るＡＶストリームに対応する時刻蓄積部２０２上の領域に記憶させる。

　また、解析部２０３は、取得した時刻情報とシーケンス番号とを範囲指定部２０４に送出する。また、解析部２０３は、各復号器（１１１、１１２）に対し各フレームを送出する際に、上述のシーケンス番号をあわせて送出する。

　なお、特に別符号を付して説明しないが、実施の形態２に係る各復号器は復号後の各フレームを解析部２０３から受領したシーケンス番号と対応付けて各蓄積部（１０８、１０９）に記憶させると共に、音声復号器１１２は、このシーケンス番号と共に復号後の音声フレームを範囲指定部２０４に送出する。つまり、実施の形態１に係る各復号器は、復号後の各フレームをｔｉｍｅｓｔａｍｐと対応付けていたが、実施の形態２に係る各復号器は、シーケンス番号と対応付ける点で実施の形態１に係る各復号器とは異なる。

　範囲指定部２０４は、基本的には、実施の形態１に係る範囲指定部１１４と同様の機能を有するが、音声比較部２０５による音声比較の対象となる２つのＡＶストリームにおける各照合対象の範囲の特定方法が範囲指定部１１４とは異なる。この特定方法については後述する（図１９、２０参照）。

　範囲指定部２０４は、特定した照合対象の範囲に含まれる音声フレームを、この音声フレームと共に音声復号器１１２から受領したシーケンス番号と一致するシーケンス番号と共に解析部２０３から受領した時刻情報と対応付けて復号データ蓄積部１１５に記憶させる。

　音声比較部２０５は、基本的には、実施の形態１に係る音声比較部１１６と同様の機能を有するが、ずれ時間量の検出方法が音声比較部１１６とは異なる。この検出方法については後述する（図２１参照）。

　　＜データ＞
　　　＜ずれ時間量管理テーブル＞
　範囲指定部２０４が保持するずれ時間量管理テーブル７０について説明する。

　図１６は、ずれ時間量管理テーブル７０のデータ構成及び内容例を示す図である。

　ずれ時間量管理テーブル７０は、同図に示すように、第１識別子５１と第２識別子５２とずれ時間量７１とを対応付けて構成される情報である。

　第１識別子５１及び第２識別子５２は、実施の形態１に係るずれ時間量管理テーブル５０と同様のものであるため、ここでは、ずれ時間量７１について説明する。

　ずれ時間量７１は、実施の形態１に係るずれ時間量５３と同様、対応する第１識別子が示すＡＶストリームに対する、対応する第２識別子が示すＡＶストリームのずれ時間量を示すデータであるが、その値が、各時刻情報（ｔｉｍｅｓｔａｍｐ）が示す時間の差である点で、ずれ時間量５３とは異なる。なお、同図における「ＴＳａｂ」、「ＴＳｂａ」は具体的な値を示しており、この「ＴＳａｂ」と「ＴＳｂａ」とは符合のみが異なる（絶対値が一致する）値である。

　同図は、例えば、第１識別子「ＡＶストリームａの識別子」が示すＡＶストリームａに対する、第２識別子「ＡＶストリームｂの識別子」が示すＡＶストリームｂのずれ時間量は「ＴＳａｂ」であることを示している。

　なお、ずれ時間量管理テーブル７０への新たなレコードの登録、登録済みのレコードの更新、削除については、ずれ時間量管理テーブル５０と同様の方法で行われる。また、以下では、実施の形態２に係る出力制御部１１３は、このずれ時間量管理テーブル７０と同様のずれ時間量管理テーブルを保持しているものとして説明する。

　　　＜時刻情報テーブル＞
　範囲指定部２０４が保持する時刻情報テーブル８０について説明する。

　図１７は、時刻情報テーブル８０のデータ構成及び内容例を示す図である。

　この時刻情報テーブル８０は、範囲指定部２０４が第２ストリームについての照合対象の範囲を特定する際に利用され、同図に示すように、ＡＶストリーム毎に、識別子８１と変化量８２とを対応付けて構成される情報である。

　ここで、識別子８１は、対応するＡＶストリームの識別子を示すデータであり、変化量８２は、対応するＡＶストリームにおいて、（ＺｃｌＫ＋Ｚｊｔｔ）時間内に受信を開始する各音声フレームのうち、最初に受信を開始する音声フレームから最後に受信を開始する音声フレームまでの時間情報（ｔｉｍｅｓｔａｍｐ）の変化量を示すデータである。

　なお、同図における「ＡＶストリームａの識別子」は、ビデオカメラ１０ＡからのＡＶストリームａの識別子を表す具体的なデータを、「ＡＶストリームｂの識別子」は、デジタルカメラ１０ＢからのＡＶストリームｂの識別子を表す具体的なデータを、「ＴＳａ」、「ＴＳｂ」は具体的な値を示しているものとする。

　同図は、例えば、識別子「ＡＶストリームａの識別子」が示すビデオカメラ１０ＡからのＡＶストリームａにおけるｔｉｍｅｓｔａｍｐの変化量は、「ＴＳａ」であることを示している。

　　＜動作＞
　図１８は、切替制御装置２００が音声フレームを受信した際の範囲指定部２０４等の処理を示すフローチャートである。

　同図に示す通り、切替制御装置２００の処理は、図１０に示す切替制御装置１００の処理とは、ステップＳ６１～Ｓ６３が異なる。

　以下では、ステップＳ６１～Ｓ６３の処理内容を中心に説明する。

　　＜新たなＡＶストリームの受信を開始した際の各照合対象の範囲の特定処理＞
　図１９は、範囲指定部２０４による、新たなＡＶストリームの受信を開始した際の各照合対象の範囲の特定処理を示すフローチャートである。

　同図に即して、図１８のステップＳ６１の処理内容の詳細を説明するが、図１９に示す範囲指定部２０４の処理は、図１１に示す範囲指定部１１４のステップＳ２８～Ｓ３２の処理に代えて、ステップＳ７３、Ｓ７４の処理を含み、更に、ステップＳ７１、Ｓ７２の処理が追加されている。従って、以下では、このステップＳ７１～Ｓ７４の処理を中心に説明する。

　範囲指定部２０４は、受信を開始したＡＶストリームが１つ目のＡＶストリームである場合には（ステップＳ２１：ＹＥＳ）、ステップＳ２２の処理を行い、続いて、第１ストリームについての変化量を算出する（ステップＳ７１）。具体的には、現時刻から受信を開始する音声データ長Ｌ分の音声フレームに付された時刻情報が示す時刻をＴａ、現時刻から（ｚｃｌｋ＋Ｚｊｔｔ）後の時刻に受信を開始する音声データ長Ｌ分の音声フレームに付された時刻情報が示す時刻をＴｂとした場合に、Ｔｂ－Ｔａを、第１ストリームについての変化量として算出する。なお、音声フレームに付された時間情報とは、その音声フレームと共に音声復号器１１２から受領したシーケンス番号と一致するシーケンス番号と共に解析部２０３から受領した時間情報のことである。

　範囲指定部２０４は、この算出した変化量と第１ストリームの識別子とからなるレコードを、時刻情報テーブル８０に登録し、処理を終了する。

　一方、受信を開始したＡＶストリームが１つ目のＡＶストリームでない場合には（ステップＳ２１：ＮＯ）、範囲指定部２０４は、ステップＳ２３の処理を行い、第１ストリームと第２ストリームとの間のずれ時間量がずれ時間量管理テーブル５０に登録されていない場合には（ステップＳ２４：ＮＯ）、ステップＳ２５、Ｓ２６の処理を行い、続いて、上述のステップＳ７１と同様に、第２ストリームについての変化量を算出し（ステップＳ７２）、時刻情報テーブル８０に登録し、ステップＳ３３の処理に進む。

　また、第１ストリームと第２ストリームとの間のずれ時間量がずれ時間量管理テーブル５０に登録されている場合には（ステップＳ２４：ＹＥＳ）、範囲指定部２０４は、ずれ時間量（比較前時間量のことであり、以下では、「ＴＳｘｙ」と表記する）を音声比較部２０５に送出する（ステップＳ２７）。

　続いて、範囲指定部２０４は、図１１におけるステップＳ２９と同様、現時刻から受信を開始する音声データ長Ｌ分の第１ストリームにおける音声フレームを第１ストリームの照合対象の範囲と特定し（ステップＳ７３）、この第１ストリームにおける音声フレームに付された時刻情報（以下では、「ＴＳ１」と表記する）を取得する。

　また、範囲指定部２０４は、第２ストリームにおける変化量（以下では、「ＴＳｙ」と表記する）を時刻情報テーブル８０から読み出し、付されている時刻情報が示す時刻が、（ＴＳ１＋ＴＳｘｙ－ＴＳｙ）から（ＴＳ１＋ＴＳｘｙ＋ＴＳｙ）に含まれる第２ストリームの音声フレームを、第２ストリームの照合対象の範囲と特定し（ステップＳ７４）、ステップＳ３３の処理に進む。

　　＜切替指示がなされた際の各照合対象の範囲の特定処理＞
　図２０は、範囲指定部２０４による、ユーザによる切替指示がなされた際の各照合対象の範囲の特定処理を示すフローチャートである。

　同図は、図１８のステップＳ６２の処理内容を示しているが、図２０におけるステップＳ４１とＳ４２、ステップＳ７３、Ｓ７４は、それぞれ図１２のステップＳ４１とＳ４２の処理、図１９のステップＳ７３、Ｓ７４の処理と同様であるため、説明は省略する。

　　＜比較後時間量算出処理＞
　図２１は、音声比較部２０５による比較後時間量算出処理を示すフローチャートである。

　同図に即して、図１８のステップＳ６３の処理内容の詳細を説明する。

　図１８のステップＳ１０で、第１ストリーム及び第２ストリームについての各照合対象の格納が完了した場合には（ステップＳ１０：ＹＥＳ）、音声比較部２０５は、図１０のステップＳ１１と同様に、各照合対象に各種フィルタ処理を施した後にこれらを比較して音声パターンが一致する箇所を特定する（図２１のステップＳ８１）。

　続いて、音声比較部２０５は、特定した各箇所の音声フレームに付された各時刻情報を取得し（ステップＳ８２）、第２ストリームについての時刻情報が示す時刻から第１ストリームについての時刻情報が示す時刻を減じてずれ時間量を算出し（ステップＳ８３）、このずれ時間量に基づいて、比較後時間量を算出し（ステップＳ８４）、図１９及び図２０のステップＳ３３で範囲指定部２０４から送出された第１ストリームの識別子及び第２ストリームの識別子と、算出した比較後時間量とを範囲指定変更部１１７及び時間情報変更部１１８へ送出する。

　なお、比較後時間量の算出は、図１０のステップＳ１１と同様、図１９及び図２０のステップＳ２７で比較前時間量を受領した場合は、ステップＳ８３で算出したずれ時間量との和を、比較後時間量とする。

　　＜出力制御処理＞
　実施の形態２に係る出力制御部１１３の出力制御処理の内容は、図１３に示す出力制御処理の内容と基本的には同様である。

　但し、ステップＳ５１で、ずれ時間量管理テーブルに登録されているずれ時間量だけずれて受信した映像フレームを読み出すとして説明したが、ずれ時間量管理テーブルに登録されているずれ時間量だけずれた時刻情報（ｔｉｍｅｓｔａｍｐ）が付された映像フレームを読み出す点で異なる。また、ステップＳ５６で、現在選択されているＡＶストリームから算出された比較後時間量だけずれて受信した切替後のＡＶストリームの映像フレームを読み出すものとして説明したが、比較後時間量だけずれた時刻情報（ｔｉｍｅｓｔａｍｐ）が付された映像フレームを読み出す点で異なる。なお、ある時刻情報が付されたフレームの特定は、シーケンス番号を介して行うのは、上述の範囲指定部２０４と同様である。
＜補足＞
　以上、本発明に係る切替制御装置について、各変形例を含む各実施の形態に基づいて説明したが、以下のように変形することも可能であり、本発明は上述した各実施の形態に示した通りの切替制御装置に限られないことは勿論である。

　（１）実施の形態１において説明した各ＡＶストリームに係る映像の表示例（図４）は一例にすぎず、画面２０における各映像の配置はこれに限られないのは勿論である。例えば、画面２０における領域２４以外の残りの領域の論理的な分割数を、受信しているＡＶストリームの数に応じて変えるようにしてもよい。

　（２）各実施の形態では、ユーザからの切替指示がなされる毎に、切替の前後で選択される２つのＡＶストリーム間のすれ時間量を算出するものとして説明したが、毎回はこの算出を行わないようにしてもよい。例えば、前回算出してからの経過時間を計時しておき、その経過時間が所定時間内である場合には、既に算出されているずれ時間量に基づいて切替を行うようにしてもよい。

　（３）各実施の形態では、ずれ時間量管理テーブルに、例えば、ＡＶストリームａに対するＡＶストリームｂのずれ時間量と、ＡＶストリームｂに対するＡＶストリームａのずれ時間量との両方を登録するものとして説明したが、片方のみを登録するようにしてもよい。

　この場合、各実施の形態における範囲指定部は、第１ストリームと第２ストリームとの間のずれ時間量がずれ時間量管理テーブルに登録されているかを判定する（ステップＳ２４）際に、「第１識別子」が第１ストリームの識別子であり、「第２識別子」が第２ストリームの識別子であるレコードか、「第１識別子」が第２ストリームの識別子であり、「第２識別子」が第１ストリームの識別子であるレコードがある場合に肯定的な判定を行うことになる。

　また、ずれ時間量管理テーブルに、「第１識別子」が第２ストリームの識別子であり、「第２識別子」が第１ストリームの識別子であるレコードが登録されていた場合には、ステップＳ２７では、そのレコードに含まれているずれ時間量の符号を反転させたものを比較前時間量として送出する必要がある。

　（４）各実施の形態では、ずれ時間量管理テーブルには、音声比較部での各照合対象の比較を経て算出したずれ時間量のみを登録するものとして説明したが、以下のようにして算出されたずれ時間量を登録するようにしてもよい。

　即ち、例えば、ＡＶストリームａに対するＡＶストリームｂのずれ時間量と、ＡＶストリームｂに対するＡＶストリームｃのずれ時間量とが音声比較部での各照合対象の比較を経てずれ時間量管理テーブルに登録されている場合に、この２つのズレ時間量の和をＡＶストリームａに対するＡＶストリームｃのずれ時間量としてずれ時間量管理テーブルに登録してもよい。

　（５）各実施の形態において、Ｚは、数１に示す数式で表されるように、Ｚｊｔｔを含むものとして説明したが、Ｚｊｔｔがほぼ無視できるような場合、例えば、各撮影装置と切替制御装置とを接続するネットワークの帯域をこれらの装置間の通信で占有できるような場合には、以下の数式で表せるＺを用いてもよい。

　　［数２］
　Ｚ＝Ｚｃｌｋ＋Ｚｅｎｃ＿ｎｅｔ
　このようなケースでは、各実施の形態で、（Ｚｃｌｋ＋Ｚｊｔｔ）として説明した箇所をＺｃｌｋと読み替える必要がある。

　（６）各実施の形態に係る切替制御装置の機能を撮影装置に組み込んで利用してもよい。即ち、本発明に係る切替制御装置の機能を組み込んだ撮影装置は、自装置が生成したＡＶストリームと、他の撮影装置が生成した１つ以上のＡＶストリームとから１つの編集ストリームを生成することが可能になる。

　（７）各実施の形態に係る出力制御部による出力制御処理において、ステップＳ５１で、現在選択しているＡＶストリームに対し、特定したＡＶストリームのほうが遅れている場合には、ずれ時間量分ずれた映像フレームは未だ受信していないことになるので、直近に受信したフレームを読み出すものとして説明した。

　しかしながら、最初に受信を開始したＡＶストリームについての映像及び音声フレームを各蓄積部（１０８、１０９）にＺ時間分貯めた状態で、各実施の形態に係る出力制御部が各フレームの出力を行うようにすれば、特定したＡＶストリームのほうが遅れている場合でも、ずれ時間量分ずれた映像フレームを読み出し表示することが可能になる。

　（８）各実施の形態に係る出力制御部は、ずれ時間量管理テーブルを保持するものとして説明したが、これを保持しないようにし、範囲指定部が保持するずれ時間量管理テーブルを参照するようにしてもよい。その場合、時間情報変更部１１８は不要になる。

　（９）各実施の形態において説明した切替制御装置は、その構成要素の全部又は一部を、１チップ又は複数チップの集積回路で実現してもよいし、コンピュータのプログラムで実現してもよいし、その他どのような形態で実施してもよい。

　集積回路で実現する場合、典型的には、ＬＳＩ（Large Scale Integration）として実現される。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

　また、集積回路化の手法はＬＳＩに限るものではなく、専用回路、又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

　さらには、半導体技術の進歩、又は派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。

　またコンピュータプログラムで実現する場合、メモリカード、ＣＤ－ＲＯＭなどいかなる記録媒体に書き込まれたものをコンピュータに読み込ませて実行させる形にしてもよいし、ネットワークを経由してプログラムをダウンロードして実行させる形にしてもよい。

　（１０）本発明に係る切替制御装置における受信手段は、各実施の形態に係るパケット蓄積部１０６に相当し、選定手段及び制御手段は、範囲指定部１１４に相当し、記憶手段は、復号データ蓄積部１１５に相当し、特定手段は、音声比較部１１６に相当し、出力手段は、出力制御部１１３に相当し、第２特定手段は、音声比較部２０５に相当し、第２制御手段は、範囲指定部２０４に相当する。

　本発明に係る切替制御装置は、それぞれが少なくとも音声を含むＡＶストリーム等の複数のストリームを編集し、１つのストリームを生成する際に利用される。

　１　　　　　　　ＷＡＮ
　１０Ａ　　　　　ビデオカメラ
　１０Ｂ　　　　　デジタルカメラ
　１０Ｃ　　　　　携帯電話機
　１００、２００　切替制御装置
　１０１　　　　　無線通信部
　１０２　　　　　操作部
　１０３　　　　　音声出力部
　１０４　　　　　表示部
　１０５　　　　　編集データ記憶部
　１０６　　　　　パケット蓄積部
　１０７、２０１　復号部
　１０８　　　　　映像蓄積部
　１０９　　　　　音声蓄積部
　１１０、２０３　解析部
　１１１　　　　　映像復号器
　１１２　　　　　音声復号器
　１１３　　　　　出力制御部
　１１４、２０４　範囲指定部
　１１５　　　　　復号データ蓄積部
　１１６、２０５　音声比較部
　１１７　　　　　範囲指定変更部
　１１８　　　　　時間情報変更部
　２０２　　　　　時刻蓄積部

Claims

　入力される複数のストリームのうちの１つを出力し、出力対象とするストリームの切替の際にストリーム出力タイミングを調整する切替制御装置であって、
　それぞれが少なくとも音声を含む複数のストリームを受信する受信手段と、
　前記複数のストリームから、第１及び第２のストリームを選定する選定手段と、
　第１及び第２の照合対象を記憶する記憶手段と、
　第１及び第２のストリーム間で前記切替を行うために、前記記憶手段に記憶されている各照合対象を照合することにより、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づき生成された音声データそれぞれが前記受信手段により受信される際の時間差Ｚ０を前記調整用の値として特定する特定手段と、
　前記選定手段による前記選定が行われると、第１のストリームについて、所定長Ｌ分の音声データを第１の照合対象として前記記憶手段に格納し、第２のストリームについて、前記特定手段が前記特定を行う前においては、前記受信手段による第１の照合対象の受信開始時刻Ｔ０を含む所定時間幅Ｗ内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、前記特定手段が一旦前記特定を行った後においては、前記受信手段が時刻（Ｔ０＋Ｚ０）を含む所定時間幅Ｗ１（Ｗ１＜Ｗ）内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、各照合対象についての格納後に、前記特定手段に前記特定を行わせるよう制御する制御手段とを備える
　ことを特徴とする切替制御装置。
　前記制御手段は、第２のストリームについて、前記特定手段が前記特定を行う前においては、前記受信手段による受信時刻が時刻（Ｔ０－Ｚ）から２×Ｚ時間後までを時間幅Ｗとし、前記特定手段が一旦前記特定を行った後においては、前記受信手段による受信時刻が時刻（Ｔ０＋Ｚ０－Ｚ１）から２×Ｚ１時間後までを時間幅Ｗ１とし、
　Ｚは、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づいて生成された音声データそれぞれを前記受信手段が受信する際の時間差のうちの最大時間差の推定値であり、
　Ｚ１は、第１及び第２のストリームを生成した装置それぞれが備えるクロックの誤差により、当該ストリームに含まれる同時刻に生じた音声に基づいて生成された音声データが送信される時間差のうちの最大時間差の推定値である
　ことを特徴とする請求項１記載の切替制御装置。
　前記切替制御装置は、
　前記受信手段が受信した各ストリームから一のストリームを選択し、当該ストリームを出力する出力手段を備え、
　前記出力手段は、前記出力に係るストリームを第１から第２のストリームに切り替える必要が生じた場合に、第２のストリームの出力タイミングを前記特定手段により特定された時間差Ｚ０に基づいて決定する
　ことを特徴とする請求項２記載の切替制御装置。
　前記受信手段は、無線ネットワークを介して各ストリームを受信するものであり、
　前記制御手段は、第２のストリームについて、前記特定手段が前記特定を行う前においては、前記受信手段による受信時刻が時刻（Ｔ０－Ｚ）から２×Ｚ時間後までを時間幅Ｗとし、前記特定手段が一旦前記特定を行った後においては、前記受信手段による受信時刻が時刻｛Ｔ０＋Ｚ０－（Ｚ１＋Ｚ２）｝から２×（Ｚ１＋Ｚ２）時間後までを時間幅Ｗ１とし、
　Ｚは、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づいて生成された音声データそれぞれを前記受信手段が受信する際の時間差のうちの最大時間差の推定値であり、
　Ｚ１は、第１及び第２のストリームを生成した装置それぞれが備えるクロックの誤差により、当該ストリームに含まれる同時刻に生じた音声に基づいて生成された音声データが送信される時間差のうちの最大時間差の推定値であり、
　Ｚ２は、前記無線ネットワークの遅延の揺らぎにより、第１及び第２のストリームに含まれる同時刻に生じた音声に基づいて生成された音声データそれぞれを前記受信手段が受信する際の時間差のうちの最大時間差の推定値である
　ことを特徴とする請求項１記載の切替制御装置。
　複数のストリームそれぞれは、更に映像ストリームを含み、
　複数のストリームそれぞれには、Ｌ毎に、当該ストリームに係る映像と音声とを同期するための時間情報が付与されており、
　前記切替制御装置は、前記特定手段及び前記制御手段に代えて、
　第１及び第２のストリーム間で前記切替を行うために、前記記憶手段に格納された各照合対象を照合することにより、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づき生成された音声データそれぞれを検出し、各音声データに付与された時間情報が示す各時間の差分である時間差Ｚ３を前記調整用の値として特定する第２特定手段と、
　第１のストリームについて、所定長Ｌ分の音声データを第１の照合対象として前記記憶手段に格納し、第２のストリームについて、前記特定手段が前記特定を行う前においては、前記受信手段が時刻（Ｔ０－Ｚ）から２×Ｚ時間後までに受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、前記特定手段が一旦前記特定を行った後においては、時間情報が示す時間が（Ｚ４－Ｚ５）から（Ｚ４＋Ｚ５）に含まれる各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、各照合対象についての格納後に、前記特定手段に前記特定を行わせるよう制御する第２制御手段とを備え、
　Ｚ４は、前記記憶手段に記憶されている第１の照合対象に付与されている時間情報が示す時間にＺ３を加えた時間であり、
　Ｚ５は、第１及び第２のストリームを生成した装置それぞれが備えるクロックの誤差により、当該ストリームに含まれる同時刻に生じた音声に基づいて生成された音声データが送信される時間差のうちの最大時間差の推定値であるＺ１の間に前記受信手段が受信を開始する第２のストリームについての各Ｌ分の音声データのうち、最後に受信を開始する音声データと最初に受信を開始する音声データとにそれぞれ付与された時間情報が示す各時間の差分である
　ことを特徴とする請求項１記載の切替制御装置。
　前記出力手段は、ユーザからの切替後のストリームの指定を含むストリームの切替指示を受け付け、当該切替指示で指定されたストリームを選択するものであり、
　前記選定手段は、前記出力手段により前記切替指示が受け付けられると、当該受け付けの直前に前記出力手段により選択されていたストリームを第１ストリームとして選定し、当該切替指示で指定されたストリームを第２のストリームとして選定し、当該選定に係る第１及び第２ストリームの各照合対象ついての前記特定手段による前記特定を完了するまでは、次の選定は行わない
　ことを特徴とする請求項２記載の切替制御装置。
　前記出力手段は、前記一のストリームに係る音声の出力を、前記記憶手段に記憶されている当該一のストリームについての照合対象を用いて行う
　ことを特徴とする請求項２記載の切替制御装置。
　入力される複数のストリームのうちの１つを出力し、出力対象とするストリームの切替の際にストリーム出力タイミングを調整する切替制御用集積回路であって、
　それぞれが少なくとも音声を含む複数のストリームを受信する受信手段と、
　前記複数のストリームから、第１及び第２のストリームを選定する選定手段と、
　第１及び第２の照合対象を記憶する記憶手段と、
　第１及び第２のストリーム間で前記切替を行うために、前記記憶手段に記憶されている各照合対象を照合することにより、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づき生成された音声データそれぞれが前記受信手段により受信される際の時間差Ｚ０を前記調整用の値として特定する特定手段と、
　前記選定手段による前記選定が行われると、第１のストリームについて、所定長Ｌ分の音声データを第１の照合対象として前記記憶手段に格納し、第２のストリームについて、前記特定手段が前記特定を行う前においては、前記受信手段による第１の照合対象の受信開始時刻Ｔ０を含む所定時間幅Ｗ内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、前記特定手段が一旦前記特定を行った後においては、前記受信手段が時刻（Ｔ０＋Ｚ０）を含む所定時間幅Ｗ１（Ｗ１＜Ｗ）内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、各照合対象についての格納後に、前記特定手段に前記特定を行わせるよう制御する制御手段とを備える
　ことを特徴とする切替制御用集積回路。
　入力される複数のストリームのうちの１つを出力し、出力対象とするストリームの切替の際にストリーム出力タイミングを調整する切替制御装置において用いられる切替制御方法であって、
　前記切替制御装置は、
　第１及び第２の照合対象を記憶する記憶手段を備え、
　前記切替制御方法は、
　それぞれが少なくとも音声を含む複数のストリームを受信する受信ステップと、
　前記複数のストリームから、第１及び第２のストリームを選定する選定ステップと、
　第１及び第２のストリーム間で前記切替を行うために、前記記憶手段に記憶されている各照合対象を照合することにより、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づき生成された音声データそれぞれが前記受信ステップにより受信される際の時間差Ｚ０を前記調整用の値として特定する特定ステップと、
　前記選定ステップによる前記選定が行われると、第１のストリームについて、所定長Ｌ分の音声データを第１の照合対象として前記記憶手段に格納し、第２のストリームについて、前記特定ステップで前記特定を行う前においては、前記受信ステップによる第１の照合対象の受信開始時刻Ｔ０を含む所定時間幅Ｗ内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、前記特定ステップで一旦前記特定を行った後においては、前記受信ステップで時刻（Ｔ０＋Ｚ０）を含む所定時間幅Ｗ１（Ｗ１＜Ｗ）内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、各照合対象についての格納後に、前記特定ステップで前記特定を行わせるよう制御する制御ステップとを備える
　ことを特徴とする切替制御方法。
　入力される複数のストリームのうちの１つを出力し、出力対象とするストリームの切替の際にストリーム出力タイミングを調整し、かつ、プログラムを実行可能な切替制御装置に、切替制御処理を実行させるための制御プログラムであって、
　前記切替制御装置は、
　第１及び第２の照合対象を記憶する記憶手段を備え、
　前記切替制御処理は、
　それぞれが少なくとも音声を含む複数のストリームを受信する受信ステップと、
　前記複数のストリームから、第１及び第２のストリームを選定する選定ステップと、
　第１及び第２のストリーム間で前記切替を行うために、前記記憶手段に記憶されている各照合対象を照合することにより、第１及び第２のストリームに含まれる、同時刻に生じた音声に基づき生成された音声データそれぞれが前記受信ステップにより受信される際の時間差Ｚ０を前記調整用の値として特定する特定ステップと、
　前記選定ステップによる前記選定が行われると、第１のストリームについて、所定長Ｌ分の音声データを第１の照合対象として前記記憶手段に格納し、第２のストリームについて、前記特定ステップで前記特定を行う前においては、前記受信ステップによる第１の照合対象の受信開始時刻Ｔ０を含む所定時間幅Ｗ内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、前記特定ステップで一旦前記特定を行った後においては、前記受信ステップで時刻（Ｔ０＋Ｚ０）を含む所定時間幅Ｗ１（Ｗ１＜Ｗ）内に受信を開始した各Ｌ分の音声データを第２の照合対象として前記記憶手段に格納し、各照合対象についての格納後に、前記特定ステップで前記特定を行わせるよう制御する制御ステップとを備える
　ことを特徴とする制御プログラム。