WO1994006246A1

WO1994006246A1 - Moving picture encoder

Info

Publication number: WO1994006246A1
Application number: PCT/JP1993/001213
Authority: WO
Inventors: Osamu Okada; Shigenobu Minami; Shoichiro Yamasaki
Original assignee: Kabushiki Kaisha Toshiba
Priority date: 1992-08-27
Filing date: 1993-08-27
Publication date: 1994-03-17
Also published as: CA2122371A1; US5594494A; DE69326751D1; EP0615387A4; DE69326751T2; CA2122371C; EP0615387B1; EP0615387A1

Description

明細書動画像符号化装置技術分野

この発明は、映像信号を符号化するための符号化装置に係わり、特に画像の注目部分を、映像信号とともに得られる音声信号により特定し、その特定した画像領域については割り当て符号量を増大して画像符号化を行う動画像符号化装置に関する。背景技術

近年、通信技術の進歩に伴い、離れた場所にいながら会議のできる遠隔会議システム（テレビ会議システム）や、個人でも利用できるテレビ電話システムなどが実用に供されるようになつている。

このようなシステムにおいては、電話回線等の通信回線を使用して映像と音声を伝送するが、そのためにチャネル当たりの伝送可能な符号量が制限されるために、この制限される上限の符号量以内に映像信号のデータ量を抑えるべく、符号化して画像情報を伝送する。

単位時間当たりの伝送可能な符号量は十分なものではないから、動画像を伝送する場合には、自然な動きを確保するために 1 コマ当たりの画像の符号量は伝送レー卜で決まってしまう。一般的には、画面全体が均一の解像度になるように符号化を行うが、そのために、相手の顔が不鮮明であったりする弊害がある。通常、人間の感覚では画面全体に注意が行き届くわけではなく、画面中の注目部分に神経が集中する傾向がある。従って、注目部分の画質を向上させれば、他の部分は多少解像度が悪くとも気にならない。

このような観点から、主観的な画質を向上させることを目的として、より重要な情報源である人物の顔領域を他の領域よりも鲜明に表示する符号化方式の検討が行われており、その中にフレーム間差分画像を用いた手法（文献「上野他、

"カラ一動画 T V電話における顔領域検出方式の一検討" ， 1 9 8 9年電子情報通信学会春期全国大会 D - 9 2 J ) 等が提案されている。

このシステムは、テレビカメラで通話者を撮影し、これにより得られた映像信号から、画像上の動きのある部分を検出し、検出した領域から発言者の顔領域を推定し、この推定した顔領域について符号量を多めに割り当て、他の領域には割り当て符号量を少なくする符号化処理を施すことにより、人物の顔領域を他の領域よりも鮮明に表示できるようにしている

このような動画 T V電話における顔領域検出方式を会議システムに応用する場合に、人物以外に動きのあるものが写つてしまったり、あるいは複数の人物が写っていて、それぞれの表情に動きがあるような場合などでは発言者の顔領域の推定が困難になってしまう。このように、複数の人物が写っていたり、人物以外に動きのあるものが写っている場合に、動画像の顔領域を検出する方式で最も重要である発言者の顔領域のみを抽出することができないと云う欠点がある。

そこで、この発明の目的は、映像信号中の発言者の位置を精度良く推定することができて、画面中の発言者の領域を適確に抽出でき、従って、発言者の写っている領域を鮮明に表示することができる動画像符号化装置を提供することにある, 発明の開示

この発明によると、映像信号を符号化して伝送する画像伝送装置において、被写体を撮像し、映像信号を発生するテレビカメラと、このテレビカメラにより撮像される被写体の音声を収音し、音声信号を出力し、互いに離間して配置された複数のマイクロフォンと、これら複数のマイクロフォンから得られた音声信号から音源位置を推定する音源位置推定回路と、この音源位置推定回路により推定された音源位置を中心に所定の範囲の画像領域を高い解像度となるようにこの画像領域に対応する映像信号を、他の画像領域より多めに割り当てた符号量（c o d e d b i t r a t e )で符号化する符号化回路とより構成される動画像符号化装置が提供される。

上記構成の動画像符号化装置によると、テレビカメラが被写体を撮像し、映像信号を出力する。一方、被写体の前に互いに離間して配置された複数のマイクロフォンが音声を収音し、音源位置推定回路は収音した複数チャンネル分の音声信号に基づいて被写体中の音源位置を推定する。符号化回路はテレビカメラから出力される映像信号を符号化するに当たり、推定回路により推定された音源位置を中心に所定の範囲の画像領域が高い解像度となるように他の画像領域よりも多めに割り当てた符号量で当該画像領域の映像信号が符号化される。

この結果、画面の音源位置周辺を重点的に高解像度で符号化することができるので、発言者をより鮮明に映し出されるように映像信号を符号化できる動画像符号化が実現できる。特に、推定された音源位置を中心に所定の範囲の画像領域を画面中の被写体顔領域の範囲に合わせておくことにより、発言者の顔領域が高い解像度となるように映像信号を符号化できる。図面の簡単な説明

図 1 は、本発明の一実施例に係わるテレビ会議システムの画像符号化部の構成例を示すプロック図。

図 2は、本発明の実施例を説明するための図であって、本発明に係わるテレビ会議システムの会議室の構成を示す図。図 3は、図 1 に示す音源位置推定部の構成を示すブロック図。

図 4 Aおよび図 Bは、図 3に示す音源位置推定回路の構成を示す回路図。

図 5は、図 3に示す音源位置推定回路の推定方法を説明するための図。図 6は、図 1に示す画像符号化部の重点符号化領域の決定方法を説明するための図。

図 7は、図 1 に示す画像符号化部のブロック回路図。発明を実施するための最良の態様以下、この発明の一実施例について図面を参照しながら説明する。この発明は、複数チャンネルの音声信号から音源位置を推定し、この推定した音源位置周辺を重点的に画像を符号化することにより、発言者をより鮮明なるように符号化する動画像符号化方式を採用した画像符号化装置を提供する。図 2は、この発明の画像符号化装置を有するテレビ会議システムの会議室の概略構成を示しており、この図では、 1台のテレビカメラが 3名の会議出席者を捉えている。

図 2に示すように、会議出席者 A 1ないし A 3が座っている机 9上には、出席者の音声を取り込むように左右に一定の間隔で 2個のマイクロフォン（感音手段） 1 1 Rおよび 1 1 Lが置かれている。また、机 9の前方には、テレビカメラ 1 2が設けられ、机 9に並んで座っている会議出席者 A 1 ないし A 3の像を捉えて映像信号を発生する。

右用および左用のマイクロフォン 1 1 Rおよび 1 1 Lによって入力された音声信号およびテレビカメラ 1 2によって入力された映像信号は、画像処理系である図 1 に示す画像推定符号化部 1 0に入力され、ここで 1画面当たり所定の符号量に収まるように符号化される。なお、音声信号は図示しない音声信号処理系にも与えられ、ここでディジタル信号に変換され、符号化された映像信号と共に伝送路へと送り出され、相手側に伝送される。

画像処理系である画像推定符号化部 1 0は、テレビカメラ 1 2が捉えた会議出席者 A 1ないし A 3の像のうち、発言者の顔領域の位置を推定してこの推定位置の領域の映像信号を他の領域の映像信号より多めに割り当てた符号量 M ( i ) で符号化し、他の領域をその残りの符号量 M (0) で符号化する。すなわち、 1画面当たりの総符号量 M (total) は決められており、この決められた符号量を推定位置の領域に割り当てる符号量（M ( i ) ) と、その他の領域に割り当てる符号量（M (0) ) とに配分される。即ち、 M (total) = M ( i ) + M ( 0 ) となる。

この画像推定符号化部 1 0は図 1に示すように、音源位置推定部 1 3と音源位置情報記憶部 14と画像符号化部 1 5および画像メモリ 1 6とからなる。画像メモリ 1 6はテレビ力メラ 1 2から得られる映像信号をディジタル変換して得た画像データを、画面単位で一時保持するメモリであり、画像を扱うために複数枚分の画像を記憶する容量を有し、画像データを逐次更新記憶する。音源位置推定部 1 3は音源位置を推定する。即ち、この推定部 1 3は発言者の位置をマイクロフォン 1 1 Rおよび 1 1 Lの音声信号出力から推定すると共に、画像メモリ 1 6に保持された画像データから左右のマイクロフオン 1 1 Lおよび 1 1 R位置から画像上の音源位置、すなわち、発言者領域を推定する。音源位置情報記憶部 14 は音源位置推定部 1 3にて推定された音源位置の情報と、推定を行った時刻の情報とを記憶する。このとき、時刻情報は外部から与えるか、若しくは画像推定符号化部 1 0に時計回路を設けてこれより得るようにする。

画像符号化部 1 5は音源位置情報記憶部 1 4の情報を用いて画像メモリ 1 6に保持された画像データを符号化して出力する。即ち、これは、映像信号のうち、発言者位置を中心とした領域をより鮮明に表示するような符号化を行う。そのために、画像符号化部 1 5は、音源位置情報記憶部 1 4に記憶された発言者位置情報をもとに、その発言者位置の画像上の領域を重点符号化領域として決定し、この重点符号化領域の映像信号に対して符号量 M ( i ) を割り当て、他の領域の映像信号に対して符号量 M ( 0 ) を割り当てて、その割り当てられた範囲内に収まるように、それぞれの領域の映像信号を符号化する。

音源位置推定部 1 3は図 3に示すように、遅延回路 3 1、推定回路 3 2、減算回路 3 3および音源位置推定回路 3 4 とから構成されている。これらのうち、遅延回路 3 1 は左マイクロフオン 1 1 Lで得た左チャンネルの音声入力信号を遅延し、推定回路 3 2 はこの遅延回路 3 1 から出力する遅延左チヤンネルの音声入力信号と右マイクロフォン 1 1 Rで得た右チヤンネル音声信号とから左チヤンネル音声信号を推定する。減算回路 3 3は遅延回路 3 1から出力する遅延左チャンネル音声信号と推定回路 3 2から出力する推定左チヤンネル音声信号を入力とし、左チャンネル音声信号から推定左チヤンネル音声信号を差し引いてその差信号を得る回路である。この差信号が推定回路 3 2にフィードバックされることにより、推定回路 3 2は当該差信号が零になるような推定左チヤンネル音声信号を推定して出力し、それにより、推定回路 3 2は遅延左チヤンネルの音声入力信号を参照して右マイク口フォン 1 1 Rで得た右チャンネル音声信号から左チヤンネル音声信号を推定インパルス応答系列 H ( k ) として推定できることになる。音源位置推定回路 3 4は推定回路 3 2の求めた推定インパルス応答系列 H ( k ) を用いて音源位置を推定する。

上記のような構成において、テレビカメラ 1 2により会議出席者を撮影し、同時に机 9上のマイクロフォン 1 1 Rおよび 1 1 Lにより音声を収音する。テレビカメラ 1 2からの映像信号は画像符号化部 1 5に送られ、マイクロフォン 1 1 R および 1 1 Lからの音声信号は音源位置推定部 1 3に送られる。音源位置推定部 1 3はこの音声信号をもとに、音源の位置を推定し、推定結果は音源位置情報記億部 1 4に記憶される o

画像符号化部 1 5はこの音源位置情報記憶部 1 4に記憶されている最新の音源位置情報を利用してテレビ画像における画面上の音源位置対応領域を特定し、その領域を予め設定した符号量 M ( i ) で、また、その他の領域は符号量 M ( 0 ) で符号化し、伝送する。これにより、テレビ会議に出席している人のうち、発言者が受信側のモニタ（図示せず）に高解像度で表示できる。

発言者の特定についてもう少し具体的に説明する。図 3において、発言者 A 1が発した音声を X (ω ) とすると、この音声 X ( ω ) はマイクロフォン 1 1 Rおよび 1 1 L に収音される。いま、この音声 X ( ω ) を発することにより右側のマイクロフォン 1 1 Rの入力音声信号を Y R ( ω ) および左側のマイクロフォン 1 1 L の入力音声信号を Y L O ( ω ) とすると、これら入力音声信号 Y R ( ω) および Y L O ( ω ) は発生源からマイクロフォンまでの音声の伝播遅延並びに室内の音声特性で決まる伝達関数 F R ( ω ) および G L ( ω ) により以下のように表わされる。ただし、 ω は角周波数である。

Y R ( ω ) = F R ( ω ) X ( ω) … （ 1 )

Y L O ( ω ) = G L ( ω ) X ( ω ) - ( 2 ) さらに、左チャンネル入力音声信号 Y L 0 ( ω ) は、推定回路 3 2における因果律を保証するための遅延回路 3 1によつて C ( ω) なるフラットな遅延を受ける。これによつて左チャンネル入力音声信号 Y L O ( ω) は、遅延回路 3 1 まで含めた伝達関数 F L ( ω ) により以下の Y L ( ω ) のように表わすことができる。

Y L ( ω ) = C ( ω ) G L ( ω ) X ( ω )

= F L ( ω ) X ( ω) - ( 3 ) この左チャンネル入力音声信号 Υ L ( ω ) は、減算回路 3 3 に入力される。推定回路 3 2 は、右チャンネルの音声信号 Y R ( ω ) および左チャンネルの音声信号 Y L ( ω) を用い、右チャンネル音声信号 Y R ( ω ) より左チャンネル音声信号 Y L ( ω ) を得るための伝達関数 G ( ω ) を次式（4 ) に基づき推定し、この伝達関数 G (ω) から推定伝達関数 G ρ (ω) を生成する。

G (ω) = G L (ω) / F R (ω) - (4) 上記伝達関数 G (ω) に対する推定伝達関数 G p (ω) の生成は、具体的には次のようにして行う。

推定回路 32は、まず右チャンネルの音声信号 YR (ω) を用いて時間領域の推定左チャンネル音声信号 y Ρ (ω) を算出する。推定回路 32は、図 4 Αに示すような時間領域の推定左チャンネル音声信号 y p ( k ) を算出する適応トランスバーサルフィルタ 32 aと、図 4 Bに示すような伝達関数 G (ω) の推定インパルス応答系列 H p ( k ) を逐次更新する修正回路 3 2 b とにより構成されている。適応トランスバーサルフィルタ 32 aと修正回路 32 bは図示しないクロック発生源から与えられるシステムクロックに同期して動作する。適応トランスバーサルフィルタ 32 aは、入力音声信号 YR (ω) を順次送って右チャンネル音声信号 X ( k ) ないし X ( k - n + 1 ) を各時間成分毎の値に変換する nタツプのシフトレジスタ 4 ないし 4 1。^ と、修正回路 32 bで修正された各時間成分毎の推定ィンパルス応答 h p 1 ( k ) ないし h p n ( k ) と上記シフトレジスタ 4 11 ないし 4 1 π-1 を経て得られる右チャンネル音声信号 X ( k ) ないし X ( k - n - 1 ) との各成分毎の乗算を行う乗算器 42 j ないし 42 _n と、この乗算結果の総和（∑ ) を求めて推定左チャンネル音声入力信号 y p (k) を得る加算器 43 とより構成されている。すなわち、修正回路 3 2 bは後述する（ 1 0 ) 式の演算を行って推定インパルス応答系列 h p 1 ( k ) ないし h p n ( k ) を求め、それらを時間成分別に分けて適応トランスバーサルフィルタ 3 2 aの対応する乗算器 4 2 i ないし 4 2 _n に与える。乗算器 4 2₁ ないし 4 2 _D は推定ィンパルス応答系列 h p 1 ( k ) ないし h p n ( k ) とシフトレジスタないし l i を経て得られる右チヤンネル音声信号 X ( k ) ないし X ( k - n + 1 ) とを各成分毎に乗算し、時間成分別の推定左チヤンネル音声信号を得る。これら時間成分別推定左チヤンネル音声信号を加算器 4 3が加算することによって推定左チャンネル音声信号 y p ( k ) を求める。

このような推定回路 3 2において、まず右チャンネル音声信号 X ( k ) は一段当たり 1サンプル時間分の遅延時間を有する n段のシフトレジスタ 4 ないし 4 1 _n に入力され. 次式（ 5 ) に示すような時系列べクトルが生成される。

X ( k ) = ( X ( k ) , x ( k - 1 ) ,

···, χ ( k - η + 1 )) ^Τ … （ 5 ) 但し、（） ^Τ は転置べクトルを示す。

—方、推定伝達関数 G p (ω) に時間領域において近似した推定ィンパルス応答系列 H p ( k ) を次式（ 6 ) により表すと、

H p ( k ) = ( h p l ( k ) , h p 2 ( k ) ,

···, h p n ( k)) ¹ … （ 6 ) 次式（ 7 ) により左チャンネル音声信号 y ( k ) の推定値である推定左チャンネル音声信号 y p ( k ) を得ることができる

y p ( k ) = H p ( k ) ^T . X ( k ) - ( 7 ) このとき、伝達関数 G (ω) のインパルス応答系列 Ηが次式 ( 8) により表されると（但し、 ηは任意の整数）、伝達関数の推定が良好に行われることになる。

H = ( h i , h 2 , h n ) ¹ - ( 8) 従って、推定インパルス応答系列 H p ( k ) が

H p ( k ) = H ··· ( 9 ) となったときに、推定左チヤンネル音声信号 y p ( k ) が実際の左チャンネル音声信号 y ( k ) にかなり近似する。

従って、（ 9 ) 式の関係が得られる伝達関数 G (ω) になるような推定伝達関数 G p (ω) を探せば良いわけであり、それには推定伝達関数 G p (ω) が伝達関数 G (ω) になるような推定インパルス応答系列 H p ( k ) を推定できれば良いことになる。

ここで、推定回路 3 2における推定ィンパルス応答系列 H p ( k ) の推定は、適応トランスバーサルフィルタ 3 2 a において、 n段のシフトレジスタ 4 ないし 4 1 „ _{ の入出力として得られる時系列べクトル X ( k ) ないし X ( k - n + 1 ) を用いて、修正回路 3 2 bにより逐次的に例えば、以下の演算を行うことにより達成される。

H p ( k + 1 ) = H p ( k ) + a * e ( k ) · X ( k ) / II X (k) II ²

ただし、 H p ( 0 ) = 0

このアルゴリズムは、公知の学習同定法である。なお、 ( 1 0 ) 式において、 e ( k ) は、図 3の減算回路 3 3の出力であり、この出力 e ( k ) は推定左チャンネル音声信号を y p ( k ) とすると、つぎの（ 1 1 ) 式の関係を有している e ( k ) = y ( k ) - y p ( k ) - ( 1 1 ) 従って、減算回路 3 3の出力 e ( k ) は左チャンネル音声信号 y (k ) に対する推定左チャンネル音声信号 y p (k ) との差信号と云うことになる。また、（ 1 0 ) 式において、 αは（ 1 0 ) 式の収束速度および安定性を決定する係数となり、音源 5 1から左右のマイクロフオン 1 1 Lおよび 1 1 R 位置までの距離差を表す。

従って、画像推定符号化部 1 0では、画像メモリ 1 6に保持された画像データから左右のマイクロフォン 1 1 Lおよび 1 1 R位置を調べ、距離差 αを求め、これと減算回路 3 3の出力 e ( k ) を利用して修正回路 3 2 bは（ 1 0 ) 式の演算を行うことにより、推定インパルス応答系列 H p ( k ) の推定を行うことができる。

以上の処理により求められた推定ィンパルス応答系列 H p ( k ) から、音源位置推定回路 34により音源位置が推定される。この推定はつぎのようにして行う。

推定インパルス応答系列 H p (k ) の係数のうち、最大値をとる項を Mx とする。このとき、サンプリング周期を T (sec)、音速を V (m/sec)、タップ数を n とすると、音源から左右のマイクロフオン 1 1 Lおよび 1 1 R位置までの距離差 αは次式（ 1 2 ) により推定できる。

α = ν · Τ (Μχ - Ν/ 2 ) - ( 1 2 ) ここで、図 5に示すように、左右のマイクロフォン 1 1 および 1 1 Rを直線 5 2で結び、この直線 52に平行な直線 5 3を想定し、音源 5 1の位置が左右のマイクロフォン 1 1 Lおよび 1 1 Rから一定距離離れた直線 53上に存在すると仮定する。このとき、直線 52における左右のマイクロフォン 1 1 Lおよび 1 1 Rの中心点位置 P oを通り、直線 52に垂直な線 54と直線 53との交点から音源 5 1までの距離を a、右マイクロフォン 1 1 Rから音源 5 1までの直線距離を b、音源 5 1を通る直線 53とマイクロフォン 1 1 L および 1 1 Rを通る直線 52との間の垂線の長さを c , マイクロフオン 1 1 Lおよび 1 1 R間の距離を 2 dとすると、次の連立方程式が成り立つ。

( b + a ) 2 = ( d + a ) 2 + c 2

b 2 = ( d - a ) 2 + c 2 - ( 1 3) この連立方程式から bを消去して aを解くことにより、音源位置 P aを推定することができる。

上記のように推定された音源位置 P aのデータが音源位置情報記憶部 14を介して画像符号化部 1 5に入力されると、音源位置を中心とする画像領域が重点符号化領域としてこの領域に対応する画像データが他の領域の画像データよりも多い符号化量で符号化される。この符号化について詳しく説明する。

画像メモリ 1 6には、図 6に示されるように 1フレームの画像データが、例えば、 1ブロックを 8画素 X 8ラインとして 44 x 36ブロックに分けて記憶されている。この画像メモリ 1 6に記憶された画像データはブロック単位で順次に画像符号化部 1 5に送られる。画像符号化部 1 5は、図 7に示されるように画像メモリ 1 6の読み出し端子に接続される直交変換（D C T) 回路 7 1 と、 D C T回路 7 1の出力端子に接続される量子化回路 72と、量子化回路 72の出力端子に接続される可変長符号化回路 73と、量子化回路 7 2の制御端子に接続される量子化ステツプサイズ決定回路 74とにより構成される。この画像符号化部 1 5には、更にマーカ認識回路 7 5および重点符号化領域決定回路 76が含まれている。マーカ認識回路 75は画像メモリ 1 6から読み出された画像データから左右マイクロフォン 1 1 Lおよび 1 1 Rの位置に対応付けて設けられた 2つのマーカ 6 1 aおよび 6 1 bを認識し、画面上でのマイクロフオン 1 1 Lと 1 1 Rとの間の距離 2 d' を求める。なお、マーカはマイクロフォンを会議室に配置したときにオペレータによって装置に入力される。

求められた距離 2 d ' の情報が重点符号化領域決定回路 7 6に入力されることにより、この回路 7 6はこの距離 (2 d' ) 情報と音源位置情報記憶部 14から読み出される音源位置情報とから距離 2 d* の中心から発言者の位置 62 までの距離 a' を次式 14により求める。

a ' = a · d ' / d - ( 14) 更に、重点符号化領域決定回路 76は発言者位置 62を中心として予め設定した幅 2 w ' の領域 63を重点符号化領域と決定する。この重点符号化領域に関する情報がステツプサイズ決定回路 74に入力されると、このステップサイズ決定回路 7 4 は重点符号化領域の画像データを、他の領域の画像データよりも多くの符号量で符号化するためのステップサイズを決定する。決定されたステツプサイズの情報が量子化回路 7 2に入力されると、量子化回路 7 2は画像メモリ 1 6力、ら読み出され、 D C T回路 7 1 により直交変換された画像データを決定されたステップサイズで、即ち符号量で量子化する。この場合、重点符号化領域 6 3に対応する画像データが量子化回路 7 2に入力されたときに決定されたステップサィズで量子化されるが、他の領域の画像データは領域 6 3の画像データに対するステップサイズよりも荒いステップサイズで量子化される。量子化された画像データは可変長符号化回路 7 3により可変長符号化され、符号化画像データとして出力される。

上記のように符号化された画像データが受信側に送られ、受信モニタに表示されると、発言者の画像が他の画像よりも高解像度で表示される。

上記実施例においては、音源位置情報記憶部 1 4には音源情報だけ記憶されるとして説明したが次のように時間情報をも te.しても良い。

即ち、音源位置推定部 1 3は音源位置推定回路 3 4において、推定インパルス応答系列 H p ( k ) の係数のうち、最大値をとる項をもとに音源位置 P aを推定するが、この音源位置推定部 1 3にて推定された音源位置 P aの情報と、推定を行った時刻を、図示しない制御装置の制御のもとに音源位置情報記憶部 1 4に記憶する。このとき、現在より t時刻だけ過去の音源位置 P a ( t ) 力最新の音源位置 P aから左右にそれぞれ一定の幅 w以内にある場合には過去の音源位置 P a ( t ) の記憶情報を音源位置情報記憶部 14から消去するように、制御装置によって記憶部 14が制御される。これによって、音源位置情報記憶部 14には現在の発言者の発言位置と、過去に発言した者（N人）の最後の発言位置の情報が以下のように記憶される。

T ( 1 ) , L ( 1 )

T ( 2 ) ， L ( 2 )

T (N) , L (N)

ただし、

T ( 1 ) く T ( 2 ) < … < T (N) - ( 1 5) ここで、 T ( i ) は発言者 iが最後に発言してから経過した時間、 L ( i ) は発言者 iが最後に発言した位置を示すデータである。また、 T ( 1 ) は現在の発言者の音声サンプリングにより上記演算処理した時点での時間、 L ( 1 ) は現在の発言者の発言した位置を示すデータである。

画像符号化部 1 5では、音源位置情報記憶部 14に記憶された最新の発言者の位置 L ( 1 ) の情報をもとに、上述したように画像の符号化を行う。

いま、画面全体の符号量を M、画面全体の幅を WL とし、発言者 iの重点符号化領域の重要度を R ( i ) 、重点符号化領域以外の領域の重要度を R (0) とする。このとき、重要度 R ( i ) および R ( 0 ) は自由に設定できるが、より最近に発言した人に高い重要度を与えるとすると、

R ( 1 ) > R ( 2 ) > … > R (N) > R ( 0 )

… ( 1 6) となるように設定できる。

このとき、最新の発言者の重点符号化領域（最新の発言者の画像領域）の符号量 M ( i ) 、この重点符号化領域以外の領域の符号量 M ( 0 ) は、

M ( i ) = M · w ' · R ( i ) / R T

Μ ( 0 ) = Μ · (WL - Ν ♦ w ' ) R (0) /R Τ となるように割り当てる。ただし、 R Τは

R Τ = w ' (R (1) + R (2) +… + R (N) )

+ (WL - N · w ' ) R (0) - ( 1 7) 従って、このように発言者 iの重点符号化領域に多めの符号量 M ( i ) を割り当て、他の領域に残りの符号量 M (0) を割り当ててその割り当て範囲内で符号化を行うことにより、発言者位置を中心とした領域をより鮮明に表示するような符号化を行うことができるようになるため、画面当たりの総符号量は従来と変わりないが、画面全体の主観的な画質の向上を計ることができるようになる。

以上のように、異なる位置に配置した複数のマイクロフォンでそれぞれ収音した複数チャンネルの音声信号と、マイク口フォンおよび発言者を含めた映像画面上のマイク口フォン位置とから音源位置を推定するようにしたことにより、映像画面上の発言者の画像領域を適確に抽出できるようになり、発言者の画像領域について符号量を多めに割り当てて符号化するようにしたことにより、発言者の像領域について鮮明に表示することが可能な動画像符号化方式が得られる。

なお、この発明は、上述した実施例に限定されるものではなく、その要旨を変更しない範囲内で適宜変形して実施し得例えば、上述した実施例における音源位置推定部 1 3の推定回路 3 2では、時間領域の適応トランスバーサルフィルタを用いているが、周波数領域の適応トランスバーサルフィル夕などの他の回路構成であっても良い。また、推定アルゴリズムとして学習同定法を例にして説明したが、最急降下法などの他の学習アルゴリズムを用いることもできる。

さらに、音源位置推定回路 3 4において、推定インパルス応答系列 H p ( k ) の係数のうち、最大値をとる項をもとに音源位置を推定したが、他の方法を用いても良い。

また、画像符号化部 1 5の重点符号化領域の決定方法も、上述した方法に限らず、重点符号化領域 6 3において顔領域検出を行うなどの他の方法であっても良い。また、画像符号化部 1 5における重要度の設定方法についても、現在までに発言した時間に応じて重要度を設定する方法、最後に発言してからの時間と現在までに発言した時間との両方を加味して重要度を設定する方法などの他の手法であっても構わない。

また、テレビ会議システムでは、被写体はほぼ定位置固定であり、テレビ画面は被写体に対して同一視野角を維持するために、画面上の被写体は被写体自身が移動しない限り、位置に変化はないから、画像符号化部 1 5における重要度の設定ゃ重点符号化領域の設定を外部から行うことにより、例えば V I Pは常に高精細に符号化を行うようにすることもできる。更には、画面と被写体との関係が変わらないことから、発言者の画像領域ではなく、発言者の顔部分の領域を特定することは容易であるから、この特定した顔領域について解像度を高めるように符号量を割り当てる構成とすることもできる o

さらに、画像符号化部 1 5の符号化方式についても、上述の実施例において、各フレーム毎に重点符号化領域 6 3に多くの符号量を与えて精細に符号化を行う手法について述べたが、重点符号化領域 6 3以外の部分をコマ落としの状態にすることによつて重点符号化領域 6 3に多くの符号量を与えて精細に符号化を行っても良い。また、発言者の履歴に対応して最新の発言者ほど高解像度にし、発言の古い者ほど低解像度にする等の、発言順位等に対応させた重み付けにより解像度を変えるなどしても良い。

なお、上述した実施例では、音声入力を 2チャンネルとしたが、 3チャンネル以上あっても良い。この場合、マイクロフォンの配置に上下方向の高低差を与えることにより、音源位置の 2次元の推定が可能となり、この場合には音源として画面上の一点を推定することができるようになり、より高精度の音源位置推定が可能となる。産業上の利用可能性

上述した発明によれば、複数チヤンネルの音声信号から音源位置を推定し、音源位置周辺を重点的に符号化することにより、発言者をより鮮明なるように符号化する動画像符号化方式を提供できる。

Claims

請求の範囲

1 . 音声を発する少なくとも 1つの被写体を撮像して映像信号を出力する撮像手段と、

互いに離間して配置配され、前記撮像手段により撮像される被写体の音声を収音して音声信号を出力する複数の感音手段と、

前記複数の感音手段から出力される音声信号から音源位置を推定する推定手段と、

前記推定手段より推定された音源位置を中心に所定の範囲の画像領域に対応する映像信号を、他の画像領域に対応する映像信号よりも多く符号量を割当て符号化する符号化手段と、

により構成される動画像符号化装置。

2 . 前記感音手段は、複数の被写体に対して左右に配置され、左右チャンネルの音声信号を発生する左右マイクロフオンにより構成され、前記推定手段は、前記左マイクロフォンから出力される左チャンネル音声信号を遅延する遅延回路と、前記遅延回路から出力する遅延左チヤンネル音声信号と前記右マイクロフォンから出力される右チヤンネル音声信号とから左チャンネル音声信号を推定する推定回路と、前記遅延回路から出力する遅延左チヤンネル音声信号と前記推定回路から出力する推定左チヤンネル音声信号との差信号を得る減算回路と、前記推定回路が前記差信号をフィ一ドバックにより受けたとき前記差信号が零になるような推定左チャンネル音声信号を推定し、前記推定回路から出力される推定ィンパルス応答系列を用いて音源位置を推定する音源位置推定回路とにより構成される請求項 1記載の動画像符号化装置。

3 . 前記推定回路は、時間領域の推定左チャンネル音声信号を算出する適応トランスバーサルフィルタと、推定ィンパルス応答系列を逐次更新する修正回路とにより構成される請求項 2記載の動画像符号化装置。

4 . 前記適応トランスバーサルフィルタは、右チヤンネル音声信号を順次送って右チヤンネル音声信号を各時間成分毎の値に変換する nタップのシフトレジスタと、前記修正回路により修正された各時間成分毎の推定ィンパルス応答と前記シフトレジスタを経て得られる右チャンネル音声信号との各成分毎の乗算を行う乗算器と、乗算結果の総和を求めて推定左チャンネル音声入力信号を得る加算器とより構成される請求項 3記載の動画像符号化装置。

5 . 前記修正回路は、推定インパルス応答系列を求め、それらを時間成分別に分けて前記適応トランスバーサルフィルタの対応する乗算器に与える回路手段を有し、前記適応トランスバーサルフィルタの前記乗算器は推定ィンパルス応答系列と前記シフトレジスタを経て得られる右チヤンネル音声信号とを各成分毎に乗算し、時間成分別の推定左チヤンネル音声信号を出力し、これら時間成分別推定左チヤンネル音声信号を前記加算器が加算することによって推定左チャンネル音声信号を求める請求項 4記載の動画像符号化装置。

6 . 音声を発する少なくとも 1つの被写体を撮像して映像信号を出力する撮像手段と、

互いに離間して配置され、前記撮像手段により撮像される被写体の音声を収音して音声信号を出力する複数の感音手段と、

前記複数の感音手段から得られた音声信号から音源位置を推定する推定手段と、

前記推定手段により推定された現在及び過去の音源位置情報の履歴を記憶する音源位置記憶手段と、

前記音源位置記憶手段に記憶された音源位置情報及び過去の音源位置情報の履歴を利用して位置に応じた符号量で映像信号を符号化する符号化手段と、

により構成される動画像符号化装置。

7 . 前記画像符号化手段は、前記音源位置記億手段に記憶された少なくとも 1つの音源位置とその近傍を高画質領域として各々の画質レベルを設定し、他の領域より前記画質レベルに応じて高画質になるように符号量を割り当てて映像信号を符号化する請求項 6記載の動画像符号化装置。

8 . 前記画像符号化手段は、外部より高画質領域と画質レべルを設定し、他の領域より高画質になるように符号量を割り当てて映像信号を符号化する機能を有する請求項 6記載の動画像符号化装置。

9 . 前記音源位置推定手段は、前記複数チャンネルの音声信号の遅延差と位相差、レベル差の少なぐ iも一方を利用して検出する請求項 6記載の動画像符号化装置。

1 0 . 前記画像符号化手段は、音源位置の出現頻度に応じて画質レベルを設定する請求項 8記載の動画像符号化装置。

1 1 . 前記感音手段は、複数の被写体に対して左右に配置され、左右チャンネルの音声信号を発生する左右マイクロフォンにより構成され、前記推定手段は、前記左マイクロフォンから出力される左チヤンネル音声信号を遅延する遅延回路と、前記遅延回路から出力する遅延左チヤンネル音声信号と前記右マイクロフォンから出力される右チヤンネル音声信号とから左チャンネル音声信号を推定する推定回路と、前記遅延回路から出力する遅延左チヤンネル音声信号と前記推定回路から出力する推定左チヤンネル音声信号との差信号を得る減算回路と、前記推定回路が前記差信号をフィ一ドバックにより受けたとき前記差信号が零になるような推定左チヤンネル音声信号を推定し、前記推定回路から出力される推定ィンパルス応答系列を用いて音源位置を推定する音源位置推定回路とにより構成される請求項 6記載の動画像符号化装置。

1 2 . 前記推定回路は、時間領域の推定左チヤンネル音声信号を算出する適応トランスバーサルフィルタと、推定インパルス応答系列を逐次更新する修正回路とにより構成される請求項 1 1記載の動画像符号化装置。

1 3 . 前記適応トランスバーサルフィルタは、右チャンネル音声信号を順次送って右チヤンネル音声信号を各時間成分毎の値に変換する n タツプのシフトレジスタと、前記修正回路により修正された各時間成分毎の推定ィンパルス応答と前記シフトレジスタを経て得られる右チヤンネル音声信号との各成分毎の乗算を行う乗算器と、乗算結果の総和を求めて推定左チヤンネル音声入力信号を得る加算器とより構成される請求項 1 2記載の動画像符号化装置。

1 4 . 前記修正回路は、推定インパルス応答系列を求め、それらを時間成分別に分けて前記適応トランスバーサルフィル夕の対応する乗算器に与える回路手段を有し、前記適応トランスバーサルフィルタの前記乗算器は推定ィンパルス応答系列と前記シフトレジスタを経て得られる右チヤンネル音声信号とを各成分毎に乗算し、時間成分別の推定左チャンネル音声信号を出力し、これら時間成分別推定左チヤンネル音声信号を前記加算器が加算することによつて推定左チヤンネル音声信号を求める請求項 1 3記載の動画像符号化装置。

補正された請求の範囲

[1994年 1月 6日（06.01.94)国際事務局受理； {¾"願当初の請求の範囲 1、 2および 6は補正された;他の請求の範囲は変更なし。は頁) I

1 . (補正後）音声を発する少なくとも 1 つの被写体を撮像して映像信号を出力する撮像手段と、

複数の被写体に対して左右に配置される左右マイクロフオンにより構成され、前記撮像手段により撮像される被写体の音声を収音して、左右チャンネルの音声信号を出力する左右チャンネル感音手段と、

前記左マイクロフオンから出力される左チャンネル音声信号を遅延する遅延回路と、前記遅延回路から出力する遅延左チャンネル音声信号と前記右マイクロフオンから出力される右チャンネル音声信号とから左チャンネル音声信号を推定する推定回路とを含み、前記左右チャンネル感音手段から出力される左右チャンネル音声信号から音源位置を推定する推定手段と、

前記推定手段よリ推定された音源位置を中心に所定の範囲の画像領域に対応する映像信号を、他の画像領域に対応する映像信号よりも多く符号量を割当てて符号化する符号化手段と、

により構成される動画像符号化装鼠

2. (補正後）前記推定手段は、前記遅延回路から出力する遅延左チャンネル音声信号と前記推定回路から出力する推定左チャンネル音声信号との差信号を得る減算回路と、前記推定回路が前記差信号をフィードバックにより受けたとき前記差信号が零になるような推定左チャンネル音声信号を推定し、前記推定回路から出力される推定ィンパルス応答系列を用いて音源位置を推定する音源位置推定回路とによリ構成される請求項 1 記載の動画像符号化装亂

3. 前記推定回路は、時間領域の推定左チャンネル音声信号を算出する適応トランスバ一サルフィルタと、推定インパルス応答系列を逐次更新する修正回路とにより構成される請求項 2 記載の動画像符号化装氤

4. 前記適応トランスバーサルフィルタは、右チャンネル音声信号を順次送って右チヤンネル音声信号を各時間成分毎の値に変換する n タップのシフトレジスタと、前記修正回路により修正された各時間成分毎の推定ィンパルス応答と前記シフトレジスタを経て得られる右チャンネル音声信号との各成分毎の乗算を行う乗算器と、乗算結果の総和を求めて推定左チャンネル音声入力信号を得る加算器とより構成される請求項 3 記載の動画像符号化装 ft

5. 前記修正回路は、推定インパルス応答系列を求め、それらを時間成分別に分けて前記適応トランスバーサルフィルタの対応する乗算器に与える回路手段を有し、前記適応トランスバーサルフィルタの前記乗算器は推定ィンパルス応答系列と前記シフトレジスタを経て得られる右チャンネル音声信号とを各成分毎に乗算し、時間成分別の推定左チャンネル音声信号を出力し、これら時間成分別推定左チャンネル音声信号を前記加算器が加算することによって推定左チャンネル音声信号を求める請求項 4 記載の動画像符号化装氍

6 . (補正後）音声を発する少なくとも 1 つの被写体を撮像して映像信号を出力する撮像手段と、

前記音源位置記憶手段に記憶された現在の音源位置情報及び過去の音源位置情報の履歴を利用して位置に応じた符号量で映像信号を符号化する符号化手段と、

によリ構成される動画像符号化装 ¾

7. 前記画像符号化手段は、前記音源位置記憶手段に記憶された少なくとも 1 つの音源位置とその近傍を高画質領域として各々の画質レベルを設定し、他の領域より前記画質レベルに応じて髙画質になるように符号量を割り当てて映像信号を符号化する請求項 6 記載の動画像符号化装 ¾

8. 前記画像符号化手段は、外部より髙画質領域と画質レべルを設定し、他の領域より高画質になるように符号量を割り当てて映像信号を符号化する機能を有する請求項 6 記載の動画像符号化装 a

9 . 前記音源位置推定手段は、前記複数チャンネルの音声信号の遅延差と位相差、レベル差の少なくとも一方を利用して検出する請求項 6 記載の動画像符号化装齓

1 0. 前記画像符号化手段は、音源位置の出現頻度に応じて画質レベルを設定する請求項 8 記載の動画像符号化装氍

1 1 . 前記感音手段は、複数の被写体に対して左右に配置され、左右チャンネルの音声信号を発生する左右マイクロフォンにより構成され、前記推定手段は、前記左マイクロフォンから出力される左チヤンネル音声信号を遅延する遅延回路と、前記遅延回路から出力する遅延左チヤンネル音声信号と前記右マイクロフオンから出力される右チャンネル音声信号とから左チャンネル音声信号を推定する推定回路と、前記遅延回路から出力する遅延左チャンネル音声信号と前記推定回路から出力する推定左チヤンネル音声信号との差信号を得る減算回路と、前記推定回路が前記差信号をフィードバックにより受けたとき前記差信号が零になるような推定左チャンネル音声信号を推定し、前記推定回路から出力される推定ィンパルス応答系列を用いて音源位置を推定する音源位置推定回路とによリ構成される請求項 6 記載の動画像符号化装鼠

1 2. 前記推定回路は、時間領域の推定左チャンネル音声信号を算出する適応トランスバーサルフィルタと、推定インパルス応答系列を逐次更新する修正回路とにより構成される請求項 1 1 記載の動画像符号化装氍

1 3. 前記適応トランスバーサルフィルタは、右チャンネル音声信号を順次送って右チャンネル音声信号を各時間成分毎の値に変換する n タップのシフトレジスタと、前記修正回路により修正された各時間成分毎の推定ィンパルス応答と前記シフトレジスタを経て得られる右チャンネル音声信号との各成分毎の乗算を行う乗算器と、乗算結果の総和を求めて推定左チヤンネル音声入力信号を得る加算器とよリ構成される請求項 1 2 記載の動画像符号化装齓

1 4. 前記修正回路は、推定インパルス応答系列を求め、それらを時間成分別に分けて前記適応トランスバーサルフィルタの対応する乗算器に与える回路手段を有し、前記適応トランスバーサルフィルタの前記乗算器は推定ィンパルス応答系列と前記シフトレジスタを経て得られる右チャンネル音声信号とを各成分毎に乗算し、時間成分別の推定左チャンネル音声信号を出力し、これら時間成分別推定左チャンネル音声信号を前記加算器が加算することによって推定左チャンネル音声信号を求める請求項 1 3 記載の動画像符号化装氬