JPS62120179A

JPS62120179A - 画像合成装置

Info

Publication number: JPS62120179A
Application number: JP61271687A
Authority: JP
Inventors: ウィリアム・ジョン・ウェルシュ; ブライアン・アラン・フェン; ポール・チャレナー
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1985-11-14
Filing date: 1986-11-14
Publication date: 1987-06-01
Anticipated expiration: 2012-03-12
Also published as: DE3683609D1; ES2029230T3; GB8528143D0; HK128696A; EP0225729B1; US4841575A; JP2589478B2; JPH08237655A; EP0225729A1; JP2753599B2; GR3004011T3; CA1263187A; ATE72083T1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は動画の伝送および合成に利用する。特に、人間
の顔の画像の符号化および表示に間する。

〔概　要〕

本発明は、人間の顔の画像を処理する装置において、動きのある口の部分を他の部分と別に処理し、実質的に
動きのない顔の画像に口の画像を重ね合わせることによ
り、伝送時のデータ量を削減し７、画像合成を簡単化するも
のである。

〔従来の技術〕

動画を伝送するためには、データ量が多いため高速の伝
送速度が必要となる。このため、一般の電話回線を利用
して動画を伝送することはできなかった。

ｃ問題点を解決するための手段〕電話回線を利用する画像伝送では、実質的に顔の部分だ
けを伝送する応用が多い。本発明は、これを利用して、
顔のなかの動きの多い口の部分に着目して顔の動画を伝
送する装置を提供することを目的とする。

さらに、本発明は、簡単な構成で話者の顔を合成する画
像合成装置を提供することを目的とする。

〔問題点を解決するための手段〕

本発明の第一の発明は画像伝送装置であり、映像入力信
号を符号化して出力する送信機と、この送信機からの信
号を受信して画像を再生する受信機とを備えた画像伝送
装置において、上記送信機は、上記映像入力信号の顔の
部分の１フレームの画像を上記受信機に送信するフレー
ム送信手段と、上記映像入力信号の各フレームから口を
表すデータを識別する識別手段と、動作開始時に、この
識別手段が識別した口を表すデータから異なる形状を表
すデータを選択して記憶する送信側記憶手段と、この送
信側記憶手段の記憶内容を上記受信機に通知する通知手
段と、画像伝送時に、各フレームの口を表すデータと上
記記憶手段に記憶されているデータとを比較し、最も似
ているものに対応する符号を上記受信機に送信する符号
送信手段とを含むことを特徴とする。この送信機の構成
に対応して、受信機は、上記フレーム送信手段からの１
フレームの画像を記憶するフレームメモリと、上記通知
手段からの口を表すデータを記憶する受信側記憶手段と
、送信手段からの符号に基づいて上記受信側記憶手段の
記憶内容を読み出す読出手段と、この読出手段が読み出
した口を表すデータを上記フレームメモリのデータに重
ね合わせる重ね合わせ手段とを含む。

識別手段は、映像入力信号の最初のフレームから口を表
すデータを抽出し、以降の連続する各フレームについて
上記抽出手段が抽出したデータとの相関を演算してその
フレームの口の領域を識別する。

記憶手段は、各フレームの口を表すデータをすでに蓄え
ているデータと比較しこの比較の結果が所定のしきい値
を越えたときにはそのデータを記憶する。

比較手段は、個々の画素値を減算し、この減算手段によ
り得られた差の絶対値を加算して出力信号とする。

送信機はさらに、映像入力信号中の顔の位置を追跡する
追跡手段と、顔の位置を表す符号データを出力する手段
とを含むことが望ましい。

送信側記憶手段が、画像伝送中にも各フレームの口を表
すデータをすでに蓄えているデータと比較して内容を更
新し、通知手段が、画像伝送中にも、送信側記憶手段が
更新される毎にその内容を受信機に通知する構成とする
こともできる。

送信機はさらに、映像入力信号の各フレームから目を表
すデータを識別する目識別手段を含み、この目識別手段
は、動作開始時に、この目識別手段が識別した目を表す
データから一連の目を表すデータを選択して記憶する目
データ記憶手段と、この目データ記憶手段の記憶内容を
受信機に通知する目データ通知手段と、画像伝送時に、
各フレームの目データと上記目データ記憶手段に記憶さ
れているデータとを比較し、最も似ているものに対応す
る符号を上記受信機に送信する目データ送信手段とを含
むことが望ましい。

重ね合わせ手段は、読出手段の出力をフレームメモリに
書き込む構成、または読出手段の出力をフレームメモリ
の出力に重ね合わせる構成であることが望ましい。

受信機は、入力データに応答して画像の顔の領域を動か
ず運動手段を含むことが望ましい。この運動手段は、画
像の顔の領域をランダムに動かす構成であることが望ま
しい。

本発明の第二の発明は音声信号の合成と共に画像を合成
する画像合成装置であり、顔の画像を蓄える顔記憶手段
と、この顔の画像の［Ｊの領域に挿入する異なる口の形
状のデータを蓄える口記憶手段と、入力情報に応答して
発話すべき音声を決定する音声合成手段と、この入力情
報に対応して上記日記１手段の読出し番地を設定する番
地設定手段と、上記顔記憶手段から読み出した顔の画像
と上記口記憶手段から読み出した自画像とを重ね合わせ
る手段とを含むことを特徴とする。

音声合成手段は、入力情報を処理して音声信号内に口の
形状の変化を示すフラグ符号を挿入する手段を含み、番
地設定手段および重ね合わせる手段は、フラグ符号に同
期して自画像を変更する構成であることが望ましい。

本発明の第三の発明は入力音声に対応して画像を合成す
る画像合成装置であり、顔の画像を蓄える顔記憶手段と
、この顔の画像の口の領域に挿入する異なる口の形状の
データを蓄える口記憶手段と、入力音声信号の周波数を
分析する分析手段と、この分析手段の出力したスペクト
ルパラメータのシーケンスに対応して上記口記憶手段の
読出し番地を設定する番地設定手段と、上記顔記憶手段
から読み出した顔の画像と上記口記憶手段から読み出し
た自画像とを重ね合わせる手段とを含むことを特徴とす
る。

〔作　用〕

本発明の画像伝送装置は、顔および口の画像を伝送する
のではなく、最初に顔の画像を伝送し、さらに一連の口
の形状を伝送しておき、それ以降は口の形状を識別する
ための符号を伝送する。受信機では、最初に送られた顔
の画像を操り返し表示し、その口の領域に、送信機から
送られた少ないビット数の符号でメモリの番地を指定し
、ここから読み出した口の画像を顔の画像に重ね合わせ
る。

顔および口の画像をあらかじめ受信機に記憶させておく
ことにより、この受信機を画像合成装置に利用すること
もできる。

〔実施例〕

第１図は本発明実施例画像伝送装置のブロック構成図を
示す。

送信機１は、撮像装置等の映像信号源から話者の顔の映
像信号を受は取り、音声とともに伝送路２を介して受信
機３に送出する。受信機３は、受信した話者の顔の画像
をＣＲＴ表示装置等の画像表示装置に表示する。

この実施例を修正して、伝送路２をビデオ・テープレコ
ーダまたは半導体メモリ等に置き換えることにより、画
像を記憶することもできる。

第２図は話者の顔・を示し、第３図は話者の口の形状の
例を示す。

送信機ｌは動きのある話者の顔５を受信６３に送信する
。通常の発話では、破線で囲まれた領域、すなわち口の
領域６に比べて、顔の大部分の動きは少ない。したがっ
て、顔５に関する一つの画像と口の形状の変化とを送信
することにより、送信情報量を削減することができる。

さらに、現実的には、発話中の口の形状の変化を比較的
少ない典量的な形状で表現することができる。したがっ
て、口の形状の符号表を発生して受信機３に送信してお
けば、口の形状に関して送信すべき情報は、その口の形
状を識別するための符号語シーケンスだけでよい。

この装置は知識ベース装置と呼ばれる装置の一種であり
、受信機３では、「学習」の後に話者の顔５と口の形状
との組み合わせを「知る」ことができる。受信機３は、
「学習」段階で、顔の画像をフレームメモリに記憶し、
一連の口の形状の組を「口」メそりに記憶する。フレー
ムメモリを連続的に読み出すことにより出力映像信号が
得られる。送信機１からの信号伝送段階では、受信した
符号語に対応する口画像を１口」メモリから読み出し、
これを画像メモリの所定の領域に重ね書きする。

必然的に送信機１の動作は複雑になり、学習段階に、（１）最初のフレームを蓄え、適当な符号化（例えば一
般的な冗長性リダクション技術を用いた符号化）を行っ
て受信機３に送信し、（２）蓄えた画像を分析して、（
ａ＋　　話者の頭（頭が移動しても将来のフレームにお
ける頭を追跡するため）、および（ｂｌ　　口、すなわ
ち第２図の領域６で定義した部分を識別し、領域６の座
標（および大きさが固定されていない場合にはその大き
さ）を受信機３に送信し、（３）連続するフレームを分
析して口を追跡することにより領域６の現在位置を設定
し、最初の画像およびすべての以前に選択された画像と
比較して、選択された一連の口画像の組を構築し、この
口画像の組を送信機１に記憶するとともに受信機３に送
信するトレーニングシーケンスを必要とする。

伝送段階には、（４）　　連続するフレームを（上述の（３）のように
）分析して領域６の位置を識別し、（５）現在のフレームの領域６の内容を記憶している一
連の口画像と比較し、最も近いものを識別してこれに対
応する符号語を送信する必要がある。

フレーム速度を２５〔フレーム７秒〕と仮定し、「符号
表」に２４種の口の形状（５ビット符号）を登録すると
仮定すると、伝送段階で必要なデータ速度は１２５〔ビ
ット／秒〕である。

この実施例装置により得られる受信画像は、一般的には
満足できるものであったが、（ａ）　　頭が固定されて表示され、（ｂ）　　目が変化しない（特に、話者がまばたきをし
ない）ために少し不自然さが残った。頭の位置が固定されるこ
とについては、受信機３においてランダムな頭の動きを
導入することにより、または送信機１で頭の位置を追跡
して適当な成分を受信機３に送信することより軽減でき
る。目についても口と同様の原理を用いて送信すること
ができ、この場合には「符号表」がはるかに小さくてす
む。顎および顔の輪郭についても同様である。

以上の実施例における送信機１の処理について説明する
。以下では、映像信号源からの映像信号が解像度１２８
　Ｘ１２８画素のモノクローム画像であり、頭と肩との
画像であると仮定する。このような画像を処理するうえ
で、顔の特徴の認識およびそれらの頭上の位置指定が最
初に問題となる。また、頭の向きの決定、口の形の変化
および目の移動の問題がある。ここでは、ナガオ著、「
画像認識およびデータ構造」、グラフィック・ラングニ
ジ、ネイク・アンド・ローゼンバーグ刊、１９７２年（
Ｍ、Ｎａｇａｏ、　　ｒＰｉｃｔｕｒｅ　　Ｒｅｃｏｇ
ｎｉｔｉｏｎ　　ａｎｄ　　Ｄａｔａ　　５ｔｒｕ−ｃ
ｔｕｒｅ　Ｊ　、　Ｇｒａｐｈｉｃ　Ｌａｎｇｕａｇｅ
ｓ＋　ｅｄ　Ｎａｋｅ　ａｎｄ　Ｒｏ−ｓｅｎｆｉｅｌ
ｄ、　１９７２）に提案された方法を用いる。

ナガオの方法では、エツジ検出により画像の二値表現を
行う。この二値表現された画像をウィンドウを下に移動
して分析し、ウィンドウの縦の列毎にエツジ画素を加算
する。ウィンドウの出力が一連の数列となり、その最も
大きい数が大きな縦方向のエツジを示す。この方法によ
り、頭頂部、頭の側部、目、鼻、口の初期状態の特徴を
識別することができる。

このアルゴリズムを顎の輪郭が決定されるまで続け、再
び顔に戻り、鼻、目、顔の側部の位置をより正確に識別
する。アルゴリズム内には帰還プロセスが設けられ、エ
ラーを検出したときに調査を繰り返すことができる。こ
のようにして、連続した速度で顔の各部を識別できる。

本実施例では、ナガオのアルゴリズムを利用し、目、口
として識別された特徴の周囲に固定された大きさの長方
形を描く。この詳細について以下に説明する。

第４図は顔の輪郭を識別するためのウィンドウを示す。

同一の解像度で二値画像を得ることのできるしきい値で
元画像のラプラシアン演算を行う。エツジ画素が黒、他
の画素が白として得られる。

これにより得られた二値画像の最上行に、１２８画素×
８行のウィンドウを配置する。各コラムの黒画素を加算
し、この結果を１２８　ｘ３２要素の配列（第一の配列
）の第−行として蓄える。単位時間毎に４行ずつウィン
ドウを下げ、同じ処理を繰り返す。３２個所のウィンド
ウ位置で同じ処理を繰り返し、１２８　×３２要素の配
列を満たす。

頭の側部の位置を決定するため、画像の上部から上記配
列の行の処理を行う。鉛直方向に強いエツジがある場合
には、配列内に大きな値が記憶されている。

画像の左側から最初の位置のエツジを記録し、同時に右
側についても記録する。これらの点の間の距離（頭の幅
）を測定し、この距離が所定の値以上のとき、目を示す
二つの点を調べる。

第５図は目の動きを調べるための一次元マスクを示す。

このマスクは、鼻に対応する空隙で分離された目に対応
して、二つのスロット（第５図の斜線部）が設けられて
いる。スロットの幅およびその距離は、測定された頭の
幅に比例した値に選択する。

このマスクを頭の領域で行に沿って移動させる。

スロット内に含まれる配列内の値を加算し、この結果か
ら鼻のスロット内の値を差し引く。最終的な結果は目の
位置を感度よく検出することができる。

行方向で最大値があるときには、この最大値をマスクの
位置と共に記録する。次に、マスクを次の行に移動して
同じ処理を繰り返す。

一連の最大値からその中の最大値を検出する。

この最大値が目の鉛直方向の位置を示すと考える。

この最大値を見つけたときに、マスクの水平位置から顔
の中心点を推定できる。

第６図は口の位置を決定するためのウィンドウを示す。

第６図には上記マスクの最大値が得られる位置を合わせ
て示す。

二値画像に対して、目の下の位置から画像の下まで続く
ような、１５画素幅のウィンドウを顔の中央部に設定す
る。ウィンドウの各行の黒画素を加算し、その値を一次
元配列（第二の配列）に蓄える。

第７図はこの第二の配列の度数分布を示す。この度数分
布には、鼻の下部、口および下唇の下の陰が明確なピー
クと現れる。これらのピークの分布を用いて口の位置を
決定することができる。

領域６の位・置を上で定義したように顔の中心および口
の中心（第７図の第３５行）に設定する。この解像度で
は、領域６の大きさは高さ２４画素、幅４０画素が適当
である。

次の段階では、最初のフレームにおいて識別した口の位
置（領域６の位置）と、学習（および送信）段階の位置
とが矛盾しないようにする。すなわち、口を常に領域６
の中心に配置する。連続するフレームの各々に対してナ
ガオのアルゴリズムで順番に処理すると、フレームが変
わるときに口の領域の登録に非常多くのエラーが発生す
ることがわかった。

この問題を解決するには、このアルゴリズムを最初のフ
レームだけに適用し、フレーム毎に口を追跡する。これ
は、第一フレームにおける口の位置をテンプレートとし
て用い、連続する各フレームで上述の二値画像と相関を
とる。次のフレームの同じ相対位置で口の位Ｉを調べ、
局部最大値を検出するまで時間当たり１画素ずつマスク
を移動させる。

この方法を正しい口を用いたシーケンスを得るために使
用し、顔の残りの部分については最初のフレームを複写
する。この処理を行ったシーケンスを実行したところ、
ジッタが少し生じたが、エラーは約１画素だけであり、
補助画素を挿入する必要がなく、従来の方法に比べて優
れている。

第８図および第９図に口の領域の典型的な二値画像を示
す。第８図は開いた状態の口を示し、第９図は閉じた状
態の口を示す。

全シーケンスに生じる可能性のある口の形状のうち典型
的な一連の形状の組だけをルックアップテーブルに蓄え
る。このためには、口の形状を認識し、前に生じた形状
と同じか否かを識別する必要がある。この識別の後に、
新しい口の形状をテーブル内に蓄える。

テーブルのデータ量を制限するため、前に発生した口と
の差の類似性について、量子化プロセスを基本とする必
要がある。

これを実現する方法について以下に説明するが、ここで
は、二値画像ではなくグレイスケールで処理を実行する
例を説明する。

最初のフレームから、自画像をルックアップテーブルの
第一の内容として蓄える。トレーニングシーケンス中の
各フレームには、その自画像について、（ａｌ　　各画素の値をテーブル内の内容から差し引く
ことにより比較し、口の領域にわたってこれらの差の絶
対値を加算し、（ｂ）　　和をしきい値と比較し、しきい値を越えてい
るときには自画像を新しい内容としてテーブルに入力す
る処理を行う。

本実施例における差の絶対値の和を求める方法は、動き
に対して非常に敏感であるが、例えば二つの同一な画像
が１画素だけずれた場合には、和の値が非常に小さく、
二つの画像を同一とみなすことができる。画像全体に比
較して小さい動きに対しては、和の値が小さくなること
から無視することができ、小容量のルックア・７プテー
ブルでも損失なしに口の形状を蓄えることができる。こ
のためには、各フレーム毎に、そのフレームの自画像に
ついて、現在の位置、左に１画素移動した位置および右
に１画素移動した位置の三つの位置でそれぞれ符号表の
各内容と比較し、それぞれ最小の和を検出する。このと
き、この最小値をＸ方向く横方向）の移動距離とともに
記録する。この処理をＸ方向だけでなくＸ方向（上下方
向）についても行うことが望ましいが、移動方向は多く
の場合Ｘ方向であることが知られており、Ｘ方向につい
ては必ずしも必要はない。

もし、必要なテーブル容量が大きい場合、またはトレー
ニングシーケンス中に必要な容１がテーブルの大きさよ
り実質的に少ない場合には、必要な速度を達成できない
ような過剰な遅延を防止する。

テーブルを構築した後に送信を開始し、上述の（ａｌの
項目で説明したように、連続する自画像をそれぞれ記憶
されているテーブルの内容と比較し、和が最も小さくな
るものを識別するための符号語を送信する。

これを実行するための計算量は大きいが、他の調べ方に
より計算量を削減することもできる。最も簡単な方法し
ては、ルックアップテーブルに登録されているすべての
口の形状に対して和が最小となるものを検出するのでは
な（、和がしきい値より小さい最初のものを使用する。

この方法により確かに速くはなるが、テーブルを走査す
る順番が固定されている場合には、頭重的な動きが多く
なり、画像に障害が生じる傾向がある。したがって、こ
の場合にはテーブルの走査順を変化させる必要がある。

このためには、符号表からの量が多くなり障害をうける
傾向がある。したがって、テーブルを走査する順番を変
化させる必要がある。

符号表から口が現れる順番を記録することが望ましい。

例えば、前のフレームにおいてテーブル内の口ｒＯＪを
使用したときには、現在の口のために、口「０」の後に
最も頻繁に発生する内容、例えば口「５」から走査を開
始する。現在のフレームと口「５」との差の絶対値の和
がしきい値より小さい場合には、この口「５」を現在の
フレームを表示するために使用する。しきい値より大き
い場合には、符号表の口「０」の後に口「５」の次に発
生する可能性のある口を調べ、以下同様に繰り返す。最
終的に口を選んだとき、口を選択した記録を現在の情報
に更新する。

さらに、記憶されている一連の口の形状よりも和が小さ
くなる旧画像を記録し、動的な更新プロセスを開始させ
、付加的な旧画像をテーブルに付は加えるとともに、画
像送信時に受信機に送信することもできる。多くの場合
、「新しい」口を発生したフレームでこの口を使用でき
るほど正確な情報を送信する必要はなく、後になって同
じ形状が発生したときに使用できれば十分である。

設定値を十分に小さくしないと、シーケンス中に新しい
口が次々にルックアップテーブルに記ｉｔされるので、
注意が必要である。これは、明らかに意味のある結果を
生成するためには副次的な標本化画像でしかないが、符
号表の大きさを処理するシーケンスの長さに比例させて
増大させる必要がある。

設定値は試行錯誤により得られる。このしきい値を自動
的に選択できる場合、または全体的に分配できる場合に
、この試行錯誤が必要である。フレーム間の差の絶対値
の和は常に測定することが可能であり、ルックアップテ
ーブルはマトリクス空間を表現する。ルックアップテー
ブル内の各々の口が多次元マトリクス空間に存在すると
考えることができ、シーケンス内の各フレームは符号表
の口のひとつの周囲のクラスタに配置される。最適な一
連の口の組をみつけるためには、リンデ・ブゾ・グレイ
　（Ｌｎｄｅ−Ｂｕｚｏ−Ｇｒａｙ）のような種々のア
ルゴリズムを使用できる。これらのアルゴリズムでは、
シーケンス中の一連のフレームをトレーニングに使用し
、エラーを最小にして最適の組をみつけるために長い検
査を行う。このために、最適の組より速くみつけること
のできるような、副次的に最適な「代表的」口の組をみ
つけることが望ましい。これを実行するために、使用す
る口の数を特定し、トレーニングシーケンスから必要な
数の口を選択する。トレーニングと同じアルゴリズムで
送信中にルックアップテーブルを更新することもできる
が、テーブル内の口の総数を一定に保つことが望ましい
。

口の選択は基本的に以下の規則により行う。すなわち、
現在のフレームとテーブル内の口の一つとの間の最小差
異（ここで「差異」とはマトリクス空間内での差異であ
る）が、その口とテーブル内の他のすべての口との間の
最小差異より大きい場合に、現在の口をテーブルに追加
する。小さい場合には、その口は、単に、テーブル内の
最も近い口により表現される。画像送信時にテーブル内
に新しい口を追加したときには、以下の規則によりテー
ブルから一つの口を除去する。ルックアップテーブル内
の互いに近い二つの口をみつけ、その一方、望ましくは
新しい口に近い方を除去する。

新しい口をテーブルに入力したときに、符号表内の口は
この新しい口の後に現れたことがなく、これらの口の順
序に関する過去の履歴は存在しない。シーケンスの次の
フレームのときには、ルックアップテーブルを順番に走
査し、新しい内容については最後に調べることにしても
よい。しかし、特に新しい口が作られた後には、同じ口
の形状が集中して発生する傾向があり、この新しい内容
が最も選択される傾向がある。このため、新しい口を最
初に走査するように順番を調節することが望ましい。

上述の送信機１を標準電話リンクを用いた画像電話に使
用することもできる。ただし、学習を行うために受信機
３側では瞬時に画像を得ることばできない。顔の非ディ
ジタル伝送を仮定した場合には、１５秒程度の初期遅延
の後に動画の送信が始まり、実時間で表示される。

顔の向きが正面位置と異なりその向きの差異が大きい場
合には、固定された口を重ねてもよい。

また、頷きや首を横に振るような顔の一般的な動きを示
すためには、異なる多数の角度方向の顔を表示可能にす
る。ランダムな動きの場合には、一般的な動きになるま
で頭を動かさない。

この場合には、顔の異なる向きに関する情報を送信し、
受信機３で蓄える必要がある。すべての異なる顔の位置
に対して完全なデータの組を送信する場合には、過剰な
チャネル数および記憶容量を必要とする。

第１０図はこの問題を解決する方法を示す。

前面における顔の外観は、面Ｐへの投影（ｘ＋〜ｘｓ）
で表現される。頭を一方向にわずかに回転させたときム
こは、観測者に対して、その外観が面Ｐ′への投影（ｘ
Ｉ′〜ｘＳ′）で表現される。

顔への照明が等方的なら、（ｘ＋　〜ｘｓ）の二次元変
換が（ｘ１′〜Ｘ、′）の良好な近似となる。

頭の側面では重要な差異が生じ、新しい領域が現れるか
または隠れ、鼻の部分でも同様のことが起きる。したが
って、少しの差異の組とともに頭の向きの変化を与える
符号を送信することにより、頭全体を再構成することが
できる。それぞれの頭の位置の差を記憶し、将来、同じ
位置であることを認識したときにはそれを用いる。

第１１図は二次元変換による擬回転を生成する方法を示
す。

鼻が左から右に変位Ｓだけ移動するような、鉛直軸を中
心とした一方向の回転の効果をシミュレートするためＧ
こ、（１）左の点（ｘ、−ｘ、’）は移動せず、（２）線（
ｘ、−ｘ７’）ｌの点をＳ／２だけ右に変位させ（Ｘ１
％　Ｘｌ’　、Ｘｚ＝、　Ｘｚ’の領域を引き伸ばし）
、（３）線（Ｘ３　　Ｘ３’　）上の点をＳだ番ｊ右に変
位させ（Ｘ２％　Ｘ　Ｚ’　、Ｘ　３、ｘ、′の領域を
引き伸ばし）、（４）線（Ｘａ　　ｘ４’　）上の点をＳだけ右に変位
させ（ｘ３、Ｘｆｆ’　、Ｘ４％　Ｘ４’の領域を右０
こ移動し）、（５）線（Ｘｓ　　Ｘｓ’　）上の点をＳ／２だげ右に
変位させ（Ｘゴ、Ｘ：ｌ’、Ｘａ、　、／の領域を縮め
）、（６）線（Ｘａ−Ｘａ’）上の右の点は移動し、ない（
ｘｉ、Ｘゴ′、ｘ４、ｘ４′　の領域を縮める）、。

このような二次元画像変換を標準のテし・ビ会議用装置
で使用することもできる。このような装置では、対象の
人間を認識し、動きのない＠遍および背景の物体から分
離する。前景および背景にっいては、移動する対象に隠
れるか否かによる異なる階層レベルでメモリに記憶して
おく。爪先のような比較的動きの少ない体の部分は、腕
や頭のように比較的高速に変化する部分とは異なるレベ
ルで記憶する。この装置の動作原理は、種々の区画化さ
れた部分の移動を識別するため、送信終了を必要とし、
これに対応して移動ベクトルを送信する必要がある。こ
れにより受信機は、次のフレームの各部を予想する。予
想値と実際の絵との差を標準動き補償装置に送出する。

この装置は、（１）対象が隠れた場合および再び現れた場合にデータ
を再び送信する必要がなく、（２）爪先などのように比較的変化のない部分に対して
、置き換えおよび画像面の回転等の少しの画像変換およ
び寸法の変化を用いて非常に良好に予測することができ
、予想値と実際の値との差は小さく、（３）　　これより速く動く対象についても予想値と実
際の値との差が大きくはなるが、まだ良好な予測が可能
であり、（４）場面の重要な特徴については重要でない部分とは
物に取り扱うことができ（例えば速く。

動く腕より顔に重点をおく）ことができ、画像の大きな劣化なしに高いデータ圧縮を
実現できる。

次に、音声合成を含む話者の動画の合成について説明す
る。二つのタイプの音声合成、すなわち、（ａ）　　限
定給量合成、（ｂ）　　異音（ａ　ｌ　１ｏｐｈｏｎｅ）合成を考え
る。限定給量合成は、限定された語に対して、完全な語
のディジタル化した表現を記憶し、これらの語を手動、
コンピュータまたは他の入力装置の制御により受は取っ
て再生する。記憶方法としては、ＰＣＭまたはフォルマ
ント・パラメータとして記憶する方法を用いるが、画像
合成には影響しない。異音合或は、発声された音を表現
する符号を供給することによりどのような語でも合成で
き、これらの符号は入力テキスト　（音声装置のテキス
１−）から直接に発生させる。

どちらの場合でも顔の合成には二段階の処理を行う。す
なわち、上述したような学習段階と、合成された音声に
対応する口の符号語を発生する合成段階である。最初に
限定語型合成を利用する場合について説明すると、音声
誘雷としては、通常はその言語を母国語としている話者
の発声を記録して用い、同じ話者の顔を使用することが
便利である。他の顔が必要な場合、または現在の装置に
映像サービスを付加する場合には、発話された給量を繰
り返し、それに沿って代わりの話者が話してもよい。ど
ちらの方法でも処理は同一である。

学習段階は上述したと同様であり、装置は、必要な顔の
フレームおよび口のルックアップテーブルを獲得する。

しかし、それぞれの語に対応する口の位置の符号語のシ
ーケンスを記録する必要があり、このシーケンスを別の
テーブル（口符号テーブル）に記憶する必要がある。こ
の処理は実時間で実行する必要はなく、それぞれの語に
対する口のシーケンスを最適にすることができる。

合成段階では、合成装置に供給された入力符号を、音声
データとして受は取り音声再生装置または合成装置に送
り出すだけでなく、口の符号語を受は取りこれらを音声
に同期して受信機に送る。

この受信機は、第１図を参照して説明したと同様の、動
画を再構成する装置である。受信機機能を局部的に実行
させ、局部的な表示装置または標乍映像信号を前方に送
信するために使用することもできる。

異音合成の場合にも、実際の顔が必要であり、上述の学
習段階を実行して顔画像および【コ画像のテーブルを作
り出す。ここで、個々の音素（すなわち語の部分）に口
の位置を関連させる必要があり、音声合成による発生と
同時に、顔の持主が、音声合成装置が生成できるそれぞ
れの音素の少なくとも一例を含む一節を発声する必要が
ある。発生された符号語は、ロルックアップテーブルに
入力される。このルックアップテーブルの各内容が一つ
の音素に対応する。多くの内容は一以上の符号語を含む
。ある場合には、与えられた音素に対応する口の形状が
ζ前のまたは後の音素に依存して変化し、これも考慮す
る必要がある。音声および映像データを受は取ると、上
述した方法と同様にして「語全体」を合成することがで
きる。

「合成音声」の実施例において、顔のフレームロ画像の
テーブルおよび口の形状の符号語は、上述した遠隔の受
信機に送信してそこで動画を再生する装置と同様である
が、ある状況、例えば映像表示装置が音声合成コンピュ
ータの出力に接続されている場合には、表示装置をロー
カルで使用し、受信機をテーブルおよび符号の発生装置
として使用することもできる。また、合成画像を局部的
に発生し、一般的な映像信号を遠隔のモニタ装置に送信
することもできる。

同期の問題について説明する。

テキスト音声合成は、（ａ）　　テキスト入力を音素表現に変換し、（ｂｌ　
　音素をより低位の音素表現に変換し、（Ｃ）　　低位
の音素をホルマント・パラメータに変換する、典型的な
パラメータ更新周期は１０ｍ５である。

段階を含む。

この処理はかなりの遅延を含み、特に、変換が内容に依
存する　（例えば特性の文字の音がそれに続く音の影響
を受ける）ので、変換段階に固有の遅延が発生する。し
たがって、合成プロセスは、合成された唇の動きが音声
に同期するように、配列およびタイミングを注意深く考
慮する必要がある。

映像合成に音声合成装置からの入力データとして音素表
現を使用し、その下位レベルの音声合成プロセスが予想
される遅延を含む場合には、映像合成に対応して遅延を
導入することにより、準純にタイミングを合わせること
ができる。

音声表現内にフラグを挿入することもできる。

これにより、音素から口の位置を発生するために、ルッ
クアップテーブルを使用するかわりに（または付加して
）、元のテキストに口の形状を設定するためのデータを
付加することができる。どちらの方法でも、フラグが正
確な瞬間を示し、低位の音素レベルに落とした音声表現
で、口の形状の変化を保持することができる。音声合成
装置は、低位の音素符号の列を生成し、これをフォルマ
ント・パラメータに変換し、フォルマント合成装置に送
出する。符号が列を作るので、その前のテキストを発話
してとき、対応する口の形状の変化と同期して、各フラ
グを画像合成装置に送る。

実時間の音声入力に対応して動画を発生する実施例につ
いて説明する。

この場合には、顔を提供する代理話者が必要であり、旧
画像テーブルを作るための学習段階をあらかじめ行う必
要がある。旧画像テーブルを作り出すことは、入力音声
を分析するために使用する方法に依存する。−例として
、周波数を分析してスペクトル・パラメータのシーケン
スを生成し、符号テーブルと共にそれに関連するパラメ
ータおよび旧画像を供給する。

第１２図にこのような画像合成装置のブロック構成図を
示す。

母音音素毎に異なる映像を表示する。聴覚的な音素に関
する映像を映像素（ｖｉｓｅｍｅ）と呼ぶ（バーガー、
「スピーチリーディング：プリンシブル・アンド・メソ
ッド」、ハルチモア；ナショナル・エジケーシッナル・
プレス、１９７２年刊第７３頁ないし第１０７頁（Ｋ、
Ｗ、Ｂｅｒｇｅｒ、　　ｒｓｐｅｅＣｈｒｅａｄｉｎｇ
：Ｐｒ１ｎｃｉｐｌｅｓ　ａｎｄ　ＭｅｔｈｏｄｓＪ　
、Ｂａｌｔｉｍｏｒｅ：ＮａｔｉｏｎａｌＥｄｕｃａｔ
ｉｏｎａｌ　Ｐｒｅｓｓ　、　１９７２、ｐｐ７３−１
０７）参照）。

しかし、子音の多くは同じ映像表現となり、子音映像素
の最も一般的には１２に分類される。これは、装置が同
じ分類の現象を取り違えても、視覚的なエラーは生じな
いことを意味する。母音に比べて子音で発生する音声エ
ネルギが少ないので、音声認識装置による子音間の区別
はさらに困難である。

したがって、このような装置では、子音映像素に対して
、多数のなかの一つの子音音素の分布が偶然に対応する
。

音声を分析するため、全音声域に対応する１４ないし１
５チヤネルのフィルタ群１０を用いる。漏洩積算計１１
を用いて各チャネルの音声エネルギを積算し、標本化回
路１２により映像フレーム速度（４０ｍｓ毎）で標本化
して出力する。トレーニングシーケンスの間に全ての音
素を発生し、フィルタ群１０で音声を分析する必要があ
る。個々の発声音声は、標本の各組にわたってエネルギ
のしきい値を調べることにより識別できる。標本値を一
連のメモリ１３に蓄え、この後に未知の音声信号が到来
したときには、上述の方法と同様にして音素を認識する
。

フィルタ群１０を使用してこの処理を行い、同じ標本化
速度で未知の音声を分析することができる。

対応する要素の差の自乗を加算することにより、未知の
音声標本を各テンプレートと比較する。最も差の小さい
ものが最も一致したものである。したがって、装置は、
最も音素が一致したものに対応する符号を出力する。無
声音を示す特別の符号も必要である。

トレーニングシーケンスに一連の音素ヲ発声スる一方で
、口頭域の絵の動作シーケンスを捕らえることが必要で
ある。各音素の発生を指摘することにより、シーケンス
中の対応するフレームを特定し、そのフレームの一部を
使用して口の符号表を作成する。動作時には、ルックア
ップテーブルを使用して、音声分析装置により生成され
た符号から適当な口符号をみつける。無声状態を示す符
号のときには、口の形状をほぼ閉じたものにする。

合成シーケンスでは、映像速度で、顔の上に適当な口を
重ねる。

合成音声の場合と同様に、受信機をローカルまたはリモ
ートで動作させることができる。リモートで使用する場
合には、付加的な修正として、送信機に蓄えた旧画像テ
ーブルに、通常に送信機に送信する以上の多数の内容を
記憶させる。これにより、一般的にはまれにしか発生し
ないが、ある種の音声ではしばしば発生する口の形状、
例えばある方言でのみ発生する音声に対応する形状をテ
ーブル内に記憶させておくことができる。このような音
声に対するスペクトル・パラメータの認識は、上述した
ような動的な更新プロセスを行い、関連する口の形状を
受信機で得ることができるようにする。

第１３図は以上の実施例で用いるに適した受信機の一例
のブロック構成図である。

入力信号は復号器１０１に供給され、この復号器１０１
からフレームメモリに、学習段階の間に受信した静止画
フレームを入力する。この一方で、ロメモリ１０２は、
必要な数（例えば２５）の口の形状を記憶する。読出し
論理回路１０３はフレームメモリ１（１０の内容を繰り
返し読み出し、同期パルスを付加して映像モニタ装置１
０４に供給する。伝送段階には、受信した符号語を制御
部１０５に供給し、制御部１０５は、書込み制御部１０
６を制御し、フレームメモ１月ＯＯの適切な領域にロメ
モリ１０２の対応する内容を重ね書きする。明らかに、
見ている人が知覚できないように高速で重ね書きを行う
必要がある。更新する領域を小さいブロックに分割し、
ランダムまたはシーケンシャルではないあらかじめ定め
た順番で重ね書きを行うことより、低速でも見ている人
が知覚できないように更新することができる。また、フ
レームメモリがウィンドウを含む構成の場合には、更新
する画像をあらかじめ入力しておき、適当な移動を作り
だすように切り替えることができる。場合によっては、
ウィンドウのｘｙ移動でＮ単に処理することができる。

〔発明の効果〕

以上説明したように、本発明の画像処理装置は、実質的
に動きのある人間の顔を非常に少ないデータ量で送信で
きる効果がある。また、容易に人間の画像を合成するこ
とができる。本発明は、一般の電話回線による話者の画
像の伝送に利用でき、会議通話等に用いて特に有用であ
る。

【図面の簡単な説明】

第１図は本発明実施例画像伝送装置のブロック構成図。第２図は話者の顔を示す図。第３図は話者の口の形状の例を示す図。第４図は頗の輪郭を識別するためのウィンドウを示す図
。第５図は目の動きを調べるための一次元マスクを示す図
。第６図は口の位置を決定するためのウィンドウを示す図
。第７図は第二の配列の度数分布を示す図。第８図は開いた状態の口の二値画像を示す図。第９図は閉じた状態の口の二値画像を示す図。第１０図は顔の回転を補正する方法を示す図。第１１図は二次元変換による擬回転を生成する方法を示
す図。第１２図は画像合成装置のブロック構成図。第１３図は受信機の一例のブロック構成図。１・・・送信機、２・・・伝送路、３・・・受信器、１
０・・・フィルタ群、１１・・・漏洩積算計、１２・・
・標本化回路、１３・・・メモリ、１（１０・・・フレ
ームメモリ、１０１・・・復号器、１０２・・・ロメモ
リ、１０３・・・読出し論理回路、１０４・・・映像モ
ニタ装置、１０５・・・制御部、１０６・・・書込み制
御部。第１図第２図第３図１２８Ｘ８ウインドウ第４図配列とマスク第５図口の位置第６図：ｌ：： ’５’ａ　ｏ　　　　　　　　、ａ数／７＋布５９　　
□」０も７　品尾９　図第１０賃３１１　　ロ茅１２図第１３図

Claims

【特許請求の範囲】

（１）映像入力信号を符号化して出力する送信機と、こ
の送信機からの信号を受信して画像を再生する受信機とを備えた画像伝送装置において、上記送信機は、上記映像入力信号の顔の部分の１フレームの画像を上記
受信機に送信するフレーム送信手段と、上記映像入力信
号の各フレームから口を表すデータを識別する識別手段
と、動作開始時に、この識別手段が識別した口を表すデータ
から異なる形状を表すデータを選択して記憶する送信側
記憶手段と、この送信側記憶手段の記憶内容を上記受信機に通知する
通知手段と、画像伝送時に、各フレームの口を表すデータと上記記憶
手段に記憶されているデータとを比較し、最も似ている
ものに対応する符号を上記受信機に送信する符号送信手
段とを含み、上記受信機は、上記フレーム送信手段からの１フレームの画像を記憶す
るフレームメモリと、上記通知手段からの口を表すデータを記憶する受信側記
憶手段と、送信手段からの符号に基づいて上記受信側記憶手段の記
憶内容を読み出す読出手段と、この読出手段が読み出した口を表すデータを上記フレー
ムメモリのデータに重ね合わせる重ね合わせ手段とを含むことを特徴とする画像伝送装置。
（２）識別手段は、映像入力信号の最初のフレームから口を表すデータを抽
出する抽出手段と、以降の連続する各フレームについて上記抽出手段が抽出
したデータとの相関を演算してそのフレームの口の領域
を識別する相関手段とを含む特許請求の範囲第（１）項に記載の画像伝送装置。
（３）記憶手段は、各フレームの口を表すデータをすでに蓄えているデータ
と比較する比較手段と、この比較の結果が所定のしきい値を越えたときにはその
データを記憶する更新手段とを含む特許請求の範囲第（１）項または第（２）項に記載の画
像伝送装置。
（４）比較手段は、個々の画素値を減算する減算手段と、この減算手段により得られた差の絶対値を加算する加算
手段とを含む特許請求の範囲第（３）項に記載の画像伝送装置。
（５）送信機は、映像入力信号中の顔の位置を追跡する追跡手段と、顔の位置を表す符号データを出力する手段とを含む特許請求の範囲第（１）項ないし第（４）項のいずれか
に記載の画像伝送装置。
（６）送信側記憶手段は、画像伝送中にも各フレームの
口を表すデータをすでに蓄えているデータと比較して内
容を更新する構成であり、通知手段は、画像伝送中には、送信側記憶手段が更新さ
れる毎にその内容を受信機に通知する構成である特許請求の範囲第（１）項ないし第（５）項のいずれか
に記載の画像伝送装置。
（７）送信機は、映像入力信号の各フレームから目を表すデータを識別す
る目識別手段を含み、この目識別手段は、動作開始時に、この目識別手段が識別した目を表すデー
タから一連の目を表すデータを選択して記憶する目デー
タ記憶手段と、この目データ記憶手段の記憶内容を受信機に通知する目
データ通知手段と、画像伝送時に、各フレームの目データと上記目データ記
憶手段に記憶されているデータとを比較し、最も似てい
るものに対応する符号を上記受信機に送信する目データ
送信手段とを含む特許請求の範囲第（１）項ないし第（６）項のいずれか
に記載の画像伝送装置。
（８）重ね合わせ手段は、読出手段の出力をフレームメ
モリに書き込む構成である特許請求の範囲第（１）項に
記載の画像伝送装置。
（９）重ね合わせ手段は、読出手段の出力をフレームメ
モリの出力に重ね合わせる構成である特許請求の範囲第
（１）項に記載の画像伝送装置。
（１０）受信機は、入力データに応答して画像の顔の領
域を動かす運動手段を含む特許請求の範囲第（１）項に
記載の画像伝送装置。
（１１）運動手段は、画像の顔の領域をランダムに動か
す構成である特許請求の範囲第（１０）項に記載の画像
伝送装置。
（１２）顔の画像を蓄える顔記憶手段と、この顔の画像の口の領域に挿入する異なる口の形状のデ
ータを蓄える口記憶手段と、入力情報に応答して発話すべき音声を決定する音声合成
手段と、この入力情報に対応して上記口記憶手段の読出し番地を
設定する番地設定手段と、上記顔記憶手段から読み出した顔の画像と上記口記憶手
段から読み出した口画像とを重ね合わせる手段とを含む画像合成装置。
（１３）音声合成手段は、入力情報を処理して音声信号
内に口の形状の変化を示すフラグ符号を挿入する手段を
含み、番地設定手段および重ね合わせる手段は、フラグ符号に
同期して口画像を変更する構成である特許請求の範囲第
（１２）項に記載の画像合成装置。
（１４）顔の画像を蓄える顔記憶手段と、この顔の画像の口の領域に挿入する異なる口の形状のデ
ータを蓄える口記憶手段と、入力音声信号の周波数を分析する分析手段と、この分析
手段の出力したスペクトルパラメータのシーケンスに対
応して上記口記憶手段の読出し番地を設定する番地設定
手段と、上記顔記憶手段から読み出した顔の画像と上記口記憶手
段から読み出した口画像とを重ね合わせる手段とを含む画像合成装置。