JPS62120179A - 画像合成装置 - Google Patents

画像合成装置

Info

Publication number
JPS62120179A
JPS62120179A JP61271687A JP27168786A JPS62120179A JP S62120179 A JPS62120179 A JP S62120179A JP 61271687 A JP61271687 A JP 61271687A JP 27168786 A JP27168786 A JP 27168786A JP S62120179 A JPS62120179 A JP S62120179A
Authority
JP
Japan
Prior art keywords
mouth
image
data
frame
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61271687A
Other languages
English (en)
Other versions
JP2589478B2 (ja
Inventor
ウィリアム・ジョン・ウェルシュ
ブライアン・アラン・フェン
ポール・チャレナー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JPS62120179A publication Critical patent/JPS62120179A/ja
Application granted granted Critical
Publication of JP2589478B2 publication Critical patent/JP2589478B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Collating Specific Patterns (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は動画の伝送および合成に利用する。特に、人間
の顔の画像の符号化および表示に間する。
〔概 要〕
本発明は、人間の顔の画像を処理する装置において、 動きのある口の部分を他の部分と別に処理し、実質的に
動きのない顔の画像に口の画像を重ね合わせることによ
り、 伝送時のデータ量を削減し7、画像合成を簡単化するも
のである。
〔従来の技術〕
動画を伝送するためには、データ量が多いため高速の伝
送速度が必要となる。このため、一般の電話回線を利用
して動画を伝送することはできなかった。
c問題点を解決するための手段〕 電話回線を利用する画像伝送では、実質的に顔の部分だ
けを伝送する応用が多い。本発明は、これを利用して、
顔のなかの動きの多い口の部分に着目して顔の動画を伝
送する装置を提供することを目的とする。
さらに、本発明は、簡単な構成で話者の顔を合成する画
像合成装置を提供することを目的とする。
〔問題点を解決するための手段〕
本発明の第一の発明は画像伝送装置であり、映像入力信
号を符号化して出力する送信機と、この送信機からの信
号を受信して画像を再生する受信機とを備えた画像伝送
装置において、上記送信機は、上記映像入力信号の顔の
部分の1フレームの画像を上記受信機に送信するフレー
ム送信手段と、上記映像入力信号の各フレームから口を
表すデータを識別する識別手段と、動作開始時に、この
識別手段が識別した口を表すデータから異なる形状を表
すデータを選択して記憶する送信側記憶手段と、この送
信側記憶手段の記憶内容を上記受信機に通知する通知手
段と、画像伝送時に、各フレームの口を表すデータと上
記記憶手段に記憶されているデータとを比較し、最も似
ているものに対応する符号を上記受信機に送信する符号
送信手段とを含むことを特徴とする。この送信機の構成
に対応して、受信機は、上記フレーム送信手段からの1
フレームの画像を記憶するフレームメモリと、上記通知
手段からの口を表すデータを記憶する受信側記憶手段と
、送信手段からの符号に基づいて上記受信側記憶手段の
記憶内容を読み出す読出手段と、この読出手段が読み出
した口を表すデータを上記フレームメモリのデータに重
ね合わせる重ね合わせ手段とを含む。
識別手段は、映像入力信号の最初のフレームから口を表
すデータを抽出し、以降の連続する各フレームについて
上記抽出手段が抽出したデータとの相関を演算してその
フレームの口の領域を識別する。
記憶手段は、各フレームの口を表すデータをすでに蓄え
ているデータと比較しこの比較の結果が所定のしきい値
を越えたときにはそのデータを記憶する。
比較手段は、個々の画素値を減算し、この減算手段によ
り得られた差の絶対値を加算して出力信号とする。
送信機はさらに、映像入力信号中の顔の位置を追跡する
追跡手段と、顔の位置を表す符号データを出力する手段
とを含むことが望ましい。
送信側記憶手段が、画像伝送中にも各フレームの口を表
すデータをすでに蓄えているデータと比較して内容を更
新し、通知手段が、画像伝送中にも、送信側記憶手段が
更新される毎にその内容を受信機に通知する構成とする
こともできる。
送信機はさらに、映像入力信号の各フレームから目を表
すデータを識別する目識別手段を含み、この目識別手段
は、動作開始時に、この目識別手段が識別した目を表す
データから一連の目を表すデータを選択して記憶する目
データ記憶手段と、この目データ記憶手段の記憶内容を
受信機に通知する目データ通知手段と、画像伝送時に、
各フレームの目データと上記目データ記憶手段に記憶さ
れているデータとを比較し、最も似ているものに対応す
る符号を上記受信機に送信する目データ送信手段とを含
むことが望ましい。
重ね合わせ手段は、読出手段の出力をフレームメモリに
書き込む構成、または読出手段の出力をフレームメモリ
の出力に重ね合わせる構成であることが望ましい。
受信機は、入力データに応答して画像の顔の領域を動か
ず運動手段を含むことが望ましい。この運動手段は、画
像の顔の領域をランダムに動かす構成であることが望ま
しい。
本発明の第二の発明は音声信号の合成と共に画像を合成
する画像合成装置であり、顔の画像を蓄える顔記憶手段
と、この顔の画像の[Jの領域に挿入する異なる口の形
状のデータを蓄える口記憶手段と、入力情報に応答して
発話すべき音声を決定する音声合成手段と、この入力情
報に対応して上記日記1手段の読出し番地を設定する番
地設定手段と、上記顔記憶手段から読み出した顔の画像
と上記口記憶手段から読み出した自画像とを重ね合わせ
る手段とを含むことを特徴とする。
音声合成手段は、入力情報を処理して音声信号内に口の
形状の変化を示すフラグ符号を挿入する手段を含み、番
地設定手段および重ね合わせる手段は、フラグ符号に同
期して自画像を変更する構成であることが望ましい。
本発明の第三の発明は入力音声に対応して画像を合成す
る画像合成装置であり、顔の画像を蓄える顔記憶手段と
、この顔の画像の口の領域に挿入する異なる口の形状の
データを蓄える口記憶手段と、入力音声信号の周波数を
分析する分析手段と、この分析手段の出力したスペクト
ルパラメータのシーケンスに対応して上記口記憶手段の
読出し番地を設定する番地設定手段と、上記顔記憶手段
から読み出した顔の画像と上記口記憶手段から読み出し
た自画像とを重ね合わせる手段とを含むことを特徴とす
る。
〔作 用〕
本発明の画像伝送装置は、顔および口の画像を伝送する
のではなく、最初に顔の画像を伝送し、さらに一連の口
の形状を伝送しておき、それ以降は口の形状を識別する
ための符号を伝送する。受信機では、最初に送られた顔
の画像を操り返し表示し、その口の領域に、送信機から
送られた少ないビット数の符号でメモリの番地を指定し
、ここから読み出した口の画像を顔の画像に重ね合わせ
る。
顔および口の画像をあらかじめ受信機に記憶させておく
ことにより、この受信機を画像合成装置に利用すること
もできる。
〔実施例〕
第1図は本発明実施例画像伝送装置のブロック構成図を
示す。
送信機1は、撮像装置等の映像信号源から話者の顔の映
像信号を受は取り、音声とともに伝送路2を介して受信
機3に送出する。受信機3は、受信した話者の顔の画像
をCRT表示装置等の画像表示装置に表示する。
この実施例を修正して、伝送路2をビデオ・テープレコ
ーダまたは半導体メモリ等に置き換えることにより、画
像を記憶することもできる。
第2図は話者の顔・を示し、第3図は話者の口の形状の
例を示す。
送信機lは動きのある話者の顔5を受信63に送信する
。通常の発話では、破線で囲まれた領域、すなわち口の
領域6に比べて、顔の大部分の動きは少ない。したがっ
て、顔5に関する一つの画像と口の形状の変化とを送信
することにより、送信情報量を削減することができる。
さらに、現実的には、発話中の口の形状の変化を比較的
少ない典量的な形状で表現することができる。したがっ
て、口の形状の符号表を発生して受信機3に送信してお
けば、口の形状に関して送信すべき情報は、その口の形
状を識別するための符号語シーケンスだけでよい。
この装置は知識ベース装置と呼ばれる装置の一種であり
、受信機3では、「学習」の後に話者の顔5と口の形状
との組み合わせを「知る」ことができる。受信機3は、
「学習」段階で、顔の画像をフレームメモリに記憶し、
一連の口の形状の組を「口」メそりに記憶する。フレー
ムメモリを連続的に読み出すことにより出力映像信号が
得られる。送信機1からの信号伝送段階では、受信した
符号語に対応する口画像を1口」メモリから読み出し、
これを画像メモリの所定の領域に重ね書きする。
必然的に送信機1の動作は複雑になり、学習段階に、 (1)最初のフレームを蓄え、適当な符号化(例えば一
般的な冗長性リダクション技術を用いた符号化)を行っ
て受信機3に送信し、(2)蓄えた画像を分析して、(
a+  話者の頭(頭が移動しても将来のフレームにお
ける頭を追跡するため)、および(bl  口、すなわ
ち第2図の領域6で定義した部分を識別し、領域6の座
標(および大きさが固定されていない場合にはその大き
さ)を受信機3に送信し、(3)連続するフレームを分
析して口を追跡することにより領域6の現在位置を設定
し、最初の画像およびすべての以前に選択された画像と
比較して、選択された一連の口画像の組を構築し、この
口画像の組を送信機1に記憶するとともに受信機3に送
信する トレーニングシーケンスを必要とする。
伝送段階には、 (4)  連続するフレームを(上述の(3)のように
)分析して領域6の位置を識別し、 (5)現在のフレームの領域6の内容を記憶している一
連の口画像と比較し、最も近いものを識別してこれに対
応する符号語を送信する必要がある。
フレーム速度を25〔フレーム7秒〕と仮定し、「符号
表」に24種の口の形状(5ビット符号)を登録すると
仮定すると、伝送段階で必要なデータ速度は125〔ビ
ット/秒〕である。
この実施例装置により得られる受信画像は、一般的には
満足できるものであったが、 (a)  頭が固定されて表示され、 (b)  目が変化しない(特に、話者がまばたきをし
ない) ために少し不自然さが残った。頭の位置が固定されるこ
とについては、受信機3においてランダムな頭の動きを
導入することにより、または送信機1で頭の位置を追跡
して適当な成分を受信機3に送信することより軽減でき
る。目についても口と同様の原理を用いて送信すること
ができ、この場合には「符号表」がはるかに小さくてす
む。顎および顔の輪郭についても同様である。
以上の実施例における送信機1の処理について説明する
。以下では、映像信号源からの映像信号が解像度128
 X128画素のモノクローム画像であり、頭と肩との
画像であると仮定する。このような画像を処理するうえ
で、顔の特徴の認識およびそれらの頭上の位置指定が最
初に問題となる。また、頭の向きの決定、口の形の変化
および目の移動の問題がある。ここでは、ナガオ著、「
画像認識およびデータ構造」、グラフィック・ラングニ
ジ、ネイク・アンド・ローゼンバーグ刊、1972年(
M、Nagao、  rPicture  Recog
nition  and  Data  5tru−c
ture J 、 Graphic Language
s+ ed Nake and Ro−senfiel
d、 1972)に提案された方法を用いる。
ナガオの方法では、エツジ検出により画像の二値表現を
行う。この二値表現された画像をウィンドウを下に移動
して分析し、ウィンドウの縦の列毎にエツジ画素を加算
する。ウィンドウの出力が一連の数列となり、その最も
大きい数が大きな縦方向のエツジを示す。この方法によ
り、頭頂部、頭の側部、目、鼻、口の初期状態の特徴を
識別することができる。
このアルゴリズムを顎の輪郭が決定されるまで続け、再
び顔に戻り、鼻、目、顔の側部の位置をより正確に識別
する。アルゴリズム内には帰還プロセスが設けられ、エ
ラーを検出したときに調査を繰り返すことができる。こ
のようにして、連続した速度で顔の各部を識別できる。
本実施例では、ナガオのアルゴリズムを利用し、目、口
として識別された特徴の周囲に固定された大きさの長方
形を描く。この詳細について以下に説明する。
第4図は顔の輪郭を識別するためのウィンドウを示す。
同一の解像度で二値画像を得ることのできるしきい値で
元画像のラプラシアン演算を行う。エツジ画素が黒、他
の画素が白として得られる。
これにより得られた二値画像の最上行に、128画素×
8行のウィンドウを配置する。各コラムの黒画素を加算
し、この結果を128 x32要素の配列(第一の配列
)の第−行として蓄える。単位時間毎に4行ずつウィン
ドウを下げ、同じ処理を繰り返す。32個所のウィンド
ウ位置で同じ処理を繰り返し、128 ×32要素の配
列を満たす。
頭の側部の位置を決定するため、画像の上部から上記配
列の行の処理を行う。鉛直方向に強いエツジがある場合
には、配列内に大きな値が記憶されている。
画像の左側から最初の位置のエツジを記録し、同時に右
側についても記録する。これらの点の間の距離(頭の幅
)を測定し、この距離が所定の値以上のとき、目を示す
二つの点を調べる。
第5図は目の動きを調べるための一次元マスクを示す。
このマスクは、鼻に対応する空隙で分離された目に対応
して、二つのスロット(第5図の斜線部)が設けられて
いる。スロットの幅およびその距離は、測定された頭の
幅に比例した値に選択する。
このマスクを頭の領域で行に沿って移動させる。
スロット内に含まれる配列内の値を加算し、この結果か
ら鼻のスロット内の値を差し引く。最終的な結果は目の
位置を感度よく検出することができる。
行方向で最大値があるときには、この最大値をマスクの
位置と共に記録する。次に、マスクを次の行に移動して
同じ処理を繰り返す。
一連の最大値からその中の最大値を検出する。
この最大値が目の鉛直方向の位置を示すと考える。
この最大値を見つけたときに、マスクの水平位置から顔
の中心点を推定できる。
第6図は口の位置を決定するためのウィンドウを示す。
第6図には上記マスクの最大値が得られる位置を合わせ
て示す。
二値画像に対して、目の下の位置から画像の下まで続く
ような、15画素幅のウィンドウを顔の中央部に設定す
る。ウィンドウの各行の黒画素を加算し、その値を一次
元配列(第二の配列)に蓄える。
第7図はこの第二の配列の度数分布を示す。この度数分
布には、鼻の下部、口および下唇の下の陰が明確なピー
クと現れる。これらのピークの分布を用いて口の位置を
決定することができる。
領域6の位・置を上で定義したように顔の中心および口
の中心(第7図の第35行)に設定する。この解像度で
は、領域6の大きさは高さ24画素、幅40画素が適当
である。
次の段階では、最初のフレームにおいて識別した口の位
置(領域6の位置)と、学習(および送信)段階の位置
とが矛盾しないようにする。すなわち、口を常に領域6
の中心に配置する。連続するフレームの各々に対してナ
ガオのアルゴリズムで順番に処理すると、フレームが変
わるときに口の領域の登録に非常多くのエラーが発生す
ることがわかった。
この問題を解決するには、このアルゴリズムを最初のフ
レームだけに適用し、フレーム毎に口を追跡する。これ
は、第一フレームにおける口の位置をテンプレートとし
て用い、連続する各フレームで上述の二値画像と相関を
とる。次のフレームの同じ相対位置で口の位Iを調べ、
局部最大値を検出するまで時間当たり1画素ずつマスク
を移動させる。
この方法を正しい口を用いたシーケンスを得るために使
用し、顔の残りの部分については最初のフレームを複写
する。この処理を行ったシーケンスを実行したところ、
ジッタが少し生じたが、エラーは約1画素だけであり、
補助画素を挿入する必要がなく、従来の方法に比べて優
れている。
第8図および第9図に口の領域の典型的な二値画像を示
す。第8図は開いた状態の口を示し、第9図は閉じた状
態の口を示す。
全シーケンスに生じる可能性のある口の形状のうち典型
的な一連の形状の組だけをルックアップテーブルに蓄え
る。このためには、口の形状を認識し、前に生じた形状
と同じか否かを識別する必要がある。この識別の後に、
新しい口の形状をテーブル内に蓄える。
テーブルのデータ量を制限するため、前に発生した口と
の差の類似性について、量子化プロセスを基本とする必
要がある。
これを実現する方法について以下に説明するが、ここで
は、二値画像ではなくグレイスケールで処理を実行する
例を説明する。
最初のフレームから、自画像をルックアップテーブルの
第一の内容として蓄える。トレーニングシーケンス中の
各フレームには、その自画像について、 (al  各画素の値をテーブル内の内容から差し引く
ことにより比較し、口の領域にわたってこれらの差の絶
対値を加算し、 (b)  和をしきい値と比較し、しきい値を越えてい
るときには自画像を新しい内容としてテーブルに入力す
る 処理を行う。
本実施例における差の絶対値の和を求める方法は、動き
に対して非常に敏感であるが、例えば二つの同一な画像
が1画素だけずれた場合には、和の値が非常に小さく、
二つの画像を同一とみなすことができる。画像全体に比
較して小さい動きに対しては、和の値が小さくなること
から無視することができ、小容量のルックア・7プテー
ブルでも損失なしに口の形状を蓄えることができる。こ
のためには、各フレーム毎に、そのフレームの自画像に
ついて、現在の位置、左に1画素移動した位置および右
に1画素移動した位置の三つの位置でそれぞれ符号表の
各内容と比較し、それぞれ最小の和を検出する。このと
き、この最小値をX方向く横方向)の移動距離とともに
記録する。この処理をX方向だけでなくX方向(上下方
向)についても行うことが望ましいが、移動方向は多く
の場合X方向であることが知られており、X方向につい
ては必ずしも必要はない。
もし、必要なテーブル容量が大きい場合、またはトレー
ニングシーケンス中に必要な容1がテーブルの大きさよ
り実質的に少ない場合には、必要な速度を達成できない
ような過剰な遅延を防止する。
テーブルを構築した後に送信を開始し、上述の(alの
項目で説明したように、連続する自画像をそれぞれ記憶
されているテーブルの内容と比較し、和が最も小さくな
るものを識別するための符号語を送信する。
これを実行するための計算量は大きいが、他の調べ方に
より計算量を削減することもできる。最も簡単な方法し
ては、ルックアップテーブルに登録されているすべての
口の形状に対して和が最小となるものを検出するのでは
な(、和がしきい値より小さい最初のものを使用する。
この方法により確かに速くはなるが、テーブルを走査す
る順番が固定されている場合には、頭重的な動きが多く
なり、画像に障害が生じる傾向がある。したがって、こ
の場合にはテーブルの走査順を変化させる必要がある。
このためには、符号表からの量が多くなり障害をうける
傾向がある。したがって、テーブルを走査する順番を変
化させる必要がある。
符号表から口が現れる順番を記録することが望ましい。
例えば、前のフレームにおいてテーブル内の口rOJを
使用したときには、現在の口のために、口「0」の後に
最も頻繁に発生する内容、例えば口「5」から走査を開
始する。現在のフレームと口「5」との差の絶対値の和
がしきい値より小さい場合には、この口「5」を現在の
フレームを表示するために使用する。しきい値より大き
い場合には、符号表の口「0」の後に口「5」の次に発
生する可能性のある口を調べ、以下同様に繰り返す。最
終的に口を選んだとき、口を選択した記録を現在の情報
に更新する。
さらに、記憶されている一連の口の形状よりも和が小さ
くなる旧画像を記録し、動的な更新プロセスを開始させ
、付加的な旧画像をテーブルに付は加えるとともに、画
像送信時に受信機に送信することもできる。多くの場合
、「新しい」口を発生したフレームでこの口を使用でき
るほど正確な情報を送信する必要はなく、後になって同
じ形状が発生したときに使用できれば十分である。
設定値を十分に小さくしないと、シーケンス中に新しい
口が次々にルックアップテーブルに記itされるので、
注意が必要である。これは、明らかに意味のある結果を
生成するためには副次的な標本化画像でしかないが、符
号表の大きさを処理するシーケンスの長さに比例させて
増大させる必要がある。
設定値は試行錯誤により得られる。このしきい値を自動
的に選択できる場合、または全体的に分配できる場合に
、この試行錯誤が必要である。フレーム間の差の絶対値
の和は常に測定することが可能であり、ルックアップテ
ーブルはマトリクス空間を表現する。ルックアップテー
ブル内の各々の口が多次元マトリクス空間に存在すると
考えることができ、シーケンス内の各フレームは符号表
の口のひとつの周囲のクラスタに配置される。最適な一
連の口の組をみつけるためには、リンデ・ブゾ・グレイ
 (Lnde−Buzo−Gray)のような種々のア
ルゴリズムを使用できる。これらのアルゴリズムでは、
シーケンス中の一連のフレームをトレーニングに使用し
、エラーを最小にして最適の組をみつけるために長い検
査を行う。このために、最適の組より速くみつけること
のできるような、副次的に最適な「代表的」口の組をみ
つけることが望ましい。これを実行するために、使用す
る口の数を特定し、トレーニングシーケンスから必要な
数の口を選択する。トレーニングと同じアルゴリズムで
送信中にルックアップテーブルを更新することもできる
が、テーブル内の口の総数を一定に保つことが望ましい
口の選択は基本的に以下の規則により行う。すなわち、
現在のフレームとテーブル内の口の一つとの間の最小差
異(ここで「差異」とはマトリクス空間内での差異であ
る)が、その口とテーブル内の他のすべての口との間の
最小差異より大きい場合に、現在の口をテーブルに追加
する。小さい場合には、その口は、単に、テーブル内の
最も近い口により表現される。画像送信時にテーブル内
に新しい口を追加したときには、以下の規則によりテー
ブルから一つの口を除去する。ルックアップテーブル内
の互いに近い二つの口をみつけ、その一方、望ましくは
新しい口に近い方を除去する。
新しい口をテーブルに入力したときに、符号表内の口は
この新しい口の後に現れたことがなく、これらの口の順
序に関する過去の履歴は存在しない。シーケンスの次の
フレームのときには、ルックアップテーブルを順番に走
査し、新しい内容については最後に調べることにしても
よい。しかし、特に新しい口が作られた後には、同じ口
の形状が集中して発生する傾向があり、この新しい内容
が最も選択される傾向がある。このため、新しい口を最
初に走査するように順番を調節することが望ましい。
上述の送信機1を標準電話リンクを用いた画像電話に使
用することもできる。ただし、学習を行うために受信機
3側では瞬時に画像を得ることばできない。顔の非ディ
ジタル伝送を仮定した場合には、15秒程度の初期遅延
の後に動画の送信が始まり、実時間で表示される。
顔の向きが正面位置と異なりその向きの差異が大きい場
合には、固定された口を重ねてもよい。
また、頷きや首を横に振るような顔の一般的な動きを示
すためには、異なる多数の角度方向の顔を表示可能にす
る。ランダムな動きの場合には、一般的な動きになるま
で頭を動かさない。
この場合には、顔の異なる向きに関する情報を送信し、
受信機3で蓄える必要がある。すべての異なる顔の位置
に対して完全なデータの組を送信する場合には、過剰な
チャネル数および記憶容量を必要とする。
第10図はこの問題を解決する方法を示す。
前面における顔の外観は、面Pへの投影(x+〜xs)
で表現される。頭を一方向にわずかに回転させたときム
こは、観測者に対して、その外観が面P′への投影(x
I′〜xS′)で表現される。
顔への照明が等方的なら、(x+ 〜xs)の二次元変
換が(x1′〜X、′)の良好な近似となる。
頭の側面では重要な差異が生じ、新しい領域が現れるか
または隠れ、鼻の部分でも同様のことが起きる。したが
って、少しの差異の組とともに頭の向きの変化を与える
符号を送信することにより、頭全体を再構成することが
できる。それぞれの頭の位置の差を記憶し、将来、同じ
位置であることを認識したときにはそれを用いる。
第11図は二次元変換による擬回転を生成する方法を示
す。
鼻が左から右に変位Sだけ移動するような、鉛直軸を中
心とした一方向の回転の効果をシミュレートするためG
こ、 (1)左の点(x、−x、’)は移動せず、(2)線(
x、−x7’)lの点をS/2だけ右に変位させ(X1
% Xl’ 、Xz=、 Xz’の領域を引き伸ばし)
、 (3)線(X3  X3’ )上の点をSだ番j右に変
位させ(X2% X Z’ 、X 3、x、′の領域を
引き伸ばし)、 (4)線(Xa  x4’ )上の点をSだけ右に変位
させ(x3、Xff’ 、X4% X4’の領域を右0
こ移動し)、 (5)線(Xs  Xs’ )上の点をS/2だげ右に
変位させ(Xゴ、X:l’、Xa、 、/の領域を縮め
)、 (6)線(Xa−Xa’)上の右の点は移動し、ない(
xi、Xゴ′、x4、x4′ の領域を縮める)、。
このような二次元画像変換を標準のテし・ビ会議用装置
で使用することもできる。このような装置では、対象の
人間を認識し、動きのない@遍および背景の物体から分
離する。前景および背景にっいては、移動する対象に隠
れるか否かによる異なる階層レベルでメモリに記憶して
おく。爪先のような比較的動きの少ない体の部分は、腕
や頭のように比較的高速に変化する部分とは異なるレベ
ルで記憶する。この装置の動作原理は、種々の区画化さ
れた部分の移動を識別するため、送信終了を必要とし、
これに対応して移動ベクトルを送信する必要がある。こ
れにより受信機は、次のフレームの各部を予想する。予
想値と実際の絵との差を標準動き補償装置に送出する。
この装置は、 (1)対象が隠れた場合および再び現れた場合にデータ
を再び送信する必要がなく、 (2)爪先などのように比較的変化のない部分に対して
、置き換えおよび画像面の回転等の少しの画像変換およ
び寸法の変化を用いて非常に良好に予測することができ
、予想値と実際の値との差は小さく、 (3)  これより速く動く対象についても予想値と実
際の値との差が大きくはなるが、まだ良好な予測が可能
であり、 (4)場面の重要な特徴については重要でない部分とは
物に取り扱うことができ(例えば速く。
動く腕より顔に重点をおく) ことができ、画像の大きな劣化なしに高いデータ圧縮を
実現できる。
次に、音声合成を含む話者の動画の合成について説明す
る。二つのタイプの音声合成、すなわち、(a)  限
定給量合成、 (b)  異音(a l 1ophone)合成を考え
る。限定給量合成は、限定された語に対して、完全な語
のディジタル化した表現を記憶し、これらの語を手動、
コンピュータまたは他の入力装置の制御により受は取っ
て再生する。記憶方法としては、PCMまたはフォルマ
ント・パラメータとして記憶する方法を用いるが、画像
合成には影響しない。異音合或は、発声された音を表現
する符号を供給することによりどのような語でも合成で
き、これらの符号は入力テキスト (音声装置のテキス
1−)から直接に発生させる。
どちらの場合でも顔の合成には二段階の処理を行う。す
なわち、上述したような学習段階と、合成された音声に
対応する口の符号語を発生する合成段階である。最初に
限定語型合成を利用する場合について説明すると、音声
誘雷としては、通常はその言語を母国語としている話者
の発声を記録して用い、同じ話者の顔を使用することが
便利である。他の顔が必要な場合、または現在の装置に
映像サービスを付加する場合には、発話された給量を繰
り返し、それに沿って代わりの話者が話してもよい。ど
ちらの方法でも処理は同一である。
学習段階は上述したと同様であり、装置は、必要な顔の
フレームおよび口のルックアップテーブルを獲得する。
しかし、それぞれの語に対応する口の位置の符号語のシ
ーケンスを記録する必要があり、このシーケンスを別の
テーブル(口符号テーブル)に記憶する必要がある。こ
の処理は実時間で実行する必要はなく、それぞれの語に
対する口のシーケンスを最適にすることができる。
合成段階では、合成装置に供給された入力符号を、音声
データとして受は取り音声再生装置または合成装置に送
り出すだけでなく、口の符号語を受は取りこれらを音声
に同期して受信機に送る。
この受信機は、第1図を参照して説明したと同様の、動
画を再構成する装置である。受信機機能を局部的に実行
させ、局部的な表示装置または標乍映像信号を前方に送
信するために使用することもできる。
異音合成の場合にも、実際の顔が必要であり、上述の学
習段階を実行して顔画像および【コ画像のテーブルを作
り出す。ここで、個々の音素(すなわち語の部分)に口
の位置を関連させる必要があり、音声合成による発生と
同時に、顔の持主が、音声合成装置が生成できるそれぞ
れの音素の少なくとも一例を含む一節を発声する必要が
ある。発生された符号語は、ロルックアップテーブルに
入力される。このルックアップテーブルの各内容が一つ
の音素に対応する。多くの内容は一以上の符号語を含む
。ある場合には、与えられた音素に対応する口の形状が
ζ前のまたは後の音素に依存して変化し、これも考慮す
る必要がある。音声および映像データを受は取ると、上
述した方法と同様にして「語全体」を合成することがで
きる。
「合成音声」の実施例において、顔のフレームロ画像の
テーブルおよび口の形状の符号語は、上述した遠隔の受
信機に送信してそこで動画を再生する装置と同様である
が、ある状況、例えば映像表示装置が音声合成コンピュ
ータの出力に接続されている場合には、表示装置をロー
カルで使用し、受信機をテーブルおよび符号の発生装置
として使用することもできる。また、合成画像を局部的
に発生し、一般的な映像信号を遠隔のモニタ装置に送信
することもできる。
同期の問題について説明する。
テキスト音声合成は、 (a)  テキスト入力を音素表現に変換し、(bl 
 音素をより低位の音素表現に変換し、(C)  低位
の音素をホルマント・パラメータに変換する、典型的な
パラメータ更新周期は10m5である。
段階を含む。
この処理はかなりの遅延を含み、特に、変換が内容に依
存する (例えば特性の文字の音がそれに続く音の影響
を受ける)ので、変換段階に固有の遅延が発生する。し
たがって、合成プロセスは、合成された唇の動きが音声
に同期するように、配列およびタイミングを注意深く考
慮する必要がある。
映像合成に音声合成装置からの入力データとして音素表
現を使用し、その下位レベルの音声合成プロセスが予想
される遅延を含む場合には、映像合成に対応して遅延を
導入することにより、準純にタイミングを合わせること
ができる。
音声表現内にフラグを挿入することもできる。
これにより、音素から口の位置を発生するために、ルッ
クアップテーブルを使用するかわりに(または付加して
)、元のテキストに口の形状を設定するためのデータを
付加することができる。どちらの方法でも、フラグが正
確な瞬間を示し、低位の音素レベルに落とした音声表現
で、口の形状の変化を保持することができる。音声合成
装置は、低位の音素符号の列を生成し、これをフォルマ
ント・パラメータに変換し、フォルマント合成装置に送
出する。符号が列を作るので、その前のテキストを発話
してとき、対応する口の形状の変化と同期して、各フラ
グを画像合成装置に送る。
実時間の音声入力に対応して動画を発生する実施例につ
いて説明する。
この場合には、顔を提供する代理話者が必要であり、旧
画像テーブルを作るための学習段階をあらかじめ行う必
要がある。旧画像テーブルを作り出すことは、入力音声
を分析するために使用する方法に依存する。−例として
、周波数を分析してスペクトル・パラメータのシーケン
スを生成し、符号テーブルと共にそれに関連するパラメ
ータおよび旧画像を供給する。
第12図にこのような画像合成装置のブロック構成図を
示す。
母音音素毎に異なる映像を表示する。聴覚的な音素に関
する映像を映像素(viseme)と呼ぶ(バーガー、
「スピーチリーディング:プリンシブル・アンド・メソ
ッド」、ハルチモア;ナショナル・エジケーシッナル・
プレス、1972年刊第73頁ないし第107頁(K、
W、Berger、  rspeeChreading
:Pr1nciples and MethodsJ 
、Baltimore:NationalEducat
ional Press 、 1972、pp73−1
07)参照)。
しかし、子音の多くは同じ映像表現となり、子音映像素
の最も一般的には12に分類される。これは、装置が同
じ分類の現象を取り違えても、視覚的なエラーは生じな
いことを意味する。母音に比べて子音で発生する音声エ
ネルギが少ないので、音声認識装置による子音間の区別
はさらに困難である。
したがって、このような装置では、子音映像素に対して
、多数のなかの一つの子音音素の分布が偶然に対応する
音声を分析するため、全音声域に対応する14ないし1
5チヤネルのフィルタ群10を用いる。漏洩積算計11
を用いて各チャネルの音声エネルギを積算し、標本化回
路12により映像フレーム速度(40ms毎)で標本化
して出力する。トレーニングシーケンスの間に全ての音
素を発生し、フィルタ群10で音声を分析する必要があ
る。個々の発声音声は、標本の各組にわたってエネルギ
のしきい値を調べることにより識別できる。標本値を一
連のメモリ13に蓄え、この後に未知の音声信号が到来
したときには、上述の方法と同様にして音素を認識する
フィルタ群10を使用してこの処理を行い、同じ標本化
速度で未知の音声を分析することができる。
対応する要素の差の自乗を加算することにより、未知の
音声標本を各テンプレートと比較する。最も差の小さい
ものが最も一致したものである。したがって、装置は、
最も音素が一致したものに対応する符号を出力する。無
声音を示す特別の符号も必要である。
トレーニングシーケンスに一連の音素ヲ発声スる一方で
、口頭域の絵の動作シーケンスを捕らえることが必要で
ある。各音素の発生を指摘することにより、シーケンス
中の対応するフレームを特定し、そのフレームの一部を
使用して口の符号表を作成する。動作時には、ルックア
ップテーブルを使用して、音声分析装置により生成され
た符号から適当な口符号をみつける。無声状態を示す符
号のときには、口の形状をほぼ閉じたものにする。
合成シーケンスでは、映像速度で、顔の上に適当な口を
重ねる。
合成音声の場合と同様に、受信機をローカルまたはリモ
ートで動作させることができる。リモートで使用する場
合には、付加的な修正として、送信機に蓄えた旧画像テ
ーブルに、通常に送信機に送信する以上の多数の内容を
記憶させる。これにより、一般的にはまれにしか発生し
ないが、ある種の音声ではしばしば発生する口の形状、
例えばある方言でのみ発生する音声に対応する形状をテ
ーブル内に記憶させておくことができる。このような音
声に対するスペクトル・パラメータの認識は、上述した
ような動的な更新プロセスを行い、関連する口の形状を
受信機で得ることができるようにする。
第13図は以上の実施例で用いるに適した受信機の一例
のブロック構成図である。
入力信号は復号器101に供給され、この復号器101
からフレームメモリに、学習段階の間に受信した静止画
フレームを入力する。この一方で、ロメモリ102は、
必要な数(例えば25)の口の形状を記憶する。読出し
論理回路103はフレームメモリ1(10の内容を繰り
返し読み出し、同期パルスを付加して映像モニタ装置1
04に供給する。伝送段階には、受信した符号語を制御
部105に供給し、制御部105は、書込み制御部10
6を制御し、フレームメモ1月OOの適切な領域にロメ
モリ102の対応する内容を重ね書きする。明らかに、
見ている人が知覚できないように高速で重ね書きを行う
必要がある。更新する領域を小さいブロックに分割し、
ランダムまたはシーケンシャルではないあらかじめ定め
た順番で重ね書きを行うことより、低速でも見ている人
が知覚できないように更新することができる。また、フ
レームメモリがウィンドウを含む構成の場合には、更新
する画像をあらかじめ入力しておき、適当な移動を作り
だすように切り替えることができる。場合によっては、
ウィンドウのxy移動でN単に処理することができる。
〔発明の効果〕
以上説明したように、本発明の画像処理装置は、実質的
に動きのある人間の顔を非常に少ないデータ量で送信で
きる効果がある。また、容易に人間の画像を合成するこ
とができる。本発明は、一般の電話回線による話者の画
像の伝送に利用でき、会議通話等に用いて特に有用であ
る。
【図面の簡単な説明】
第1図は本発明実施例画像伝送装置のブロック構成図。 第2図は話者の顔を示す図。 第3図は話者の口の形状の例を示す図。 第4図は頗の輪郭を識別するためのウィンドウを示す図
。 第5図は目の動きを調べるための一次元マスクを示す図
。 第6図は口の位置を決定するためのウィンドウを示す図
。 第7図は第二の配列の度数分布を示す図。 第8図は開いた状態の口の二値画像を示す図。 第9図は閉じた状態の口の二値画像を示す図。 第10図は顔の回転を補正する方法を示す図。 第11図は二次元変換による擬回転を生成する方法を示
す図。 第12図は画像合成装置のブロック構成図。 第13図は受信機の一例のブロック構成図。 1・・・送信機、2・・・伝送路、3・・・受信器、1
0・・・フィルタ群、11・・・漏洩積算計、12・・
・標本化回路、13・・・メモリ、1(10・・・フレ
ームメモリ、101・・・復号器、102・・・ロメモ
リ、103・・・読出し論理回路、104・・・映像モ
ニタ装置、105・・・制御部、106・・・書込み制
御部。 第1図 第2図 第3図 128X8ウインドウ 第4図 配列とマスク 第5図 口の位置 第6図 :l :: ’5’a o        、a数/7+布59  
□」0 も7 品 尾9 図 第10賃 311  ロ 茅12図 第13図

Claims (14)

    【特許請求の範囲】
  1. (1)映像入力信号を符号化して出力する送信機と、こ
    の送信機からの信号を受信して画像を再生する受信機と を備えた画像伝送装置において、 上記送信機は、 上記映像入力信号の顔の部分の1フレームの画像を上記
    受信機に送信するフレーム送信手段と、上記映像入力信
    号の各フレームから口を表すデータを識別する識別手段
    と、 動作開始時に、この識別手段が識別した口を表すデータ
    から異なる形状を表すデータを選択して記憶する送信側
    記憶手段と、 この送信側記憶手段の記憶内容を上記受信機に通知する
    通知手段と、 画像伝送時に、各フレームの口を表すデータと上記記憶
    手段に記憶されているデータとを比較し、最も似ている
    ものに対応する符号を上記受信機に送信する符号送信手
    段と を含み、 上記受信機は、 上記フレーム送信手段からの1フレームの画像を記憶す
    るフレームメモリと、 上記通知手段からの口を表すデータを記憶する受信側記
    憶手段と、 送信手段からの符号に基づいて上記受信側記憶手段の記
    憶内容を読み出す読出手段と、 この読出手段が読み出した口を表すデータを上記フレー
    ムメモリのデータに重ね合わせる重ね合わせ手段と を含む ことを特徴とする画像伝送装置。
  2. (2)識別手段は、 映像入力信号の最初のフレームから口を表すデータを抽
    出する抽出手段と、 以降の連続する各フレームについて上記抽出手段が抽出
    したデータとの相関を演算してそのフレームの口の領域
    を識別する相関手段と を含む 特許請求の範囲第(1)項に記載の画像伝送装置。
  3. (3)記憶手段は、 各フレームの口を表すデータをすでに蓄えているデータ
    と比較する比較手段と、 この比較の結果が所定のしきい値を越えたときにはその
    データを記憶する更新手段と を含む 特許請求の範囲第(1)項または第(2)項に記載の画
    像伝送装置。
  4. (4)比較手段は、 個々の画素値を減算する減算手段と、 この減算手段により得られた差の絶対値を加算する加算
    手段と を含む 特許請求の範囲第(3)項に記載の画像伝送装置。
  5. (5)送信機は、 映像入力信号中の顔の位置を追跡する追跡手段と、 顔の位置を表す符号データを出力する手段とを含む 特許請求の範囲第(1)項ないし第(4)項のいずれか
    に記載の画像伝送装置。
  6. (6)送信側記憶手段は、画像伝送中にも各フレームの
    口を表すデータをすでに蓄えているデータと比較して内
    容を更新する構成であり、 通知手段は、画像伝送中には、送信側記憶手段が更新さ
    れる毎にその内容を受信機に通知する構成である 特許請求の範囲第(1)項ないし第(5)項のいずれか
    に記載の画像伝送装置。
  7. (7)送信機は、 映像入力信号の各フレームから目を表すデータを識別す
    る目識別手段を含み、 この目識別手段は、 動作開始時に、この目識別手段が識別した目を表すデー
    タから一連の目を表すデータを選択して記憶する目デー
    タ記憶手段と、 この目データ記憶手段の記憶内容を受信機に通知する目
    データ通知手段と、 画像伝送時に、各フレームの目データと上記目データ記
    憶手段に記憶されているデータとを比較し、最も似てい
    るものに対応する符号を上記受信機に送信する目データ
    送信手段と を含む 特許請求の範囲第(1)項ないし第(6)項のいずれか
    に記載の画像伝送装置。
  8. (8)重ね合わせ手段は、読出手段の出力をフレームメ
    モリに書き込む構成である特許請求の範囲第(1)項に
    記載の画像伝送装置。
  9. (9)重ね合わせ手段は、読出手段の出力をフレームメ
    モリの出力に重ね合わせる構成である特許請求の範囲第
    (1)項に記載の画像伝送装置。
  10. (10)受信機は、入力データに応答して画像の顔の領
    域を動かす運動手段を含む特許請求の範囲第(1)項に
    記載の画像伝送装置。
  11. (11)運動手段は、画像の顔の領域をランダムに動か
    す構成である特許請求の範囲第(10)項に記載の画像
    伝送装置。
  12. (12)顔の画像を蓄える顔記憶手段と、 この顔の画像の口の領域に挿入する異なる口の形状のデ
    ータを蓄える口記憶手段と、 入力情報に応答して発話すべき音声を決定する音声合成
    手段と、 この入力情報に対応して上記口記憶手段の読出し番地を
    設定する番地設定手段と、 上記顔記憶手段から読み出した顔の画像と上記口記憶手
    段から読み出した口画像とを重ね合わせる手段と を含む画像合成装置。
  13. (13)音声合成手段は、入力情報を処理して音声信号
    内に口の形状の変化を示すフラグ符号を挿入する手段を
    含み、 番地設定手段および重ね合わせる手段は、フラグ符号に
    同期して口画像を変更する構成である特許請求の範囲第
    (12)項に記載の画像合成装置。
  14. (14)顔の画像を蓄える顔記憶手段と、 この顔の画像の口の領域に挿入する異なる口の形状のデ
    ータを蓄える口記憶手段と、 入力音声信号の周波数を分析する分析手段と、この分析
    手段の出力したスペクトルパラメータのシーケンスに対
    応して上記口記憶手段の読出し番地を設定する番地設定
    手段と、 上記顔記憶手段から読み出した顔の画像と上記口記憶手
    段から読み出した口画像とを重ね合わせる手段と を含む画像合成装置。
JP61271687A 1985-11-14 1986-11-14 画像合成装置 Expired - Lifetime JP2589478B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB8528143 1985-11-14
GB858528143A GB8528143D0 (en) 1985-11-14 1985-11-14 Image encoding & synthesis

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP7309935A Division JP2753599B2 (ja) 1985-11-14 1995-11-01 画像符号化装置

Publications (2)

Publication Number Publication Date
JPS62120179A true JPS62120179A (ja) 1987-06-01
JP2589478B2 JP2589478B2 (ja) 1997-03-12

Family

ID=10588258

Family Applications (2)

Application Number Title Priority Date Filing Date
JP61271687A Expired - Lifetime JP2589478B2 (ja) 1985-11-14 1986-11-14 画像合成装置
JP7309935A Expired - Lifetime JP2753599B2 (ja) 1985-11-14 1995-11-01 画像符号化装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP7309935A Expired - Lifetime JP2753599B2 (ja) 1985-11-14 1995-11-01 画像符号化装置

Country Status (10)

Country Link
US (1) US4841575A (ja)
EP (1) EP0225729B1 (ja)
JP (2) JP2589478B2 (ja)
AT (1) ATE72083T1 (ja)
CA (1) CA1263187A (ja)
DE (1) DE3683609D1 (ja)
ES (1) ES2029230T3 (ja)
GB (1) GB8528143D0 (ja)
GR (1) GR3004011T3 (ja)
HK (1) HK128696A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6480185A (en) * 1987-09-22 1989-03-27 Toshiba Corp Moving picture coding system
JPH01162492A (ja) * 1987-12-18 1989-06-26 Fujitsu Ltd 画像伝送方式
JPH01190188A (ja) * 1988-01-26 1989-07-31 Fujitsu Ltd 画像伝送方式
JPH01190091A (ja) * 1988-01-25 1989-07-31 Nippon Telegr & Teleph Corp <Ntt> 動画像符号化方式
JPH01190187A (ja) * 1988-01-26 1989-07-31 Fujitsu Ltd 画像伝送方式
JPH02296477A (ja) * 1989-05-11 1990-12-07 Mitsubishi Electric Corp 画像信号の符号化器及び復号化器
JPH04142192A (ja) * 1990-10-03 1992-05-15 Graphics Commun Technol:Kk 画像信号符号化装置
JPH0779440A (ja) * 1993-07-12 1995-03-20 Sony Corp デジタル画像信号の伝送装置及び受信装置
US5750157A (en) * 1991-05-31 1998-05-12 Gs Technologies, Inc. Apparatus for the manufacture of pharmaceutical cellulose capsules
JP2001188910A (ja) * 1999-10-22 2001-07-10 Toshiba Corp 画像の輪郭抽出方法、画像からの物体抽出方法およびこの物体抽出方法を用いた画像伝送システム
WO2012140782A1 (ja) * 2011-04-15 2012-10-18 アイシン精機株式会社 瞼検出装置、瞼検出方法及びプログラム

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8710737D0 (en) * 1987-05-06 1987-06-10 British Telecomm Video image encoding
US5136659A (en) * 1987-06-30 1992-08-04 Kokusai Denshin Denwa Kabushiki Kaisha Intelligent coding system for picture signal
GB8817705D0 (en) * 1988-07-25 1988-09-01 British Telecomm Optical communications system
JP2518683B2 (ja) * 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
JPH0357081A (ja) * 1989-07-26 1991-03-12 Canon Inc 画像処理装置
US5440661A (en) * 1990-01-31 1995-08-08 The United States Of America As Represented By The United States Department Of Energy Time series association learning
JP3040466B2 (ja) * 1990-07-17 2000-05-15 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 画像処理方法
DE4028191A1 (de) * 1990-09-05 1992-03-12 Philips Patentverwaltung Schaltungsanordnung zum erkennen eines menschlichen gesichtes
GB9019829D0 (en) * 1990-09-11 1990-10-24 British Telecomm Speech analysis and image synthesis
US5171930A (en) * 1990-09-26 1992-12-15 Synchro Voice Inc. Electroglottograph-driven controller for a MIDI-compatible electronic music synthesizer device
US5613056A (en) * 1991-02-19 1997-03-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
JPH0546743A (ja) * 1991-08-09 1993-02-26 Matsushita Electric Ind Co Ltd 個人識別装置
DE4141575C2 (de) * 1991-12-17 1999-01-21 Juergen Dr Ing Schlechter Verfahren und Schaltungsanordnung zur quasidialoggesteuerten Darstellung eines TV-Programms
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US6418424B1 (en) 1991-12-23 2002-07-09 Steven M. Hoffberg Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5903454A (en) * 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
USRE47908E1 (en) 1991-12-23 2020-03-17 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
USRE48056E1 (en) 1991-12-23 2020-06-16 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US6850252B1 (en) 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US7242988B1 (en) 1991-12-23 2007-07-10 Linda Irene Hoffberg Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5875108A (en) * 1991-12-23 1999-02-23 Hoffberg; Steven M. Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
USRE46310E1 (en) 1991-12-23 2017-02-14 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US6081750A (en) * 1991-12-23 2000-06-27 Hoffberg; Steven Mark Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US5420638A (en) * 1992-04-14 1995-05-30 U.S. Philips Corporation Subassembly for coding images with refresh correction of the data to be coded, and subassembly for decording signals representing these images and previously coded by means of a subassembly of the former kind
FR2689994A1 (fr) * 1992-04-14 1993-10-15 Philips Electronique Lab Dispositif de codage d'images avec rafraîchissement des données à coder.
FR2690031A1 (fr) * 1992-04-14 1993-10-15 Philips Electronique Lab Dispositif de segmentation d'images.
US5323470A (en) * 1992-05-08 1994-06-21 Atsushi Kara Method and apparatus for automatically tracking an object
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US5537662A (en) * 1992-05-29 1996-07-16 Casio Computer Co., Ltd. Electronic montage composing apparatus
US5375195A (en) * 1992-06-29 1994-12-20 Johnston; Victor S. Method and apparatus for generating composites of human faces
US5841470A (en) * 1992-06-29 1998-11-24 British Telecommunications Public Limited Company Coding and decoding video signals
US5542037A (en) * 1992-08-24 1996-07-30 Casio Computer Co., Ltd. Image displaying apparatus wherein selected stored image data is combined and the combined image data is displayed
JP3252381B2 (ja) * 1992-09-08 2002-02-04 ソニー株式会社 パターン認識装置
JPH06168314A (ja) * 1992-11-30 1994-06-14 Matsushita Electric Ind Co Ltd 娯楽装置
US5687280A (en) * 1992-11-02 1997-11-11 Matsushita Electric Industrial Co., Ltd. Speech input device including display of spatial displacement of lip position relative to predetermined position
JPH06187410A (ja) * 1992-12-21 1994-07-08 Casio Comput Co Ltd 似顔絵作成装置
JP3334230B2 (ja) * 1993-03-18 2002-10-15 カシオ計算機株式会社 モンタージュ画像表示制御装置およびモンタージュ画像表示制御方法
GB9308952D0 (en) * 1993-04-30 1993-06-16 Philips Electronics Uk Ltd Tracking objects in video sequences
KR100292138B1 (ko) * 1993-07-12 2002-06-20 이데이 노부유끼 디지탈비디오신호용송신기및수신기
EP0634872B1 (en) * 1993-07-12 2001-09-19 Sony Corporation Processing digital video data
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
DE4435272C2 (de) * 1993-10-01 1997-09-04 Ricoh Kk Verfahren und Vorrichtung zum Extrahieren eines visuellen Merkmalvektors aus einer Folge von Bildern sowie Spracherkennungsvorrichtung
US5623587A (en) * 1993-10-15 1997-04-22 Kideo Productions, Inc. Method and apparatus for producing an electronic image
US7859551B2 (en) * 1993-10-15 2010-12-28 Bulman Richard L Object customization and presentation system
US5466918A (en) * 1993-10-29 1995-11-14 Eastman Kodak Company Method and apparatus for image compression, storage, and retrieval on magnetic transaction cards
US5426460A (en) * 1993-12-17 1995-06-20 At&T Corp. Virtual multimedia service for mass market connectivity
WO1995025316A1 (de) * 1994-03-15 1995-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Personenidentifikation mit bewegungsinformation
DE4413788C1 (de) * 1994-03-15 1995-10-12 Fraunhofer Ges Forschung Personenidentifikation mit Bewegungsinformation
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
US5512939A (en) * 1994-04-06 1996-04-30 At&T Corp. Low bit rate audio-visual communication system having integrated perceptual speech and video coding
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
US5625704A (en) * 1994-11-10 1997-04-29 Ricoh Corporation Speaker recognition using spatiotemporal cues
JPH11506575A (ja) 1995-03-07 1999-06-08 インターバル リサーチ コーポレイション 情報の選択記憶システム及び方法
US5572261A (en) * 1995-06-07 1996-11-05 Cooper; J. Carl Automatic audio to video timing measurement device and method
US5812787A (en) * 1995-06-30 1998-09-22 Intel Corporation Video coding scheme with foreground/background separation
DE19609052A1 (de) * 1996-03-08 1997-09-18 Bernd Dr Med Kamppeter Technische Vorrichtung zum Erzeugen von Tonsignalen (Sprache) aus beliebig großen und verschieden weit entfernten Schriftzeichen und Formen
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
US6205253B1 (en) * 1996-08-19 2001-03-20 Harris Corporation Method and apparatus for transmitting and utilizing analog encoded information
JPH1091795A (ja) * 1996-09-12 1998-04-10 Toshiba Corp 移動物体検出装置及び移動物体検出方法
US6263507B1 (en) 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
KR100236974B1 (ko) 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
SE519679C2 (sv) * 1997-03-25 2003-03-25 Telia Ab Metod vid talsyntes
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
US5995119A (en) * 1997-06-06 1999-11-30 At&T Corp. Method for generating photo-realistic animated characters
EP0893923A1 (en) * 1997-07-23 1999-01-27 Texas Instruments France Video communication system
US6567779B1 (en) 1997-08-05 2003-05-20 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US7366670B1 (en) * 1997-08-05 2008-04-29 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7392190B1 (en) 1997-11-07 2008-06-24 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7117155B2 (en) * 1999-09-07 2006-10-03 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
JPH11219446A (ja) * 1998-02-03 1999-08-10 Matsushita Electric Ind Co Ltd 映像音響再生システム
IT1314671B1 (it) * 1998-10-07 2002-12-31 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per l'animazione di un modellosintetizzato di volto umano pilotata da un segnale audio.
DE19901881A1 (de) * 1999-01-19 2000-07-27 Dcs Dialog Communication Syste Verfahren und System zur Fälschungssicherung bei biometrischer Personenerkennung
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
JP3062080U (ja) * 1999-02-24 1999-09-28 嘉朗 秋山 画面付き電話装置
US7630897B2 (en) * 1999-09-07 2009-12-08 At&T Intellectual Property Ii, L.P. Coarticulation method for audio-visual text-to-speech synthesis
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US6757682B1 (en) * 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
US7392287B2 (en) * 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
EP1250005A1 (en) * 2001-04-12 2002-10-16 BRITISH TELECOMMUNICATIONS public limited company Video communication with feedback of the caller's position relative to the camera
DE10127558A1 (de) * 2001-06-06 2002-12-12 Philips Corp Intellectual Pty Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit Überprüfung der Benutzungsberechtigung von Sprach-, Gestik-, Mimik- und/oder Verhaltensprofilen zur Synthese
US20030058932A1 (en) * 2001-09-24 2003-03-27 Koninklijke Philips Electronics N.V. Viseme based video coding
WO2008156437A1 (en) 2006-04-10 2008-12-24 Avaworks Incorporated Do-it-yourself photo realistic talking head creation system and method
US7027054B1 (en) * 2002-08-14 2006-04-11 Avaworks, Incorporated Do-it-yourself photo realistic talking head creation system and method
US6919892B1 (en) * 2002-08-14 2005-07-19 Avaworks, Incorporated Photo realistic talking head creation system and method
DE10310023A1 (de) * 2003-02-28 2004-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Anordnung zur Videocodierung, wobei die Videocodierung Texturanalyse und Textursynthese umfasst, sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium
US7142250B1 (en) * 2003-04-05 2006-11-28 Apple Computer, Inc. Method and apparatus for synchronizing audio and video streams
US20080317264A1 (en) * 2005-12-21 2008-12-25 Jordan Wynnychuk Device and Method for Capturing Vocal Sound and Mouth Region Images
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
US20230068798A1 (en) * 2021-09-02 2023-03-02 Amazon Technologies, Inc. Active speaker detection using image data
WO2024073803A1 (en) * 2022-10-05 2024-04-11 Tepy Pty Ltd Soundless speech recognition method, system and device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3662374A (en) * 1970-07-13 1972-05-09 Computer Image Corp Automatic generation of a mouth display and animation of the mouth in response to sound
US4104625A (en) * 1977-01-12 1978-08-01 Atari, Inc. Apparatus for providing facial image animation
JPS6234880U (ja) * 1985-08-20 1987-02-28

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6480185A (en) * 1987-09-22 1989-03-27 Toshiba Corp Moving picture coding system
JPH01162492A (ja) * 1987-12-18 1989-06-26 Fujitsu Ltd 画像伝送方式
JPH01190091A (ja) * 1988-01-25 1989-07-31 Nippon Telegr & Teleph Corp <Ntt> 動画像符号化方式
JPH01190188A (ja) * 1988-01-26 1989-07-31 Fujitsu Ltd 画像伝送方式
JPH01190187A (ja) * 1988-01-26 1989-07-31 Fujitsu Ltd 画像伝送方式
JPH02296477A (ja) * 1989-05-11 1990-12-07 Mitsubishi Electric Corp 画像信号の符号化器及び復号化器
JPH04142192A (ja) * 1990-10-03 1992-05-15 Graphics Commun Technol:Kk 画像信号符号化装置
US5750157A (en) * 1991-05-31 1998-05-12 Gs Technologies, Inc. Apparatus for the manufacture of pharmaceutical cellulose capsules
US5756036A (en) * 1991-05-31 1998-05-26 Gs Technologies, Inc. Method for the manufacture of pharmaceutical cellulose capsules
JPH0779440A (ja) * 1993-07-12 1995-03-20 Sony Corp デジタル画像信号の伝送装置及び受信装置
JP2001188910A (ja) * 1999-10-22 2001-07-10 Toshiba Corp 画像の輪郭抽出方法、画像からの物体抽出方法およびこの物体抽出方法を用いた画像伝送システム
US7428335B2 (en) 1999-10-22 2008-09-23 Kabushiki Kaisha Toshiba Method of extracting contour of image, method of extracting object from image, and video transmission system using the same method
US7440614B2 (en) 1999-10-22 2008-10-21 Kabushiki Kaisha Toshiba Method of extracting contour of image, method of extracting object from image, and video transmission system using the same method
WO2012140782A1 (ja) * 2011-04-15 2012-10-18 アイシン精機株式会社 瞼検出装置、瞼検出方法及びプログラム
JP5454737B2 (ja) * 2011-04-15 2014-03-26 アイシン精機株式会社 瞼検出装置、瞼検出方法及びプログラム
US8824739B2 (en) 2011-04-15 2014-09-02 Aisin Seiki Kabushiki Kaisha Eyelid-detection device, eyelid-detection method, and recording medium

Also Published As

Publication number Publication date
US4841575A (en) 1989-06-20
GB8528143D0 (en) 1985-12-18
JP2589478B2 (ja) 1997-03-12
ATE72083T1 (de) 1992-02-15
CA1263187A (en) 1989-11-21
DE3683609D1 (de) 1992-03-05
ES2029230T3 (es) 1992-08-01
GR3004011T3 (ja) 1993-03-31
HK128696A (en) 1996-07-26
EP0225729B1 (en) 1992-01-22
JP2753599B2 (ja) 1998-05-20
EP0225729A1 (en) 1987-06-16
JPH08237655A (ja) 1996-09-13

Similar Documents

Publication Publication Date Title
JPS62120179A (ja) 画像合成装置
US5890120A (en) Matching, synchronization, and superposition on orginal speaking subject images of modified signs from sign language database corresponding to recognized speech segments
US6330023B1 (en) Video signal processing systems and methods utilizing automated speech analysis
US5657426A (en) Method and apparatus for producing audio-visual synthetic speech
US6665643B1 (en) Method of and apparatus for animation, driven by an audio signal, of a synthesized model of a human face
DE60101540T2 (de) Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale
US6014625A (en) Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model
JP2518683B2 (ja) 画像合成方法及びその装置
US6208356B1 (en) Image synthesis
CA2228901A1 (en) Automated speech alignment for image synthesis
EP0674315A1 (en) Audio visual dubbing system and method
WO1997036288A1 (en) Image synthesis
EP0710929A2 (en) Acoustic-assisted image processing
CN113221840B (zh) 一种人像视频处理方法
JP3059022B2 (ja) 動画像表示装置
JP2795084B2 (ja) 口形状画像合成方法及び装置
KR100229538B1 (ko) 얼글 움직임을 인코딩하기 위한 방법 및 장치한 방법 및 장치
JP3299797B2 (ja) 合成画像表示システム
JPH0888853A (ja) メディア処理システム
JPH02196585A (ja) 音声信号通信装置
Morishima et al. Speech-to-image media conversion based on VQ and neural network
JPH01190187A (ja) 画像伝送方式
Theobald et al. Visual speech synthesis using statistical models of shape and appearance.
JPH01162492A (ja) 画像伝送方式
JPH11226050A (ja) 視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term