JPWO2020090128A1

JPWO2020090128A1 - 画像処理装置、方法、コンピュータプログラム

Info

Publication number: JPWO2020090128A1
Application number: JP2019507886A
Authority: JP
Inventors: 健志加畑
Original assignee: 有限会社アドリブ
Priority date: 2018-10-29
Filing date: 2019-02-08
Publication date: 2021-02-15
Anticipated expiration: 2039-02-08
Also published as: JP6516316B1

Abstract

ディスプレイに映し出された動画中の顔の向き、或いは視線について感じる違和感を低減させることのできる技術を提供する。テレビ会議システムを用いてテレビ会議を行う場合、一般的なウェブカメラで撮像された動画像中の対象顔は、例えばやや上方から撮像された画像となり、基本的に、目線も顔の向きも正面を向かない。そこで、画像処理装置は、動画像中の静止画像に含まれる三次元モデルを生成する。画像処理装置は次に、角度θ分だけ下方を向いた三次元モデルを、角度θ分だけ上方向に回転させる。次いで、画像処理装置は、回転させられた後の三次元モデルから再度二次元画像のデータを生成する。これにより、動画像中の対象顔が、基本的に正面を向く。

Description

本発明は、例えば、テレビ会議に応用することのできる画像処理技術に関する。

インターネットを始めとするネットワークが普及して久しく、また、近年ではネットワークによる通信の高速化が著しい。それに伴い、近年では、遠隔地間での動画の送受信が容易になったため、遠隔地間でのテレビ会議（テレビ通話）が極々身近なものになっている。
テレビ会議は、高価な専用装置（専用システム）を用いて実現される場合もあれば、Microsoft（商標） Corporationが提供するSkype（商標）のように、簡易な汎用装置（システム）に加えて動画の送受信用のソフトウェアを用いて実現される場合もある。
それが専用装置によって実現されるにせよ、汎用装置によって実現されるにせよ、テレビ会議の大まかな原理は変わらない。例えば、一対一でテレビ会議が行われる場合、両参加者はネットワークに接続されたコンピュータを準備する。そしてそれら各コンピュータにはそれぞれ、ディスプレイとカメラが接続される。カメラは動画の撮影が可能なデジタルカメラであり、テレビ会議の参加者を撮像する。一方のカメラで撮られた一方の参加者の顔が映り込んだ動画についての動画像データは、一方のコンピュータ及びネットワークを介して他方のコンピュータに送られる。それにより、他方のコンピュータに接続された他方のディスプレイには、一方の参加者の顔が映り込んだ動画が表示される。他方の参加者は、それにより一方の参加者の顔を見ることができる。このような処理を双方向で行うことにより、両参加者は相手の顔を見ながら会議を行うことができる。
もちろん、２つのコンピュータ（或いは両参加者）の間では音声やテキストもやり取りすることができ通常それらの少なくとも一方は必須とされるが、音声やテキストのやり取りは本願とは無関係であるので、それらについての記載は以降においても基本的に省略する。

特開２０１８−０５６９０７国際公開第２０１６／１５８０１４号特開２０１６−０８５５７９特開平６−９０４４５号公報

以上のようにして行われるテレビ会議においてよく知られている課題がある。
上述したように、テレビ会議が行われる場合には、一方のカメラで撮られた一方の参加者の顔が映り込んだ動画についての動画像データは、一方のコンピュータ及びネットワークを介して他方のコンピュータに送られ、それにより、他方のコンピュータに接続された他方のディスプレイに、一方の参加者の顔が映り込んだ動画が表示される。
他方の参加者は、他方のディスプレイに映し出された一方の参加者の顔を見ながらテレビ会議を行うのであるが、そのとき、他方のディスプレイに映し出された一方の参加者の目線が他方の参加者の方向を向いておらず、場合によっては目線のみならず一方の参加者の顔の向きが他方の参加者の方向を向いていないことまである。そのような事態は、他方の参加者に対して激しい違和感を与える。結果としてテレビ会議の参加者の双方は、そのような違和感を抱えたままテレビ会議を行うことになる。
このような不具合が生じるのは、上述した一方の参加者の側で作られる動画像データ、或いは一方の参加者の側で動画像データを作る一方のカメラの位置に問題があるからである。例えば、一方の参加者の顔の正面に一方のディスプレイが存在するとする。その場合、一方の参加者の顔は、基本的には（言い換えれば、一方の参加者が自然な姿勢をとっている場合には）一方のディスプレイに正対した状態となる。この場合において、例えば、一方のカメラが一方のディスプレイの幅方向の中心の上側に配置されているとする。そうすると一方のカメラは、一方のディスプレイと正対する一方の参加者の顔を基本的に斜め上から捉えることになる。そのような場合においては、一方のカメラが生成した動画像データを受け取った他方の参加者の前にある他方のディスプレイに映し出される動画像中に映し出される一方の参加者の目線或いは顔は、他方の参加者の方向を向かず他方の参加者には下方向を見ているように感じられる。
他方の参加者の前にある他方のディスプレイに映し出される動画像中に映し出される一方の参加者の目線或いは顔の向きがあらぬ方向を向くという上述のような現象は、一方のカメラが一方のディスプレイの幅方向の中心の上側にある場合のみならず、一方のカメラが一方のディスプレイの周囲のどこにあっても生じる。もっとも一方のカメラが配置される位置によって他方の参加者の前にある他方のディスプレイに映し出される動画像中に映し出される一方の参加者の目線或いは顔の向きは異なることになる。

上述の如き課題は広く知られているため、そのような課題を解決するための手法も既に幾つか提案されている。
例えば、ディスプレイの少なくとも一部を透明な部材で構成するとともに、カメラをディスプレイの内部或いは背後に設けることで、ディスプレイの前にいる参加者の顔を基本的に正面から撮像するという技術が知られている。もっともディスプレイに対してこのような工夫を行うには大きなコストが必要であるため、この技術は殆ど普及していない。またこの技術は、既に出回っている一般的なディスプレイに後付で使用することができない。
また、ディスプレイの周囲に配置されたカメラで作られた動画像データに映り込んだ顔が動画像中の例えば中心からずれた場合に、そのずれ量を検出して動画像データに対して補正を行い、動画像データに基づく動画像中に映し出される顔を上下方向或いは左右方向に平行移動させるという技術も知られている。しかしながら、動画像データに基づく動画像中に映し出される顔を上下方向或いは左右方向に平行移動させたとしても顔の向きは修正されない。また、かかる技術は、ずれ量の検出を継続的に行い、動画像データに基づく動画像中に映し出される顔の上下方向或いは左右方向の平行移動を継続的に行うものであるから、画像処理に要する演算が複雑になりやすく動画像の遅延を生じやすい。
また、ディスプレイの周囲に配置されたカメラで作られた動画像データに映り込んだ顔の中から更に目線の方向を検出して動画像データに対して補正を行い、動画像データに基づく動画像中に映し出される顔における目線の方向を修正するという技術も知られている。しかしながら、動画像データに基づく動画像中に映し出される顔における目線の方向を補正することにより他方の参加者の前にあるディスプレイに映し出される動画像中の一方の参加者の目線を他方の参加者の目線と一致させることが可能となる場合もあるにせよ、例えば上述の例の場合であれば、他方の参加者の前にある他方のディスプレイに映し出される動画像中に映し出される下を向いた一方の参加者の顔における目は基本的に上目遣いの状態となるから、却って不自然さを増すことすらあり得る。加えて、顔の方向全体の補正を行うにせよ、目線の方向に基づく画像の補正を行うと、一方の参加者が目線を動かしただけで一方の参加者が顔の向きを変えていないのに他方の参加者の前にあるディスプレイに映し出される動画像中の一方の参加者の顔の向きが変わって不自然さが増すこともあり得る。また、この技術においても、上述の場合と同様の理由で、動画像の遅延を生じやすい。
また、上述の特許文献４に記載のような、カメラで作られた動画像データに写り込んだ顔の三次元モデルを生成するとともに、生成した三次元モデルを所定の角度だけ回転させてから再度二次元の画像を得るという技術が知られている。しかしながら、動画像データから顔の三次元モデルを生成するには一般に、２台のカメラを用いてのいわゆるステレオ撮像を行うか、又は、１台のカメラで撮像を行うのであればそのカメラで撮像される動画像データを構成する多数の静止画像はデプスデータを含むものとされなければならない。これらは、カメラとしては一般的なものは無く、そのような一般的でないハードウェアを準備することをユーザに強いる技術は、その普及が極めて困難である。例えば、今どきのラップトップ型のパーソナルコンピュータや、スマートフォン、タブレット等のコンピュータはカメラを内蔵しているし、また、デスクトップ型のパーソナルコンピュータと組合せて用いられるウェブカメラその他のカメラも広く普及している。ステレオカメラでもなければ、デプスデータを含む動画像データも作れず、それら広く普及しているカメラにも応用できる技術でなければ、少なくとも実用、普及には向かない。

本願発明は、主にテレビ会議システムで一般的なカメラと組合せて利用可能な、目前のディスプレイに映し出された動画中の顔の向き、或いは視線について感じる違和感を低減させることのできる、安価で且つ遅延の生じにくい技術を提供することをその課題とする。

上述の課題を解決するために、本願発明者は研究を重ねた。その結果、以下のような知見を得た。
上述したように、テレビ会議に参加する遠隔地にいる両参加者が、目前のディスプレイに映し出された動画中の相手側の参加者の目線或いは顔の向きについて感じる違和感が生じる原因は、上述した一方の参加者の側で作られる動画像データ、或いは一方の参加者の側で動画像データを作る一方のカメラの位置に問題があるからである。
ところで、仮に、上述の例において一方の参加者の前にある一方のディスプレイの全体が透明であり、一方のディスプレイの背後に一方のカメラが存在するのであれば、一方のカメラは、テレビ会議中において一方のディスプレイを正面から見ることになる一方の参加者の顔を基本的に正面から捉えることになる。もしそうなのであれば、一方のカメラが生成した動画像データを受け取った他方の参加者の前にある他方のディスプレイに映し出される動画像中に映し出される一方の参加者の目線或いは顔は、他方の参加者の方向を向く。しかしながら実際のところ、一方のディスプレイは通常その全体が透明ではないから、一方のカメラは一方のディスプレイの周囲のどこかに配置されることになる。
とはいえ、一方のカメラで作られた動画像データを、当該動画像データに基づく動画が、ディスプレイの背後（ディスプレイの内部を含む、以下同じ。）の仮想位置に存在する仮想のカメラで撮像されたように補正することは少なくとも理論上は可能である。そしてそのような補正の行われた動画像データに基づく動画中に含まれる一方の参加者の顔についての顔画像は基本的に正面を向くのであるから、他方のディスプレイに映し出された他方の参加者に対して与える違和感を小さく抑えることができる。
本願発明は、このような知見に基づく。

本願発明は、動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の１つのカメラで１人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部と、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成部と、前記変換動画像データ生成部によって生成された前記変換動画像データを出力する動画像データ出力部と、を備えている、画像処理装置である。
そして、この画像処理装置における前記変換動画像データ生成部は、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成部と、前記三次元モデル生成部で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転部と、前記三次元モデル回転部で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成部と、を備えている。

本願発明におけるカメラは、１つである。また、本願発明におけるカメラは、一般的なカメラであって、動画像データを構成する静止画像データにデプスデータを含まない。カメラは画像処理装置に一体でも良いが、別体でもよい。例えば、画像処理装置が、背景技術で述べたコンピュータ（例えば、カメラを有さないデスクトップ型のコンピュータ）により構成される場合、カメラは画像処理装置とは別体となる。その場合のカメラは、例えば、公知或いは周知のウェブカメラそのものであってもよい。画像処理装置としてのコンピュータとは別体であるこの場合におけるカメラは、画像処理装置としてのコンピュータに有線或いは無線で接続されることになる。また、公知或いは周知のラップトップ型のパーソナルコンピュータや、スマートフォン、タブレット等のコンピュータの多くは、一体型のカメラを備えている。そのようなカメラ一体型のコンピュータにより画像処理装置が構成される場合には、カメラは画像処理装置に含まれることになる。もっともこの場合には、正確には、コンピュータのうちカメラを除いた部分が本願発明でいう画像処理装置であるということになる。また、従来のウェブカメラに、本願発明における画像処理装置を搭載することも可能である。この場合においては、ウェブカメラのうちカメラを除いた部分が本願発明でいう画像処理装置であるということになる。
カメラは、所定の位置である実位置に存在する。実位置は、例えば、画像処理装置であるコンピュータにディスプレイが接続されているのであれば、一般的にはディスプレイの周囲の所定の場所である。また、画像処理装置であるコンピュータが、例えば、ラップトップ型のパーソナルコンピュータ、スマートフォン、タブレットである場合には、一般的には、コンピュータと一体とされたディスプレイの上方における所定の位置にカメラが取付けられているが、その位置がその場合におけるカメラの実位置となる。本願発明の画像処理装置がウェブカメラのような概観を呈しているのであれば、それが取付けられた位置がカメラの実位置となる。いずれにせよ、実位置にあるカメラは、１人の被撮像者の顔である対象顔を撮像するようになっている。カメラは動画を撮像することができ、動画についての動画像データを生成するようになっている。カメラで生成される動画像データは、一般的なものであり、例えば、ＭＪＰＥＧデータである。本願発明における動画像データは、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータであるが、これは極一般的な動画像データである。
画像処理装置は、カメラで生成された動画像データをカメラから受取る動画像データ受付部を備えている。動画像データ受付部は、画像処理装置とカメラが別体であり、画像処理装置とカメラが有線で接続される場合においては一般に、カメラとの有線での接続を実現することのできる、画像処理装置に設けられた入力端子となるであろう。動画像データ受付部は、画像処理装置とカメラが別体であり、画像処理装置とカメラが無線で接続される場合においては一般に、カメラとの無線での通信を実現することのできる、画像処理装置に設けられた受信装置となるであろう。動画像データ受付部は、画像処理装置とカメラが一体である場合には一般に、カメラとの接続を実現する、画像処理装置内に設けられたインターフェイスとなるであろう。
本願発明における画像処理装置は、変換動画像データ生成部を備えている。変換動画像データ生成部は、動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、変換静止画像データに変換する。上述したように画像処理装置がカメラから受取る動画像データ或いはそれに含まれる静止画像データは、実位置にあるカメラによって生成されたものであり、それらに基づく動画或いは静止画像には実位置から写した対象顔が含まれる。対して変換静止画像データは、静止画像データに基づいて、或いは静止画像データを変換して生成されるものであり、正面を向いた（ユーザが自然な体勢を取った）ときの対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置にカメラが存在する場合においてカメラによって撮像される二次元の静止画像である変換静止画像のデータである。つまり、変換静止画像に含まれる対象顔は、ユーザの顔の正面である仮想位置から写した場合における対象顔となる。ここで、カメラの仮想位置は固定であり、カメラの実位置と仮想位置との相対的な位置関係は一定であるから、画像処理装置がカメラから受取った静止画像データを変換静止画像データに変換する処理は基本的に、かかる変換の対象となるすべての静止画像データについて同じになる。したがって個々に異なる処理を行う場合に比較して静止画像データを変換静止画像データに変換する処理は「軽い」ものとなるので、かかるデータの変換が動画の遅延の原因となりにくい。そして、変換動画像データ生成部で次々生成される変換静止画像データを連ねたものが変換動画像データとなる。
静止画像データは、動画を構成する静止画像（いわゆるフレーム）のデータである。画像処理装置がカメラから受取ったすべての静止画像データから変換静止画像データを生成しても構わないが、そうすると動画像の遅延を生じるおそれがある。したがって、遅延が生じないことに重きを置くのであれば、変換静止画像データへの変換の対象とする静止画像データを、動画像データに含まれる静止画像データのうちの、例えば、２つおき或いは３つおき（２フレームおき或いは３フレームおき）の静止画像データとすることができる。そうすると、変換動画像データのフレーム数或いはフレームレート（１秒あたりの変換動画像データに含まれる変換静止画像データの数）は、動画像データのフレーム数（１秒あたりの動画像データに含まれる静止画像データの数）よりも小さくなるが、変換動画像データのフレーム数が少なくとも１０ｆｐｓ程度であれば、変換動画像データによる動画は一応動画として通用する。もちろん、変換の対象となる静止画像データは、２つおきとか３つおきとかの一定の数おきの静止画像データである必要はない。
そして、この画像処理装置は、動画像データ出力部を備えている。動画像データ出力部は、変換動画像データ生成部で生成された変換動画像データを出力する機能を有している。変換動画像データは、例えば、画像処理装置から他の装置へと出力される。変換動画像データの出力先となる他の装置は、画像処理装置と有線又は無線によって直接接続された装置（例えばディスプレイ）であったり、画像処理装置とネットワーク（或いはネットワークと他の装置）を介して接続された装置（他の画像処理装置に接続されたディスプレイ）であったりする。画像処理装置がディスプレイを備えているのであれば、変換動画像データの出力先は画像処理装置が備えるディスプレイである場合もあり得る。また、画像処理装置がカメラと一体であってその概観が一般的なウェブカメラの概観を呈しているのであれば、画像処理装置としてのウェブカメラを従来のテレビ会議システムにおけるウェブカメラと同様に用いると、テレビ会議システムにおけるコンピュータに入力される動画像データを当初から変換動画像データとすることができる。
以上のように生成された変換動画像データに含まれる変換静止画像データのそれぞれに基づく変換静止画像中の対象顔は、上述のように、対象顔の正面に位置する仮想位置にあるカメラで撮像した場合における対象顔の向きと同等のものとなる。したがって、上述の画像処理装置で生成された変換動画像データに基づく動画が何らかのディスプレイに映し出された場合、ディスプレイに映し出された対象顔は基本的に正面を向いた状態となる。したがって、本願の画像処理装置の用途はテレビ会議に制限されるものではないが、例えばテレビ会議にそれが応用された場合には、上述の画像処理装置で生成された変換動画像データに基づく動画が相手側のディスプレイに表示された場合において、相手側が対象顔中の目線或いは対象顔の向きについて感じる違和感を低減させることができる。また、かかる技術は、カメラ、ディスプレイ等のハードウェアに対する工夫を必要とせず、例えば、一般的なコンピュータにソフトウェアを組み合せるだけでも実現可能であるから比較的安価である。また、かかる技術は、上述のように画一的な画像処理を繰り返すものであり、またすべての静止画像データに対して画像処理を行う必要が必ずしもないものであるから、動画の遅延の問題を生じにくい。
加えて、この発明によって得られる変換動画像データに基づく動画像に映った対象顔は、対象顔がディスプレイに表示された場合において、対象顔の持ち主が自然な体勢を取っているときには目線も含めて正面を向いているが、対象顔の持ち主が対象顔を回転させたり目線を動かせば、それに応じてディスプレイに表示された対象顔も回転したり目線が動くことになる。本願発明では、仮想位置にカメラが位置する場合において撮像される動画像である変換動画像をディスプレイに表示するのみであるから、対象顔の動きや視線の動きに基づいて対象顔の映った画像を変換する場合と比較して、ディスプレイに表示される対象顔に不自然さが生じることがない。
前記画像処理装置は、所定のネットワークを介して通信可能とされているとともに２つ対にして用いられるものであり、前記画像処理装置の一方で生成された前記変換動画像データは、前記ネットワークを介して前記画像処理装置の他方へ双方向で送られるようになっていてもよい。こうすることにより、従来と同様のテレビ会議を実現することができる。
なお、本願発明における画像処理装置の用途は、テレビ会議システムに限らない。例えば、自撮り（セルフィー）で撮像した自分の顔の動画を自分が所有するスマートフォン、タブレット、デスクトップ型の或いはラップトップ型のコンピュータ等のディスプレイで見たときに、自分の顔の方向が正面を向いておらず、或いは自分の視線が正面を向いていないため違和感が生じる、という課題も知られている。そのような課題も、本願発明による画像処理装置によって解決することができる。この場合には当然に、画像処理装置によって動画像データから作られた変換動画像データは、他人が有するコンピュータ等に送られる必要はない。

上述したように、本願発明における画像処理装置はまた、変換動画像データ生成部を備えている。そして、これも上述したように、その前記変換動画像データ生成部は、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成部と、前記三次元モデル生成部で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転部と、前記三次元モデル回転部で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成部と、を備えている。
三次元モデル生成部は、動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、静止画像データによって特定される静止画像に写り込んだ対象顔のうちの顔面部分の三次元モデルを生成するものである。三次元モデル及びその生成方法は、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて行われる。近年、顔が写り込んだ一般的な二次元の静止画像１つから（言い換えれば、一枚の顔写真のデータから）その静止画像に写り込んでいる顔の顔面部分の三次元モデルを自動的に作る技術が開発された。かかる技術では、様々な人間の顔を様々な角度から撮像することによって生成された人間の顔の写り込んだ多数の二次元の静止画像をサンプルとしてコンピュータによって機械学習させることによって生成された、ある静止画像から人間の顔面の三次元モデルを生成するアルゴリズムである変換アルゴリズムが使用される。この技術では、その変換アルゴリズムを用いて、静止画像データによって特定される静止画像に写り込んだ対象顔のうちの顔面部分の三次元モデルを、自動的に生成する。ここで、顔面部分とは、人間の頭部のうち、概ね、耳より前で額より下の部分を意味する。
顔が写り込んだ一般的な二次元の静止画像１つからその静止画像に写り込んでいる顔の顔面部分の三次元モデルを自動的に作る近年開発された上述の技術は世間に興味深い技術として認識されている。しかしながら、この技術は面白いとは認識されてはいるものの、その実用的な用途は、今のところ殆ど無い。本願発明は、かかる技術の実用的な用途を提案するものである。上述の変換アルゴリズムは、対象顔のうち少なくとも顔面部分の三次元モデルを生成するものであるが、三次元モデルを生成する場合に用いられる元となる二次元の静止画像は、ステレオカメラで撮影されたデータである必要もないし、また、デプスデータを含んでいる必要もない。つまり、本願発明の画像処理装置と組合せて用いられるカメラは、ごく一般的なもので良いということになる。
三次元モデルは、上述の方法で作られるものであれば良く、例えばワイヤーフレームモデルである。三次元モデル生成部は、動画像データを構成する静止画像データのうちの少なくとも複数に基づいて三次元モデルを生成する。この「少なくとも複数の静止画像データ」は、上述した変換の対象となる静止画像データである。
三次元モデル回転部は、三次元モデル生成部で複数生成された三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行うものである。これは、三次元モデルで特定させる顔面の向きを、仮想位置におけるカメラの方に向ける処理に相当する。
二次元画像生成部は、三次元モデル回転部で回転させられた三次元モデルのそれぞれに基づいて、変換静止画像データを生成する。つまり、二次元画像生成部は、三次元モデルから再度二次元の静止画像についてのデータを作ることにより、変換静止画像についての変換静止画像データを生成する。
三次元モデル回転部で三次元モデルを回転させる場合の角度（もちろん回転の向きも含む。）は、カメラの実位置と仮想位置との相対的な位置関係が一定であるから、どの静止画像データに基づいてなされる処理においても一定となる。したがって、画像処理の対象となる各静止画像データに対して三次元モデル生成部、三次元モデル回転部、及び二次元画像生成部で行われる処理は、いずれの静止画像データに基づいて処理が行われる場合においても同じとなる。これも、動画の遅延の問題が生じにくい理由の一つとなる。

前記三次元モデル生成部は、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分を抜出して前記三次元モデルを生成するとともに、前記静止画像のうちの前記対象顔の顔面部分以外の部分の二次元の静止画像についてのデータである背景画像データを生成するようになっており、前記二次元画像生成部は、前記三次元モデル回転部で回転させられた前記三次元モデルを二次元化したデータである顔面画像データを、前記背景画像データにおける前記対象顔のうちの顔面部分に貼り込むことにより、前記変換静止画像データを生成するようになっていてもよい。
これは、変換静止画像データを生成するための元となる静止画像データによって特定される静止画像のうち、対象顔の顔面部分のデータのみを三次元的に扱い、対象顔の顔面部分を除いた他の部分をそのまま二次元的に扱う、ということを意味する。つまり、三次元モデル生成部は、静止画像に写り込んだ対象顔の顔面部分を認識して、その部分を抜出して三次元モデルを生成し、他の部分（例えば、対象顔の耳や頭髪、或いは対象顔の持ち主の背後の背景）を二次元の静止画像としてそのまま残す。そして、三次元モデル回転部がその三次元モデルを回転させ、次いで、二次元画像生成部が三次元モデル回転部によって回転させられた三次元モデルを二次元の画像に変換し、その画像を、三次元モデル生成部が生成した対象顔の顔面部分が抜出された後の静止画像の対象顔のうち顔面部分が抜出された部分に貼り込む。変換静止画像データをこのような簡単な処理により生成することにより、動画の遅延の問題が更に生じにくくなる。もっとも、このような処理を行った場合、二次元画像生成部が三次元モデル回転部によって回転させられた三次元モデルを二次元の画像に変換することによって生成された顔面の二次元の静止画像と、三次元モデル生成部が生成した対象顔の顔面部分が抜出された後の静止画像とは、必ずしも正確に一致しない。それは、変換静止画像データによって特定される静止画像中に含まれる対象顔に多少の不自然さが生じる可能性を示唆する。しかしながら、本願発明者の研究によれば、変換静止画像データを連ねた変換動画像データに基づく動画を見た者が感じる違和感は、動画像中の対象顔の向きがあらぬ方向を向いている場合に比して遥かに小さかった。これは、その機序は詳しくは不明であるが、ある者が顔を認識する場合に脳が認識の対象となる人間の目を中心に認識するからであり、目が正しくその者の方を向いているのであれば、それ以外の不自然さを認識しないからだと考えられる。このような脳の機能により、上述のごとき変換静止画像の生成の仕方を採用しても、本願発明の効果は十分なものとなる。少なくとも、対象顔の回転角が１５度内外かそれ以下の場合には、変換動画像データに基づく動画を見た者が感じる違和感は実用上問題とならない程度に小さい。
とはいえ、前記三次元モデル生成部は、前記静止画像のうちの前記対象顔の顔面部分以外の部分の静止画像に二次元的な所定の画像処理を行ってから当該静止画像についての前記背景画像データを生成するようになっており、それにより、前記二次元画像生成部が、前記顔面画像データを、前記背景画像データにおける前記対象顔のうちの顔面部分に貼り込む際に、前記顔面画像データと前記対象顔のうちの顔面部分との縁部分がより一致するようになっていてもよい。二次元的な画像処理とは、静止画像に写っている被写体の三次元モデル化を伴わない画像処理を意味する。例えば、対象顔の顔面部分の三次元モデルを回転させた場合、その例えば縦方向の見かけ上の長さが変わることがある。そのような見かけ上の長さの変更に対応して、三次元モデル生成部は、前記対象顔の顔面部分以外の部分の静止画像に縦方向の長さの変更（拡大、或いは縮小）の処理を行うことができる。二次元的な画像処理の例としては、上述の如き１方向における画像の拡縮の他、２方向における画像の拡縮、回転等があり得る。このようにすれば、脳には殆ど認識されない、変換静止画像中の対象顔に生じる可能性のある上述の如き不自然さをより小さくすることができる。もっとも、静止画像のうちの前記対象顔の顔面部分以外の部分の静止画像に、そのような処理を加えることは必須ではない。
前記三次元モデル回転部は、所定の点を中心として前記三次元モデルを回転させるようになっていてもよい。上述のように、三次元モデル回転部は三次元モデルを回転させる。三次元モデルを回転させるための処理としては、三次元モデルをある軸（例えば、両耳を貫く水平な直線、或いは、頭蓋の平面視した場合の中心を鉛直に貫く直線、或いはそれら直線の双方が軸となり得る。）周りに回転させる処理もあり得る。これら処理は、事実上、ロール、ヨー、ピッチの回転を行う処理となる。しかしながら、ロール、ヨー、ピッチによる回転の処理を行うには、それら３種の回転の軸とそれら軸が交わる原点を求めることが必要となるから、三次元モデルの中で耳、或いは頭蓋の平面視した場合の中心の位置を検出してその座標を特定する処理が必要となる。三次元モデルが存在する仮想の空間の中のある点（仮想の点であって、三次元モデルの内部に位置するか否かを問わない。）を中心として三次元モデルを回転させることにより、三次元モデルを、顔面の立体形状をもした単なる塊として扱うことが可能となり、三次元モデルに対について、或いは静止画像中の対象顔についてのそのような処理を省略することが可能となる。つまり、三次元モデルや静止画像において、どこが目でどこが鼻か、といったことを検出する必要がなくなるのである。かかるある点を中心とした三次元モデルの回転は、空間座標の変換により実行することができ、三次元モデルが存在する空間自体の回転と捉えることもできる。所定の点は、例えば、１つのカメラのレンズ位置とすることができる。カメラが画像処理装置に一体であるか否かを問わず、画像処理装置に対するカメラの位置が決まっているのであれば、カメラのレンズ位置を所定の点とすることで、所定の点の位置を決定することが容易になる。所定の点がカメラのレンズ位置であるかを問わず、所定の点を、三次元モデルが存在する仮想の空間の中の原点であるとすると、空間座標の演算が容易になる。

本願発明の画像処理装置が持つ三次元モデル回転部は、上述のように、三次元モデル生成部で複数生成された三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う。ここで、三次元モデルを回転させるべき一定の回転角は、以下のようにして決定することができる。
まず、前記回転角は、予め決定されていてもよい。その場合、回転角は、前記画像処理装置に記録されている。回転角は、カメラの実位置と仮想位置との相対的な位置関係により決まる。画像処理装置が、例えば、ラップトップ型のパーソナルコンピュータ、スマートフォン、タブレットであり、カメラが例えば筐体に着脱自在に取付けられている場合には、カメラの実位置は画像処理装置に対して相対的に固定されている。この場合、例えば、カメラの仮想位置を、ラップトップ型のパーソナルコンピュータ、スマートフォン、タブレットが備えるディスプレイの背後等の適当な位置と決定するのであれば、カメラの実位置と仮想位置を一意に決定できることになる。このように画像処理装置を構成する機器の仕様が当所から明らかなのであれば、通常ユーザがディスプレイと顔とをどの程度離した状態で画像処理装置としてのラップトップ型のパーソナルコンピュータ、スマートフォン、タブレットを使用するのかということを考慮すれば、回転角を予め決定することが可能である。例えば、本願発明の画像処理装置としてラップトップ型のパーソナルコンピュータ、スマートフォン、タブレット等のコンピュータを機能させるためのコンピュータプログラムは、多種多様なそれらコンピュータのそれぞれにおけるカメラの仮想位置（或いは、実位置と仮想位置との関係から把握可能な上述の回転角を特定するデータ）についてのデータ（つまりは、機種とカメラの仮想位置とを対にした、多数組のデータ）を有しているとともに、そのコンピュータにそのコンピュータプログラムがインストールされた後にそのコンピュータの機種がコンピュータプログラムの機能によって自動的に特定されるか、そのコンピュータにそのコンピュータプログラムがインストールされた後に、ユーザがそのコンピュータの機種を特定するための入力を行えるようにする機能を有していてもよい。そうすることによって、コンピュータプログラムによってそのコンピュータを本願発明の画像処理装置として機能させる場合に、機種と仮想位置との関係から、その画像処理装置に相応しい上述の回転角が自動的に決定されるようにすることが可能となる。
他方、画像処理装置が例えばデスクトップ型のコンピュータにより構成される場合或いは画像処理装置がカメラと一体型であって且つウェブカメラと同様の概観を呈する場合であっても、カメラの配置位置（カメラの実位置）が少なくともある程度決定されているのであれば、カメラの実位置と、例えばディスプレイの背後に設定される仮想位置との相対的な位置関係は一意に決定されることになる。例えば、カメラの実位置をディスプレイの幅方向の中央の直上とし、その位置に配置した状態でカメラを使用することが予めわかっているのであれば、カメラの実位置と仮想位置との相対的な関係は一意に決定される。この場合において、ユーザがディスプレイと顔とをどの程度離した状態で画像処理装置を使用するのかということを更に考慮すれば（その距離はディスプレイの大きさにより予定されていることが多い）、回転角を予め決定することが可能である。もっとも、例えば、「ディスプレイの上下方向及び幅方向の中心から何ｃｍ上側の位置にカメラを配置し、カメラの仮想位置から何ｃｍ対象顔を離した状態でこの画像処理装置を使用せよ」という指示をユーザに知らしめるとともに、その位置を仮想位置として予め回転角を決定しておくといった手段を採用する方が、画像処理装置で生成される変換動画像データに基づく動画像中の対象顔は、正しく正面を向くという効果をより正確に得られることになる。

回転角は、このように、事前に決定されておらず、画像処理装置の使用時において画像処理装置によって決定されるようになっていても良い。例えば、画像処理装置は、変換動画像データの生成をはじめる前に、回転角を決定するようになっていてもよい。
画像処理装置は、例えば、前記回転角を、前記動画像データ受付部によって受け付けられた前記動画像データに基づいて所定の演算を行うことにより決定するようになっていてもよい。画像処理装置は、カメラから動画像データを受取るようになっている。画像処理装置は、その三次元モデル生成部によって、動画像データから三次元モデルを生成することが可能である。したがって、三次元モデルをどれだけ回転させれば、仮想位置のカメラに対して正対したユーザの対象顔を、変換静止画像データに基づく静止画像中で正面を向けることができるかを演算によって決定することができる。その角度を回転角とするというのが、この発明である。
画像処理装置は、また、前記回転角を決定するために必要な所定のパラメータを入力するための入力装置から前記パラメータについてのデータを受付けるための入力装置受付部を備えており、前記回転角を、前記入力装置受付部によって受け付けられた前記パラメータについてのデータに基づいて所定の演算を行うことにより決定するようになっていてもよい。画像処理装置を一般的に構成するコンピュータは、入力装置（例えば、キーボード、マウス、タッチパネル）が接続されているか、或いは一体として備えているのが通常であるから、その入力装置を用いてパラメータを入力することができる。かかる入力装置から入力されたパラメータに基づく演算によって回転角を決定する、というのがこの発明である。パラメータは例えば、ディスプレイの形状、大きさを特定する情報、カメラの実位置がどこであるか（例えば、ディスプレイの幅方向の中央におけるディスプレイの直上、ディスプレイの右上隅）を特定する情報、ディスプレイから対象顔までの距離を特定する情報等である。
画像処理装置は、また、前記回転角を決定するために必要な所定のパラメータを検出するセンサから前記パラメータについてのデータを受付けるセンサ受付部を備えており、前記回転角を、前記センサ受付部によって受け付けられた前記パラメータについてのデータに基づいて所定の演算を行うことにより決定するようになっていてもよい。例えば、センサは、画像処理装置に接続され、ディスプレイの幅方向のいずれかの端部に設けられた公知或いは周知の測距装置である。測距装置によって得られたパラメータ（例えば、ディスプレイから対象顔までの距離）を利用して適切な回転角を決定するというのが、この発明である。センサで測定すべきパラメータは距離に限らない。センサは、カメラの実位置と仮想位置との相対的な位置関係や、カメラの仮想位置と対象顔との関係を求めるために有用なパラメータを測定するものとすることができる。
画像処理装置における前記動画像データ出力部は、前記変換動画像データに基づく動画を表示する所定のディスプレイと接続されるようになっていてもよい。この場合における画像処理装置は、前記回転角を変更するためのデータである回転角変更データを受付ける回転角変更データ受付部を備えており、前記三次元モデル回転部は、前記回転角変更データ受付部が前記回転角変更データを受付けるたびに、前記回転角変更データ受付部によって受付けられた前記回転角変更データに基づいて、前記三次元モデルを回転させる前記回転角を変更するようになっていてもよい。この場合には、変換動画像データに基づく動画像がディスプレイに略実時間で表示される。ユーザは、ディスプレイに表示された自らの顔（対象顔）を見ながら回転角変更データを入力して、例えば少しずつ対象顔を回転させることで、ディスプレイに表示された対象顔を、対象顔が基本的に正面を向くように調節することができる。ディスプレイに表示された対象顔が基本的に正面を向くときにおいて三次元モデルを回転させた角度が、回転角として決定される。三次元モデルの回転方向は、これには限られないが、上下方向（Ｘ軸周り）と左右方向（Ｙ軸周り）だけで良い。ユーザは、上述した如き入力装置を用いて、回転角変更データの入力が可能である。
なお、回転角を予め決定しておかない場合において回転角を決定するための上述した４つの工夫は、当然に、必要に応じて組み合わせて使用することもできる。

動画像データ受付部は、動画像データをカメラから直接（例えば、他の装置、機器を経ないで）受取るようになっていても良い。他方、前記動画像データ受付部は、前記動画像データを所定のネットワークを介して前記カメラから受取るようになっていてもよい。この場合、画像処理装置はいわゆるクラウドコンピューティングの技術を利用するものとなる。つまり、ユーザの傍にある例えばコンピュータは、カメラから動画像データを受取り、それをネットワーク（例えば、インターネット）を介して、遠隔地にある画像処理装置に送る。画像処理装置で既に述べたような画像処理を行うことによって生成された変換動画像データを画像処理装置から、更にネットワークを介してユーザのコンピュータに返送する。ユーザの傍にあるコンピュータは、画像処理装置から受け取ったその変換動画像データを、カメラから受け取った動画像データとして利用することができる。例えば、そのコンピュータは、変換動画像データを、テレビ会議の相手側のコンピュータに、ネットワークを介して送ることができる。
画像処理装置を、クラウドコンピューティングの技術を用いて構成することとすれば、ユーザが用いるコンピュータに画像処理に関する高いスペックが要求されることがなくなる。
なお、クラウドコンピューティングの技術を用いた上述の画像処理装置をテレビ会議システムに応用する場合、一方の参加者のコンピュータからネットワークを介して受取った動画像データを変換して生成した変換動画像データを画像処理装置が送信する先は、一方の参加者のコンピュータではなく、他方の参加者のコンピュータであっても良い。

本願発明者は、画像処理装置で実行される方法をも本願発明の一態様として提案する。かかる方法による効果は、本願発明による画像処理装置の効果に等しい。
一例となるその方法は、動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の１つのカメラで１人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部を備えているコンピュータによって実行される方法である。
その方法は、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成過程と、前記変換動画像データ生成過程によって生成された前記変換動画像データを出力する動画像データ出力過程と、を含み、前記変換動画像データ生成過程では、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成過程と、前記三次元モデル生成過程で複数生成された前記対象顔の三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転過程と、前記三次元モデル回転過程で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成過程と、を実行する画像処理方法である。

本願発明者は、画像処理装置として所定の例えば汎用のコンピュータを機能させるためのコンピュータプログラムをも本願発明の一態様として提案する。かかるコンピュータプログラムによる効果は、本願発明による画像処理装置の効果に等しく、また、本願による画像処理装置として所定のコンピュータを機能させることが可能となることもその効果である。
一例となるそのコンピュータプログラムは、動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の１つのカメラで１人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部を備えているコンピュータに、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成過程と、前記変換動画像データ生成過程によって生成された前記変換動画像データを出力する動画像データ出力過程と、を実行させるためのものであり、前記変換動画像データ生成過程では、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成過程と、前記三次元モデル生成過程で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転過程と、前記三次元モデル回転過程で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成過程と、を前記コンピュータに実行させるコンピュータプログラムである。

第１実施形態によるテレビ会議システムの全体構成を示す図。図１に示したテレビ会議システムの通信システムの外観を示す斜視図。図２に示したコンピュータ装置のハードウェア構成を示す図。図２に示したコンピュータ装置の内部に生成される機能ブロックを示すブロック図。図４に示した画像処理部の内部に生成される機能ブロックの例を示すブロック図。第１通信システムのカメラで生成される動画像データの内容を示す図。第１実施形態で動画像データを変換動画像データに変換する場合におけるその変換の原理を説明するための、変換前の顔画像の一例を示す図。第１実施形態で動画像データを変換動画像データに変換する場合におけるその変換の原理を説明するための、回転前の三次元モデルの一例を示す図。第１実施形態で動画像データを変換動画像データに変換する場合におけるその変換の原理を説明するための、回転後の三次元モデルの一例を示す図。第１実施形態で動画像データを変換動画像データに変換する場合におけるその変換の原理を説明するための、変換後の顔画像の一例を示す図。第１実施形態で動画像データを変換動画像データに変換する場合におけるその変換の原理を説明するための他の図。図４に示した画像処理部の内部に生成される機能ブロックの例を示すブロック図。図４に示した画像処理部の内部に生成される機能ブロックの例を示すブロック図。図４に示した画像処理部の内部に生成される機能ブロックの例を示すブロック図。図１に示したテレビ会議システムにおける第２通信システムに含まれるディスプレイに表示される動画像の一例を示す図。図１に示したテレビ会議システムにおける第２通信システムに含まれるディスプレイに表示される動画像の他の例を示す図。変形例によるテレビ会議システムの全体構成を示す図。

以下、図面を参照しつつ本発明の好ましい第１及び第２実施形態及び変形例について説明する。
両実施形態、及び変形例の説明において、同一の対象には同一の符号を付すものとし、重複する説明は場合により省略するものとする。また、特に矛盾しない限りにおいて、各実施形態及び変形例に記載の技術内容は相互に組み合せることができるものとする。

≪第１実施形態≫
図１に、本願発明の画像処理装置を含むシステムの好ましい一実施形態の全体構成を概略で示す。
第１実施形態によるシステムは、テレビ会議システムである。とはいえ、既に述べたように、本願発明の用途はテレビ会議システムには限定されない。
テレビ会議システムは、第１通信システム１０−１と、第２通信システム１０−２とを含んで構成されている。これらはいずれも、ネットワーク４００に接続可能とされている。
ネットワーク４００は、これには限られないが、この実施形態ではインターネットである。
この実施形態における第１通信システム１０−１は、テレビ会議に参加する一方のユーザが使用するものであり、第２通信システム１０−２は、テレビ会議に参加する他方のユーザが使用するものである。

第１通信システム１０−１と、第２通信システム１０−２とは、本願発明との関係では実質的に同じ構成を有し、その機能、効果も共通するので、以下両者をまとめて通信システム１０と称して説明を行う場合がある。
この実施形態における通信システム１０は、通信システム１０の外観を示す斜視図である図２に示すように、画像処理装置としてのコンピュータ装置１００と、ディスプレイ１０１と、カメラ２１０とを含んでいる。この実施形態におけるコンピュータ装置１００と、ディスプレイ１０１と、カメラ２１０とは、これには限られないがすべて別体である。

追って詳しく述べるがこの実施形態におけるコンピュータ装置１００は、汎用のコンピュータにより構成されている。コンピュータ装置１００は市販品でも十分である。より詳細には、この実施形態におけるコンピュータ装置１００は公知或いは周知のデスクトップ型のパソコンである。
コンピュータ装置１００は、ネットワーク４００を介しての通信が可能とされている。コンピュータ装置１００がネットワーク４００を介して行う通信の相手方には、そのコンピュータ装置１００が含まれる通信システム１０と対になる通信システム１０に含まれるコンピュータ装置１００が少なくとも含まれる。

コンピュータ装置１００には、上述したディスプレイ１０１が接続されている。ディスプレイ１０１は、静止画像又は動画像を表示するためのものであり、公知、或いは周知のものを用いることができる。この実施形態におけるコンピュータ装置１００は、動画像を表示できることが要求される。ディスプレイ１０１は市販品で足り、公知、或いは周知のものでよく、例えば、液晶ディスプレイである。この実施形態におけるディスプレイ１０１は、コンピュータ装置１００に対してケーブルによって有線で接続されているが、コンピュータ装置１００と無線で接続されていてもよい。かかるコンピュータ装置１００とディスプレイ１０１との接続のために用いられる技術も、公知或いは周知のもので良い。
コンピュータ装置１００は、また入力装置１０２を備えている。入力装置１０２は、ユーザが所望の入力をコンピュータ装置１００に対して行うためのものである。入力装置１０２は、公知或いは周知のものを用いることができる。この実施形態におけるコンピュータ装置１００の入力装置１０２はキーボードとされているが、入力装置１０２はこれには限られず、テンキー、トラックボール、マウス、マイクロフォン端子を利用した公知、或いは周知の音声入力などを用いることも可能である。ディスプレイ１０１がタッチパネルである場合、ディスプレイ１０１は入力装置１０２の機能を兼ねることになる。
コンピュータ装置１００には、上述したカメラ２１０が１つ接続されている。カメラ２１０は、動画像を撮像することのできるデジタルカメラであり、撮像した動画像についてのデータである動画像データを出力することができるものとなっている。カメラ２１０が生成する動画像データは、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される。そのような機能を有するカメラ２１０は公知或いは周知であり、また市販もされている。静止画像データは例えばＭＪＰＥＧ形式のデータであり、また、静止画像データにはデプスデータは含まれない。この実施形態におけるカメラ２１０はそのようなものであってもよく、例えば、市販のウェブカメラをこの実施形態におけるカメラ２１０として用いることができる。カメラ２１０は、コンピュータ装置１００に対して動画像データを出力する。それを可能とするためにカメラ２１０は、コンピュータ装置１００と例えば有線で接続される。かかる接続は無線で行われても良い。かかるコンピュータ装置１００とカメラ２１０との接続のために用いられる技術も、公知或いは周知のもので良い。
カメラ２１０は所定の位置に固定的に配される。所定の位置は基本的にどこでも良いが、図２に示した通信システム１０を使用するユーザの顔である対象顔がカメラ２１０で撮像された動画像に映り込むような位置である。この実施形態では、ディスプレイ１０１の上側におけるディスプレイ１０１の幅方向の略中央にカメラ２１０が固定されている。カメラ２１０が実際に位置する図２に示された位置が、本発明におけるカメラの実位置となる。

次に、画像処理装置を構成するコンピュータ装置１００の構成について説明する。コンピュータ装置１００のハードウェア構成を、図３に示す。
ハードウェアには、ＣＰＵ（central processing unit）１１１、ＲＯＭ（read only memory）１１２、ＲＡＭ（random access memory）１１３、インターフェイス１１４が含まれており、これらはバス１１６によって相互に接続されている。
ＣＰＵ１１１は、演算を行う演算装置である。ＣＰＵ１１１は、例えば、ＲＯＭ１１２、或いはＲＡＭ１１３に記録されたコンピュータプログラムを実行することにより、後述する処理を実行する。図示をしていないが、ハードウェアはＨＤＤ（hard disk drive）その他の大容量記録装置を備えていてもよく、上述のコンピュータプログラムは大容量記録装置に記録されていても構わない。
ここでいうコンピュータプログラムには、少なくとも、動画像データを変換することにより変換動画像データを生成する後述する処理をコンピュータ装置１００に実行させるためのコンピュータプログラムが含まれる。このコンピュータプログラムは、コンピュータ装置１００にプリインストールされていたものであっても良いし、事後的にインストールされたものであっても良い。このコンピュータプログラムのコンピュータ装置１００へのインストールは、メモリカード等の図示を省略の所定の記録媒体を介して行なわれても良いし、ＬＡＮ或いはインターネットなどのネットワークを介して行なわれても構わない。
ＲＯＭ１１２は、ＣＰＵ１１１が後述する処理を実行するために必要なコンピュータプログラムやデータを記録している。ＲＯＭ１１２に記録されたコンピュータプログラムとしては、これに限られず、ＯＳや、インターネットを介してホームページを閲覧するためのｗｅｂブラウザ、電子メールを扱うためのメーラ等の他のプログラムが含まれる場合も当然にある。
ＲＡＭ１１３は、ＣＰＵ１１１が処理を行うために必要なワーク領域を提供する。場合によっては、上述のコンピュータプログラムやデータ（の少なくとも一部）が記録されていてもよい。
インターフェイス１１４は、バス１１６で接続されたＣＰＵ１１１やＲＡＭ１１３等と外部との間でデータのやり取りを行うものである。インターフェイス１１４には、上述のディスプレイ１０１と、入力装置１０２と、カメラ２１０とが接続されている。
入力装置１０２から入力された操作内容は、インターフェイス１１４からバス１１６に入力されるようになっている。また、カメラ２１０から送られた動画像データも、インターフェイス１１４からバス１１６に入力されるようになっている。
また、周知のようにディスプレイ１０１に画像を表示するためのデータは、バス１１６からインターフェイス１１４に送られ、インターフェイス１１４からディスプレイ１０１に出力されるようになっている。
インターフェイス１１４は、また、インターネットであるネットワーク４００を介して外部と通信を行うための公知の手段である送受信機構（図示を省略）に接続されており、それにより、コンピュータ装置１００は、ネットワーク４００を介してデータを送信することと、ネットワーク４００を介してデータを受信することとが可能になっている。かかるネットワーク４００を介してのデータの送受信は、有線で行われる場合もあるが無線で行われる場合もある。送受信機構の構成は、公知或いは周知のものとすることができる。送受信機構がネットワーク４００から受取ったデータは、インターフェイス１１４により受取られるようになっており、インターフェイス１１４から送受信機構にわたされたデータは、送受信機構によって、ネットワーク４００を介して外部、例えば、この実施形態との関係でいえば、相手方の通信システム１０に含まれるコンピュータ装置１００へ送られるようになっている。

ＣＰＵ１１１がコンピュータプログラムを実行することにより、コンピュータ装置１００内部には、図４で示されたような機能ブロックが生成される。なお、以下の機能ブロックは、コンピュータ装置１００に以下に述べるような処理を実行させるための上述のコンピュータプログラム単体の機能により生成されていても良いが、上述のコンピュータプログラムと、コンピュータ装置１００にインストールされたＯＳその他のコンピュータプログラムとの協働により生成されても良い。
コンピュータ装置１００内には、本願発明の機能との関係で、入力部１２１、主制御部１２２、画像処理部１２３、出力部１２５が生成される。

入力部１２１は、インターフェイス１１４からの入力を受取るものである。
インターフェイス１１４から入力部１２１への入力には、入力装置１０２からの入力がある。入力装置１０２からの入力には、詳細は追って説明するが、例えば、指定データ、及び開始データがある。入力装置１０２から指定データ、及び開始データ等の入力があった場合、それら入力装置１０２からのデータはいずれも、入力部１２１から主制御部１２２へと送られるようになっている。
インターフェイス１１４から入力部１２１へ入力されるデータには、また、テレビ会議の相手方となる通信システム１０に含まれるコンピュータ装置１００から送られてきて送受信機構で受取られたデータがある。かかるデータは、例えば、後述する変換動画像データである。送受信機構、インターフェイス１１４を経て変換動画像データが入力部１２１に受取られた場合、入力部１２１はそれらを主制御部１２２へと送るようになっている。
インターフェイス１１４から入力部１２１へ入力されるデータには、また、カメラ２１０から送られてきた動画像データがある。動画像データを受取った場合、入力部１２１はそれを主制御部１２２に送るようになっている。

主制御部１２２は、コンピュータ装置１００内に生成された各機能ブロック全体の制御を行うものである。例えば、主制御部１２２は、テレビ会議を実現するための通信システム１０間での通信についての制御を行う。
主制御部１２２は、入力部１２１から指定データ、開始データを受取る場合がある。指定データ、開始データを受取った場合、主制御部１２２は、それぞれ後述するような処理を実行するようになっている。なお、指定データを受取った主制御部１２２は、それを出力部１２５へと送るようになっている。
主制御部１２２は、テレビ会議の相手方となる通信システム１０に含まれるコンピュータ装置１００から送られてきて送受信機構で受取られた変換動画像データを入力部１２１から受取る場合がある。これを受取った主制御部１２２は、その変換動画像データを出力部１２５へと送るようになっている。
主制御部１２２は、カメラ２１０から送られてきた動画像データを入力部１２１から受取る場合がある。これを受取った主制御部１２２は、後述する条件が満たされる場合に、その動画像データを画像処理部１２３へと送るようになっている。

画像処理部１２３は、画像処理を行うものである。
画像処理部１２３は、上述したように主制御部１２２から動画像データを受取る場合がある。動画像データを受取った場合、画像処理部１２３は、動画像データに対して画像処理を行い、動画像データを変換動画像データに変換する。
動画像データは、上述したように、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成されている。そして、各静止画像データに基づく静止画像には、対象顔が映り込んでいる。そのような動画像データを、画像処理部１２３は、変換動画像データに変換するのである。かかる変換の具体的処理内容については追って詳しく述べるが、簡単にいうと、画像処理部１２３は、動画像データに含まれる静止画像データのうちの複数を変換して変換静止画像データとするとともに、変換静止画像データを連続させて、変換動画像データとする。つまり、変換動画像データは、変換静止画像データが連続したものである。変換静止画像データは、二次元の静止画像である変換静止画像のデータである。変換動画像データは一般的な動画像データであり、例えばＭＪＰＥＧ形式のデータである。
上述したように動画像データ或いはそれに含まれる静止画像データは、実位置にあるカメラ２１０によって生成されたものであり、それらに基づく動画或いは静止画像には実位置から写した対象顔が映り込んでいる。対して変換静止画像データは、静止画像データに基づいて、或いは静止画像データを変換して生成されるデータである、変換静止画像のデータである。変換静止画像は、正面を向いた（ユーザが自然な体勢を取った）ときの対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置にカメラが存在する場合においてカメラによって撮像されるはずの二次元の静止画像である。つまり、変換静止画像データによって特定される変換静止画像に含まれる対象顔は、ユーザの顔の正面である仮想位置から写した場合における対象顔となり、基本的に正面を向いた状態となる。なお、カメラ２１０の仮想位置については追って詳しく説明する。
なお、静止画像データは、動画を構成する静止画像（いわゆるフレーム）のデータである。画像処理装置がカメラから受取ったすべての静止画像データから変換静止画像データを生成しても構わないが、そうすると動画像の遅延を生じるおそれがある。したがって、遅延が生じないことに重きを置くのであれば、変換静止画像データへの変換の対象とする静止画像データを、動画像データに含まれる静止画像データのうちの、例えば、２つおき或いは３つおき（２フレームおき或いは３フレームおき）の静止画像データとすることができる。そうすると、変換動画像データのフレーム数（１秒あたりの変換動画像データに含まれる変換静止画像データの数）は、動画像データのフレーム数（１秒あたりの動画像データに含まれる静止画像データの数）よりも小さくなるが、変換動画像データのフレーム数が少なくとも６〜８ｆｐｓ程度であれば、変換動画像データによる動画は一応動画として通用する。もちろん、変換の対象となる静止画像データは、２つおきとか３つおきとかの一定の数おきの静止画像データである必要はない。
いずれにせよ、画像処理部１２３は、生成した変換動画像データを、出力部１２５へと送るようになっている。

出力部１２５は、コンピュータ装置１００内の機能ブロックで生成されたデータをインターフェイス１１４に出力するものである。
上述したように、出力部１２５は、主制御部１２２から指定データを受取る場合がある。指定データを受取った場合、出力部１２５は、インターフェイス１１４を介してそれを送受信機構へと送るようになっている。なお、指定データは、テレビ会議を行う場合における相手方の通信システム１０に含まれるコンピュータ装置１００を特定する情報である。
上述したように出力部１２５は、主制御部１２２から変換動画像データを受取る場合がある。この変換動画像データは、相手方の通信システム１０に含まれるコンピュータ装置１００から送られてきたものである。この変換動画像データを受取った場合出力部１２５は、それをインターフェイス１１４を介して、コンピュータ装置１００と接続されているディスプレイ１０１に送るようになっている。ディスプレイ１０１には、その変換動画像データに基づく動画像が表示されることになる。
上述したように、出力部１２５は、画像処理部１２３から変換動画像データを受取る場合がある。この変換動画像データは、出力部１２５がその中にあるコンピュータ装置１００内で生成されたものである。この変換動画像データを受取った場合出力部１２５は、それをインターフェイス１１４を介して、送受信機構に送るようになっている。送受信機構は、上述の指定データによって特定されるコンピュータ装置１００に、その変換動画像データを送るようになっている。

次に、以上で説明したテレビ会議システムの使用方法、及び動作、特には本願発明における画像処理装置として機能する、通信システム１０中のコンピュータ装置１００の使用方法、動作について説明する。

上述したように、テレビ会議システムには、テレビ会議に参加する一方のユーザが使用する第１通信システム１０−１と、テレビ会議に参加する他方のユーザが使用する第２通信システム１０−２とが含まれる。

両ユーザは、テレビ会議を行うための準備を行う。
公知、或いは周知のテレビ会議システムを用いる場合と同様に、一方のユーザは、第１通信システム１０−１中のディスプレイ１０１を見ながら、他方のユーザは、第２通信システム１０−２中のディスプレイ１０１を見ながら、テレビ会議を行う。したがって、一方のユーザは、第１通信システム１０−１中のディスプレイ１０１の前に、他方のユーザは、第２通信システム１０−２中のディスプレイ１０１の前にそれぞれ座るなどして、それぞれ適切な位置に移動する。

また、テレビ会議の参加者は、テレビ会議を行う２人のユーザを特定する。２人のユーザの特定は、公知、或いは周知の技術を用いて実現することができる。例えば、２人のユーザの特定は、テレビ会議に参加する２人のユーザの少なくとも一方が、テレビ会議を行う相手方を指定することで行うことができる。もちろん、双方のユーザが相手方を指定するようにしてもよく、この実施形態では、一方のユーザがテレビ会議を行う相手側を指定し、指定された側のユーザがそれを了承することで、テレビ会議を行う２人のユーザが特定されるようになっている。
第１通信システム１０−１を用いる一方のユーザの側から相手側を特定する場合を例にとって説明を進める。まず、第１通信システム１０−１を用いるユーザが、第１通信システム１０−１に含まれる入力装置１０２を操作して、指定データを生成する。指定データは、テレビ会議を行う相手側のユーザを特定する情報である。例えば、テレビ会議に参加することのあるユーザのそれぞれには、互いにユニークな識別子であるＩＤが付されている。入力装置１０２を用いて、このＩＤを入力するか、予め登録されたＩＤから選択することで、第１通信システム１０−１を用いるユーザは、指定データを入力することができる。この例では、指定データにより、第２通信システム１０−２を用いるユーザのＩＤが指定されるものとする。入力された指定データは、入力装置１０２からインターフェイス１１４を経て入力部１２１に至る。入力部１２１は、指定データに、第１通信システム１０−１自身のＩＤを更に付して、主制御部１２２経由で出力部１２５へそれらを送る。指定データと、第１通信システム１０−１のＩＤは、出力部１２５からインターフェイス１１４を経て送受信機構へと送られる。送受信機構は、指定データによって特定されるＩＤを持つユーザの操作する通信システム１０、つまり第２通信システム１０−２のコンピュータ装置１００に対して、ネットワーク４００を介して、第１通信システム１０−１のＩＤを送る。
第１通信システム１０−１から第２通信システム１０−２へＩＤを送る上述の処理は、第１通信システム１０−１のユーザがテレビ会議の相手方として第２通信システム１０−２のユーザを特定することと、第１通信システム１０−１のユーザが第２通信システム１０−２のユーザに対して行うテレビ会議の申込みとを兼ねている。

ネットワーク４００を介して第１通信システム１０−１のコンピュータ装置１００から送られてきた第１通信システム１０−１のＩＤを第２通信システム１０−２のコンピュータ装置１００は、その送受信機構で受取る。第２通信システム１０−２に含まれるコンピュータ装置１００内で、そのＩＤは、送受信機構からインターフェイス１１４を経て入力部１２１へと至り、更には主制御部１２２に送られる。これを受取った主制御部１２２は、第１通信システム１０−１のユーザからテレビ会議の申込みがあった旨の画像、例えば、第１通信システム１０−１から送られてきた第１通信システム１０−１のユーザのＩＤを含む画像を生成し、その画像のデータを出力部１２５へと送る。出力部１２５はその画像のデータをインターフェイス１１４を経てディスプレイ１０１へと送る。その結果、第２通信システム１０−２に含まれるディスプレイ１０１には、第１通信システム１０−１のユーザからテレビ会議の申込みがあった旨を示す画像が表示される。
第１通信システム１０−１のユーザとテレビ会議を行うことを了承する場合、第２通信システム１０−２のユーザは、その了承の意思を示す入力を、入力装置１０２を用いて行う。これが第２通信システム１０−２に含まれるコンピュータ装置１００における指定データに相当する。第１通信システム１０−１のユーザとテレビ会議を行うことを了承しない場合、第２通信システム１０−２のユーザは、その了承の意思を示す入力を行わないか、第１通信システム１０−１のユーザとのテレビ会議を了承しないという意思を示す入力を行う。この場合、テレビ会議は実現されない。第２通信システム１０−２のユーザがテレビ会議を行うことを了承する意思表示を行った場合、その旨を示すデータである指定データが第２通信システム１０−２に含まれるコンピュータ装置１００における入力装置１０２から入力された場合、指定データは、インターフェイス１１４、入力部１２１を経て主制御部１２２へと送られる。
それを受取った主制御部１２２は、テレビ会議を行う準備ができたことを示すデータを生成し、それを出力部１２５に送る。そのデータは、出力部１２５からインターフェイス１１４を経て送受信機構に送られ、送受信機構からネットワーク４００を介して第１通信システム１０−１へと送られる。

第１通信システム１０−１におけるコンピュータ装置１００の送受信機構は、第２通信システム１０−２から送られてきたそのデータを受取る。そのデータは、送受信機構からインターフェイス１１４、入力部１２１を経て、第１通信システム１０−１のコンピュータ装置１００の主制御部１２２に送られる。
以上で、第１通信システム１０−１におけるコンピュータ装置１００と、第２通信システム１０−２におけるコンピュータ装置１００は、テレビ会議に必要となる動画像についてのデータである、変換動画像データの送受信をお互いに行うための準備が調った状態となる。
また、テレビ会議を行う前に、両ユーザの顔である対象顔が、両ユーザの傍にある通信システム１０に含まれるカメラ２１０の撮像範囲内にそれぞれ位置するように、テレビ会議に参加する両ユーザは、例えば、自らの姿勢を調整したり、カメラ２１０の位置や角度を調整したりということを必要に応じて行う。
以上で、テレビ会議の準備は終了する。

次いで、テレビ会議を開始する。
これには限られないがこの実施形態では、第１通信システム１０−１を用いるユーザが開始データの入力を行うと、第１通信システム１０−１で生成された変換動画像データの第２通信システム１０−２への送信が行われて、第２通信システム１０−２に含まれるディスプレイ１０１にその変換動画像データに基づく動画像が表示されるとともに、第２通信システム１０−２を用いるユーザが開始データの入力を行うと、第２通信システム１０−２で生成された変換動画像データの第１通信システム１０−１への送信が行われて、第１通信システム１０−１に含まれるディスプレイ１０１にその変換動画像データに基づく動画像が表示される。これら２つの処理の内容は事実上同じであるから、第１通信システム１０−１で変換動画像データが生成され、生成されたその変換動画像データが第２通信システム１０−２に送られ、そして第２通信システム１０−２に含まれるディスプレイ１０１にその変換動画像データに基づく動画像が表示される場合の処理のみに着目して以下の説明を行う。

第１通信システム１０−１のユーザは、入力装置１０２を用いて開始データを入力する。開始データの入力が行われると、開始データは、指定データの場合と同様に、入力装置１０２から、第１通信システム１０−１のコンピュータ装置１００内の主制御部１２２へと送られる。それを受取った主制御部１２２は、第２通信システム１０−２内のコンピュータ装置１００へと変換動画像データを送信するための処理を開始する。

これには限られないがこの実施形態では、開始データの入力が行われるか否かに限らず、コンピュータ装置１００には、コンピュータ装置１００に接続されているカメラ２１０から、動画像データが送られてきており、動画像データはインターフェイス１１４、入力部１２１を経て主制御部１２２へと常に送られて来ている。開始データの入力が行われるまでは、主制御部１２２は動画像データを受取っても何らの処理も行わないが、動画像データを受取った場合には、受取った動画像データを画像処理部１２３へと送る。

動画像データを受取った画像処理部１２３は、動画像データを、変換動画像データに変換する処理を行う。動画像データ、変換動画像データはそれぞれ既に述べた通りのものであり、その変換はどのように行われても良い。この実施形態では、第１から第４の変換方法という、４種類の変換の方法を提案する。

（第１の変換方法から第４の変換方法の共通点）
画像処理部１２３は、動画像データに含まれる静止画像データから、少なくとも複数の静止画像データを画像処理（変換）の対象として抜き出す、コマ落とし部を備えている。ただし、後述するようにコマ落とし部は必須ではない。
また、画像処理部１２３は、コマ落とし部で抜き出された少なくとも複数の静止画像データのそれぞれから、静止画像データによって特定される静止画像に写り込んだ対象顔のうち、顔面部分についての三次元モデルを生成する三次元モデル生成部を備えている。
また、画像処理部１２３は、三次元モデル生成部で複数生成された三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転部を備えている。
また、画像処理部１２３は、三次元モデル回転部で回転させられた三次元モデルのそれぞれに基づいて、変換静止画像データを生成する二次元画像生成部を備えている。
これらの機能は第１の変換方法から第４の変換方法で変わりはない。
第１の変換方法から、第４の変換方法までの各変換方法で異なるのは概ね、三次元モデル回転部で対象顔を回転させる場合における三次元モデルの回転角（回転方向を含む）を決定する方法のみである。

（第１の変換方法）
第１の変換方法を画像処理部１２３が実行する場合、画像処理部１２３は、図５に示したように構成されている。
この場合における画像処理部１２３は、コマ落とし部１２３Ａ、三次元モデル生成部１２３Ｂ、三次元モデル回転部１２３Ｃ、二次元画像生成部１２３Ｄを備えている。
上述したように、コマ落とし部１２３Ａは、動画像データに含まれる静止画像データから、少なくとも複数の静止画像データを画像処理（変換）の対象として抜き出すものである。抜き出された静止画像データのみが、静止画像データから変換静止画像データへと変換される。動画像データに含まれる静止画像データのすべてを変換静止画像データへの変換の対象としないのは、コンピュータ装置１００のコンピューティングパワーが、即時性の求められる動画像データの変換動画像データへの変換（或いは、静止画像データの変換静止画像データへの変換）を行うには不足する場合があり得るからである。したがって、コンピュータ装置１００のコンピューティングパワーが十分なのであれば、コマ落とし部１２３Ａは不要であるということになる。
これには限られないが、この実施形態におけるコマ落とし部１２３Ａは、カメラ２１０から送られてきた６０ｆｐｓの動画像データに含まれる静止画像データを５つ置きに抜き出し、１秒あたり１０の静止画像データを抜き出すこととしている。もっとも、コマ落とし部１２３Ａは常に一定の数おきの静止画像データを抜き出す必要はなく、また、１秒あたりで抜き出される静止画像データの数を１０とする必要もない。その数は、例えば、６〜８程度、或いはそれ以上とすることができる。
また、三次元モデル生成部１２３Ｂは、上述のように、コマ落とし部１２３Ａで抜き出された少なくとも複数の静止画像データのそれぞれから、静止画像データによって特定される静止画像に写り込んだ三次元モデルを生成する。三次元モデルは、例えば、ワイヤーフレームモデルであるがこれに限定されるものではない。
また、三次元モデル回転部１２３Ｃは、三次元モデル生成部１２３Ｂで複数生成された三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う。三次元モデルのそれぞれが回転させられる向き及び角度はすべての三次元モデルについて一定である。また、二次元画像生成部１２３Ｄは、三次元モデル回転部１２３Ｃで回転させられた三次元モデルのそれぞれに基づいて、変換静止画像データを生成する。
ここで、三次元モデル回転部１２３Ｃが三次元モデルを回転させるときにおける回転角は、回転させられた後の三次元モデルに基づいて二次元画像を生成した（即ち、二次元画像に戻した）ときにその二次元画像に含まれることになる対象顔（より正確には、対象顔の顔面部分）が、仮想位置にあるカメラで撮像した場合における対象顔と同じものとなるように決定される。仮想位置は、正面を向いた（ユーザが自然な体勢を取った）ときの対象顔から正面方向に伸びる仮想の直線上の所定の位置である。つまり、三次元モデル回転部１２３Ｃは、実位置にあるカメラ２１０で撮像された動画像データ（或いは静止画像データ）を、対象顔に関しては、仮想位置にある仮想のカメラで撮像したものと同じになるように、対象顔の顔面部分の三次元モデルを回転させるのである。
第１の変換方法では、回転角は予め決定されている。回転角を特定するデータは例えば、三次元モデル回転部１２３Ｃに予め記録されており、その回転角を特定するデータで特定される回転角分だけ、三次元モデル回転部１２３Ｃは三次元モデルを回転させる。

三次元モデル生成部１２３Ｂ、三次元モデル回転部１２３Ｃ、二次元画像生成部１２３Ｄでそれぞれ行われる処理の内容、及び本願発明の原理を、図６〜図８を用いて概念的に説明する。
図６（Ａ）には、カメラ２１０と対象顔の関係が側面図で示されている。カメラ２１０は、ディスプレイ１０１の直上の実位置に存在している。なお、この例では、カメラ２１０は、水平方向で考えれば対象顔の正面方向ではあるが、対象顔よりも上側に位置するものとする。この場合には、カメラ２１０は、角度θの分だけ上側から対象顔を撮像することになり、カメラ２１０で生成される動画像データによる動画像、或いは動画像データに含まれる静止画像データによる静止画像中に映り込んだ対象顔は、角度θ分だけ上側から撮像されたものとなる。かかる動画像データによる画像を、相手方の通信システム１０に含まれるディスプレイ１０１で表示した場合の例を示すのが、図６（Ｂ）である。この例から明らかなように、動画像データそのものに基づく動画像をディスプレイ１０１に表示した場合、動画像に含まれる対象顔は角度θ分だけ下方を向いた状態となる。
ここで、三次元モデル生成部１２３Ｂが、静止画像データによって特定される静止画像に含まれる対象顔のうちの顔面部分の三次元モデルを生成する。
三次元モデル生成部１２３Ｂは、まず、静止画像に含まれる画像の中から、対象顔の顔面部分Ｆを抽出する。顔面部分Ｆの抽出の方法は、どのような方法によっても良いが一般的な画像認識技術によれば良い。図７（Ａ）において破線で囲まれた範囲が顔面部分Ｆである。この実施形態における顔面部分は、これには限られないが、人間の頭部（対象顔）のうち、概ね、耳より前で額より下の部分を意味する。もっとも、顔面部分の範囲が、少なくとも目、鼻、口を含む範囲でより狭くとも、また、頭部の全体に至るまでより広くとも構わない。
三次元モデル生成部１２３Ｂは、上述の顔面部分Ｆについての三次元モデルを生成する。三次元モデル生成部１２３Ｂは、多数の顔の機械学習によって得られた人間の顔の三次元モデルを推定する変換アルゴリズムを用いて三次元モデルの生成を行う。顔が写り込んだ一般的な二次元の静止画像１つから（言い換えれば、一枚の顔写真のデータから）その静止画像に写り込んでいる顔の顔面部分の三次元モデルを自動的に作る技術は、”Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression/Accepted to ICCV 2017”（URL：http://aaronsplace.co.uk/papers/jackson2017recon/）の論文に詳しく開示されている。上述の変換アルゴリズムは、様々な人間の顔を様々な角度から撮像することによって生成された人間の顔の写り込んだ多数の二次元の静止画像をサンプルとしてコンピュータによって機械学習させることによって生成されたものである。三次元モデル生成部１２３Ｂは、その変換アルゴリズムを用いて、静止画像データによって特定される静止画像に写り込んだ対象顔のうちの顔面部分Ｆの三次元モデルを、自動的に生成する。
その場合により生成される三次元モデルは、例えば、図７（Ｂ）に示されたようなものとなる。図７（Ｂ）（１）に示されたのは、正面から見た対象顔の顔面部分Ｆの三次元モデルである。三次元モデルは、これには限られないがワイヤーフレームモデルとなっている。また、同（２）に示されたのは、顔面部分Ｆの三次元モデルの側面図であってワイヤーフレームを省略したものである。顔面部分Ｆは、図６（Ａ）で示した角度θ分だけ下を向いている。
三次元モデル生成部１２３Ｂは、また、静止画像データのうち、顔面部分Ｆを除いた部分のデータ、つまり、図７（Ａ）における顔面部分Ｆの周囲の部分の静止画像についてのデータを生成し、それを二次元画像生成部１２３Ｄに送る。
角度θ分だけ下方を向いた状態にある三次元モデルは当然に、角度θ分だけ上方向に回転させれば正面を向く。ここで、角度θは、図８に示したａとｂを用いて簡単に求めることができる。θは、θ＝ａｔａｎ（ｂ／ａ）というごく簡単な計算式によって求められる。ここで、ａは、カメラの仮想位置Ｘから対象顔までの水平方向の距離、ｂは、カメラ２１０の仮想位置Ｘからカメラ２１０の実位置までの垂直方向の距離である。なお、この例ではカメラ２１０の仮想位置Ｘは、対象顔の正面方向におけるディスプレイ１０１の直前の位置としている。つまり、仮想位置Ｘは、自然な体勢を取ったユーザの対象顔の正面方向に伸びる仮想の直線上に位置する。その条件が満たされる限り、仮想位置Ｘとディスプレイ１０１の相対的な位置関係は不問であり、例えば仮想位置Ｘはディスプレイ１０１内に位置しても良いし、ディスプレイ１０１の背後に位置しても良い。例えば、ａが４０ｃｍ、ｂが=１０ｃｍならθ は約１４度、ａが３０ｃｍ、ｂが５ｃｍならθは約９．５度となる。２つの角度のうちの前者は、デスクトップ型のコンピュータ装置１００と組み合わせて作られる通信システム１０においてよく見られる値であって、後者は、スマートフォンを用いて作られる通信システム１０においてよく見られる値である。
図７（Ｂ）に示された三次元モデルを、三次元モデル回転部１２３Ｃが角度θ分だけ垂直平面内で上方向に回転させる。そうすると、三次元モデルは、図７（Ｃ）に示したように正面を向く。図７（Ｃ）（１）に示されたのは、正面から見た対象顔の顔面部分Ｆの三次元モデルである。また、同（２）に示されたのは、顔面部分Ｆの三次元モデルの側面図であってワイヤーフレームを省略したものである。これには限られないが、この実施形態における三次元モデル回転部１２３Ｃは、所定の点を中心として三次元モデルを回転させる。三次元モデルを回転させるための処理としては、三次元モデルをある軸（例えば、両耳を貫く水平な直線、或いは、頭蓋の平面視した場合の中心を鉛直に貫く直線、或いはそれらの双方）周りに回転させることも可能である。しかしながら、そのような処理を行うには、三次元モデルの中で耳、或いは頭蓋の平面視した場合の中心の位置を検出してその座標を特定する処理が必要となる。三次元モデルが存在する仮想の空間の中のある点（仮想の点であって、三次元モデルの内部に位置するか否かを問わない。例えば、その点は、三次元モデルが存在する仮想空間を特定する原点である。）を中心として三次元モデルを回転させることにより、上述の如き煩雑な処理を省略することが可能となる。これには限られないが、この実施形態では、所定の点は、カメラのレンズ位置であり、三次元モデルが存在する仮想の空間の原点である。また、これには限られないが、この実施形態では、三次元モデルの回転は、所定の点を原点とした空間座標の変換として実行される。このようにすることで、三次元モデルや静止画像において、どこが目でどこが鼻か、といったことを検出する必要がなくなるり、三次元モデルを対象顔の顔面の形状を持った単なる塊として扱えるようになる。
そして、二次元画像生成部１２３Ｄが、三次元モデル回転部１２３Ｃによって回転させられた後の図７（Ｃ）に示された三次元モデルを用いて、再度二次元画像のデータを生成する。かかる二次元画像は、三次元モデル生成部１２３Ｂから二次元画像生成部１２３Ｄへと送られていた、静止画像データのうち顔面部分Ｆを除いた部分のデータにおける、除かれている顔面部分Ｆに対応する範囲に貼り込まれる。そのようにして得られた静止画像が変換静止画像であり、変換静止画像のデータが変換静止画像データである。得られた変換静止画像に含まれる対象顔は、図７（Ｄ）に示したように、基本的に正面を向く。三次元モデル生成部１２３Ｂから二次元画像生成部１２３Ｄへと送られる、静止画像データのうち顔面部分Ｆを除いた部分のデータは、静止画像データのうち顔面部分Ｆを除いた部分のデータそのものであってもよいが、それに対して何らかの処理を行ったものであっても構わない。図７（Ｄ）における顔面部分Ｆの範囲は、図７（Ｂ）における顔面部分Ｆと一致しているが、その範囲に貼り込まれる、回転させられた後の三次元モデルを用いて生成された二次元画像の縁は、顔面部分Ｆの範囲の縁と完全には一致しないことがある。それによる不自然さを低減させたいのであれば、上述の何らかの処理を行えば良い。その処理は例えば、回転後の三次元モデルから生成された二次元画像の縁を、顔面部分Ｆの縁と一致させるためのものであればどのようでも良いが、その処理は二次元的な画像処理であって、例えば、１方向における画像の拡縮の他、２方向における画像の拡縮、回転等が考えられる。例えば、下を向いた対象顔の顔面部分Ｆの三次元モデルを回転させて正面を向けた場合、その例えば縦方向の見かけ上の長さが短くなる。そのような見かけ上の長さの変更に対応して、三次元モデル生成部１２３Ｂは、対象顔の顔面部分Ｆ以外の部分の静止画像に縦方向の長さを縮小させる処理を行うことができる。そうすると、三次元モデルから生成された顔面の画像の縁は顔面部分Ｆの範囲に良く一致するようになる。
なお、カメラ２１０の実位置が顔の正面方向からずれているのであれば、上述の例で縦方向で三次元モデルを回転させたのと同様にして、水平平面内で横方向に回転させることが当然に必要となるが、その説明は省略する。もちろん、三次元モデル回転部１２３Ｃは、縦方向での回転と横方向の回転との２つの処理を個別に行う必要はなく、両回転を合成した１回の回転を三次元モデル回転部１２３Ｃで行うことももちろん可能である。

このようにして、コマ落とし部１２３Ａで抜き出された静止画像データのそれぞれは、変換静止画像データに変換される。
その結果生成された変換静止画像データは、二次元画像生成部１２３Ｄから次々に出力部１２５に対して出力される。この多数連なった変換静止画像データの集合が変換動画像データである。つまり、画像処理部１２３から出力部１２５に、変換動画像データが出力されることになる。

なお、第１の変換方法を実行する場合には、上述のように、よくある、或いは典型的な回転角θ（上述の例でいえば、１４度とか９．５度）を、三次元モデル回転部１２３Ｃが三次元モデルを回転させるための角度として用いる。この回転角は複数の回転角の中から選択可能とすることも可能ではあるが、しかしながら基本的に固定されたものとなっている。したがって、上述の例におけるａとｂの数値が、カメラ２１０の実位置と仮想位置との関係に即していない場合もあり得る。カメラ２１０の仮想位置は、コンピュータプログラムとの関係で自由に決定することができることに鑑みれば、そのような事態は、要するに、カメラ２１０の実位置がコンピュータプログラムの設計時に予定された位置でない位置にある、という場合に生じる。
したがって、第１の変換方法は、カメラ２１０の実位置が予定された位置或いはそこからそう遠くない位置に存在する場合に特に有効になる。例えば、コンピュータ装置１００が、ラップトップ型のパーソナルコンピュータ、スマートフォン、タブレット等である場合には、カメラの実位置はそれらの筐体に対して固定されている。そのような場合には、例えば、カメラの仮想位置を、ラップトップ型のパーソナルコンピュータ、スマートフォン、タブレットが備えるディスプレイの直前、或いは背後等の適当な位置と決定するのであれば、カメラの実位置と仮想位置を一意に決定できることになる。このように画像処理装置を構成する機器の仕様が当所から明らかなのであれば、対象顔とカメラ２１０の仮想位置との距離、或いは対象顔とディスプレイ１０１との距離はディスプレイ１０１の大きさによってある程度予想可能であるから、それらを総合的に考慮すれば、ある程度確からしい精度で回転角θを予め決定することが可能である。たとえば、コンピュータ装置１００を本願における画像処理装置として機能させるためのコンピュータプログラムには、多種多様なラップトップ型のパーソナルコンピュータ、スマートフォン、タブレット等のそれぞれにおけるカメラの仮想位置（或いは、実位置と仮想位置との関係から把握可能な上述の回転角を特定するデータ）についてのデータ（つまりは、機種とカメラの仮想位置とを対にした、多数組のデータ）を含めておくことができる。その場合、コンピュータ装置１００にそのコンピュータプログラムがインストールされた後において、コンピュータプログラムがそのコンピュータの機種を自動的に特定する機能か、或いは、コンピュータ装置１００にそのコンピュータプログラムがインストールされた後において、コンピュータプログラムがインストールされたコンピュータ装置１００の機種を特定するためのユーザがした入力を受け付ける機能のいずれかを、そのコンピュータプログラムが実装していてもよい。そうすることによって、コンピュータプログラムによってそのコンピュータ装置１００を本願発明の画像処理装置として機能させる場合に、機種と仮想位置との関係から、その画像処理装置に相応しい上述の回転角を自動的に決定できるようにすることが可能となる。
また、コンピュータ装置１００がこの実施形態で説明しているようにデスクトップ型であり、ディスプレイ１０１とカメラ２１０の位置関係をある程度の自由度を持って決定できる場合であっても、予め回転角を決定しておくことも可能である。その場合には、例えば、「ディスプレイの上下方向及び幅方向の中心から何ｃｍ上側の位置にカメラを配置し、ディスプレイの中央の直前のカメラの仮想位置から何ｃｍ対象顔を離した状態でこの画像処理装置を使用せよ」という指示をユーザに知らしめてユーザにディスプレイ１０１とカメラ２１０の位置関係を予め設定した通りにさせるとともに、上述のようにして決定した仮想位置とユーザがそう設定するであろうカメラ２１０の実位置との関係を考慮して、予め回転角を決定しておくことも可能である。

（第２の変換方法）
第２の変換方法を画像処理部１２３が実行する場合、画像処理部１２３は、図９に示したように構成されている。
この場合における画像処理部１２３は、第１の変換方法を実行する画像処理部１２３と同様に、コマ落とし部１２３Ａ、三次元モデル生成部１２３Ｂ、三次元モデル回転部１２３Ｃ、二次元画像生成部１２３Ｄを備えている。それらの構成、機能は、第２の変換方法を実行する場合における三次元モデル回転部１２３Ｃが回転角を特定するデータを予め記録していないという点を除けばすべて、第１の変換方法の場合と同じである。
他方、第２の変換方法を実行する画像処理部１２３には、角度検出部１２３Ｅが存在する。角度検出部１２３Ｅは、主制御部１２２から送られてきた動画像データに基づいて所定の演算を行うことにより、上述の回転角を決定するものである。なお、図９では、主制御部１２２から角度検出部１２３Ｅに直接動画像データが入力されるものとしているが、角度検出部１２３Ｅは、コマ落とし部１２３Ａが抜き出した静止画像データに基づいて回転角θ決定してもよい。
このような角度検出部１２３Ｅを用いるのであれば、カメラ２１０の実位置と仮想位置との相対的な位置関係にこだわる必要はなくなる。
角度検出部１２３Ｅが動画像データから回転角を自動的に求められるようにするには、角度検出部１２３Ｅに機械学習をさせておくことが考えられる。様々な角度から撮像した顔の画像と、それぞれの画像をどのような角度から撮像したのかということを角度検出部１２３Ｅに学習させておけば、動画像データに含まれる静止画像データによる静止画像に映り込んだ顔がどのような角度から撮像されたのかを角度検出部１２３Ｅに検出させることが可能となる。それが可能であるなら当然に角度検出部１２３Ｅは、回転角θの大きさをもちろん回転の方向も含めて決定することができる。
なお、第２の変換方法を用いる場合においては、例えば、「回転角を決定するまでの例えば数秒間は、正面を向いた状態を保て」といった指示をユーザに知らしめておくとともに、ユーザにその指示を守らせるようにするのが望ましい。さもなくば、入力装置１０２から、回転角を決定するモードを実行するためのデータの入力を可能とするとともに、回転角を決定するモードを、開始データの入力の例えば前に予め行っておくことが考えられる。
角度検出部１２３Ｅが決定した回転角を特定するデータは、角度検出部１２３Ｅから三次元モデル回転部１２３Ｃへと送られる。三次元モデル回転部１２３Ｃはそのデータで特定される回転角で、第１の変換方法の場合と同様に各三次元モデルを同じ角度、同じ方向に回転させる。
第２の変換方法が実行される場合でも、画像処理部１２３から出力部１２５に、変換動画像データが出力される。

（第３の変換方法）
第３の変換方法を画像処理部１２３が実行する場合、画像処理部１２３は、図１０に示したように構成されている。
第３の変換方法は、予め回転角を決定しておくものではなく、第２の変換方法と同様に、回転角を決定する処理をも行うものである。第３の変換方法を実行する場合における画像処理部１２３は、第２の変換方法を実行する場合における画像処理部１２３と似たものとなっている。
第２の変換方法を実行する画像処理部１２３と同様に、第３の変換方法を実行する画像処理部１２３は、コマ落とし部１２３Ａ、三次元モデル生成部１２３Ｂ、三次元モデル回転部１２３Ｃ、二次元画像生成部１２３Ｄを備えている。他方、第３の変換方法を実行する画像処理部１２３は、第２の変換方法を実行する画像処理部１２３における角度検出部１２３Ｅの代わりに、回転角決定部１２３Ｆを備えている。
回転角決定部１２３Ｆは、上述した角度検出部１２３Ｅと同様に、回転角を決定する機能を有している。角度検出部１２３Ｅは、動画像データに基づいて所定の演算を行うことにより回転角を決定したが、回転角決定部１２３Ｆは動画像データではなく他のデータに基づいて所定の演算を行うことにより回転角を決定する。
回転角決定部１２３Ｆが回転角を決定するために用いるデータは、入力装置１０２から入力されたパラメータのデータか、センサ（図示を省略）から入力されたパラメータのデータか、或いはそれらの双方である。入力装置１０２又はセンサから入力される上記パラメータはいずれも、回転角を決定するために有用なものであればその種類は問わない。
入力装置１０２から入力されるパラメータは、例えば、ディスプレイ１０１の形状（例えば、縦横比が３：４か、９：１６か）を特定する情報、ディスプレイ１０１の大きさ（例えば、ディスプレイ１０１が何インチか）を特定する情報、カメラの実位置がどこであるかを特定する情報（例えば、ディスプレイ１０１の幅方向の中央におけるディスプレイ１０１の直上とか、ディスプレイ１０１の右上隅とか）、ディスプレイ１０１から対象顔までの距離を特定する情報等である。
センサは、カメラ２１０の実位置と仮想位置との相対的な位置関係や、カメラ２１０の仮想位置と対象顔の相対的な位置関係を求めるために有用なパラメータを測定するものとすることができる。例えば、公知或いは周知の測距装置をセンサとし、センサから対象顔の距離を測定するパラメータとすることができる。
回転角決定部１２３Ｆが決定した回転角を特定するデータは、回転角決定部１２３Ｆから三次元モデル回転部１２３Ｃへと送られる。三次元モデル回転部１２３Ｃはそのデータで特定される回転角で、第１の変換方法の場合と同様に各三次元モデルを同じ角度、同じ方向に回転させる。
第３の変換方法が実行される場合でも、画像処理部１２３から出力部１２５に、変換動画像データが出力される。
第３の変換方法を用いる場合においても、入力装置１０２から、回転角を決定するモードを実行するためのデータの入力を可能とするとともに、回転角を決定するモードを、開始データの入力の例えば前に予め行っておくのが好ましい。

（第４の変換方法）
第４の変換方法を画像処理部１２３が実行する場合、画像処理部１２３は、図１１に示したように構成されている。
第４の変換方法は、予め回転角を決定しておくものではなく、第２、第３の変換方法と同様に、回転角を決定する処理をも行うものである。
第４の変換方法を実行する画像処理部１２３は、第１の変換方法を実行する場合における画像処理部１２３と同じ機能ブロックを備えている。第４の変換方法を実行する画像処理部１２３は、コマ落とし部１２３Ａ、三次元モデル生成部１２３Ｂ、三次元モデル回転部１２３Ｃ、二次元画像生成部１２３Ｄを備えている。それらの構成、機能は、第４の変換方法を実行する場合における三次元モデル回転部１２３Ｃが回転角を特定するデータを予め記録していないという点、回転角を変更するための回転角変更データが、主制御部１２２から三次元モデル回転部１２３Ｃに入力されるようになっているという点、また、三次元回転モデル回転部１２３Ｃは、回転角変更データを受付けるたびに受付けた回転角変更データに基づいて、対象顔の三次元モデルを回転させる回転角を変更するようになっているという点、を除けばすべて、第１の変換方法の場合と同じである。
第４の変換方法が実行される場合においても、第１の変換方法が実行される場合と同様に、画像処理部１２３で生成された変換動画像データが出力部１２５へと送られる。このデータは、出力部１２５からディスプレイ１０１にと送られる。そうすると、ディスプレイ１０１には、後述するように、変換動画像データに基づく動画像が表示されることなる。この表示は、カメラ２１０で撮像が行われてから略実時間で、好ましくは０．５秒以内に行われる。
ユーザは、ディスプレイ１０１に表示された自らの顔（対象顔）を見ながら回転角変更データを入力して、例えば少しずつ対象顔を回転させることで、ディスプレイ１０１に表示された対象顔を、対象顔が基本的に正面を向くように調節する。回転角変更データは、入力装置１０２を用いて入力される。回転角変更データは、入力装置１０２で入力される他のデータと同様にして主制御部１２２に至り、主制御部１２２から、三次元モデル回転部１２３Ｃに送られる。三次元モデルの回転方向は、これには限られないが、上下方向（Ｘ軸周り）と左右方向（Ｙ軸周り）だけで良い。それらは、もちろん入力装置１０２を用いて入力可能である。ディスプレイ１０１に表示された対象顔が基本的に正面を向いたときにおいて三次元モデル回転部１２３Ｃが三次元モデルを回転させた角度が、それ以降において三次元モデル回転部１２３Ｃが対象顔の三次元モデルを画一的な角度で回転させるときの回転角として決定される。
第４の変換方法が実行される場合でも、画像処理部１２３から出力部１２５に、変換動画像データが出力される。
第４の変換方法を用いる場合においても、入力装置１０２から、回転角を決定するモードを実行するためのデータの入力を可能とするとともに、回転角を決定するモードを、開始データの入力の例えば前に予め行っておくのが好ましい。

画像処理部１２３が、上述の第１の変換方法から第４の変換方法のいずれを実行するにせよ、上述したように、出力部１２５は、画像処理部１２３から変換動画像データを受取る。この変換動画像データを受取った場合出力部１２５は、それをインターフェイス１１４を介して、送受信機構に送る。送受信機構は、上述の指定データによって特定されるコンピュータ装置１００、つまり第２通信システム１０−２に含まれるコンピュータ装置１００に、その変換動画像データを送る。

第２通信システム１０−２に含まれるコンピュータ装置１００における送受信機構は、第１通信システム１０−１から送られてきた変換動画像データを受取る。この変換動画像データは、送受信機構からインターフェイス１１４を経て入力部１２１へと送られ、入力部１２１から主制御部１２２へと送られる。
主制御部１２２は、この変換動画像データを、出力部１２５、インターフェイス１１４を介して、ディスプレイ１０１へと送る。それにより、第２通信システム１０−２におけるディスプレイ１０１には、第１通信システム１０−１から送られてきた変換動画像データに基づく動画像が表示されることになる。
ディスプレイ１０１に表示される顔画像は、図１２に示したように、基本的に正面を向いたものとなる。
基本的にというのは、ユーザが自然な体勢を取ったときという意味であると何回か述べた。ここで、第１通信システム１０−１のユーザが頷いた場合に、第２通信システム１０−２に含まれるディスプレイ１０１に表示される動画像についても一応説明する。
図１３（Ａ）は、第１通信システム１０−１のユーザが角度αだけ、水平方向から下方向を向いた状態を示している。この場合、カメラ２１０と対象顔の正面方向との間には、角度θ＋角度α分のズレが生じている。したがって、何らの画像処理も行わなければ、第２通信システム１０−２に含まれるディスプレイ１０１に表示される動画像に含まれる対象顔は、図１３（Ｂ）に示される対象顔を、図面右側から見た状態のものとなる。しかしながら、本願発明によれば、角度θ分だけ上方向に回転させられた状態で対象顔がディスプレイ１０１に表示されるようになる。したがって、第２通信システム１０−２に含まれるディスプレイ１０１に表示される動画像に含まれる対象顔は、図１３（Ｃ）に示された対象顔を正面から見た状態のものとなる。つまり、角度αだけ、水平方向から下方向を向いた状態の第１通信システム１０−１のユーザの対象顔が、第２通信システム１０−２に含まれるディスプレイ１０１に表示されることになる。これは、自然な状態であり、第２通信システム１０−２のユーザに対して違和感を与えない。

＜変形例＞
変形例によるテレビ会議システムについて説明する。
変形例によるテレビ会議システムは、第１実施形態のテレビ会議システムと同様に、第１通信システム１０−１と第２通信システム１０−２を備えている。ハードウェアとして見た場合、変形例における第１通信システム１０−１及び第２通信システム１０−２はともに、第１実施形態におけるそれらと変わりない。両通信システム１０は、コンピュータ装置１００と、ディスプレイ１０１と、カメラ２１０とを備えている。
ただし、第１実施形態における両通信システム１０におけるコンピュータ装置１００は、動画像データを変換動画像データに変換する機能を有していたが、変形例における両通信システム１０におけるコンピュータ装置１００はその機能を有していない。つまり、変形例における両通信システム１０におけるコンピュータ装置１００は本願発明における画像処理装置では無い。変形例における両通信システム１０におけるコンピュータ装置１００は、後述する変換サーバとのデータのやり取りを除き、従来のテレビ会議システムにおけるそれらと同等の機能しか基本的に持たない。
変化例におけるテレビ会議システムでは、本願発明における画像処理装置が果たすべき動画像データを変換動画像データに変換する機能を、変換サーバ２０−１、変換サーバ２０−２が担う。つまり、変形例における変換サーバ２０−１、変換サーバ２０−２は、クラウドコンピューティングの技術を用いて、第１通信システム１０−１と第２通信システム１０−２に対して、動画像データを変換動画像データに変換する機能を提供するものといえる。

図１４を用いて変形例について説明する。
変形例におけるテレビ会議システムは、図１４に示したように、第１通信システム１０−１、第２通信システム１０−２、変換サーバ２０−１、変換サーバ２０−２を含んで構成される。第１通信システム１０−１、第２通信システム１０−２、変換サーバ２０−１、変換サーバ２０−２はすべてネットワーク４００に接続可能とされている。
上述したように、第１通信システム１０−１におけるコンピュータ装置１００は、実位置にあるカメラ２１０から、動画像データを受取るようになっている。動画像データは、第１通信システム１０−１にあるコンピュータ装置１００から、変換サーバ２０−１に送られるようになっている。変換サーバ２０−１は、受取った動画像データを変換動画像データに変換する。そして、変換サーバ２０−１は、変換動画像データを第１通信システム１０−１中のコンピュータ装置１００に返信する。変換動画像データは、第１実施形態の場合と同様に、第１通信システム１０−１のコンピュータ装置１００から第２通信システム１０−２のコンピュータ装置１００へと送られる。なお、変換サーバ２０−１で生成された変換動画像データは、一旦第１通信システム１０−１中のコンピュータ装置１００に送られることなく、直接第２通信システム１０−２中のコンピュータ装置１００に送られるようになっていても良い。

上述の機能を発揮できるようにするための変換サーバ２０−１のハードウェア構成は、基本的に第１実施形態におけるコンピュータ装置１００におけるハードウェア構成と同じで良いし、その内部に生成される機能ブロックも第１実施形態におけるコンピュータ装置１００における機能ブロックと同じで良い。
第１実施形態では、コンピュータ装置１００は、カメラ２１０から動画像データを受付けるようになっており、動画像データは、カメラ２１０、インターフェイス１１４、入力部１２１の順で、入力部１２１まで到達した。それに対して、変形例における変換サーバ２０−１は、ネットワーク４００を介して第１通信システム１０−１中のコンピュータ装置１００から動画像データを受付けるようになっており、動画像データは、その送受信機構、インターフェイス１１４、入力部１２１の順で、入力部１２１まで到達する。
また、第１実施形態では、コンピュータ装置１００は、入力装置１０２からの入力をインターフェイス１１４を介して受付けるようになっていた。それに対して、変化例における変換サーバ２０−１は、ネットワーク４００を介して第１通信システム１０−１中のコンピュータ装置１００から入力装置１０２からの入力を受付けるようになっている。
また、第１実施形態では、コンピュータ装置１００では、画像処理部１２３で生成された変換動画像データは、出力部１２５、インターフェイス１１４、送受信機構を経て第２通信システム１０−２に送られた。それに対して、変形例における変換サーバ２０−１では、画像処理部１２３で生成された変換動画像データは、出力部１２５、インターフェイス１１４、送受信機構を経て第１通信システム１０−１へと返される。もっとも、変換サーバ２０−１が変換動画像データを第２通信システム１０−２に送っても良いのは上述の通りである。
変換サーバ２０−２は、変換サーバ２０−１と同一の構成、機能を有しており、変換サーバ２０−１が第１通信システム１０−１中のコンピュータ装置１００に提供するのと同様の機能を、第２通信システム１０−２中のコンピュータ装置１００に提供するようになっている。それにより、第１通信システム１０−１と第２通信システム１０−２とは、第１実施形態の場合と同様に、変換動画像データを送り合うことができるようになっている。
なお、両通信システム１０に対して、１つの変換サーバが動画像データを変換動画像データに変換する機能を提供するようになっていてもよい。

≪第２実施形態≫
第２実施形態における画像処理装置にて説明する。
第２実施形態における画像処理装置の外観は、ウェブカメラ様である。例えば、図２、図８、図１２等に示したような外観を、第２実施形態における画像処理装置は呈している。
第２実施形態における画像処理装置は、従来のテレビ会議システムを構成するためのコンピュータ装置に接続して用いることができる。かかるコンピュータ装置は、他のコンピュータ装置との間で互いに動画像データの送受信を行う機能を有するものであり、公知或いは周知のもので良い。
第２実施形態における画像処理装置は、カメラと一体であり、カメラに対して、第１実施形態におけるコンピュータ装置１００のハードウェア構成と同様のハードウェアを内蔵させ、また、そのハードウェアに第１実施形態で説明したのと同様のコンピュータプログラムをインストールしたものである。したがって、第２実施形態における画像処理装置は、その外観がウェブカメラ様であったとしても、その内部に図４に示したのと同様の機能ブロックを生じることになる。補足すると、第２実施形態における画像処理装置のハードウェア構成は、図３におけるインターフェイス１１４にカメラを接続したものとなる。もっとも、本願発明における画像処理装置は、そのような構成からカメラを除いたものとなる。
第２実施形態における画像処理装置は、それと一体のカメラで生成された動画像データを、変換動画像データに変換する機能を持つことになる。
第２実施形態における画像処理装置は、通常のウェブカメラと同様の方法で使用することができる。しかしながら、この画像処理装置が出力するデータは、一般的な動画像データではなく、変換動画像データとなる。したがって、両通信システムにおけるコンピュータ装置は、動画像データを変換動画像データに変換する機能を第１実施形態のときのように持たなくても、互いに変換動画像データを送り合うことができるようになる。

１０−１第１通信システム
１０−２第２通信システム
１００コンピュータ装置
１０１ディスプレイ
１０２入力装置
１２１入力部
１２２主制御部
１２３画像処理部
１２３Ａコマ落とし部
１２３Ｂ三次元モデル生成部
１２３Ｃ三次元モデル回転部
１２３Ｄ二次元画像生成部
２０−１変換サーバ
２０−２変換サーバ

Claims

動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の１つのカメラで１人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部と、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成部と、
前記変換動画像データ生成部によって生成された前記変換動画像データを出力する動画像データ出力部と、
を備えている、画像処理装置であって、
前記変換動画像データ生成部は、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成部と、
前記三次元モデル生成部で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転部と、
前記三次元モデル回転部で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成部と、
を備えている、画像処理装置。
前記回転角は、予め決定されており、前記画像処理装置に記録されている、
請求項１記載の画像処理装置。
前記回転角を、前記動画像データ受付部によって受け付けられた前記動画像データに基づいて所定の演算を行うことにより決定するようになっている、
請求項１記載の画像処理装置。
前記回転角を決定するために必要な所定のパラメータを入力するための入力装置から前記パラメータについてのデータを受付けるための入力装置受付部を備えており、
前記回転角を、前記入力装置受付部によって受け付けられた前記パラメータについてのデータに基づいて所定の演算を行うことにより決定するようになっている、
請求項１記載の画像処理装置。
前記回転角を決定するために必要な所定のパラメータを検出するセンサから前記パラメータについてのデータを受付けるセンサ受付部を備えており、
前記回転角を、前記センサ受付部によって受け付けられた前記パラメータについてのデータに基づいて所定の演算を行うことにより決定するようになっている、
請求項１記載の画像処理装置。
前記動画像データ出力部は、前記変換動画像データに基づく動画を表示する所定のディスプレイと接続されるようになっているとともに、
前記回転角を変更するためのデータである回転角変更データを受付ける回転角変更データ受付部を備えており、
前記三次元モデル回転部は、前記回転角変更データ受付部が前記回転角変更データを受付けるたびに、前記回転角変更データ受付部によって受付けられた前記回転角変更データに基づいて、前記三次元モデルを回転させる前記回転角を変更するようになっている、
請求項１記載の画像処理装置。
前記三次元モデル生成部は、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分を抜出して前記三次元モデルを生成するとともに、前記静止画像のうちの前記対象顔の顔面部分以外の部分の二次元の静止画像についてのデータである背景画像データを生成するようになっており、
前記二次元画像生成部は、前記三次元モデル回転部で回転させられた前記三次元モデルを二次元化したデータである顔面画像データを、前記背景画像データにおける前記対象顔のうちの顔面部分に貼り込むことにより、前記変換静止画像データを生成するようになっている、
請求項１記載の画像処理装置。
前記三次元モデル生成部は、前記静止画像のうちの前記対象顔の顔面部分以外の部分の静止画像に二次元的な所定の画像処理を行ってから当該静止画像についての前記背景画像データを生成するようになっており、それにより、前記二次元画像生成部が、前記顔面画像データを、前記背景画像データにおける前記対象顔のうちの顔面部分に貼り込む際に、前記顔面画像データと前記対象顔のうちの顔面部分との縁部分がより一致するようになっている、
請求項７記載の画像処理装置。
前記三次元モデル回転部は、所定の点を中心として前記三次元モデルを回転させるようになっている、
請求項１記載の画像処理装置。
前記カメラと一体となっている、
請求項１記載の画像処理装置。
前記動画像データ受付部は、前記動画像データを所定のネットワークを介して前記カメラから受取るようになっている、
請求項１記載の画像処理装置。
前記画像処理装置は、所定のネットワークを介して通信可能とされているとともに２つ対にして用いられるものであり、
前記画像処理装置の一方で生成された前記変換動画像データは、前記ネットワークを介して前記画像処理装置の他方へ双方向で送られるようになっている、
請求項１記載の画像処理装置。
動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の１つのカメラで１人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部を備えているコンピュータによって実行される画像処理方法であって、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成過程と、
前記変換動画像データ生成過程によって生成された前記変換動画像データを出力する動画像データ出力過程と、
を含み、
前記変換動画像データ生成過程では、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成過程と、
前記三次元モデル生成過程で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転過程と、
前記三次元モデル回転過程で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成過程と、
を実行する画像処理方法。
動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の１つのカメラで１人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部を備えているコンピュータに、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成過程と、
前記変換動画像データ生成過程によって生成された前記変換動画像データを出力する動画像データ出力過程と、
を実行させるためのものであり、
前記変換動画像データ生成過程では、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成過程と、
前記三次元モデル生成過程で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転過程と、
前記三次元モデル回転過程で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成過程と、
を前記コンピュータに実行させるコンピュータプログラム。