JPWO2020090128A1 - 画像処理装置、方法、コンピュータプログラム - Google Patents
画像処理装置、方法、コンピュータプログラム Download PDFInfo
- Publication number
- JPWO2020090128A1 JPWO2020090128A1 JP2019507886A JP2019507886A JPWO2020090128A1 JP WO2020090128 A1 JPWO2020090128 A1 JP WO2020090128A1 JP 2019507886 A JP2019507886 A JP 2019507886A JP 2019507886 A JP2019507886 A JP 2019507886A JP WO2020090128 A1 JPWO2020090128 A1 JP WO2020090128A1
- Authority
- JP
- Japan
- Prior art keywords
- image data
- moving image
- data
- still image
- converted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Studio Devices (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
テレビ会議は、高価な専用装置(専用システム)を用いて実現される場合もあれば、Microsoft(商標) Corporationが提供するSkype(商標)のように、簡易な汎用装置(システム)に加えて動画の送受信用のソフトウェアを用いて実現される場合もある。
それが専用装置によって実現されるにせよ、汎用装置によって実現されるにせよ、テレビ会議の大まかな原理は変わらない。例えば、一対一でテレビ会議が行われる場合、両参加者はネットワークに接続されたコンピュータを準備する。そしてそれら各コンピュータにはそれぞれ、ディスプレイとカメラが接続される。カメラは動画の撮影が可能なデジタルカメラであり、テレビ会議の参加者を撮像する。一方のカメラで撮られた一方の参加者の顔が映り込んだ動画についての動画像データは、一方のコンピュータ及びネットワークを介して他方のコンピュータに送られる。それにより、他方のコンピュータに接続された他方のディスプレイには、一方の参加者の顔が映り込んだ動画が表示される。他方の参加者は、それにより一方の参加者の顔を見ることができる。このような処理を双方向で行うことにより、両参加者は相手の顔を見ながら会議を行うことができる。
もちろん、2つのコンピュータ(或いは両参加者)の間では音声やテキストもやり取りすることができ通常それらの少なくとも一方は必須とされるが、音声やテキストのやり取りは本願とは無関係であるので、それらについての記載は以降においても基本的に省略する。
上述したように、テレビ会議が行われる場合には、一方のカメラで撮られた一方の参加者の顔が映り込んだ動画についての動画像データは、一方のコンピュータ及びネットワークを介して他方のコンピュータに送られ、それにより、他方のコンピュータに接続された他方のディスプレイに、一方の参加者の顔が映り込んだ動画が表示される。
他方の参加者は、他方のディスプレイに映し出された一方の参加者の顔を見ながらテレビ会議を行うのであるが、そのとき、他方のディスプレイに映し出された一方の参加者の目線が他方の参加者の方向を向いておらず、場合によっては目線のみならず一方の参加者の顔の向きが他方の参加者の方向を向いていないことまである。そのような事態は、他方の参加者に対して激しい違和感を与える。結果としてテレビ会議の参加者の双方は、そのような違和感を抱えたままテレビ会議を行うことになる。
このような不具合が生じるのは、上述した一方の参加者の側で作られる動画像データ、或いは一方の参加者の側で動画像データを作る一方のカメラの位置に問題があるからである。例えば、一方の参加者の顔の正面に一方のディスプレイが存在するとする。その場合、一方の参加者の顔は、基本的には(言い換えれば、一方の参加者が自然な姿勢をとっている場合には)一方のディスプレイに正対した状態となる。この場合において、例えば、一方のカメラが一方のディスプレイの幅方向の中心の上側に配置されているとする。そうすると一方のカメラは、一方のディスプレイと正対する一方の参加者の顔を基本的に斜め上から捉えることになる。そのような場合においては、一方のカメラが生成した動画像データを受け取った他方の参加者の前にある他方のディスプレイに映し出される動画像中に映し出される一方の参加者の目線或いは顔は、他方の参加者の方向を向かず他方の参加者には下方向を見ているように感じられる。
他方の参加者の前にある他方のディスプレイに映し出される動画像中に映し出される一方の参加者の目線或いは顔の向きがあらぬ方向を向くという上述のような現象は、一方のカメラが一方のディスプレイの幅方向の中心の上側にある場合のみならず、一方のカメラが一方のディスプレイの周囲のどこにあっても生じる。もっとも一方のカメラが配置される位置によって他方の参加者の前にある他方のディスプレイに映し出される動画像中に映し出される一方の参加者の目線或いは顔の向きは異なることになる。
例えば、ディスプレイの少なくとも一部を透明な部材で構成するとともに、カメラをディスプレイの内部或いは背後に設けることで、ディスプレイの前にいる参加者の顔を基本的に正面から撮像するという技術が知られている。もっともディスプレイに対してこのような工夫を行うには大きなコストが必要であるため、この技術は殆ど普及していない。またこの技術は、既に出回っている一般的なディスプレイに後付で使用することができない。
また、ディスプレイの周囲に配置されたカメラで作られた動画像データに映り込んだ顔が動画像中の例えば中心からずれた場合に、そのずれ量を検出して動画像データに対して補正を行い、動画像データに基づく動画像中に映し出される顔を上下方向或いは左右方向に平行移動させるという技術も知られている。しかしながら、動画像データに基づく動画像中に映し出される顔を上下方向或いは左右方向に平行移動させたとしても顔の向きは修正されない。また、かかる技術は、ずれ量の検出を継続的に行い、動画像データに基づく動画像中に映し出される顔の上下方向或いは左右方向の平行移動を継続的に行うものであるから、画像処理に要する演算が複雑になりやすく動画像の遅延を生じやすい。
また、ディスプレイの周囲に配置されたカメラで作られた動画像データに映り込んだ顔の中から更に目線の方向を検出して動画像データに対して補正を行い、動画像データに基づく動画像中に映し出される顔における目線の方向を修正するという技術も知られている。しかしながら、動画像データに基づく動画像中に映し出される顔における目線の方向を補正することにより他方の参加者の前にあるディスプレイに映し出される動画像中の一方の参加者の目線を他方の参加者の目線と一致させることが可能となる場合もあるにせよ、例えば上述の例の場合であれば、他方の参加者の前にある他方のディスプレイに映し出される動画像中に映し出される下を向いた一方の参加者の顔における目は基本的に上目遣いの状態となるから、却って不自然さを増すことすらあり得る。加えて、顔の方向全体の補正を行うにせよ、目線の方向に基づく画像の補正を行うと、一方の参加者が目線を動かしただけで一方の参加者が顔の向きを変えていないのに他方の参加者の前にあるディスプレイに映し出される動画像中の一方の参加者の顔の向きが変わって不自然さが増すこともあり得る。また、この技術においても、上述の場合と同様の理由で、動画像の遅延を生じやすい。
また、上述の特許文献4に記載のような、カメラで作られた動画像データに写り込んだ顔の三次元モデルを生成するとともに、生成した三次元モデルを所定の角度だけ回転させてから再度二次元の画像を得るという技術が知られている。しかしながら、動画像データから顔の三次元モデルを生成するには一般に、2台のカメラを用いてのいわゆるステレオ撮像を行うか、又は、1台のカメラで撮像を行うのであればそのカメラで撮像される動画像データを構成する多数の静止画像はデプスデータを含むものとされなければならない。これらは、カメラとしては一般的なものは無く、そのような一般的でないハードウェアを準備することをユーザに強いる技術は、その普及が極めて困難である。例えば、今どきのラップトップ型のパーソナルコンピュータや、スマートフォン、タブレット等のコンピュータはカメラを内蔵しているし、また、デスクトップ型のパーソナルコンピュータと組合せて用いられるウェブカメラその他のカメラも広く普及している。ステレオカメラでもなければ、デプスデータを含む動画像データも作れず、それら広く普及しているカメラにも応用できる技術でなければ、少なくとも実用、普及には向かない。
上述したように、テレビ会議に参加する遠隔地にいる両参加者が、目前のディスプレイに映し出された動画中の相手側の参加者の目線或いは顔の向きについて感じる違和感が生じる原因は、上述した一方の参加者の側で作られる動画像データ、或いは一方の参加者の側で動画像データを作る一方のカメラの位置に問題があるからである。
ところで、仮に、上述の例において一方の参加者の前にある一方のディスプレイの全体が透明であり、一方のディスプレイの背後に一方のカメラが存在するのであれば、一方のカメラは、テレビ会議中において一方のディスプレイを正面から見ることになる一方の参加者の顔を基本的に正面から捉えることになる。もしそうなのであれば、一方のカメラが生成した動画像データを受け取った他方の参加者の前にある他方のディスプレイに映し出される動画像中に映し出される一方の参加者の目線或いは顔は、他方の参加者の方向を向く。しかしながら実際のところ、一方のディスプレイは通常その全体が透明ではないから、一方のカメラは一方のディスプレイの周囲のどこかに配置されることになる。
とはいえ、一方のカメラで作られた動画像データを、当該動画像データに基づく動画が、ディスプレイの背後(ディスプレイの内部を含む、以下同じ。)の仮想位置に存在する仮想のカメラで撮像されたように補正することは少なくとも理論上は可能である。そしてそのような補正の行われた動画像データに基づく動画中に含まれる一方の参加者の顔についての顔画像は基本的に正面を向くのであるから、他方のディスプレイに映し出された他方の参加者に対して与える違和感を小さく抑えることができる。
本願発明は、このような知見に基づく。
そして、この画像処理装置における前記変換動画像データ生成部は、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成部と、前記三次元モデル生成部で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転部と、前記三次元モデル回転部で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成部と、を備えている。
カメラは、所定の位置である実位置に存在する。実位置は、例えば、画像処理装置であるコンピュータにディスプレイが接続されているのであれば、一般的にはディスプレイの周囲の所定の場所である。また、画像処理装置であるコンピュータが、例えば、ラップトップ型のパーソナルコンピュータ、スマートフォン、タブレットである場合には、一般的には、コンピュータと一体とされたディスプレイの上方における所定の位置にカメラが取付けられているが、その位置がその場合におけるカメラの実位置となる。本願発明の画像処理装置がウェブカメラのような概観を呈しているのであれば、それが取付けられた位置がカメラの実位置となる。いずれにせよ、実位置にあるカメラは、1人の被撮像者の顔である対象顔を撮像するようになっている。カメラは動画を撮像することができ、動画についての動画像データを生成するようになっている。カメラで生成される動画像データは、一般的なものであり、例えば、MJPEGデータである。本願発明における動画像データは、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータであるが、これは極一般的な動画像データである。
画像処理装置は、カメラで生成された動画像データをカメラから受取る動画像データ受付部を備えている。動画像データ受付部は、画像処理装置とカメラが別体であり、画像処理装置とカメラが有線で接続される場合においては一般に、カメラとの有線での接続を実現することのできる、画像処理装置に設けられた入力端子となるであろう。動画像データ受付部は、画像処理装置とカメラが別体であり、画像処理装置とカメラが無線で接続される場合においては一般に、カメラとの無線での通信を実現することのできる、画像処理装置に設けられた受信装置となるであろう。動画像データ受付部は、画像処理装置とカメラが一体である場合には一般に、カメラとの接続を実現する、画像処理装置内に設けられたインターフェイスとなるであろう。
本願発明における画像処理装置は、変換動画像データ生成部を備えている。変換動画像データ生成部は、動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、変換静止画像データに変換する。上述したように画像処理装置がカメラから受取る動画像データ或いはそれに含まれる静止画像データは、実位置にあるカメラによって生成されたものであり、それらに基づく動画或いは静止画像には実位置から写した対象顔が含まれる。対して変換静止画像データは、静止画像データに基づいて、或いは静止画像データを変換して生成されるものであり、正面を向いた(ユーザが自然な体勢を取った)ときの対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置にカメラが存在する場合においてカメラによって撮像される二次元の静止画像である変換静止画像のデータである。つまり、変換静止画像に含まれる対象顔は、ユーザの顔の正面である仮想位置から写した場合における対象顔となる。ここで、カメラの仮想位置は固定であり、カメラの実位置と仮想位置との相対的な位置関係は一定であるから、画像処理装置がカメラから受取った静止画像データを変換静止画像データに変換する処理は基本的に、かかる変換の対象となるすべての静止画像データについて同じになる。したがって個々に異なる処理を行う場合に比較して静止画像データを変換静止画像データに変換する処理は「軽い」ものとなるので、かかるデータの変換が動画の遅延の原因となりにくい。そして、変換動画像データ生成部で次々生成される変換静止画像データを連ねたものが変換動画像データとなる。
静止画像データは、動画を構成する静止画像(いわゆるフレーム)のデータである。画像処理装置がカメラから受取ったすべての静止画像データから変換静止画像データを生成しても構わないが、そうすると動画像の遅延を生じるおそれがある。したがって、遅延が生じないことに重きを置くのであれば、変換静止画像データへの変換の対象とする静止画像データを、動画像データに含まれる静止画像データのうちの、例えば、2つおき或いは3つおき(2フレームおき或いは3フレームおき)の静止画像データとすることができる。そうすると、変換動画像データのフレーム数或いはフレームレート(1秒あたりの変換動画像データに含まれる変換静止画像データの数)は、動画像データのフレーム数(1秒あたりの動画像データに含まれる静止画像データの数)よりも小さくなるが、変換動画像データのフレーム数が少なくとも10fps程度であれば、変換動画像データによる動画は一応動画として通用する。もちろん、変換の対象となる静止画像データは、2つおきとか3つおきとかの一定の数おきの静止画像データである必要はない。
そして、この画像処理装置は、動画像データ出力部を備えている。動画像データ出力部は、変換動画像データ生成部で生成された変換動画像データを出力する機能を有している。変換動画像データは、例えば、画像処理装置から他の装置へと出力される。変換動画像データの出力先となる他の装置は、画像処理装置と有線又は無線によって直接接続された装置(例えばディスプレイ)であったり、画像処理装置とネットワーク(或いはネットワークと他の装置)を介して接続された装置(他の画像処理装置に接続されたディスプレイ)であったりする。画像処理装置がディスプレイを備えているのであれば、変換動画像データの出力先は画像処理装置が備えるディスプレイである場合もあり得る。また、画像処理装置がカメラと一体であってその概観が一般的なウェブカメラの概観を呈しているのであれば、画像処理装置としてのウェブカメラを従来のテレビ会議システムにおけるウェブカメラと同様に用いると、テレビ会議システムにおけるコンピュータに入力される動画像データを当初から変換動画像データとすることができる。
以上のように生成された変換動画像データに含まれる変換静止画像データのそれぞれに基づく変換静止画像中の対象顔は、上述のように、対象顔の正面に位置する仮想位置にあるカメラで撮像した場合における対象顔の向きと同等のものとなる。したがって、上述の画像処理装置で生成された変換動画像データに基づく動画が何らかのディスプレイに映し出された場合、ディスプレイに映し出された対象顔は基本的に正面を向いた状態となる。したがって、本願の画像処理装置の用途はテレビ会議に制限されるものではないが、例えばテレビ会議にそれが応用された場合には、上述の画像処理装置で生成された変換動画像データに基づく動画が相手側のディスプレイに表示された場合において、相手側が対象顔中の目線或いは対象顔の向きについて感じる違和感を低減させることができる。また、かかる技術は、カメラ、ディスプレイ等のハードウェアに対する工夫を必要とせず、例えば、一般的なコンピュータにソフトウェアを組み合せるだけでも実現可能であるから比較的安価である。また、かかる技術は、上述のように画一的な画像処理を繰り返すものであり、またすべての静止画像データに対して画像処理を行う必要が必ずしもないものであるから、動画の遅延の問題を生じにくい。
加えて、この発明によって得られる変換動画像データに基づく動画像に映った対象顔は、対象顔がディスプレイに表示された場合において、対象顔の持ち主が自然な体勢を取っているときには目線も含めて正面を向いているが、対象顔の持ち主が対象顔を回転させたり目線を動かせば、それに応じてディスプレイに表示された対象顔も回転したり目線が動くことになる。本願発明では、仮想位置にカメラが位置する場合において撮像される動画像である変換動画像をディスプレイに表示するのみであるから、対象顔の動きや視線の動きに基づいて対象顔の映った画像を変換する場合と比較して、ディスプレイに表示される対象顔に不自然さが生じることがない。
前記画像処理装置は、所定のネットワークを介して通信可能とされているとともに2つ対にして用いられるものであり、前記画像処理装置の一方で生成された前記変換動画像データは、前記ネットワークを介して前記画像処理装置の他方へ双方向で送られるようになっていてもよい。こうすることにより、従来と同様のテレビ会議を実現することができる。
なお、本願発明における画像処理装置の用途は、テレビ会議システムに限らない。例えば、自撮り(セルフィー)で撮像した自分の顔の動画を自分が所有するスマートフォン、タブレット、デスクトップ型の或いはラップトップ型のコンピュータ等のディスプレイで見たときに、自分の顔の方向が正面を向いておらず、或いは自分の視線が正面を向いていないため違和感が生じる、という課題も知られている。そのような課題も、本願発明による画像処理装置によって解決することができる。この場合には当然に、画像処理装置によって動画像データから作られた変換動画像データは、他人が有するコンピュータ等に送られる必要はない。
三次元モデル生成部は、動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、静止画像データによって特定される静止画像に写り込んだ対象顔のうちの顔面部分の三次元モデルを生成するものである。三次元モデル及びその生成方法は、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて行われる。近年、顔が写り込んだ一般的な二次元の静止画像1つから(言い換えれば、一枚の顔写真のデータから)その静止画像に写り込んでいる顔の顔面部分の三次元モデルを自動的に作る技術が開発された。かかる技術では、様々な人間の顔を様々な角度から撮像することによって生成された人間の顔の写り込んだ多数の二次元の静止画像をサンプルとしてコンピュータによって機械学習させることによって生成された、ある静止画像から人間の顔面の三次元モデルを生成するアルゴリズムである変換アルゴリズムが使用される。この技術では、その変換アルゴリズムを用いて、静止画像データによって特定される静止画像に写り込んだ対象顔のうちの顔面部分の三次元モデルを、自動的に生成する。ここで、顔面部分とは、人間の頭部のうち、概ね、耳より前で額より下の部分を意味する。
顔が写り込んだ一般的な二次元の静止画像1つからその静止画像に写り込んでいる顔の顔面部分の三次元モデルを自動的に作る近年開発された上述の技術は世間に興味深い技術として認識されている。しかしながら、この技術は面白いとは認識されてはいるものの、その実用的な用途は、今のところ殆ど無い。本願発明は、かかる技術の実用的な用途を提案するものである。上述の変換アルゴリズムは、対象顔のうち少なくとも顔面部分の三次元モデルを生成するものであるが、三次元モデルを生成する場合に用いられる元となる二次元の静止画像は、ステレオカメラで撮影されたデータである必要もないし、また、デプスデータを含んでいる必要もない。つまり、本願発明の画像処理装置と組合せて用いられるカメラは、ごく一般的なもので良いということになる。
三次元モデルは、上述の方法で作られるものであれば良く、例えばワイヤーフレームモデルである。三次元モデル生成部は、動画像データを構成する静止画像データのうちの少なくとも複数に基づいて三次元モデルを生成する。この「少なくとも複数の静止画像データ」は、上述した変換の対象となる静止画像データである。
三次元モデル回転部は、三次元モデル生成部で複数生成された三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行うものである。これは、三次元モデルで特定させる顔面の向きを、仮想位置におけるカメラの方に向ける処理に相当する。
二次元画像生成部は、三次元モデル回転部で回転させられた三次元モデルのそれぞれに基づいて、変換静止画像データを生成する。つまり、二次元画像生成部は、三次元モデルから再度二次元の静止画像についてのデータを作ることにより、変換静止画像についての変換静止画像データを生成する。
三次元モデル回転部で三次元モデルを回転させる場合の角度(もちろん回転の向きも含む。)は、カメラの実位置と仮想位置との相対的な位置関係が一定であるから、どの静止画像データに基づいてなされる処理においても一定となる。したがって、画像処理の対象となる各静止画像データに対して三次元モデル生成部、三次元モデル回転部、及び二次元画像生成部で行われる処理は、いずれの静止画像データに基づいて処理が行われる場合においても同じとなる。これも、動画の遅延の問題が生じにくい理由の一つとなる。
これは、変換静止画像データを生成するための元となる静止画像データによって特定される静止画像のうち、対象顔の顔面部分のデータのみを三次元的に扱い、対象顔の顔面部分を除いた他の部分をそのまま二次元的に扱う、ということを意味する。つまり、三次元モデル生成部は、静止画像に写り込んだ対象顔の顔面部分を認識して、その部分を抜出して三次元モデルを生成し、他の部分(例えば、対象顔の耳や頭髪、或いは対象顔の持ち主の背後の背景)を二次元の静止画像としてそのまま残す。そして、三次元モデル回転部がその三次元モデルを回転させ、次いで、二次元画像生成部が三次元モデル回転部によって回転させられた三次元モデルを二次元の画像に変換し、その画像を、三次元モデル生成部が生成した対象顔の顔面部分が抜出された後の静止画像の対象顔のうち顔面部分が抜出された部分に貼り込む。変換静止画像データをこのような簡単な処理により生成することにより、動画の遅延の問題が更に生じにくくなる。もっとも、このような処理を行った場合、二次元画像生成部が三次元モデル回転部によって回転させられた三次元モデルを二次元の画像に変換することによって生成された顔面の二次元の静止画像と、三次元モデル生成部が生成した対象顔の顔面部分が抜出された後の静止画像とは、必ずしも正確に一致しない。それは、変換静止画像データによって特定される静止画像中に含まれる対象顔に多少の不自然さが生じる可能性を示唆する。しかしながら、本願発明者の研究によれば、変換静止画像データを連ねた変換動画像データに基づく動画を見た者が感じる違和感は、動画像中の対象顔の向きがあらぬ方向を向いている場合に比して遥かに小さかった。これは、その機序は詳しくは不明であるが、ある者が顔を認識する場合に脳が認識の対象となる人間の目を中心に認識するからであり、目が正しくその者の方を向いているのであれば、それ以外の不自然さを認識しないからだと考えられる。このような脳の機能により、上述のごとき変換静止画像の生成の仕方を採用しても、本願発明の効果は十分なものとなる。少なくとも、対象顔の回転角が15度内外かそれ以下の場合には、変換動画像データに基づく動画を見た者が感じる違和感は実用上問題とならない程度に小さい。
とはいえ、前記三次元モデル生成部は、前記静止画像のうちの前記対象顔の顔面部分以外の部分の静止画像に二次元的な所定の画像処理を行ってから当該静止画像についての前記背景画像データを生成するようになっており、それにより、前記二次元画像生成部が、前記顔面画像データを、前記背景画像データにおける前記対象顔のうちの顔面部分に貼り込む際に、前記顔面画像データと前記対象顔のうちの顔面部分との縁部分がより一致するようになっていてもよい。二次元的な画像処理とは、静止画像に写っている被写体の三次元モデル化を伴わない画像処理を意味する。例えば、対象顔の顔面部分の三次元モデルを回転させた場合、その例えば縦方向の見かけ上の長さが変わることがある。そのような見かけ上の長さの変更に対応して、三次元モデル生成部は、前記対象顔の顔面部分以外の部分の静止画像に縦方向の長さの変更(拡大、或いは縮小)の処理を行うことができる。二次元的な画像処理の例としては、上述の如き1方向における画像の拡縮の他、2方向における画像の拡縮、回転等があり得る。このようにすれば、脳には殆ど認識されない、変換静止画像中の対象顔に生じる可能性のある上述の如き不自然さをより小さくすることができる。もっとも、静止画像のうちの前記対象顔の顔面部分以外の部分の静止画像に、そのような処理を加えることは必須ではない。
前記三次元モデル回転部は、所定の点を中心として前記三次元モデルを回転させるようになっていてもよい。上述のように、三次元モデル回転部は三次元モデルを回転させる。三次元モデルを回転させるための処理としては、三次元モデルをある軸(例えば、両耳を貫く水平な直線、或いは、頭蓋の平面視した場合の中心を鉛直に貫く直線、或いはそれら直線の双方が軸となり得る。)周りに回転させる処理もあり得る。これら処理は、事実上、ロール、ヨー、ピッチの回転を行う処理となる。しかしながら、ロール、ヨー、ピッチによる回転の処理を行うには、それら3種の回転の軸とそれら軸が交わる原点を求めることが必要となるから、三次元モデルの中で耳、或いは頭蓋の平面視した場合の中心の位置を検出してその座標を特定する処理が必要となる。三次元モデルが存在する仮想の空間の中のある点(仮想の点であって、三次元モデルの内部に位置するか否かを問わない。)を中心として三次元モデルを回転させることにより、三次元モデルを、顔面の立体形状をもした単なる塊として扱うことが可能となり、三次元モデルに対について、或いは静止画像中の対象顔についてのそのような処理を省略することが可能となる。つまり、三次元モデルや静止画像において、どこが目でどこが鼻か、といったことを検出する必要がなくなるのである。かかるある点を中心とした三次元モデルの回転は、空間座標の変換により実行することができ、三次元モデルが存在する空間自体の回転と捉えることもできる。所定の点は、例えば、1つのカメラのレンズ位置とすることができる。カメラが画像処理装置に一体であるか否かを問わず、画像処理装置に対するカメラの位置が決まっているのであれば、カメラのレンズ位置を所定の点とすることで、所定の点の位置を決定することが容易になる。所定の点がカメラのレンズ位置であるかを問わず、所定の点を、三次元モデルが存在する仮想の空間の中の原点であるとすると、空間座標の演算が容易になる。
まず、前記回転角は、予め決定されていてもよい。その場合、回転角は、前記画像処理装置に記録されている。回転角は、カメラの実位置と仮想位置との相対的な位置関係により決まる。画像処理装置が、例えば、ラップトップ型のパーソナルコンピュータ、スマートフォン、タブレットであり、カメラが例えば筐体に着脱自在に取付けられている場合には、カメラの実位置は画像処理装置に対して相対的に固定されている。この場合、例えば、カメラの仮想位置を、ラップトップ型のパーソナルコンピュータ、スマートフォン、タブレットが備えるディスプレイの背後等の適当な位置と決定するのであれば、カメラの実位置と仮想位置を一意に決定できることになる。このように画像処理装置を構成する機器の仕様が当所から明らかなのであれば、通常ユーザがディスプレイと顔とをどの程度離した状態で画像処理装置としてのラップトップ型のパーソナルコンピュータ、スマートフォン、タブレットを使用するのかということを考慮すれば、回転角を予め決定することが可能である。例えば、本願発明の画像処理装置としてラップトップ型のパーソナルコンピュータ、スマートフォン、タブレット等のコンピュータを機能させるためのコンピュータプログラムは、多種多様なそれらコンピュータのそれぞれにおけるカメラの仮想位置(或いは、実位置と仮想位置との関係から把握可能な上述の回転角を特定するデータ)についてのデータ(つまりは、機種とカメラの仮想位置とを対にした、多数組のデータ)を有しているとともに、そのコンピュータにそのコンピュータプログラムがインストールされた後にそのコンピュータの機種がコンピュータプログラムの機能によって自動的に特定されるか、そのコンピュータにそのコンピュータプログラムがインストールされた後に、ユーザがそのコンピュータの機種を特定するための入力を行えるようにする機能を有していてもよい。そうすることによって、コンピュータプログラムによってそのコンピュータを本願発明の画像処理装置として機能させる場合に、機種と仮想位置との関係から、その画像処理装置に相応しい上述の回転角が自動的に決定されるようにすることが可能となる。
他方、画像処理装置が例えばデスクトップ型のコンピュータにより構成される場合或いは画像処理装置がカメラと一体型であって且つウェブカメラと同様の概観を呈する場合であっても、カメラの配置位置(カメラの実位置)が少なくともある程度決定されているのであれば、カメラの実位置と、例えばディスプレイの背後に設定される仮想位置との相対的な位置関係は一意に決定されることになる。例えば、カメラの実位置をディスプレイの幅方向の中央の直上とし、その位置に配置した状態でカメラを使用することが予めわかっているのであれば、カメラの実位置と仮想位置との相対的な関係は一意に決定される。この場合において、ユーザがディスプレイと顔とをどの程度離した状態で画像処理装置を使用するのかということを更に考慮すれば(その距離はディスプレイの大きさにより予定されていることが多い)、回転角を予め決定することが可能である。もっとも、例えば、「ディスプレイの上下方向及び幅方向の中心から何cm上側の位置にカメラを配置し、カメラの仮想位置から何cm対象顔を離した状態でこの画像処理装置を使用せよ」という指示をユーザに知らしめるとともに、その位置を仮想位置として予め回転角を決定しておくといった手段を採用する方が、画像処理装置で生成される変換動画像データに基づく動画像中の対象顔は、正しく正面を向くという効果をより正確に得られることになる。
画像処理装置は、例えば、前記回転角を、前記動画像データ受付部によって受け付けられた前記動画像データに基づいて所定の演算を行うことにより決定するようになっていてもよい。画像処理装置は、カメラから動画像データを受取るようになっている。画像処理装置は、その三次元モデル生成部によって、動画像データから三次元モデルを生成することが可能である。したがって、三次元モデルをどれだけ回転させれば、仮想位置のカメラに対して正対したユーザの対象顔を、変換静止画像データに基づく静止画像中で正面を向けることができるかを演算によって決定することができる。その角度を回転角とするというのが、この発明である。
画像処理装置は、また、前記回転角を決定するために必要な所定のパラメータを入力するための入力装置から前記パラメータについてのデータを受付けるための入力装置受付部を備えており、前記回転角を、前記入力装置受付部によって受け付けられた前記パラメータについてのデータに基づいて所定の演算を行うことにより決定するようになっていてもよい。画像処理装置を一般的に構成するコンピュータは、入力装置(例えば、キーボード、マウス、タッチパネル)が接続されているか、或いは一体として備えているのが通常であるから、その入力装置を用いてパラメータを入力することができる。かかる入力装置から入力されたパラメータに基づく演算によって回転角を決定する、というのがこの発明である。パラメータは例えば、ディスプレイの形状、大きさを特定する情報、カメラの実位置がどこであるか(例えば、ディスプレイの幅方向の中央におけるディスプレイの直上、ディスプレイの右上隅)を特定する情報、ディスプレイから対象顔までの距離を特定する情報等である。
画像処理装置は、また、前記回転角を決定するために必要な所定のパラメータを検出するセンサから前記パラメータについてのデータを受付けるセンサ受付部を備えており、前記回転角を、前記センサ受付部によって受け付けられた前記パラメータについてのデータに基づいて所定の演算を行うことにより決定するようになっていてもよい。例えば、センサは、画像処理装置に接続され、ディスプレイの幅方向のいずれかの端部に設けられた公知或いは周知の測距装置である。測距装置によって得られたパラメータ(例えば、ディスプレイから対象顔までの距離)を利用して適切な回転角を決定するというのが、この発明である。センサで測定すべきパラメータは距離に限らない。センサは、カメラの実位置と仮想位置との相対的な位置関係や、カメラの仮想位置と対象顔との関係を求めるために有用なパラメータを測定するものとすることができる。
画像処理装置における前記動画像データ出力部は、前記変換動画像データに基づく動画を表示する所定のディスプレイと接続されるようになっていてもよい。この場合における画像処理装置は、前記回転角を変更するためのデータである回転角変更データを受付ける回転角変更データ受付部を備えており、前記三次元モデル回転部は、前記回転角変更データ受付部が前記回転角変更データを受付けるたびに、前記回転角変更データ受付部によって受付けられた前記回転角変更データに基づいて、前記三次元モデルを回転させる前記回転角を変更するようになっていてもよい。この場合には、変換動画像データに基づく動画像がディスプレイに略実時間で表示される。ユーザは、ディスプレイに表示された自らの顔(対象顔)を見ながら回転角変更データを入力して、例えば少しずつ対象顔を回転させることで、ディスプレイに表示された対象顔を、対象顔が基本的に正面を向くように調節することができる。ディスプレイに表示された対象顔が基本的に正面を向くときにおいて三次元モデルを回転させた角度が、回転角として決定される。三次元モデルの回転方向は、これには限られないが、上下方向(X軸周り)と左右方向(Y軸周り)だけで良い。ユーザは、上述した如き入力装置を用いて、回転角変更データの入力が可能である。
なお、回転角を予め決定しておかない場合において回転角を決定するための上述した4つの工夫は、当然に、必要に応じて組み合わせて使用することもできる。
画像処理装置を、クラウドコンピューティングの技術を用いて構成することとすれば、ユーザが用いるコンピュータに画像処理に関する高いスペックが要求されることがなくなる。
なお、クラウドコンピューティングの技術を用いた上述の画像処理装置をテレビ会議システムに応用する場合、一方の参加者のコンピュータからネットワークを介して受取った動画像データを変換して生成した変換動画像データを画像処理装置が送信する先は、一方の参加者のコンピュータではなく、他方の参加者のコンピュータであっても良い。
一例となるその方法は、動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の1つのカメラで1人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部を備えているコンピュータによって実行される方法である。
その方法は、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成過程と、前記変換動画像データ生成過程によって生成された前記変換動画像データを出力する動画像データ出力過程と、を含み、前記変換動画像データ生成過程では、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成過程と、前記三次元モデル生成過程で複数生成された前記対象顔の三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転過程と、前記三次元モデル回転過程で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成過程と、を実行する画像処理方法である。
一例となるそのコンピュータプログラムは、動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の1つのカメラで1人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部を備えているコンピュータに、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成過程と、前記変換動画像データ生成過程によって生成された前記変換動画像データを出力する動画像データ出力過程と、を実行させるためのものであり、前記変換動画像データ生成過程では、前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成過程と、前記三次元モデル生成過程で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転過程と、前記三次元モデル回転過程で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成過程と、を前記コンピュータに実行させるコンピュータプログラムである。
両実施形態、及び変形例の説明において、同一の対象には同一の符号を付すものとし、重複する説明は場合により省略するものとする。また、特に矛盾しない限りにおいて、各実施形態及び変形例に記載の技術内容は相互に組み合せることができるものとする。
図1に、本願発明の画像処理装置を含むシステムの好ましい一実施形態の全体構成を概略で示す。
第1実施形態によるシステムは、テレビ会議システムである。とはいえ、既に述べたように、本願発明の用途はテレビ会議システムには限定されない。
テレビ会議システムは、第1通信システム10−1と、第2通信システム10−2とを含んで構成されている。これらはいずれも、ネットワーク400に接続可能とされている。
ネットワーク400は、これには限られないが、この実施形態ではインターネットである。
この実施形態における第1通信システム10−1は、テレビ会議に参加する一方のユーザが使用するものであり、第2通信システム10−2は、テレビ会議に参加する他方のユーザが使用するものである。
この実施形態における通信システム10は、通信システム10の外観を示す斜視図である図2に示すように、画像処理装置としてのコンピュータ装置100と、ディスプレイ101と、カメラ210とを含んでいる。この実施形態におけるコンピュータ装置100と、ディスプレイ101と、カメラ210とは、これには限られないがすべて別体である。
コンピュータ装置100は、ネットワーク400を介しての通信が可能とされている。コンピュータ装置100がネットワーク400を介して行う通信の相手方には、そのコンピュータ装置100が含まれる通信システム10と対になる通信システム10に含まれるコンピュータ装置100が少なくとも含まれる。
コンピュータ装置100は、また入力装置102を備えている。入力装置102は、ユーザが所望の入力をコンピュータ装置100に対して行うためのものである。入力装置102は、公知或いは周知のものを用いることができる。この実施形態におけるコンピュータ装置100の入力装置102はキーボードとされているが、入力装置102はこれには限られず、テンキー、トラックボール、マウス、マイクロフォン端子を利用した公知、或いは周知の音声入力などを用いることも可能である。ディスプレイ101がタッチパネルである場合、ディスプレイ101は入力装置102の機能を兼ねることになる。
コンピュータ装置100には、上述したカメラ210が1つ接続されている。カメラ210は、動画像を撮像することのできるデジタルカメラであり、撮像した動画像についてのデータである動画像データを出力することができるものとなっている。カメラ210が生成する動画像データは、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される。そのような機能を有するカメラ210は公知或いは周知であり、また市販もされている。静止画像データは例えばMJPEG形式のデータであり、また、静止画像データにはデプスデータは含まれない。この実施形態におけるカメラ210はそのようなものであってもよく、例えば、市販のウェブカメラをこの実施形態におけるカメラ210として用いることができる。カメラ210は、コンピュータ装置100に対して動画像データを出力する。それを可能とするためにカメラ210は、コンピュータ装置100と例えば有線で接続される。かかる接続は無線で行われても良い。かかるコンピュータ装置100とカメラ210との接続のために用いられる技術も、公知或いは周知のもので良い。
カメラ210は所定の位置に固定的に配される。所定の位置は基本的にどこでも良いが、図2に示した通信システム10を使用するユーザの顔である対象顔がカメラ210で撮像された動画像に映り込むような位置である。この実施形態では、ディスプレイ101の上側におけるディスプレイ101の幅方向の略中央にカメラ210が固定されている。カメラ210が実際に位置する図2に示された位置が、本発明におけるカメラの実位置となる。
ハードウェアには、CPU(central processing unit)111、ROM(read only memory)112、RAM(random access memory)113、インターフェイス114が含まれており、これらはバス116によって相互に接続されている。
CPU111は、演算を行う演算装置である。CPU111は、例えば、ROM112、或いはRAM113に記録されたコンピュータプログラムを実行することにより、後述する処理を実行する。図示をしていないが、ハードウェアはHDD(hard disk drive)その他の大容量記録装置を備えていてもよく、上述のコンピュータプログラムは大容量記録装置に記録されていても構わない。
ここでいうコンピュータプログラムには、少なくとも、動画像データを変換することにより変換動画像データを生成する後述する処理をコンピュータ装置100に実行させるためのコンピュータプログラムが含まれる。このコンピュータプログラムは、コンピュータ装置100にプリインストールされていたものであっても良いし、事後的にインストールされたものであっても良い。このコンピュータプログラムのコンピュータ装置100へのインストールは、メモリカード等の図示を省略の所定の記録媒体を介して行なわれても良いし、LAN或いはインターネットなどのネットワークを介して行なわれても構わない。
ROM112は、CPU111が後述する処理を実行するために必要なコンピュータプログラムやデータを記録している。ROM112に記録されたコンピュータプログラムとしては、これに限られず、OSや、インターネットを介してホームページを閲覧するためのwebブラウザ、電子メールを扱うためのメーラ等の他のプログラムが含まれる場合も当然にある。
RAM113は、CPU111が処理を行うために必要なワーク領域を提供する。場合によっては、上述のコンピュータプログラムやデータ(の少なくとも一部)が記録されていてもよい。
インターフェイス114は、バス116で接続されたCPU111やRAM113等と外部との間でデータのやり取りを行うものである。インターフェイス114には、上述のディスプレイ101と、入力装置102と、カメラ210とが接続されている。
入力装置102から入力された操作内容は、インターフェイス114からバス116に入力されるようになっている。また、カメラ210から送られた動画像データも、インターフェイス114からバス116に入力されるようになっている。
また、周知のようにディスプレイ101に画像を表示するためのデータは、バス116からインターフェイス114に送られ、インターフェイス114からディスプレイ101に出力されるようになっている。
インターフェイス114は、また、インターネットであるネットワーク400を介して外部と通信を行うための公知の手段である送受信機構(図示を省略)に接続されており、それにより、コンピュータ装置100は、ネットワーク400を介してデータを送信することと、ネットワーク400を介してデータを受信することとが可能になっている。かかるネットワーク400を介してのデータの送受信は、有線で行われる場合もあるが無線で行われる場合もある。送受信機構の構成は、公知或いは周知のものとすることができる。送受信機構がネットワーク400から受取ったデータは、インターフェイス114により受取られるようになっており、インターフェイス114から送受信機構にわたされたデータは、送受信機構によって、ネットワーク400を介して外部、例えば、この実施形態との関係でいえば、相手方の通信システム10に含まれるコンピュータ装置100へ送られるようになっている。
コンピュータ装置100内には、本願発明の機能との関係で、入力部121、主制御部122、画像処理部123、出力部125が生成される。
インターフェイス114から入力部121への入力には、入力装置102からの入力がある。入力装置102からの入力には、詳細は追って説明するが、例えば、指定データ、及び開始データがある。入力装置102から指定データ、及び開始データ等の入力があった場合、それら入力装置102からのデータはいずれも、入力部121から主制御部122へと送られるようになっている。
インターフェイス114から入力部121へ入力されるデータには、また、テレビ会議の相手方となる通信システム10に含まれるコンピュータ装置100から送られてきて送受信機構で受取られたデータがある。かかるデータは、例えば、後述する変換動画像データである。送受信機構、インターフェイス114を経て変換動画像データが入力部121に受取られた場合、入力部121はそれらを主制御部122へと送るようになっている。
インターフェイス114から入力部121へ入力されるデータには、また、カメラ210から送られてきた動画像データがある。動画像データを受取った場合、入力部121はそれを主制御部122に送るようになっている。
主制御部122は、入力部121から指定データ、開始データを受取る場合がある。指定データ、開始データを受取った場合、主制御部122は、それぞれ後述するような処理を実行するようになっている。なお、指定データを受取った主制御部122は、それを出力部125へと送るようになっている。
主制御部122は、テレビ会議の相手方となる通信システム10に含まれるコンピュータ装置100から送られてきて送受信機構で受取られた変換動画像データを入力部121から受取る場合がある。これを受取った主制御部122は、その変換動画像データを出力部125へと送るようになっている。
主制御部122は、カメラ210から送られてきた動画像データを入力部121から受取る場合がある。これを受取った主制御部122は、後述する条件が満たされる場合に、その動画像データを画像処理部123へと送るようになっている。
画像処理部123は、上述したように主制御部122から動画像データを受取る場合がある。動画像データを受取った場合、画像処理部123は、動画像データに対して画像処理を行い、動画像データを変換動画像データに変換する。
動画像データは、上述したように、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成されている。そして、各静止画像データに基づく静止画像には、対象顔が映り込んでいる。そのような動画像データを、画像処理部123は、変換動画像データに変換するのである。かかる変換の具体的処理内容については追って詳しく述べるが、簡単にいうと、画像処理部123は、動画像データに含まれる静止画像データのうちの複数を変換して変換静止画像データとするとともに、変換静止画像データを連続させて、変換動画像データとする。つまり、変換動画像データは、変換静止画像データが連続したものである。変換静止画像データは、二次元の静止画像である変換静止画像のデータである。変換動画像データは一般的な動画像データであり、例えばMJPEG形式のデータである。
上述したように動画像データ或いはそれに含まれる静止画像データは、実位置にあるカメラ210によって生成されたものであり、それらに基づく動画或いは静止画像には実位置から写した対象顔が映り込んでいる。対して変換静止画像データは、静止画像データに基づいて、或いは静止画像データを変換して生成されるデータである、変換静止画像のデータである。変換静止画像は、正面を向いた(ユーザが自然な体勢を取った)ときの対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置にカメラが存在する場合においてカメラによって撮像されるはずの二次元の静止画像である。つまり、変換静止画像データによって特定される変換静止画像に含まれる対象顔は、ユーザの顔の正面である仮想位置から写した場合における対象顔となり、基本的に正面を向いた状態となる。なお、カメラ210の仮想位置については追って詳しく説明する。
なお、静止画像データは、動画を構成する静止画像(いわゆるフレーム)のデータである。画像処理装置がカメラから受取ったすべての静止画像データから変換静止画像データを生成しても構わないが、そうすると動画像の遅延を生じるおそれがある。したがって、遅延が生じないことに重きを置くのであれば、変換静止画像データへの変換の対象とする静止画像データを、動画像データに含まれる静止画像データのうちの、例えば、2つおき或いは3つおき(2フレームおき或いは3フレームおき)の静止画像データとすることができる。そうすると、変換動画像データのフレーム数(1秒あたりの変換動画像データに含まれる変換静止画像データの数)は、動画像データのフレーム数(1秒あたりの動画像データに含まれる静止画像データの数)よりも小さくなるが、変換動画像データのフレーム数が少なくとも6〜8fps程度であれば、変換動画像データによる動画は一応動画として通用する。もちろん、変換の対象となる静止画像データは、2つおきとか3つおきとかの一定の数おきの静止画像データである必要はない。
いずれにせよ、画像処理部123は、生成した変換動画像データを、出力部125へと送るようになっている。
上述したように、出力部125は、主制御部122から指定データを受取る場合がある。指定データを受取った場合、出力部125は、インターフェイス114を介してそれを送受信機構へと送るようになっている。なお、指定データは、テレビ会議を行う場合における相手方の通信システム10に含まれるコンピュータ装置100を特定する情報である。
上述したように出力部125は、主制御部122から変換動画像データを受取る場合がある。この変換動画像データは、相手方の通信システム10に含まれるコンピュータ装置100から送られてきたものである。この変換動画像データを受取った場合出力部125は、それをインターフェイス114を介して、コンピュータ装置100と接続されているディスプレイ101に送るようになっている。ディスプレイ101には、その変換動画像データに基づく動画像が表示されることになる。
上述したように、出力部125は、画像処理部123から変換動画像データを受取る場合がある。この変換動画像データは、出力部125がその中にあるコンピュータ装置100内で生成されたものである。この変換動画像データを受取った場合出力部125は、それをインターフェイス114を介して、送受信機構に送るようになっている。送受信機構は、上述の指定データによって特定されるコンピュータ装置100に、その変換動画像データを送るようになっている。
公知、或いは周知のテレビ会議システムを用いる場合と同様に、一方のユーザは、第1通信システム10−1中のディスプレイ101を見ながら、他方のユーザは、第2通信システム10−2中のディスプレイ101を見ながら、テレビ会議を行う。したがって、一方のユーザは、第1通信システム10−1中のディスプレイ101の前に、他方のユーザは、第2通信システム10−2中のディスプレイ101の前にそれぞれ座るなどして、それぞれ適切な位置に移動する。
第1通信システム10−1を用いる一方のユーザの側から相手側を特定する場合を例にとって説明を進める。まず、第1通信システム10−1を用いるユーザが、第1通信システム10−1に含まれる入力装置102を操作して、指定データを生成する。指定データは、テレビ会議を行う相手側のユーザを特定する情報である。例えば、テレビ会議に参加することのあるユーザのそれぞれには、互いにユニークな識別子であるIDが付されている。入力装置102を用いて、このIDを入力するか、予め登録されたIDから選択することで、第1通信システム10−1を用いるユーザは、指定データを入力することができる。この例では、指定データにより、第2通信システム10−2を用いるユーザのIDが指定されるものとする。入力された指定データは、入力装置102からインターフェイス114を経て入力部121に至る。入力部121は、指定データに、第1通信システム10−1自身のIDを更に付して、主制御部122経由で出力部125へそれらを送る。指定データと、第1通信システム10−1のIDは、出力部125からインターフェイス114を経て送受信機構へと送られる。送受信機構は、指定データによって特定されるIDを持つユーザの操作する通信システム10、つまり第2通信システム10−2のコンピュータ装置100に対して、ネットワーク400を介して、第1通信システム10−1のIDを送る。
第1通信システム10−1から第2通信システム10−2へIDを送る上述の処理は、第1通信システム10−1のユーザがテレビ会議の相手方として第2通信システム10−2のユーザを特定することと、第1通信システム10−1のユーザが第2通信システム10−2のユーザに対して行うテレビ会議の申込みとを兼ねている。
第1通信システム10−1のユーザとテレビ会議を行うことを了承する場合、第2通信システム10−2のユーザは、その了承の意思を示す入力を、入力装置102を用いて行う。これが第2通信システム10−2に含まれるコンピュータ装置100における指定データに相当する。第1通信システム10−1のユーザとテレビ会議を行うことを了承しない場合、第2通信システム10−2のユーザは、その了承の意思を示す入力を行わないか、第1通信システム10−1のユーザとのテレビ会議を了承しないという意思を示す入力を行う。この場合、テレビ会議は実現されない。第2通信システム10−2のユーザがテレビ会議を行うことを了承する意思表示を行った場合、その旨を示すデータである指定データが第2通信システム10−2に含まれるコンピュータ装置100における入力装置102から入力された場合、指定データは、インターフェイス114、入力部121を経て主制御部122へと送られる。
それを受取った主制御部122は、テレビ会議を行う準備ができたことを示すデータを生成し、それを出力部125に送る。そのデータは、出力部125からインターフェイス114を経て送受信機構に送られ、送受信機構からネットワーク400を介して第1通信システム10−1へと送られる。
以上で、第1通信システム10−1におけるコンピュータ装置100と、第2通信システム10−2におけるコンピュータ装置100は、テレビ会議に必要となる動画像についてのデータである、変換動画像データの送受信をお互いに行うための準備が調った状態となる。
また、テレビ会議を行う前に、両ユーザの顔である対象顔が、両ユーザの傍にある通信システム10に含まれるカメラ210の撮像範囲内にそれぞれ位置するように、テレビ会議に参加する両ユーザは、例えば、自らの姿勢を調整したり、カメラ210の位置や角度を調整したりということを必要に応じて行う。
以上で、テレビ会議の準備は終了する。
これには限られないがこの実施形態では、第1通信システム10−1を用いるユーザが開始データの入力を行うと、第1通信システム10−1で生成された変換動画像データの第2通信システム10−2への送信が行われて、第2通信システム10−2に含まれるディスプレイ101にその変換動画像データに基づく動画像が表示されるとともに、第2通信システム10−2を用いるユーザが開始データの入力を行うと、第2通信システム10−2で生成された変換動画像データの第1通信システム10−1への送信が行われて、第1通信システム10−1に含まれるディスプレイ101にその変換動画像データに基づく動画像が表示される。これら2つの処理の内容は事実上同じであるから、第1通信システム10−1で変換動画像データが生成され、生成されたその変換動画像データが第2通信システム10−2に送られ、そして第2通信システム10−2に含まれるディスプレイ101にその変換動画像データに基づく動画像が表示される場合の処理のみに着目して以下の説明を行う。
画像処理部123は、動画像データに含まれる静止画像データから、少なくとも複数の静止画像データを画像処理(変換)の対象として抜き出す、コマ落とし部を備えている。ただし、後述するようにコマ落とし部は必須ではない。
また、画像処理部123は、コマ落とし部で抜き出された少なくとも複数の静止画像データのそれぞれから、静止画像データによって特定される静止画像に写り込んだ対象顔のうち、顔面部分についての三次元モデルを生成する三次元モデル生成部を備えている。
また、画像処理部123は、三次元モデル生成部で複数生成された三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転部を備えている。
また、画像処理部123は、三次元モデル回転部で回転させられた三次元モデルのそれぞれに基づいて、変換静止画像データを生成する二次元画像生成部を備えている。
これらの機能は第1の変換方法から第4の変換方法で変わりはない。
第1の変換方法から、第4の変換方法までの各変換方法で異なるのは概ね、三次元モデル回転部で対象顔を回転させる場合における三次元モデルの回転角(回転方向を含む)を決定する方法のみである。
第1の変換方法を画像処理部123が実行する場合、画像処理部123は、図5に示したように構成されている。
この場合における画像処理部123は、コマ落とし部123A、三次元モデル生成部123B、三次元モデル回転部123C、二次元画像生成部123Dを備えている。
上述したように、コマ落とし部123Aは、動画像データに含まれる静止画像データから、少なくとも複数の静止画像データを画像処理(変換)の対象として抜き出すものである。抜き出された静止画像データのみが、静止画像データから変換静止画像データへと変換される。動画像データに含まれる静止画像データのすべてを変換静止画像データへの変換の対象としないのは、コンピュータ装置100のコンピューティングパワーが、即時性の求められる動画像データの変換動画像データへの変換(或いは、静止画像データの変換静止画像データへの変換)を行うには不足する場合があり得るからである。したがって、コンピュータ装置100のコンピューティングパワーが十分なのであれば、コマ落とし部123Aは不要であるということになる。
これには限られないが、この実施形態におけるコマ落とし部123Aは、カメラ210から送られてきた60fpsの動画像データに含まれる静止画像データを5つ置きに抜き出し、1秒あたり10の静止画像データを抜き出すこととしている。もっとも、コマ落とし部123Aは常に一定の数おきの静止画像データを抜き出す必要はなく、また、1秒あたりで抜き出される静止画像データの数を10とする必要もない。その数は、例えば、6〜8程度、或いはそれ以上とすることができる。
また、三次元モデル生成部123Bは、上述のように、コマ落とし部123Aで抜き出された少なくとも複数の静止画像データのそれぞれから、静止画像データによって特定される静止画像に写り込んだ三次元モデルを生成する。三次元モデルは、例えば、ワイヤーフレームモデルであるがこれに限定されるものではない。
また、三次元モデル回転部123Cは、三次元モデル生成部123Bで複数生成された三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う。三次元モデルのそれぞれが回転させられる向き及び角度はすべての三次元モデルについて一定である。また、二次元画像生成部123Dは、三次元モデル回転部123Cで回転させられた三次元モデルのそれぞれに基づいて、変換静止画像データを生成する。
ここで、三次元モデル回転部123Cが三次元モデルを回転させるときにおける回転角は、回転させられた後の三次元モデルに基づいて二次元画像を生成した(即ち、二次元画像に戻した)ときにその二次元画像に含まれることになる対象顔(より正確には、対象顔の顔面部分)が、仮想位置にあるカメラで撮像した場合における対象顔と同じものとなるように決定される。仮想位置は、正面を向いた(ユーザが自然な体勢を取った)ときの対象顔から正面方向に伸びる仮想の直線上の所定の位置である。つまり、三次元モデル回転部123Cは、実位置にあるカメラ210で撮像された動画像データ(或いは静止画像データ)を、対象顔に関しては、仮想位置にある仮想のカメラで撮像したものと同じになるように、対象顔の顔面部分の三次元モデルを回転させるのである。
第1の変換方法では、回転角は予め決定されている。回転角を特定するデータは例えば、三次元モデル回転部123Cに予め記録されており、その回転角を特定するデータで特定される回転角分だけ、三次元モデル回転部123Cは三次元モデルを回転させる。
図6(A)には、カメラ210と対象顔の関係が側面図で示されている。カメラ210は、ディスプレイ101の直上の実位置に存在している。なお、この例では、カメラ210は、水平方向で考えれば対象顔の正面方向ではあるが、対象顔よりも上側に位置するものとする。この場合には、カメラ210は、角度θの分だけ上側から対象顔を撮像することになり、カメラ210で生成される動画像データによる動画像、或いは動画像データに含まれる静止画像データによる静止画像中に映り込んだ対象顔は、角度θ分だけ上側から撮像されたものとなる。かかる動画像データによる画像を、相手方の通信システム10に含まれるディスプレイ101で表示した場合の例を示すのが、図6(B)である。この例から明らかなように、動画像データそのものに基づく動画像をディスプレイ101に表示した場合、動画像に含まれる対象顔は角度θ分だけ下方を向いた状態となる。
ここで、三次元モデル生成部123Bが、静止画像データによって特定される静止画像に含まれる対象顔のうちの顔面部分の三次元モデルを生成する。
三次元モデル生成部123Bは、まず、静止画像に含まれる画像の中から、対象顔の顔面部分Fを抽出する。顔面部分Fの抽出の方法は、どのような方法によっても良いが一般的な画像認識技術によれば良い。図7(A)において破線で囲まれた範囲が顔面部分Fである。この実施形態における顔面部分は、これには限られないが、人間の頭部(対象顔)のうち、概ね、耳より前で額より下の部分を意味する。もっとも、顔面部分の範囲が、少なくとも目、鼻、口を含む範囲でより狭くとも、また、頭部の全体に至るまでより広くとも構わない。
三次元モデル生成部123Bは、上述の顔面部分Fについての三次元モデルを生成する。三次元モデル生成部123Bは、多数の顔の機械学習によって得られた人間の顔の三次元モデルを推定する変換アルゴリズムを用いて三次元モデルの生成を行う。顔が写り込んだ一般的な二次元の静止画像1つから(言い換えれば、一枚の顔写真のデータから)その静止画像に写り込んでいる顔の顔面部分の三次元モデルを自動的に作る技術は、”Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression/Accepted to ICCV 2017”(URL:http://aaronsplace.co.uk/papers/jackson2017recon/)の論文に詳しく開示されている。上述の変換アルゴリズムは、様々な人間の顔を様々な角度から撮像することによって生成された人間の顔の写り込んだ多数の二次元の静止画像をサンプルとしてコンピュータによって機械学習させることによって生成されたものである。三次元モデル生成部123Bは、その変換アルゴリズムを用いて、静止画像データによって特定される静止画像に写り込んだ対象顔のうちの顔面部分Fの三次元モデルを、自動的に生成する。
その場合により生成される三次元モデルは、例えば、図7(B)に示されたようなものとなる。図7(B)(1)に示されたのは、正面から見た対象顔の顔面部分Fの三次元モデルである。三次元モデルは、これには限られないがワイヤーフレームモデルとなっている。また、同(2)に示されたのは、顔面部分Fの三次元モデルの側面図であってワイヤーフレームを省略したものである。顔面部分Fは、図6(A)で示した角度θ分だけ下を向いている。
三次元モデル生成部123Bは、また、静止画像データのうち、顔面部分Fを除いた部分のデータ、つまり、図7(A)における顔面部分Fの周囲の部分の静止画像についてのデータを生成し、それを二次元画像生成部123Dに送る。
角度θ分だけ下方を向いた状態にある三次元モデルは当然に、角度θ分だけ上方向に回転させれば正面を向く。ここで、角度θは、図8に示したaとbを用いて簡単に求めることができる。θは、θ=atan(b/a)というごく簡単な計算式によって求められる。ここで、aは、カメラの仮想位置Xから対象顔までの水平方向の距離、bは、カメラ210の仮想位置Xからカメラ210の実位置までの垂直方向の距離である。なお、この例ではカメラ210の仮想位置Xは、対象顔の正面方向におけるディスプレイ101の直前の位置としている。つまり、仮想位置Xは、自然な体勢を取ったユーザの対象顔の正面方向に伸びる仮想の直線上に位置する。その条件が満たされる限り、仮想位置Xとディスプレイ101の相対的な位置関係は不問であり、例えば仮想位置Xはディスプレイ101内に位置しても良いし、ディスプレイ101の背後に位置しても良い。例えば、aが40cm、bが=10cmならθ は約14度、aが30cm、bが5cmならθは約9.5度となる。2つの角度のうちの前者は、デスクトップ型のコンピュータ装置100と組み合わせて作られる通信システム10においてよく見られる値であって、後者は、スマートフォンを用いて作られる通信システム10においてよく見られる値である。
図7(B)に示された三次元モデルを、三次元モデル回転部123Cが角度θ分だけ垂直平面内で上方向に回転させる。そうすると、三次元モデルは、図7(C)に示したように正面を向く。図7(C)(1)に示されたのは、正面から見た対象顔の顔面部分Fの三次元モデルである。また、同(2)に示されたのは、顔面部分Fの三次元モデルの側面図であってワイヤーフレームを省略したものである。これには限られないが、この実施形態における三次元モデル回転部123Cは、所定の点を中心として三次元モデルを回転させる。三次元モデルを回転させるための処理としては、三次元モデルをある軸(例えば、両耳を貫く水平な直線、或いは、頭蓋の平面視した場合の中心を鉛直に貫く直線、或いはそれらの双方)周りに回転させることも可能である。しかしながら、そのような処理を行うには、三次元モデルの中で耳、或いは頭蓋の平面視した場合の中心の位置を検出してその座標を特定する処理が必要となる。三次元モデルが存在する仮想の空間の中のある点(仮想の点であって、三次元モデルの内部に位置するか否かを問わない。例えば、その点は、三次元モデルが存在する仮想空間を特定する原点である。)を中心として三次元モデルを回転させることにより、上述の如き煩雑な処理を省略することが可能となる。これには限られないが、この実施形態では、所定の点は、カメラのレンズ位置であり、三次元モデルが存在する仮想の空間の原点である。また、これには限られないが、この実施形態では、三次元モデルの回転は、所定の点を原点とした空間座標の変換として実行される。このようにすることで、三次元モデルや静止画像において、どこが目でどこが鼻か、といったことを検出する必要がなくなるり、三次元モデルを対象顔の顔面の形状を持った単なる塊として扱えるようになる。
そして、二次元画像生成部123Dが、三次元モデル回転部123Cによって回転させられた後の図7(C)に示された三次元モデルを用いて、再度二次元画像のデータを生成する。かかる二次元画像は、三次元モデル生成部123Bから二次元画像生成部123Dへと送られていた、静止画像データのうち顔面部分Fを除いた部分のデータにおける、除かれている顔面部分Fに対応する範囲に貼り込まれる。そのようにして得られた静止画像が変換静止画像であり、変換静止画像のデータが変換静止画像データである。得られた変換静止画像に含まれる対象顔は、図7(D)に示したように、基本的に正面を向く。三次元モデル生成部123Bから二次元画像生成部123Dへと送られる、静止画像データのうち顔面部分Fを除いた部分のデータは、静止画像データのうち顔面部分Fを除いた部分のデータそのものであってもよいが、それに対して何らかの処理を行ったものであっても構わない。図7(D)における顔面部分Fの範囲は、図7(B)における顔面部分Fと一致しているが、その範囲に貼り込まれる、回転させられた後の三次元モデルを用いて生成された二次元画像の縁は、顔面部分Fの範囲の縁と完全には一致しないことがある。それによる不自然さを低減させたいのであれば、上述の何らかの処理を行えば良い。その処理は例えば、回転後の三次元モデルから生成された二次元画像の縁を、顔面部分Fの縁と一致させるためのものであればどのようでも良いが、その処理は二次元的な画像処理であって、例えば、1方向における画像の拡縮の他、2方向における画像の拡縮、回転等が考えられる。例えば、下を向いた対象顔の顔面部分Fの三次元モデルを回転させて正面を向けた場合、その例えば縦方向の見かけ上の長さが短くなる。そのような見かけ上の長さの変更に対応して、三次元モデル生成部123Bは、対象顔の顔面部分F以外の部分の静止画像に縦方向の長さを縮小させる処理を行うことができる。そうすると、三次元モデルから生成された顔面の画像の縁は顔面部分Fの範囲に良く一致するようになる。
なお、カメラ210の実位置が顔の正面方向からずれているのであれば、上述の例で縦方向で三次元モデルを回転させたのと同様にして、水平平面内で横方向に回転させることが当然に必要となるが、その説明は省略する。もちろん、三次元モデル回転部123Cは、縦方向での回転と横方向の回転との2つの処理を個別に行う必要はなく、両回転を合成した1回の回転を三次元モデル回転部123Cで行うことももちろん可能である。
その結果生成された変換静止画像データは、二次元画像生成部123Dから次々に出力部125に対して出力される。この多数連なった変換静止画像データの集合が変換動画像データである。つまり、画像処理部123から出力部125に、変換動画像データが出力されることになる。
したがって、第1の変換方法は、カメラ210の実位置が予定された位置或いはそこからそう遠くない位置に存在する場合に特に有効になる。例えば、コンピュータ装置100が、ラップトップ型のパーソナルコンピュータ、スマートフォン、タブレット等である場合には、カメラの実位置はそれらの筐体に対して固定されている。そのような場合には、例えば、カメラの仮想位置を、ラップトップ型のパーソナルコンピュータ、スマートフォン、タブレットが備えるディスプレイの直前、或いは背後等の適当な位置と決定するのであれば、カメラの実位置と仮想位置を一意に決定できることになる。このように画像処理装置を構成する機器の仕様が当所から明らかなのであれば、対象顔とカメラ210の仮想位置との距離、或いは対象顔とディスプレイ101との距離はディスプレイ101の大きさによってある程度予想可能であるから、それらを総合的に考慮すれば、ある程度確からしい精度で回転角θを予め決定することが可能である。たとえば、コンピュータ装置100を本願における画像処理装置として機能させるためのコンピュータプログラムには、多種多様なラップトップ型のパーソナルコンピュータ、スマートフォン、タブレット等のそれぞれにおけるカメラの仮想位置(或いは、実位置と仮想位置との関係から把握可能な上述の回転角を特定するデータ)についてのデータ(つまりは、機種とカメラの仮想位置とを対にした、多数組のデータ)を含めておくことができる。その場合、コンピュータ装置100にそのコンピュータプログラムがインストールされた後において、コンピュータプログラムがそのコンピュータの機種を自動的に特定する機能か、或いは、コンピュータ装置100にそのコンピュータプログラムがインストールされた後において、コンピュータプログラムがインストールされたコンピュータ装置100の機種を特定するためのユーザがした入力を受け付ける機能のいずれかを、そのコンピュータプログラムが実装していてもよい。そうすることによって、コンピュータプログラムによってそのコンピュータ装置100を本願発明の画像処理装置として機能させる場合に、機種と仮想位置との関係から、その画像処理装置に相応しい上述の回転角を自動的に決定できるようにすることが可能となる。
また、コンピュータ装置100がこの実施形態で説明しているようにデスクトップ型であり、ディスプレイ101とカメラ210の位置関係をある程度の自由度を持って決定できる場合であっても、予め回転角を決定しておくことも可能である。その場合には、例えば、「ディスプレイの上下方向及び幅方向の中心から何cm上側の位置にカメラを配置し、ディスプレイの中央の直前のカメラの仮想位置から何cm対象顔を離した状態でこの画像処理装置を使用せよ」という指示をユーザに知らしめてユーザにディスプレイ101とカメラ210の位置関係を予め設定した通りにさせるとともに、上述のようにして決定した仮想位置とユーザがそう設定するであろうカメラ210の実位置との関係を考慮して、予め回転角を決定しておくことも可能である。
第2の変換方法を画像処理部123が実行する場合、画像処理部123は、図9に示したように構成されている。
この場合における画像処理部123は、第1の変換方法を実行する画像処理部123と同様に、コマ落とし部123A、三次元モデル生成部123B、三次元モデル回転部123C、二次元画像生成部123Dを備えている。それらの構成、機能は、第2の変換方法を実行する場合における三次元モデル回転部123Cが回転角を特定するデータを予め記録していないという点を除けばすべて、第1の変換方法の場合と同じである。
他方、第2の変換方法を実行する画像処理部123には、角度検出部123Eが存在する。角度検出部123Eは、主制御部122から送られてきた動画像データに基づいて所定の演算を行うことにより、上述の回転角を決定するものである。なお、図9では、主制御部122から角度検出部123Eに直接動画像データが入力されるものとしているが、角度検出部123Eは、コマ落とし部123Aが抜き出した静止画像データに基づいて回転角θ決定してもよい。
このような角度検出部123Eを用いるのであれば、カメラ210の実位置と仮想位置との相対的な位置関係にこだわる必要はなくなる。
角度検出部123Eが動画像データから回転角を自動的に求められるようにするには、角度検出部123Eに機械学習をさせておくことが考えられる。様々な角度から撮像した顔の画像と、それぞれの画像をどのような角度から撮像したのかということを角度検出部123Eに学習させておけば、動画像データに含まれる静止画像データによる静止画像に映り込んだ顔がどのような角度から撮像されたのかを角度検出部123Eに検出させることが可能となる。それが可能であるなら当然に角度検出部123Eは、回転角θの大きさをもちろん回転の方向も含めて決定することができる。
なお、第2の変換方法を用いる場合においては、例えば、「回転角を決定するまでの例えば数秒間は、正面を向いた状態を保て」といった指示をユーザに知らしめておくとともに、ユーザにその指示を守らせるようにするのが望ましい。さもなくば、入力装置102から、回転角を決定するモードを実行するためのデータの入力を可能とするとともに、回転角を決定するモードを、開始データの入力の例えば前に予め行っておくことが考えられる。
角度検出部123Eが決定した回転角を特定するデータは、角度検出部123Eから三次元モデル回転部123Cへと送られる。三次元モデル回転部123Cはそのデータで特定される回転角で、第1の変換方法の場合と同様に各三次元モデルを同じ角度、同じ方向に回転させる。
第2の変換方法が実行される場合でも、画像処理部123から出力部125に、変換動画像データが出力される。
第3の変換方法を画像処理部123が実行する場合、画像処理部123は、図10に示したように構成されている。
第3の変換方法は、予め回転角を決定しておくものではなく、第2の変換方法と同様に、回転角を決定する処理をも行うものである。第3の変換方法を実行する場合における画像処理部123は、第2の変換方法を実行する場合における画像処理部123と似たものとなっている。
第2の変換方法を実行する画像処理部123と同様に、第3の変換方法を実行する画像処理部123は、コマ落とし部123A、三次元モデル生成部123B、三次元モデル回転部123C、二次元画像生成部123Dを備えている。他方、第3の変換方法を実行する画像処理部123は、第2の変換方法を実行する画像処理部123における角度検出部123Eの代わりに、回転角決定部123Fを備えている。
回転角決定部123Fは、上述した角度検出部123Eと同様に、回転角を決定する機能を有している。角度検出部123Eは、動画像データに基づいて所定の演算を行うことにより回転角を決定したが、回転角決定部123Fは動画像データではなく他のデータに基づいて所定の演算を行うことにより回転角を決定する。
回転角決定部123Fが回転角を決定するために用いるデータは、入力装置102から入力されたパラメータのデータか、センサ(図示を省略)から入力されたパラメータのデータか、或いはそれらの双方である。入力装置102又はセンサから入力される上記パラメータはいずれも、回転角を決定するために有用なものであればその種類は問わない。
入力装置102から入力されるパラメータは、例えば、ディスプレイ101の形状(例えば、縦横比が3:4か、9:16か)を特定する情報、ディスプレイ101の大きさ(例えば、ディスプレイ101が何インチか)を特定する情報、カメラの実位置がどこであるかを特定する情報(例えば、ディスプレイ101の幅方向の中央におけるディスプレイ101の直上とか、ディスプレイ101の右上隅とか)、ディスプレイ101から対象顔までの距離を特定する情報等である。
センサは、カメラ210の実位置と仮想位置との相対的な位置関係や、カメラ210の仮想位置と対象顔の相対的な位置関係を求めるために有用なパラメータを測定するものとすることができる。例えば、公知或いは周知の測距装置をセンサとし、センサから対象顔の距離を測定するパラメータとすることができる。
回転角決定部123Fが決定した回転角を特定するデータは、回転角決定部123Fから三次元モデル回転部123Cへと送られる。三次元モデル回転部123Cはそのデータで特定される回転角で、第1の変換方法の場合と同様に各三次元モデルを同じ角度、同じ方向に回転させる。
第3の変換方法が実行される場合でも、画像処理部123から出力部125に、変換動画像データが出力される。
第3の変換方法を用いる場合においても、入力装置102から、回転角を決定するモードを実行するためのデータの入力を可能とするとともに、回転角を決定するモードを、開始データの入力の例えば前に予め行っておくのが好ましい。
第4の変換方法を画像処理部123が実行する場合、画像処理部123は、図11に示したように構成されている。
第4の変換方法は、予め回転角を決定しておくものではなく、第2、第3の変換方法と同様に、回転角を決定する処理をも行うものである。
第4の変換方法を実行する画像処理部123は、第1の変換方法を実行する場合における画像処理部123と同じ機能ブロックを備えている。第4の変換方法を実行する画像処理部123は、コマ落とし部123A、三次元モデル生成部123B、三次元モデル回転部123C、二次元画像生成部123Dを備えている。それらの構成、機能は、第4の変換方法を実行する場合における三次元モデル回転部123Cが回転角を特定するデータを予め記録していないという点、回転角を変更するための回転角変更データが、主制御部122から三次元モデル回転部123Cに入力されるようになっているという点、また、三次元回転モデル回転部123Cは、回転角変更データを受付けるたびに受付けた回転角変更データに基づいて、対象顔の三次元モデルを回転させる回転角を変更するようになっているという点、を除けばすべて、第1の変換方法の場合と同じである。
第4の変換方法が実行される場合においても、第1の変換方法が実行される場合と同様に、画像処理部123で生成された変換動画像データが出力部125へと送られる。このデータは、出力部125からディスプレイ101にと送られる。そうすると、ディスプレイ101には、後述するように、変換動画像データに基づく動画像が表示されることなる。この表示は、カメラ210で撮像が行われてから略実時間で、好ましくは0.5秒以内に行われる。
ユーザは、ディスプレイ101に表示された自らの顔(対象顔)を見ながら回転角変更データを入力して、例えば少しずつ対象顔を回転させることで、ディスプレイ101に表示された対象顔を、対象顔が基本的に正面を向くように調節する。回転角変更データは、入力装置102を用いて入力される。回転角変更データは、入力装置102で入力される他のデータと同様にして主制御部122に至り、主制御部122から、三次元モデル回転部123Cに送られる。三次元モデルの回転方向は、これには限られないが、上下方向(X軸周り)と左右方向(Y軸周り)だけで良い。それらは、もちろん入力装置102を用いて入力可能である。ディスプレイ101に表示された対象顔が基本的に正面を向いたときにおいて三次元モデル回転部123Cが三次元モデルを回転させた角度が、それ以降において三次元モデル回転部123Cが対象顔の三次元モデルを画一的な角度で回転させるときの回転角として決定される。
第4の変換方法が実行される場合でも、画像処理部123から出力部125に、変換動画像データが出力される。
第4の変換方法を用いる場合においても、入力装置102から、回転角を決定するモードを実行するためのデータの入力を可能とするとともに、回転角を決定するモードを、開始データの入力の例えば前に予め行っておくのが好ましい。
主制御部122は、この変換動画像データを、出力部125、インターフェイス114を介して、ディスプレイ101へと送る。それにより、第2通信システム10−2におけるディスプレイ101には、第1通信システム10−1から送られてきた変換動画像データに基づく動画像が表示されることになる。
ディスプレイ101に表示される顔画像は、図12に示したように、基本的に正面を向いたものとなる。
基本的にというのは、ユーザが自然な体勢を取ったときという意味であると何回か述べた。ここで、第1通信システム10−1のユーザが頷いた場合に、第2通信システム10−2に含まれるディスプレイ101に表示される動画像についても一応説明する。
図13(A)は、第1通信システム10−1のユーザが角度αだけ、水平方向から下方向を向いた状態を示している。この場合、カメラ210と対象顔の正面方向との間には、角度θ+角度α分のズレが生じている。したがって、何らの画像処理も行わなければ、第2通信システム10−2に含まれるディスプレイ101に表示される動画像に含まれる対象顔は、図13(B)に示される対象顔を、図面右側から見た状態のものとなる。しかしながら、本願発明によれば、角度θ分だけ上方向に回転させられた状態で対象顔がディスプレイ101に表示されるようになる。したがって、第2通信システム10−2に含まれるディスプレイ101に表示される動画像に含まれる対象顔は、図13(C)に示された対象顔を正面から見た状態のものとなる。つまり、角度αだけ、水平方向から下方向を向いた状態の第1通信システム10−1のユーザの対象顔が、第2通信システム10−2に含まれるディスプレイ101に表示されることになる。これは、自然な状態であり、第2通信システム10−2のユーザに対して違和感を与えない。
変形例によるテレビ会議システムについて説明する。
変形例によるテレビ会議システムは、第1実施形態のテレビ会議システムと同様に、第1通信システム10−1と第2通信システム10−2を備えている。ハードウェアとして見た場合、変形例における第1通信システム10−1及び第2通信システム10−2はともに、第1実施形態におけるそれらと変わりない。両通信システム10は、コンピュータ装置100と、ディスプレイ101と、カメラ210とを備えている。
ただし、第1実施形態における両通信システム10におけるコンピュータ装置100は、動画像データを変換動画像データに変換する機能を有していたが、変形例における両通信システム10におけるコンピュータ装置100はその機能を有していない。つまり、変形例における両通信システム10におけるコンピュータ装置100は本願発明における画像処理装置では無い。変形例における両通信システム10におけるコンピュータ装置100は、後述する変換サーバとのデータのやり取りを除き、従来のテレビ会議システムにおけるそれらと同等の機能しか基本的に持たない。
変化例におけるテレビ会議システムでは、本願発明における画像処理装置が果たすべき動画像データを変換動画像データに変換する機能を、変換サーバ20−1、変換サーバ20−2が担う。つまり、変形例における変換サーバ20−1、変換サーバ20−2は、クラウドコンピューティングの技術を用いて、第1通信システム10−1と第2通信システム10−2に対して、動画像データを変換動画像データに変換する機能を提供するものといえる。
変形例におけるテレビ会議システムは、図14に示したように、第1通信システム10−1、第2通信システム10−2、変換サーバ20−1、変換サーバ20−2を含んで構成される。第1通信システム10−1、第2通信システム10−2、変換サーバ20−1、変換サーバ20−2はすべてネットワーク400に接続可能とされている。
上述したように、第1通信システム10−1におけるコンピュータ装置100は、実位置にあるカメラ210から、動画像データを受取るようになっている。動画像データは、第1通信システム10−1にあるコンピュータ装置100から、変換サーバ20−1に送られるようになっている。変換サーバ20−1は、受取った動画像データを変換動画像データに変換する。そして、変換サーバ20−1は、変換動画像データを第1通信システム10−1中のコンピュータ装置100に返信する。変換動画像データは、第1実施形態の場合と同様に、第1通信システム10−1のコンピュータ装置100から第2通信システム10−2のコンピュータ装置100へと送られる。なお、変換サーバ20−1で生成された変換動画像データは、一旦第1通信システム10−1中のコンピュータ装置100に送られることなく、直接第2通信システム10−2中のコンピュータ装置100に送られるようになっていても良い。
第1実施形態では、コンピュータ装置100は、カメラ210から動画像データを受付けるようになっており、動画像データは、カメラ210、インターフェイス114、入力部121の順で、入力部121まで到達した。それに対して、変形例における変換サーバ20−1は、ネットワーク400を介して第1通信システム10−1中のコンピュータ装置100から動画像データを受付けるようになっており、動画像データは、その送受信機構、インターフェイス114、入力部121の順で、入力部121まで到達する。
また、第1実施形態では、コンピュータ装置100は、入力装置102からの入力をインターフェイス114を介して受付けるようになっていた。それに対して、変化例における変換サーバ20−1は、ネットワーク400を介して第1通信システム10−1中のコンピュータ装置100から入力装置102からの入力を受付けるようになっている。
また、第1実施形態では、コンピュータ装置100では、画像処理部123で生成された変換動画像データは、出力部125、インターフェイス114、送受信機構を経て第2通信システム10−2に送られた。それに対して、変形例における変換サーバ20−1では、画像処理部123で生成された変換動画像データは、出力部125、インターフェイス114、送受信機構を経て第1通信システム10−1へと返される。もっとも、変換サーバ20−1が変換動画像データを第2通信システム10−2に送っても良いのは上述の通りである。
変換サーバ20−2は、変換サーバ20−1と同一の構成、機能を有しており、変換サーバ20−1が第1通信システム10−1中のコンピュータ装置100に提供するのと同様の機能を、第2通信システム10−2中のコンピュータ装置100に提供するようになっている。それにより、第1通信システム10−1と第2通信システム10−2とは、第1実施形態の場合と同様に、変換動画像データを送り合うことができるようになっている。
なお、両通信システム10に対して、1つの変換サーバが動画像データを変換動画像データに変換する機能を提供するようになっていてもよい。
第2実施形態における画像処理装置にて説明する。
第2実施形態における画像処理装置の外観は、ウェブカメラ様である。例えば、図2、図8、図12等に示したような外観を、第2実施形態における画像処理装置は呈している。
第2実施形態における画像処理装置は、従来のテレビ会議システムを構成するためのコンピュータ装置に接続して用いることができる。かかるコンピュータ装置は、他のコンピュータ装置との間で互いに動画像データの送受信を行う機能を有するものであり、公知或いは周知のもので良い。
第2実施形態における画像処理装置は、カメラと一体であり、カメラに対して、第1実施形態におけるコンピュータ装置100のハードウェア構成と同様のハードウェアを内蔵させ、また、そのハードウェアに第1実施形態で説明したのと同様のコンピュータプログラムをインストールしたものである。したがって、第2実施形態における画像処理装置は、その外観がウェブカメラ様であったとしても、その内部に図4に示したのと同様の機能ブロックを生じることになる。補足すると、第2実施形態における画像処理装置のハードウェア構成は、図3におけるインターフェイス114にカメラを接続したものとなる。もっとも、本願発明における画像処理装置は、そのような構成からカメラを除いたものとなる。
第2実施形態における画像処理装置は、それと一体のカメラで生成された動画像データを、変換動画像データに変換する機能を持つことになる。
第2実施形態における画像処理装置は、通常のウェブカメラと同様の方法で使用することができる。しかしながら、この画像処理装置が出力するデータは、一般的な動画像データではなく、変換動画像データとなる。したがって、両通信システムにおけるコンピュータ装置は、動画像データを変換動画像データに変換する機能を第1実施形態のときのように持たなくても、互いに変換動画像データを送り合うことができるようになる。
10−2 第2通信システム
100 コンピュータ装置
101 ディスプレイ
102 入力装置
121 入力部
122 主制御部
123 画像処理部
123A コマ落とし部
123B 三次元モデル生成部
123C 三次元モデル回転部
123D 二次元画像生成部
20−1 変換サーバ
20−2 変換サーバ
Claims (14)
- 動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の1つのカメラで1人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部と、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成部と、
前記変換動画像データ生成部によって生成された前記変換動画像データを出力する動画像データ出力部と、
を備えている、画像処理装置であって、
前記変換動画像データ生成部は、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成部と、
前記三次元モデル生成部で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転部と、
前記三次元モデル回転部で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成部と、
を備えている、画像処理装置。 - 前記回転角は、予め決定されており、前記画像処理装置に記録されている、
請求項1記載の画像処理装置。 - 前記回転角を、前記動画像データ受付部によって受け付けられた前記動画像データに基づいて所定の演算を行うことにより決定するようになっている、
請求項1記載の画像処理装置。 - 前記回転角を決定するために必要な所定のパラメータを入力するための入力装置から前記パラメータについてのデータを受付けるための入力装置受付部を備えており、
前記回転角を、前記入力装置受付部によって受け付けられた前記パラメータについてのデータに基づいて所定の演算を行うことにより決定するようになっている、
請求項1記載の画像処理装置。 - 前記回転角を決定するために必要な所定のパラメータを検出するセンサから前記パラメータについてのデータを受付けるセンサ受付部を備えており、
前記回転角を、前記センサ受付部によって受け付けられた前記パラメータについてのデータに基づいて所定の演算を行うことにより決定するようになっている、
請求項1記載の画像処理装置。 - 前記動画像データ出力部は、前記変換動画像データに基づく動画を表示する所定のディスプレイと接続されるようになっているとともに、
前記回転角を変更するためのデータである回転角変更データを受付ける回転角変更データ受付部を備えており、
前記三次元モデル回転部は、前記回転角変更データ受付部が前記回転角変更データを受付けるたびに、前記回転角変更データ受付部によって受付けられた前記回転角変更データに基づいて、前記三次元モデルを回転させる前記回転角を変更するようになっている、
請求項1記載の画像処理装置。 - 前記三次元モデル生成部は、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分を抜出して前記三次元モデルを生成するとともに、前記静止画像のうちの前記対象顔の顔面部分以外の部分の二次元の静止画像についてのデータである背景画像データを生成するようになっており、
前記二次元画像生成部は、前記三次元モデル回転部で回転させられた前記三次元モデルを二次元化したデータである顔面画像データを、前記背景画像データにおける前記対象顔のうちの顔面部分に貼り込むことにより、前記変換静止画像データを生成するようになっている、
請求項1記載の画像処理装置。 - 前記三次元モデル生成部は、前記静止画像のうちの前記対象顔の顔面部分以外の部分の静止画像に二次元的な所定の画像処理を行ってから当該静止画像についての前記背景画像データを生成するようになっており、それにより、前記二次元画像生成部が、前記顔面画像データを、前記背景画像データにおける前記対象顔のうちの顔面部分に貼り込む際に、前記顔面画像データと前記対象顔のうちの顔面部分との縁部分がより一致するようになっている、
請求項7記載の画像処理装置。 - 前記三次元モデル回転部は、所定の点を中心として前記三次元モデルを回転させるようになっている、
請求項1記載の画像処理装置。 - 前記カメラと一体となっている、
請求項1記載の画像処理装置。 - 前記動画像データ受付部は、前記動画像データを所定のネットワークを介して前記カメラから受取るようになっている、
請求項1記載の画像処理装置。 - 前記画像処理装置は、所定のネットワークを介して通信可能とされているとともに2つ対にして用いられるものであり、
前記画像処理装置の一方で生成された前記変換動画像データは、前記ネットワークを介して前記画像処理装置の他方へ双方向で送られるようになっている、
請求項1記載の画像処理装置。 - 動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の1つのカメラで1人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部を備えているコンピュータによって実行される画像処理方法であって、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成過程と、
前記変換動画像データ生成過程によって生成された前記変換動画像データを出力する動画像データ出力過程と、
を含み、
前記変換動画像データ生成過程では、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成過程と、
前記三次元モデル生成過程で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転過程と、
前記三次元モデル回転過程で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成過程と、
を実行する画像処理方法。 - 動画を撮像することのできるものであり、所定の位置である実位置に存在する所定の1つのカメラで1人の被撮像者の顔である対象顔を撮像することにより得られる、二次元の静止画像についてのデータである連続する多数の静止画像データによって構成される動画像のデータである動画像データを受付ける動画像データ受付部を備えているコンピュータに、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれを、正面を向いた前記対象顔から正面方向に伸びる仮想の直線上の所定の位置である仮想位置に前記カメラが存在する場合において前記カメラによって撮像される二次元の静止画像である変換静止画像のデータである変換静止画像データに変換することにより、連続する多数の変換静止画像データによって構成される動画像のデータである変換動画像データを生成する変換動画像データ生成過程と、
前記変換動画像データ生成過程によって生成された前記変換動画像データを出力する動画像データ出力過程と、
を実行させるためのものであり、
前記変換動画像データ生成過程では、
前記動画像データに含まれる静止画像データのうちの少なくとも複数のそれぞれから、前記静止画像データによって特定される前記静止画像に写り込んだ前記対象顔のうちの顔面部分の三次元モデルを、多数の顔の機械学習によって得られた顔の三次元モデルを推定する変換アルゴリズムを用いて生成する三次元モデル生成過程と、
前記三次元モデル生成過程で複数生成された前記三次元モデルをそれぞれ一定の角度である回転角分回転させる処理を行う三次元モデル回転過程と、
前記三次元モデル回転過程で回転させられた前記三次元モデルのそれぞれに基づいて、前記変換静止画像データを生成する二次元画像生成過程と、
を前記コンピュータに実行させるコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/040130 WO2020089971A1 (ja) | 2018-10-29 | 2018-10-29 | 画像処理装置、方法、コンピュータプログラム |
JPPCT/JP2018/040130 | 2018-10-29 | ||
PCT/JP2019/004530 WO2020090128A1 (ja) | 2018-10-29 | 2019-02-08 | 画像処理装置、方法、コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6516316B1 JP6516316B1 (ja) | 2019-05-22 |
JPWO2020090128A1 true JPWO2020090128A1 (ja) | 2021-02-15 |
Family
ID=66625500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019507886A Expired - Fee Related JP6516316B1 (ja) | 2018-10-29 | 2019-02-08 | 画像処理装置、方法、コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6516316B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113301242A (zh) * | 2020-02-21 | 2021-08-24 | 中兴通讯股份有限公司 | 拍摄方法、终端以及计算机可读存储介质 |
-
2019
- 2019-02-08 JP JP2019507886A patent/JP6516316B1/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP6516316B1 (ja) | 2019-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2015348151B2 (en) | Real-time visual feedback for user positioning with respect to a camera and a display | |
US10171792B2 (en) | Device and method for three-dimensional video communication | |
EP2661077A1 (en) | System and method for eye alignment in video | |
US20140098179A1 (en) | Video conferencing enhanced with 3-d perspective control | |
CN105247881B (zh) | 信息处理设备、显示控制方法以及程序 | |
CN110413108B (zh) | 虚拟画面的处理方法、装置、系统、电子设备及存储介质 | |
US9813693B1 (en) | Accounting for perspective effects in images | |
JP5833526B2 (ja) | 映像コミュニケーションシステム及び映像コミュニケーション方法 | |
US10356219B2 (en) | Image transmission apparatus, information processing terminal, image transmission method, information processing method, program, and information storage medium | |
CN112783700A (zh) | 用于基于网络的远程辅助系统的计算机可读介质 | |
JP2020065229A (ja) | 映像通信方法、映像通信装置及び映像通信プログラム | |
WO2017141584A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
JP6807744B2 (ja) | 画像表示方法及び装置 | |
JP6516316B1 (ja) | 画像処理装置、方法、コンピュータプログラム | |
EP3402410B1 (en) | Detection system | |
JP5759439B2 (ja) | 映像コミュニケーションシステム及び映像コミュニケーション方法 | |
WO2020090128A1 (ja) | 画像処理装置、方法、コンピュータプログラム | |
WO2016182504A1 (en) | A virtual reality headset | |
JP2021131490A (ja) | 情報処理装置、情報処理方法、プログラム | |
JP7420585B2 (ja) | Ar表示制御装置及びそのプログラム、並びに、ar表示システム | |
JP7504968B2 (ja) | アバター表示装置、アバター生成装置及びプログラム | |
JP7200439B1 (ja) | アバター表示装置、アバター生成装置及びプログラム | |
WO2024011008A1 (en) | Vergence based gaze matching for mixed-mode immersive telepresence application | |
WO2018016316A1 (ja) | 画像処理装置、画像処理方法、プログラム、およびテレプレゼンスシステム | |
JP2010213155A (ja) | ビデオ会議システムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190213 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190226 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190326 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6516316 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |