WO2024101429A1

WO2024101429A1 - カメラパラメータ算出装置、カメラパラメータ算出方法、カメラパラメータ算出プログラム

Info

Publication number: WO2024101429A1
Application number: PCT/JP2023/040439
Authority: WO
Inventors: 信彦若井
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2022-11-11
Filing date: 2023-11-09
Publication date: 2024-05-16

Abstract

カメラパラメータ算出装置は、カメラで撮影された画像を取得し、取得した画像を学習モデルに入力することにより、各画素が画像主点の尤度で表されたヒートマップを生成し、生成したヒートマップに基づいてカメラのカメラパラメータを算出し、学習モデルは、ヒートマップが示す推定画像主点が、推定画像主点の真値に近づくように機械学習されたモデルである。

Description

カメラパラメータ算出装置、カメラパラメータ算出方法、カメラパラメータ算出プログラム

　本開示は、カメラパラメータを算出する技術に関するものである。

　非特許文献１は、校正指標を用いて３次元空間中の３次元座標値と２次元画像中の画素位置とを対応づける幾何ベースの手法でカメラパラメータを算出する技術を開示する。

　非特許文献２は、深層学習を使って、魚眼カメラで撮影された１枚の画像からカメラ校正を行う技術を開示する。

　非特許文献３は、深層学習を使って１枚の画像からカメラ校正を行う手法を開示する。

　しかしながら、上記従来技術では、各画素が画像主点である尤度の分布に基づいてカメラパラメータが推定されていないので、カメラパラメータを高精度に推定するにはさらなる改善が必要である。

Ｒ．　Ｙ．　Ｔｓａｉ．　"Ａ　ｖｅｒｓａｔｉｌｅ　ｃａｍｅｒａ　ｃａｌｉｂｒａｔｉｏｎ　ｔｅｃｈｎｉｑｕｅ　ｆｏｒ　ｈｉｇｈ　ａｃｃｕｒａｃｙ　３Ｄ　ｍａｃｈｉｎｅ　ｖｉｓｉｏｎ　ｍｅｔｒｏｌｏｇｙ　ｕｓｉｎｇ　ｏｆｆ－ｔｈｅ－ｓｈｅｌｆ　ＴＶ　ｃａｍｅｒａｓ　ａｎｄ　ｌｅｎｓｅｓ．　ＩＥＥＥ　Ｊｏｕｒｎａｌ　ｏｆ　Ｒｏｂｏｔｉｃｓ　ａｎｄ　Ａｕｔｏｍａｔｉｏｎ，　Ｖｏｌｕｍｅ　３，　Ｎｕｍｂｅｒ　４，　ｐａｇｅｓ　３２３－３４４，　１９８７Ｎ．　Ｗａｋａｉ　ａｎｄ　Ｔ．　Ｙａｍａｓｈｉｔａ．　"Ｄｅｅｐ　Ｓｉｎｇｌｅ　Ｆｉｓｈｅｙｅ　Ｉｍａｇｅ　Ｃａｍｅｒａ　Ｃａｌｉｂｒａｔｉｏｎ　ｆｏｒ　Ｏｖｅｒ　１８０－ｄｅｇｒｅｅ　Ｐｒｏｊｅｃｔｉｏｎ　ｏｆ　Ｆｉｅｌｄ　ｏｆ　Ｖｉｅｗ"，　Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＩＥＥＥ／ＣＶＦ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　Ｗｏｒｋｓｈｏｐ，　ｐａｇｅｓ　１１７４－１１８３，　２０２１Ｋ．　Ｌｉａｏ，　Ｃ．　Ｌｉｎ，　ａｎｄ　Ｙ．　Ｚｈａｏ．"Ａ　Ｄｅｅｐ　Ｏｒｄｉｎａｌ　Ｄｉｓｔｏｒｔｉｏｎ　Ｅｓｔｉｍａｔｉｏｎ　Ａｐｐｒｏａｃｈ　ｆｏｒ　Ｄｉｓｔｏｒｔｉｏｎ　Ｒｅｃｔｉｆｉｃａｔｉｏｎ"，　ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｉｍａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ，　Ｖｏｌｕｍｅ　３０，　ｐａｇｅｓ　３３６２－３３７５，　２０２１

　本開示は、このような課題を鑑みてなされたものであり、カメラパラメータを高精度に推定することができる技術を提供することである。

　本開示の一態様におけるカメラパラメータ算出装置は、カメラで撮影された画像を取得する取得部と、前記取得部に取得された画像を学習モデルに入力することにより、各画素が画像主点の尤度で表されたヒートマップを生成し、生成した前記ヒートマップに基づいて前記カメラのカメラパラメータを算出するカメラパラメータ算出部と、を備え、前記学習モデルは、入力された学習画像から生成したヒートマップが示す推定画像主点が、前記推定画像主点に対応する真値に近づくように機械学習されたモデルである。

　本開示によれば、カメラパラメータを高精度に推定することができ、その結果、カメラ校正を正確に行うことができる。

実施の形態におけるカメラパラメータ算出装置の構成の一例を示すブロック図である。画像主点の説明図である。本実施の形態におけるカメラパラメータ算出装置が画像主点を算出する処理の一例を示すフローチャートである。本実施の形態におけるカメラパラメータ算出装置の学習処理の一例を示すフローチャートである。ヒートマップの一例を示す図である。学習途中におけるヒートマップの一例を示すグラフである。学習終了時におけるヒートマップの一例を示すグラフである。多峰型のヒートマップの一例を示すグラフである。

　（本開示に至る経緯）
　センシングカメラ等のカメラ校正を行うために、幾何ベースの手法では３次元空間中の３次元座標値と２次元画像中の画素位置とを対応づける必要がある。このためにはカメラパラメータを正確に算出することが要求されている。そこで、形状が既知の繰り返しパタンを撮影し、繰り返しパタンの交点又は円の中心を検出することで、３次元座標と２次元画像中の画素位置とを対応付ける技術が知られている（非特許文献１）。また、入力画像１枚で画像の明るさ及び被写体に対してロバストにカメラパラメータを算出する手法として深層学習を使った手法が知られている（非特許文献２、３）。

　しかしながら、非特許文献１～３はいずれも各画素が画像主点である尤度の分布に基づいて画像主点が推定されていないので、カメラパラメータを正確に推定できないという課題がある。

　本開示はこのような課題を解決するためになされたものである。

　（１）本開示の一態様におけるカメラパラメータ算出装置は、カメラで撮影された画像を取得する取得部と、前記取得部に取得された画像を学習モデルに入力することにより、各画素が画像主点の尤度で表されたヒートマップを生成し、生成した前記ヒートマップに基づいて前記カメラのカメラパラメータを算出するカメラパラメータ算出部と、を備え、前記学習モデルは、入力された学習画像から生成したヒートマップが示す推定画像主点が、前記推定画像主点に対応する真値に近づくように機械学習されたモデルである。

　この構成によれば、カメラにより撮影された画像が学習モデルに入力されることにより、各画素が画像主点の尤度で表されたヒートマップが出力され、ヒートマップに基づいてカメラパラメータが算出されている。ここで、学習モデルは、尤度の分布を表すヒートマップが示す推定画像主点が、推定画像主点に対応する真値に近づくように機械学習されたモデルである。そのため、本構成は、カメラパラメータを正確に推定でき、その結果、カメラ校正を正確に行うことができる。

　（２）上記（１）記載のカメラパラメータ算出装置において、前記カメラパラメータ算出部が算出した前記カメラパラメータを出力するカメラパラメータ出力部をさらに備えてもよい。

　この構成によれば、カメラパラメータ算出部により算出されたカメラパラメータが出力されるので、出力されたカメラパラメータを用いてカメラ校正を正確に行うことができる。

　（３）上記（１）又は（２）記載のカメラパラメータ算出装置において、前記学習モデルは、前記尤度が同心円状に分布するヒートマップを出力するように機械学習されてもよい。

　この構成によれば、尤度が同心円状に分布するヒートマップを出力するように学習モデルを機械学習させることができる。

　（４）上記（１）～（３）のいずれか１つに記載のカメラパラメータ算出装置において、前記学習モデルは、前記注目画素の前記尤度と、前記真値を中心とする円であって前記注目画素を通る前記円の円周上の画素の前記尤度の平均値と、の差を、最小化するように機械学習されてもよい。

　この構成によれば、画像主点の真値を中心に尤度が同心円状に分布するヒートマップを出力する学習モデルが得られる。

　（５）上記（１）～（４）のいずれか１つに記載のカメラパラメータ算出装置において、前記学習モデルの学習過程において前記学習モデルから出力された前記ヒートマップをディスプレイに出力するヒートマップ出力部をさらに備えてもよい。

　学習モデルの学習が十分に進むと、尤度が同心円状に分布するヒートマップが学習モデルから出力される。この構成によれば、学習モデルからヒートマップが出力されるので、学習モデルの機械学習が十分に進んでいるか否かを確認できる。

　（６）上記（１）～（５）のいずれか１つに記載のカメラパラメータ算出装置において、前記尤度は、画像主点確率又は歪みであってもよい。

　この構成によれば、画像主点確率又は画像の歪みを用いて尤度が表されるので、画像主点の尤度を正確に表すヒートマップを得ることができる。

　（７）上記（１）～（６）のいずれか１つに記載のカメラパラメータ算出装置において、前記カメラパラメータは、前記画像主点であってもよい。

　この構成によれば、カメラパラメータとして画像主点を算出できる。

　（８）本開示の別の一態様におけるカメラパラメータ算出方法は、コンピュータが、カメラで撮影された画像を取得し、取得された画像を学習モデルに入力することにより、各画素が画像主点の尤度で表されたヒートマップを出力し、出力した前記ヒートマップに基づいて前記カメラのカメラパラメータを算出し、前記学習モデルは、入力された学習画像から生成したヒートマップが示す推定画像主点が、前記推定画像主点に対応する真値に近づくように機械学習されたモデルである。

　この構成によれば、カメラパラメータを高精度に推定するカメラパラメータ算出方法を提供できる。

　（９）本開示の別の一態様におけるカメラパラメータ算出プログラムは、コンピュータに、カメラで撮影された画像を取得し、取得された画像を学習モデルに入力することにより、各画素が画像主点の尤度で表されたヒートマップを出力し、出力した前記ヒートマップに基づいて前記カメラのカメラパラメータを算出する、処理を実行させ、前記学習モデルは、入力された学習画像から生成したヒートマップが示す推定画像主点が、前記推定画像主点に対応する真値に近づくように機械学習されたモデルである。

　この構成によれば、カメラパラメータを高精度に推定するカメラパラメータ算出プログラムを提供できる。

　（１０）本開示の別の一態様における記録媒体は、コンピュータに、カメラパラメータ算出プログラムを実行させるカメラパラメータ算出プログラムを記録する記録媒体であって、カメラで撮影された画像を取得し、取得された画像を学習モデルに入力することにより、各画素が画像主点の尤度で表されたヒートマップを出力し、出力した前記ヒートマップに基づいて前記カメラのカメラパラメータを算出する、処理を実行させ、前記学習モデルは、入力された学習画像から生成したヒートマップが示す推定画像主点が、前記推定画像主点に対応する真値に近づくように機械学習されたモデルである。

　この構成によれば、カメラパラメータを高精度に推定するカメラパラメータ算出プログラムを記録する記録媒体が提供される。

　本開示は、カメラパラメータ算出プログラムを記録する記録媒体は、ＣＤ－ＲＯＭ等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

　なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

　（実施の形態）
　以下、本開示の実施の形態を、図面を参照しながら説明する。図１は、実施の形態におけるカメラパラメータ算出装置１の構成の一例を示すブロック図である。カメラパラメータ算出装置１は、取得部１１、フレームメモリ１２、カメラパラメータ算出部１３、及びカメラパラメータ出力部１４を含む。さらに、カメラパラメータ算出装置１は、学習画像取得部１５、学習部１６、学習モデル記憶部１７、及びヒートマップ出力部１８を含む。

　カメラパラメータ算出装置１は、例えば、プロセッサ、メモリ、インタフェース回路などからなるコンピュータによって構成される。取得部１１、カメラパラメータ算出部１３、カメラパラメータ出力部１４、学習画像取得部１５、学習部１６、及びヒートマップ出力部１８は、プロセッサがメモリにあらかじめ記録されたカメラパラメータ算出プログラムを実行することによって実現されてもよい。また、これらの構成要素は、専用のハードウェア回路によって実現されてもよい。フレームメモリ１２は、例えばＲＡＭ、半導体メモリなどの記憶装置で構成される。学習モデル記憶部１７は、例えば、半導体メモリ、ハードディスクドライブ、及びソリッドステートドライブなどの記憶装置で構成される。

　カメラパラメータ算出装置１は、必ずしも単一のコンピュータ装置で構成される必要はなく、端末装置とサーバとを含む分散処理システム（不図示）によって構成されてもよい。例えば、端末装置が取得部１１及びフレームメモリ１２を備え、サーバがカメラパラメータ算出部１３、カメラパラメータ出力部１４、学習画像取得部１５、学習部１６、学習モデル記憶部１７、及びヒートマップ出力部１８を備えていてもよい。この場合、構成要素間でのデータの受け渡しは、端末装置とサーバとに接続された通信回線を介して行われる。

　また、学習画像取得部１５、学習部１６、学習モデル記憶部１７、及びヒートマップ出力部１８は、カメラパラメータ算出装置１とは別のコンピュータで構成された学習装置で構成されてもよい。この場合、カメラパラメータ算出装置１は、学習装置で学習された学習モデルを学習装置から取得すればよい。

　取得部１１は、カメラ２で撮影された画像を取得する。カメラ２は、動画を撮影するカメラであってもよいし、静止画を撮影するカメラであってもよい。カメラ２は、例えば屋内又は屋外に設置された監視カメラである。カメラ２は、広角カメラであってもよいし、魚眼カメラであってもよいし、通常のカメラであってもよい。カメラ２が魚眼カメラで構成される場合、画像は魚眼画像で構成される。

　カメラ２とカメラパラメータ算出装置１とは例えば無線又は有線の通信路（図略）を介して接続されている。取得部１１は、通信路を介してカメラ２から画像を自動的に取得してもよい。或いは、取得部１１は、カメラパラメータ算出装置１に対して入力されたユーザの操作に応じてカメラ２が撮影した画像を取得しても良い。

　フレームメモリ１２は、取得部１１により取得された画像を記憶する。カメラパラメータ算出部１３は、フレームメモリ１２から読み出した画像を学習モデル記憶部１７に記憶された学習モデルに入力することでカメラパラメータを算出する。

　具体的には、カメラパラメータ算出部１３は、フレームメモリ１２から読み出した画像を学習モデルに入力することにより、画像を構成する複数の画素のそれぞれが画像主点の尤度で表されたヒートマップを生成し、生成したヒートマップに基づいてカメラのカメラパラメータを算出する。画像主点の尤度とはヒートマップを構成する各画素が画像主点である尤もらしさを示す値である。以下の説明では、画像主点の尤度は、画像主点確率であるものとする。画像主点確率は、ヒートマップを構成する各画素が画像主点であることを示す確率である。

　カメラパラメータはカメラ２の外部パラメータと内部パラメータを含んでいてもよい。外部パラメータの一例はカメラ２の回転角を示すパラメータ及びカメラ２の並進を示すパラメータを含んでもよい。カメラ２の内部パラメータの一例は、画像主点及び画素ピッチなどである。以下の説明では、カメラパラメータ算出部１３は、カメラパラメータとして画像主点を算出するものとして説明する。

　学習モデルは、画像を入力とし、ヒートマップを出力とする学習モデルである。学習モデルは、入力された学習画像から生成したヒートマップが示す画像主点（以下、「推定画像主点」と呼ぶ。）と、推定画像主点に対応する真値に近づくように機械学習されたモデルである。

　カメラパラメータ出力部１４は、カメラパラメータ算出部１３により算出されたカメラパラメータを出力する。例えば、カメラパラメータ出力部１４は、カメラパラメータをカメラ２に出力してもよいし、外部のコンピュータに出力してもよいし、カメラパラメータ算出装置１が備えるメモリ（図略）に出力してもよい。

　図２は画像主点の説明図である。図２において、カメラ２はイメージセンサ２０１及びレンズ２０２を含む。画像主点Ｐｘは、レンズ２０２の光軸Ｌｘとイメージセンサ２０１との交点Ｑｘが投影される画像２０３上の点である。入射光Ｌは光軸Ｌｘを通らない光線であり、イメージセンサ２０１において画像主点Ｐｘとは異なる位置に投影されている。画像主点Ｐｘの設計値は画像２０３の中心であるが、組み立て誤差により画像主点Ｐｘは画像２０３の中心からずれることがある。画像主点Ｐｘが画像２０３の中心からずれると、世界空間の座標をイメージセンサ２０１の座標に対応づけるカメラ校正の精度が低下する。そこで、本実施の形態では、画像主点Ｐｘの正確な値を算出するために、画像主点を算出する処理を実行する。

　学習画像取得部１５は、学習部１６が学習に使用する学習画像を取得する。学習画像は画像主点の真値が対応付けられている。画像主点の真値とは、真の画像主点の座標である。学習画像取得部１５は、例えば、学習画像を記憶するデータベース（図略）から学習画像を取得する。

　学習部１６は、学習画像取得部１５により取得された学習画像を機械学習することで、学習モデルを生成する。機械学習の一例は、ディープニューラルネットワークである。ただし、これは一例であり、学習モデルは、ディープニューラルネットワーク以外の機械学習を用いて学習されてもよい。学習部１６は、学習画像を学習モデルに入力することでヒートマップを生成する。そして、学習部１６は、このヒートマップに基づいて算出される推定画像主点が、学習画像に対応付けられた画像主点の真値に近づくように逆誤差伝搬を行い、学習モデルを生成する。ヒートマップに基づいて算出される推定画像主点とは、ヒートマップにおいて画像主点確率が最も高い画素である。

　学習モデル記憶部１７は、学習部により学習された学習モデルを記憶する。

　ヒートマップ出力部１８は、前記学習モデルの学習過程において学習モデルから出力されたヒートマップをディスプレイ３に出力する。

　以上が、カメラパラメータ算出装置１の構成である。引き続いてカメラパラメータ算出装置１の処理について説明する。図３は、本実施の形態におけるカメラパラメータ算出装置１が画像主点を算出する処理の一例を示すフローチャートである。

　（ステップＳ２０１）
　取得部１１は、カメラ２が撮影した画像を取得し、フレームメモリ１２に記憶する。

　（ステップＳ２０２）
　カメラパラメータ算出部１３は、ステップＳ２０１で取得された画像をフレームメモリ１２から読み出し、読みだした画像を、学習モデル記憶部１７に記憶された学習済みの学習モデルに入力することで、ヒートマップを生成する。

　（ステップＳ２０３）
　カメラパラメータ算出部１３は、ステップＳ２０２で生成されたヒートマップから画像主点を算出する。ここで、カメラパラメータ算出部１３は、ステップＳ２０２で生成されたヒートマップにおいて画像主点確率が最大の画素を画像主点として算出すればよい。

　（ステップＳ２０４）
　カメラパラメータ出力部１４は、ステップＳ２０３で算出された画像主点を例えばカメラ２に出力する。

　次に、学習モデルの学習方法について説明する。図４は、本実施の形態におけるカメラパラメータ算出装置１の学習処理の一例を示すフローチャートである。

　（ステップＳ３０１）
　学習画像取得部１５は、入力モデルの機械学習に用いる学習画像を取得する。学習画像は、事前にカメラ２で撮影された画像であってもよいし、コンピュータグラフィックス処理を用いて生成された画像であってもよい。

　（ステップＳ３０２）
　学習部１６は、画像主点の真値を取得する。画像主点の真値は、学習画像に対応付けられたデータである。この画像主点の真値は、学習画像を撮影したカメラ２の画像主点であってもよいし、コンピュータグラフィックス処理に使用した画像主点であってもよい。

　（ステップＳ３０３）
　学習部１６は、ステップＳ３０１で取得した学習画像を学習モデルに入力することでヒートマップを生成する。図５は、ヒートマップ５００の一例を示す図である。図５に示すように、本実施の形態のヒートマップ５００は、画像主点確率の分布を色や濃淡を用いて可視化したグラフを指し、具体的には、０～１の値を有する画像主点確率が画素単位で表された画像である。図５の例では、画像主点確率が高い画素ほど輝度が高くなり、画像主点確率が低い画素ほど輝度が低くなるように、表示されている。なお、図５の例と逆に画像主点確率が高い画素ほど輝度を低く表示しても良い。これは、画像主点の推定は画像主点確率が高い中心付近を推定すればよく、ヒートマップ５００の可視化においては画像主点確率と輝度との関係は図５に示す関係とは逆であってもよいからである。

　なお、学習部１６は、ヒートマップ全体ではなく、ヒートマップ５００の一部の領域を用いて学習モデルを機械学習させても良い。使用するヒートマップ５００の領域が狭くなることで、機械学習の計算コストを低減できる。計算コストは概略使用するヒートマップの画素数に比例する。同じ画素数の場合、ヒートマップの環状領域を用いた場合の方が、それ以外の領域を用いる場合より精度が高くなる。これは、同一円周上に存在する画素数が増加することにより、円周上のヒートマップの平均値を算出する時に、ノイズ低減の効果があるからである。すなわち、学習部１６はヒートマップ５００において環状領域内の画素を選択して学習モデルを機械学習させることが効率的である。

　画像の歪は、画像主点Ｐｘに近づくほど小さくなり、画像主点Ｐｘから半径方向に離れるにつれて大きくなる。また、画像主点Ｐｘからの距離（像高）が等しい位置において画像の歪は等しい。したがって、歪が大きい画素は画像主点確率が低く、歪が小さい画素は画像主点確率が高くなる。

　（ステップＳ３０４）
　学習部１６は、ステップＳ３０３で生成されたヒートマップと、ステップＳ３０２で取得した画像主点Ｐｘの真値とに基づいて画像主点誤差を算出する。ステップＳ３０４の処理の詳細は後述する。

　（ステップＳ３０５）
　学習部１６は、ステップＳ３０４で算出された画像主点誤差が小さくなるように、学習モデルを構成するディープニューラルネットワークのパラメータを誤差逆伝搬で更新する。例えば、誤差逆伝搬の最適化は確率的勾配降下法が適用可能である。

　（ステップＳ３０６）
　学習部１６は、学習モデルの学習が完了したかを判定する。学習の完了は、例えば、学習モデルを構成するディープニューラルネットワークのパラメータの更新回数が閾値を超えたか否かによって判定される。閾値の一例は１０，０００回である。但し、これは一例であり、この閾値に特に限定はない。学習が完了したと判定された場合（ステップＳ３０６でＹＥＳ）、処理は終了し、学習が完了していないと判定された場合（ステップＳ３０６でＮＯ）、処理はステップＳ３０７に進む。

　（ステップＳ３０７）
　ヒートマップ出力部１８は、ステップＳ３０３で生成されたヒートマップをディスプレイ３に表示する。これにより、学習途中に学習モデルにより生成されるヒートマップがユーザに提示される。学習初期においては、ヒートマップは画像主点が同心円状に表れていない。しかし、学習が進むにつれて、画像主点が同心円状に表れたヒートマップが生成されるようになる。そのため、ヒートマップを見たユーザは学習の進捗具合を確認できる。

　ステップＳ３０７が終了すると、処理はステップＳ３０１に戻り、次の学習画像に対して、ステップＳ３０１～Ｓ３０５の処理が適用される。

　次に、ステップＳ３０４の画像主点誤差の算出処理について説明する。

　学習部１６は、ステップＳ３０３で生成されたヒートマップＨと、画像主点の真値（Ｃｘ、Ｃｙ）とに基づいて、画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）を算出する。画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）は、式（１）で表される。

　ε（ｒ、θ、Ｈ、Ｃｘ、Ｃｙ）は画像主点の真値（Ｃｘ、Ｃｙ）を中心とする極座標系における注目画素（ｒ，θ）の画像主点確率である。注目画素とは、学習画像を構成する画素のうち任意の１の画素である。この画像主点確率ε（ｒ、θ、Ｈ、Ｃｘ、Ｃｙ）の計算方法を説明する。画像左上を原点とする直交座標（ｘ、ｙ）における画像主点確率ε（ｒ、θ、Ｈ、Ｃｘ、Ｃｙ）は、ヒートマップＨ（ｘ、ｙ）として算出できる。ここで、極座標（ｒ、θ）から、画像左上を原点とする直交座標（ｘ、ｙ）の変換は、ｘ＝ｒ・ｃｏｓθ＋Ｃｘ、ｙ＝ｒ・ｓｉｎθ＋Ｃｙである。ε´（ｒ、Ｈ、Ｃｘ、Ｃｙ）は像高ｒにおける平均画像主点確率である。すなわち、平均画像主点確率ε´（ｒ、Ｈ、Ｃｘ、Ｃｙ）は、画像主点の真値（Ｃｘ、Ｃｙ）を中心とする円であって注目画素（ｒ，θ）を通る円の円周上の画素の画像主点確率の平均値である。像高ｒは画像主点の真値から注目画素（ｒ，θ）までの距離である。なお、数値計算のため、画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）はΣで表現されている。像高ｒのステップは例えば１画素であり、偏角θのステップは例えば１度である。Ｒは像高ｒの最大値であり、予め定められた値である。画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）は、ヒートマップの全画素に対する２乗誤差の総和を表し、ヒートマップの全画素を利用することで推定画像主点の算出精度の向上を意図する関数である。

　次に、式（１）の画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）の最小化により、ディープニューラルネットワークが画像主点確率を表すヒートマップを出力できるように学習されることを説明する。ディープニューラルネットワークのモデルのパラメータは一般的に正規分布などの乱数で初期化される。したがって、乱数初期化段階のディープニューラルネットワークの出力は、ヒートマップの各画素に対して０～１のランダムな画像主点確率を表す画素値となる。なお、シグモイド関数などを用いることで出力の画素値の範囲を常に０～１にできる。

　学習部１６は、ステップＳ３０２で説明した、画像主点の真値の座標を取得する。上述したように、式（１）のε´（ｒ、Ｈ、Ｃｘ、Ｃｙ）は像高ｒにおける平均画像主点確率である。この像高ｒは、ステップＳ３０２で取得した画像主点の真値から注目画素（ｒ、θ）までの距離として計算される。なお、この像高ｒはコンピュータビジョン分野で使用される画像主点からの距離と同じ定義である。

　式（１）の画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）の最小化を学習として進めると、ヒートマップは画像主点の真値に近い領域の画像主点確率が高くなる。また、像高ｒは画像主点の真値からの距離であるので、ヒートマップの画像主点確率の最大値が画像主点の真値と一致するようになる。さらに、学習終了時には図６Ｂに示すように、ヒートマップは、画像主点確率が画像主点の真値を対称軸とする線対称な分布に近くなる。図６Ａは学習途中におけるヒートマップの一例を示すグラフである。図６Ｂは学習終了時におけるヒートマップの一例を示すグラフである。図６Ａ、図６Ｂにおいて、縦軸は画像主点確率を示し、横軸はある座標ｙにおけるヒートマップの断面を示す。

　図６Ａと図６Ｂとを比較した場合、画像主点確率の値とｘ軸との間の面積は概略等しい。一方、学習終了時（図６Ｂ）では、ある像高ｒにおける平均画像主点確率ε´（ｒ、Ｈ、Ｃｘ、Ｃｙ）からの画像主点確率のずれは、学習途中（図６Ａ）における前記ずれに比べて小さい。そのため、学習終了時においては、ヒートマップにおける画像主点確率の分布は、図６Ｂで示すような形状となる。したがって、学習済みのディープニューラルネットワークは、図５で示すように、画像主点Ｐｘを中心とする同心円状のヒートマップを出力するようになる。

　なお、ヒートマップの全画素が０の場合、画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）は最小である０となる。しかし、乱数初期化したディープニューラルネットワークの出力の全画素が０となるには、ディープニューラルネットワークのパラメータの大部分が０になる必要があり、通常の学習でこのようなことは起こらない。また、画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）はスケールを特定の値にする意図で設計されていない。そのため、学習において、ヒートマップの全画素の画像主点確率の平均は概略変わらず、画像主点確率の分布の形状が変化する。また、推定画像主点の座標は画像主点確率が最大値となる画素が選択されるため、ヒートマップのスケール（全画素を定数倍）による推定画像主点の座標への影響は無視できる。

　図７は多峰型のヒートマップの一例を示すグラフである。多峰型とは、画像主点確率の最大値を含むピーク以外にも高い画像主点確率を持つ領域が環状に存在するヒートマップである。式（１）に示す画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）は図７のような多峰型の場合でも小さい。しかし、この多峰型は画像主点確率が高い環の中心と画像主点の真値とがずれた場合に画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）が大きくなる。そのため、多峰型は学習途中で一時的に出力される場合はありうるが、学習終了時においては出力されない。よって、図５に示す単一のピークとなるヒートマップが出力される。

　画像主点座標のｘ座標とｙ座標とを直接回帰で推論するディープニューラルネットワークも設計可能である。しかし、ディープニューラルネットワークは出力ノイズを含むため、この出力ノイズにより画像主点の座標の精度が低下する。一方、画像主点確率を表すヒートマップを用いることで、多数の画素から画像主点の座標が推定される。そのため、ヒートマップに含まれる出力ノイズが低減され、高精度に画像主点が推定される。例えば、ヒートマップにおいて画像主点確率の最大値が画像主点の真値と一致しない場合でも、画像主点画素の真値の近傍に画像主点確率が最大となる画素があれば、概略、画像主点の真値と同じ画像主点の座標が得られる。

　なお、上述したように、ヒートマップ５００において環状の領域内に注目画素を設定して画像主点を推定する場合、学習部１６は、式（１）のｒの範囲をｒ１～ｒ２（＜Ｒ）に設定すればよい。

　式（１）に示す画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）は、例えば、ε（ｒ、θ、Ｈ、Ｃｘ、Ｃｙ）とε´（ｒ、Ｈ、Ｃｘ、Ｃｙ）との二乗誤差で表現されているが、これは一例であり、ε（ｒ、θ、Ｈ、Ｃｘ、Ｃｙ）とε´（ｒ、Ｈ、Ｃｘ、Ｃｙ）とのＨｕｂｅｒ誤差で表現されてもよい。Ｈｕｂｅｒ誤差は、０．５より小さい絶対値誤差に対して２乗誤差、０．５以上の絶対値誤差に対しては１乗誤差で表現される誤差である。その他、画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）は、ε（ｒ、θ、Ｈ、Ｃｘ、Ｃｙ）とε´（ｒ、Ｈ、Ｃｘ、Ｃｙ）との絶対値誤差など種々の誤差表現手法を用いて表現されてもよい。

　図３のステップＳ２０３では、画像主点はｘ成分とｙ成分ともに推定されているが、これは一例である。カメラパラメータ算出部１３は、ｘ成分、ｙ成分のうち片方の成分のみの画像主点を推定し、他方は設計値を用いても良い。この場合、ｘ成分の設計値は画像の幅（ｘ成分）の１／２の座標が採用され、ｙ成分の設計値は画像の高さ（ｙ成分）の１／２の座標が採用される。

　次に、実施の形態の効果について図５を用いて説明する。ヒートマップ５００は、入力された学習画像と同じ画像サイズを有し、各画素が画像主点確率に応じた輝度で表されている。ヒートマップ５００は理想的なヒートマップである。そのため、ヒートマップ５００は、画像主点Ｐｘが中心に位置し、画像主点Ｐｘから離れるにつれて画像主点確率が低くなっている。すなわち、ヒートマップ５００は、画像主点確率が最大の画素が中心に位置すると共に、画像主点確率が同心円状に分布している。

　しかし、実際に学習モデルが生成する多くのヒートマップはノイズを含んでおり、画像主点確率の分布は綺麗な同心円状になるとは限らない。

　本実施の形態は、式（１）に示すように、画像主点誤差Ｊ（Ｈ、Ｃｘ、Ｃｙ）を用いて、学習モデルが機械学習されている。すなわち、ヒートマップが示す画像主点確率の分布を考慮して推定画像主点が画像主点の真値に近づくように学習モデルは機械学習されている。そのため、ヒートマップに画像主点誤差を不正確に表す画素が多少含まれていても、画像主点Ｐｘを精度よく推定し得る学習モデルが得られる。その結果、本実施の形態は、画像を学習モデルに入力して画像主点Ｐｘを直接求める回帰の手法と比較して、高精度に画像主点Ｐｘを推定することができる。これにより、本実施の形態は、１枚の画像から高精度に画像主点を推定することができる。

　（変形例）
　本開示は以下の変形例が採用できる。

　（１）上記実施の形態では、ヒートマップを構成する各画素の尤度として画像主点確率が採用されたが、これは一例である。ヒートマップを構成する各画素の尤度として、画像の歪の大きさが採用されてもよい。画像主点は光軸対称のカメラモデルにおける歪が０となる基準位置の意味合いがある。すなわち、画像主点確率の代わりに、歪の大きさを推定することで、実施の形態１と同様に画像主点を推定できる。

　（２）上記実施の形態において、画像主点に加えてさらに別のカメラパラメータを採用する場合、学習部１６は、画像主点に加えて別のカメラパラメータが対応付けられた学習画像を用いて学習モデルを学習すればよい。別のパラメータの一例は、上述したように、カメラ２の回転角を示すパラメータ、カメラ２の並進を示すパラメータ、及びカメラ２のイメージセンサの画素ピッチなどである。

　（３）以上、本開示の一つまたは複数の態様に係るカメラパラメータ算出装置１について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つまたは複数の態様の範囲内に含まれてもよい。

本開示のカメラパラメータ算出装置は、カメラの校正において有用である。

Claims

　カメラで撮影された画像を取得する取得部と、
　前記取得部に取得された画像を学習モデルに入力することにより、各画素が画像主点の尤度で表されたヒートマップを生成し、生成した前記ヒートマップに基づいて前記カメラのカメラパラメータを算出するカメラパラメータ算出部と、を備え、
　前記学習モデルは、入力された学習画像から生成したヒートマップが示す推定画像主点が、前記推定画像主点に対応する真値に近づくように機械学習されたモデルである、
　カメラパラメータ算出装置。
　前記カメラパラメータ算出部が算出した前記カメラパラメータを出力するカメラパラメータ出力部をさらに備える、
　請求項１記載のカメラパラメータ算出装置。
　前記学習モデルは、前記尤度が同心円状に分布するヒートマップを出力するように機械学習される、
　請求項１又は２記載のカメラパラメータ算出装置。
　前記学習モデルは、注目画素の前記尤度と、前記真値を中心とする円であって前記注目画素を通る前記円の円周上の画素の前記尤度の平均値と、の差を、最小化するように、機械学習される、
　請求項１又は２記載のカメラパラメータ算出装置。
　前記学習モデルの学習過程において前記学習モデルから出力された前記ヒートマップをディスプレイに出力するヒートマップ出力部をさらに備える、
　請求項１又は２記載のカメラパラメータ算出装置。
　前記尤度は、画像主点確率又は歪みである、
　請求項１又は２記載のカメラパラメータ算出装置。
　前記カメラパラメータは、前記画像主点である、
　請求項１又は２記載のカメラパラメータ算出装置。
　コンピュータが、
　カメラで撮影された画像を取得し、
　取得された画像を学習モデルに入力することにより、各画素が画像主点の尤度で表されたヒートマップを生成し、生成した前記ヒートマップに基づいて前記カメラのカメラパラメータを算出し、
　前記学習モデルは、入力された学習画像から生成したヒートマップが示す推定画像主点が、前記推定画像主点に対応する真値に近づくように機械学習されたモデルである、
　カメラパラメータ算出方法。
　コンピュータに、
　カメラで撮影された画像を取得し、
　取得された画像を学習モデルに入力することにより、各画素が画像主点の尤度で表されたヒートマップを生成し、生成した前記ヒートマップに基づいて前記カメラのカメラパラメータを算出する、処理を実行させ、
　前記学習モデルは、入力された学習画像から生成されたヒートマップが示す推定画像主点が、前記推定画像主点に対応する真値に近づくように機械学習されたモデルである、
　カメラパラメータ算出プログラム。