WO2022113180A1

WO2022113180A1 - 計算方法、計算装置およびプログラム

Info

Publication number: WO2022113180A1
Application number: PCT/JP2020/043722
Authority: WO
Inventors: 崇元佐々木; 隆一谷田; 英明木全
Original assignee: 日本電信電話株式会社
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2022-06-02
Also published as: JPWO2022113180A1; JP7560765B2

Abstract

本発明の一態様は、コンピュータが、正の実数Ａの逆数平方根を高速逆数平方根法により計算する第１逆数平方根ステップと、コンピュータが、正の実数Ｂの逆数平方根を高速逆数平方根法により計算する第２逆数平方根ステップと、コンピュータが、ＡからＢを減算する減算ステップと、コンピュータが、第１逆数平方根ステップでの計算結果と、第２逆数平方根ステップでの計算結果とを乗算する第１乗算ステップと、コンピュータが、第１乗算ステップでの計算結果と、減算ステップでの計算結果とを乗算する第２乗算ステップと、コンピュータが、第１逆数平方根ステップでの計算結果と、第２逆数平方根ステップでの計算結果とを加算する加算ステップと、コンピュータが、第２乗算ステップでの計算結果を、加算ステップでの計算結果で除算する除算ステップと、を備えた計算方法である。

Description

計算方法、計算装置およびプログラム

　本発明は、計算方法、計算装置およびプログラムの技術に関する。

　ネットワークや地理情報学、画像工学などの諸分野において、埋め込みグラフというデータ構造が存在する。埋め込みグラフとは、複数の頂点とその頂点同士を結ぶ辺の集合であるグラフと、その頂点位置を合わせて定義したものである。例えばネットワークでは、ネットワークノードを頂点、ネットワークリンクを辺に対応させてグラフを構成できる。このとき、ネットワークノードの物理的な位置や、ネットワークを可視化する際のノード座標を頂点位置に対応させると、埋め込みグラフを見出すことができる。

　また、地理情報学であれば、国境や県境、海岸線、湖岸線等の境界線データは一般に、埋め込みグラフとしてデータが保持されている。境界線上に密に頂点をプロットして辺を結ぶことで、境界線を表現している。また、画像工学分野であれば、形状や領域に関するデータの保持に埋め込みグラフが使用される。例えばベクター画像におけるオブジェクト形状、深度マップにおける深度境界線、自然画像の被写体形状やテクスチャ領域形状等のデータは、埋め込みグラフとして表現される。形状や領域の境界上に頂点をプロットすることで、境界線を辺により表現している。

　以上で例示した埋め込みグラフにおいては、埋め込みグラフの形状をできるだけ保ちつつ、頂点数や辺数を可能な限り削減して単純化すること（以下、埋め込みグラフの単純化、あるいは単に単純化と呼ぶ）に大きなメリットがある。

　ネットワークにおいては、頂点数、辺数が多いほど詳細なデータを表現できる一方で、一見してネットワーク構成の概要を掴むことが困難になり、加えてデータ量が膨大になるため描画に大きな負荷がかかる。このネットワークについての埋め込みグラフを単純化できれば、ネットワーク構成を視覚的に分かりやすく提示でき、頂点数、辺数を減らしてデータ圧縮し、描画の負荷を低減することが可能になる。地理情報学においては、境界線上に密に頂点をプロットすることで正確に境界線を表現するが、データ量は膨大になってしまう。

　境界線データを単純化することで、データ量を削減して伝送や蓄積が可能な他、境界を簡略した視覚的に分かりやすい地理情報を生成することができる。また画像工学においては、頂点数、辺数が多いほど形状や領域のデータを詳細に保持して正確に表現可能である一方で、データ量が膨大になり、伝送や蓄積に要する符号量が増えてしまう。

　この形状や領域を単純化できれば、表現の正確性を可能な限り保ちながら、頂点数、辺数を削減して符号量を削減できる。
　以上の単純化を達成するための発明として、埋め込みグラフ単純化法が提案されている（特許文献２参照）。またこの高速処理法(２次元版)(特許文献３参照)と、高速処理法(多次元版)(特許文献４参照)とが提案されている。

　上記の高速処理法では特異値閾値処理（Singular Value Thresholding；ＳＶＴ）（特許文献４参照）を多数並列に高速計算するFast Multiple SVT（非特許文献１参照）が採用されている。図１６にアルゴリズムを掲載する。図１６Ａと図１６Ｂに示されるアルゴリズムのうちの３行目ｇ^－１とｈ^－１と４行目σ_２においてはそれぞれ逆数平方根と平方根の差が計算されている。この逆数平方根は図１６Ａと図１６Ｂに示されるアルゴリズムの計算速度のボトルネックとなっている。

　また平方根の差の計算は桁落ちが生じやすく、誤差が発生しやすい。さらに、図１６Ａと図１６Ｂに示されるアルゴリズムのうちの４行目の平方根の差計算においてのみ、平方根の計算が必要であり、その他の個所では逆数平方根しか用いられていない。

　さて、ある正の実数Ａの逆数平方根ａ＝１／√Ａは、コンピュータグラフィクス（ＣＧ）分野における反射光および分散光シミュレーションにおいて、法線計算という形で多量に繰り返して計算される。

　この計算量を削減するために、高速逆数平方根法（Fast Inverse Square Root；FastInvSqrt法）が発明され、平方根の計算を回避することで、逆数平方根の計算は数倍程度高速化されている。この技術はCGを用いたゲームソフトウェアに実装されている（非特許文献２参照）。またFastInvSqrt法の高精度版として修正FastInvSqrt法が発明されている（非特許文献３参照）。

　このFastInvSqrt法または修正FastInvSqrt法を、上述のFast Multiple SVTにおける逆数平方根の計算に採用することで計算速度の向上が見込まれる。

特開２０１６－２２１８２９号公報特開２０１７－２１１７０６号公報特開２０１８－０８２２４９号公報特開２０１９－０４６１９６号公報

佐々木崇元，北原正樹，清水淳，"低ランク最適化のための高速特異値閾値処理の数理，"　第16回情報科学技術フォーラム，2017 M. Robertson, "A Brief History of InvSqrt," Bachelor Thesis, University of New Brunswick, 2012. C. J. Walczyk, ''A Modification of the Fast Inverse Square, '' MDPI Computation, vol. 7, no. 3, 2019

　しかしながら、Fast Multiple SVTでは平方根の差計算も必要であるため、結局のところ平方根が必要であり、さらに逆数演算を取る必要が発生する。このため、上記の速度向上は達成されない。

　このように、Fast Multiple SVTを用いるグラフ単純化装置は高速に処理できず、グラフ描画やグラフ処理を高速に実行できない。

　上記事情に鑑み、本発明は、平方根を含む計算をより速く行う技術の提供を目的としている。

　本発明の一態様は、コンピュータが、正の実数Ａの逆数平方根を高速逆数平方根法により計算する第１逆数平方根ステップと、コンピュータが、正の実数Ｂの逆数平方根を高速逆数平方根法により計算する第２逆数平方根ステップと、コンピュータが、ＡからＢを減算する減算ステップと、コンピュータが、前記第１逆数平方根ステップでの計算結果と、前記第２逆数平方根ステップでの計算結果とを乗算する第１乗算ステップと、コンピュータが、前記第１乗算ステップでの計算結果と、前記減算ステップでの計算結果とを乗算する第２乗算ステップと、コンピュータが、前記第１逆数平方根ステップでの計算結果と、前記第２逆数平方根ステップでの計算結果とを加算する加算ステップと、コンピュータが、前記第２乗算ステップでの計算結果を、前記加算ステップでの計算結果で除算する除算ステップと、を備えた計算方法である。

　本発明の一態様は、上記の計算方法をコンピュータに実行させるためのプログラムである。

　本発明の一態様は、正の実数Ａの逆数平方根を高速逆数平方根法により計算する第１逆数平方根部と、正の実数Ｂの逆数平方根を高速逆数平方根法により計算する第２逆数平方根部と、ＡからＢを減算する減算部と、前記第１逆数平方根部での計算結果と、前記第２逆数平方根部での計算結果とを乗算する第１乗算部と、前記第１乗算部での計算結果と、前記減算部での計算結果とを乗算する第２乗算部と、前記第１逆数平方根部での計算結果と、前記第２逆数平方根部での計算結果とを加算する加算部と、前記第２乗算部での計算結果を、前記加算部での計算結果で除算する除算部と、を備えた計算装置である。

　本発明により、平方根を含む計算をより速く行うことが可能となる。

計算装置を含む情報処理装置の構成を示す図である。計算装置１０Ａの構成を示すブロック図である。計算装置２０を示すブロック図である。計算量を示す図である。計算装置１０Ｂの構成を示すブロック図である。計算装置４０を示すブロック図である。計算装置１０Ｃの構成を示すブロック図である。計算装置１０Ｄの構成を示すブロック図である。計算装置１０Ｅの構成を示すブロック図である。計算装置１０Ｆの構成を示すブロック図である。グラフの単純化処理の処理概要を示す図である。グラフ単純化装置の構成例を示す図である。局所線形整列部の構成例を示す図である。隣接辺のベクトルを並べる操作を説明するための図である。局所線形整列問題の解法を示すアルゴリズムを示す図である。局所線形整列問題の解法を示すアルゴリズムを示す図である。特異値閾値処理のアルゴリズムを示す図である。特異値閾値処理のアルゴリズムを示す図である。

　本発明の実施形態について、図面を参照して詳細に説明する。
　図１は、実施形態における計算装置１０を含む情報処理装置１の構成を示す図である。情報処理装置１は、入力装置３、計算装置１０、および出力装置５を備える。入力装置３は、計算装置１０に数値等の入力データを入力する。計算装置１０は、入力データを用いて計算を行い、計算結果を出力装置５に出力する。

　計算装置１０は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、計算プログラムに実行することによって計算処理を実行する。計算装置１０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。計算プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、半導体記憶装置（例えばＳＳＤ：Solid State Drive）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。計算プログラムは、電気通信回線を介して送信されてもよい。

　以下、計算装置１０の第１実施形態～第６実施形態について説明する。その後、計算装置１０の適用例としてグラフの単純化処理について説明する。なお、各実施形態における「高速逆数平方根計算部」は、高速逆数平方根法により逆数平方根を計算する。

　［第１実施形態］
　以下、第１実施形態における計算装置１０である計算装置１０Ａについて説明する。図２は、実施形態における逆数平方根、および平方根差を計算する計算装置１０Ａの構成を示すブロック図である。計算装置１０Ａは、入力装置３から正の実数Ａ、Ｂが入力され、ａ＝１／√Ａ、ｂ＝１／√Ｂ、ｃ＝√Ａ－√Ｂを出力装置５に出力する計算装置である。計算装置１０Ａは、高速逆数平方根計算部１１、２１、減算部１２、乗算部１７、１１７、加算部１３、および除算部１４を備える。

　計算装置１０Ａにおいて、正の実数Ａが入力されると、Ａは、高速逆数平方根計算部１１および減算部１２に入力される。正の実数Ｂが入力されると、Ｂは、高速逆数平方根計算部２１および減算部１２に入力される。高速逆数平方根計算部１１は、減算部１２、加算部１３、および出力装置５にａ＝１／√Ａを出力する。高速逆数平方根計算部２１は、減算部１２、加算部１３、および出力装置５にｂ＝１／√Ｂを出力する。減算部１２は、Ａ－Ｂを乗算部１１７に出力する。

　乗算部１７は、乗算部１１７にａｂを出力する。乗算部１１７は、除算部１４に（Ａ－Ｂ）ａｂを出力する。加算部１３は、ａ＋ｂを除算部１４に出力する。除算部１４は、ｃとして（Ａ－Ｂ）ａｂ／（ａ＋ｂ）を出力装置５に出力する。

　ここで、（Ａ－Ｂ）ａｂ／（ａ＋ｂ）＝√Ａ－√Ｂであることは、以下の通りである。
√Ａ－√Ｂ＝（√Ａ－√Ｂ）（√Ａ＋√Ｂ）／（√Ａ＋√Ｂ）
　　　　　＝（Ａ－Ｂ）／（√Ａ＋√Ｂ）
ここで、
√Ａ＋√Ｂ＝（１／√Ａ＋１／√Ｂ）（√Ａ√Ｂ）＝（ａ＋ｂ）／（ａｂ）
よって
（Ａ－Ｂ）／（√Ａ＋√Ｂ）＝（Ａ－Ｂ）ａｂ／（ａ＋ｂ）

　以上より、計算装置１０Ａは、ａ＝１／√Ａ、ｂ＝１／√Ｂ、およびｃ＝√Ａ－√Ｂを出力装置５に出力する。計算装置１０Ａは、逆数平方根を計算するが、√Ａ、√Ｂは計算していない。よって、ｃを√Ａ、√Ｂを計算することなく出力する。また、分子の有理化を行うことで、√Ａ、√Ｂを計算する場合と比較して、√Ａ－√Ｂの桁落ちを防止することができる。

　図３は、参考例として、従来通り、√Ａ、√Ｂを計算してａ，ｂ，ｃを出力する計算装置２０を示すブロック図である。計算装置２０は、平方根計算部１５、２５、減算部２２、および除算部２４、３４を備える。

　計算装置２０において、正の実数Ａが入力されると、平方根計算部１５は、減算部２２、および除算部２４に√Ａを出力する。正の実数Ｂが入力されると、平方根計算部２５は、減算部２２、および除算部３４に√Ｂを出力する。

　除算部２４は、ａ＝１／√Ａを出力する。除算部３４は、ｂ＝１／√Ｂを出力する。減算部２２は、ｃ＝√Ａ－√Ｂを出力する。

　ここで計算量を比較するために、図４を用いて各計算の計算量について説明する。図４は、Ｃ＋＋言語で、各計算を１，０００，０００回計算するのに要した時間を、加算を１ｆｌｏｐｓとして示した図である。図４において、sqrt(x)は平方根，1/sqrt(x)は逆数平方根をＣ＋＋言語の標準ライブラリ関数によって演算した場合の計算量を示している。また、fastInvSqrt(x)はニュートン法１回のFast Inverse Square Root法による計算量を示している。fastInvSqrt２(x)はニュートン法２回のFast Inverse Square Root法による計算量を示している。fastInvSqrt３(x)はニュートン法３回のFast Inverse Square Root法による計算量を示している。mFastInvSqrt(x)は修正Fast Inverse Square Root法による計算量を示している。

　また、H.A. Thant, et. al., “Mobile Agents Based Load Balancing Method for Parallel Applications,” 6th Asia-Pacific Symposium on Information and Telecommunication Technologies, Yangon, 2005.によれば、浮動小数点型の加算1回の計算量を同じく１ｆｌｏｐとすると、減算、乗算は１ｆｌｏｐ、除算および平方根計算は４ｆｌｏｐｓの計算量である。またFastInvSqrt法による逆数平方根演算は、図４に示すとおり、１ｆｌｏｐｓと見積もることができる。

　a、b、cを従来の計算装置２０で計算する場合、計算量の総計は１７ｆｌｏｐｓである。一方、本実施形態に係る計算装置１０Ａで計算する場合、計算量の総計は１０ｆｌｏｐｓである。よって、従来の計算装置２０と比較して、本実施形態に係る計算装置１０Ａでは、７ｆｌｏｐｓ、およそ41.2%の浮動小数点演算を削減すると見積もることができる。

　［第２実施形態］
　以下、第２実施形態における計算装置１０である計算装置１０Ｂについて説明する。図５は、実施形態における、和と差の逆数平方根、および和と差の平方根差を計算する計算装置１０Ｂの構成を示すブロック図である。計算装置１０Ｂは、入力装置３から正の実数Ｘ、ｅ（Ｘ＞ｅ＞０）が入力され、ａ＝１／√（Ｘ＋ｅ）、ｂ＝１／√（Ｘ－ｅ）、ｃ＝√（Ｘ＋ｅ）－√（Ｘ－ｅ）を出力装置５に出力する計算装置である。計算装置１０Ｂは、高速逆数平方根計算部３１、４１、減算部３２、乗算部２７、３７、４７、加算部２３、３３、および除算部４４を備える。

　計算装置１０Ｂにおいて、正の実数Ｘが入力されると、Ｘは、加算部２３および減算部３２に入力される。正の実数ｅが入力されると、ｅは、加算部２３、減算部３２、および乗算部２７に入力される。加算部２３は、Ｘ＋ｅを高速逆数平方根計算部３１に出力する。減算部３２は、Ｘ－ｅを高速逆数平方根計算部４１に出力する。乗算部２７は、２ｅを乗算部４７に出力する。

　高速逆数平方根計算部３１は、乗算部３７、加算部３３、および出力装置５にａ＝１／√（Ｘ＋ｅ）を出力する。高速逆数平方根計算部４１は、乗算部３７、加算部３３、および出力装置５にｂ＝１／√（Ｘ－ｅ）を出力する。乗算部３７は、ａｂ＝（１／√（Ｘ＋ｅ））（１／√（Ｘ－ｅ））を乗算部４７に出力する。乗算部４７は、２ｅａｂを除算部４４に出力する。加算部３３は、ａ＋ｂ＝１／√（Ｘ＋ｅ）＋１／√（Ｘ－ｅ）を除算部４４に出力する。除算部４４は、ｃとして２ｅａｂ／（ａ＋ｂ）を出力装置５に出力する。２ｅａｂ／（ａ＋ｂ）＝√（Ｘ＋ｅ）－√（Ｘ－ｅ）であることは、第１実施形態におけるＡをＸ＋ｅとし、ＢをＸ－ｅとすることで示される。

　以上より、計算装置１０Ｂは、ａ＝１／√（Ｘ＋ｅ）、ｂ＝１／√（Ｘ－ｅ）、およびｃ＝√（Ｘ＋ｅ）－√（Ｘ－ｅ）を出力装置５に出力する。計算装置１０Ｂは、逆数平方根を計算するが、√（Ｘ＋ｅ）、√（Ｘ－ｅ）は計算していない。よって、ｃを√（Ｘ＋ｅ）、√（Ｘ－ｅ）を計算することなく出力する。

　図６は、参考例として、従来通り、√（Ｘ＋ｅ）、√（Ｘ－ｅ）を計算してａ，ｂ，ｃを出力する計算装置４０を示すブロック図である。計算装置４０は、平方根計算部３５、４５、減算部４２、５２、加算部４３、および除算部５４、６４を備える。

　計算装置４０において、正の実数Ｘ、ｅが入力されると、加算部４３は、平方根計算部３５に、Ｘ＋ｅを出力する。減算部４２は、平方根計算部４５に、Ｘ－ｅを出力する。平方根計算部３５は、除算部５４および減算部５２に√（Ｘ＋ｅ）を出力する。平方根計算部４５は、除算部６４および減算部５２に√（Ｘ－ｅ）を出力する。

　除算部５４は、ａ＝１／√（Ｘ＋ｅ）を出力する。除算部６４は、ｂ＝１／√（Ｘ－ｅ）を出力する。減算部５２は、ｃ＝√（Ｘ＋ｅ）－√（Ｘ－ｅ）を出力する。

　a、b、cを従来の計算装置４０で計算する場合、計算量の総計は１９ｆｌｏｐｓである。一方、本実施形態に係る計算装置１０Ｂで計算する場合、計算量の総計は１２ｆｌｏｐｓである。よって、従来の計算装置４０と比較して、本実施形態に係る計算装置１０Ｂでは、７ｆｌｏｐｓ、およそ36.8%の浮動小数点演算を削減すると見積もることができる。

　［第３実施形態］
　以下、第３実施形態における計算装置１０である計算装置１０Ｃについて説明する。図７は、実施形態における、Ｍ×２行列の第２特異値、特異値の和の逆数および特異値の差の逆数を計算する計算装置１０Ｃの構成を示すブロック図である。本実施形態において、Ｍ≧３であり、Ｍ＝２については第４実施形態で説明する。計算装置１０Ｃは、入力装置３からＭ×２行列Ｙ＝［ｙ_１，ｙ_２］が入力され、第２特異値σ_２、特異値の和の逆数１／（σ_１＋σ_２）および特異値の差の逆数１／（σ_１－σ_２）を出力装置５に出力する計算装置である。

　計算装置１０Ｃは、第２実施形態で説明した計算装置１０Ｂを備える。また、計算装置１０Ｃは、分解部１１０、内積部１６、２６、３６、減算部６２、乗算部５７、６７、７７、８７、加算部５３、および平方根計算部５５を備える。

　計算装置１０Ｃにおいて、Ｍ×２行列Ｙ＝［ｙ_１，ｙ_２］が入力されると、Ｙは、分解部１１０に入力される。分解部１１０は、Ｍ×２行列Ｙを列ベクトルｙ_１，ｙ_２に分解する。分解部１１０は、ｙ_１を内積部１６、３６に出力する。分解部１１０は、ｙ_２を内積部２６、３６に出力する。

　内積部１６は、ｙ_１とｙ_１との内積ａを計算し、ａを加算部５３、乗算部６７、および出力装置５に出力する。内積部２６は、ｙ_２とｙ_２との内積ｃを計算し、ｃを加算部５３、乗算部６７、および出力装置５に出力する。内積部３６は、ｙ_１とｙ_２との内積ｂを計算し、ｂを乗算部７７、および出力装置５に出力する。

　加算部５３は、ｆ＝ａ＋ｃを計算装置１０Ｂおよび出力装置５に出力する。乗算部６７は、ａｃを減算部６２に出力する。乗算部７７は、ｂ^２を減算部６２に出力する。減算部６２は、ｄ＝ａｃ－ｂ^２を平方根計算部５５および出力装置５に出力する。平方根計算部５５は、ｅ＝√ｄを乗算部５７および出力装置５に出力する。乗算部５７は、２ｅを計算装置１０Ｂに出力する。

　計算装置１０Ｂは、１／√（ｆ＋２ｅ）を１／（σ_１＋σ_２）として出力装置５に出力する。計算装置１０Ｂは、１／√（ｆ－２ｅ）を１／（σ_１－σ_２）として出力装置５に出力する。計算装置１０Ｂは、√（ｆ＋２ｅ）－√（ｆ－２ｅ）を２σ_２として乗算部８７に出力する。乗算部８７は、σ_２を出力装置５に出力する。

　ここで１／√（ｆ±２ｅ）が１／（σ_１±σ_２）であることは、以下の通りである。非特許文献１によれば、Ｍ×２行列の特異値σ_１、σ_２の和および差は、σ_１±σ_２＝√(ｔｒ（Ｙ^ＴＹ）±２√（ｄｅｔ（Ｙ^ＴＹ）））である。

　ｔｒ（Ｙ^ＴＹ）＝ａ（＝ｙ_１とｙ_１との内積）＋ｃ（＝ｙ_２とｙ_２との内積）＝ｆである。ｄｅｔ（Ｙ^ＴＹ）＝ａ（＝ｙ_１とｙ_１との内積）×ｃ（＝ｙ_２とｙ_２との内積）－ｂ^２（＝（ｙ_１とｙ_２との内積ｂ）^２）＝ａｃ－ｂ^２＝ｄある。よって、√（ｄｅｔ（Ｙ^ＴＹ））＝√ｄ＝ｅである。

　よって、√(ｔｒ（Ｙ^ＴＹ）±２√（ｄｅｔ（Ｙ^ＴＹ）））＝√（ｆ±２ｅ）である。したがって、１／√（ｆ±２ｅ）＝１／（σ_１±σ_２）である。

　なお、図７に示されるように、計算装置１０Ｃは、第２特異値σ_２、特異値の和の逆数１／（σ_１＋σ_２）および特異値の差の逆数１／（σ_１－σ_２）だけではなく、ａ、ｂ、ｃ、ｄ、ｅ、ｆも出力装置５に出力する。

　計算装置１０Ｃの計算量について説明する。分解部１１０の処理は、行列を列ベクトルに分解するだけなので浮動小数点演算は行われない(０ｆｌｏｐ)。また内積部１６、２６、３６による計算量は、Ｍ次列ベクトルの入力に対し、２Ｍ－１ｆｌｏｐｓの計算量である。またsqrtによる平方根計算は前述の通り４ｆｌｏｐｓである。よって、計算装置１０Ｃによる計算量の総計は６Ｍ+１９ｆｌｏｐｓである。上述したように、計算装置１０Ｂにおいて、７ｆｌｏｐｓの削減効果があるため、計算装置１０Ｃも計算装置１０Ｂによって７ｆｌｏｐｓの削減効果がある。
　［第４実施形態］
　以下、第４実施形態における計算装置１０である計算装置１０Ｄについて説明する。図８は、実施形態における、２×２行列の第２特異値、特異値の和の逆数および特異値の差の逆数を計算する計算装置１０Ｄの構成を示すブロック図である。計算装置１０Ｄは、入力装置３から２×２行列Ｙ＝［ｙ_１，ｙ_２］が入力され、第２特異値σ_２、特異値の和の逆数１／（σ_１＋σ_２）および特異値の差の逆数１／（σ_１－σ_２）を出力装置５に出力する計算装置である。

　計算装置１０Ｄは、第２実施形態で説明した計算装置１０Ｂを備える。また、計算装置１０Ｄは、分解部１２０、内積部４６、５６、行列式計算部１９、絶対値計算部１８、乗算部９７、１０７、および加算部６３を備える。

　計算装置１０Ｄにおいて、２×２行列Ｙ＝［ｙ_１，ｙ_２］が入力されると、Ｙは、分解部１２０に入力される。分解部１２０は、２×２行列Ｙを列ベクトルｙ_１，ｙ_２に分解する。分解部１２０は、ｙ_１を内積部４６に出力する。分解部１２０は、ｙ_２を内積部５６に出力する。

　内積部４６は、ｙ_１とｙ_１との内積ａを計算し、ａを加算部６３に出力する。内積部５６は、ｙ_２とｙ_２との内積ｃを計算し、ｃを加算部６３に出力する。行列式計算部１９は、Ｙの行列式ｄを計算し、ｄを絶対値計算部１８、および出力装置５に出力する。

　加算部６３は、ｆ＝ａ＋ｃを計算装置１０Ｂおよび出力装置５に出力する。絶対値計算部１８は、ｄの絶対値ｅを乗算部９７に出力する。乗算部９７は、２ｅを計算装置１０Ｂに出力する。

　計算装置１０Ｂは、１／√（ｆ＋２ｅ）を１／（σ_１＋σ_２）として出力装置５に出力する。計算装置１０Ｂは、１／√（ｆ－２ｅ）を１／（σ_１－σ_２）として出力装置５に出力する。計算装置１０Ｂは、√（ｆ＋２ｅ）－√（ｆ－２ｅ）を２σ_２として乗算部１０７に出力する。乗算部１０７は、σ_２を出力装置５に出力する。

　ここで１／√（ｆ±２ｅ）が１／（σ_１±σ_２）であることは、第３実施形態で示した通りである。なお、図８に示されるように、計算装置１０Ｄは、第２特異値σ_２、特異値の和の逆数１／（σ_１＋σ_２）および特異値の差の逆数１／（σ_１－σ_２）だけではなく、ｄ、ｆも出力装置５に出力する。

　計算装置１０Ｄの計算量について説明する。行列式計算部１９の計算量は３ｆｌｏｐｓである。絶対値計算部１８は符号を評価し負の場合に反転させるだけなので浮動小数点演算は行われない(０ｆｌｏｐ)。計算装置１０Ｄによる計算量の総計は２４ｆｌｏｐｓである。上述したように、計算装置１０Ｂにおいて、７ｆｌｏｐｓの削減効果があるため、計算装置１０Ｄも計算装置１０Ｂによって７ｆｌｏｐｓの削減効果がある。
　［第５実施形態］
　以下、第５実施形態における計算装置１０である計算装置１０Ｅについて説明する。図９は、実施形態における、Ｍ×２行列のＳＶＴを計算する計算装置１０Ｅの構成を示すブロック図である。本実施形態において、Ｍ≧３であり、Ｍ＝２については第６実施形態で説明する。計算装置１０Ｅは、入力装置３からＭ×２行列Ｙ＝［ｙ_１，ｙ_２］と正の実数μが入力され、特異値閾値処理（Singular Value Thresholding；ＳＶＴ）を行い、その特異値閾値処理結果として、下記（１）に示される行列Ｚを計算する。

　（１）におけるＩ_２は２×２の単位行列である。また、γ、δ、ｅ、ａ、ｂ、ｃ、ｄについては後述する。

　計算装置１０Ｅは、第３実施形態で説明した計算装置１０Ｃと、係数算出装置２００と、Ｍ×２行列変換装置３００とを備える。

　計算装置１０Ｅにおいて、Ｍ×２行列Ｙ＝［ｙ_１，ｙ_２］が入力されると、Ｙは、計算装置１０Ｃ、係数算出装置２００、およびＭ×２行列変換装置３００に入力される。また、計算装置１０Ｅにおいて、実数μが入力されると、μは、係数算出装置２００に入力される。計算装置１０Ｃは、第３実施形態で説明したように、第２特異値σ_２、特異値の和の逆数１／（σ_１＋σ_２）、特異値の差の逆数１／（σ_１－σ_２）、ａ、ｂ、ｃ、ｄ、ｅ、ｆを出力する。ここで、図９に示されるように、ｇ＝１／（σ_１＋σ_２）、ｈ＝１／（σ_１－σ_２）とする。

　計算装置１０Ｃの出力のうち、ｄ、ｆ、σ_２、ｇ、ｈは、係数算出装置２００に出力される。ａ、ｂ、ｃ、ｅは、Ｍ×２行列変換装置３００に出力される。

　係数算出装置２００は、ｄ、ｆ、σ_２、ｇ、ｈ、μが入力される。係数算出装置２００は、γ、δを出力する。このγ、δの算出方法について説明する。まず、十分に大きい実数をＲとおく。具体的にＲの大きさとして、単精度浮動小数点型の最大の数の１０分の１程度の大きさが挙げられる。その上で、係数算出装置２００は、下記（ａ）から（ｄ）の４つの場合分けを行うことでγ、δを算出し、それらを出力する。

　（ａ）　Ｙが零行列の場合
　（ｂ）　（ａ）に該当せず、ｄ＝０の場合
　（ｃ）　（ｂ）に該当せず、ｈ＞Ｒの場合
　（ｄ）　（ｃ）に該当しない場合

　以下、各場合ごとに出力されるγ、δを示す。なお、高速逆数平方根法による逆数平方根をｉｓｑｒｔ（・）と表現することがある。例えば、高速逆数平方根法により計算された正の実数Ａの逆数平方根を、ｉｓｑｒｔ（Ａ）と表現することがある。また、（・）_＋における右下添字の＋は、ランプ関数を示す。ランプ関数は、入力が負の実数なら０を出力し、入力が非負の実数なら入力された実数をそのまま出力する。関数ｍｉｎは、入力された数値のうちで最も小さい値を出力する。

　（ａ）：γ＝０、δ＝０
　（ｂ）：γ＝（１－μ×ｉｓｑｒｔ（ｆ））_＋、δ＝０
　（ｃ）：γ＝（１－（√２）×μ×ｉｓｑｒｔ（ｆ））_＋、δ＝０
　（ｄ）：γ＝（１－（μ－σ_２）_＋×ｈ）_＋、δ＝ｍｉｎ（μ、σ_２）×ｇ

　係数算出装置２００は、上記場合分けにより、γ、δをＭ×２行列変換装置３００に出力する。これにより、Ｍ×２行列変換装置３００には、上記（１）に含まれるパラメータが全て揃うため、それらを用いて（１）を出力装置５に出力する。なお、ｅ＝０の場合には、（１）におけるγδ／ｅを０とする。

　計算装置１０Ｅの計算量について説明する。ランプ関数および関数ｍｉｎは実数値の比較が主な計算処理であり、浮動小数点演算は行われない(０ｆｌｏｐ)。図１６Ｂに示されるアルゴリズムに従って計算する場合、計算量は１２Ｍ+３８ｆｌｏｐｓである。一方、計算装置１０Ｅによる計算量の総計は１２Ｍ+２９ｆｌｏｐｓである。以上より９ｆｌｏｐｓの浮動小数点演算を削減すると見積もることができる。
　［第６実施形態］
　以下、第６実施形態における計算装置１０である計算装置１０Ｆについて説明する。図１０は、実施形態における、２×２行列のＳＶＴを計算する計算装置１０Ｆの構成を示すブロック図である。計算装置１０Ｆは、入力装置３から２×２行列Ｙ＝［ｙ_１，ｙ_２］と正の実数μが入力され、上述したＳＶＴを行い、その特異値閾値処理結果として、下記（１）に示される行列Ｚを計算する。なお、ｙ_ｉｊは、Ｙのｉ行ｊ列成分である。

　（２）における関数ｓｉｇｎ（・）は符号関数であり、入力が負の場合には－１を出力し、入力が０の場合には０を出力し、入力が正の場合に＋１を出力する。また、γ、δ、ｄについては後述する。

　計算装置１０Ｆは、第４実施形態で説明した計算装置１０Ｄと、係数算出装置２０１と、２×２行列変換装置３０１とを備える。

　計算装置１０Ｆにおいて、２×２行列Ｙ＝［ｙ_１，ｙ_２］が入力されると、Ｙは、計算装置１０Ｄ、係数算出装置２０１、およびＭ×２行列変換装置３０１に入力される。また、計算装置１０Ｆにおいて、実数μが入力されると、μは、係数算出装置２０１に入力される。計算装置１０Ｄは、第３実施形態で説明したように、第２特異値σ_２、特異値の和の逆数１／（σ_１＋σ_２）、特異値の差の逆数１／（σ_１－σ_２）、ｄ、ｆを出力する。ここで、図１０に示されるように、ｇ＝１／（σ_１＋σ_２）、ｈ＝１／（σ_１－σ_２）とする。

　計算装置１０Ｄの出力のうち、ｄ、ｆ、σ_２、ｇ、ｈは、係数算出装置２０１に出力される。ｄは、２×２行列変換装置３００に出力される。

　係数算出装置２０１は、ｄ、ｆ、σ_２、ｇ、ｈ、μが入力される。係数算出装置２０１は、γ、δを出力する。このγ、δの算出方法について説明する。まず、十分に大きい実数をＲとおく。具体的にＲの大きさとして、単精度浮動小数点型の最大の数の１０分の１程度の大きさが挙げられる。その上で、係数算出装置２００は、下記（ａ）から（ｄ）の４つの場合分けを行うことでγ、δを算出し、それらを出力する。

　以下、各場合ごとに出力されるγ、δを示す。
　（ａ）：γ＝０、δ＝０
　（ｂ）：γ＝（１－μ×ｉｓｑｒｔ（ｆ））_＋、δ＝０
　（ｃ）：γ＝（１－（√２）×μ×ｉｓｑｒｔ（ｆ））_＋、δ＝０
　（ｄ）：γ＝（１－（μ－σ_２）_＋×ｈ）_＋、δ＝ｍｉｎ（μ、σ_２）×ｇ

　係数算出装置２００は、上記場合分けにより、γ、δを２×２行列変換装置３０１に出力する。これにより、２×２行列変換装置３０１には、上記（２）に含まれるパラメータが全て揃うため、それらを用いて（２）を出力装置５に出力する。

　計算装置１０Ｆの計算量について説明する。図１６Ｂに示されるアルゴリズムに従って計算する場合、計算量は４１ｆｌｏｐｓである。一方、計算装置１０Ｆによる計算量の総計は３２ｆｌｏｐｓである。以上より９ｆｌｏｐｓの浮動小数点演算を削減すると見積もることができる。

　次に、グラフの単純化処理について説明する。図１１は、グラフの単純化処理の処理概要を示す図である。図１１におけるＧ＝（Ｖ，Ｅ，Ｐ）は、Ｍ次元空間に埋め込まれたグラフを示す。ここでＶ，Ｅはそれぞれ頂点、辺の集合とし、Ｐ∈Ｒ^{｜Ｖ｜×Ｍ}を頂点座標とする（ここでのＲは実数全体の集合）。Ｐの各行ベクトル（ｐ_１）^Ｔ、（ｐ_２）^Ｔ、…、（ｐ_｜ｖ｜）^Ｔはグラフの各頂点の座標を表す。また、次数が２の頂点の集合をＶ~＝｛ｖ∈Ｖ｜ｄｅｇｖ＝２｝とする。

　グラフ単純化処理では図１１に示される通り、多くの頂点を持つ歪な形状の埋め込みグラフを入力とし、局所的に線形に整列した埋め込みグラフを中間生成し（Ｓ１０１）、最後に不要点を除去して（Ｓ１０２）、形状単純された所望のグラフを得る。

　図１２は、グラフ単純化装置５００の構成例を示す図である。グラフ単純化装置５００は、閾値λとグラフＧが入力され、単純化したグラフＧ’’を出力する。グラフ単純化装置５００は、局所線形整列部５１０と、不要頂点除去部５２０とを備える。局所線形整列部５１０は、グラフＧを閾値λを用いて局所線形整列させたＧ’を不要頂点除去部５２０に出力する。不要頂点除去部５２０は、入力したグラフＧ’の頂点のうち、不要な頂点を除去したＧ’’を出力する。

　図１３は、図１２における局所線形整列部５１０の構成例を示す図である。局所線形整列部５１０は、上述したように、グラフＧを閾値λを用いて局所線形整列させたＧ’を不要頂点除去部５２０に出力する。局所線形整列部５１０は、凸最適化問題立式部５１１と、凸最適化問題求解部５１２と、座標情報置換部５１３とを備える。

　最初に凸最適化問題立式部５１１について説明する。図１４は、隣接辺のベクトルを並べる操作を説明するための図である。図１４に示される行列Ｌ_Ｖは、ｖから隣接する頂点へのベクトル並べるための行列である。図１４に示される行列Ｌ_Ｖの要素について、「…」の箇所は全て０である。また、ｖの座標がＰのｋ行目としたとき、図１４に示されるＬ_Ｖにおける「－１」がｋ列目なっている。Ｌ_ＶＰにより、ｖを始点としてｋ－１行目の座標を終点とするベクトルと、ｖを始点としてｋ＋１行目の座標を終点とするベクトルが得られる。このＬ_Ｖを作用させる操作は線形写像である。

　元の入力グラフの形を忠実に再現しながらも曲折回数が少なれば、グラフの局所線形整列化に成功したと言える。ここでは忠実再現の尺度をＬ１ノルムとし、辺の曲折回数の正則化を核型ノルム関数として、凸最適化問題立式部５１１は、下記（３）のとおり最適化問題を立式する。ここで核型ノルム関数とは入力行列の特異値の和を計算する関数である。

　上記（３）の最適化問題を解くために、Primal-Dual Splitting（L. Condat, “A primal-dual splitting method for convex optimization involving lipschitzian, proximable and linear composite terms,” Journal of Optimization Theory and Applications, 2013.参照）を用いる。凸最適化問題求解部５１２が実行する具体的な手順を図１５に示す。図１５は、局所線形整列問題の解法を示すアルゴリズムを示す図である。なお、図１５の４行目のｐｒｏｘ_τｆにおけるｆは、下記（４）である。

　図１５に示されるアルゴリズムでは、３行目から１１行目までのｎ＝１からｒまでのｒ回のループの中に、上述したＶ~に属する元の全てに対して、６行目から１０行目までループが行われることが示されている。

　したがって、６行目から１０行目までは、ｒ×（Ｖ~に属する元の総数）回実行される。その６行目から１０行目のうちの８行目で計算される下記（５）は、核型ノルムの近接写像である。

　上記（５）は、下記（６）の行列の閾値λによるＳＶＴである。

　この８行目の処理は、図１５に示されるアルゴリズムの計算時間のうちの約５３．８％を占める。そこで、上述した計算装置１０Ｅ、１０Ｆを用いて上記ＳＶＴを計算することで、従来と比較して、グラフ単純化処理を高速に実行することができる。

　座標情報置換部５１３は、凸最適化問題求解部５１２により局所線形整列された頂点座標に座標情報を置換して、局所線形整列させたＧ’を出力する。

　本実施形態は、グラフの単純化だけではなく、ＳＶＴを行う全ての処理に適用可能である。例えば、画像偽色除去は、グラフの単純化と同様に、多数の小型行列を正則化する問題に分類される。

　以上説明したように、本実施形態によれば、核型ノルムを特異値を用いずに混合ノルムで表現することで、ＳＶＤが不要なＳＶＴ計算を実現することで、計算量を削減可能となる。さらに、アルゴリズムを容易にデータ並列化でき、多数の行列について同時処理が可能である。アルゴリズムをデータ並列化できれば、パソコンに搭載されるＣＰＵの多くが採用しているSingle Instrucion Multiple Data(ＳＩＭＤ)等のデータ並列アーキテクチャを用いる実装で高速化できる。

　以上説明した計算装置１０Ａ～１０Ｆにおいて、加算部や内積部などの各種計算を行う構成が計算結果を一時的に記憶するメモリなどの記憶装置を設け、この記憶装置に計算結果を一時的に記憶してもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　本発明は、平方根の計算を行う計算装置に適用可能である。

１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅ、１０Ｆ、２０、４０…計算装置、１１、２１、３１、４１…高速逆数平方根計算部、１２、２２、３２、４２、５２…減算部、１３、２３、３３、４３、５３、６３…加算部、１４、２４、３４、４４、５４、６４…除算部、１５、２５、３５、４５、５５…平方根計算部、１６、２６、３６、４６、５６…内積部、１７、２７、３７、４７、５７、６７、７７、８７、９７、１０７、１１７…乗算部、１８…絶対値計算部、１９…行列式計算部、１１０、１２０…分解部、２００、２０１…係数算出装置、３００、３０１…行列変換装置、５００…グラフ単純化装置、５１０…局所線形整列部、５１１…凸最適化問題立式部、５１２…凸最適化問題求解部、５１３…座標情報置換部、５２０…不要頂点除去部

Claims

　コンピュータが、正の実数Ａの逆数平方根を高速逆数平方根法により計算する第１逆数平方根ステップと、
　コンピュータが、正の実数Ｂの逆数平方根を高速逆数平方根法により計算する第２逆数平方根ステップと、
　コンピュータが、ＡからＢを減算する減算ステップと、
　コンピュータが、前記第１逆数平方根ステップでの計算結果と、前記第２逆数平方根ステップでの計算結果とを乗算する第１乗算ステップと、
　コンピュータが、前記第１乗算ステップでの計算結果と、前記減算ステップでの計算結果とを乗算する第２乗算ステップと、
　コンピュータが、前記第１逆数平方根ステップでの計算結果と、前記第２逆数平方根ステップでの計算結果とを加算する加算ステップと、
　コンピュータが、前記第２乗算ステップでの計算結果を、前記加算ステップでの計算結果で除算する除算ステップと、
　を備えた計算方法。
　コンピュータが、正の実数Ｘと当該実数Ｘよりも小さい正の実数ｅとを加算する第１加算ステップと、
　コンピュータが、Ｘからｅを減算する減算ステップと、
　コンピュータが、ｅを２倍する第１乗算ステップと、
　コンピュータが、前記第１加算ステップでの計算結果の逆数平方根を高速逆数平方根法により計算する第１逆数平方根ステップと、
　コンピュータが、前記減算ステップでの計算結果の逆数平方根を高速逆数平方根法により計算する第２逆数平方根ステップと、
　コンピュータが、前記第１逆数平方根ステップでの計算結果と、前記第２逆数平方根ステップでの計算結果とを加算する第２加算ステップと、
　コンピュータが、前記第１逆数平方根ステップでの計算結果と、前記第２逆数平方根ステップでの計算結果とを乗算する第２乗算ステップと、
　コンピュータが、前記第２乗算ステップでの計算結果と、前記減算ステップでの計算結果とを乗算する第３乗算ステップと、
　コンピュータが、前記第３乗算ステップでの計算結果を、前記第２加算ステップでの計算結果で除算する除算ステップと、
　を備えた計算方法。
　コンピュータが、Ｍ×２行列を構成する第１列ベクトルと第２列ベクトルのうち、第１列ベクトル同士の内積を計算する第１内積ステップと、
　コンピュータが、前記第２列ベクトル同士の内積を計算する第２内積ステップと、
　コンピュータが、第１列ベクトルと第２列ベクトルとの内積を計算する第３内積ステップと、
　コンピュータが、前記第１内積ステップでの計算結果と、前記第２内積ステップでの計算結果とを加算する加算ステップと、
　コンピュータが、前記第１内積ステップでの計算結果と、前記第２内積ステップでの計算結果とを乗算する第１乗算ステップと、
　コンピュータが、前記第３内積ステップで計算された内積同士を乗算する第２乗算ステップと、
　コンピュータが、前記第１乗算ステップでの計算結果から前記第２乗算ステップでの計算結果を減算する減算ステップと、
　コンピュータが、前記減算ステップでの計算結果の平方根を計算する平方根計算ステップと、
　コンピュータが、前記平方根計算ステップでの計算結果を２倍する第３乗算ステップと、
　を備え、
　前記加算ステップでの計算結果をＸとし、第３乗算ステップでの計算結果をｅとして、請求項２に記載の計算方法により、Ｍ×２行列の２つの特異値の和の逆数、２つの特異値の差の逆数、および１つの特異値を計算する計算方法。
　請求項３の計算方法より計算された２つの特異値の和の逆数、および２つの特異値の差の逆数を用いて、コンピュータが、Ｍ×２行列の特異値閾値処理を計算するステップを備えた計算方法。
　コンピュータが、Ｍ次元空間のグラフの頂点を局所的に線形に整列する整列ステップと、
　コンピュータが、前記整列ステップにおいて線形に整列されたグラフの頂点のうち、頂点同士を結ぶ辺のなす角度に基づき、不要な辺と頂点とを除去する除去ステップと、
　を備え、
　前記整列ステップにおいて、特異値の和を計算する核型ノルム関数による特異値閾値処理を前記請求項４に記載の計算方法で行う計算方法。
　請求項１から請求項５のいずれか１項に記載の計算方法をコンピュータに実行させるためのプログラム。
　正の実数Ａの逆数平方根を高速逆数平方根法により計算する第１逆数平方根部と、
　正の実数Ｂの逆数平方根を高速逆数平方根法により計算する第２逆数平方根部と、
　ＡからＢを減算する減算部と、
　前記第１逆数平方根部での計算結果と、前記第２逆数平方根部での計算結果とを乗算する第１乗算部と、
　前記第１乗算部での計算結果と、前記減算部での計算結果とを乗算する第２乗算部と、
　前記第１逆数平方根部での計算結果と、前記第２逆数平方根部での計算結果とを加算する加算部と、
　前記第２乗算部での計算結果を、前記加算部での計算結果で除算する除算部と、
　を備えた計算装置。