WO2023238240A1

WO2023238240A1 - 検証装置、検証方法及び検証プログラム

Info

Publication number: WO2023238240A1
Application number: PCT/JP2022/022969
Authority: WO
Inventors: 忠賢千田
Original assignee: 日本電信電話株式会社
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2023-12-14

Abstract

実施形態に係る検証装置は、第１の判定部と、第２の判定部と、を有する。第１の判定部は、正規表現があらかじめ指定された構文（例えば、バッカスナウア記法による正規表現の構文）に従うか否かを判定する。第２の判定部は、正規表現が文字列を解析するときの処理時間が、文字列の長さに対して線形であることを示す条件（例えば、ＲＷＳ１Ｕ（real-world　strong　1-unambiguity））が満たされるか否かを判定する。

Description

検証装置、検証方法及び検証プログラム

　本発明は、検証装置、検証方法及び検証プログラムに関する。

　実世界において正規表現は正規表現エンジンとして実装され、様々な場面で利用されている。例えば、正規表現エンジンは、emailアドレスを入力する画面を持つウェブアプリケーションにおいて、ユーザが入力した文字列がemailアドレスかどうかを確認するために用いられている。また、例えば、正規表現エンジンは、外部から送られてきたデータのサニタイズや要素の抽出、汎用的なプログラミング言語の標準ライブラリ等に採用されている。

　ここで、多くの正規表現エンジンに採用されているバックトラッキング法に基づいた解析アルゴリズムは、解析対象のデータと正規表現の組み合わせによっては処理に膨大な時間を要するという欠点がある。そのような欠点を悪用したサイバー攻撃としてRegular　Expression　Denial　of　Service（ReDoS）が知られている（参考文献："Regular　expression　Denial　of　Service　-　ReDoS",　https://owasp.org/www-community/attacks/Regular_expression_Denial_of_Service_-_ReDoS）。

　なお、マッチさせる文字列の長さに対して、正規表現エンジン上で線形時間で動作するような正規表現を脆弱でない正規表現と呼ぶものとする。逆に、マッチさせる文字列の長さに対して、正規表現エンジン上で例えば指数関数時間で動作するような正規表現を脆弱な正規表現と呼ぶものとする。

　従来、ReDoSの脅威を取り除くための技術として、正規表現の受理する言語の誤りを修正するRFixer（例えば、非特許文献１を参照）が知られている。また、純粋な正規表現を決定性有限オートマトン（Deterministic　Finite　Automaton）に一度変換して戻すことで脆弱でない正規表現を得る方法（例えば、非特許文献２を参照）が知られている。

Rong　Pan,　Qinheping　Hu,　Gaowei　Xu,　and　Loris　D’Antoni.　2019.　Automatic　Repair　of　Regular　Expressions.　Proc.　ACM　Program.　Lang.　3,　OOPSLA,　Article　139　(Oct.　2019),　29　pages. Brink　van　der　Merwe,　Nicolaas　Weideman,　and　Martin　Berglund.　2017.　Turning　Evil　Regexes　Harmless.　In　Proceedings　of　the　South　African　Institute　of　Computer　Scientists　and　Information　Technologists　(SAICSIT’17).　Association　for　Computing　Machinery,　New　York,　NY,　USA,　Article　38,　10　pages.

　しかしながら、従来の技術には、正規表現の脆弱性が修正済みであることの確からしさを検証することができない場合があるという問題がある。

　上述した課題を解決し、目的を達成するために、検証装置は、正規表現があらかじめ指定された構文に従うか否かを判定する第１の判定部と、前記正規表現が文字列を解析するときの処理時間が、前記文字列の長さに対して線形であることを示す条件が満たされるか否かを判定する第２の判定部と、を有することを特徴とする。

　本発明によれば、正規表現の脆弱性が修正済みであることの確からしさを検証することができる。

図１は、第１の実施形態に係る修正装置の構成例を示す図である。図２は、正規表現の構文の例を示す図である。図３は、Positive　ExamplesとNegative　Examplesの例を示す図である。図４は、文字列の集合の生成方法を説明する図である。図５は、正規表現の合成方法を説明する図である。図６は、第１の実施形態に係る修正装置の処理の流れを示すフローチャートである。図７は、正規表現の合成処理の流れを示すフローチャートである。図８は、第１の実施形態に係る検証装置の構成例を示す図である。図９は、ＲＷＳ１Ｕの判定方法を説明する図である。図１０は、構文解析木を説明する図である。図１１は、パスの例を示す図である。図１２は、第１の実施形態に係る検証装置の処理の流れを示すフローチャートである。図１３は、ＲＷＳ１Ｕ検査処理の流れを示すフローチャートである。図１４は、検証プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る検証装置、検証方法及び検証プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態の修正装置］
　まず、正規表現の脆弱性を修正する修正装置について説明する。検証装置は、正規表現が修正装置によって修正済みであることの確からしさを検証する。

　例えば、検証装置による検証結果が、正規表現の脆弱性が修正済みでない可能性が高いことを示している場合、当該正規表現は修正装置による修正の対象とされる。

　一方、例えば、検証装置による検証結果が、正規表現の脆弱性が修正済みである可能性が高いことを示している場合、当該正規表現の修正装置による修正は不要と判断される。

　実施形態では、修正装置と検証装置は別の装置であるものとする。ただし、検証装置は、修正装置の機能の一部として実現されてもよい。

　まず、図１を用いて、第１の実施形態に係る修正装置の構成について説明する。図１は、第１の実施形態に係る修正装置の構成の一例を示す図である。図１に示すように、修正装置１０は、修正前の正規表現の入力を受け付け、入力された正規表現の修正を行い、修正後の正規表現を出力する。

　ここで、修正装置１０に入力される正規表現は、実世界の拡張を施した正規表現であって、バッカスナウア記法（ＢＮＦ：Backus-Naur　form）で定義された構文に従うものとする。図２は、正規表現の構文の例を示す図である。図２の正規表現ｒは、本実施形態における正規表現の一例である。なお、以降の説明において、正規表現中の「\」は適宜バックスラッシュに置き換えられてもよい。

　図２の「C」は文字の集合であり、「x」は文字列、「i」は自然数である。図２の構文は既存の正規表現エンジンで利用されているものである（参考文献:"Perldoc　Browser",　https://perldoc.perl.org/perlre.html）。

　また、「.」は任意の１文字を表す記号である。つまり、「.」は図２の範囲文字「[C]」と糖衣構文である。また、範囲文字「[C]」にマッチしない文字の集合は、「[^C]」と書ける。また、空集合は「[]」と表記され、任意の文字にマッチしないことを意味する。

　図１に戻り、修正装置１０の各部について説明する。図１に示すように、修正装置１０は、インタフェース部１１、記憶部１２及び制御部１３を有する。

　インタフェース部１１は、データの入出力及びデータの通信を行うためのインタフェースである。例えば、インタフェース部１１は、キーボード及びマウス等の入力装置からデータの入力を受け付ける。また、例えば、インタフェース部１１は、ディスプレイ及びスピーカ等の出力装置にデータを出力する。

　また、インタフェース部１１は、ネットワークを介して通信を行うための装置（例えばＮＩＣ（Network　Interface　Card））であってもよい。

　記憶部１２は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１２は、修正装置１０で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。

　記憶部１２は、置換候補構文情報１２１を記憶する。置換候補構文情報１２１は、正規表現又はテンプレートの、範囲文字又はホールと置換される正規表現の構文の集合である。

　例えば、置換候補構文情報１２１は、「□□,　□|□,　□*,　(□),　\i,　(?=□),　(?!□),　(?<=□),　(?<!□)」である。ただし、「□」はホールである。ホール及びテンプレートについては後述する。

　制御部１３は、修正装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。

　また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、生成部１３１及び合成部１３２を有する。

　生成部１３１は、修正前の正規表現によって受理される文字列の集合であるPositive　Examples、及び、修正前の正規表現によって拒否される文字列の集合であるNegative　Examplesを生成する。

　なお、Positive　Examplesは第１の集合の一例である。また、Negative　Examplesは第２の集合の一例である。また、修正前の正規表現は第１の正規表現の一例である。

　図３は、Positive　ExamplesとNegative　Examplesの例を示す図である。ここでは、修正前の正規表現が「.*.*=.*」であるものとする。このとき、Positive　Examplesに含まれる「=」、「abcd==」、「==abcd」及び「ab=c」は正規表現「.*.*=.*」にマッチする（受理される）。一方、Negative　Examplesに含まれる「abc」は正規表現「.*.*=.*」にマッチしない（拒否される）。

　生成部１３１は、特定の長さ以下の文字を組み合わせた文字列を全列挙し、各文字列が正規表現に受理されるならPositive　Examplesに分類し、拒否されるならNegative　Examplesに分類することができる。なお、生成部１３１は、非特許文献１に記載の方法を用いてPositive　ExamplesとNegative　Examplesを生成してもよい。

　ここで、文字列を素直に全列挙すると、爆発的に例が生成されてしまう。これを回避するために、生成部１３１は、修正前の正規表現の中に現れる文字のみからPositive　Examplesの文字列及びNegative　Examplesの文字列を生成してもよい。

　例えば、正規表現が「ab[c-d]*」である場合、生成部１３１は、「a」及び「b」と、「[c,d]」からランダムに選択した１文字と、を組み合わせて候補の文字列を生成する。

　図４は、文字列の集合の生成方法を説明する図である。図４の例では、修正前の正規表現は「.*.*@example[.]com」である。この場合、生成部１３１は、正規表現「.*.*@example[.]com」によって受理される文字列「@example.com」、「a@example.com」、「gc@example.com」をPositive　Examplesに分類する。一方、生成部１３１は、正規表現「.*.*@example[.]com」によって拒否される文字列「example.com」、「@.com」、「@examplecom」、「@example.」等をNegative　Examplesに分類する。

　合成部１３２は、修正前の正規表現における範囲文字を所定の構文に置換した正規表現であって、Positive　Examplesの文字列を受理し、かつNegative　Examplesの文字列を拒否するような正規表現である修正後の正規表現を合成する。なお、修正後の正規表現は第２の正規表現の一例である。

　合成部１３２による処理は大きく、テンプレートを作成するステップと、テンプレートへの割り当てを行うステップと、に分けられる。

　テンプレートを作成するステップでは、合成部１３２は、正規表現における範囲文字をプレースホルダを使って置換することによりテンプレートを作成する。

　テンプレートへの割り当てを行うステップでは、合成部１３２は、プレースホルダへ所定の構文を割り当てて、脆弱でない正規表現を合成する。以降、プレースホルダをホールと呼び、「□」と表記する。

　合成部１３２は、優先度付きキューを保持しつつ処理を行う。キューに格納されたテンプレートには、修正前の正規表現への近さに応じて優先度が付与される。例えば、修正前の正規表現に近いテンプレートほど高い優先度が付与される。また、正規表現への近さは、正規表現のＡＳＴ（Abstract　Syntax　Tree）間の違う部分木のサイズの総和によって表されてもよい（例えば、非特許文献１を参照）。

　合成部１３２は、キューから要素を取り出す際には、格納されているテンプレートのうち優先度が最も高いものを優先して取り出す。処理の開始時点では、合成部１３２は、修正前の正規表現をテンプレートとしてキューに格納する。なお、キューに格納された修正前の正規表現の優先度は必然的に最高になる。

　まず、合成部１３２によって実行されるテンプレートを作成するステップについて説明する。合成部１３２は、キューから取り出したテンプレートが範囲文字を含む場合、当該テンプレートに含まれる当該範囲文字をホールに置換する。なお、範囲文字は、例えば「[C]」又は「.」のように表される。一方、合成部１３２は、キューから取り出したテンプレートがホールを含む場合、当該ホールのうちいずれか１つを、所定の構文に置換してもよい。

　例えば、合成部１３２は、テンプレートとしてキューに格納されている修正前の正規表現「.*.*=.*」の範囲文字を置換したテンプレート「□*.*=.*」、「.*□*=.*」「.*.*=□*」を作成し、キューに格納する。なお、一度取り出されたテンプレートは破棄されるものとする。

　このように、合成部１３２は、修正前の正規表現における範囲文字の少なくとも一部をホールに置換し、当該置換したホールをさらに所定の構文に置換したテンプレートを基に修正後の正規表現を合成する。

　さらに、合成部１３２は、ホールを、置換候補構文情報１２１に含まれる「□□」、「□|□」、「□*」、「(□)」、「\i」、「(?=□)」、「(?!□)」、「(?<=□)」、「(?<!□)」といった構文に置換することができる。この場合、合成部１３２は、テンプレートに含まれるホールを、ホールを含む所定の構文である「□□」、「□|□」、「□*」、「(□)」、「\i」、「(?=□)」、「(?!□)」、「(?<=□)」、「(?<!□)」のいずれかに置換したテンプレート（ただし、□はホール）を基に修正後の正規表現を合成する。

　続いて、合成部１３２によって実行されるテンプレートへの割り当てを行うステップについて説明する。ここでは、合成部１３２がテンプレートを作成するステップを繰り返し、例えばテンプレート「□*□*=.*」を作成しキューに格納したものとする。例えば、合成部１３２は、テンプレート「□*.*=.*」の左辺の範囲文字「.」をホールに置換することでテンプレート「□*□*=.*」を得る。

　合成部１３２は、テンプレートが含むホールに対する、条件を満たす範囲文字の割り当てを探索する。例えば、合成部１３２は、Satisfiability　Modulo　Theories（ＳＭＴ)　solver（例えば、Z3　solver）等を用いて探索を行う。

　合成部１３２は、テンプレートが「□*□*=.*」であり、Positive　Examples及びNegative　Examplesが図３の通りであれば、「[]*[^=]*=.*」という割り当てを探索により得ることができる。合成部１３２は、空集合である「[]」を取り除き、正規表現「[^=]*=.*」を得る。

　正規表現「[^=]*=.*」は、図３のPositive　Examplesを受理し、Negative　Examplesを拒否する。また、正規表現「[^=]*=.*」は、同じ文字にマッチする箇所を高々１つしか含まないため、脆弱でない性質を持っているということができる。

　本実施形態では、前述の通り、マッチさせる文字列の長さに対して、正規表現エンジン上で線形時間で動作するような正規表現を脆弱でない正規表現と呼ぶ。逆に、マッチさせる文字列の長さに対して、正規表現エンジン上で例えば指数関数時間で動作するような正規表現を脆弱な正規表現と呼ぶ。

　合成部１３２による脆弱でない正規表現の合成は、KochとScherzingerらにより考案されたstrongly　one-unambiguous（参考文献：Christoph　Koch　and　Stefanie　Scherzinger.　2007.　Attribute　Grammars　for　Scalable　Query　Processing　on　XML　Streams.　The　VLDB　Journal　16,　3　(July　2007),　317-342.）という性質を実世界の拡張にも合わせて改良した性質を用いたものである。

　Strongly　one-unambiguousとは、正規表現エンジンが次に処理する演算は現在解析中の文字が何か定まれば一意に定まるという性質である。

　同様に、修正前の正規表現が「.*.*@example[.]com」である場合、図５に示すように、合成部１３２は、脆弱でない正規表現「[^@]*@example[.]com」を得ることができる。

［修正装置の処理の流れ］
　図６は、第１の実施形態に係る修正装置の処理の流れを示すフローチャートである。まず、修正装置１０は、正規表現の入力を受け付ける（ステップＳ１０）。

　次に、修正装置１０は、入力された正規表現によって受理される文字列の集合（Positive　Examples）を生成する（ステップＳ２０）。また、修正装置１０は、入力された正規表現によって拒否される文字列の集合（Negative　Examples）を生成する（ステップＳ３０）。

　例えば、修正装置１０は、入力された修正前の正規表現から拡張オートマトンを作成し、当該拡張オートマトンのパスを全てカバーするように文字列の集合を生成することができる。

　続いて、修正装置１０は、入力された正規表現、受理される文字列及び拒否される文字列を基に正規表現を生成（合成）する（ステップＳ４０）。そして、修正装置１０は、生成した正規表現を出力する（ステップＳ５０）。

　図７は、正規表現の合成処理の流れを示すフローチャートである。図７の処理は、図６のステップＳ４０に相当する。まず、修正装置１０は、入力された正規表現を、テンプレートとしてキューに格納する（ステップＳ４０１）。

　次に、修正装置１０は、入力された正規表現に最も近いテンプレートをキューから取得する（ステップＳ４０２）。

　続いて、修正装置１０は、修正装置１０は、受理される文字列を受理し、拒否される文字列を拒否し、かつ脆弱性に関する条件を満たすような、ホールへの範囲文字の割り当てを探索する（ステップＳ４０３）。

　修正装置１０は、探索結果の割り当てが存在するか否かを判定する（ステップＳ４０４）。探索結果の割り当てが存在しない場合（ステップＳ４０４、Ｎｏ）、修正装置１０は、範囲文字をホールに置換するか、又はホールを所定のパターンに置換する（ステップＳ４０５）。所定のパターンは、例えば「□□」、「□|□」、「□*」、「(□)」、「\i」、「(?=□)」、「(?!□)」、「(?<=□)」、「(?<!□)」といった構文である。なお、ステップＳ４０１でキューに格納された、入力された正規表現がステップＳ４０３での探索の対象となった場合、ステップＳ４０４では割り当てが存在しないもの（Ｎｏ）とみなされる。

　そして、修正装置１０は、ステップＳ４０５で処理済みのテンプレートをキューに格納する（ステップＳ４０６）。ここでの処理済みのテンプレートは、範囲文字がホールに置換されたテンプレート、又はホールが所定のパターンに置換されたテンプレートである。

　一方、探索結果の割り当てが存在する場合（ステップＳ４０４、Ｙｅｓ）、修正装置１０は、探索結果の割り当てを基に脆弱でない正規表現を合成する（ステップＳ４０７）。

［修正装置による効果］
　これまで説明してきたように、修正装置１０の生成部１３１は、第１の正規表現によって受理される文字列の集合である第１の集合、及び、第１の正規表現によって拒否される文字列の集合である第２の集合を生成する。合成部１３２は、第１の正規表現における範囲文字を所定の構文に置換した正規表現であって、第１の集合の文字列を受理し、かつ第２の集合の文字列を拒否するような正規表現である第２の正規表現を合成する。このように、修正装置１０は、実世界で広く利用されている拡張である先読み、後読み及び後方参照といった構文を含めた修正を行う。このため、本実施形態によれば、実世界で利用されている正規表現の脆弱性を修正することができる。

　さらに、本実施形態によれば、Webサービス等で利用される正規表現に対して脆弱でないことを保証できるようになり、ReDoSの脅威からサービスを守ることができるようになる。

　また、生成部１３１は、第１の正規表現の中に現れる文字のみから、第１の集合の文字列及び第２の集合の文字列を生成する。これにより、修正装置１０は、入力された正規表現によって受理される文字列の集合（Positive　Examples）及び入力された正規表現によって拒否される文字列の集合（Negative　Examples）を効率良く作成することができる。

　また、合成部１３２は、第１の正規表現における範囲文字の少なくとも一部をプレースホルダに置換し、当該置換したプレースホルダをさらに所定の構文に置換したテンプレートを基に第２の正規表現を合成する。これにより、修正装置１０は、最低限の置換により脆弱性を解消することができる。

　また、合成部１３２は、テンプレートに含まれるプレースホルダを、プレースホルダを含む所定の構文である「□□」、「□|□」、「□*」、「(□)」、「\i」、「(?=□)」、「(?!□)」、「(?<=□)」、「(?<!□)」のいずれかに置換したテンプレート（ただし、□はプレースホルダ）を基に第２の正規表現を合成する。これにより、修正装置１０は、正規表現において脆弱性の原因になっている部分を、脆弱性のない構文に置換していくことができる。

［第１の実施形態の検証装置］
　続いて、正規表現の脆弱性が修正済みであるか否かを検証する検証装置について説明する。

　まず、図８を用いて、第１の実施形態に係る検証装置の構成について説明する。図８は、第１の実施形態に係る検証装置の構成の一例を示す図である。図８に示すように、検証装置２０は、正規表現の入力を受け付け、入力された正規表現の脆弱性が修正済みであるか否かを検証した結果を出力する。

　ここで、検証装置２０に入力される正規表現は、バッカスナウア記法に従うとは限らない。また、検証装置２０に入力される正規表現が修正装置１０によって修正済みであるか否かは未知であるものとする。

　図８に示すように、検証装置２０は、インタフェース部２１、記憶部２２及び制御部２３を有する。

　インタフェース部２１は、データの入出力及びデータの通信を行うためのインタフェースである。例えば、インタフェース部２１は、キーボード及びマウス等の入力装置からデータの入力を受け付ける。また、例えば、インタフェース部２１は、ディスプレイ及びスピーカ等の出力装置にデータを出力する。

　また、インタフェース部２１は、ネットワークを介して通信を行うための装置（例えばＮＩＣ）であってもよい。

　記憶部２２は、ＨＤＤ、ＳＳＤ、光ディスク等の記憶装置である。なお、記憶部２２は、ＲＡＭ、フラッシュメモリ、ＮＶＳＲＡＭ等のデータを書き換え可能な半導体メモリであってもよい。記憶部２２は、検証装置２０で実行されるＯＳや各種プログラムを記憶する。

　制御部２３は、検証装置２０全体を制御する。制御部２３は、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ等の電子回路や、ＡＳＩＣ、ＦＰＧＡ等の集積回路である。

　また、制御部２３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部２３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部２３は、第１の判定部２３１及び第２の判定部２３２を有する。

　第１の判定部２３１は、正規表現があらかじめ指定された構文に従うか否かを判定する。また、第２の判定部２３２は、正規表現が文字列を解析するときの処理時間が、文字列の長さに対して線形であることを示す条件が満たされるか否かを判定する。

　つまり、検証装置２０による検証は、第１の判定部２３１と第２の判定部２３２による２段階の判定によって実現される。また、第１の判定部２３１は、第２の判定部２３２と比べて簡易な検査を行う。

　第１の判定部２３１によって指定された構文に従うと判定され、かつ第２の判定部２３２によって条件が満たされると判定された場合、検証装置２０は、正規表現の脆弱性が修正済みである（又は修正済みである可能性が高い）という検証結果を出力する。

　逆に、第１の判定部２３１によって指定された構文に従わないと判定された場合、又は第２の判定部２３２によって条件が満たされないと判定された場合、検証装置２０は、正規表現の脆弱性が未修正である（又は未修正である可能性が高い）という検証結果を出力する。

　第１の判定部２３１は、入力された正規表現が、図２に示す演算子から構成されるものであるか否かを判定する。この場合、第１の判定部２３１は、正規表現がバッカスナウア記法による正規表現の構文に従うか否かを判定するということができる。

　なお、第１の判定部２３１は、ＡＮＴＬＲ（ANother　Tool　for　Language　Recognition）（参考文献：https://www.antlr.org/）等の既知の構文解析器により判定を行うことができる。

　第２の判定部２３２は、正規表現がＲＷＳ１Ｕ（参考文献："Repairing　DoS　Vulnerability　of　Real-World　Regexes",https://www.computer.org/csdl/proceedings-article/sp/2022/131600b049/1A4Q3TnrBZK）を満たす場合、条件が満たされると判定する。

　ＲＷＳ１Ｕは、正規表現が文字列を解析するときの処理時間が、文字列の長さに対して線形であることを保証する。

　正規表現に対して、任意の入力とともに正規表現エンジンに入力されたとしても必ず処理時間が入力長に対して線形になることを保証するための十分条件である。

　図９を用いて、正規表現がＲＷＳ１Ｕを満たすか否かを判定する方法を説明する。図９は、ＲＷＳ１Ｕの判定方法を説明する図である。

　まず、図９に示すように、第２の判定部２３２は、入力された正規表現に対し、先読みの除去を行う（ステップＳ１）。第２の判定部２３２は、先読みを空文字εに置換することで除去を行う。

　ここでは、入力された正規表現は、「[abc]*(?=a)\1」であるものとする。また、先読みは、図２に示す肯定先読み「(?=r)」及び否定先読み「(?!r)」を含む。

　次に、第２の判定部２３２は、先読みを除去した正規表現に対しブラケティングを行う（ステップＳ２）。具体的には、第２の判定部２３２は、正規表現を構文解析木（ＡＳＴ）に変換し、構文解析木の各頂点にユニークな番号iを割り振り、ブラケット「[_i…]_i」で囲んだ上で、構文解析木を正規表現に戻す。

　図１０は、構文解析木を説明する図である。図１０に示すように、第２の判定部２３２は、先読みが除去された正規表現「[abc]*\1」を構文解析木に変換し、各頂点をブラケットで囲む。そして、第２の判定部２３２は、構文解析木を正規表現「[₁[₂([₃abc]₃)*]₂[₄\1]₄]₁」に戻す。

　そして、第２の判定部２３２は、Thompson構成法を拡張した手法により、ブラケットを追加した正規表現から非決定性有限オートマトン（ＮＦＡ：Nondeterministic　Finite　Automaton）を構築する（ステップＳ３）。

　ここで、第２の判定部２３２は、ＮＦＡ上にブラケットとε遷移（空文字の遷移）のみを通って同じ文字に到達可能な異なる複数のパスが存在するような頂点があるかどうかを確認する。第２の判定部２３２は、そのような頂点が存在すれば、正規表現がＲＷＳ１Ｕを満たさないと判定する。

　図１１は、パスの例を示す図である。図１１のＮＦＡは、図９のステップ３で構築されたものである。図１１に示すように、左端の頂点から「a」に到達するためのパスが２つ存在する。そのため、第２の判定部２３２は、正規表現「[abc]*(?=a)\1」がＲＷＳ１Ｕを満たさないと判定する。

　このように、第２の判定部２３２は、先読みの除去及びブラケットの追加を行った正規表現を、非決定性有限オートマトンに変換し、非決定性有限オートマトン上にブラケットと空文字の遷移のみを通って同じ文字に到達可能な異なるパスが存在するような頂点が存在しない場合、条件が満たされると判定する。

　図１２は、第１の実施形態に係る検証装置の処理の流れを示すフローチャートである。図１２に示すように、まず、検証装置２０は、正規表現の入力を受け付ける（ステップＳ１１）。

　次に、検証装置２０は、入力された正規表現に対して簡易検査を実施する（ステップＳ１２）。簡易検査は、第１の判定部２３１による判定処理に相当する。

　簡易検査の結果、正規表現が既定の構文でなければ（ステップＳ１３、Ｎｏ）、検証装置２０は、正規表現の脆弱性が未修正であることを出力する（ステップＳ１７）。例えば、入力された正規表現がバッカスナウア記法による正規表現の構文に従うものでない場合、検証装置２０は、ステップＳ１３においてＮｏと判定し、そうでない場合はステップＳ１３においてＹｅｓと判定する。

　一方、正規表現が既定の構文であれば（ステップＳ１３、Ｙｅｓ）、検証装置２０は、ＲＷＳ１Ｕ検査を実施する（ステップＳ１４）。ＲＷＳ１Ｕ検査は、第２の判定部２３２による判定処理に相当する。

　ＲＷＳ１Ｕ検査の結果、正規表現がＲＷＳ１Ｕを満たさない場合（ステップＳ１５、Ｎｏ）、検証装置２０は、正規表現の脆弱性が未修正であることを出力する（ステップＳ１７）。例えば、図１１のように同じ文字に到達する複数のパスを持つ頂点が存在する場合、検証装置２０は、ステップＳ１５においてＮｏと判定し、そうでない場合はステップＳ１５においてＹｅｓと判定する。

　一方、正規表現がＲＷＳ１Ｕを満たす場合（ステップＳ１５、Ｙｅｓ）、検証装置２０は、正規表現の脆弱性が修正済みであることを出力する（ステップＳ１６）。

　図１３を用いて、ＲＷＳ１Ｕ検査（図１２のステップ１４に相当）の流れを詳細に説明する。図１３は、ＲＷＳ１Ｕ検査処理の流れを示すフローチャートである。

　まず、検証装置２０は、正規表現の先読み除去を行う（ステップＳ１４１）。次に、検証装置２０は、先読みを除去した正規表現の構文解析及びブラケティングを行う（ステップＳ１４２）。

　ここで、検証装置２０は、構文解析木からＮＦＡを構築する（ステップＳ１４３）。そして、検証装置２０は、ＮＦＡ上に特定のパスが存在するか否かを判定する（ステップＳ１４４）。例えば、特定のパスは、ある頂点から同じ文字に到達可能な異なる複数のパスである。

　特定のパスが存在する場合（ステップＳ１４４、Ｙｅｓ）、検証装置２０は、正規表現がＲＷＳ１Ｕを満たさないと判定する（ステップＳ１４５）。

　一方、特定のパスが存在しない場合（ステップＳ１４４、Ｎｏ）、検証装置２０は、正規表現がＲＷＳ１Ｕを満たすと判定する（ステップＳ１４６）。

［検証装置による効果］
　これまで説明してきたように、検証装置２０の第１の判定部２３１は、正規表現があらかじめ指定された構文に従うか否かを判定する。また、第２の判定部２３２は、正規表現が文字列を解析するときの処理時間が、文字列の長さに対して線形であることを示す条件が満たされるか否かを判定する。これにより、正規表現の脆弱性が修正済みであることの確からしさを検証することができる。

　さらに、実施形態によれば、正規表現の脆弱性の修正案、又は修正のための技術の有効性を評価し、脆弱な正規表現の回避に寄与することができる。

　また、第２の判定部２３２は、正規表現がＲＷＳ１Ｕを満たす場合、条件が満たされると判定する。例えば、第２の判定部２３２は、先読みの除去及びブラケットの追加を行った正規表現を、非決定性有限オートマトンに変換し、非決定性有限オートマトン上にブラケットと空文字の遷移のみを通って同じ文字に到達可能な異なるパスが存在するような頂点が存在しない場合、条件が満たされると判定する。

　これにより、修正装置１０による修正が必要な正規表現を絞り込み、処理を効率化することができる。なお、修正装置１０によって修正済みの正規表現はＲＷＳ１Ｕを満たすものとする。

　修正装置１０と検証装置２０を組み合わせることで、より効率的に正規表現の脆弱性の修正に関する処理を行うことができる。上記の実施形態を基に、修正装置１０と検証装置２０を組み合わせた修正システムが実施可能である。

　すなわち、修正システムは、修正装置１０と、検証装置２０と、を有する。検証装置２０は、第１の正規表現があらかじめ指定された構文に従うか否かを判定する第１の判定部２３１と、第１の正規表現が文字列を解析するときの処理時間が、文字列の長さに対して線形であることを示す条件が満たされるか否かを判定する第２の判定部２３２と、を有する。修正装置１０は、第１の判定部２３１によって第１の正規表現が指定された構文に従わないと判定された場合、または第１の判定部２３１によって第１の正規表現が指定された構文に従うと判定され、かつ第２の判定部２３２によって第１の正規表現について条件が満たされないと判定された場合（例えば第１の正規表現がＲＷＳ１Ｕを満たさない場合）、第１の正規表現によって受理される文字列の集合である第１の集合、及び、第１の正規表現によって拒否される文字列の集合である第２の集合を生成する生成部１３１と、第１の正規表現における範囲文字を所定の構文に置換した正規表現であって、第１の集合の文字列を受理し、かつ第２の集合の文字列を拒否するような正規表現である第２の正規表現を合成する合成部１３２と、を有する。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、検証装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の検証処理を実行する検証プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の検証プログラムを情報処理装置に実行させることにより、情報処理装置を検証装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、検証装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の検証処理に関するサービスを提供する検証サーバ装置として実装することもできる。例えば、検証サーバ装置は、正規表現を入力とし、正規表現の脆弱性が修正済みであるか否かを示す検証結果を出力とする検証サービスを提供するサーバ装置として実装される。この場合、検証サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の検証処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図１４は、検証プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、検証装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、検証装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　修正装置
　１１、２１　インタフェース部
　１２、２２　記憶部
　１３、２３　制御部
　２０　検証装置
　１２１　置換候補構文情報
　１３１　生成部
　１３２　合成部
　２３１　第１の判定部
　２３２　第２の判定部

Claims

　正規表現があらかじめ指定された構文に従うか否かを判定する第１の判定部と、
　前記正規表現が文字列を解析するときの処理時間が、前記文字列の長さに対して線形であることを示す条件が満たされるか否かを判定する第２の判定部と、
　を有することを特徴とする検証装置。
　前記第２の判定部は、前記正規表現がＲＷＳ１Ｕを満たす場合、前記条件が満たされると判定することを特徴とする請求項１に記載の検証装置。
　前記第２の判定部は、先読みの除去及びブラケットの追加を行った前記正規表現を、非決定性有限オートマトンに変換し、前記非決定性有限オートマトン上にブラケットと空文字の遷移のみを通って同じ文字に到達可能な異なるパスが存在するような頂点が存在しない場合、前記条件が満たされると判定することを特徴とする請求項１に記載の検証装置。
　検証装置によって実行される検証方法であって、
　正規表現があらかじめ指定された構文に従うか否かを判定する第１の判定工程と、
　前記正規表現が文字列を解析するときの処理時間が、前記文字列の長さに対して線形であることを示す条件が満たされるか否かを判定する第２の判定工程と、
　を含むことを特徴とする検証方法。
　正規表現があらかじめ指定された構文に従うか否かを判定する第１の判定ステップと、
　前記正規表現が文字列を解析するときの処理時間が、前記文字列の長さに対して線形であることを示す条件が満たされるか否かを判定する第２の判定ステップと、
　をコンピュータに実行させることを特徴とする検証プログラム。