WO2022230074A1

WO2022230074A1 - 検知装置、検知方法及び検知プログラム

Info

Publication number: WO2022230074A1
Application number: PCT/JP2021/016864
Authority: WO
Inventors: 達大青島; 利宣碓井; 裕平川古谷; 誠岩村; 潤三好
Original assignee: 日本電信電話株式会社
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2022-11-03

Abstract

非安全箇所列挙部（１３１）は、プログラムのコードを基に、プログラムにおいて型のキャストが発生する箇所のうち、型変換が安全であることを示す所定の条件を満たさない箇所を列挙する。文脈抽出部（１３２）は、非安全箇所列挙部（１３１）によって列挙された箇所に応じたオートマトンを遷移させ、当該箇所に至る文脈を抽出する。脆弱性検証部（１３３）は、文脈抽出部（１３２）によって抽出された箇所が、あらかじめ用意されたアノテーションを満たすか否かを検証する。

Description

検知装置、検知方法及び検知プログラム

　本発明は、検知装置、検知方法及び検知プログラムに関する。

　従来、ポインター型などを除くＣ言語のサブセットに対するunion型の検査技術が知られている（例えば、非特許文献１を参照）。

　非特許文献１に記載の技術は、構造的型検査を行いつつ、条件文や代入文から実行文脈を抽出し、抽出した条件がunion型の仕様を満たすかどうかを、理論ソルバーを用いて検証するものである。

　さらに、非特許文献１に記載の技術は、ポインター解析を併用し、ポインターの指し先の候補を計算することで、ポインター型へ対応することができる。また、理論ソルバーは、Satisfiability　Modulo　Theories（ＳＭＴ）ソルバー等であってよい。

Jhala　,　R.,　et　al.　(2007)　"State　of　the　Union:　Type　Inference　Via　Craig　Interpolation."　TACAS.

　しかしながら、従来の技術には、型混同脆弱性の検知を効果的に行うことができない場合があるという問題がある。型混同脆弱性は、プログラムがデータの型を混同してしまうバグである。

　コンピュータはあらゆるデータを０と１で表現するため、そのデータが数値であるか文字であるか画像であるか、等を区別することはできず、プログラムがそのデータの型を決定する。

　そのため、例えばコンピュータが整数とポインターを混同すると、攻撃者が用意した数値（整数）を、データやプログラムの場所アドレスを示すもの（ポインター）と誤解させることがある。これにより、データの漏洩、改ざん、悪意のある任意コード実行が発生する危険性がある。

　例えば、従来の技術では、ポインターが存在しないと仮定するため、表面上は全く別のポインター変数経由でunion型の値やタグ変数の書き換えができてしまうという問題がある。

　また、従来の技術におけるポインター解析は、ポインターの指し先を正しく計算できないため、指し先の候補を見逃したり、指し先の候補が無限個になる場合がある。これにより、脆弱性を見逃すことや、解析が終わらなくなってしまうことが起こる。

　さらに、union型から選択される型は互いに互換性がなく（Ｃ及びＣ＋＋におけるアップキャスト不可能）、その条件も互いに排反（２つ以上の条件を共に満たすことはない）である必要がある。このため、従来の技術では、オブジェクト指向で見られるＣ＋＋等の継承関係を持つクラスに対応できない。

　上述した課題を解決し、目的を達成するために、検知装置は、プログラムのコードを基に、前記プログラムにおいて型のキャストが発生する箇所のうち、型変換が安全であることを示す所定の条件を満たさない箇所を列挙する列挙部と、前記列挙部によって列挙された箇所に応じたオートマトンを遷移させ、当該箇所に至る文脈を抽出する抽出部と、前記抽出部によって抽出された箇所が、あらかじめ用意されたアノテーションを満たすか否かを検証する検証部と、を有することを特徴とする。

　本発明によれば、型混同脆弱性の検知を効果的に行うことができる。

図１は、第１の実施形態に係る検知装置の構成例を示す図である。図２は、検知処理の流れを示すフローチャートである。図３は、篩型の表記の例を示す図である。図４は、キャスト可能関係の判定処理の流れを示すフローチャートである。図５は、部分関係の判定処理の流れを示すフローチャートである。図６は、入れ子オートマトンの処理の流れを示すフローチャートである。図７は、アノテーションの記述言語の構文の例を示す図である。図８は、アノテーションの例を示す図である。図９は、動作例を説明する図である。図１０は、検知プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る検知装置、検知方法及び検知プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態の構成］
　まず、図１を用いて、第１の実施形態に係る検知装置の構成について説明する。図１は、第１の実施形態に係る検知装置の構成の一例を示す図である。図１に示すように、検知装置１０は、ソースコードとアノテーションの入力を受け付け、型混同脆弱性の検知を行い、型混同脆弱性の候補箇所を出力する。

　例えば、ソースコードはＬＬＶＭ（参考ＵＲＬ：https://llvm.org/docs/index.html）のＩＲコード（中間コード）である。

　ここで、検知装置１０の各部について説明する。図１に示すように、検知装置１０は、インタフェース部１１、記憶部１２及び制御部１３を有する。

　インタフェース部１１は、データの入力及び出力のためのインタフェースである。例えば、インタフェース部１１はＮＩＣ（Network　Interface　Card）である。インタフェース部１１は他の装置との間でデータの送受信を行うことができる。

　また、インタフェース部１１は、マウスやキーボード等の入力装置と接続されていてもよい。また、インタフェース部１１は、ディスプレイ及びスピーカ等の出力装置と接続されていてもよい。

　記憶部１２は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。

　記憶部１２は、検知装置１０で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。また、記憶部１２は、アノテーション情報１２１を記憶する。なお、アノテーション情報１２１は、ユーザによって任意に与えられるものであってもよいが、その形態に限られない。例えば、アノテーション情報１２１は、あらかじめ検知装置１０に記憶されているものであってもよい。

　制御部１３は、検知装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。

　制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、非安全箇所列挙部１３１、文脈抽出部１３２、及び脆弱性検証部１３３を有する。また、非安全箇所列挙部１３１は、キャスト可能関係判定部１３１ａ及び部分型関係判定部１３１ｂを有する。

　図２を用いて、検知装置１０による検知処理の流れを説明する。図２は、検知処理の流れを示すフローチャートである。図２に示すように、まず、検知装置１０はソースコードとアノテーションの入力を受け付ける（ステップＳ１）。

　例えば、ソースコードは、ＬＬＶＭＩＲのようなＳＳＡ（Static　Single　Assignment：静的単一代入）形式のコードである。ＳＳＡ形式のコードでは、ローカル変数は高々１回のみ代入される。

　次に、非安全箇所列挙部１３１は、非安全箇所の列挙（構造的型検査）を行う（ステップＳ２）。続いて、文脈抽出部１３２は、非安全箇所に関する文脈の抽出を行う（ステップＳ３）。そして、脆弱性検証部１３３は、理論ソルバー及びアノテーションによる脆弱性の検証を行う（ステップＳ４）。検知装置１０は、脆弱性候補を出力する（ステップＳ５）。

　以下、非安全箇所列挙部１３１、文脈抽出部１３２、及び脆弱性検証部１３３による処理について詳細に説明する。

　非安全箇所列挙部１３１は、プログラムのコードを基に、プログラムにおいて型のキャストが発生する箇所のうち、型変換が安全であることを示す所定の条件を満たさない箇所（非安全箇所）を列挙する。非安全箇所列挙部１３１は、列挙部の一例である。

　非安全箇所列挙部１３１は、ソースコードに対して構造的型検査を実施することにより非安全箇所を列挙する。

　これにより、型の構造だけを見て安全であると判定できる命令の箇所が、後段の分析対象から取り除かれ、検知処理全体の効率が向上する。

　非安全箇所列挙部１３１は、ソースコードから特定可能な各命令のメモリロード、メモリストア、引数渡しにおいて発生する型変換について、型レベルで型混同が発生しないか、すなわち各命令の箇所が非安全箇所であるか否かを判定する。

　例えば、非安全箇所列挙部１３１は、ＣやＣ＋＋の言語仕様とそれに基づくPhysical　Subtyping（参考文献１：Chandra,　S.,　et　al.　(1999)　"Physical　Type　Checking　for　C."）をベースとする手法を用いて非安全箇所の判定を行う。また、非安全箇所列挙部１３１はキャスト先の型や条件の排反性を仮定しないため、継承関係を持つクラスにも対応できる。

　Physical　Subtypingを用いることで、非安全箇所列挙部１３１はポインター型と篩型を安全に取り扱うことができる。非安全箇所列挙部１３１は、キャスト元の型とキャスト先の型について、キャスト可能関係の判定及び部分型関係の判定を行う。

　ここで、篩型について説明する。篩型は、変数の値に依存して条件によって変わる型と定義される。また、篩型は、関数型プログラミング言語の型システムを学術的に議論する上での数学的な対象として知られている。

　例えば、参考文献２（Chugh　,　R.,　et　al.　(2012)　"Nested　refinements:　a　logic　for　dick　typing."）には、篩型システムの実装例が記載されている。参考文献２に記載の篩型システムによれば、タグ付きunionの「ある条件を満たすときに値の型が決まる」という性質を表現することができる。

　ただし、従来の篩型システムでは、タグと値を不可分なものとして扱っている点、オブジェクト作成時に初期化を強制する点、ポインター型が存在しない点で、本実施形態にはそのまま適用することができない。

　例えば、本実施形態の対象となるプログラミング言語であるＣ及びＣ＋＋の構造体の定義ではタグと値は別々に扱われる。また、Ｃ及びＣ＋＋では、メモリ確保から初期化までが逐次的であり、オブジェクト作成時に初期化はされない。また、従来の篩型システムにポインター型を追加するだけでは安全性が保証されない。

　本実施形態では、篩型は、図３のように表記される。図３は、篩型の表記の例を示す図である。ここで、フィールドへ詳細化された篩型はそれぞれで別の表記を持つ。

　また、篩型を含む構造体が持つ複数の構造体には、同じ篩型が現れる。そのため、篩型の適用箇所と構造体中のオフセットも記録することで、それらの同じ篩型を区別することができる。これにより、例えば、ある場所にある篩型のタグと別の場所にある篩型の値だけを設定するような型混同脆弱性を見逃さないようにすることができる。

　非安全箇所列挙部１３１は、図４に示すように、キャスト可能関係の判定処理を行う。図４は、キャスト可能関係の判定処理の流れを示すフローチャートである。非安全箇所列挙部１３１は、図４の処理により、型Ｓが型Ｔにキャスト可能であれば真を出力し、そうでない場合は偽を出力する。

　図４に示すように、まず、非安全箇所列挙部１３１は、Ｓ＝Ｓ’＊かつＴ＝Ｔ’＊が満たされるか否かを判定する（ステップＳ２１１）。ただし、＊はポインター型を意味する。

　Ｓ＝Ｓ´＊かつＴ＝Ｔ´＊が満たされない場合（ステップＳ２１１、Ｎｏ）、非安全箇所列挙部１３１は、ＳがＴの部分型であるか否かを判定する（ステップＳ２１２）。

　Ｓ＝Ｓ´＊かつＴ＝Ｔ´＊が満たされる場合（ステップＳ２１１、Ｙｅｓ）、非安全箇所列挙部１３１は、Ｓ´がＴ´の部分型であるか否かを判定する（ステップＳ２１３）。

　図５を用いて、図４のステップＳ２１２及びステップＳ２１３に相当する部分型の判定方法を説明する。図５は、部分関係の判定処理の流れを示すフローチャートである。

　非安全箇所列挙部１３１は、図５の処理により、型Ｓが型Ｔの部分型であれば真を出力し、そうでない場合は偽を出力する。なお、図４のステップＳ２１２及びステップＳ２１３では、図５の処理による出力がそのまま出力される。

　図５に示すように、非安全箇所列挙部１３１は、ＳとＴがいずれも篩型であるか否かを判定する（ステップＳ２２１）。

　ＳとＴがいずれも篩型である場合（ステップＳ２２１、Ｙｅｓ）、非安全箇所列挙部１３１は、「ＳとＴが一致」、及び「ＳとＴのＩＤが一致し、ＳがDowncastSubtargetでＴがDowncastTarget」のいずれかが成り立つか否かを判定する（ステップＳ２２２）。

　非安全箇所列挙部１３１は、ステップＳ２２２において成り立つと判定した場合は真を出力し、成り立たないと判定した場合は偽を出力する。

　ＳとＴのいずれかが篩型でない場合（ステップＳ２２１、Ｎｏ）、非安全箇所列挙部１３１は、Ｔが篩型であるか否かを判定する（ステップＳ２２３）。Ｔが篩型である場合（ステップＳ２２３、Ｙｅｓ）、非安全箇所列挙部１３１は、偽を出力する（ステップＳ２２４）。

　Ｔが篩型でない場合（ステップＳ２２３、Ｎｏ）、非安全箇所列挙部１３１は、Ｓが篩型であるか否かを判定する（ステップＳ２２５）。

　Ｓが篩型である場合（ステップＳ２２５、Ｙｅｓ）、非安全箇所列挙部１３１は、ＳのＩＤがCastTargetかDowncastTargetであり、Ｓの原型がＴの部分型であるか否かを判定する（ステップＳ２２６）。

　非安全箇所列挙部１３１は、ステップＳ２２６において、ＳのＩＤがCastTargetかDowncastTargetであり、Ｓの原型がＴの部分型であると判定した場合は真を出力し、そうでない場合は偽を出力する。

　Ｓが篩型でない場合（ステップＳ２２５、Ｎｏ）、非安全箇所列挙部１３１は、ＳがＴのPhysical　Subtypingの意味で部分型であるか否かを判定する（ステップＳ２２７）。

　非安全箇所列挙部１３１は、ステップＳ２２７において、ＳがＴのPhysical　Subtypingの意味で部分型であると判定した場合は真を出力し、そうでない場合は偽を出力する。

　文脈抽出部１３２は、非安全箇所列挙部１３１によって列挙された箇所に応じたオートマトンを遷移させ、当該箇所に至る文脈を抽出する。文脈抽出部１３２は、抽出部の一例である。

　文脈抽出部１３２は、非安全箇所列挙部１３１によって偽と判定された箇所、すなわち非安全箇所について、命令を逆順に辿り、条件分岐や代入命令から実行文脈（当該非安全箇所へ到達しうる条件）を抽出する。

　文脈抽出部１３２は、オートマトンの状態を入れ子にすることにより、抽出中の状態で命令を見たときにどう処理するかを表す推移関数を設計するだけで、任意に複雑で再帰的な式を再構成できる。

　文脈抽出部１３２は、下記の条件のいずれかが満たされた場合、以降の解析を停止し、そこまでに生成したオートマトン群を出力する。
（条件１－１）命令が分岐を跨がない場合（分岐命令へ辿るときに、その分岐元のブロックから出る分岐が２本以上）
（条件１－２）副作用にヒットした場合（Typed　Based　Alias　Analysis（ＴＢＡＡ）によりエイリアス関係にあると判断されたとき）（参考文献３：Diwan　,　A.,　et　al.　(1998)　“Type　based　alias　analysis.”　PLDI.）

　ここで、オートマトンの定義を説明する。本実施形態では、抽出したい条件式に含まれる変数を特定する変数の状態のオートマトン「VarState」と、抽出中の条件式の構造を示す条件式の状態のオートマトン「CondState」と、が用意される。

　本実施形態では、オートマトン「CondState」により条件式を抽出しているとき、変数が現れれば、オートマトン「VarState」を含む状態へ遷移し、再帰的な式の実行と変数の抽出を同時に行う。このことから、本実施形態のオートマトンは、入れ子オートマトンと呼ばれる場合がある。

　オートマトン「CondState」は第１のオートマトンに相当する。また、オートマトン「VarState」は第２のオートマトンに相当する。

　以下に、入れ子オートマトンに関する定義を示す。
＜共通の定義＞
◆ターゲット変数の状態ｔ：Unknown（未特定）かSearchIdent（特定中）、Ident（ｉｄ）（篩型のＩＤ　ｉｄが候補）のいずれか
◆フィールドへのポインターｐ＝＆ｎ［ｉ］［ｏ］：変数名ｎをポインター変数とみなし、インデックスをｉ、オフセットをｏとした先のフィールドへのポインターのこと
◆キャストの種類ｋ：Downcast、Load、Storeのいずれか

＜オートマトン「VarState」に関する定義＞
まず、オートマトンの状態の定義は以下の通り。
◆［初期状態］StartFrom（ｋ，Ｐ，ｌ）：命令の箇所ｌ、キャストの種類ｋに起因し、ポインター型Ｐから遷移を始めることを示す状態
◆Targetptr（ｋ，ｔ，ｐ，ｌ）：命令の箇所ｌ、キャストの種類ｋに起因し、ターゲット変数の状態がｔであり、フィールドへのポインターがｐであることを示す状態
◆Deref（ｓ）：VarStateの状態ｓをデリファレンス（ポインター参照）した結果を示す状態
◆［終端状態］Baseptr（Ｔ，ｐ，ｌ）：命令の箇所ｌで、フィールドへのポインターｐは篩型Ｔを持つことを示す状態
◆［終端状態］HitSideEffect（ｓ，ｌ）：命令の箇所ｌで、VarStateの状態ｓは副作用にヒットし、異常終了したことを示す状態
◆［終端状態］Failed（ｓ，ｌ）：命令の箇所ｌで、CondStateの状態ｓが異常終了した状態
次にオートマトンの状態推移関数の定義は次の通り。
◆StartFrom（ｋ，Ｐ，ｌ）：変数ｖへ結果を格納する命令で、その型が篩型へのポインター型Ｐ’のとき、ＰとＰ’が篩型として一致するなら、篩型のＩＤをｉｄとし、Targetptr（ｋ，Ident（ｉｄ），＆ｖ［０］［０］，ｌ）を現在の命令で１回推移した状態へ推移する。
◆Targetptr（ｋ，ｔ，ｐ，ｌ））：与えられた命令に応じて処理を分岐する（ｐ＝＆［ｉ］［ｏ］とする。
　■ポインター型Ｐ（＝Ｔ＊）の変数ｖからの変数ｎへのロード命令のとき、ＴＢＡＡに従い、Ｐが、すでに解析されたストア命令群による副作用にヒットしない場合、ｐ’＝＆（＊ｖ）［ｉ］［ｐ］とし、
　　■ｔ＝Ident（＿）でないか、Ｐの篩型のＩＤをｉｄとして、ｔ＝Ident（ｉｄ）のとき、Baseptr（Ｔ，ｐ’，ｌ）へ推移する。
　　■ｔ＝Ident（＿）でないとき、Targetptr（ｋ，SearchIdent，ｐ’，ｌ）へ推移する。
　　■ｔ＝Ident（Ｔ）のとき、Baseptr（Ｔ，ｐ’，ｌ）へ推移する。
　■ポインター算術命令のとき、ｐがポインター算術の結果となるように、ベースポインターｐ’＝＆ｎ’［ｉ’］［ｏ’］を求め、ｐとｐ’へ置き変えた状態へ推移する。
◆Deref（ｓ）状態ｓを与えられた命令で推移し、状態ｓ’となるとき、ｓをｓ’で置き変えた状態へ推移する。

＜オートマトン「CondState」に関する定義＞
まず、オートマトンの状態の定義は以下の通り。
◆［初期状態］StartBr（Ｂ）：ブロック名Ｂに分岐しうる命令にいることを示す状態
◆［初期状態］StartStore（ｉｄ）：篩型のＩＤ　ｉｄへのstore命令にいることを示す状態
◆CondVar（ｎ，ｖ）：変数名ｖへ格納される条件式の抽出を行う状態（ｎは条件式の否定の有無）
◆Store（ｌ，Ｐ，Ｔ，ｓ，ｔ）：命令の箇所ｌにおいて、型Ｔの値が篩型へのポインター型Ｐへ代入されたときに、代入元（又は代入先）に対するCondStateの状態ｓ（又はｔ）を持つ状態
◆BinOp（ｏ，ｌ，ｒ）：種類ｏの二項演算子式であり、左辺又は右辺に対するCondStateの状態ｌ（又はｒ）を持つ状態
◆CmpOp（ｏ，ｌ，ｒ）：種類ｏの比較演算子式であり、左辺又は右辺に対するCondStateの状態ｌ（又はｒ）を持つ状態
◆Deref（ｓ）：CondStateの状態ｓをデリファレンスした結果を示す状態
◆Var（ｔ，ｎ）：変数名ｎを探しているときに、ターゲットの状態がｔである状態
◆VarState（ｓ）：VarStateの状態ｓを持つ状態
◆［終端状態］Const（ｃ）：定数ｃを示す状態
◆［終端状態］Failed（ｓ，ｌ）：命令の箇所ｌで、CondStateの状態ｓが異常終了した状態
次にオートマトンの状態推移関数の定義は次の通り。
◆StartBr（Ｂ）：変数ｎに依存する条件分岐命令であるとき、分岐先Ｂがｔｒｕｅの分岐先かどうかを示す真偽値ｃを特定し、CondVar（ｃ，ｎ）へ推移する。
◆StartStore（ｉｄ）：型Ｓの変数ｖをポインター型Ｐの変数ｖ’へ代入するストア命令のとき、ＴＢＡＡに従い、Ｔが、すでに解析されたストア命令群による副作用にヒットしない場合、Store（ｌ，Ｐ，Ｓ，Var（ｔ，ｖ），Var（Ident（ｉｄ，ｖ’）へ推移する。ここで、値ｖが篩型であるなら、篩型のＩＤ　ｉｄを用いて、ｔ＝Ident（ｉｄ）とし、そうでなければ、ｔ＝Unknownとする。
◆CondVar（ｎ，ｖ）：変数ｌ，ｒを比較し、変数ｖへ結果を格納する、種類ｏの命令のとき、ｎで種類ｏを否定して、CmpOp（ｏ’，Var（Unknown，ｌ），Var（Unknown，ｒ））へ推移する。
◆Var（ｔ，ｎ）：変数ｌ，ｒを受け取り、変数ｖへ結果を格納する、種類ｏの二項演算命令のとき、BinOp（ｏ，Var（ｔ，ｌ），Var（ｔ，ｒ）へ推移する。それ以外の変数ｖへ結果を格納する命令のとき、VarState（Targetptr（Load，ｔ，＆ｎ［０］［０］，ｌ）を現在の命令で一回推移した状態へ推移する。
◆Store（Ｌ，Ｐ，Ｔ，ｓ，ｔ），BinOp（ｏ，ｌ，ｒ），CmpOp（ｏ，ｌ，ｒ）：状態ｌ，ｒをそれぞれ与えられた命令で推移し、状態ｌ’，ｒ’となるとき、ｌ，ｒをそれぞれｌ’，ｒ’で置き変えた状態へ推移する。
◆Deref（ｓ），VarState（状態ｓを与えられた命令で推移し、状態ｓ’となるとき、ｓをｓ’で置き変えた状態へ推移する。

　図６は、入れ子オートマトンの処理の流れを示すフローチャートである。図６に示すように、まず、文脈抽出部１３２は、オートマトンの集合Ａを空集合に設定する（ステップＳ３０１）。

　文脈抽出部１３２は、非安全箇所列挙部１３１によって列挙された非安全箇所のそれぞれについて、ステップＳ３０２からステップＳ３０６までの処理を繰り返す。

　文脈抽出部１３２は、箇所Ｌの命令を取り出す（ステップＳ３０２）。そして、文脈抽出部１３２は、命令に応じてＡへオートマトンを追加する（ステップＳ３０３）。

　文脈抽出部１３２は、ストア命令のとき、ストア先の型が篩型であれば、その篩型のＩＤをＩとし、オートマトンStartStore（Ｉ）を追加する。また、文脈抽出部１３２は、条件分岐命令のとき、分岐先のブロック名をＢとして、オートマトンStartBr（Ｂ）を追加する。

　続いて、文脈抽出部１３２は、Ａに含まれる各オートマトンを現在の命令で遷移させる（ステップＳ３０４）。そして、文脈抽出部１３２は、箇所Ｌを直前の命令へ移す（ステップＳ３０５）。

　文脈抽出部１３２は、前述のオートマトンの定義に従い、命令をオートマトンへの入力として与え、オートマトンの状態を移す（更新する）。

　文脈抽出部１３２は、Ａに含まれる各オートマトンの状態から条件を抽出し、連言（ＡＮＤ）でつなげる（ステップＳ３０７）。

　このとき、文脈抽出部１３２は、オートマトンの定義に従い、下記のように状態から条件式を抽出し、出力する。
◆オートマトンStore（＿，＿，＿，Ｌ，Ｒ）から、ＬとＲの条件式をオートマトンの意味通りに抽出し、Ｌ＝Ｒという条件式を出力する。
◆オートマトンCmpOp（ｃ，Ｌ，R）から、ＬとＲの条件式を抽出し、比較の種類ｃによりＬとＲを比較する条件式を出力する。
◆上記以外の場合は真を出力する。

　脆弱性検証部１３３は、文脈抽出部１３２によって抽出された箇所が、あらかじめ用意されたアノテーションを満たすか否かを検証する。脆弱性検証部１３３は、検証部の一例である。

　アノテーションは、解析したいプログラムに対して、満たすべき仕様を付加的に与えるものである。

　また、脆弱性検証部１３３は理論ソルバーを用いて検証を行う。理論ソルバーは、「ＡならばＢ」のような　論理式が必ず成り立つ（妥当）かどうかを保守的に検証する。

　保守的（conservative）とは、ある性質が成り立つか成り立たないかどうかを正確に判定できない場合、悲観的な結果を導かないよう、一方向に倒して判定することである。例えば、脆弱性を保守的に発見する文脈で用いる場合、脆弱性を見逃すことはないが、実際には脆弱性でないものも脆弱性であると判定し得ることを示す。

　本実施形態における理論ソルバーは健全なものであればよく、例えば一般的なＳＭＴソルバー（実装としてはＺ３やＣＶＣ４等）であってよい。

　ＳＭＴソルバーは理論ソルバーの一種であり、論理式の変数に（賢く）色々な値を代入しつつ成り立つかどうかを確かめることで検証を行うものである。

　健全（sound）とは、理論ソルバーに対して用いる場合、論理式を間違って妥当であると判定することはないが、実際には妥当であるものを妥当でないと判定してしまうことは許すことを示す。

　脆弱性検証部１３３は、文脈抽出部１３２によって抽出された実行文脈を用いて、アノテーションの仕様が満たされるかどうかを検証し、満たされると判定できない場合、警告として出力する。例えば、脆弱性検証部１３３は、アノテーションの仕様を満たさない箇所の一覧を出力する。

　脆弱性検証部１３３は、検証のアルゴリズムとして、既存の篩型システムの型検査アルゴリズムをそのまま活用できる（例えば、参考文献４（Chugh　,　R.,　et　al.　“Nested　Refinements　for　Dynamic　Languages.”　POPL’12,　4　節））。

　ここで、アノテーションについて説明する。まず、アノテーションは、タグ付きunionの条件を篩型として定義して記述できる。脆弱性検証部１３３は、タグ付きunionの条件を篩型として定義して記述したアノテーションを、箇所が満たすか否かを検証する。

　既存の篩型システムは、篩型を定義したら、篩型のデータ構造を勝手に固定してしまうのに対し、本実施形態のアノテーションでは、与えられたプログラム中のデータ構造を篩型とみなすこと（詳細化）ができる。

　アノテーションによれば、既にある篩型を制限して新しい篩型を定義できるので、実際には篩型に特定の種類の型しか格納されない場合に、タグの確認が必要なくなるパターンに対応可能になる。

　篩型の適用においては、下記の３つのキャストのパターンがある。
　◆パターンCast:タグ変数の領域と値の領域が互いに排反であるとき
　◆パターンDowncast:タグ変数の領域が値の領域に真に含まれるとき
　　■ただし、キャスト先はキャスト元の部分型である必要がある
　◆パターンRestrict:既存の篩型を制限するように篩型を適用するとき
　　■キャスト先の型の候補を絞るだけで、制限前の篩型の扱いに従うものとする

　アノテーション記述言語の構文は、図７に示す通りである。図７は、アノテーションの記述言語の構文の例を示す図である。また、図８は、アノテーションの例を示す図である。

　図９は、動作例を説明する図である。図９には、実際に所定の言語のソースコード（ここではＬｕａ　５．４．０）を本実施形態の検知装置１０に入力した場合の動作例が示されている。

　まず、図９の（１）に示すように、非安全箇所列挙部１３１は、安全とは限らないキャスト箇所（非安全箇所）を列挙する。

　次に、（２）に示すように、文脈抽出部１３２は、入れ子オートマトンを使って、非安全箇所が実行される条件実行文脈を抽出する。

　そして、（３）に示すように、脆弱性検証部１３３は、オートマトンの終端条件から条件を抽出し、理論ソルバーで仕様を満たすか検証する。

［第１の実施形態の効果］
　これまで説明してきたように、非安全箇所列挙部１３１は、プログラムのコードを基に、プログラムにおいて型のキャストが発生する箇所のうち、型変換が安全であることを示す所定の条件を満たさない箇所を列挙する。文脈抽出部１３２は、非安全箇所列挙部１３１によって列挙された箇所に応じたオートマトンを遷移させ、当該箇所に至る文脈を抽出する。脆弱性検証部１３３は、文脈抽出部１３２によって抽出された箇所が、あらかじめ用意されたアノテーションを満たすか否かを検証する。

　検知装置１０は、上記の方法により、ポインターの存在を仮定した上で型混同脆弱性の検知を行うことができる。その結果、本実施形態によれば、型混同脆弱性の検知を効果的に行うことができる。

　非安全箇所列挙部１３１は、キャスト元の型とキャスト先の型について、キャスト可能関係の判定及び部分型関係の判定を行う。これにより、ポインター型と篩型の両方がある場合であっても、安全に取り扱うことができる。

　文脈抽出部１３２は、第１のオートマトンによる条件式の抽出中に変数が現れた場合、当該変数を特定する第２のオートマトンを用いて当該変数を再帰的に特定する。これにより、一方のオートマトンで条件式を抽出中の状態で命令を見たときにどう処理するか（推移関数）を設計するだけで、任意に複雑で再帰的な式を再構成できる。

　脆弱性検証部１３３は、タグ付きunionの条件を篩型として記述されたアノテーションを、非安全箇所列挙部１３１により列挙された箇所で満たすか否かを検証する。これにより、篩型のデータ構造を固定することなく検証を行うことができる。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、検知装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の検知処理を実行する検知プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の検知プログラムを情報処理装置に実行させることにより、情報処理装置を検知装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、検知装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の検知処理に関するサービスを提供する検知サーバ装置として実装することもできる。例えば、検知サーバ装置は、ソースコードを入力とし、型混同脆弱性の候補箇所を出力とする検知サービスを提供するサーバ装置として実装される。この場合、検知サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の検知処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図１０は、検知プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、検知装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、検知装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　検知装置
　１１　インタフェース部
　１２　記憶部
　１３　制御部
　１２１　アノテーション情報
　１３１　非安全箇所列挙部
　１３１ａ　キャスト可能関係判定部
　１３１ｂ　部分型関係判定部
　１３２　文脈抽出部
　１３３　脆弱性検証部

Claims

　プログラムのコードを基に、前記プログラムにおいて型のキャストが発生する箇所のうち、型変換が安全であることを示す所定の条件を満たさない箇所を列挙する列挙部と、
　前記列挙部によって列挙された箇所に応じたオートマトンを遷移させ、当該箇所に至る文脈を抽出する抽出部と、
　前記抽出部によって抽出された箇所が、あらかじめ用意されたアノテーションを満たすか否かを検証する検証部と、
　を有することを特徴とする検知装置。
　前記列挙部は、キャスト元の型とキャスト先の型について、キャスト可能関係の判定及び部分型関係の判定を行うことを特徴とする請求項１に記載の検知装置。
　前記抽出部は、第１のオートマトンによる条件式の抽出中に変数が現れた場合、当該変数を特定する第２のオートマトンを用いて当該変数を特定することを特徴とする請求項１又は２に記載の検知装置。
　前記検証部は、タグ付きunionの条件を篩型として定義して記述したアノテーションを、前記箇所が満たすか否かを検証することを特徴とする請求項１から３のいずれか１項に記載の検知装置。
　検知装置によって実行される検知方法であって、
　プログラムのコードを基に、前記プログラムにおいて型のキャストが発生する箇所のうち、型変換が安全であることを示す所定の条件を満たさない箇所を列挙する列挙工程と、
　前記列挙工程によって列挙された箇所に応じたオートマトンを遷移させ、当該箇所に至る文脈を抽出する抽出工程と、
　前記抽出工程によって抽出された箇所が、あらかじめ用意されたアノテーションを満たすか否かを検証する検証工程と、
　を含むことを特徴とする検知方法。
　コンピュータを、請求項１から４のいずれか１項に記載の検知装置として機能させるための検知プログラム。