JPWO2019069505A1 - 情報処理装置、結合条件生成方法および結合条件生成プログラム - Google Patents
情報処理装置、結合条件生成方法および結合条件生成プログラム Download PDFInfo
- Publication number
- JPWO2019069505A1 JPWO2019069505A1 JP2019546530A JP2019546530A JPWO2019069505A1 JP WO2019069505 A1 JPWO2019069505 A1 JP WO2019069505A1 JP 2019546530 A JP2019546530 A JP 2019546530A JP 2019546530 A JP2019546530 A JP 2019546530A JP WO2019069505 A1 JPWO2019069505 A1 JP WO2019069505A1
- Authority
- JP
- Japan
- Prior art keywords
- geographical
- attribute
- relationship
- temporal
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 122
- 230000010365 information processing Effects 0.000 title claims description 62
- 230000002123 temporal effect Effects 0.000 claims description 163
- 238000004220 aggregation Methods 0.000 claims description 84
- 230000002776 aggregation Effects 0.000 claims description 83
- 230000008569 process Effects 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 14
- 230000008878 coupling Effects 0.000 claims description 8
- 238000010168 coupling process Methods 0.000 claims description 8
- 238000005859 coupling reaction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 137
- 238000010586 diagram Methods 0.000 description 25
- 238000004458 analytical method Methods 0.000 description 13
- 230000004931 aggregating effect Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 10
- 230000008685 targeting Effects 0.000 description 7
- 101150044251 OGT gene Proteins 0.000 description 3
- 210000001072 colon Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
- G06F16/2456—Join operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
テーブル取得手段181は、予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得する。受付手段182は、地理的関係、および、地理的関係の程度を受け付ける。結合条件生成手段183は、第1の地理的属性の値と第2の地理的属性の値との関係が地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する。
Description
本発明は、複数のテーブルを結合して情報を生成する情報処理装置、結合条件生成方法および結合条件生成プログラムに関する。
データマイニングは、大量の情報の中から、これまで未知であった有用な知見を見つける技術である。未知である有用な知見を見つけるためには、より多くの属性の候補を生成することが重要である。具体的には、予測対象である変数(目的変数)に影響を及ぼし得る多くの属性(説明変数)の候補を生成することが重要である。このような多くの候補を生成することにより、予測に役立つ属性がこの候補の中に含まれる可能性を高めることができるからである。
例えば、特許文献1には、目的変数を含むターゲットテーブルと、目的変数を含まないソーステーブルとを結合することにより、機械学習処理に用いられる特徴量の候補を生成することが記載されている。特許文献1に記載された方法では、特徴量の候補を生成する処理を、Filter条件、map条件およびreduce条件の3つの条件の組合せにより定義することで、特徴量の候補を生成する分析者工数を削減する。
また、特許文献2には、予測対象エリアにおけるタクシー等の車両の配車サービスの需要件数を、回帰分析により予測する需要予測装置が記載されている。特許文献2に記載された需要予測装置は、所定エリアにおける推定人口情報を取得し、取得した推定人口情報を回帰分析の説明変数として使用する。
本発明者は、所定のエリア内における何らかの対象を予測する際、多様な情報源を活用した方が予測精度が向上するという着想を得た。すなわち、複数の関連する情報源を組み合わせて情報を得ることが好ましいと考えられる。
例えば、特許文献1には、ターゲットテーブルとソーステーブルとの結合条件(すなわち、map条件)に、ターゲットテーブルとソーステーブルに共通に含まれる顧客IDを利用することが例示されている。また、特許文献2には、サービスの需要件数を予測する際の単位である予測対象エリアと、説明変数として用いられる推定人口情報の単位である所定エリアとが、同じ基準(エリアID、エリアポリゴン)で定義されることが記載されている。
しかし、多様な情報源を予測に活用しようとした場合、各情報源に含まれる地理的情報の定義方法と、予測する際の地理的情報の定義方法とが異なる場合があることを、本発明者は見出した。例えば、地理的情報の場合、緯度および経度で特定することも可能であるし、市町村名で特定することも可能である。さらに、本発明者は、このような場合、予測対象を予測するための特徴量の候補を、各情報源から生成する作業が煩雑になり得ることを見出した。
すなわち、特許文献1および特許文献2では、各情報源を顧客IDや同じ基準で関連付けることを想定している。しかし、各情報源の関連付けに地理的情報を利用することを想定しても、これらの地理的情報が必ずしも同じ基準で定義されているとは限らない。したがって、これらの情報源を単純に関連付けることは困難であるため、このような情報を利用したデータ分析に非常に多くの工数が必要になってしまうという問題がある。さらに、本発明者は、地理的情報だけでなく、時間的な情報も関連付ける作業が煩雑になることを見出した。
そこで、本発明は、地理的情報または時間的情報を介して複数の情報を関連付ける作業工数を低減できる情報処理装置、結合条件生成方法および結合条件生成プログラムを提供することを目的とする。
本発明による情報処理装置は、予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得するテーブル取得手段と、地理的関係、および、地理的関係の程度を受け付ける受付手段と、第1の地理的属性の値と第2の地理的属性の値との関係が地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成手段とを備えたことを特徴とする。
本発明による他の情報処理装置は、予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得するテーブル取得手段と、時間的関係、および、時間的関係の程度を受け付ける受付手段と、第1の時間的属性の値と第2の時間的属性の値との関係が時間的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成手段とを備えたことを特徴とする。
本発明による結合条件生成方法は、予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得し、地理的関係、および、地理的関係の程度を受け付け、第1の地理的属性の値と第2の地理的属性の値との関係が地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成することを特徴とする。
本発明による他の結合条件生成方法は、予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得し、時間的関係、および、時間的関係の程度を受け付け、第1の時間的属性の値と第2の時間的属性の値との関係が時間的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成することを特徴とする。
本発明による結合条件生成プログラムは、コンピュータに、予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得するテーブル取得処理、地理的関係、および、地理的関係の程度を受け付ける受付手処理、および、第1の地理的属性の値と第2の地理的属性の値との関係が地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成処理を実行させることを特徴とする。
本発明による他の結合条件生成プログラムは、コンピュータに、予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得するテーブル取得処理、時間的関係、および、時間的関係の程度を受け付ける受付処理、および、第1の時間的属性の値と第2の時間的属性の値との関係が時間的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成処理を実行させることを特徴とする。
本発明によれば、上述した技術的手段により、地理的情報または時間的情報を介して複数の情報を関連付ける作業工数を低減できるという技術的効果を奏する。
以下、本発明の実施形態を図面を参照して説明する。
本実施形態の情報処理システムは、予測対象(例えば、目的変数)の変数を含む表(以下、第1のテーブルと記すこともある。)と、第1のテーブルと異なる表(以下、第2のテーブルと記すことある。)とを取得する。以下の説明では、第1のテーブルのことをターゲットテーブルと記すこともあり、第2のテーブルをソーステーブルと記すこともある。また、第1のテーブルおよび第2のテーブルは、それぞれデータの集合を含んでいてもよい。
本実施形態では、第1のテーブルおよび第2のテーブルは、観点が共通する属性をそれぞれ含む。観点が共通するとは、その属性のデータの意味的な内容が共通することを表す。なお、データの表現方法は共通であってもよく、異なっていてもよい。以下、第1のテーブルに含まれる属性を第1の属性と記し、第2のテーブルに含まれる属性を、第2の属性と記す。
例えば、観点が共通する属性として、地理的な観点や時間的な観点などが挙げられる。例えば、地理的な観点の属性の値は、以下の4種類の地理的データ型に分類できる。なお、見出しのコロン以下の記載は、データについての構文を表す。
(1)点P(Point):p=(x,y)∈P
点Pは、(経度,緯度)の座標として表される。
(2)多角形G(Polygon):g=(b1,b2,...,bn)∈G
多角形Gは、1つの外部境界b1と、0以上の内部境界(b2,...,bn)で定義される。ここで、b1=(p1,p2,...,pn)(ただし、p1,p2,...,pn∈P)は、3点以上の順序として定義される閉じた環の境界である。
(3)複数多角形M(MultiPoligon):m=(g1,g2,...,gn)∈M、g1,g2,...,gn∈G
複数多角形Mは、1以上の多角形で構成される。
(4)文字列S(String):s∈S
文字列で表される住所である。
(1)点P(Point):p=(x,y)∈P
点Pは、(経度,緯度)の座標として表される。
(2)多角形G(Polygon):g=(b1,b2,...,bn)∈G
多角形Gは、1つの外部境界b1と、0以上の内部境界(b2,...,bn)で定義される。ここで、b1=(p1,p2,...,pn)(ただし、p1,p2,...,pn∈P)は、3点以上の順序として定義される閉じた環の境界である。
(3)複数多角形M(MultiPoligon):m=(g1,g2,...,gn)∈M、g1,g2,...,gn∈G
複数多角形Mは、1以上の多角形で構成される。
(4)文字列S(String):s∈S
文字列で表される住所である。
また、データ分析に関連する意味的な情報として、データ型と対応付けて分析データ型が定義されてもよい。例えば、上述する地理的観点の場合、多角形Gおよび複数多角形Mを、領域(Area)に関する分析データ型と定義し、点Pを、点(Point)に関する分析データ型と定義してもよい。また、住所に関する文字列を、例えば、国、都市、町、ランドマーク、通りまたはポイントに関する分析データ型と定義してもよい。以下、地理的情報を表す分析データ型のことを、地理的データ型と記すこともある。
また、例えば、時間的な観点の属性の型(時間的データ型)は、タイムスタンプ(TimeStamp)型として定義することができる。
以下、観点が共通する属性が地理的な属性の場合、第1のテーブルに含まれる属性を第1の地理的属性、第2のテーブルに含まれる属性を第2の地理的属性と記す。同様に、観点が共通する属性が時間的な属性の場合、第1のテーブルに含まれる属性を第1の時間的属性、第2のテーブルに含まれる属性を第2の時間的属性と記す。他の属性についても同様に記載するものとする。なお、第1の地理的属性は、第1のテーブルのプライマリキーであってもよい。
なお、上記では、共通する属性が地理的な観点と、時間的な観点の例を示したが、共通する属性は、地理的な観点および時間的な観点に限定されない。共通する属性の例として、他にも、文字列の観点や、構造的な観点などが挙げられる。文字列の観点の属性の値は、例えば、住所などである。また、構造的な観点の属性の値は、例えば、URL(Uniform Resource Locator)や、木構造パスなどである。以下、説明を容易にするため、観点が共通する属性として、主に地理的属性と時間的属性を中心に説明する。
図1は、本発明による情報処理システムの一実施形態を示すブロック図である。本実施形態の情報処理システム100は、入力部10と、ジオコーダ(Geo-Coder )20と、マップパラメータ生成器(Map Parameter Generator )30と、フィルタパラメータ生成器(Filter Parameter Generator)50と、集約パラメータ生成器(Reduce Parameter Generator)60と、記憶部80と、特徴量生成関数生成器(Feature Descriptor Generator)81と、特徴量生成器(Feature Generator )82と、特徴量選択器(Feature Selector)83と、出力部90と、学習部91と、予測部92とを備えている。
入力部10は、第1のテーブルおよび第2のテーブルを取得する。なお、入力部10は、各テーブルを取得することから、入力部10のことをテーブル取得手段と言うことができる。入力部10は、第2のテーブルを複数取得してもよい。例えば、記憶部80が第1のテーブルおよび第2のテーブルを記憶している場合、入力部10が記憶部80から第1のテーブルおよび第2のテーブルを取得してもよい。また、入力部10は、通信ネットワーク(図示せず)を介して他のシステムや記憶部から第1のテーブルおよび第2のテーブルを取得してもよい。
例えば、地理的な観点が共通する場合、入力部10は、予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得してもよい。また、例えば、時間的な観点が共通する場合、入力部10は、予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得してもよい。他にも、入力部10は、予測対象および第1の文字列属性を含む第1のテーブルと、第2の文字列属性を含む第2のテーブルとを取得してもよいし、予測対象および第1の構造的属性を含む第1のテーブルと、第2の構造的属性を含む第2のテーブルとを取得してもよい。なお、構造的属性については後述される。
さらに、入力部10は、第1の属性と第2の属性との類似度を算出するための関数(以下、類似度関数と記す)と、どの程度の類似度の場合に第1の属性の値と第2の属性の値とが類似すると判断するか決定するための条件(以下、類似度に対する条件と記すこともある)を受け付ける。類似度関数は、数式で表されていてもよく、パラメータとして表されていてもよい。また、類似度に対する条件は、関係の程度に基づいて類似度の有無を判断するための閾値(以下、単に類似度の閾値と記す。)で表されていてもよく、パラメータ等に応じて類似か否かを出力する式で表されていてもよい。
例えば、地理的な観点が共通する場合、入力部10は、地理的関係を類似度関数として受け付け、地理的関係の程度を示す類似度の閾値を条件として受け付けてもよい。すなわち、第1の属性および第2の属性が地理的属性である場合、類似度関数は、例えば、距離が近いほど類似度を高く算出する関数として定義される。
また、例えば、時間的な観点が共通する場合、入力部10は、時間的関係を類似度関数として受け付け、時間的関係の程度を示す類似度の閾値を条件として受け付けてもよい。すなわち、第1の属性および第2の属性が時間的属性である場合、類似度関数は、例えば、時間の差異が小さいほど類似度を高く算出する関数として定義される。
他にも、文字列の観点が共通する場合、入力部10は、文字列の関係を類似度関数として受け付け、文字列の関係の程度を示す類似度の閾値を条件として受け付けてもよい。具体的には、第1の属性および第2の属性が文字列属性である場合、類似度関数は、例えば、二つのテキストの一致度が高いほど類似度を高く算出する関数として定義される。テキストの類似度として、例えば、形態素のSimpson係数が挙げられる。
morph(a)をテキスト文字列aに含まれる形態素の集合と定義する。例えば、アドレスを示す以下の4つのテキスト文字列は、形態素解析により、それぞれ以下のような形態の集合として表される。
・morph('川崎市中原区')={'川崎','市','中原','区'}
・morph('神奈川県川崎市中原区')={'神奈川','県','川崎','市','中原','区'}
・morph('神奈川県川崎市幸区')={'神奈川','県','川崎','市','幸','区'}
・morph('神奈川県横浜市港南区')={'神奈川','県','横浜','市','港南','区'}
・morph('川崎市中原区')={'川崎','市','中原','区'}
・morph('神奈川県川崎市中原区')={'神奈川','県','川崎','市','中原','区'}
・morph('神奈川県川崎市幸区')={'神奈川','県','川崎','市','幸','区'}
・morph('神奈川県横浜市港南区')={'神奈川','県','横浜','市','港南','区'}
また、テキスト文字列aとテキスト文字列bの類似度を算出する関数textSim(a,b)は、以下に示す式1で定義できる。
textSim(a,b)=|morph(a)∪morph(b)|/
min(|morph(a)|,|morph(b)|)
・・・(式1)
min(|morph(a)|,|morph(b)|)
・・・(式1)
この場合、上記に例示するアドレスのテキスト文字列同士の類似度は、以下のように算出される。
・textSim(’川崎市中原区’,’神奈川県川崎市中原区’)=4/4=1.0
・textSim(’川崎市中原区’,'神奈川県川崎市幸区')=3/4=0.75
・textSim(’川崎市中原区’,'神奈川県横浜市港南区')=2/4=0.5
・textSim(’川崎市中原区’,'神奈川県川崎市幸区')=3/4=0.75
・textSim(’川崎市中原区’,'神奈川県横浜市港南区')=2/4=0.5
また、構造的な観点が共通する場合、入力部10は、構造的関係を類似度関数として受け付け、構造的関係の程度を示す類似度の閾値を条件として受け付けてもよい。以下、住所やファイルのディレクトリ構造など、木構造の情報を“/”で表現した文字列をパス文字列と定義する。例えば、住所「神奈川県川崎市」は、パス文字列では‘/神奈川県/川崎市’と表現される。また、例えば、ディレクトリ構造「news→economy→bigdata」は、パス文字列では、‘news/economy/bigdata’と表現される。
第1の属性および第2の属性が上述するパス文字列で定義される構造的属性の場合、類似度関数は、例えば、二つのパス文字列の距離が近いほど類似度を高く算出する関数として定義される。パス文字列の距離関数として、例えば、最低共通祖先ノード(LCA:Lowest common ancestor)への距離の最小値が挙げられる。
最低共通祖先ノードとは、二つのパスが表現するそれぞれ一番下のノードから上位(先祖)方向に辿った場合に、最初に現れる同じノードである。また、最低共通祖先ノードへの距離とは、一番下のノードから最低共通祖先ノードへ辿ったときのノード数である。
例えば、二つのパス文字列‘/a/b/c’,‘/a/b/z’が存在するとする。この場合、二つのパスの最低共通祖先ノードは、‘/a/b’である。また、‘/a/b/c’から‘/a/b’への距離は1であり、‘/a/b/z’から‘/a/b’への距離も1である。
また、例えば、二つのパス文字列‘/a/b/c’,‘/a/d/e/z’が存在するとする。この場合、二つのパスの最低共通祖先ノードは、‘/a’である。また、‘/a/b/c’から‘/a’への距離は2であり、‘/a/d/e/z’から‘/a’への距離は3である。
パス文字列の距離を表す関数をpathDis(x,y)とすると、上述するパス文字列の距離は、以下のように算出される。
・pathDis(‘/a/b/c’,‘/a/b/z’)=1
・pathDis(‘/a/b/c’,‘/a/d/e/z’)=2
・pathDis(‘/a/b/c’,‘/a/d/e/z’)=2
図2は、コンフィギュレーションファイル(以下、コンフィグファイルと記す。)の例を示す説明図である。図2に示す例では、類似度関数および類似度に対する条件が、コンフィギュレーションファイル(以下、コンフィグファイルと記す。)に設定されていることを示す。入力部10は、このコンフィグファイルを受け付けてもよい。
図2に例示するコンフィグファイルのC1部分が、類似度関数および類似度に対する条件を示す。なお、コンフィグファイルのC2〜C4部分については、後述される。C1部分において、前段部(コロンの前)が、第1の属性のデータ型(より具体的には、分析データ型)と第2の属性のデータ型(より具体的には、分析データ型)との対応関係を示す。また、後段部(コロンの後)が、類似度関数および条件(類似度の閾値)を示す。以下、各内容について、詳細に説明する。
C1部分における“Point−Point”の行は、点で表される第1の地理的属性と点で表される第2の地理的属性との距離を表す地理的関係を定義する。
“DistanceMap”は、地理的関係の程度を規定したマップ関数であり、パラメータとして、距離の閾値を含む。DistanceMap関数における3つのパラメータは、順に“開始値”、“終了値”、(開始値から終了値までに適用する閾値の)“間隔”を示す。図2に例示する(“DistanceMap”,1,3,1)は、距離の単位をkmとすると、“距離が1km以内”、“距離が2km以内”、“距離が3km以内”の3つの閾値を関数に適用することを示す。
“KNearestMap”は、地理的関係の程度を規定したマップ関数であり、パラメータとして、近接する地理的情報の個数の閾値を含む。KNearestMap関数における3つのパラメータも同様、順に“開始値”、“終了値”、(開始値から終了値までに適用する閾値の)“間隔”を示す。図2に例示する(“KNearestMap”,3,5,1)は、近接する地理的情報の個数が、“3つ以内”、“4つ以内”、“5つ以内”の3つの閾値を関数に適用することを示す。
“SameCityMap”は、地理的関係の程度を規定したマップ関数であり、2つの地点が同じエリアに含まれるか否かを判断する関数である。SameCityMap関数はパラメータを含まないが、エリアを定義したエリア情報に基づいて同じエリアに含まれるか否かが判断される。エリア情報は、予め定義される。
C1部分における“Point−Area”の行は、点で表される第1の地理的属性と領域で表される第2の地理的属性との包含関係を表す地理的関係を定義する。
“InclusionMap”は、地理的関係の程度を規定したマップ関数であり、点で表される第1の地理的属性が領域で表される第2の地理的属性に含まれるか否かを判断する関数である。なお、InclusionMapは、パラメータを含まない。
また、“Point−Area”の行においても、“KNearestMap”が定義される。KNearestMap関数の内容は、“Point−Point”におけるKNearestMap関数と同様である。
C1部分における“Area−Area”の行は、領域で表される第1の地理的属性と領域で表される第2の地理的属性との交差関係を表す地理的関係を定義する。
“IntersectMap”は、地理的関係の程度を規定したマップ関数であり、領域で表される第1の地理的属性が領域で表される第2の地理的属性と交差するか否かを判断する関数である。なお、IntersectMapは、パラメータを含まない。
以上に示すように、第1の地理的データ型と第2の地理的データ型とは、互いに同一の地理的データ型であってもよく、異なる地理的データ型であってもよい。また、第1の地理的データ型が、点の情報で地理を特定可能なデータのタイプであり、第2の地理的データ型が、範囲の情報で地理を特定可能なデータのタイプであってもよい。
C1部分における“TimeStamp−TimeStamp”の行は、第1の時間的属性と第2の時間的属性との差異を表す時間的関係を定義する。
“TimeDiffMap”は、時間的関係の程度を規定したマップ関数であり、パラメータとして、時間の差異の閾値を含む。TimeDiffMap関数における3つのパラメータも同様、順に“開始値”、“終了値”、(開始値から終了値までに適用する閾値の)“間隔”を示す。図2に例示する(“TimeDiffMap”,30,60,30)は、時間の単位を分とすると、“時間の差異が30分以内”、“時間の差異が60分以内”の2つの閾値を関数に適用することを示す。
C1部分における“Text−Text”の行は、文字列を表す第1の属性と文字列を表す第2の属性との一致関係を定義する。“ExactMap”は、文字列で表される属性が一致するか否かを判断する関数である。
また、“Text−Text”の行に、文字列を表す第1の属性と文字列を表す第2の属性との類似関係を定義してもよい。具体的には、“Text−Text”の行に、文字列の関係の程度を規定したマップ関数“textSimMap”を設定してもよい。“textSimMap”は、文字列の関係の程度を規定したマップ関数であり、パラメータとして、類似度の閾値を含む。textSimMap関数は、DistanceMap関数同様、3つのパラメータを有し、それぞれ順に“開始値”、“終了値”、(開始値から終了値までに適用する閾値の)“間隔”を示す。
例えば、textSimMap関数を用いて[(“textSimMap”,0.8,1.0,0.1]と定義されていたとする。これは、“類似度が0.8以上”、“類似度が0.9以上”および“類似度が1.0(以上)”の3つの閾値を関数に適用することを示す。
なお、類似度関数および類似度の閾値の設定方法は、図2のC1部分に例示する内容に限定されない。コンフィグファイルに、例えば、パス文字列で表される第1の構造的属性とパス文字列で表される第2の構造的属性との距離を表す構造的関係“Path−Path”を定義してもよい。
具体的には、“Path−Path”の行に、構造的関係の程度を規定したマップ関数“pathDisMap”を設定してもよい。“pathDisMap”は、構造的関係の程度を規定したマップ関数であり、パラメータとして、距離の閾値を含む。pathDisMap関数は、DistanceMap関数同様、3つのパラメータを有し、それぞれ順に“開始値”、“終了値”、(開始値から終了値までに適用する閾値の)“間隔”を示す。
例えば、pathDisMap関数を用いて[(“pathDisMap”,1,3,1]と定義されていたとする。これは、“距離が1以下”、“距離が2以下”および“距離が3以下”の3つの閾値を関数に適用することを示す。
入力部10が、図2に例示するコンフィグファイルを受け付けることで、後述するマップパラメータ生成器30が、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件(マップパラメータ)を生成する。
なお、入力部10は、テーブルの各列が示すデータの属性を合わせて受け付けてもよい。
ジオコーダ20は、文字列で表された属性のデータを変換する。例えば、地理的属性のデータが文字列で表されている場合、ジオコーダ20は、その文字列を、点、多角形または複数多角形のデータに変換する。なお、データを変換する必要がない場合、情報処理システム100は、ジオコーダ20を備えていなくてもよい。
図3は、データを変換する処理の例を示す説明図である。図3に示す例では、列ごとの分析データ型を定義したテーブルadt1と、分析データ型からデータ型へ変換する対応を定義したテーブルadt2が予め取得されているものとする。
この状況で、入力部10が、図3に例示するターゲットテーブルT、ソーステーブルS1およびソーステーブルS2を取得したとする。ソーステーブルS2の“Pickup_location”列の分析データ型は、テーブルadt1を参照するとPointであり、変換の必要がない。一方、ソーステーブルS1の“community”列の分析データ型はテーブルadt1を参照すると“TownAddress”であり、テーブルadt2を参照すると、データ型Polygonに変換する必要がある。そこで、ジオコーダ20は、ソーステーブルS1の“community”列に含まれるデータを、多角形の領域で表すように変換する。例えば、“community”の内容に応じて多角形で領域を特定可能なエリア情報を予め定めておき、ジオコーダ20は、そのエリア情報に基づいて、データ型がPolygonになるようにデータを変換してもよい。
マップパラメータ生成器30、フィルタパラメータ生成器50、および、集約パラメータ生成器60は、後述する特徴量生成関数生成器81が、予測対象に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を生成する際に利用するパラメータを生成する。
以下の説明では、特徴量とは、特徴そのものの内容(例えば、「人口」、「位置」など)を意味する。また、特徴量に具体的なデータをあてはめたもの(例えば、人口=“8112”、位置=“(−73.965, 40.724)”など)のことを、特徴量ベクトル(複数の場合、特徴量テーブル)と記す。
また、後述する特徴量生成器82が生成する特徴量は、機械学習を用いてモデルを生成する際の説明変数の候補になる。言い換えると、本実施形態で生成される特徴量生成関数を用いることで、機械学習を用いてモデルを生成する際の説明変数の候補を自動的に生成することが可能になる。
図4は、各パラメータと、第1のテーブルおよび第2のテーブルとの関係の例を示す説明図である。
フィルタパラメータ生成器50が生成するパラメータは、第2のテーブルに含まれる行の抽出条件を表わすパラメータである。以下、このパラメータをフィルタパラメータとしるし、フィルタパラメータに基づいて第2のテーブルから行を抽出する処理を「filter」と記載する場合がある。また、この抽出条件のリストを「Fリスト」と記載する場合がある。抽出条件は任意であり、例えば、指定された列の値と同じ(大きいまたは小さい)か否か判断する条件が挙げられる。
集約パラメータ生成器60が生成するパラメータは、第2のテーブルに含まれる各行のデータを目的変数ごとに集約する集約方法を表わすパラメータである。なお、一般に、第1の表における行と第2の表における行とは、一対多対応する場合が多いため、結果として行が集約されることになる。集約情報は、ソーステーブル(第2のテーブル)の列に対する集約関数として定義されてもよい。
集約方法は任意であり、例えば、列の総数、最大値、最小値、平均値、中央値、分散などが挙げられる。また、列の総数の集計は、重複データを除外する、または、重複データを除外しない、のいずれかの観点で行われてもよい。
以下、このパラメータを集約パラメータと記し、集約パラメータが示す方法により各列のデータを集約する処理を「reduce」と記載する場合がある。特に、地理的情報を集約する処理を「Geo−reduce」と記載することもある。また、この集約処理のリストを「Rリスト」と記載する場合がある。なお、地理的情報を集約する処理の詳細については後述される。
マップパラメータ生成器30が生成するパラメータは、第1のテーブルと第2のテーブルの列との対応条件を表わすパラメータである。以下、このパラメータをマップパラメータと記し、マップパラメータに基づいて各テーブルの列を対応付ける処理を「map」と記載する場合がある。また、この対応条件のリストを「Mリスト」と記載する場合がある。特に、地理的情報同士を対応付ける処理を「Geo−map」と記載することもある。また、mapによる各テーブルの列の対応付けは、対応付けられた列で複数の表を1つの表に結合(join)することとも言える。なお、地理的情報を対応付ける処理の詳細についても後述される。
マップパラメータ生成器30は、ジオマップ生成器(GeoMap Generator)40と、時間差異マップ生成器(TimeDiff Map Generator)31と、マップ生成器(Exact Map Generator )32と、属性特定部33とを含む。マップパラメータ生成器30(より具体的には、マップパラメータ生成器30に含まれる各生成器)は、第1の属性の値と第2の属性の値とにより算出される類似度が、条件を満たすような第1の属性の値を含む第1のテーブルのレコードと、第2の属性の値を含む第2のテーブルのレコードとを結合するための結合条件を生成する。条件を満たすとは、例えば、類似度が閾値以下または以上になることや、予め定めた範囲内に含まれることなどを意味する。
ジオマップ生成器40は、第1のテーブルと第2のテーブルの地理的属性を含む列同士の対応条件を表すパラメータを生成する。ジオマップ生成器40は、距離マップ生成器(Distance Map Generator)41と、包含マップ生成器(Inclusion Map Generator )42と、重複マップ生成器(Overlap Map Generator )43と、同地域マップ生成器(SameArea Map Generator)44とを有する。
ジオマップ生成器40(より具体的には、ジオマップ生成器40に含まれる各生成器)は、第1の地理的属性の値と第2の地理的属性の値との関係が、地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件(マップパラメータ)を生成する。以下、各生成器の処理について、詳細に説明する。
距離マップ生成器41は、距離の近さに基づいて第1のテーブルと第2のテーブルを対応付けるための類似度関数および条件(例えば、類似度の閾値)を受け付けた場合に、マップパラメータを生成する。図2に示す例では、DistanceMap関数とKNearestMap関数の少なくとも一方がコンフィグファイルに設定されている場合に対応する。
距離マップ生成器41は、第1の地理的属性の値と第2の地理的属性の値との距離が閾値以内であるような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するためのマップパラメータを生成する。
図5は、距離に基づいてマップパラメータを生成する処理の例を示す説明図である。図5に示す例では、ターゲットテーブルTとソーステーブルS2をそれぞれ1つずつ取得した場合を示す。なお、図5に例示するターゲットテーブルTは、2015年1月8日22時の、5か所における乗客数(pickup_number)を表すデータを含むテーブルである。また、図5に例示するソーステーブルS2は、各時刻における乗客数、移動距離および乗客の乗り場位置を対応付けて記録するテーブルである。
例えば、図2に例示するDistanceMap関数の場合、距離マップ生成器41は、第1の地理的属性の値が示す位置と第2の地理的属性の値が示す位置との距離が1km以内であるソーステーブルS2のレコードにターゲットテーブルTの各レコードを対応付けるパラメータを生成する。さらに、距離マップ生成器41は、第1の地理的属性の値が示す位置と第2の地理的属性の値が示す位置との距離が2km以内および3km以内であるソーステーブルS2のレコードにターゲットテーブルTの各レコードを対応付けるパラメータをそれぞれ生成する。
図5に示す例では、ターゲットテーブルTの“target_location”列の属性が第1の地理的属性であり、ソーステーブルS2の“Pickup_location”列の属性が第2の地理的属性である。この2つの列が対応付けられる。なお、第1のテーブルと第2のテーブルとで対応付ける列は、予め指定されていてもよく、後述する属性特定部33によって特定されてもよい。
この結果、図5に例示するパラメータP11が生成される。図5に例示するように、地理的分析データ型に基づいてマップパラメータが生成され、1つのマップパラメータに基づいて、1つのマップ処理が定義される。図5に例示するマップデータM11は、距離が1km以内であるソーステーブルS2のレコードにターゲットテーブルTの各レコードを対応付けた結果を示す。例えば、ターゲットテーブルの1番目のレコードに対して、ソーステーブルから1つのレコードのみ対応付けられる。また、例えば、ターゲットテーブルの2番目のレコードに対して、ソーステーブルから2つのレコードが対応付けられる。
図6は、距離に基づいてマップパラメータを生成する他の処理の例を示す説明図である。図6に例示するターゲットテーブルTおよびソーステーブルS2は、図5に例示するターゲットテーブルTおよびソーステーブルS2と同様である。
例えば、図2に例示するKNearestMap関数の場合、距離マップ生成器41は、第1の地理的属性の値が示す位置と第2の地理的属性の値が示す位置との距離が近い方から順にソーステーブルS2のレコードにターゲットテーブルTの各レコードを2つ以内で対応付けるパラメータを生成する。さらに、距離マップ生成器41は、第1の地理的属性の値が示す位置と第2の地理的属性の値が示す位置との距離が近い方から順にソーステーブルS2のレコードにターゲットテーブルTの各レコードを3つ以内および4つ以内で対応付けるパラメータをそれぞれ生成する。
図6に示す例では、ターゲットテーブルTの“target_location”列の属性が第1の地理的属性であり、ソーステーブルS2の“Pickup_location”列の属性が第2の地理的属性である。この2つの列が対応付けられる。なお、第1のテーブルと第2のテーブルとで対応付ける列は、予め指定されていてもよく、後述する属性特定部33によって特定されてもよい。
この結果、図6に例示するパラメータP12が生成される。図6に例示するように、地理的分析データ型に基づいてマップパラメータが生成され、1つのマップパラメータに基づいて、1つのマップ処理が定義される。図6に例示するマップデータM12は、近い順にソーステーブルS2のレコードにターゲットテーブルTの各レコードを2つ対応付けた結果を示す。例えば、ターゲットテーブルの各レコードに対して、ソーステーブルから2つの最も近いレコードが対応付けられる。
同地域マップ生成器44は、同じエリアに含まれるか否かに基づいて第1のテーブルと第2のテーブルを対応付けるための類似度関数を受け付けた場合に、マップパラメータを生成する。図2に示す例では、SameCityMap関数がコンフィグファイルに設定されている場合に対応する。
同地域マップ生成器44は、第1の地理的属性の値が示す位置と第2の地理的属性の値が示す位置が同じエリアに含まれるような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するためのマップパラメータを生成する。
図7は、同じエリアに含まれているか否か判断する方法の例を示す説明図である。図7に示す例では、各エリアと多角形で特定されるエリアの領域とが対応付けられた共通エリアテーブルCATが予め定義される。共通エリアの例として、国、州、都市、自治区、街などが挙げられる。共通エリアは、互いに重なり合わない共通の領域として定義され、マップ上の境界情報を表す。共通エリアテーブルCATは、例えば、記憶部80に記憶されていてもよい。
まず、共通エリアテーブルCATに基づいて2つの位置が同じエリアに存在するか否かが判断される。具体的には、ターゲットテーブルTのレコードt1の位置が示すエリアが特定され、ソーステーブルSのレコードs1の位置がそのエリア内か否かが判断される。以下、同様の処理が、ターゲットテーブルTおよびソーステーブルSの全てのレコードに対して行われる。
図8は、共通エリアか否かに基づいてマップパラメータを生成する処理の例を示す説明図である。図8に例示するターゲットテーブルTおよびソーステーブルS2は、図5に例示するターゲットテーブルTおよびソーステーブルS2と同様である。
例えば、図2に例示するSameCityMap関数の場合、同地域マップ生成器44は、第1の地理的属性の値が示す位置と第2の地理的属性の値が示す位置とが同じエリアに含まれるソーステーブルS2のレコードとターゲットテーブルTの各レコードとを対応付けるパラメータを生成する。
図8に示す例では、ターゲットテーブルTの“target_location”列の属性が第1の地理的属性であり、ソーステーブルS2の“Pickup_location”列の属性が第2の地理的属性である。この2つの列が対応付けられる。なお、第1のテーブルと第2のテーブルとで対応付ける列は、予め指定されていてもよく、後述する属性特定部33によって特定されてもよい。
この結果、図8に例示するパラメータP13が生成される。図8に例示するマップデータM13は、同じエリアと判断された地理的属性を有するソーステーブルS2のレコードとターゲットテーブルTの各レコードとを対応付けた結果を示す。なお、図8に例示するマップデータM13は、距離が1km未満の地点が同じ都市に位置すると仮定して対応付けた例を示す。
包含マップ生成器42は、包含関係に基づいて第1のテーブルと第2のテーブルを対応付けるための類似度関数を受け付けた場合に、マップパラメータを生成する。図2に示す例では、InclusionMap関数がコンフィグファイルに設定されている場合に対応する。
包含マップ生成器42は、第1の地理的属性の値が示す位置が第2の地理的属性の値が示す領域に含まれているような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するためのマップパラメータを生成する。
図9は、包含関係に基づいてマップパラメータを生成する処理の例を示す説明図である。図9に例示するターゲットテーブルTは、図5に例示するターゲットテーブルTと同様である。また、図9に例示するソーステーブルS1は、各領域における人口、男性数および20歳から40歳までの人数を対応付けて記録するテーブルである。
例えば、図2に例示するInclusionMap関数の場合、包含マップ生成器42は、第1の地理的属性の値が示す位置が第2の地理的属性の値が示す領域に含まれるソーステーブルS1のレコードにターゲットテーブルTの各レコードを対応付けるパラメータを生成する。
図9に示す例では、ターゲットテーブルTの“target_location”列の属性が第1の地理的属性であり、ソーステーブルS1の“community”列の属性が第2の地理的属性である。この2つの列が対応付けられる。なお、第1のテーブルと第2のテーブルとで対応付ける列は、予め指定されていてもよく、後述する属性特定部33によって特定されてもよい。
この結果、図9に例示するパラメータP14が生成される。図9に例示するマップデータM14は、同じエリアに存在するソーステーブルS1のレコードにターゲットテーブルの各レコードを対応付けた結果を示す。
重複マップ生成器43は、重複する領域に基づいて第1のテーブルと第2のテーブルを対応付けるための類似度関数を受け付けた場合に、マップパラメータを生成する。図2に示す例では、IntersectMap関数がコンフィグファイルに設定されている場合に対応する。
重複マップ生成器43は、第1の地理的属性の値が示す領域と第2の地理的属性の値が示す領域が重複するような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するためのマップパラメータを生成する。
時間差異マップ生成器31は、時間の差異に基づいて第1のテーブルと第2のテーブルを対応付けるための類似度関数および条件(例えば、類似度の閾値)を受け付けた場合に、マップパラメータを生成する。図2に示す例では、TimeDiffMap関数がコンフィグファイルに設定されている場合に対応する。
時間差異マップ生成器31は、第1の時間的属性の値と第2の時間的属性の値との関係が時間的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する。本実施形態では、時間差異マップ生成器31は、第1の時間的属性の値と第2の時間的属性の値との差異が閾値以内であるような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するためのマップパラメータを生成する。
図10は、時間の差異に基づいてマップパラメータを生成する処理の例を示す説明図である。図10に例示するターゲットテーブルTおよびソーステーブルS2は、図5に例示するターゲットテーブルTおよびソーステーブルS2と同様である。
例えば、図2に例示するTimeDiffMap関数の場合、時間差異マップ生成器31は、第1の時間的属性の値と第2の地理的属性の値との差異が30分以内であるソーステーブルS2のレコードにターゲットテーブルTの各レコードを対応付けるパラメータを生成する。さらに、時間差異マップ生成器31は、第1の時間的属性の値と第2の時間的属性の値との差異が60分以内であるソーステーブルS2のレコードにターゲットテーブルTの各レコードを対応付けるパラメータを生成する。
図10に示す例では、ターゲットテーブルTの“time”列の属性が第1の時間的属性であり、ソーステーブルS2の“pickup_time”列の属性が第2の時間的属性である。この2つの列が対応付けられる。なお、第1のテーブルと第2のテーブルとで対応付ける列は、予め指定されていてもよく、後述する属性特定部33によって特定されてもよい。
この結果、図10に例示するパラメータP15が生成される。図10に例示するマップデータM15は、時間の差異が30分以内であるソーステーブルS2のレコードにターゲットテーブルTの各レコードを対応付けた結果を示す。
マップ生成器32は、第1のテーブルと第2のテーブルを対応付けるための類似度関数を受け付けた場合に、マップパラメータを生成する。本実施形態では、地理的属性と時間的属性のいずれの属性でもない属性の値に基づいてソーステーブルのレコードにターゲットテーブルのレコードを対応付けるパラメータを生成する。
図2に示す例では、ExactMap関数がコンフィグファイルに設定されている場合に対応する。マップ生成器32は、第1の属性の値と第2の属性の値とが一致するような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するためのマップパラメータを生成する。
図11は、テキストの類似性に基づいてマップパラメータを生成する処理の例を示す説明図である。図11に例示するターゲットテーブルTは、ある住所における乗客数(pickup_number)を表すデータを含むテーブルである。また、図11に例示するソーステーブルSは、各地域における収入平均を記録するテーブルである。
例えば、上述するtextSimMap関数の場合、マップ生成器32は、第1の文字列属性の値と第2の文字列属性の値との類似度が0.8以上であるソーステーブルSのレコードにターゲットテーブルTの各レコードを対応付けるパラメータを生成する。さらに、マップ生成器32は、第1の文字列属性の値と第2の文字列属性の値との類似度が0.9以上および1.0以上であるソーステーブルSのレコードにターゲットテーブルTの各レコードを対応付けるパラメータをそれぞれ生成する。
図11に示す例では、ターゲットテーブルTの“address”列の属性が第1の文字列属性として、ソーステーブルSの“address”列の属性が第2の文字列属性として、それぞれ登録されているとする。そこで、この2つの列が対応付けられる。この結果、図11に例示するパラメータP16が生成される。
図11に例示するマップデータMは、類似度が0.8以上であるソーステーブルSのレコードにターゲットテーブルTの各レコードを対応付けた結果を示す。例えば、ターゲットテーブルの1番目のレコードに対して、ソーステーブルから1つのレコードのみ対応付けられる。
図12は、構造の類似性に基づいてマップパラメータを生成する処理の例を示す説明図である。図12に例示するターゲットテーブルTは、あるURLで識別されるWebページへのアクセス数(access_number)を表すデータを含むテーブルである。また、図12に例示するソーステーブルSは、あるURLで識別されるWebページの先月のアクセス数(access_number)を記録するテーブルである。
例えば、上述するpathDisMap関数の場合、マップ生成器32は、第1の構造的属性の値と第2の構造的属性の値との距離が1以下であるソーステーブルSのレコードにターゲットテーブルTの各レコードを対応付けるパラメータを生成する。さらに、マップ生成器32は、第1の構造的属性の値と第2の構造的属性の値との距離が2以下および3以下であるソーステーブルSのレコードにターゲットテーブルTの各レコードを対応付けるパラメータをそれぞれ生成する。
図12に示す例では、ターゲットテーブルTの“URL”列の属性が第1の構造的属性として、ソーステーブルSの“URL”列の属性が第2の構造的属性として、それぞれ登録されているとする。そこで、この2つの列が対応付けられる。この結果、図12に例示するパラメータP17が生成される。
図12に例示するマップデータMは、類似度が1以下であるソーステーブルSのレコードにターゲットテーブルTの各レコードを対応付けた結果を示す。例えば、ターゲットテーブルの1番目のレコードに対して、ソーステーブルから1つのレコードのみ対応付けられる。
属性特定部33は、第1のテーブルと第2のテーブルとで、観点が共通する属性を特定する。具体的には、属性特定部33は、第1のテーブルの各列が示すデータの属性と、第2のテーブルの各列が示すデータの属性とが同じ属性を特定する。例えば、地理的データ型の場合、属性特定部33は、第1の地理的データ型と同じデータ型を有する第1の地理的属性を第1のテーブルから特定し、且つ、第2の地理的情報のデータ型と同じデータ型を有する第2の地理的属性を第2のテーブルから特定してもよい。このようにすることで、地理的データ型を有する列を各テーブルから特定することが可能になる。また、属性特定部33は、入力部10に入力された列の属性の情報から、第1のテーブルと第2のテーブルの列の属性を特定してもよい。
マップパラメータ生成器30(より具体的には、マップパラメータ生成器30に含まれる各生成器)は、地理的(時間的)関係の判断対象である第1の地理的(時間的)属性を含む第1のテーブルの列および第2の地理的(時間的)属性を含む第2のテーブルの列と、地理的(時間的)関係の程度とを含むパラメータを、記憶部80に記憶させてもよい。例えば、マップパラメータ生成器30は、図5に例示するパラメータP11や図10に例示するパラメータP15などを記憶部80に記憶させてもよい。
図13は、生成されたマップパラメータの例を示す説明図である。上述する例で示すように、入力部10が、図13に例示するターゲットテーブルT、ソーステーブルS1およびソーステーブルS2、並びに、図2に例示するコンフィグファイルのC1部分を受け付ける。なお、マップパラメータP16は、ターゲットテーブルTの“target_location”列の属性を第1の地理的属性とし、ソーステーブルS1の“community”列の属性を第2の地理的属性として、KNearestMap関数に基づいて生成されるパラメータの例である。マップパラメータ生成器30(より具体的には、マップパラメータ生成器30に含まれる各生成器)は、これらの情報から、図13に例示する13個のマップパラメータP11〜16を生成する。
フィルタパラメータ生成器50は、フィルタ生成器(Exact Filter Generator)51を含む。フィルタ生成器51は、第2のテーブルの列と、その列に適用する抽出条件とを対応付けたフィルタパラメータを生成する。
フィルタパラメータの生成方法は任意である。フィルタ生成器51は、例えば、図2に例示するコンフィグファイルのC2部分で定義された情報に基づいて、フィルタパラメータを生成してもよい。また、予め記憶部80に抽出条件を記憶しておき、フィルタ生成器51は、その抽出条件を読み取ってフィルタパラメータを生成してもよい。
さらに、フィルタ生成器51は、抽出条件を複数組み合わせて、さらなる抽出条件を生成してもよい。また、抽出条件を組み合わせる数も任意である。入力部10は、例えば、この組み合わせ最大数を受け付けてもよい。例えば、図2に例示するように、コンフィグファイルのC4部分に組み合わせ最大数を示すパラメータ(“max_combination_filter_length”)が設定されていてもよい。
集約パラメータ生成器60(より具体的には、集約パラメータ生成器60に含まれる各生成器)は、第2のテーブルに含まれる各行のデータを集約する方法を表わすパラメータを生成する。集約パラメータ生成器60は、ジオ集約生成器(GeoReduce Generator )70と、数的集約生成器(Numeric Reduce Generator)61とを含む。
ジオ集約生成器70(より具体的には、ジオ集約生成器70に含まれる各生成器)は、第2のテーブルに含まれる地理的属性を含む列の値で各行のデータを集約する方法を表わす集約パラメータを生成する。具体的には、ジオ集約生成器70は、指定された集約方法に基づいて地理的属性の値の統計値を算出する。
集約方法を指定する方法は任意である。例えば、入力部10が集約方法の指定を受け付けてもよい。具体的には、図2のコンフィグファイルのC3部分に例示するように、地理的属性の分析データ型に応じて集約方法を定義し、定義された集約方法に応じて集約パラメータを生成してもよい。以下、各内容について、詳細に説明する。
C3部分における“Point”の行は、第2の地理的属性(より具体的には、地理的データ型)が点(Point)で表される場合の集約方法を定義する。
(“sum”,“distance”)は、第1のテーブルのレコードに対応付けられた第2のテーブルの各レコードのうち、第1の地理的属性の値と第2の地理的属性の値とに基づいて算出される距離の合計を統計値として算出する集約方法を定義する。
(“avg”,“distance”)は、第1のテーブルのレコードに対応付けられた第2のテーブルの各レコードのうち、第1の地理的属性の値と第2の地理的属性の値とに基づいて算出される距離の平均を統計値として算出する集約方法を定義する。
(“count”)は、第1のテーブルの各レコード(すなわち、目的変数)に対応付けられた第2のテーブルのレコード数を統計値として算出する集約方法を定義する。
C3部分における“Area”の行は、第2の地理的属性(より具体的には、地理的データ型)が領域(Area)で表される場合の集約方法を定義する。
(“sum”,“areaSize”)は、第1のテーブルのレコードに対応付けられた第2のテーブルの各レコードのうち、第2の地理的属性の領域の大きさの合計を統計値として算出する集約方法を定義する。
(“avg”,“areaSize”)は、第1のテーブルのレコードに対応付けられた第2のテーブルの各レコードのうち、第2の地理的属性の領域の大きさの平均を統計値として算出する集約方法を定義する。
(“count”)は、第1のテーブルの各レコード(すなわち、目的変数)に対応付けられた第2のテーブルのレコード数を統計値として算出する集約方法を定義する。
ジオ集約生成器70は、ポイント集約生成器(Point Reduce Generator)71と、エリア集約生成器(Area Reduce Generator )72とを有する。
ポイント集約生成器71は、第1の地理的属性の値と第2の地理的属性の値とに基づいて算出される距離の統計値を算出するための集約パラメータを生成する。なお、ここで対象とする第2のテーブルのレコードは、第1のテーブルのレコードにそれぞれ対応付けられたレコードである。地理的属性の場合、上述するように、第1の地理的属性の値と第2の地理的属性の値とが、一致する、または、一定の範囲内にあるなど、一定の条件を満たすレコード同士が対応付けられる。そこで、ポイント集約生成器71は、第1の地理的属性の値に対する第2の地理的属性の値が所定の条件を満たす場合に、第1の地理的属性の値と条件を満たす第2の地理的属性の値とに基づいて距離の統計値を算出するための集約パラメータを生成する。なお、算出される統計値は、特徴量として利用される。
ポイント集約生成器71は、例えば、図2に例示する(“sum”,“distance”)、(“avg”,“distance”)および(“count”)の少なくとも一つがコンフィグファイルに設定されている場合に、距離の統計値を算出するための集約パラメータを生成してもよい。
図14は、距離の統計値を算出するための集約パラメータを生成する処理の例を示す説明図である。図14に示す例では、3種類の集約方法がコンフィグファイルに設定されている。そこで、ポイント集約生成器71は、ソーステーブルのレコードとターゲットテーブルのレコードとの間の距離の合計および平均を算出する集約パラメータ、並びに、対応付けられたソーステーブルのレコード数を算出する集約パラメータを算出する。ポイント集約生成器71は、例えば、図14に例示する集約リストP21のように、集約するソーステーブルの列名、対応付けるターゲットテーブルの列名、集約内容(距離)および集約関数を対応付けた集約パラメータを生成してもよい。
図14に例示する集約データR21は、距離の合計を算出する集約パラメータに基づいて、マップデータM11を集約した結果を示す。
エリア集約生成器72は、第2の地理的属性の値に基づいて算出される領域の統計値を算出するための集約パラメータを生成する。なお、ポイント集約生成器71と同様、ここで対象とする第2のテーブルのレコードは、第1のテーブルのレコードにそれぞれ対応付けられたレコードである。
エリア集約生成器72は、例えば、図2に例示する(“sum”,“areaSize”)および(“avg”,“areaSize”)および(“count”)の少なくとも一つがコンフィグファイルに設定されている場合に、領域の統計値を算出するための集約パラメータを生成してもよい。
図15は、領域の統計値を算出するための集約パラメータを生成する処理の例を示す説明図である。図15に示す例では、3種類の集約方法がコンフィグファイルに設定されている。そこで、エリア集約生成器72は、ターゲットテーブルの各レコードに対応付けられたソーステーブルのレコードの面積の合計および平均を算出する集約パラメータ、並びに、対応付けられたソーステーブルのレコード数を算出する集約パラメータを算出する。エリア集約生成器72は、例えば、図15に例示する集約リストP22のように、集約するソーステーブルの列名、集約内容(面積)および集約関数を対応付けた集約パラメータを生成してもよい。
図15に例示する集約データR22は、面積の合計を算出する集約パラメータに基づいて、マップデータM14を集約した結果を示す。
数的集約生成器61は、第2のテーブルに含まれる数値(Nemuric)の属性(以下、数値属性と記す。)を含む列の値で各行のデータを集約する方法を表わす集約パラメータを生成する。具体的には、数的集約生成器61は、指定された集約方法に基づいて数値の統計値を算出する。
集約方法を指定する方法は任意である。ジオ集約生成器70と同様、例えば、入力部10が集約方法の指定を受け付けてもよい。具体的には、図2のコンフィグファイルのC3部分に例示するように、数値属性に対する集約方法を定義し、定義された集約方法に応じて集約パラメータを生成してもよい。図2に示す例では、数値属性の列の合計および平均を算出する集約パラメータを生成するための指定がされている。
集約パラメータ生成器60(より具体的には、集約パラメータ生成器60に含まれる各生成器)は、生成した集約パラメータを記憶部80に記憶させてもよい。図16は、生成された集約パラメータの例を示す説明図である。上述する例で示すように、入力部10が、図16に例示するターゲットテーブルT、ソーステーブルS1およびソーステーブルS2、並びに、図2に例示するコンフィグファイルのC3部分を受け付ける。
なお、集約パラメータP23は、ソーステーブルS2の数値的属性の列に対する集約パラメータの例である。また、集約パラメータP24は、ソーステーブルS1の数値的属性の列に対する集約パラメータの例である。集約パラメータ生成器60(より具体的には、集約パラメータ生成器60に含まれる各生成器)は、これらの情報から、図16に例示する16個のマップパラメータP21〜24を生成する。
特徴量生成関数生成器81は、第1のテーブルおよび第2のテーブルから、上述する特徴量を生成するための特徴量生成関数を生成する。具体的には、特徴量生成関数生成器81は、上述する結合条件(マップパラメータ)と、集約条件(集約パラメータ)とを用いて(組み合わせて)特徴量生成関数を生成する。また、特徴量生成関数生成器81は、結合条件および集約条件に加え、抽出条件(フィルタパラメータ)を用いて(組み合わせて)特徴量生成関数を生成してもよい。
また、本実施形態では、特徴量生成関数生成器81は、結合条件(マップパラメータ)のうち、地理的属性を対象にしたマップパラメータと時間的属性を対象にしたマップパラメータとを予め結合したマップパラメータを生成してもよい。特徴量生成関数生成器81は、例えば、図2に例示するコンフィグファイルのC4部分に示すようなパラメータ“time_spatial_map_combination”に“True”が設定されている場合に、地理的属性を対象にしたマップパラメータと時間的属性を対象にしたマップパラメータとを結合すると判断してもよい。
図17は、マップパラメータ同士を結合した例を示す説明図である。例えば、地理的属性を対象にした6つのマップパラメータP11,P12と、時間的属性を対象にした2つのマップパラメータP15が存在するとする。このとき、特徴量生成関数生成器81は、地理的属性を対象にしたマップパラメータと時間的属性を対象にしたマップパラメータとを1つずつ組み合わせて、新たなマップパラメータP31を生成してもよい。図17に示す例の場合、新しく6×2=12のマップパラメータが生成される。
以下、特徴量生成関数生成器81が特徴量生成関数を生成する手順を具体的に説明する。ここでは、図13に例示するターゲットテーブルT、ソーステーブルS1,S2が入力されるものとする。また、予測対象の変数(目的変数)は、ターゲットテーブルTに含まれる乗客数(pickup_number)を表す変数である。
図18は、パラメータを組み合わせて特徴量生成関数を生成する方法の例を示す説明図である。図18(a)は、ターゲットテーブルTとソーステーブルS1とから特徴量を生成するための特徴量生成関数を生成する組合せ例を示す。また、図18(b)は、ターゲットテーブルTとソーステーブルS2とから特徴量を生成するための特徴量生成関数を生成する組合せ例を示す。なお、図18(b)に示す例では、地理的属性を対象にしたマップパラメータと時間的属性を対象にしたマップパラメータとが結合されたマップパラメータが利用されるものとする。
図18(a)に示す例では、4のマップパラメータと9の集約パラメータが生成されている。特徴量生成関数生成器81は、これらのマップパラメータおよび集約パラメータから、それぞれ1つずつパラメータを選択し、各パラメータの組合せを生成する。この例の場合、各パラメータに基づいて、4×9=36通りの組合せが生成される。なお、フィルタパラメータが生成されている場合、特徴量生成関数生成器81は、マップパラメータ、フィルタパラメータおよび集約パラメータから、それぞれ1つずつパラメータを選択し、各パラメータの組合せを生成する。
図18(b)に示す例でも同様に、14のマップパラメータと7の集約パラメータが生成されている。特徴量生成関数生成器81は、これらのマップパラメータおよび集約パラメータから、それぞれ1つずつパラメータを選択し、各パラメータの組合せを生成する。この例の場合、各パラメータに基づいて、14×7=94通りの組合せが生成される。以上より、全部で、36+94=130のパラメータの組合せが生成される。
次に、特徴量生成関数生成器81は、生成された組合せに基づいて特徴量生成関数を生成する。具体的には、特徴量生成関数生成器81は、生成された組合せに含まれるパラメータを、表データの操作や定義を行う問合せ言語の形式に変換する。特徴量生成関数生成器81は、例えば、問合せ言語としてSQLを用いてもよい。
このとき、特徴量生成関数生成器81は、SQL文を生成するテンプレートに各パラメータを適用して特徴量生成関数を生成してもよい。具体的には、各パラメータを当てはめてSQL文を生成するためのテンプレートを予め用意しておき、特徴量生成関数生成器81は、生成された組合せに含まれる各パラメータを順次テンプレートに適用してSQL文を生成してもよい。この場合、特徴量生成関数は、SQL文として定義され、選択される各パラメータが、SQL文を生成するパラメータに対応する。
これらのパラメータの組合せで特徴量を定義すると、多数の種類の特徴量生成関数を単純な要素の組合せとして表現することが可能になる。したがって、複数の表データを利用して効率よく多数の特徴量の候補を生成できる。例えば、上述する例の場合、4つのマップパラメータと9つの集約パラメータ、および、14のマップパラメータと7つの集約パラメータを生成するだけで、130種類の特徴量を容易に生成することが可能になる。また、一度生成した各パラメータの定義は再利用できるため、特徴量生成関数を生成する工数自体も削減できるという効果も得られる。
特徴量生成器82は、特徴量生成関数を用いて特徴量を生成する。例えば、特徴量生成関数に、上述する距離の統計値を算出するパラメータが含まれているとする。この場合、特徴量生成器82は、特徴量生成関数に基づいて、第1の地理的属性のレコードごとに、所定の条件を満たす第2のテーブルのレコードを集約する演算を行うことにより、距離の統計値を算出してもよい。
具体的には、特徴量生成器82は、第2のテーブルのレコードを集約する演算として、第1の地理的属性の各レコードに対して所定の条件を満たす第2のテーブルの地理的属性との距離の合計と平均の少なくともいずれかを算出してもよい。そして、特徴量生成器82は、算出した距離の合計と平均の少なくともいずれかを特徴量として第1のテーブルの属性に追加してもよい。
他にも、特徴量生成器82は、第2のテーブルのレコードを集約する演算として、第1の地理的属性の各レコードに対して所定の条件を満たす第2のテーブルの地理的属性のレコード数を算出してもよい。そして、特徴量生成器82は、算出したレコード数を特徴量として第1のテーブルの属性に追加してもよい。
このように、特徴量生成器82は、生成した特徴量を第1のテーブルの属性に追加する処理も行うことから、特徴量生成器82のことを属性追加手段と言うことができる。また、特徴量生成器82が生成した特徴量は、後述する特徴量選択器83が特徴量を選択する際の候補となることから、特徴量の候補と言うこともできる。
なお、本実施形態では、特徴量生成器82が、特徴量生成関数を用いて特徴量の候補を生成する場合について説明した。ただし、特徴量生成器82が、類似度関数を用いて、第1のテーブルおよび第2のテーブルから、結合条件と集約条件とを用いて特徴量の候補を直接生成してもよい。上述するように、結合条件は、第1の属性の値と第2の属性の値とにより算出される類似度が、条件を満たす第1の属性の値を含む第1のテーブルのレコードと、第2の属性の値を含む第2のテーブルのレコードとを結合するための条件である。また、集約条件は、第2のテーブルにおける複数のレコードに対する集約方法およびその集約の対象になる列により表される条件である。
特徴量生成器82は、例えば、結合条件および集約条件がそれぞれ複数存在する場合、複数の結合条件と複数の集約条件とを組み合わせた数の特徴量を生成してもよい。結合条件および集約条件を組み合わせることにより、上述する特徴量生成関数生成器81が、特徴量生成関数を生成する処理と同様の効果が得られる。
特徴量選択器83は、生成された特徴量の中から、予測に最適な特徴量を選択する。なお、特徴量選択の方法は任意である。特徴量選択器83は、例えば、L1正則化を用いて特徴量を選択してもよい。ただし、特徴量の選択に用いるアルゴリズムはL1正則化に限られない。特徴量選択器83は、特徴量の選択に用いるアルゴリズムに応じて、予測に最適な特徴量を選択すればよい。
出力部90は、生成された特徴量を出力する。出力部90は、特徴量選択器83が選択した特徴量のみを出力してもよく、特徴量生成器82が生成した全ての特徴量を出力してもよい。
学習部91は、生成された特徴量を用いて予測モデルを学習する。学習部91は、例えば、追加された属性を特徴量として予測モデルを学習する。具体的には、学習部91は、生成された特徴量に第1のテーブルおよび第2のテーブルのデータを適用して、訓練データを生成する。そして、学習部91は、生成された特徴量を説明変数の候補として用いて、予測対象の値を予測するモデルを学習する。なお、モデルの学習方法は任意である。
予測部92は、学習部91によって学習されたモデルを用いて予測を行う。具体的には、予測部92は、生成された特徴量に第1のテーブルおよび第2のテーブルのデータを適用して、予測用データを生成する。そして、予測部92は、生成された予測用データを学習されたモデルに適用して予測結果を得る。
入力部10と、ジオコーダ20と、マップパラメータ生成器30と、フィルタパラメータ生成器50と、集約パラメータ生成器60と、特徴量生成関数生成器81と、特徴量生成器82と、特徴量選択器83と、出力部90と、学習部91と、予測部92とは、プログラム(情報処理プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array ))によって実現される。なお、マップパラメータ生成器30は、より詳しくは、ジオマップ生成器40(さらに詳しくは、距離マップ生成器41と、包含マップ生成器42と、重複マップ生成器43と、同地域マップ生成器44)と、時間差異マップ生成器31と、マップ生成器32と、属性特定部33とにより実現される。また、集約パラメータ生成器60は、ジオ集約生成器70(さらに詳しくは、ポイント集約生成器71と、エリア集約生成器72)と、数的集約生成器61とにより実現される。
例えば、プログラムは、記憶部80に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部10、ジオコーダ20、マップパラメータ生成器30、フィルタパラメータ生成器50、集約パラメータ生成器60、特徴量生成関数生成器81、特徴量生成器82、特徴量選択器83、出力部90、学習部91および予測部92として動作してもよい。また、情報処理システムの機能がSaaS(Software as a Service )形式で提供されてもよい。
入力部10と、ジオコーダ20と、マップパラメータ生成器30と、フィルタパラメータ生成器50と、集約パラメータ生成器60と、特徴量生成関数生成器81と、特徴量生成器82と、特徴量選択器83と、出力部90と、学習部91と、予測部92とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
また、各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。また、本実施形態の情報処理システム100が、単体の情報処理装置として実現されていてもよい。また、本実施形態の情報処理システム100の一部または全部は、上述する特徴量を生成する処理を行うことから、特徴量を生成する処理を行う機能を含む装置を、特徴量生成装置と言うことができる。
次に、本実施形態の情報処理システム100の動作を説明する。図19は、結合条件を生成する処理の例を示すフローチャートである。
入力部10は、予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得する(ステップS11)。また、入力部10は、地理的関係、および、地理的関係の程度を受け付ける(ステップS12)。マップパラメータ生成器30は、第1の地理的属性の値と第2の地理的属性の値との関係が地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する(ステップS13)。
図20は、結合条件を生成する処理の他の例を示すフローチャートである。入力部10は、予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得する(ステップS21)。また、入力部10は、時間的関係、および、時間的関係の程度を受け付ける(ステップS22)。マップパラメータ生成器30は、第1の時間的属性の値と第2の時間的属性の値との関係が時間的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する(ステップS23)。
図21は、特徴量を生成する処理の例を示すフローチャートである。入力部10は、予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得する(ステップS31)。特徴量生成器82は、第1の地理的属性の値に対する第2の地理的属性の値が所定の条件を満たす場合に距離の統計値を算出し(ステップS32)、算出した統計値を特徴量として第1のテーブルの属性に追加する(ステップS33)。
図22は、特徴量を生成する処理の他の例を示すフローチャートである。入力部10は、予測対象および第1の属性を含む第1のテーブルと、第2の属性を含む第2のテーブルとを取得する(ステップS41)。また、入力部10は、第1の属性と第2の属性との類似度の算出に用いられる類似度関数と、類似度に対する条件(例えば、類似度の閾値)とを受け付ける(ステップS42)。特徴量生成器82は、類似度関数を用いて算出される結合条件と集約条件とを用いて、第1のテーブルおよび第2のテーブルから特徴量の候補を生成する(ステップS43)。そして、特徴量選択器83は、特徴量の候補から、予測に最適な特徴量を選択する(ステップS44)。
以上のように、本実施形態では、入力部10が、予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得する。また、入力部10は、地理的関係、および、地理的関係の程度を受け付ける。そして、マップパラメータ生成器30が、第1の地理的属性の値と第2の地理的属性の値との関係が地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する。同様に、本実施形態では、入力部10が、予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得する。また、入力部10は、時間的関係、および、時間的関係の程度を受け付ける。そして、マップパラメータ生成器30が、第1の時間的属性の値と第2の時間的属性の値との関係が時間的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する。よって、地理的情報または時間的情報を介して複数の情報を関連付ける作業工数を低減できる。その結果、多様な表現で表された情報を処理するコンピュータの負荷を低減することが可能になる。
また、本実施形態では、入力部10が、予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得する。そして、特徴量生成器82は、第1の地理的属性の値に対する第2の地理的属性の値が所定の条件を満たす場合に、第1の地理的属性の値と条件を満たす第2の地理的属性の値とに基づいて算出される距離の統計値を、予測対象に影響を及ぼし得る変数である特徴量として第1のテーブルの属性に追加する。よって、地理的情報を有する複数の情報源から、効率よく特徴量を生成できる。
さらに、本実施形態では、入力部10が、予測対象および第1の属性を含む第1のテーブルと、第2の属性を含む第2のテーブルとを取得する。また、入力部10が、第1の属性と第2の属性との類似度の算出に用いられる類似度関数と、その類似度に対する条件とを受け付ける。そして、特徴量生成器82が、類似度関数を用いて算出される結合条件と集約条件とを用いて、第1のテーブルおよび第2のテーブルから特徴量の候補を生成し、特徴量選択器83が、特徴量の候補から、予測に最適な特徴量を選択する。よって、特徴量を生成するための分析者工数を削減できる。
次に、本発明の概要を説明する。図23は、本発明による情報処理装置の概要を示すブロック図である。本発明による情報処理装置180は、予測対象および第1の地理的属性を含む第1のテーブル(例えば、ターゲットテーブル)と、第2の地理的属性を含む第2のテーブル(例えば、ソーステーブル)とを取得するテーブル取得手段181(例えば、入力部10)と、地理的関係、および、地理的関係の程度を受け付ける受付手段182(例えば、入力部10)と、第1の地理的属性の値と第2の地理的属性の値との関係が地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件(例えば、マップパラメータ)を生成する結合条件生成手段183(例えば、マップパラメータ生成器30,ジオマップ生成器40)とを備えている。
そのような構成により、地理的情報を介して複数の情報を関連付ける作業工数を低減できる。
また、受付手段182は、点(例えば、Point)で表される第1の地理的属性と点(例えば、Point)で表される第2の地理的属性との距離を表す地理的関係(例えば、DistanceMap)を受け付け、併せて、地理的関係の程度としてその距離の閾値を1つ以上受け付けてもよい。そして、結合条件生成手段183(例えば、距離マップ生成器41)は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成してもよい。
他にも、受付手段182は、点(例えば、Point)で表される第1の地理的属性と点(例えば、Point)または領域(例えば、Area)で表される第2の地理的属性との近接数を表す地理的関係(例えば、KNearestMap)を受け付け、併せて、地理的関係の程度として第1の地理的属性に近接する順に適用する第2の地理的属性の数の閾値を1つ以上受け付けてもよい。そして、結合条件生成手段183(例えば、距離マップ生成器41)は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成してもよい。
他にも、受付手段182は、点(例えば、Point)で表される第1の地理的属性と点(例えば、Point)で表される第2の地理的属性とが同エリアに存在することを表す地理的関係(例えば、SameCityMap)を受け付けてもよい。そして、結合条件生成手段183(例えば、同地域マップ生成器44)は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成してもよい。
他にも、受付手段182は、点(例えば、Point)で表される第1の地理的属性が領域(例えば、Area)で表される第2の地理的属性に含まれることを表す地理的関係(例えば、InclusionMap)を受け付けてもよい。そして、結合条件生成手段183(例えば、包含マップ生成器42)は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成してもよい。
他にも、受付手段182は、領域(例えば、Area)で表される第1の地理的属性と領域(例えば、Area)で表される第2の地理的属性とが交差することを表す地理的関係(例えば、IntersectMap)を受け付けてもよい。そして、結合条件生成手段183(例えば、重複マップ生成器43)は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成してもよい。
なお、第1の地理的属性は、第1のテーブルのプライマリキーであってもよい。
また、第1の地理的データタイプと、第2の地理的データタイプとは、互いに異なる地理的データタイプであってもよい。
さらに、第1の地理的データタイプは、点の情報で地理を特定可能なデータのタイプであり、第2の地理的データタイプは、範囲の情報で地理を特定可能なデータのタイプであってもよい。
また、情報処理装置180は、結合条件と、第2のテーブルにおける複数のレコードに対する集約方法およびその集約の対象になる列により表される集約条件(例えば、集約パラメータ)とを用いて、第1のテーブルおよび第2のテーブルから、予測対象に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を生成する関数生成手段(例えば、特徴量生成関数生成器81)と、特徴量生成関数を用いて、特徴量を生成する特徴量生成手段(例えば、特徴量生成器82)と、生成された特徴量の中から、予測に最適な特徴量を選択する特徴量選択手段(例えば、特徴量選択器83)とを備えていてもよい。
また、テーブル取得手段181は、第1のテーブルと、一つまたは複数の第2のテーブルとを取得してもよい。このとき、第1の地理的属性および第2の地理的属性は、それぞれ地理的データタイプを有し、受付手段182は、第1の地理的データタイプと第2の地理的データタイプとの組み合わせを受け付けてもよい。そして、情報処理装置180は、第1の地理的データタイプと同じデータタイプを有する第1の地理的属性を第1のテーブルから特定し、且つ、第2の地理的情報のデータタイプと同じデータタイプを有する第2の地理的属性を第2のテーブルから特定する属性特定手段(例えば、属性特定部33)を更に備えていてもよい。このとき、結合条件生成手段183は、特定された第1の地理的属性の値と特定された第2の地理的属性の値との関係が地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成してもよい。
また、結合条件生成手段183は、地理的関係の判断対象である第1の地理的属性を含む第1のテーブルの列および第2の地理的属性を含む第2のテーブルの列と、地理的関係の程度とを含む結合条件を、記憶部(例えば、記憶部80)に記憶させてもよい。
図24は、本発明による情報処理装置の他の概要を示すブロック図である。本発明による情報処理装置190は、予測対象および第1の時間的属性を含む第1のテーブル(例えば、ターゲットテーブル)と、第2の時間的属性を含む第2のテーブル(例えば、ソーステーブル)とを取得するテーブル取得手段191(例えば、入力部10)と、時間的関係、および、時間的関係の程度を受け付ける受付手段192(例えば、入力部10)と、第1の時間的属性の値と第2の時間的属性の値との関係が時間的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件(例えば、マップパラメータ)を生成する結合条件生成手段193(例えば、マップパラメータ生成器30、時間差異マップ生成器31)とを備えている。
そのような構成により、時間的情報を介して複数の情報を関連付ける作業工数を低減できる。
また、受付手段192は、第1の時間的属性と第2の時間的属性との差異を表す時間的関係(例えば、TimeDiffMap)を受け付け、併せて、時間的関係の程度としてその差異の閾値を1つ以上受け付けてもよい。そして、結合条件生成手段193は、受け付けた時間的関係および時間的関係の程度に基づいて結合条件を生成してもよい。
また、結合条件生成手段193は、時間的関係の判断対象である第1の時間的属性を含む第1のテーブルの列および第2の時間的属性を含む第2のテーブルの列と、時間的関係の程度とを含む結合条件を、記憶部(例えば、記憶部80)に記憶させてもよい。
また、情報処理装置190が、情報処理装置180が備える関数生成手段、特徴量生成手段および特徴量選択手段を備えていてもよい。また、情報処理装置190が、情報処理装置180が備える属性特定手段を備えていてもよい。
図25は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述の情報処理システムは、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(結合条件生成プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行しても良い。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得するテーブル取得手段と、地理的関係、および、前記地理的関係の程度を受け付ける受付手段と、前記第1の地理的属性の値と前記第2の地理的属性の値との関係が前記地理的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成手段とを備えたことを特徴とする情報処理装置。
(付記2)受付手段は、点で表される第1の地理的属性と点で表される第2の地理的属性との距離を表す地理的関係を受け付け、併せて、地理的関係の程度として当該距離の閾値を1つ以上受け付け、結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する付記1記載の情報処理装置。
(付記3)受付手段は、点で表される第1の地理的属性と点または領域で表される第2の地理的属性との近接数を表す地理的関係を受け付け、併せて、地理的関係の程度として第1の地理的属性に近接する順に適用する第2の地理的属性の数の閾値を1つ以上受け付け、結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する付記1記載の情報処理装置。
(付記4)受付手段は、点で表される第1の地理的属性と点で表される第2の地理的属性とが同エリアに存在することを表す地理的関係を受け付け、
結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する付記1記載の情報処理装置。
結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する付記1記載の情報処理装置。
(付記5)受付手段は、点で表される第1の地理的属性が領域で表される第2の地理的属性に含まれることを表す地理的関係を受け付け、結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する付記1記載の情報処理装置。
(付記6)受付手段は、領域で表される第1の地理的属性と領域で表される第2の地理的属性とが交差することを表す地理的関係を受け付け、結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する付記1記載の情報処理装置。
(付記7)第1の地理的属性は、第1のテーブルのプライマリキーである付記1から付記6のうちのいずれか1つに記載の情報処理装置。
(付記8)第1の地理的データタイプと、第2の地理的データタイプとは、互いに異なる地理的データタイプである付記1から付記7のうちのいずれか1つに記載の情報処理装置。
(付記9)第1の地理的データタイプは、点の情報で地理を特定可能なデータのタイプであり、第2の地理的データタイプは、範囲の情報で地理を特定可能なデータのタイプである付記1から付記8のうちのいずれか1つに記載の情報処理装置。
(付記10)結合条件生成手段は、地理的関係の判断対象である第1の地理的属性を含む第1のテーブルの列および第2の地理的属性を含む第2のテーブルの列と、地理的関係の程度とを含む結合条件を、記憶部に記憶させる付記1から付記9のうちのいずれか1つに記載の情報処理装置。
(付記11)予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得するテーブル取得手段と、時間的関係、および、前記時間的関係の程度を受け付ける受付手段と、前記第1の時間的属性の値と前記第2の時間的属性の値との関係が前記時間的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成手段とを備えたことを特徴とする情報処理装置。
(付記12)受付手段は、第1の時間的属性と第2の時間的属性との差異を表す時間的関係を受け付け、併せて、時間的関係の程度として当該差異の閾値を1つ以上受け付け、結合条件生成手段は、受け付けた時間的関係および時間的関係の程度に基づいて結合条件を生成する付記11記載の情報処理装置。
(付記13)結合条件生成手段は、時間的関係の判断対象である第1の時間的属性を含む第1のテーブルの列および第2の時間的属性を含む第2のテーブルの列と、時間的関係の程度とを含む結合条件を、記憶部に記憶させる付記11または付記12に記載の情報処理装置。
(付記14)結合条件と、第2のテーブルにおける複数のレコードに対する集約方法および当該集約の対象になる列により表される集約条件とを用いて、第1のテーブルおよび第2のテーブルから、予測対象に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を生成する関数生成手段と、前記特徴量生成関数を用いて、前記特徴量を生成する特徴量生成手段と、生成された特徴量の中から、予測に最適な特徴量を選択する特徴量選択手段とを備えた付記1から付記13のうちのいずれか1つに記載の情報処理装置。
(付記15)テーブル取得手段は、第1のテーブルと、一つまたは複数の第2のテーブルとを取得し、第1の地理的属性および第2の地理的属性は、それぞれ地理的データタイプを有し、受付手段は、第1の地理的データタイプと第2の地理的データタイプとの組み合わせを受け付け、第1の地理的データタイプと同じデータタイプを有する第1の地理的属性を第1のテーブルから特定し、且つ、第2の地理的情報のデータタイプと同じデータタイプを有する第2の地理的属性を第2のテーブルから特定する属性特定手段を更に備え、結合条件生成手段は、特定された第1の地理的属性の値と特定された第2の地理的属性の値との関係が地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する付記1から付記14のうちのいずれか1つに記載の情報処理装置。
(付記16)予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得し、地理的関係、および、前記地理的関係の程度を受け付け、前記第1の地理的属性の値と前記第2の地理的属性の値との関係が前記地理的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成することを特徴とする結合条件生成方法。
(付記17)点で表される第1の地理的属性と点で表される第2の地理的属性との距離を表す地理的関係を受け付け、併せて、地理的関係の程度として当該距離の閾値を1つ以上受け付け、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する付記16記載の結合条件生成方法。
(付記18)予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得し、時間的関係、および、前記時間的関係の程度を受け付け、前記第1の時間的属性の値と前記第2の時間的属性の値との関係が前記時間的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成することを特徴とする結合条件生成方法。
(付記19)第1の時間的属性と第2の時間的属性との差異を表す時間的関係を受け付け、併せて、時間的関係の程度として当該差異の閾値を1つ以上受け付け、受け付けた時間的関係および時間的関係の程度に基づいて結合条件を生成する付記18記載の結合条件生成方法。
(付記20)コンピュータに、予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得するテーブル取得処理、地理的関係、および、前記地理的関係の程度を受け付ける受付手処理、および、前記第1の地理的属性の値と前記第2の地理的属性の値との関係が前記地理的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成処理を実行させるための結合条件生成プログラム。
(付記21)コンピュータに、受付処理で、点で表される第1の地理的属性と点で表される第2の地理的属性との距離を表す地理的関係を受け付け、併せて、地理的関係の程度として当該距離の閾値を1つ以上受け付けさせ、結合条件生成処理で、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成させる付記20記載の結合条件生成プログラム。
(付記22)コンピュータに、予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得するテーブル取得処理、時間的関係、および、前記時間的関係の程度を受け付ける受付処理、および、前記第1の時間的属性の値と前記第2の時間的属性の値との関係が前記時間的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成処理を実行させるための結合条件生成プログラム。
(付記23)コンピュータに、受付処理で、第1の時間的属性と第2の時間的属性との差異を表す時間的関係を受け付けさせ、併せて、時間的関係の程度として当該差異の閾値を1つ以上受け付けさせ、結合条件生成処理で、受け付けた時間的関係および時間的関係の程度に基づいて結合条件を生成させる付記22記載の結合条件生成プログラム。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2017年10月5日に出願された米国仮出願第62/568,544号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10 入力部
20 ジオコーダ
30 マップパラメータ生成器
31 時間差異マップ生成器
32 マップ生成器
33 属性特定部
40 ジオマップ生成器
41 距離マップ生成器
42 包含マップ生成器
43 重複マップ生成器
44 同地域マップ生成器
50 フィルタパラメータ生成器
51 フィルタ生成器
60 集約パラメータ生成器
61 数的集約生成器
70 ジオ集約生成器
71 ポイント集約生成器
72 エリア集約生成器
80 記憶部
81 特徴量生成関数生成器
82 特徴量生成器
83 特徴量選択器
90 出力部
91 学習部
92 予測部
20 ジオコーダ
30 マップパラメータ生成器
31 時間差異マップ生成器
32 マップ生成器
33 属性特定部
40 ジオマップ生成器
41 距離マップ生成器
42 包含マップ生成器
43 重複マップ生成器
44 同地域マップ生成器
50 フィルタパラメータ生成器
51 フィルタ生成器
60 集約パラメータ生成器
61 数的集約生成器
70 ジオ集約生成器
71 ポイント集約生成器
72 エリア集約生成器
80 記憶部
81 特徴量生成関数生成器
82 特徴量生成器
83 特徴量選択器
90 出力部
91 学習部
92 予測部
Claims (23)
- 予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得するテーブル取得手段と、
地理的関係、および、前記地理的関係の程度を受け付ける受付手段と、
前記第1の地理的属性の値と前記第2の地理的属性の値との関係が前記地理的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成手段とを備えた
ことを特徴とする情報処理装置。 - 受付手段は、点で表される第1の地理的属性と点で表される第2の地理的属性との距離を表す地理的関係を受け付け、併せて、地理的関係の程度として当該距離の閾値を1つ以上受け付け、
結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する
請求項1記載の情報処理装置。 - 受付手段は、点で表される第1の地理的属性と点または領域で表される第2の地理的属性との近接数を表す地理的関係を受け付け、併せて、地理的関係の程度として第1の地理的属性に近接する順に適用する第2の地理的属性の数の閾値を1つ以上受け付け、
結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する
請求項1記載の情報処理装置。 - 受付手段は、点で表される第1の地理的属性と点で表される第2の地理的属性とが同エリアに存在することを表す地理的関係を受け付け、
結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する
請求項1記載の情報処理装置。 - 受付手段は、点で表される第1の地理的属性が領域で表される第2の地理的属性に含まれることを表す地理的関係を受け付け、
結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する
請求項1記載の情報処理装置。 - 受付手段は、領域で表される第1の地理的属性と領域で表される第2の地理的属性とが交差することを表す地理的関係を受け付け、
結合条件生成手段は、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する
請求項1記載の情報処理装置。 - 第1の地理的属性は、第1のテーブルのプライマリキーである
請求項1から請求項6のうちのいずれか1項に記載の情報処理装置。 - 第1の地理的データタイプと、第2の地理的データタイプとは、互いに異なる地理的データタイプである
請求項1から請求項7のうちのいずれか1項に記載の情報処理装置。 - 第1の地理的データタイプは、点の情報で地理を特定可能なデータのタイプであり、第2の地理的データタイプは、範囲の情報で地理を特定可能なデータのタイプである
請求項1から請求項8のうちのいずれか1項に記載の情報処理装置。 - 結合条件生成手段は、地理的関係の判断対象である第1の地理的属性を含む第1のテーブルの列および第2の地理的属性を含む第2のテーブルの列と、地理的関係の程度とを含む結合条件を、記憶部に記憶させる
請求項1から請求項9のうちのいずれか1項に記載の情報処理装置。 - 予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得するテーブル取得手段と、
時間的関係、および、前記時間的関係の程度を受け付ける受付手段と、
前記第1の時間的属性の値と前記第2の時間的属性の値との関係が前記時間的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成手段とを備えた
ことを特徴とする情報処理装置。 - 受付手段は、第1の時間的属性と第2の時間的属性との差異を表す時間的関係を受け付け、併せて、時間的関係の程度として当該差異の閾値を1つ以上受け付け、
結合条件生成手段は、受け付けた時間的関係および時間的関係の程度に基づいて結合条件を生成する
請求項11記載の情報処理装置。 - 結合条件生成手段は、時間的関係の判断対象である第1の時間的属性を含む第1のテーブルの列および第2の時間的属性を含む第2のテーブルの列と、時間的関係の程度とを含む結合条件を、記憶部に記憶させる
請求項11または請求項12に記載の情報処理装置。 - 結合条件と、第2のテーブルにおける複数のレコードに対する集約方法および当該集約の対象になる列により表される集約条件とを用いて、第1のテーブルおよび第2のテーブルから、予測対象に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を生成する関数生成手段と、
前記特徴量生成関数を用いて、前記特徴量を生成する特徴量生成手段と、
生成された特徴量の中から、予測に最適な特徴量を選択する特徴量選択手段とを備えた
請求項1から請求項13のうちのいずれか1項に記載の情報処理装置。 - テーブル取得手段は、第1のテーブルと、一つまたは複数の第2のテーブルとを取得し、
第1の地理的属性および第2の地理的属性は、それぞれ地理的データタイプを有し、
受付手段は、第1の地理的データタイプと第2の地理的データタイプとの組み合わせを受け付け、
第1の地理的データタイプと同じデータタイプを有する第1の地理的属性を第1のテーブルから特定し、且つ、第2の地理的情報のデータタイプと同じデータタイプを有する第2の地理的属性を第2のテーブルから特定する属性特定手段を更に備え、
結合条件生成手段は、特定された第1の地理的属性の値と特定された第2の地理的属性の値との関係が地理的関係の程度を満たすような、第1のテーブルに含まれるレコードと第2のテーブルに含まれるレコードとを結合するための結合条件を生成する
請求項1から請求項14のうちのいずれか1項に記載の情報処理装置。 - 予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得し、
地理的関係、および、前記地理的関係の程度を受け付け、
前記第1の地理的属性の値と前記第2の地理的属性の値との関係が前記地理的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成する
ことを特徴とする結合条件生成方法。 - 点で表される第1の地理的属性と点で表される第2の地理的属性との距離を表す地理的関係を受け付け、併せて、地理的関係の程度として当該距離の閾値を1つ以上受け付け、
受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成する
請求項16記載の結合条件生成方法。 - 予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得し、
時間的関係、および、前記時間的関係の程度を受け付け、
前記第1の時間的属性の値と前記第2の時間的属性の値との関係が前記時間的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成する
ことを特徴とする結合条件生成方法。 - 第1の時間的属性と第2の時間的属性との差異を表す時間的関係を受け付け、併せて、時間的関係の程度として当該差異の閾値を1つ以上受け付け、
受け付けた時間的関係および時間的関係の程度に基づいて結合条件を生成する
請求項18記載の結合条件生成方法。 - コンピュータに、
予測対象および第1の地理的属性を含む第1のテーブルと、第2の地理的属性を含む第2のテーブルとを取得するテーブル取得処理、
地理的関係、および、前記地理的関係の程度を受け付ける受付手処理、および、
前記第1の地理的属性の値と前記第2の地理的属性の値との関係が前記地理的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成処理
を実行させるための結合条件生成プログラム。 - コンピュータに、
受付処理で、点で表される第1の地理的属性と点で表される第2の地理的属性との距離を表す地理的関係を受け付け、併せて、地理的関係の程度として当該距離の閾値を1つ以上受け付けさせ、
結合条件生成処理で、受け付けた地理的関係および地理的関係の程度に基づいて結合条件を生成させる
請求項20記載の結合条件生成プログラム。 - コンピュータに、
予測対象および第1の時間的属性を含む第1のテーブルと、第2の時間的属性を含む第2のテーブルとを取得するテーブル取得処理、
時間的関係、および、前記時間的関係の程度を受け付ける受付処理、および、
前記第1の時間的属性の値と前記第2の時間的属性の値との関係が前記時間的関係の程度を満たすような、前記第1のテーブルに含まれるレコードと前記第2のテーブルに含まれるレコードとを結合するための結合条件を生成する結合条件生成処理
を実行させるための結合条件生成プログラム。 - コンピュータに、
受付処理で、第1の時間的属性と第2の時間的属性との差異を表す時間的関係を受け付けさせ、併せて、時間的関係の程度として当該差異の閾値を1つ以上受け付けさせ、
結合条件生成処理で、受け付けた時間的関係および時間的関係の程度に基づいて結合条件を生成させる
請求項22記載の結合条件生成プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762568544P | 2017-10-05 | 2017-10-05 | |
US62/568,544 | 2017-10-05 | ||
PCT/JP2018/022427 WO2019069505A1 (ja) | 2017-10-05 | 2018-06-12 | 情報処理装置、結合条件生成方法および結合条件生成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2019069505A1 true JPWO2019069505A1 (ja) | 2020-11-05 |
Family
ID=65994210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019546530A Pending JPWO2019069505A1 (ja) | 2017-10-05 | 2018-06-12 | 情報処理装置、結合条件生成方法および結合条件生成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200334246A1 (ja) |
JP (1) | JPWO2019069505A1 (ja) |
WO (1) | WO2019069505A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7098327B2 (ja) | 2015-11-25 | 2022-07-11 | ドットデータ インコーポレイテッド | 情報処理システム、関数作成方法および関数作成プログラム |
EP3605363A4 (en) | 2017-03-30 | 2020-02-26 | Nec Corporation | INFORMATION PROCESSING SYSTEM, CHARACTERISTICS, AND CHARACTERISTICS PROGRAM |
SG11202003814TA (en) * | 2017-10-05 | 2020-05-28 | Dotdata Inc | Feature generating device, feature generating method, and feature generating program |
US11461333B2 (en) * | 2019-01-15 | 2022-10-04 | Business Objects Software Ltd. | Vertical union of feature-based datasets |
US11082757B2 (en) | 2019-03-25 | 2021-08-03 | Rovi Guides, Inc. | Systems and methods for creating customized content |
US11562016B2 (en) | 2019-06-26 | 2023-01-24 | Rovi Guides, Inc. | Systems and methods for generating supplemental content for media content |
US11256863B2 (en) | 2019-07-19 | 2022-02-22 | Rovi Guides, Inc. | Systems and methods for generating content for a screenplay |
US11145029B2 (en) | 2019-07-25 | 2021-10-12 | Rovi Guides, Inc. | Automated regeneration of low quality content to high quality content |
US11604827B2 (en) * | 2020-02-21 | 2023-03-14 | Rovi Guides, Inc. | Systems and methods for generating improved content based on matching mappings |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090475A1 (ja) * | 2015-11-25 | 2017-06-01 | 日本電気株式会社 | 情報処理システム、関数作成方法および関数作成プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3517345B2 (ja) * | 1998-02-03 | 2004-04-12 | 日本電信電話株式会社 | 住所情報による異種データの結合処理方法および装置 |
US6721754B1 (en) * | 1999-04-28 | 2004-04-13 | Arena Pharmaceuticals, Inc. | System and method for database similarity join |
CA2712028C (en) * | 2010-08-25 | 2011-12-20 | Ibm Canada Limited - Ibm Canada Limitee | Geospatial database integration using business models |
-
2018
- 2018-06-12 JP JP2019546530A patent/JPWO2019069505A1/ja active Pending
- 2018-06-12 WO PCT/JP2018/022427 patent/WO2019069505A1/ja active Application Filing
- 2018-06-12 US US16/753,754 patent/US20200334246A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090475A1 (ja) * | 2015-11-25 | 2017-06-01 | 日本電気株式会社 | 情報処理システム、関数作成方法および関数作成プログラム |
Non-Patent Citations (2)
Title |
---|
空間結合 (SPATIAL JOIN), JPN6022035270, 18 March 2017 (2017-03-18), ISSN: 0005015488 * |
近接情報テーブルの生成 (GENERATE NEAR TABLE), JPN6022035269, 20 November 2016 (2016-11-20), ISSN: 0005015489 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019069505A1 (ja) | 2019-04-11 |
US20200334246A1 (en) | 2020-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2019069505A1 (ja) | 情報処理装置、結合条件生成方法および結合条件生成プログラム | |
CN106649331B (zh) | 商圈识别方法及设备 | |
US9098591B2 (en) | Spatio-temporal data management system, spatio-temporal data management method, and machine-readable storage medium thereof | |
CN110008413B (zh) | 一种交通出行问题查询方法和装置 | |
CN102163214B (zh) | 一种数字地图生成装置及方法 | |
CN107203526B (zh) | 一种查询串语义需求分析方法及装置 | |
CN112084269B (zh) | 数据质量计算方法、装置、存储介质及服务器 | |
CN109359186B (zh) | 一种确定地址信息的方法、装置和计算机可读存储介质 | |
CN107491537A (zh) | Poi数据挖掘、信息检索方法、装置、设备及介质 | |
JPWO2019069507A1 (ja) | 特徴量生成装置、特徴量生成方法および特徴量生成プログラム | |
JP7098327B2 (ja) | 情報処理システム、関数作成方法および関数作成プログラム | |
CN114677570B (zh) | 道路信息更新方法、装置、电子设备以及存储介质 | |
CN103712628B (zh) | 导航路径描绘方法和终端 | |
CN110245286B (zh) | 一种基于数据挖掘的旅行推荐方法及装置 | |
CN115544088A (zh) | 地址信息查询方法、装置、电子设备及存储介质 | |
CN114398315A (zh) | 一种数据存储方法、系统、存储介质及电子设备 | |
CN117807091A (zh) | 数据的关联方法及装置 | |
CN112685618A (zh) | 用户特征识别方法、装置、计算设备及计算机存储介质 | |
CN111143356A (zh) | 报表检索方法及装置 | |
JP2013015907A (ja) | 画像分類装置、画像分類装置の制御方法及びプログラム | |
WO2019069506A1 (ja) | 特徴量生成装置、特徴量生成方法および特徴量生成プログラム | |
CN107329730B (zh) | 语音提示信息生成方法及装置 | |
CN111460325A (zh) | Poi搜索方法、装置与设备 | |
CN116452014B (zh) | 应用于城市规划的企业集群确定方法、装置及电子设备 | |
CN110443493B (zh) | 路线相似度确定方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220824 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230320 |