JPWO2013153725A1 - Data search device, data search method, and data search program - Google Patents
Data search device, data search method, and data search program Download PDFInfo
- Publication number
- JPWO2013153725A1 JPWO2013153725A1 JP2014510029A JP2014510029A JPWO2013153725A1 JP WO2013153725 A1 JPWO2013153725 A1 JP WO2013153725A1 JP 2014510029 A JP2014510029 A JP 2014510029A JP 2014510029 A JP2014510029 A JP 2014510029A JP WO2013153725 A1 JPWO2013153725 A1 JP WO2013153725A1
- Authority
- JP
- Japan
- Prior art keywords
- data
- mapping
- search
- criterion
- viewpoint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
空間写像生成手段81は、他のデータとの類似性が判断可能な空間上に検索対象のデータを写像する空間属性写像を生成する。観点写像生成手段82は、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像を生成する。空間属性情報生成手段83は、空間属性写像を用いて検索対象のデータを変換することにより、そのデータに対応する空間属性情報を生成する。部分集合生成手段84は、許容近傍範囲基準に従って空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成する。写像手段85は、観点属性写像を用いて、各部分集合を全順序集合の元に写像する。The spatial mapping generation unit 81 generates a spatial attribute mapping that maps the data to be searched in a space where similarity with other data can be determined. The viewpoint map generation unit 82 generates a viewpoint attribute map that maps one or more pieces of given data under a totally ordered set. The space attribute information generating unit 83 generates space attribute information corresponding to the data by converting the search target data using the space attribute mapping. The subset generation unit 84 divides the set of spatial attribute information according to the allowable neighborhood range criterion, and creates a set of search target data corresponding to each of the divided spatial attribute information as a subset of the search target data. The mapping unit 85 maps each subset to a fully ordered set using the viewpoint attribute mapping.
Description
本発明は、検索対象とするデータ群から関心の高いデータの部分集合を抽出するデータ抽出装置、データ検索方法およびデータ検索用プログラムに関する。 The present invention relates to a data extraction apparatus, a data search method, and a data search program for extracting a subset of data of high interest from a data group to be searched.
関心のあるデータの特徴に近いデータを検索する方法として、最近傍検索が知られている。これは、画像データなどが特徴ベクトルで表現され、検索(クエリ)キーとして用いられるこの特徴ベクトルに類似した特徴ベクトルを有するデータを複数抽出する方法である。 Nearest neighbor search is known as a method for searching for data close to the characteristics of data of interest. This is a method of extracting a plurality of pieces of data having feature vectors similar to the feature vectors used as search (query) keys, such as image data represented by feature vectors.
特に、複数(K個)の類似ベクトルを検索する方法として、KNN(K−Nearest Neighbor)探索などが知られている。また、検索方法として、木構造を用いたR−treeや、ANN(Approximate Nearest Neighbor)なども使用される。 In particular, as a method for searching for a plurality (K) of similar vectors, a KNN (K-Nearest Neighbor) search or the like is known. Further, R-tree using a tree structure, ANN (Applied Nearest Neighbor), and the like are also used as a search method.
R−treeなどの方法では、特徴ベクトル空間における空間インデックスを予め木構造で作成しておき、特徴ベクトル間の距離などが、所定の指定範囲に収まるデータを検索する。なお、この木構造は、検索速度を向上する目的で作成される。 In a method such as R-tree, a spatial index in a feature vector space is created in advance in a tree structure, and data in which the distance between feature vectors is within a specified range is searched. This tree structure is created for the purpose of improving the search speed.
ANNは、近似的に検索を行うことで、検索処理をさらに高速化させる方法である。また、高次元の特徴ベクトルに対しても検索処理が有効に作用することを目的として、LSH(Locality Sensitive Hashing)なども提案されている(非特許文献1参照。) ANN is a method of further speeding up the search process by performing an approximate search. In addition, LSH (Locality Sensitive Hashing) has been proposed for the purpose of effective search processing even for high-dimensional feature vectors (see Non-Patent Document 1).
また、特許文献1には、高次元の特徴ベクトルを検索する検索装置が記載されている。特許文献1に記載された検索装置は、特徴ベクトルそのものをインデックス化するのではなく、特徴ベクトルを量子化することにより得られる量子化コードを用いることで、メモリ使用率を削減する。 Patent Document 1 describes a search device that searches for high-dimensional feature vectors. The search device described in Patent Document 1 does not index feature vectors themselves, but uses a quantization code obtained by quantizing feature vectors, thereby reducing the memory usage rate.
上述する方法では、検索したいデータ(すなわち、関心の高いデータ)がデータ間の類似性を判断するために考慮される特徴ベクトル空間に表現されることが、暗黙的に仮定されている。つまり、上述する方法では、検索したいデータを特徴ベクトル空間の一点として表現している(すなわち、検索者の関心を特徴ベクトルで表現している)。そのため、上述する方法では、空間上に表現された点の近傍を、いかに効率的に検索するかが課題になる。 In the method described above, it is implicitly assumed that the data to be searched (i.e., data of high interest) is represented in a feature vector space that is considered to determine the similarity between the data. That is, in the method described above, the data to be searched is expressed as one point in the feature vector space (that is, the searcher's interest is expressed by the feature vector). Therefore, in the method described above, there is a problem of how to efficiently search for the vicinity of a point expressed in space.
しかし、例えば、ある特徴ベクトル空間を作成した場合に、その空間の中で「飛び地」的に分散(分布)するデータを検索することを想定する。この場合、上述する方法では、検索のために複雑なクエリを作成する必要がある。 However, for example, when a certain feature vector space is created, it is assumed that data that is distributed (distributed) in an “enclave” manner is searched in the space. In this case, in the method described above, it is necessary to create a complicated query for the search.
例えば、実行しようとするクエリが同じ特徴ベクトル空間内で「特徴Aまたは特徴Bを有するデータ」を検索するクエリであれば、独立に複数のクエリを発行した後でそれぞれの結果をマージすればよい。しかし、そもそも、特徴ベクトルとして、特徴Aと特徴Bとを同じ空間で考えるべきではない場合も存在する。この場合、クエリ自体の作成が大変困難になり、特徴ベクトル空間自体を別途作成し直すことも必要になる。 For example, if the query to be executed is a query that searches for “data having feature A or feature B” in the same feature vector space, each query may be merged after issuing a plurality of queries independently. . However, in the first place, there are cases where the feature A and the feature B should not be considered in the same space as the feature vector. In this case, it becomes very difficult to create the query itself, and it is also necessary to recreate the feature vector space itself.
一般に、特徴ベクトル空間のインデックスなどを構造化する作業は計算負荷が大きい。そのため、自由な検索を柔軟かつインタラクティブに行う場合、あまり頻繁に特徴ベクトル空間を再構成することは、好ましくない。 In general, the work of structuring the index of the feature vector space has a heavy calculation load. Therefore, when performing a free search flexibly and interactively, it is not preferable to reconfigure the feature vector space too frequently.
上記問題は、類似性を判断する観点が複数ある場合などに生じる。また、上記問題は、データの類似性の視点と、データに対する関心の高さを表す視点とが異なる場合などに生じる。ここで、データの類似性は、データ検索において条件を制限するために用いられ、近辺に存在するデータをおおよそ同じデータとみなしてよいか判断するために用いられる量である。また、データに対する関心の高さは、検索するユーザがどのようなデータに興味があるか判断するために用いられる量である。 The above problem occurs when there are a plurality of viewpoints for judging similarity. The above problem occurs when the viewpoint of similarity of data is different from the viewpoint representing the level of interest in data. Here, the similarity of data is an amount used for limiting a condition in data search and used for determining whether data existing in the vicinity can be regarded as approximately the same data. The high interest in data is an amount used to determine what kind of data the searching user is interested in.
例えば、位置情報が付与されたテキストデータを対象に、「類似するテキスト情報がなるべく密集している領域」を検索する場合を想定する。この場合、データの類似性を判断する際、テキスト情報の類似性だけでなく、位置的な類似性も同時に考慮する必要がある。 For example, a case is assumed in which “an area where similar text information is as dense as possible” is searched for text data to which position information is added. In this case, when determining the similarity of data, it is necessary to consider not only the similarity of text information but also the positional similarity.
一般的な方法を利用して、単一の特徴ベクトル空間でこれを表現するには、テキスト情報と位置情報の両方が含まれる特徴ベクトル空間を作成する必要がある。そして、テキスト情報のみで考えた場合に近距離に存在する(すなわち、類似する)データの中で、位置情報でも類似するデータ群を許容された範囲の条件に応じて検索する必要がある。さらに、この検索を行うための処理を一般的な近傍検索で用いられる書式で作成する場合、その処理を作成するのは、非常に複雑になる。 In order to express this in a single feature vector space using a general method, it is necessary to create a feature vector space including both text information and position information. When considering only text information, it is necessary to search for data groups that are similar in position information among data existing at a short distance (that is, similar) according to the conditions of the permitted range. Further, when the process for performing this search is created in a format used in general neighborhood search, it is very complicated to create the process.
さらに、関心のある特徴が、類似するテキスト情報が密集する領域であれば、類似するテキスト情報として単に密集するデータを用いればよい。しかし、観点が変更され、単にテキスト情報の類似性ではなく、もっと複雑な観点による判断をしてデータの取捨選択を行いたいことも想定される。この場合、特徴ベクトル空間自体も合わせて作り直す必要が生じる可能性がある。 Furthermore, if the feature of interest is a region where similar text information is concentrated, data that is only concentrated as similar text information may be used. However, the viewpoint may be changed, and it may be assumed that it is not just the similarity of text information, but that it is desired to make a selection based on a more complicated viewpoint. In this case, it may be necessary to recreate the feature vector space itself.
このように、データ検索処理では、複数の類似性を示す観点が存在する場合や、各データ検索処理において、考慮すべき複数の類似性を示す観点の使われ方が異なる場合も存在する。特徴ベクトル空間における近傍検索処理を一般的な方法で行う場合、クエリが複雑になったり、データ検索のための再構造化が必要なったりする問題がある。そのため、複数の類似性を示す観点に基づいて複雑な検索を行う場合であっても、高速かつ柔軟にデータ検索を行えることが望ましい。 As described above, in the data search process, there are cases where a plurality of similar viewpoints exist, and in each data search process, the viewpoints indicating a plurality of similarities to be considered may be used differently. When the neighborhood search processing in the feature vector space is performed by a general method, there are problems that the query becomes complicated or that restructuring for data search is necessary. For this reason, it is desirable that data search can be performed at high speed and flexibly even when a complicated search is performed based on a viewpoint showing a plurality of similarities.
そこで、本発明は、データ間の複数の類似性を示す観点に基づいて検索を行う場合であっても、高速かつ柔軟にデータ検索を行うことができるデータ検索装置、データ検索方法およびデータ検索用プログラムを提供することを目的とする。 Therefore, the present invention provides a data search apparatus, a data search method, and a data search method that can perform data search at high speed and flexibly even when searching based on a viewpoint that shows a plurality of similarities between data. The purpose is to provide a program.
本発明によるデータ検索装置は、検索対象のデータの類似性を判断する基準として用いられる近傍基準と、検索対象のデータが類似する範囲を示す許容近傍範囲基準と、検索する観点を示す観点基準とを含むクエリの入力に応じ、前記近傍基準および許容近傍範囲基準に基づいて、他のデータとの類似性が判断可能な空間上に検索対象のデータを写像する空間属性写像を生成する空間写像生成手段と、前記クエリの入力に応じ、前記観点基準に基づいて、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像を生成する観点写像生成手段と、前記空間属性写像を用いて検索対象のデータを変換することにより、そのデータに対応する空間属性情報を生成する空間属性情報生成手段と、前記許容近傍範囲基準に従って前記空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成する部分集合生成手段と、前記観点属性写像を用いて、前記各部分集合を全順序集合の元に写像する写像手段と、写像された全順序集合の元に対応する各部分集合を、その元に基づいて判断される順序に応じて検索結果を特定する検索結果特定手段とを備えたことを特徴とする。 The data search apparatus according to the present invention includes a proximity criterion used as a criterion for determining similarity of data to be searched, an allowable neighborhood range criterion indicating a range in which the data to be searched are similar, and a viewpoint criterion indicating a search viewpoint. Spatial mapping generation that generates spatial attribute mapping that maps data to be searched on a space where similarity with other data can be determined based on the neighborhood criteria and allowable neighborhood range criteria in response to a query input including Means for generating viewpoint attribute mapping for mapping one or more pieces of given data under a total ordered set based on the viewpoint criterion in response to an input of the query, and the spatial attribute mapping The space attribute information generating means for generating the space attribute information corresponding to the data by converting the data to be searched using, and the space according to the allowable neighborhood range criterion A subset generation means for dividing a set of sex information and creating a set of search object data corresponding to each divided space attribute information as a subset of the search object data, and using the viewpoint attribute mapping, A mapping means for mapping a subset to a fully ordered set and a search result for identifying each subset corresponding to the mapped total ordered set according to the order determined based on the element And a specifying means.
本発明によるデータ検索方法は、検索対象のデータの類似性を判断する基準として用いられる近傍基準と、検索対象のデータが類似する範囲を示す許容近傍範囲基準と、検索する観点を示す観点基準とを含むクエリの入力に応じ、前記近傍基準および許容近傍範囲基準に基づいて、他のデータとの類似性が判断可能な空間上に検索対象のデータを写像する空間属性写像を生成し、前記クエリの入力に応じ、前記観点基準に基づいて、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像を生成し、前記空間属性写像を用いて検索対象のデータを変換することにより、そのデータに対応する空間属性情報を生成し、前記許容近傍範囲基準に従って前記空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成し、前記観点属性写像を用いて、前記各部分集合を全順序集合の元に写像し、写像された全順序集合の元に対応する各部分集合を、その元に基づいて判断される順序に応じて検索結果を特定することを特徴とする。 The data search method according to the present invention includes a proximity criterion used as a criterion for determining the similarity of data to be searched, an allowable neighborhood range criterion indicating a range in which the data to be searched are similar, and a viewpoint criterion indicating a viewpoint for searching. In response to an input of a query including a spatial attribute mapping that maps data to be searched on a space where similarity with other data can be determined based on the neighborhood criterion and the allowable neighborhood range criterion, In response to the input, generates a viewpoint attribute map that maps one or more pieces of given data under a total ordered set based on the viewpoint criteria, and converts the search target data using the spatial attribute map Thus, spatial attribute information corresponding to the data is generated, the set of spatial attribute information is divided according to the allowable neighborhood range criterion, and a search pair corresponding to each divided spatial attribute information is generated. A set of data is created as a subset of search target data, and each of the subsets is mapped to a fully ordered set using the viewpoint attribute mapping, and each portion corresponding to the mapped totally ordered set A search result is specified according to the order in which the set is determined based on the element.
本発明によるデータ検索用プログラムは、コンピュータに、検索対象のデータの類似性を判断する基準として用いられる近傍基準と、検索対象のデータが類似する範囲を示す許容近傍範囲基準と、検索する観点を示す観点基準とを含むクエリの入力に応じ、前記近傍基準および許容近傍範囲基準に基づいて、他のデータとの類似性が判断可能な空間上に検索対象のデータを写像する空間属性写像を生成する空間写像生成処理、前記クエリの入力に応じ、前記観点基準に基づいて、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像を生成する観点写像生成処理、前記空間属性写像を用いて検索対象のデータを変換することにより、そのデータに対応する空間属性情報を生成する空間属性情報生成処理、前記許容近傍範囲基準に従って前記空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成する部分集合生成処理、前記観点属性写像を用いて、前記各部分集合を全順序集合の元に写像する写像処理、および、写像された全順序集合の元に対応する各部分集合を、その元に基づいて判断される順序に応じて検索結果を特定する検索結果特定処理を実行させることを特徴とする。 The data search program according to the present invention provides a computer with a viewpoint of searching for a vicinity reference used as a reference for determining similarity of data to be searched, an allowable vicinity range reference indicating a range in which the data to be searched is similar, and Generates a spatial attribute mapping that maps the data to be searched in a space where similarity with other data can be determined based on the neighborhood criteria and allowable neighborhood range criteria in response to a query input including the viewpoint criteria shown A spatial mapping generation process that generates a viewpoint attribute mapping that maps one or more pieces of given data under a total ordered set based on the viewpoint criterion in response to an input of the query, the space A spatial attribute information generation process for generating spatial attribute information corresponding to the data by converting the data to be searched using the attribute mapping; The set of spatial attribute information is divided according to the above, and a subset generation process for creating a set of search target data corresponding to each of the divided spatial attribute information as a subset of the search target data, using the viewpoint attribute mapping, Mapping processing for mapping each subset to a fully ordered set, and specifying a search result for each subset corresponding to the mapped total ordered set element according to the order determined based on the element The search result specifying process is executed.
本発明によれば、データ間の複数の類似性を示す観点に基づいて検索を行う場合であっても、高速かつ柔軟にデータ検索を行うことができる。 According to the present invention, even when a search is performed based on a viewpoint showing a plurality of similarities between data, the data search can be performed at high speed and flexibly.
以下、本発明の実施形態を図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
実施形態1.
図1は、本発明によるデータ検索装置の第1の実施形態の構成例を示すブロック図である。本実施形態のデータ検索装置は、データ登録部110と、データ検索部120とを備えている。データ検索装置は、ユーザの要求に応じたクエリ102が入力されると、予め入力(登録)されたデータ101の部分集合である出力部分集合データ103を出力する装置である。Embodiment 1. FIG.
FIG. 1 is a block diagram showing a configuration example of a first embodiment of a data search apparatus according to the present invention. The data search device of this embodiment includes a
データ101は、検索対象のデータであり、ユーザによって事前に又は逐次的に、登録および更新される入力データである。データ101の形式は任意である。データ101は、典型的には、リレーショナルデータベースに代表されるように、一つのデータエントリに対して複数の任意の属性を有するデータとして表わされる。本実施形態では、この属性を指示してデータ検索が行われる。
クエリ102は、検索者(以下、ユーザと記す)が、関心をもつデータを取得するために本発明によるデータ検索装置に入力する検索条件である。クエリ102は、少なくとも、データの類似性を判断する基準として用いられる近傍基準と、検索対象のデータが類似する範囲を示す許容近傍範囲基準と、ユーザの関心の高さ(すなわち、検索する観点)を示す観点基準を含む。なお、許容近傍範囲基準は、同一視可能なデータの範囲を規定した情報とも言える。
The
近傍基準は、具体的には、与えられた複数のデータの類似性を示す基準である。望ましくは、近傍基準は、距離が定義された空間へデータをマッピングすることにより、空間上の距離の関係に基づいてデータの類似性を判断できる基準である。この距離は、例えば、ユークリッド距離や、ハミング距離など、様々な形態をとり得る。 Specifically, the neighborhood criterion is a criterion indicating the similarity of a plurality of given data. Desirably, the neighborhood criterion is a criterion by which the similarity of data can be determined based on the relationship of the distance in the space by mapping the data to the space in which the distance is defined. This distance can take various forms such as Euclidean distance and Hamming distance.
また、近傍基準がカテゴリーデータのように定量的でないデータの場合であっても、例えば、多次元尺度法などを用いて距離関係を定義して、近傍基準を取り扱ってもよい。 Further, even if the neighborhood criterion is non-quantitative data such as category data, the neighborhood criterion may be handled by defining a distance relationship using, for example, a multidimensional scaling method.
許容近傍範囲基準は、具体的には、類似性の非常に高い特徴を有する一つのデータ群として取り扱われるデータの範囲を指定する範囲パラメータである。例えば、検索対象とするデータの距離を距離メトリックで表わすことができるD次元空間では、許容近傍範囲基準は、適当な半径で指定されるD次元球などで表わされる。 Specifically, the allowable neighborhood range criterion is a range parameter that designates a range of data handled as one data group having a feature with very high similarity. For example, in a D-dimensional space in which the distance of data to be searched can be represented by a distance metric, the allowable neighborhood range criterion is represented by a D-dimensional sphere designated with an appropriate radius.
観点基準は、具体的には、類似性が高いと判断され得る領域(以下、近傍領域と記す。)に属するデータ群同士を比較する際に、どのデータ群に対してより高い関心を有するか指定するパラメータである。観点基準は、例えば、任意の二つのデータ集合を比較した時に検索者がどちらのデータ集合をより好むか指定した情報と言うこともできる。このパラメータは、任意のデータ群を全順序集合の元にマッピング可能なものである。 Specifically, the viewpoint criterion indicates which data group has a higher interest when comparing data groups belonging to areas that can be judged to be highly similar (hereinafter referred to as neighborhood areas). It is a parameter to specify. The viewpoint criterion may be, for example, information specifying which data set the searcher prefers when comparing two arbitrary data sets. This parameter can be used to map an arbitrary data group to the base of a totally ordered set.
ここで、全順序集合とは、任意の元a,b,cに対して、二項関係≦および=(同値)が定義でき、さらに、反射律(a≦a)、推移律(a≦bかつb≦cならa≦c)、反対称律(a≦bかつb≦aならa=b)、および、完全律(全ての元の比較が可能)が成り立つ集合を表す。 Here, the total ordered set can define binary relations ≦ and = (equivalent) for any element a, b, c, and further, the reflection rule (a ≦ a), the transition rule (a ≦ b) And if b ≦ c, a ≦ c), an asymmetric rule (a = b if a ≦ b and b ≦ a), and a complete set (all original comparisons are possible).
出力部分集合データ103は、ユーザによって入力されたクエリ102に対して出力される全データの部分集合の集合である。
The
データ登録部110は、データベース管理手段111と、データベース112とを含む。データベース112は、データ101に含まれる属性を識別可能に保存する。データベース112は、例えば、データ101の属性をテーブル形式で管理してもよく、キーバリュー形式で管理してもよく、グラフ形式で管理してもよい。
The
データベース管理手段111は、データベース112を管理する。具体的には、データベース管理手段111は、データ101が入力されると、入力されたデータをデータベース112に登録する。また、データベース管理手段111は、データの更新やデータの取得要求に対して、必要な処理を行う。
The
データ登録部110は、典型的には、MYSQL(登録商標)によって構築されるデータベースシステムに代表されるRDBMS(リレーショナルデータベースマネジメントシステム)などにより実現される。データ登録部110は、例えば、Hadoop、CassandraおよびGraph databaseなどのNoSQL系データベースを用いて実現されてもよい。また、データサイズが大きくない場合、データ登録部110は、メモリ上に展開された配列の管理システムなどで実現されてもよい。
The
データ検索部120は、クエリ分析手段121と、データ再構成手段122と、再構成データ管理手段123と、再構成データ記憶手段124と、標本化手段125とを含む。
The
クエリ分析手段121は、クエリ102を分析し、データベース112の再構成処理に必要な情報をデータ再構成手段122に送信する。なお、後述する標本化手段125は、観点基準に基づいて、再構成されたデータからクエリ102に合致するデータを標本化する。そこで、クエリ分析手段121は、上記観点基準に基づく処理に必要な情報を標本化手段125に送信する。なお、クエリ分析手段121が各手段に送信する情報の詳細は、後述される。
The
データ再構成手段122は、クエリ分析手段121から入力されるパラメータに従って、データベース112に含まれるデータを再構成する。具体的には、データ再構成手段122は、クエリ分析手段121から入力されるパラメータを用いて元のデータを変換し、変換した情報を基のデータに付加する。以下、元のデータを変換した情報を、空間属性部または空間属性情報と記す。すなわち、再構成化されたデータは、元のデータから抽出された空間属性部を、元のデータに付けくわえたデータである。
The
図2は、データ再構成処理の例を示す説明図である。図2に示す例では、リレーショナルデータベースの形式で記憶されるデータに空間属性部を付加させたことを示す。なお、データ再構成手段122がデータを再構成する方法については、後述される。
FIG. 2 is an explanatory diagram illustrating an example of the data reconstruction process. The example shown in FIG. 2 shows that a space attribute part is added to data stored in the relational database format. A method for the
再構成データ記憶手段124は、データ再構成手段122によって再構成されたデータ(すなわち、元のデータおよび空間属性部を含むデータ)を記憶する。
The reconstructed
再構成データ管理手段123は、再構成データ記憶手段124を管理する。具体的には、再構成データ管理手段123は、要求に応じて、再構成されたデータを再構成データ記憶手段124に保存したり、更新したり、取得したりする処理を行う。再構成データ記憶手段124はデータベース112と同様に、典型的にはRDBMSにより実現される。ただし、再構成データ記憶手段124を実現する方法は、RDBMSに限定されない。再構成データ記憶手段124は、例えば、磁気ディスク等により実現される。
The reconfiguration
標本化手段125は、クエリ分析手段121から受け取った情報を用いて再構成データから出力部分集合データ103を抽出する。具体的には、標本化手段125は、クエリ分析手段121から分割処理に用いられる情報(以下、分割情報と記す。)と観点評価に用いられる情報を受け取る。また、標本化手段125は、再構成データ管理手段123から再構成データを取得する。
The
標本化手段125は、これらの情報に基づいて、出力部分集合データ103を抽出する。なお、標本化手段125が出力部分集合データ103を抽出する具体的方法は後述される。
The
クエリ分析手段121と、データ再構成手段122と、再構成データ管理手段123と、標本化手段125とは、プログラム(データ検索用プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、データ検索装置の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、クエリ分析手段121、データ再構成手段122、再構成データ管理手段123、および標本化手段125として動作してもよい。
The
また、クエリ分析手段121と、データ再構成手段122と、再構成データ管理手段123と、標本化手段125とは、それぞれが専用のハードウェアで実現されていてもよい。
Further, the
次に、本実施形態のデータ検索装置の動作を説明する。図3は、第1の実施形態のデータ検索装置の動作例を示すフローチャートである。図3に示す例では、ユーザがクエリを入力することにより、データ検索が開始される。 Next, the operation of the data search apparatus of this embodiment will be described. FIG. 3 is a flowchart illustrating an operation example of the data search apparatus according to the first embodiment. In the example shown in FIG. 3, the data search is started when the user inputs a query.
まず、ユーザが検索に必要なクエリを入力する(ステップS301)。クエリは、図1に例示するデータベース112に格納されたデータに対する近傍基準、許容近傍範囲基準および観点基準を含む。
First, the user inputs a query necessary for search (step S301). The query includes a neighborhood criterion, an allowable neighborhood range criterion, and a viewpoint criterion for the data stored in the
クエリ分析手段121は、受け取ったクエリを分析し(ステップS302)、近傍基準、許容近傍基準および観点基準をもとに、空間属性写像f:E→Φ、観点属性写像g:E→V、および分割情報を作成する。ここで、Eは、データベース112内の一つのデータを元eとするデータ集合である。Φは、類似性が定義される空間を示す。Vは、全順序集合を示す。
The
クエリ分析手段121は、空間属性写像fを示す情報をデータ再構成手段122に送信する(ステップS303)。また、クエリ分析手段121は、分割情報および観点属性写像gを示す情報を標本化手段125に送信する(ステップS304)。
The
クエリ分析手段121の処理をさらに説明する。クエリ分析手段121は、空間属性写像fを近傍基準および許容近傍範囲基準から作成する。すなわち、近傍基準および許容近傍範囲基準には、空間属性写像fを作成するために必要な情報が指定される。空間属性写像fは、検索対象とするデータの属性情報を変換するものである。この変換は、データの属性情報を用いてデータ間の類似性を定量的に評価する目的で行われる。
The processing of the
具体的には、クエリには、空間属性写像の詳細として、データの持つ属性情報のうち、どの属性を用いてどのような変換を施すかが記述される。また、クエリには、写像先の空間で定義される類似性の指標も記述される。このような変換方法として、例えば、写像先の座標系とその座標系への変換式が指定される。この場合、適当な数値をもつ複数の属性情報をベクトルとし、ベクトルの変換方法として適当な変換式およびそのパラメータ値を指定すればよい。この際、許容近傍範囲基準は、主にパラメータの値を決定するために使用される。 Specifically, in the query, as the details of the spatial attribute mapping, which attribute is used and which conversion is applied among the attribute information of the data is described. The query also describes a similarity index defined in the mapping destination space. As such a conversion method, for example, a coordinate system of a mapping destination and a conversion formula to the coordinate system are designated. In this case, a plurality of pieces of attribute information having appropriate numerical values may be used as vectors, and an appropriate conversion formula and parameter values may be designated as vector conversion methods. In this case, the allowable neighborhood range criterion is mainly used to determine the value of the parameter.
例えば、指定された属性情報でベクトルデータを構成し、そのベクトルデータに対して適当な代数演算を行う演算式が指定される。さらに、指定された許容近傍範囲基準から演算式のパラメータとして用いられる係数行列が決定される。これらの情報により、空間属性写像が一意に決定されるため、この空間属性写像によって検索対象とするデータをマッピングすることができる。マッピングされたデータは、例えば、マッピングされた空間におけるユークリッド距離を用いてデータ間の類似性が評価される。 For example, an arithmetic expression for designating vector data with designated attribute information and performing an appropriate algebraic operation on the vector data is designated. Further, a coefficient matrix used as a parameter of the arithmetic expression is determined from the specified allowable neighborhood range criterion. Since the spatial attribute mapping is uniquely determined by these pieces of information, the data to be searched can be mapped by this spatial attribute mapping. For the mapped data, for example, the similarity between the data is evaluated using the Euclidean distance in the mapped space.
この空間属性写像fは、一般には、複数のデータを含むデータ集合Eを空間属性φの集合Φに変換する写像として定義される。ただし、この空間属性写像fは、単一のデータeを単一の空間属性φに変換する写像φ=f(e)として定義されてもよい。 This space attribute map f is generally defined as a map that converts a data set E including a plurality of data into a set Φ of space attributes φ. However, this spatial attribute map f may be defined as a map φ = f (e) for converting a single data e into a single spatial attribute φ.
言い換えると、この空間属性写像fは、データの属性から、任意のデータ間の類似性を判断可能な定量的指標が定義された距離空間へ変換する方法を規定する写像と言える。 In other words, this space attribute map f can be said to be a map that defines a method for converting a data attribute into a metric space in which a quantitative index capable of determining the similarity between arbitrary data is defined.
クエリ分析手段121は、例えば、写像の作成方法として予め複数の選択肢を用意しておき、どの写像を選択するかを示すキーワード情報およびパラメータ値の決定方法の指定に基づいて空間属性写像fを作成してもよい。また、予め管理者がメソッドとして写像を実装しておき、クエリ分析手段121は、対応するメソッドを選択できるようなポインタ情報の指定に応じて空間属性写像fを作成してもよい。
For example, the
観点属性写像gは、与えられたデータ集合を観点基準に基づいて全順序集合の元にマッピングする写像である。言い換えると、観点属性写像gは、データの属性から全順序集合へ変換する方法を規定する写像と言える。クエリ分析手段121は、空間属性写像fを作成する方法と同様の方法で観点属性写像gを作成すればよい。
The viewpoint attribute mapping g is a mapping that maps a given data set to the base of a totally ordered set based on viewpoint criteria. In other words, the viewpoint attribute map g can be said to be a map that defines a method for converting data attributes into a totally ordered set. The
分割情報は、空間属性写像fによってマッピングされた空間を分割する方法を記述した情報である。クエリ分析手段121は、近傍基準および許容近傍範囲基準に指定された情報を用いて分割情報を作成する。クエリ分析手段121は、空間属性写像fを作成する方法と同様の方法で分割情報を作成すればよい。なお、後述する許容近傍範囲基準に基づいて分割処理を行うことができる場合、クエリ分析手段121は、分割情報を作成しなくてもよい。
The division information is information describing a method of dividing the space mapped by the space attribute map f. The
図4は、空間属性写像fおよび観点属性写像gの例を示す説明図である。図4に示す例では、データ集合E1およびE2が、それぞれ4つのデータ(e1,e2,e3,e4)を含んでいることを示す。 FIG. 4 is an explanatory diagram showing an example of the space attribute map f and the viewpoint attribute map g. In the example shown in FIG. 4, it is shown that the data sets E1 and E2 each include four data (e1, e2, e3, e4).
図4に例示する空間属性写像fは、データ集合Eを空間属性の集合Φに変換する写像であり、4つのデータ(e1,e2,e3,e4)から、4つの空間属性φ(φ1,φ2,φ3,φ4)に変換したことを示す。 The spatial attribute map f illustrated in FIG. 4 is a map for converting the data set E into a spatial attribute set Φ. From the four data (e1, e2, e3, e4), four spatial attributes φ (φ1, φ2). , Φ3, φ4).
また、図4に例示する観点属性写像gは、データ集合Eを全順序集合Vに変換する写像であり、4つのデータ(e1,e2,e3,e4)から、全順序集合の性質を満たすvに変換したことを示す。 Also, the viewpoint attribute map g illustrated in FIG. 4 is a map for converting the data set E into a totally ordered set V, and v satisfying the properties of the totally ordered set from four data (e1, e2, e3, e4). Indicates that it has been converted to.
データ再構成手段122は、空間属性写像fの情報を受け取ると、データ集合Eに含まれる全てのe∈Eに対応するφ∈Φ(空間属性Φ=f(E))を計算する(図3におけるステップS305)。具体的には、データ再構成手段122は、データベース112に格納された全てのデータをデータベース管理手段111に要求する。そして、データ再構成手段122は、取得したデータベース112のデータ群Eに属する各データeiの空間属性情報φiを計算する。
When the
図5は、マッピングの例を示す説明図である。図5に例示するマッピング結果501は、データ再構成手段122がデータベース112のデータを2次元ユークリッド空間へマッピングした例を示す。
FIG. 5 is an explanatory diagram illustrating an example of mapping. The
そして、データ再構成手段122は、再構成データ管理手段123に(ei、φi)を送信し、再構成データ記憶手段124へ保存する要求を行う。
Then, the
再構成データ管理手段123は、データ再構成手段122より受け取ったデータ情報(図5に例示するei)および空間属性情報(図5に例示するφi)を再構成データ記憶手段124へ保存し、保存が終了したらデータ再構成手段122に保存終了通知を行う。
The reconfiguration
データ再構成手段122は、全ての再構成データに対して保存終了通知を受け取ると、クエリ分析手段121にデータ再構成完了通知を行う。
When the
クエリ分析手段121はデータ再構成完了通知を受け取ると、標本化手段125に標本化開始通知を行う(ステップS306)。
Upon receiving the data reconstruction completion notification, the
標本化手段125は、再構成データ管理手段123から再構成データを取得する。そして、標本化手段125は、再構成データの空間属性情報および許容近傍範囲情報を使って、再構成データのデータ情報(図5に例示するei)を部分集合の集合へと分割する(ステップS307)。標本化手段125は、許容近傍範囲基準に記載された条件に沿って、全てのデータを各部分集合に分割する。なお、クエリ分析手段121が分割情報を作成している場合、標本化手段125は、その分割情報に基づいて全てのデータを各部分集合に分割してもよい。各部分集合は、許容近傍範囲基準に従って許容される近傍領域を形成する。
The
許容近傍範囲基準には、例えば、具体的な距離基準を指定するパラメータが指定される。この場合、標本化手段125は、部分集合に含まれる全てのデータ間のユークリッド空間距離が一定距離以内になるように空間を分割する。また、許容近傍範囲基準には、例えば、確率的距離基準を指定するパラメータが指定される。この場合、標本化手段125は、平均的な分布の広がりに基づいて空間を分割する。
For the allowable neighborhood range criterion, for example, a parameter for designating a specific distance criterion is designated. In this case, the
ただし、標本化手段125がデータ空間を分割する方法は、上記方法に限定されない。例えば、許容近傍範囲基準として適当な確率分布およびそのパラメータが指定された場合、標本化手段125は、その確率分布に従って空間を分割してもよい。すなわち、許容近傍範囲基準で示す範囲に再構成データの部分集合が含まれるように空間を分割できる方法であれば、標本化手段125は、他の方法を用いてデータを分割してもよい。
However, the method by which the
図5に例示するマッピング結果502は、標本化手段125がマッピング結果501を4つの近傍領域(N1〜N4)に空間を分割した例を示す。例えば、図5に示す例では、近傍領域N1には、3つのデータが含まれ、この3つのデータが再構成データの部分集合になる。
The
標本化手段125は、得られた各近傍領域Niに属する部分集合Eiごとに、観点属性写像gを用いて、全順序集合P={pi|pi=g(Ei)}を計算する(ステップS308)。Pは全順序集合であるため、Pの任意の要素は比較可能である。そのため、標本化手段125は、上位Q個などのように、順序が高い順に選択するなどの標本化が可能である。 The sampling means 125 calculates a total ordered set P = {pi | pi = g (Ei)} using the viewpoint attribute mapping g for each obtained subset Ei belonging to each neighboring region Ni (step S308). ). Since P is a fully ordered set, any element of P is comparable. Therefore, the sampling means 125 can perform sampling such as selecting in descending order such as the top Q.
図5に例示するマッピング結果503は、4つの近傍領域(N1〜N4)ごとに観点評価値(v1〜v4)を算出した例を示す。この観点評価値の集合は、全順序集合である。
The
標本化のポリシは、予め定められた静的パラメタであってもよい。また、クエリ102に標本化のポリシが含まれている場合、標本化手段125は、そのポリシを用いて標本化を行ってもよい。標本化のポリシには、例えば、「上位Q個を選択する」、「上限データ数」などの情報が設定される。ただし、ポリシの内容は、例示した内容に限定されない。元のデータベースに記憶されたデータから実際に標本化されるデータのサイズを指定するものであれば、他の内容であってもよい。
The sampling policy may be a predetermined static parameter. If the
標本化手段125は、このようにして得られた部分集合の集合Ψ={Ψ1、Ψ2、・・・、ΨQ}を出力部分集合データ103として出力し、処理を終了する。
The sampling means 125 outputs the subset set Ψ = {Ψ1, Ψ2,..., ΨQ} obtained in this way as the
図5に示す例では、v1〜v4は、近傍領域N1〜N4をマッピングした評価値(実数値)である。そこで、標本化手段125は、この評価値を基準に図5に例示する部分集合を選択すればよい。上記集合Ψの各要素は、各近傍領域に含まれるデータの集合に相当する。
In the example illustrated in FIG. 5, v1 to v4 are evaluation values (real values) obtained by mapping the neighboring regions N1 to N4. Therefore, the
このようにして得られた出力部分集合データ103に含まれる各部分集合は、ユーザがクエリで指定した許容近傍範囲の概念を満たしたデータの集合であり、かつユーザの関心の高いデータになる。これらのデータは、必ずしも全てのデータが類似している必要はなく、各々のデータが望ましい特性を有し、かつ類似した部分でまとめられたグループとして抽出されるため、柔軟性の高いデータ検索が可能になる。
Each subset included in the
また、上述するように、本実施形態では、データ再構成手段122や標本化手段125は、全データ数Nに対して、オーダーNの計算量で行う処理を選択可能なため、高速な応答が可能になる。
Further, as described above, in the present embodiment, the
このような特性を有するため、ユーザが必ずしも欲しいデータが明確でない場合でも、においても、データベース上のデータの中で本当に必要なデータに高速にアクセスすることができるようになる。具体的には、ユーザは、まず、どのようなデータを取得したいか仮説を立て、その仮説に対してクエリ入力を行い、戻り値の出力部分集合データを分析する。そして、ユーザは、その仮説を検証し、仮説を修正した新たな仮説で再度検証を行えばよい。本実施形態では、このような仮説検証ループをインタラクティブに行うことも可能である。 Because of this characteristic, even if the data that the user wants is not always clear, the data that is really necessary among the data on the database can be accessed at high speed. Specifically, the user first makes a hypothesis what kind of data he wants to acquire, inputs a query to the hypothesis, and analyzes the output subset data of the return value. Then, the user may verify the hypothesis and perform verification again with a new hypothesis corrected. In this embodiment, such a hypothesis verification loop can also be performed interactively.
以上のように、本実施形態によれば、クエリ分析手段121が、近傍基準と、許容近傍範囲基準と、観点基準とを含むクエリの入力に応じ、近傍基準および許容近傍範囲基準に基づいて、空間属性写像fを生成し、観点基準に基づいて観点属性写像gを生成する。データ再構成手段122が、空間属性写像fを用いて検索対象のデータを変換することにより、そのデータに対応する空間属性情報を生成する。
As described above, according to the present embodiment, the
また、標本化手段125が、許容近傍範囲基準に従って空間属性情報を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成する。標本化手段125は、観点属性写像を用いて各部分集合を全順序集合の元に写像し、写像された全順序集合の元に対応する各部分集合を、その元に基づいて判断される順序に応じて検索結果を特定する。
The
よって、データ間の複数の類似性を示す観点に基づいて検索を行う場合であっても、高速かつ柔軟にデータ検索を行うことができる。 Therefore, even when a search is performed based on a viewpoint showing a plurality of similarities between data, the data search can be performed at high speed and flexibly.
具体的には、本実施形態によれば、データ間の複数の類似性や、検索時の観点を示す属性が存在しても、クエリが複雑になることを抑制できる。また、本実施形態によれば、データの再構成を行うことがない。そのため、柔軟性の高い検索を行うことが可能になる。 Specifically, according to this embodiment, even if there are a plurality of similarities between data and an attribute indicating a viewpoint at the time of search, it is possible to suppress the query from becoming complicated. Further, according to the present embodiment, data reconstruction is not performed. Therefore, it is possible to perform a highly flexible search.
また、例えば、一般的な近傍検索処理では、検索者がはっきりと欲しいデータの条件を指定できるほど事前知識がない場合には、効率的にデータを取得できないという問題があった。それは、事前知識が乏しい場合、検索時の制限や欲しいデータの観点など、適切な条件を事前に指定することが難しいからである。そのため、必ずしも最適に構造化されず、検索条件に合わせて取得したデータを見ながらインタラクティブに検索条件を変えていくことで所望のデータを取得することは困難であった。特にデータサイズが膨大になると、この作業は非常に時間を要してしまう。このように、一般的な方法では、対象とするデータの中から、試行錯誤を繰り返しながら、必要な情報が多く含まれる場所をインタラクティブかつ高速に特定することは難しかった。 In addition, for example, in a general neighborhood search process, there is a problem in that data cannot be efficiently acquired if there is no prior knowledge that allows a searcher to clearly specify a desired data condition. This is because, when prior knowledge is scarce, it is difficult to specify appropriate conditions in advance, such as the restriction at the time of retrieval and the viewpoint of desired data. Therefore, it is not always optimally structured, and it is difficult to acquire desired data by changing the search condition interactively while viewing the data acquired according to the search condition. In particular, when the data size becomes enormous, this operation takes a very long time. As described above, in a general method, it has been difficult to interactively and quickly specify a place where a lot of necessary information is included from target data while repeating trial and error.
しかし、本実施形態によれば、上述するような柔軟性を有するため、仮説の設定と検索処理を繰り返す(すなわち、試行錯誤する)ことが可能である。このようなインタラクティブなアプローチが行えるため、検索に対する事前知識が乏しい中でも、適切なデータにアクセスすることが可能になる。 However, according to the present embodiment, since it has the flexibility described above, it is possible to repeat setting of hypotheses and search processing (that is, trial and error). Since such an interactive approach can be performed, it is possible to access appropriate data even when there is little prior knowledge about search.
実施形態2.
図6は、本発明によるデータ検索装置の第2の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態のデータ検索装置は、第1の実施形態のデータ検索部120が条件判断手段601をさらに含む。なお、条件判断手段601も、プログラム(データ検索用プログラム)に従って動作するコンピュータのCPUによって実現される。
FIG. 6 is a block diagram showing a configuration example of the second embodiment of the data search apparatus according to the present invention. In addition, about the structure similar to 1st Embodiment, the code | symbol same as FIG. 1 is attached | subjected and description is abbreviate | omitted. In the data search apparatus of this embodiment, the
本実施形態のクエリ102は、近傍基準、許容近傍範囲基準、観点基準の他、条件判断手段601が判断に用いる条件(以下、出力条件と記す。)を含む。クエリ分析手段121は、入力されたクエリ102から、出力条件を抽出し、条件判断手段601に通知する。出力条件には、例えば、データ上限数や、実際に抽出される部分集合の特性などが設定される。なお、予め出力条件が定められている場合、クエリ102は、出力条件を含まなくてもよい。
The
条件判断手段601は、クエリ分析手段121から出力条件を受け取る。そして、条件判断手段601は、標本化手段125による出力結果が、出力条件を満たしているかを実際に出力する前にチェックする。
The
出力結果が出力条件を満たしている場合、条件判断手段601は、出力結果を出力部分集合データ103としてそのまま出力する。一方、出力結果が出力条件を満たしていない場合、空間属性写像、観点属性写像、許容近傍範囲基準のいずれか、または全てを更新する。これらを更新することにより、条件を緩和したり制限したりできる。
When the output result satisfies the output condition, the
例えば、データ上限数に満たない場合は、条件を緩和してさらに多くのデータを得られるように調整すればよい。具体的には、条件判断手段601は、空間属性写像を変更することで条件を緩和し、より多くのデータが得られるようにしてもよい。また、条件判断手段601は、標本化手段125が空間を分割する方法を変更することで条件を緩和し、より多くのデータ数が得られるようにしてもよい。
For example, if the upper limit number of data is not reached, the condition may be relaxed and adjusted so that more data can be obtained. Specifically, the
このようなフィードバック機構は、予め決められた方法でパラメータを変更することにより実現されてもよく、遺伝アルゴリズムのようにランダムプロセスを導入したパラメータ変更によって好ましい方向に修正された変更を採用することにより実現されてもよい。 Such a feedback mechanism may be realized by changing a parameter in a predetermined method, and by adopting a change corrected in a preferable direction by a parameter change that introduces a random process such as a genetic algorithm. It may be realized.
以上のような構成により、ユーザの要件により適した検索結果を出力できる。 With the above configuration, a search result more suitable for the user's requirements can be output.
以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。 Hereinafter, the present invention will be described with reference to specific examples, but the scope of the present invention is not limited to the contents described below.
図7は、本発明によるデータ検索装置の本実施例の構成例を示すブロック図である。本実施例のデータ検索装置は、データ登録部710と、データ検索部720とを備えている。本実施例のデータ登録部710およびデータ検索部720は、それぞれ、第1の実施形態(または、第2の実施形態)のデータ登録部110およびデータ検索部120に相当する。
FIG. 7 is a block diagram showing a configuration example of this embodiment of the data search apparatus according to the present invention. The data search apparatus according to this embodiment includes a
データ登録部710は、データベース管理手段711と、データベース712とを含む。データベース管理手段711と、データベース712は、第1の実施形態のデータベース管理手段111と、データベース112にそれぞれ相当する。
The
データ検索部720は、クエリ分析手段721と、データ再構成手段722と、再構成データ管理手段723と、再構成データ記憶手段724と、クラスタ化手段725と、クラスタ選定手段726と、データ整形手段727とを含む。
The
クエリ分析手段721と、データ再構成手段722と、再構成データ管理手段723と、再構成データ記憶手段724とは、第1の実施形態のクエリ分析手段121と、データ再構成手段122と、再構成データ管理手段123と、再構成データ記憶手段124にそれぞれ相当する。
The
また、クラスタ化手段725およびクラスタ選定手段726は、第1の実施形態の標本化手法125に相当する。
The
本実施例では、データ701が、D次元ユークリッド空間上のベクトルx、時間t、適当なカテゴリーデータuおよびテキスト情報qを含むとする。ベクトルxは、例えば、ユーザIDがuであるユーザが、ある時間tにテキスト情報qを作成した場所の座標値で構成されたベクトルであるとする。ここで、場所が緯度および経度で定義される場合、場所は2次元座標として表現されるため、xは、2次元ベクトルになる。
In this embodiment, it is assumed that the
また、本実施例では、ユーザがクエリ702に収集したいデータ群を示す情報を記述する。ここでは、クエリ702が、「1km程度の平均的空間的広がりを持つ領域に分布し、かつ1時間程度の間に作成されたテキストデータの中で、ある単語wを含むテキストデータが、なるべく様々なユーザに作成されているデータ群を収集したい」ことを示すものとする。
In this embodiment, information indicating a data group that the user wants to collect is described in the
このクエリは、wという単語に深く関係するイベントが行われた場所を探すアクションを行う状況において情報の信頼性を高めるために作成されることが想定される。具体的には、リアルタイム性を考慮し、「情報がイベント近傍のユーザに1時間程度で広がったものと仮定し、少数の限られたユーザによってではなく、なるべく複数の発生源から発せられた情報」を検索したい場合、上記クエリが準備される。 This query is assumed to be created in order to increase the reliability of information in a situation where an action is performed to find a place where an event deeply related to the word w is performed. Specifically, in consideration of real-time characteristics, it is assumed that "information is assumed to have spread to users in the vicinity of the event in about an hour, and information is emitted from multiple sources as much as possible rather than by a limited number of limited users. If the user wants to search for "", the above query is prepared.
クエリ702の記述様式は任意である。例えば、インターフェース関数を規定した抽象クラスを用いたAPI(Application Program Interface )をユーザアプリケーション側に提供してもよい。この場合、ユーザが、このAPIを利用してアプリケーションを実装し、そのアプリケーションを用いてクエリ702を生成してもよい。
The description format of the
また、データ検索装置側で入力パラメータを規定し、ユーザによって入力されるパラメータに応じてクエリ702を生成するようにしてもよい。なお、ユーザには、パラメータを予め設定した値の中から選択させてもよいし、パラメータとして値を入力させてもよいし、パラメータとして所定の範囲の値を指定させてもよい。本実施例では、ユーザが入力パラメータを指定する方法を例に説明する。
Further, input parameters may be defined on the data search device side, and the
本実施例では、許容近傍範囲基準は、1km程度の平均的空間広がりを示すものとする。また、ランダム化により空間を分割することによって、部分集合が作成されるものとする。なお、固定されたグリッドに基づいて空間や時間を分割する方法も考えられる。しかし、このような方法を用いた場合、分割する方法によっては望ましい可能性があるため、ランダム化により空間を分割する方がより好ましい。また、必要に応じて、他の分割方法が用いられてもよい。 In the present embodiment, it is assumed that the allowable neighborhood range criterion indicates an average spatial extent of about 1 km. In addition, it is assumed that a subset is created by dividing the space by randomization. A method of dividing space and time based on a fixed grid is also conceivable. However, when such a method is used, it may be desirable depending on the division method. Therefore, it is more preferable to divide the space by randomization. Further, other division methods may be used as necessary.
なお、分割方法は、データ検索装置の内部に予め定められていてもよく、クエリ702に詳細に指定されていてもよい。本実施例では、クエリ702で“平均1km幅、時間幅1時間でのrandom”と指定されることにより、データ検索装置の内部に定められたランダム化パラメータが用いられるとする。
Note that the division method may be predetermined in the data search apparatus, or may be specified in detail in the
また、近傍基準には、“テキスト内に単語wを含み、時間かつ場所の線形変換による類似性評価”と指定されるとする。この近傍基準は、wを含まないテキスト同士が無限大の非類似性を有するとし、wを含むテキストがテキストという観点からは同一とみなされることを想定する。また、この近傍基準は、さらに、時間的および場所的距離を考慮して、線形変換によって空間属性写像が生成されることを想定する。 Further, it is assumed that the neighborhood criterion is designated as “similarity evaluation by linear transformation of time and place including the word w in the text”. This neighborhood criterion assumes that texts that do not include w have infinite dissimilarity, and that texts that include w are considered the same from the viewpoint of text. In addition, this neighborhood criterion further assumes that a spatial attribute map is generated by linear transformation in consideration of temporal and locational distances.
また、観点基準には、“ユーザ多様性”が指定されているとする。 Further, it is assumed that “user diversity” is specified in the viewpoint standard.
クエリ分析手段721は、クエリ702が入力されると、空間属性写像、分割情報および観点属性写像を決定する。以下、これらの決定方法を説明する。
When the
<空間属性写像>
あるデータeのテキストt中に単語wを含むことを、便宜的にw∈e.tと表す。クエリ分析手段721は、まず、データベース712に格納された全てのデータの集合Eから、テキストtに単語wを含むデータのみからなる集合Ew(Ew={e∈E|w∈e.t})を取り出す写像θ:E→EをEw=θ(E)と定義する。<Spatial attribute mapping>
For convenience, it is assumed that the word w is included in the text t of some data e. This is expressed as t. First, the query analysis means 721 starts with a set Ew (Ew = {e∈E | w∈et}) consisting only of data containing the word w in the text t from the set E of all data stored in the
さらに、クエリ分析手段721は、Ewから、空間座標x∈R2と時間座標t∈Rとを合成した3次元ユークリッド空間R3への変換σ:Ew→R3として、以下の式1に例示する写像σを定義する。ここで、Rは、実数体を示す。Furthermore, the
φ=σ(e)=Ay (式1) φ = σ (e) = Ay (Formula 1)
式1におけるyは、xとtとを合成した3次元ベクトルである。また、式1におけるAは、許容近傍範囲基準に基づいて生成される行列であり、それぞれ1kmおよび1時間を単位長さ1に正規化する係数を対応する位置の対角成分に有する行列である。 Y in Equation 1 is a three-dimensional vector obtained by combining x and t. A in Formula 1 is a matrix generated based on the allowable neighborhood range criterion, and is a matrix having coefficients for normalizing 1 km and 1 hour to unit length 1 as diagonal components at corresponding positions. .
なお、本実施例では、時間および場所をスケール変換した値をそのまま用いるため、各元eに対する写像σ(e)の結果から、時間と場所成分を抜き出すだけで計算可能である。なお、より一般には、単一のデータeが有する複数の属性を用いて、例えば、線形変換を施したり、さらには複数のデータ群に対して複数の空間属性情報群を計算したりするような写像を定義することも可能である。 In the present embodiment, since the values obtained by scaling the time and place are used as they are, the calculation can be performed simply by extracting the time and place components from the result of the mapping σ (e) for each element e. More generally, for example, linear transformation is performed using a plurality of attributes of a single data e, or a plurality of spatial attribute information groups are calculated for a plurality of data groups. It is also possible to define a mapping.
以下、Ewの元全てに、上記の式1で示す変換を行う写像を便宜的にΦ=σ(Ew)と記す。ただしΦ={φ=σ(e)|e∈Ew}である。つまり、空間属性写像fは、θとfを合成した写像Φ=f(E)=σ(θ(E))で表現できる。 Hereinafter, for all the elements of Ew, the mapping for performing the conversion shown in the above equation 1 is denoted as Φ = σ (Ew) for convenience. However, Φ = {φ = σ (e) | e∈Ew}. That is, the spatial attribute map f can be expressed by a map Φ = f (E) = σ (θ (E)) obtained by combining θ and f.
<分割情報>
データ再構成手段722は、近傍基準に指定された“random”というキーワードと、許容近傍範囲情報に指定された「1km程度の平均的空間広がり」という情報に従って、空間属性情報が属する空間をランダム分割するための分割情報を作成する。<Division information>
The
本実施例では、分割する対象の空間の次元は、3次元である。また、本実施例では、後述する分割処理で必要なパラメータとして、正の整数Bと、正の整数Mと、2以上の整数Cと、ランダム変数Wに対する平均値が1である確率密度分布h(W)とが予め設定されているとする。なお、これらの値は、クエリ702から取得されてもよい。
In the present embodiment, the dimension of the space to be divided is three dimensions. Further, in this embodiment, as parameters necessary for the division processing described later, a positive integer B, a positive integer M, an integer C of 2 or more, and a probability density distribution h having an average value of 1 for a random variable W is 1 Assume that (W) is preset. Note that these values may be acquired from the
データ再構成手段722は、これらのパラメータを使って3次元空間を分割することを考える。具体的には、データ再構成手段722は、方線ベクトルがランダムなB個の方向を一様に向き、各方向に対して、その間隔がランダム変数Wをとるような平行平面で分割する。
The
まず、以下に示す式2で表わされるインデックス計算式が定義される。
First, an index calculation formula represented by
式2において、aは、ランダムな方向を一様に向いた2次元ベクトルである。各成分が独立な標準正規分布N(0,1)に従うランダム数で構成された2次元のランダムベクトルをζとすると、aは、a=ζ/|ζ|で算出される。なお、本実施例では、対象の空間が3次元空間であるが、一般には、D次元の場合でも、aは、同様に算出される。
In
また、式2において、uは[0,1)の範囲の一様分布に従うランダム数である。また、wは、平均値が1の確率密度分布h(W)に従うランダム変数Wの実現値である。
In
式2において、サイズ制限パラメータCは、インデックス番号の上限値をC−1に限定するために付加される。また、C=∞が指定された場合、mod Cは省略されるとする。
In
図8は、2次元空間を分割した例を示す説明図である。式2が示す幾何学的な意味は、法線方向がaを向き、間隔wで配置された平面で空間を分割することである。式2を用いて計算されるインデックス番号が同じ値を持つ任意のベクトルは、同じ分割領域に属することになる。
FIG. 8 is an explanatory diagram showing an example of dividing a two-dimensional space. The geometric meaning represented by
この分割処理をB回独立に繰り返すと、B個の一様ランダムな方向に平行に並んだ平面で空間を分割することができる。また、各分割領域は、そのインデックス番号の組みで表現される。さらに、空間を分割するこの処理をM回独立に行うことで、異なる方向および間隔でM個の空間に分割した結果が得られる。 If this division process is repeated B times independently, the space can be divided by B planes arranged in parallel in a uniform random direction. Each divided area is expressed by a set of index numbers. Further, by performing this process of dividing the space M times independently, a result of dividing the space into M spaces in different directions and intervals can be obtained.
式2におけるランダム変数のそれぞれの実現値をsjk=(ajk,wjk,ujk)とする。ここで、j∈{1、・・・、M}、およびk∈{1、・・・、B}である。この場合、クエリ分析手段721は、分割パラメータS={{s11、s12、・・・、s1B}、・・・、{sM1、・・・、sMB}}、およびCを分割情報として用いる。
Let each realized value of the random variable in
<観点属性写像>
クエリ分析手段721は、クエリで指定された“ユーザ多様性”を表現するため、あるデータ群Euにおいて、ユーザ属性uの頻度分布{r1,r2,・・・,rk}が与えられた場合、以下に示す式3で、観点属性写像gを定義する。<Viewpoint attribute map>
In order to express “user diversity” specified by the query, the
式3において、r=r1+r2+・・・+rkである。式3は、ユーザ多様性を表現する一例である。クエリ分析手段721は、シンプソンの多様性指数など、多様性の順序が指定できる方法であれば、他の方法でユーザ多様性を表現してもよい。このように、クエリ分析手段721は、クエリの観点基準に記述された内容に応じて、観点属性写像を選択する。
In
クエリ分析手段721は、空間属性写像fの情報として、上記のθ(E)およびσ(Ew)を示す情報をデータ再構成手段722に送信する。また、クエリ分析手段721は、分割情報として、上記の分割パラメータSおよびCをクラスタ化手段725に送信する。また、クエリ分析手段721は、観点属性写像gの情報として、上記の式3を示す情報をクラスタ選定手段726に送信する。
The
なお、クエリ分析手段721は、送信先との間で写像の内容を予め共有しておき、送信先にパラメータだけ送信することによって、写像の情報を送信するようにしてもよい。また、クエリ分析手段721は、送信側で写像をメソッドとして実装しておき、コールバック関数として写像の情報を提供してもよい。また、クエリ分析手段721は、受信側に予め実装されたメソッドのうち、写像の内容に対応するメソッドを選択するコマンドを発行してもよい。
Note that the
また、クエリ分析手段721は、送信先との間で上記の式2の内容を予め共有しておき、送信先にパラメータだけ送信することにより、分割情報を送信するようにしてもよい。
In addition, the
また、クエリ分析手段721は、上記の式3で示す“ユーザ多様性”の内容を示すメソッドを、クラスタ選定手段726にコールバック関数として提供することにより、観点属性写像の情報を送信してもよい。また、クエリ分析手段721は、クラスタ選定手段726に実装されている評価関数の中から、上記の式3の処理に該当するメソッドを選択するコマンドを発行することにより、観点属性写像の情報を送信してもよい。
Further, the
データ再構成手段722は、空間属性写像fの情報を受信すると、データベース管理手段711を通して、データベース712のデータを取得する。データ再構成手段722は、データベースに定義された通常のクエリを用いて、テキスト情報にwを含むデータを全て取得する。そして、データ再構成手段722は、取得した各データに対して空間および時間情報で構成された3次元ベクトルyを用いて、式1に示す処理を行うことで、φを取得する。
When the
データ再構成手段722は、元のデータeの属性に取得したφを空間属性情報として付け加え、再構成データ管理手段723にこのデータの保存要求を行う。
The
再構成データ管理手段723は、要求されたデータを再構成データ記憶手段724に保存する。再構成データ管理手段723は、保存処理が完了したら完了通知をデータ再構成手段722に返す。この処理を繰り返し、再構成データ記憶手段724へ全てのデータの登録が完了したら、クエリ分析手段721にデータ再構成完了通知が行われる。
The reconfiguration
データ再構成完了通知を受けたクエリ分析手段721は、再構成データ記憶手段724に記憶されたデータのクラスタ化をクラスタ化手段725に要求する。
Upon receiving the data reconstruction completion notification, the
クラスタ化手段725は、受け取った分割情報を用いて空間分割をM回行う。この際、再構成データの空間属性情報も用いられる。クラスタ化手段725は、各分割処理(以下、試行と記す。)で分割された領域に属するデータを一つの部分集合としてグループ化する。 The clustering means 725 performs space division M times using the received division information. At this time, the spatial attribute information of the reconstruction data is also used. The clustering means 725 groups data belonging to the area divided by each division process (hereinafter referred to as trial) as one subset.
この結果、各試行i(i=1、・・・、M)で分割された領域の総数をKiとし、分割された領域それぞれに属するデータの部分集合をEi,j(j=1、・・・、Ki)とすると、出力Ωは、Ω={{E1,1、・・・、E1,K1}、{E2,1、・・・、E2,K2}、・・・、{EM,1、・・・、EM、KM}}になる。 As a result, the total number of areas divided in each trial i (i = 1,..., M) is Ki, and a subset of data belonging to each of the divided areas is represented by Ei, j (j = 1,... , Ki), the output Ω is Ω = {{E1,1,..., E1, K1}, {E2,1,..., E2, K2},. ,... EM, KM}}.
クラスタ選定手段726は、この出力Ωから、各試行iにおける部分集合Ei,jについて、ユーザ種類の頻度分布を作成する。そして、クラスタ選定手段726は、上記に示す式3を用いて、そのユーザ多様性指数Pi,jを計算する。この結果、{{P1,1、・・・、P1,K1}、{P2,1、・・・、P2,K2}、・・・、{PM,1、・・・、PM、KM}}が得られる。
The cluster selection means 726 creates a frequency distribution of user types for the subset Ei, j in each trial i from this output Ω. Then, the
クラスタ選定手段726は、ユーザ多様性指数Pi,jの大きいものから上位Qを選択する。選択した結果(以下、標本化部分集合データΩQと記す。)は、ΩQ={{E1,1、・・・、E1,Q}、{E2,1、・・・、E2,Q}、・・・、{EM,1、・・・、EM,Q}}と表わすことができる。この処理により、考慮している空間の中で、ユーザ多様性の高い領域のデータの部分集合をサンプリングすることができる。なお、Qは、予め決められた値であってもよく、クエリで指定される値であってもよい。 The cluster selection means 726 selects the upper Q from the user diversity index Pi, j having a large value. The selected result (hereinafter referred to as sampling subset data ΩQ) is ΩQ = {{E1,1,..., E1, Q}, {E2,1,..., E2, Q},. .., {EM, 1,... EM, Q}}. By this processing, it is possible to sample a subset of data in a region with high user diversity in the considered space. Note that Q may be a predetermined value or a value specified by a query.
最後に、データ整形手段727は、必要に応じて、この標本化部分集合データΩQ={{E1,1、・・・、E1,Q}、{E2,1、・・・、E2,Q}、・・・、{EM,1、・・・、EM,Q}}を加工し、また、整形して、出力部分集合データ703として出力する。
Finally, the data shaping means 727 generates the sampled subset data ΩQ = {{E1,1,..., E1, Q}, {E2,1,. ,..., {EM, 1,... EM, Q}} are processed, shaped, and output as
一般に、異なる試行番号iとjについて抽出されたそれぞれの部分集合{Ei,1、・・・、Ei,Q}と{Ej,1、・・・、Ej,Q}は、類似する空間領域に分布する可能性がある。また、これらの部分集合は、全く同一の場合もあるし、一部重複するデータを含む場合もある。このような場合、一つにまとめるように整形して出力する方がよい場合もある。 In general, each subset {Ei, 1,..., Ei, Q} and {Ej, 1,..., Ej, Q} extracted for different trial numbers i and j are in similar spatial regions. There is a possibility of distribution. In addition, these subsets may be exactly the same or may include partially overlapping data. In such a case, it may be better to format and output the data as one.
データの整形方法は、ポリシに依存する。例えば、「共通データを有する部分集合は、一つの部分集合に統合する」というポリシを想定する。この場合、データ整形手段727は、入力集合{Xi}(i=1、・・・、L)が与えられた時、その出力{Yj}は、『Yj=Union({Xi}){i∈Lj}』かつ「j1≠j2に対してYj1∩Yj2=φ(空集合)」を満たすように{Yj}を作成すればよい。 The data formatting method depends on the policy. For example, assume a policy that “a subset having common data is integrated into one subset”. In this case, when the data shaping means 727 is given an input set {Xi} (i = 1,..., L), its output {Yj} is “Yj = Union ({Xi}) {i∈ Lj} ”and {Yj} may be created so as to satisfy“ Yj1∩Yj2 = φ (empty set) for j1 ≠ j2. ”
ここで、『Union({Zi}){iの範囲}』は、集合{Zi}の中で指定の範囲内にあるiに対応するZiの和集合を取ることを意味する。また、Lj⊆{1、・・・、L}は、異なるi1∈Ljとi2∈Ljに対して、Xi1∩Xi2≠φ(空集合)を満たし、かつ異なるj1とj2に対して、Lj1∩Lj2=φ(空集合)を満たすインデックス集合である。 Here, “Union ({Zi}) {range of i}” means taking the union of Zi corresponding to i within the specified range in the set {Zi}. Also, Lj⊆ {1,..., L} satisfies Xi1∩Xi2 ≠ φ (empty set) for different i1εLj and i2εLj, and Lj1 異 な る for different j1 and j2. This is an index set that satisfies Lj2 = φ (empty set).
この場合、データ整形手段727は、あるXiに対して、重複する元を含む他のXjを探索する。データ整形手段727は、あるXiと他のXiとを統合した集合を作成し、その集合{Xi}に対して所定の処理を行う。データ整形手段727は、全ての集合が重複する元を持たなくなるまでこの操作(オペレーション)を繰り返す。
In this case, the
なお、データ整形手段727がデータを整形する方法は、上記方法に限定されない。データ整形手段727は、ポリシに応じて、データ整形をせず、データをそのまま出力してもよい。すなわち、データ整形手段727は、ユーザの要望に合致した形式でデータを出力すればよい。
Note that the method by which the
本実施例では、(超)平面で空間をランダム分割する方法を説明した。なお、クラスタ化手段725は、一度非線形変換を行った後に平面分割を行うことにより、平面以外の面で空間を分割してもよい。
In the present embodiment, the method of randomly dividing the space on the (super) plane has been described. Note that the
また、クラスタ化手段725は、ランダム分割以外の方法で空間を分割してもよい。クラスタ化手段725は、例えば、データ分布の局在性を考慮して空間を分割してもよい。また、クラスタ化手段725は、ボロノイ分割を行ってもよい。また、クラスタ化手段725は、R−Treeなどのツリー構造を用いた空間インデックスを用いて空間を分割してもよい。クラスタ化手段725が空間を分割する方法には、その他様々なクラスタリング手法が適用可能である。
Further, the
ただし、仮説の検証を繰り返すことを考慮すると、応答時間が重要になる。一般に、クラスタリング処理は時間がかかるため、精度よりも高速性に優れた手法を用いる方が、本発明ではより好ましい。 However, the response time is important when considering repeated hypothesis testing. Generally, since the clustering process takes time, it is more preferable in the present invention to use a method that is faster than accuracy.
第2の実施例では、図1に例示するデータベース112が分散データベースとして配置され、ユーザがインターネットに代表される通信ネットワークを介して、クライアントPC(Personal Computer )からデータ検索装置を利用する例を説明する。図9は、通信ネットワークを介してデータ検索を行う例を示す説明図である。図9に例示するデータ管理装置907が、本発明のデータ検索装置に相当する。
In the second embodiment, an example in which the
ユーザは、クライアントPC901を用いて、インターネットに代表される通信ネットワーク902を介してアプリケーション903にアクセスする。この際、クライアントPC901から、データの取得に必要なクエリが発行され、分散データベース910から、データを取得する。
A user uses the
アプリケーション903は、大規模データが保存されたデータベースにアクセスし、所望の処理を行うことでクライアントPC901に対してサービスを提供する。アプリケーション903は、典型的には、Webアプリケーションとして実装される。本実施例では、アプリケーション903は、大規模データを処理する機能自体の実装は具備していないものとし、クライアントPC901の要求に対して応答するために必要な小規模データを処理するとする。
The
本実施例では、アプリケーション903は、位置情報や時間が付加されたテキスト情報を処理するアプリケーションであるものとする。アプリケーション903は、例えば、クライアントPC901から要求された地図上のある範囲に対して、テキスト情報が示す多様性の位置分布に応じて色を変えて表示する。ただし、アプリケーション903が行う処理は、この例に限定されない。
In this embodiment, it is assumed that the
検索対象とするデータは、通信ネットワーク909を介して接続された分散データベース910上に格納され、管理されるものとする。また、データ管理装置907は、データベースドライバ908を用いて、分散データベース910にアクセス可能であるとする。このデータ管理装置907は、アプリケーション903にAPI(Application Program Interface )905を提供しており、アプリケーション903は、このAPI905を利用して検索クエリを発行する。
It is assumed that data to be searched is stored and managed on a distributed
クライアントPC901は、ブラウザに地図を表示する際、表示範囲やズームレベルを選択できる機能を有する。アプリケーション903は、表示範囲とズームレベルとから、人間の感性をもとに大体同じ地域と考えて差し支えのない許容近傍範囲を自動的に算出する。また、本実施例では、アプリケーション903は、実施例1で説明した近傍基準を設定する。
The
さらに、データ管理装置907の提供するAPI905にインターフェース906を実装することで、観点基準としてユーザ多様性が指定される。
Further, by mounting the
インターフェース906は、任意の二つの集合を比較することを規定したコンパレータとして提供される。ここで、Tをデータクラスとし、集合をList<T>とTのリストで表現すると、コンパレータは、「public int evaluator(List<T> lst1,List<T> lst2))と記述される。
The
アプリケーション903は、図9のインターフェース実装904で示すように、実際に取り扱う再構成データクラスDataClassをTに指定し、比較処理を実装する。
As shown by the
データ管理装置907は、クライアントPC901に対して表示範囲の選択が行われたことを契機としてアプリケーション903から発行されるデータ検索クエリを受信する。このデータ検索クエリには、データの表示範囲、近傍基準、許容近傍基準および観点基準が含まれる。そして、データ管理装置907は、データベースドライバ908を用いて、該当データを取得し、データの再構成および標本化を行い、データの部分集合の集合をアプリケーション903に返信する。
The
結果は、近傍ごとに、観点基準でソートされたデータクラスタの集合として出力される。例えば、結果をブラウザに表示する場合、結果がリスト形式で一覧表示され、対応する地図上の場所に多様度が、予め決められた色分けに基づいて表示される。例えば、多様度が高いほど、明るい色で表示するように設定しておいてもよい。 The result is output as a set of data clusters sorted by viewpoint criteria for each neighborhood. For example, when the results are displayed on the browser, the results are displayed in a list form in a list format, and the diversity is displayed at a corresponding location on the map based on a predetermined color coding. For example, the higher the diversity, the brighter the color may be displayed.
他にも、アプリケーション903は、マーケティングツールとして、顧客の行動動向をインタラクティブに検索できる機能を実装していてもよい。この場合、ユーザは、マーケターであり、マーケティング戦略を考える上で過去のログデータなどの顧客情報を分析するとする。以下、顧客の行動動向を分析する方法の例を説明する。
In addition, the
顧客情報は、居住位置、購入アイテムID、購入アイテムカテゴリ、購入時間、顧客年齢などを含むとする。マーケターは、この情報をもとに、出店店舗計画、および販売計画を立てるとする。 The customer information includes a residence position, purchase item ID, purchase item category, purchase time, customer age, and the like. Based on this information, the marketer is supposed to make a store opening plan and a sales plan.
まず、マーケターは、購入アイテムカテゴリを主要製品のカテゴリ(例えば食品など)に絞る。また、マーケターは、居住位置を近傍基準に使用する。さらに、マーケターは、許容近傍範囲基準を、例えば5kmと設定する。また、マーケターは、観点基準を、顧客年齢の多様性の低さとする。このような想定でデータ管理装置907が利用されると、ある特定の年齢部分に購買層が集中する居住地域のみのデータを、元データの部分集合として抽出できる。抽出された情報を分析することで、各地域で具体的にどの年齢層が主たる購買層なのか判断できる。
First, the marketer narrows down the purchase item category to the category of the main product (for example, food). In addition, the marketer uses the residence position as a neighborhood reference. Further, the marketer sets the allowable neighborhood range reference to, for example, 5 km. The marketer also sets the viewpoint standard to low customer age diversity. If the
さらに、マーケターは、抽出した部分集合を利用して、さらに情報を得ることができる。例えば、マーケターは、年齢および居住位置を近傍基準に使用する。さらに、マーケターは、許容近傍範囲基準を、例えば10歳および位置範囲5kmとそれぞれ設定する。また、マーケターは、観点基準を、多様性の低さの観点から、どの購入アイテムIDをどの購入時間帯(例えば1時間区切りなどで)に購入しているか、と設定する。 Furthermore, the marketer can obtain more information by using the extracted subset. For example, marketers use age and residence location as neighborhood criteria. Further, the marketer sets the allowable neighborhood range reference to, for example, 10 years old and a position range of 5 km, respectively. In addition, the marketer sets the viewpoint criterion as to which purchase item ID is purchased in which purchase time zone (for example, every hour) from the viewpoint of low diversity.
このような想定でデータ管理装置907が利用されると、ある特定地域で、特定年齢層が、特定購入アイテムを特定時間に購入しているのかが判断できる。例えば、ある地域に住む20代の住民が、23時頃にインスタント食品をよく購入しているといったことが判断される。
When the
これらの情報が取得できれば、例えば、どの地域に、どのような店舗を出店し、その店舗で何時頃にどのような商品を入荷すればよいか判断するための情報を得ることができる。 If these pieces of information can be acquired, for example, it is possible to obtain information for determining which store is opened in which region and what product should be received at that store.
本実施例で示した例は、クエリに設定する情報の簡単な一例である。クエリに設定する情報(例えば、近傍基準や観点基準)は、さらに複雑であってもよい。例えば、データベースからデータを抽出する一般的な機能を利用する場合、複雑な事案に関する検索を行う場合、複雑な検索文を記載する必要がある。しかし、本実施例によれば、複雑な検索文を記載しなければならない事案に関する検索を行う場合であっても、柔軟かつ高速に検索処理を行うことができる。 The example shown in the present embodiment is a simple example of information set in a query. Information (for example, neighborhood criteria and viewpoint criteria) set in the query may be more complicated. For example, when a general function for extracting data from a database is used, when searching for a complicated case, it is necessary to describe a complicated search sentence. However, according to the present embodiment, even when searching for a case where a complicated search sentence must be described, the search processing can be performed flexibly and at high speed.
また、必ずしも事前に明らかではない検索条件が必要な場合、少しずつ検索条件の組み合わせを変更する試行錯誤プロセスが必須である。本実施例によれば、上述する柔軟性により、検索クエリの繰り返し発行することによって、効率的に仮説検証を行うことができる。 In addition, when a search condition that is not clear in advance is necessary, a trial and error process for changing the combination of search conditions little by little is essential. According to the present embodiment, hypothesis verification can be efficiently performed by repeatedly issuing a search query with the above-described flexibility.
第3の実施例では、データ検索装置が第1の実施形態のデータ検索部120を多段に接続した例を説明する。図10は、本実施例のデータ検索装置の構成例を示すブロック図である。図10に例示するデータ検索装置は、データ登録部110と、データ検索部1020と、データ検索部1030とを備えている。
In the third example, an example in which the data search device connects the
図10に例示するように、データ検索装置がデータ検索部を複数備えることで、複数の基準に基づいて検索処理を行うことが可能になる。 As illustrated in FIG. 10, the data search apparatus includes a plurality of data search units, so that a search process can be performed based on a plurality of criteria.
例えば、クエリ1001が、それぞれ、近傍基準、許容近傍範囲基準および観点基準の組を2つ指定するものとする。この場合、データ検索部1020は、第一の近傍基準および第一の許容近傍範囲基準によって空間属性を作成する。また、データ検索部1020は、空間属性を用いて分割されたデータの部分集合の集合を、第一の観点基準に基づいて標本化する。
For example, it is assumed that the
標本化されたデータは、データ検索部1030に入力される。データ検索部1030は、その標本化されたデータに対して、第二の近傍基準および第二の許容近傍範囲基準によって空間属性を作成する。また、データ検索部1030は、空間属性を用いて分割されたデータの部分集合の集合を、第二の観点基準に基づいて標本化する。本実施例では、データ検索装置がデータ検索部を複数備えることで、標本化する処理を繰り返すことが可能になる。
The sampled data is input to the
なお、図10に示す例では、データ検索部が2つの場合を例示しているが、データ検索部の数は、2つに限定されず、3つ以上であってもよい。また、データ検索装置がデータ検索部を複数備えるような構成ではなく、第2の実施形態で示した構成であってもよい。この場合、クエリ分析手段121が、標本化した結果から、適切な近傍基準、許容近傍範囲基準および観点基準などの条件を更新し、データ再構成手段122や標本化手段125に、再度情報を通知するループ処理を行えばよい。
In the example illustrated in FIG. 10, two data search units are illustrated, but the number of data search units is not limited to two and may be three or more. Moreover, the configuration shown in the second embodiment may be used instead of the configuration in which the data search device includes a plurality of data search units. In this case, the
次に、本発明の概要を説明する。図11は、本発明によるデータ検索装置の概要を示すブロック図である。本発明によるデータ検索装置は、検索対象のデータの類似性を判断する基準として用いられる近傍基準と、検索対象のデータが類似する範囲を示す許容近傍範囲基準と、検索する観点を示す観点基準とを含むクエリ(例えば、クエリ102)の入力に応じ、近傍基準および許容近傍範囲基準に基づいて、他のデータとの類似性が判断可能な空間上に検索対象のデータを写像する空間属性写像(例えば、空間属性写像f)を生成する空間写像生成手段81(例えば、クエリ分析手段121)と、クエリの入力に応じ、観点基準に基づいて、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像(例えば、観点属性写像g)を生成する観点写像生成手段82(例えば、クエリ分析手段121)と、空間属性写像を用いて検索対象のデータを変換することにより、そのデータに対応する空間属性情報を生成する空間属性情報生成手段83(例えば、データ再構成手段122)と、許容近傍範囲基準に従って空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成する部分集合生成手段84(例えば、標本化手段125)と、観点属性写像を用いて、各部分集合を全順序集合の元に写像する写像手段85(例えば、標本化手段125)と、写像された全順序集合の元に対応する各部分集合を、その元に基づいて判断される順序に応じて検索結果を特定する(例えば、順序が高い順にQ個選択する)検索結果特定手段86(例えば、標本化手段125)とを備えている。 Next, the outline of the present invention will be described. FIG. 11 is a block diagram showing an outline of a data search apparatus according to the present invention. The data search apparatus according to the present invention includes a proximity criterion used as a criterion for determining similarity of data to be searched, an allowable neighborhood range criterion indicating a range in which the data to be searched are similar, and a viewpoint criterion indicating a search viewpoint. In response to an input of a query including the query (for example, the query 102), based on the neighborhood criterion and the allowable neighborhood range criteria, a spatial attribute mapping (mapping the search target data on a space in which similarity with other data can be determined ( For example, a spatial mapping generation unit 81 (for example, a query analysis unit 121) that generates a spatial attribute mapping f) and one or more pieces of given data based on viewpoint criteria in accordance with the input of the query A viewpoint mapping generation unit 82 (for example, query analysis unit 121) that generates a viewpoint attribute mapping (for example, viewpoint attribute mapping g) to be originally mapped, and a search object using the spatial attribute mapping By converting the data, the space attribute information generating unit 83 (for example, the data reconstructing unit 122) that generates the spatial attribute information corresponding to the data, and the set of the spatial attribute information are divided according to the allowable neighborhood range criterion. Each subset is generated using a subset generation means 84 (for example, sampling means 125) that creates a set of search target data corresponding to each spatial attribute information as a subset of the search target data, and a viewpoint attribute map. And mapping means 85 (for example, sampling means 125) for mapping each of the subsets corresponding to the elements of the mapped total ordered set according to the order determined based on the elements. Search result specifying means 86 (for example, sampling means 125) for specifying search results (for example, selecting Q items in descending order) is provided.
そのような構成により、データ間の複数の類似性を示す観点に基づいて検索を行う場合であっても、高速かつ柔軟にデータ検索を行うことができる。 With such a configuration, even when a search is performed based on a viewpoint showing a plurality of similarities between data, the data search can be performed at high speed and flexibly.
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。 A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
(付記1)検索対象のデータの類似性を判断する基準として用いられる近傍基準と、検索対象のデータが類似する範囲を示す許容近傍範囲基準と、検索する観点を示す観点基準とを含むクエリの入力に応じ、前記近傍基準および許容近傍範囲基準に基づいて、他のデータとの類似性が判断可能な空間上に検索対象のデータを写像する空間属性写像を生成する空間写像生成手段と、前記クエリの入力に応じ、前記観点基準に基づいて、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像を生成する観点写像生成手段と、前記空間属性写像を用いて検索対象のデータを変換することにより、当該データに対応する空間属性情報を生成する空間属性情報生成手段と、前記許容近傍範囲基準に従って前記空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成する部分集合生成手段と、前記観点属性写像を用いて、前記各部分集合を全順序集合の元に写像する写像手段と、写像された全順序集合の元に対応する各部分集合を、当該元に基づいて判断される順序に応じて検索結果を特定する検索結果特定手段とを備えたことを特徴とするデータ検索装置。 (Supplementary Note 1) A query including a neighborhood criterion used as a criterion for judging similarity of search target data, an allowable neighborhood range criterion indicating a range in which the search target data is similar, and a viewpoint criterion indicating a search viewpoint In response to the input, based on the neighborhood criterion and the allowable neighborhood range criterion, a spatial mapping generation unit that generates a spatial attribute mapping that maps data to be searched on a space where similarity with other data can be determined; and In accordance with the input of a query, based on the viewpoint criteria, a viewpoint mapping generating means for generating viewpoint attribute mapping that maps one or more pieces of given data under a total ordered set, and a search using the spatial attribute mapping By converting target data, spatial attribute information generating means for generating spatial attribute information corresponding to the data, and dividing the set of spatial attribute information according to the allowable neighborhood range criterion A subset generation means for creating a set of search object data corresponding to each divided space attribute information as a subset of the search object data, and using the viewpoint attribute mapping, Mapping means for mapping to the original, and search result specifying means for specifying the search results for each subset corresponding to the elements of the mapped total ordered set according to the order determined based on the elements A data search device characterized by the above.
(付記2)検索対象のデータを記憶するデータ記憶手段と、前記データ記憶手段に記憶されたデータから、指定された条件を満たすデータを抽出するデータ抽出手段とを備え、空間属性情報生成手段は、抽出されたデータを空間属性写像を用いて変換することにより、当該データに対応する空間属性情報を生成する付記1記載のデータ検索装置。 (Additional remark 2) It is provided with the data storage means which memorize | stores the data of search object, The data extraction means which extracts the data which satisfy | fills the designated conditions from the data memorize | stored in the said data storage means, Spatial attribute information generation means The data search device according to appendix 1, wherein the extracted data is converted using a spatial attribute mapping to generate spatial attribute information corresponding to the data.
(付記3)空間写像生成手段は、新たな近傍基準および許容近傍範囲基準に基づいて、検索結果として特定されたデータを写像する空間属性写像を生成し、観点写像生成手段は、新たな観点基準に基づいて観点属性写像を生成し、空間属性情報生成手段は、検索結果として特定されたデータを前記空間属性写像を用いて変換することにより、当該データに対応する空間属性情報を生成する付記1または付記2記載のデータ検索装置。
(Supplementary Note 3) The spatial mapping generation unit generates a spatial attribute mapping that maps the data specified as the search result based on the new neighborhood criterion and the allowable neighborhood range criterion, and the viewpoint mapping generation unit generates the new viewpoint criterion. The viewpoint attribute mapping is generated based on the spatial attribute information generating means, and the spatial attribute information generating means generates the spatial attribute information corresponding to the data by converting the data specified as the search result using the spatial attribute mapping. Or the data search device according to
(付記4)検索結果出力手段は、特定された検索結果が指定された条件を満たさない場合、空間属性写像、観点属性写像もしくは許容近傍範囲基準のいずれか、または空間属性写像、観点属性写像および許容近傍範囲基準の全てを更新する付記3記載のデータ検索装置。
(Supplementary Note 4) When the specified search result does not satisfy the specified condition, the search result output means is either a spatial attribute map, a viewpoint attribute map, or an allowable neighborhood range criterion, or a spatial attribute map, a viewpoint attribute map, and The data search device according to
(付記5)部分集合生成手段は、許容近傍範囲基準に従って空間属性情報をランダム分割することにより、検索対象データの部分集合を作成する付記1から付記4のうちのいずれか1つに記載のデータ検索装置。 (Supplementary note 5) The data according to any one of supplementary notes 1 to 4, wherein the subset generation unit creates a subset of the search target data by randomly dividing the spatial attribute information according to the allowable neighborhood range criterion. Search device.
(付記6)データ記憶手段は、各データの属性をテーブル形式、キーバリュー形式またはグラフ形式で管理する付記2記載のデータ検索装置。
(Supplementary note 6) The data search device according to
(付記7)データ記憶手段は、記憶されたデータにSQLまたはNoSQLを用いてアクセスできる付記6記載のデータ検索装置。
(Supplementary note 7) The data search device according to
(付記8)データ記憶手段は、分散化可能に配置される付記6または付記7に記載のデータ検索装置。
(Supplementary note 8) The data search device according to
(付記9)空間属性写像は、データの属性から、任意のデータ間の類似性を判断可能な定量的指標が定義された距離空間へ変換する方法を規定する写像であり、許容近傍範囲基準には、同一視可能なデータの範囲が規定され、観点属性写像は、データの属性から全順序集合へ変換する方法を規定する写像である付記1から付記8のうちのいずれか1つに記載のデータ検索装置。
(Supplementary note 9) Spatial attribute mapping is a mapping that prescribes a method for converting a data attribute to a metric space in which a quantitative index that can determine the similarity between arbitrary data is defined. The range of data that can be identified is defined, and the viewpoint attribute map is a map that defines a method for converting data attributes into a fully ordered set, according to any one of appendix 1 to
(付記10)観点基準には、任意の二つのデータ集合を比較したときに、検索者がどちらのデータ集合をより好むかを示す情報が指定される付記1から付記9のうちのいずれか1つに記載のデータ検索装置。 (Supplementary note 10) The viewpoint criterion is any one of supplementary notes 1 to 9 in which information indicating which data set the searcher prefers when comparing two arbitrary data sets is specified. The data search device described in 1.
(付記11)検索対象のデータの類似性を判断する基準として用いられる近傍基準と、検索対象のデータが類似する範囲を示す許容近傍範囲基準と、検索する観点を示す観点基準とを含むクエリの入力に応じ、前記近傍基準および許容近傍範囲基準に基づいて、他のデータとの類似性が判断可能な空間上に検索対象のデータを写像する空間属性写像を生成し、前記クエリの入力に応じ、前記観点基準に基づいて、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像を生成し、前記空間属性写像を用いて検索対象のデータを変換することにより、当該データに対応する空間属性情報を生成し、前記許容近傍範囲基準に従って前記空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成し、前記観点属性写像を用いて、前記各部分集合を全順序集合の元に写像し、写像された全順序集合の元に対応する各部分集合を、当該元に基づいて判断される順序に応じて検索結果を特定することを特徴とするデータ検索方法。 (Supplementary Note 11) A query including a neighborhood criterion used as a criterion for determining similarity of search target data, an allowable neighborhood range criterion indicating a range in which the search target data is similar, and a viewpoint criterion indicating a search viewpoint In response to the input, generates a spatial attribute mapping that maps the search target data on a space that can be determined to be similar to other data based on the neighborhood criterion and the allowable neighborhood range criterion, and responds to the query input. , Generating a viewpoint attribute map that maps one or more pieces of given data based on a total ordered set based on the viewpoint criteria, and converting the data to be searched using the spatial attribute map, Generating spatial attribute information corresponding to the data, dividing the set of spatial attribute information according to the allowable neighborhood range criterion, and collecting a set of search target data corresponding to each of the divided spatial attribute information, Create as a subset of search target data, use the viewpoint attribute mapping, map each subset to a total ordered set, and each subset corresponding to the mapped total ordered set, A data search method characterized by specifying a search result according to an order determined based on the above.
(付記12)検索対象のデータを記憶するデータ記憶手段に記憶された当該データから、指定された条件を満たすデータを抽出し、抽出されたデータを空間属性写像を用いて変換することにより、当該データに対応する空間属性情報を生成する付記11記載のデータ検索方法。
(Supplementary note 12) By extracting data satisfying a specified condition from the data stored in the data storage means for storing data to be searched, and converting the extracted data using a spatial attribute mapping, The data search method according to
(付記13)コンピュータに、検索対象のデータの類似性を判断する基準として用いられる近傍基準と、検索対象のデータが類似する範囲を示す許容近傍範囲基準と、検索する観点を示す観点基準とを含むクエリの入力に応じ、前記近傍基準および許容近傍範囲基準に基づいて、他のデータとの類似性が判断可能な空間上に検索対象のデータを写像する空間属性写像を生成する空間写像生成処理、前記クエリの入力に応じ、前記観点基準に基づいて、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像を生成する観点写像生成処理、前記空間属性写像を用いて検索対象のデータを変換することにより、当該データに対応する空間属性情報を生成する空間属性情報生成処理、前記許容近傍範囲基準に従って前記空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成する部分集合生成処理、前記観点属性写像を用いて、前記各部分集合を全順序集合の元に写像する写像処理、および、写像された全順序集合の元に対応する各部分集合を、当該元に基づいて判断される順序に応じて検索結果を特定する検索結果特定処理を実行させるためのデータ検索用プログラム。 (Additional remark 13) The neighborhood reference used as a reference | standard which judges the similarity of the data of search object to a computer, the permissible neighborhood range reference | standard which shows the range where the data of search object are similar, and the viewpoint reference | standard which shows the viewpoint to search Spatial mapping generation processing for generating a spatial attribute mapping that maps data to be searched on a space where similarity with other data can be determined based on the neighborhood criterion and the allowable neighborhood range criterion according to an input of a query including In response to the input of the query, based on the viewpoint criteria, a viewpoint mapping generation process for generating a viewpoint attribute mapping that maps one or more pieces of given data under a total ordered set, using the spatial attribute mapping Spatial attribute information generation processing for generating spatial attribute information corresponding to the data by converting search target data, and the spatial attribute information according to the allowable neighborhood range criterion A subset generation process for dividing a set and creating a set of search target data corresponding to each divided space attribute information as a subset of the search target data, and using the viewpoint attribute mapping, A mapping process for mapping to an ordered set, and a search result specifying process for identifying each subset corresponding to the elements of all mapped ordered sets according to the order determined based on the element Data retrieval program to be executed.
(付記14)コンピュータに、検索対象のデータを記憶するデータ記憶手段に記憶された当該データから、指定された条件を満たすデータを抽出するデータ抽出処理を実行させ、空間属性情報生成処理で、抽出されたデータを空間属性写像を用いて変換させることにより、当該データに対応する空間属性情報を生成させる付記13記載のデータ検索用プログラム。 (Supplementary note 14) A computer is caused to execute a data extraction process for extracting data satisfying a specified condition from the data stored in the data storage means for storing data to be searched. 14. The data search program according to appendix 13, wherein the converted data is converted using a spatial attribute map to generate spatial attribute information corresponding to the data.
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 Although the present invention has been described with reference to the embodiments and examples, the present invention is not limited to the above embodiments and examples. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
この出願は、2012年4月12日に出願された日本特許出願2012−091085を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims the priority on the basis of the JP Patent application 2012-091085 for which it applied on April 12, 2012, and takes in those the indications of all here.
本発明は、検索対象とするデータ群から関心の高いデータの部分集合を抽出するデータ検索装置に好適に適用される。 The present invention is suitably applied to a data search apparatus that extracts a subset of highly interested data from a data group to be searched.
101 データ
102 クエリ
103 出力部分集合データ
110 データ登録部
111 データベース管理手段
112 データベース
120 データ検索部
121 クエリ分析手段
122 データ再構成手段
123 再構成データ管理手段
124 再構成データ記憶手段
125 標本化手段
601 条件判断手段DESCRIPTION OF
Claims (10)
前記クエリの入力に応じ、前記観点基準に基づいて、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像を生成する観点写像生成手段と、
前記空間属性写像を用いて検索対象のデータを変換することにより、当該データに対応する空間属性情報を生成する空間属性情報生成手段と、
前記許容近傍範囲基準に従って前記空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成する部分集合生成手段と、
前記観点属性写像を用いて、前記各部分集合を全順序集合の元に写像する写像手段と、
写像された全順序集合の元に対応する各部分集合を、当該元に基づいて判断される順序に応じて検索結果を特定する検索結果特定手段とを備えた
ことを特徴とするデータ検索装置。In response to a query input including a proximity criterion used as a criterion for determining the similarity of data to be searched, an allowable neighborhood range criterion indicating a range in which the data to be searched are similar, and a viewpoint criterion indicating a point of search, Spatial mapping generation means for generating a spatial attribute mapping that maps data to be searched on a space where similarity with other data can be determined based on the neighborhood criterion and the allowable neighborhood range criterion;
In accordance with the input of the query, viewpoint mapping generation means for generating viewpoint attribute mapping that maps one or more pieces of given data under a total ordered set based on the viewpoint criterion;
Space attribute information generating means for generating space attribute information corresponding to the data by converting the search target data using the space attribute map;
A subset generation means for dividing the set of spatial attribute information according to the allowable neighborhood range criterion, and creating a set of search target data corresponding to each of the divided spatial attribute information as a subset of the search target data;
Mapping means for mapping each subset to a fully ordered set using the viewpoint attribute mapping;
A data search apparatus comprising: search result specifying means for specifying a search result for each subset corresponding to an element of a mapped total ordered set according to an order determined based on the element.
前記データ記憶手段に記憶されたデータから、指定された条件を満たすデータを抽出するデータ抽出手段とを備え、
空間属性情報生成手段は、抽出されたデータを空間属性写像を用いて変換することにより、当該データに対応する空間属性情報を生成する
請求項1記載のデータ検索装置。Data storage means for storing data to be searched;
Data extraction means for extracting data satisfying a specified condition from the data stored in the data storage means;
The data search apparatus according to claim 1, wherein the space attribute information generation means generates space attribute information corresponding to the data by converting the extracted data using a space attribute map.
観点写像生成手段は、新たな観点基準に基づいて観点属性写像を生成し、
空間属性情報生成手段は、検索結果として特定されたデータを前記空間属性写像を用いて変換することにより、当該データに対応する空間属性情報を生成する
請求項1または請求項2記載のデータ検索装置。The spatial mapping generation means generates a spatial attribute mapping that maps the data specified as the search result based on the new neighborhood criterion and the allowable neighborhood range criterion,
The viewpoint map generation means generates a viewpoint attribute map based on the new viewpoint criterion,
The data search device according to claim 1 or 2, wherein the space attribute information generation means generates space attribute information corresponding to the data by converting the data specified as a search result using the space attribute map. .
請求項3記載のデータ検索装置。When the specified search result does not satisfy the specified condition, the search result output means is either a spatial attribute mapping, a viewpoint attribute mapping, or an allowable neighborhood range criterion, or a spatial attribute mapping, a viewpoint attribute mapping, and an allowable neighborhood range criterion. The data search device according to claim 3, wherein all of the data are updated.
請求項1から請求項4のうちのいずれか1項に記載のデータ検索装置。The data search device according to any one of claims 1 to 4, wherein the subset generation means generates a subset of search target data by randomly dividing the spatial attribute information according to an allowable neighborhood range criterion. .
請求項2記載のデータ検索装置。The data search device according to claim 2, wherein the data storage means manages the attribute of each data in a table format, a key-value format, or a graph format.
前記クエリの入力に応じ、前記観点基準に基づいて、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像を生成し、
前記空間属性写像を用いて検索対象のデータを変換することにより、当該データに対応する空間属性情報を生成し、
前記許容近傍範囲基準に従って前記空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成し、
前記観点属性写像を用いて、前記各部分集合を全順序集合の元に写像し、
写像された全順序集合の元に対応する各部分集合を、当該元に基づいて判断される順序に応じて検索結果を特定する
ことを特徴とするデータ検索方法。In response to a query input including a proximity criterion used as a criterion for determining the similarity of data to be searched, an allowable neighborhood range criterion indicating a range in which the data to be searched are similar, and a viewpoint criterion indicating a point of search, Based on the neighborhood criteria and the allowable neighborhood range criteria, generate a spatial attribute mapping that maps the data to be searched on a space where similarity with other data can be determined,
In response to the input of the query, based on the viewpoint criteria, generates a viewpoint attribute mapping that maps one or more pieces of given data under a fully ordered set;
By converting the search target data using the spatial attribute mapping, to generate spatial attribute information corresponding to the data,
Dividing the set of spatial attribute information according to the allowable neighborhood range criterion, creating a set of search target data corresponding to each of the divided spatial attribute information as a subset of the search target data;
Map each subset to a fully ordered set using the viewpoint attribute mapping;
A data search method comprising: specifying a search result for each subset corresponding to an element of a mapped total ordered set according to an order determined based on the element.
抽出されたデータを空間属性写像を用いて変換することにより、当該データに対応する空間属性情報を生成する
請求項7記載のデータ検索方法。Extract the data that satisfies the specified conditions from the data stored in the data storage means for storing the data to be searched,
The data search method according to claim 7, wherein the extracted attribute data is converted using a spatial attribute map to generate spatial attribute information corresponding to the data.
検索対象のデータの類似性を判断する基準として用いられる近傍基準と、検索対象のデータが類似する範囲を示す許容近傍範囲基準と、検索する観点を示す観点基準とを含むクエリの入力に応じ、前記近傍基準および許容近傍範囲基準に基づいて、他のデータとの類似性が判断可能な空間上に検索対象のデータを写像する空間属性写像を生成する空間写像生成処理、
前記クエリの入力に応じ、前記観点基準に基づいて、与えられた1つ以上のデータを全順序集合の元に写像する観点属性写像を生成する観点写像生成処理、
前記空間属性写像を用いて検索対象のデータを変換することにより、当該データに対応する空間属性情報を生成する空間属性情報生成処理、
前記許容近傍範囲基準に従って前記空間属性情報の集合を分割し、分割された各空間属性情報に対応する検索対象データの集合を、検索対象データの部分集合として作成する部分集合生成処理、
前記観点属性写像を用いて、前記各部分集合を全順序集合の元に写像する写像処理、および、
写像された全順序集合の元に対応する各部分集合を、当該元に基づいて判断される順序に応じて検索結果を特定する検索結果特定処理
を実行させるためのデータ検索用プログラム。On the computer,
In response to a query input including a proximity criterion used as a criterion for determining the similarity of data to be searched, an allowable neighborhood range criterion indicating a range in which the data to be searched are similar, and a viewpoint criterion indicating a point of search, Spatial mapping generation processing for generating a spatial attribute mapping that maps data to be searched on a space where similarity with other data can be determined based on the neighborhood criterion and the allowable neighborhood range criterion;
A viewpoint mapping generation process for generating a viewpoint attribute mapping that maps one or more pieces of given data under a total ordered set based on the viewpoint criterion in response to the input of the query;
A spatial attribute information generation process for generating spatial attribute information corresponding to the data by converting the data to be searched using the spatial attribute mapping;
A subset generation process for dividing the set of spatial attribute information according to the allowable neighborhood range criterion and creating a set of search target data corresponding to each of the divided spatial attribute information as a subset of the search target data;
A mapping process for mapping each subset to a fully ordered set using the viewpoint attribute mapping; and
A data search program for executing a search result specifying process for specifying a search result for each subset corresponding to an element of a mapped total ordered set according to an order determined based on the element.
検索対象のデータを記憶するデータ記憶手段に記憶された当該データから、指定された条件を満たすデータを抽出するデータ抽出処理を実行させ、
空間属性情報生成処理で、抽出されたデータを空間属性写像を用いて変換させることにより、当該データに対応する空間属性情報を生成させる
請求項9記載のデータ検索用プログラム。On the computer,
From the data stored in the data storage means for storing the search target data, the data extraction process for extracting the data satisfying the specified condition is executed,
The data search program according to claim 9, wherein the spatial attribute information corresponding to the data is generated by converting the extracted data using the spatial attribute mapping in the spatial attribute information generation process.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012091085 | 2012-04-12 | ||
JP2012091085 | 2012-04-12 | ||
PCT/JP2013/000977 WO2013153725A1 (en) | 2012-04-12 | 2013-02-21 | Data search device, data search method, and program for data search |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013153725A1 true JPWO2013153725A1 (en) | 2015-12-17 |
JP6065001B2 JP6065001B2 (en) | 2017-01-25 |
Family
ID=49327322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014510029A Active JP6065001B2 (en) | 2012-04-12 | 2013-02-21 | Data search device, data search method, and data search program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6065001B2 (en) |
WO (1) | WO2013153725A1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069696A (en) * | 2017-09-21 | 2019-07-30 | 阿里巴巴集团控股有限公司 | A kind of searching method, hybrid-sorting method, equipment and system |
KR102386373B1 (en) * | 2018-11-07 | 2022-04-14 | 미쓰비시덴키 가부시키가이샤 | Information processing apparatus, information processing method, and information processing program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010128771A (en) * | 2008-11-27 | 2010-06-10 | Ntt Communications Kk | Clustering result display device, method thereof and program |
JP2010286910A (en) * | 2009-06-09 | 2010-12-24 | Sony Corp | Information processor, information processing method, and program |
-
2013
- 2013-02-21 WO PCT/JP2013/000977 patent/WO2013153725A1/en active Application Filing
- 2013-02-21 JP JP2014510029A patent/JP6065001B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010128771A (en) * | 2008-11-27 | 2010-06-10 | Ntt Communications Kk | Clustering result display device, method thereof and program |
JP2010286910A (en) * | 2009-06-09 | 2010-12-24 | Sony Corp | Information processor, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
WO2013153725A1 (en) | 2013-10-17 |
JP6065001B2 (en) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10657162B2 (en) | Method and system for visualizing documents | |
US20130086057A1 (en) | Social network recommended content and recommending members for personalized search results | |
US20230086966A1 (en) | Search systems and methods utilizing search based user clustering | |
US11409752B1 (en) | Dimensional reduction of complex vectors in artificially intelligent solutions to compare similarity of natural language text | |
EP3807784B1 (en) | Providing query recommendations | |
US20220171873A1 (en) | Apparatuses, methods, and computer program products for privacy-preserving personalized data searching and privacy-preserving personalized data search training | |
JP2010507843A (en) | Personal music recommendation mapping | |
WO2019050624A1 (en) | Processing of computer log messages for visualization and retrieval | |
CN104050213B (en) | Query processing system including data classification | |
Kim et al. | A web service for author name disambiguation in scholarly databases | |
US9552415B2 (en) | Category classification processing device and method | |
KR101823463B1 (en) | Apparatus for providing researcher searching service and method thereof | |
Singh et al. | Nearest keyword set search in multi-dimensional datasets | |
US20220171874A1 (en) | Apparatuses, methods, and computer program products for privacy-preserving personalized data searching and privacy-preserving personalized data search training | |
CN113179659A (en) | Personalized data model using closed data | |
CN104484392A (en) | Method and device for generating database query statement | |
JP2017097823A (en) | Search server, terminal equipment, and search method to be used for distributed network | |
Zhang et al. | Fast eclat algorithms based on minwise hashing for large scale transactions | |
CN114817717A (en) | Search method, search device, computer equipment and storage medium | |
CN111143400B (en) | Full stack type retrieval method, system, engine and electronic equipment | |
CN114175007A (en) | Active learning for data matching | |
CN111582967A (en) | Content search method, device, equipment and storage medium | |
CN110390011B (en) | Data classification method and device | |
Zhao et al. | Monochromatic and bichromatic ranked reverse boolean spatial keyword nearest neighbors search | |
JP6065001B2 (en) | Data search device, data search method, and data search program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6065001 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |