WO2012029152A2 - データ集合間距離算出装置および方法 - Google Patents

データ集合間距離算出装置および方法 Download PDF

Info

Publication number
WO2012029152A2
WO2012029152A2 PCT/JP2010/064972 JP2010064972W WO2012029152A2 WO 2012029152 A2 WO2012029152 A2 WO 2012029152A2 JP 2010064972 W JP2010064972 W JP 2010064972W WO 2012029152 A2 WO2012029152 A2 WO 2012029152A2
Authority
WO
WIPO (PCT)
Prior art keywords
elements
distance
sum
data
calculating
Prior art date
Application number
PCT/JP2010/064972
Other languages
English (en)
French (fr)
Inventor
藤田 修
Original Assignee
Fujita Osamu
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujita Osamu filed Critical Fujita Osamu
Priority to PCT/JP2010/064972 priority Critical patent/WO2012029152A2/ja
Priority to JP2012531622A priority patent/JPWO2012029152A1/ja
Publication of WO2012029152A2 publication Critical patent/WO2012029152A2/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Definitions

  • the present invention provides a data set having a plurality of data as elements, for example, a text data set having a plurality of words and sentences as elements, a hypertext data set having a plurality of sentences and images as elements, and a plurality of phonemes as elements.
  • One method of calculating the distance between sets is to calculate the following formula by paying attention to the concentration of the symmetric difference between the two sets A and B.
  • a ⁇ B is the union of A and B
  • a ⁇ B is the product set of A and B
  • a ⁇ B is the difference set of A and B
  • a ⁇ B is the symmetric difference of A and B
  • represents the concentration of A.
  • the density of A represents the number of elements of A.
  • the distance between sets D syd (A, B) is the number of elements of the difference set (A ⁇ B) ⁇ ( A ⁇ B ), which is the elements included in A ⁇ B excluding the elements included in A ⁇ B.
  • the ratio of this value to the number of elements in A ⁇ B is D jcd (A, B).
  • the disadvantage of these methods is that only the presence or absence of each element is counted, and the difference in importance of each element is not reflected.
  • the corresponding inter-vector distance can also be regarded as the inter-set distance.
  • the above D syd (A, B) is equal to the Hamming distance between two numerical vectors consisting of 0 and 1 corresponding to A and B, respectively.
  • the value of the component corresponding to the element included in each set is not only the binary value of 0 and 1, but the numerical value indicating the importance of the element is set, and the difference in the importance of each element is reflected. Calculate the distance between the given vectors.
  • it is a drawback of this method that the mutual relationship between different components, that is, different elements (similarity and distance between words in the case of document data) is not reflected.
  • the distance between sets depends on the properties of only some elements that are related to the minimum or maximum distance between elements, and reflects less the overall properties of all elements in the set. That is not.
  • the group average distance defined as the average value of the distance between elements:
  • the ⁇ symbol represents summing over all elements of the set shown below, and the sum of inter-element distances for all combinations of elements in set A and elements in set B is the total number of combinations. Divide by. In this calculation formula, all elements are related, but even if A and B are the same set, in many cases, the distance is not zero.
  • the concept of distance is based on the nature of the distance between two points in space in the law of nature. For example, “If two points are at the same position, the distance between them is 0", “If the length of each side of a triangle connecting three different points is the distance between the end points of each side, the total length of the two sides Is longer than or equal to the length of the remaining side (triangular inequality). In order to use such properties, it is desirable that the distance between sets satisfy all the following four properties for any set A, B, C.
  • Patent Document 1 comprehensively explains examples of various distance calculation methods.
  • Patent Document 1 Patent No. 4356347 is a document clustering using the TFIDF method
  • Patent Document 2 Patent No. 4314471 is a distance calculation method based on word co-occurrence frequency
  • Patent Document 3 Patent No. 3
  • No. 4305836 is a content search method using clustering by the shortest distance method, longest distance method, group average method, etc.
  • Patent Document 4 Patent No. 4225812 is a comparison of music data using Hausdorff distance
  • Patent Document 5 Patent No. 4098845
  • Patent Literature 6 Patent No.
  • Patent Literature 7 (Patent No. 3561345) contains group averages for genetic algorithm evaluation.
  • Cluster analysis by the method Patent Document 8 (US Pat. No. 7,767,952) compares the contents of document data using Hausdorff distance
  • Patent Document 9 (US Pat. No. 6,625,585) includes chemical substance data hierarchical clustering
  • Document 10 (US Pat. No. 6,624,982) calculates distance between voice data distributions
  • Patent Document 11 (US Pat. No. 5,995,653) searches for images using Hausdorff distance
  • Patent Document 12 (US Pat. No. 5,832,182) discloses various distance functions. Clustering of large-scale databases using is described.
  • the problem to be solved is that, in the method of determining the distance between sets based on the distance between elements of elements included in the set, the distance between elements in the set is satisfied while satisfying the nature of the distance in the natural law. There is no method for calculating the distance that reflects the average feature of.
  • the present invention solves the above problem by calculating the set distance between sets A and B, D (A, B). Divide into three subsets of ⁇ A and calculate the distance between sets A and B using a formula to calculate the weighted average by multiplying the inter-element distance d (a, b) between each subset by a weighting factor. Is the most important feature.
  • a typical calculation formula is shown below.
  • w 1 , w 2 , and w 3 represent weighting factors having positive values.
  • the first term on the right-hand side calculates the sum of the distances between the elements corresponding to all combinations of each element of the difference sets A ⁇ B and B ⁇ A
  • the second term on the right-hand side calculates each element of the product sets A ⁇ B and B ⁇ A
  • the sum of the element distances corresponding to all the combinations of elements is calculated.
  • the sum of the element distances corresponding to all of the element combinations of the difference set A ⁇ B and the product set A ⁇ B is calculated.
  • Each is multiplied by a weighting factor to obtain the sum.
  • Equations 7 and 8 are equivalent to the following equations.
  • This formula uses the group average distance of the element distance from set A to difference set B ⁇ A and the group average distance of the element distance from set B to difference set A ⁇ B as coefficients
  • is calculated as the distance between sets.
  • the calculation formula of the formula 7 is used. The calculation is less wasteful and efficient.
  • the weighting factor is That is, the inverse of the concentration of S is the first product factor, the inverse of the concentration of the union of S1 and S2 is the second product factor, and the inverse of the concentration of the union of S2 and S3 is the third product factor.
  • the coefficient w 2 of the second term includes the first product factor and the second product factor, the coefficient w 3 of the third term includes the first product factor and the third product factor, and the coefficient w of the first term 1 is the sum of the coefficient of the second term and the coefficient of the third term.
  • a value obtained by multiplying each by the same positive constant may be used.
  • the value of the inter-element distance d (a, b) may be given in advance using conventional technology, but if it is not given in advance, the element based on the concrete case data of the set An inter-distance may be calculated.
  • a set family c (a) ⁇ A
  • a ⁇ A ⁇ of set A containing element a and a set family c (b) ⁇ B
  • the value calculated by may be used.
  • + d (a, b)) and the linear sum of these values may be used as the element distance.
  • the device of the present invention includes an arithmetic device and a storage device in order to calculate the distance between such sets.
  • the storage device stores data representing the relationship between the set and the elements included therein, and also stores numerical data representing two different elements and the distance between those elements.
  • the arithmetic unit calculates the distance between the sets using mathematical formulas as shown in mathematical formulas 7-12.
  • the elements of the set and the distance between elements necessary for the calculation are read from the storage device.
  • numerical data of the distance between elements numerical data given from the outside, or numerical data calculated by the arithmetic unit based on the mathematical formulas 13 and 14 from the relation data between the set and the element in the storage device are used. Available.
  • the inter-data set distance calculation apparatus and method of the present invention calculates the weighted average value of the inter-element distances of the elements included in the data set as the inter-data set distance, the average of the perspective relations of all the elements included in the data set is calculated. It has the advantage that the characteristics are well reflected and the influence of data noise and outliers is small. In addition, since the value satisfies the distance property of the law of nature, there is almost no contradiction in the distance relationship between data sets with high similarity. When performing analysis, there is an advantage that the distance between data sets according to the present invention can be used as an accurate evaluation criterion.
  • the inter-set distance is calculated from the inter-element distances of the elements included in the set. Therefore, by using the inter-set distance obtained by this method, the set of higher-level set families having the set as an element Inter-distance distance can be calculated. For example, even for a data set that represents complex hierarchical information such as a sentence as a set of words, a document as a set of sentences, a document set as a set of documents, etc., based on the distance between lower data sets. The distance between the upper data sets can be calculated.
  • the types of information that can be handled are not limited to document information, but include image information, audio information, chemical substance characteristic information, biological genetic information, various observation data, various data in the political, economic, cultural, and social fields. Can be used to analyze a wide range of information.
  • Example 1 an apparatus in the former case is shown in Example 1, and a method is shown in Example 3.
  • Example 2 The latter apparatus is shown in Example 2 and the method is shown in Example 4.
  • Example 5 As a method of calculating the approximate value of the distance between sets, the case where the weighting factor is simplified is shown in Example 5, and the method of sampling the elements and calculating the statistical estimated value is shown in Examples 6, 7, 8 Shown in Further, application examples of the present invention are shown in Examples 9, 10, and 11.
  • FIG. 1 shows an example of the configuration and functions of the apparatus of the present invention.
  • This device comprises an arithmetic device 101 and a storage device 102.
  • the storage device 102 stores the correspondence between the set and the elements included therein, and the correspondence between the combinations of different elements and the distances between the elements. It is not necessary to record all the specific information as the stored contents of the sets and elements, and it is only necessary to store identification symbols and identification numbers corresponding to the sets and elements in a one-to-one manner.
  • set identifiers are represented by A and B
  • element identifiers are represented by a, b, g, h, and the like
  • an inter-element distance between elements a and b is represented by d (a, b).
  • the distance d (e j , e k ) between two certain words can be calculated by the following equation as the distance between vectors corresponding to them.
  • p is a real number of 1 or more.
  • the cosine distance, Mahalanobis distance, Cullback / librar information amount, etc. may be used for calculating the distance between elements.
  • the characteristics of those elements are characterized by multiple symbols or It is expressed as a numerical value or a combination of them.
  • image, audio, and video information if the characteristics of those contents are expressed by a plurality of keywords, they can be handled in the same manner as a set having the above words as elements.
  • pixel color information can be represented by a numerical vector such as RGB values representing the brightness of the three primary colors, and the entire image can be represented as a two-dimensional array of pixels.
  • the shape is represented by a keyword such as a circle or square and a numerical vector representing the position and size.
  • Speech information is represented by time-series data symbolized into phonemes, phonetic symbols, words, etc., or a numerical vector of frequency spectrum intensity. Genes, physical properties, chemical compositions, and the like are represented by a plurality of attribute data representing their characteristics. Economic conditions and social phenomena are characterized by multiple symbols and numerical values using various statistical data. If each element is associated with a numerical vector, the inter-element distance can be expressed by the inter-vector distance as shown in Equation 15. In any case, the distance between elements used in the calculation in the first embodiment is a numerical value given from the outside, and can correspond to various types of information.
  • the elements of the two sets A and B whose distances are to be calculated are read from the storage unit 102, and the formula 7 is calculated, so that these elements are calculated as the product set A ⁇ B and the two difference sets.
  • Sum1 d (a, b) + d (h, b) as the sum of the distances between the elements A ⁇ B and B ⁇ A in the first term on the right side of Equation 7, A in the second term on the right side of Equation 7
  • Sum2 d (g, b) as the sum of the distances between elements of ⁇ B and B ⁇ A
  • Sum3 d (a, as the sum of the distances between the elements of A ⁇ B and A ⁇ B in the third term on the right side of Equation 7 g) + d (h, g) is calculated.
  • 1/8, the linear sum w 1 ⁇ Sum1 + w 2 ⁇ Sum2 + w 3 ⁇ Sum3 of Equation 7 is calculated and the value is output as the distance between sets.
  • FIG. 2 shows an embodiment in which the distance between elements is not given in advance.
  • the arithmetic device 201 reads the set stored in the storage device 202 and the combination of its elements, calculates the inter-element distance using Equation 13, and stores it in the storage device 202.
  • FIG. 3 shows a flowchart of a method used as a processing procedure related to the calculation of Equation 7 in the arithmetic unit 101 of the first embodiment. That is, in step 301, sets A and B are divided into subsets A ⁇ B, A ⁇ B, B ⁇ A, and in step 302, the sum of the distances between elements A B and B ⁇ A Sum1 and A B Calculate the sum of the elements between B ⁇ A, Sum2, and the sum of the elements between A ⁇ B and A ⁇ B, Sum3, and at step 303, calculate the linear sum of the elements, Sum1, Sum2, Sum3 between the sets. Calculate as
  • FIG. 4 shows a flowchart of the processing method used in the arithmetic unit 201 in the second embodiment. That is, in step 400, an inter-element distance d (a, b) is calculated from the symmetric difference between each set family of the set including the element a and the set including the element b ⁇ ⁇ ⁇ . , Execute 403. Formula 13 is used as a calculation formula for calculating the distance between elements.
  • + d (a, b)) and the value of their linear sum may be used as the inter-element distance.
  • Formula 14 may be used.
  • Approximate values may be calculated when exact numerical values are not required. For example, if the ratio of the number of elements in the product set to the number of elements in the union of sets A and B is sufficiently small, all the weighting factors will be used in the calculation of the linear sum of Sum1, Sum2, and Sum3 in steps 303 and 403. May be calculated by one and the same value shown in Equation 10.
  • a sample may be extracted from some of the elements included in A ⁇ B, and approximated by a statistical estimate. That is, as shown in FIG. 5, first, in step 500, a sample S (a subset of A ⁇ B) extracted at random from the elements of A ⁇ B is extracted. Next, in step 501, S is divided into a subset S1 of the difference set A ⁇ B, a subset S2 of the product set A ⁇ B, and a subset S3 of the difference set B ⁇ A.
  • step 502 the sum of element distances Sum1 for all combinations of elements S1 and S3, the sum of element distances for all combinations of elements S2 and S3, Sum2, elements S1 and S2 Calculate the sum Sum3 of the distances between elements for all of the combinations.
  • the linear sum w 1 ⁇ Sum1 + w 2 ⁇ Sum2 + w 3 ⁇ Sum3 of Sum1, Sum2, and Sum3 is calculated as shown in Equation 11.
  • the values of the weighting factors w 1 , w 2 , and w 3 may be, for example, calculated values using Equation 12 or values obtained by multiplying them by a positive constant.
  • Example 6 when the law of large numbers holds, the approximation accuracy of the distance between sets increases as the number of samples increases. Therefore, the change in the estimated value of the distance between elements is measured while adding samples. Repeat adding samples until the condition is met. That is, after the inter-set distance is calculated in the embodiment 6 shown in FIG. 5, further, as shown in FIG. 6, in step 600 ⁇ , a sample is obtained from the elements of the union set A ⁇ B of the sets A and B. Are extracted at random and added to S. Next, in step 601, the elements added to S are additionally allocated to the subset S1 of the difference set A ⁇ B, the subset S2 of the product set A ⁇ B, and the subset S3 of the difference set B ⁇ A.
  • step 602 the sum of the inter-element distances for all the combinations of the elements of S1 and S3 Sum1, the sum of the inter-element distances for all the combinations of the elements of S2 and S3 Sum2, the elements of S1, and S2 Calculate the sum ⁇ Sum3 of the distance between elements for all of the element combinations.
  • step 603 as shown in Equation 11, a linear sum of Sum1, Sum2, and Sum3 is calculated as a new inter-set distance.
  • step 604 the previous calculated value of the inter-set distance is compared with the new calculated value, and if those values do not satisfy the convergence determination condition described later, the process returns to step 600 again from step 600. Repeat until 603cm. If these values satisfy the convergence determination condition, the iterative process is terminated. Also, if all the elements of the union of sets A and B are extracted as a sample and there is no remainder, the iterative process is terminated. In addition to this, it is also possible to add a limit on the number of repetitions, etc., as an end condition for the repetition process.
  • Convergence judgment conditions include the first calculated value of inter-set distance as D 0 , and the latest nth calculated value after repeated processing as D n , for example, including non-negative constants x, y, and z
  • D n the latest nth calculated value after repeated processing
  • D n the latest nth calculated value after repeated processing
  • the average value E n can be calculated by the following equation as a weighted moving average.
  • FIG. 7 shows a flowchart in the case where the sample elements are added one by one in the method of the seventh embodiment.
  • e ⁇ (ASB) ⁇ S is extracted as a sample and added to S.
  • e ⁇ A and e ⁇ B are judged. If e ⁇ A is not added, e is added to S3. If e ⁇ A is not e ⁇ B, e Is added to S1, and if e ⁇ A and e ⁇ B, add e to S2.
  • step 602 if e ⁇ S1, add the sum of the distances between the elements of e and S3 to Sum1, add the sum of the distances of the elements between e and S2 to Sum3, and if e ⁇ S2, Adds the sum of the distances between the elements of e and S3 to Sum2, and the sum of the distances between the elements of e and S1 to Sum3. Add the sum of the distances between the elements to Sum1, and add the sum of the distances between the elements of e and S2 to Sum2.
  • documents Inter-distance can be used as a measure of dissimilarity between documents.
  • the inter-document distance between the set X that has the input search word as an element and the multiple documents stored in the document database is calculated, and the distance between the documents is increased in ascending order. Align documents.
  • the inter-document distance matrix D (B i , B j ) D (A i , A j ) is created by copying the inter-document distance matrix.
  • this inter-document set distance matrix use the hierarchical clustering method in the prior art to change the document set by integrating the document sets that have the smallest distance in the non-diagonal component of the inter-document set distance matrix.
  • Step 1 and Step 2 for recalculating the inter-document set distance matrix according to the change a hierarchically classified document set can be created.
  • the distance between the document sets D (B i between the newly added document set B N + 1 and the other document set B i is obtained using any one of the methods of Embodiments 1 to 8 or a combination thereof. , B N + 1 ) and add the (N + 1) th row and the (N + 1) th column to the distance matrix between document sets.
  • the inter-document set distance matrix becomes an (N-1) order square matrix.
  • the image data is associated with a data set that expresses its features linguistically, for example, an image description or a keyword that represents the features of the image: ⁇ landscape photo, abstract painting, calligraphy, ... ⁇ , ⁇ Mountains, rivers, sky, clouds, ... ⁇ , ⁇ towns, nature, people, ... ⁇ , ⁇ straight lines, squares, circles, ... ⁇ , ⁇ alphabets, kanji, numbers, ... ⁇ , When combination data such as ⁇ top, bottom, right, left, front, back ... ⁇ , ⁇ black, white, red, blue, yellow,. Apply similar image search and classification.
  • segment images that are the elements of the image
  • various feature points for example, in the case of face images, the relative position coordinates of the eyes, nose, mouth, ears, etc., the shape of contour lines, numerical data such as color information, etc.
  • the feature vectors to be represented are associated with each other, it is possible to search and classify similar images using the distance between the feature vectors as the distance between the elements of the segment image.
  • the video data is a time-series set of image data, and similar video search and classification can be performed in the same manner as in the ninth and tenth embodiments by regarding the set as an upper set having elements as elements. The same applies to audio data.
  • the present invention is an improved apparatus and calculation method for calculating dissimilarity between different data sets as a distance for a data set composed of a plurality of elements.
  • the calculated value satisfies the natural property of the distance, and appropriately represents the average characteristic of the distance between the data sets, and has a characteristic that it is less affected by the abnormal value than the conventional technique.
  • the average value can often be calculated efficiently by statistical sampling.
  • the types of data sets include document data, image data, audio data, video data, chemical substance data, biological gene data, economic index data, location information data, meteorological data, observation data, etc. Is available. These data sets can be used for searching similar data, classifying similar data, pattern recognition, cluster analysis, data mining, machine learning, and the like.
  • Arithmetic unit 102 202 Storage device

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

データ集合間距離算出装置および方法
 本発明は、複数のデータを要素とするデータ集合、例えば、複数の単語や文を要素とするテキストデータ集合、複数の文章や画像を要素とするハイパーテキストデータ集合、複数の音素を要素とする音声データ集合、複数の画素やセグメント画像を要素とする画像データ集合や映像データ集合、複数の原子特性や分子特性を要素とする化学データ集合、複数のDNA断片情報や遺伝子情報を要素とする生命情報データ集合、などに対して、データ集合の類似性判定、検索、順位付け、分類、クラスタリング、データベース構築などを行うための判断基準となるデータ集合間距離を算出する装置と方法、プログラムに関するものである。
 複数のデータを要素とするデータ集合としては様々な種類のものがあるが、ここでは、文書データの場合を一例として従来技術を説明する。文書データの基本構成要素を単語とすると、単語の集合が句や文となる。さらに、文を要素とする集合が段落となり、段落の集合が一つの文書となり、複数の文書がさらに上位階層の集合を構成する。それぞれの階層において、様々なデータ集合の集合間距離を算出し、その値の大小に基づいて類似文書検索や分類などを行う文書処理技術が開発されている。なお、データの表現形式としては単純な集合の他に、集合族(集合の集合)、ベクトル、グラフなども処理内容に応じて利用されているが、集合は最も基本的なデータ表現形式であり、複雑なデータ構造を集合の形式で表現することも可能である。
 集合間距離の算出方法の一つとして、2つの集合 A と B の対称差の濃度に着目して、次式により算出する方法がある。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
ここで、A∪B はAとBの和集合、A∩B はAとBの積集合、A\B はAとBの差集合、A△B はAとBの対称差を表し、|A| はAの濃度を表す。Aが有限集合の場合、Aの濃度はAの要素の個数を表す。すなわち、集合間距離 Dsyd(A, B) は A∪B に含まれる要素から A∩B に含まれる要素を除いた差集合 (A∪B)\(A∩B) の要素の数、いいかえると、AとBのいずれか片方にのみ含まれる要素の数を表す。この値の A∪B の要素数に対する比率をとると Djcd(A, B) になる。これらの方法の欠点は、各要素の有無のみが計数されており、各要素の重要性の違いが反映されていないことである。
 集合はベクトルに対応付けることもできるので、対応するベクトル間距離を集合間距離とみなすこともできる。例えば、全体集合 {e1, e2, e3, …} の各要素に対応する成分を持つベクトル(v1, v2, v3, …)を対応させる場合、Aがeiを含む(ei ∈ A)ならば vi = 1、含まなければ vi = 0 とする。こうすると、上記の Dsyd(A, B) はAとBのそれぞれに対応する0と1からなる2つの数値ベクトル同士のハミング距離と等しい。この観点から比較すべき従来技術として、文書データの検索や分類に利用されるTFIDF法がある。この方法では、各集合に含まれる要素に対応する成分の値は0と1の2値のみではなく、その要素の重要度を表す数値が設定されており、各要素の重要度の違いが反映されたベクトル間距離を計算する。しかし、異なる成分間すなわち異なる要素間の相互関係(文書データの場合は単語間の類似性や距離)が反映されていないことがこの方法の欠点である。
[規則91に基づく訂正 06.09.2011] 
 同種のデータ集合のクラスタに関する特徴分析や分類を行うクラスタ解析の従来技術においては、集合間の距離を集合に含まれる要素の要素間距離を利用して算出する方法が利用されている。例えば、2つの集合AとBに含まれる要素をそれぞれ a∈A、b∈B、その要素間距離を d(a, b) とすると、AとBの集合間距離を d(a, b) の最小値と定義する最短距離:
Figure JPOXMLDOC01-appb-M000003

あるいは、 d(a, b) の最大値と定義する最長距離:
Figure JPOXMLDOC01-appb-M000004

として算出する方法がある。この2つの方法の欠点は、集合間距離が要素間距離の最小値または最大値に関係する一部の要素のみの性質に依存し、集合に含まれる全要素の全体的な性質をあまり反映していないことである。それに対して、集合の全要素の性質を反映させる距離の算出方法として、要素間距離の平均値と定義する群平均距離:
Figure WO-DOC-MATHS-5

を利用する方法もある。数式5では、Σ記号はその下部に示された集合の全要素について和をとることを表し、集合Aの要素と集合Bの要素との組み合わせのすべてに対する要素間距離の和をその組み合わせの総数で割る計算をしている。この計算式ではすべての要素が関係しているが、AとBが同じ集合であっても、多くの場合、その距離が0にならないという欠点がある。
 一般に、距離の概念は自然法則における空間中の2点間の距離の性質に基づいている。例えば、「2点が同じ位置ならばその間の距離は0である」、「異なる3点を結ぶ三角形の各辺の長さを各辺の端点間距離とすると、2つの辺の長さの合計は残りの辺の長さより長いかまたは等しい(三角不等式)」などの性質がある。このような性質を利用するためには、集合間距離が任意の集合A、B、Cに対して、下記の4つの性質をすべて満たすことが望まれる。
(性質1): D(A, B) ≧ 0
(性質2): D(A, A) = 0
(性質3): D(A, B) = D(B, A)
(性質4): D(A, B) + D(B, C) ≧ D(A, C)
これら4つの性質を満たすDは擬距離と呼ばれている。要素間距離 d(a, b) が擬距離である場合、前記の Dmin(A, B) と Dmax(A, B) は性質1、2、3を満たすが、性質4を満たさず、Davg(A, B) は性質1,3、4を満たすが、性質2を満たさない。集合間距離がこれらの性質を満たさない場合は、多数の集合間の遠近関係で不整合を生じやすく、それを基に集合の順位付けや分類を行うと、矛盾する結果を生じる可能性が高いという欠点がある。
[規則91に基づく訂正 06.09.2011] 
 画像データや音声データなどの類似性評価の従来技術としては、上記の性質のすべてを満たすハウスドルフ距離がよく利用されている。この距離の計算式は集合の要素が有限個の場合、下記の式で表される。
Figure WO-DOC-MATHS-6

この式は、Aの要素 a を行に配置し、Bの要素 b を列に配置して、要素間距離 d(a, b) を距離行列として表現した場合、各行内での最小値を行間で比較したときの最大値と各列内での最小値を列間で比較したときの最大値の2つの最大値のいずれか大きい方の値を求めることを意味する。このため、ハウスドルフ距離では、最小値や最大値を求める過程で多くの要素間距離の平均的な情報が切り捨てられ、集合全体の詳細な性質が距離に反映されず、ノイズやはずれ値などの異常なデータの影響を受けやすいという欠点がある。
 上記の従来技術に関しては、様々な距離算出方法の事例が非特許文献1に網羅的に解説されている。また、特許文献1(特許第4356347号)にはTFIDF法を利用した文書クラスタリング、特許文献2(特許第4314271号)には単語の共起頻度に基づく距離の算出方法、特許文献3(特許第4305836号)には最短距離法、最長距離法、群平均法等によるクラスタリングを利用したコンテンツ検索法、特許文献4(特許第4225812号)にはハウスドルフ距離を用いた音楽データの比較、特許文献5(特許第4098845号)と特許文献6(特許第3766186号)にはハウスドルフ距離を用いた文書画像データの比較、特許文献7(特許第3561345号)には遺伝アルゴリズム評価のための群平均法によるクラスタ解析、特許文献8(米国特許7672952)にはハウスドルフ距離を用いた文書データの内容比較、特許文献9(米国特許6625585)には化学物質データの階層型クラスタリング、特許文献10(米国特許6246982)には音声データ分布間の距離計算、特許文献11(米国特許5999653)にはハウスドルフ距離を用いた画像検索、特許文献12(米国特許5832182)には各種の距離関数を利用した大規模データベースのクラスタリングが記載されている。
特許第4356347号 特許第4314271号 特許第4305836号 特許第4225812号 特許第4098845号 特許第3766186号 特許第3561345号 米国特許 7672952 米国特許 6625585 米国特許 6246982 米国特許 5999653 米国特許 5832182
M. M. Deza & E. Deza "Encyclopedia of Distances" Springer, 2009.
 解決しようとする問題点は、集合間距離を集合に含まれる要素の要素間距離に基づいて決定する方法において、自然法則における距離の性質を満たすとともに、集合に含まれる要素全体についての要素間距離の平均的特徴を反映した距離を算出する方法がなかった点である。
[規則91に基づく訂正 06.09.2011] 
 本発明は前記課題を解決するために、集合AとBの集合間距離 D(A, B) の計算式において、集合AとBを積集合 A∩B と2つの差集合 A\B、B\A の3つの部分集合に分割し、各部分集合間の要素間距離 d(a, b) に重み係数を掛けて荷重平均を求める計算式を用いて集合AとBの距離を算出することを最も主要な特徴とする。その典型的な計算式を次式で示す。
Figure WO-DOC-MATHS-7

ここで、w1、w2、w3 は正の値を持つ重み係数を表す。右辺第1項では差集合 A\B と B\A の各要素の組み合わせのすべてに対応する要素間距離の和を計算し、右辺第2項では積集合 A∩B と B\A の各要素の組み合わせのすべてに対応する要素間距離の和を計算し、右辺第3項では差集合 A\B と積集合 A∩B の各要素の組み合わせのすべてに対応する要素間距離の和を計算し、それぞれに重み係数を掛けて総和をとっている。
[規則91に基づく訂正 06.09.2011] 
 要素間距離 d(a, b) が擬距離の性質を満たす場合、D(A, B) は非負の値をとり、前記性質1を満たす。また、AとBが等しいとき、すなわち A = B のとき、差集合 A\B と B\A はともに空集合になるので、D(A, B) = 0 となり、前記性質2を満たす。AとBを入れ替えても同じ式になるので、性質3も満たす。さらに、重み係数 w1、w2、w3 を集合AとBならびに和集合 A∪B の各要素数 |A|、|B|、|A∪B| を用いて、
Figure JPOXMLDOC01-appb-M000008

とすると前記性質4を満たす。すなわち、AとBの和集合の濃度の逆数を第1の積因子、Aの濃度の逆数を第2の積因子、Bの濃度の逆数を第3の積因子とすると、第2項の係数 w2 は第1の積因子と第2の積因子を含み、第3項の係数 w3 は第1の積因子と第3の積因子を含み、第1項の係数 w1 は第2項の係数と第3項の係数の和とする。あるいは、各重み係数に同じ正定数を掛けた計算式を用いても良い。なお、数式7、8は下記の数式と同等である。
Figure WO-DOC-MATHS-9

この数式は、集合Aから差集合 B\A までの要素間距離の群平均距離と集合Bから差集合 A\B までの要素間距離の群平均距離にそれぞれ係数として |B\A|/|A∪B| と |A\B|/|A∪B| を掛けて和をとった値が集合間距離として計算されることを表している。ただし、数式9の計算では差集合 A\B から差集合 B\A までの要素間距離の和の計算が第1項と第2項で重複しているので、数式7の計算式を用いた方が計算の無駄が少なく、効率がよい。
 厳密な数値を算出する必要がない場合は、D(A, B) の近似計算でもよい。例えば、集合AとBの交わりが比較的に小さく、|A∩B|≪|A∪B| となるときには、3つの重み係数をともにAとBの各濃度の積の逆数として次式を使用してもよい。
Figure JPOXMLDOC01-appb-M000010
[規則91に基づく訂正 06.09.2011] 
 集合の要素数が多い場合は統計学に基づくサンプリングによる近似計算を行ってもよい。すなわち、和集合 A∪B に含まれる要素の一部を取り出して標本 S を抽出し、それを差集合 A\B の部分集合 S1、積集合 A∩B の部分集合 S2、差集合 B\A の部分集合 S3 に分割して次式を計算する。
Figure WO-DOC-MATHS-11

ここで、S ⊂ A∪B、S1 = S∩A\B、S2 = S∩A∩B、S3 = S∩B\A であり、重み係数は
Figure JPOXMLDOC01-appb-M000012

すなわち、Sの濃度の逆数を第1の積因子、S1とS2の和集合の濃度の逆数を第2の積因子、S2とS3の和集合の濃度の逆数を第3の積因子とすると、第2項の係数 w2 は第1の積因子と第2の積因子を含み、第3項の係数 w3 は第1の積因子と第3の積因子を含み、第1項の係数 w1 は第2項の係数と第3項の係数の和とする。あるいは、それぞれに同じ正定数を掛けた値でも良い。
 要素間距離 d(a, b) の値は従来技術を利用して事前に与えられたものであってもよいが、事前に与えられていない場合は、集合の具体的事例データに基づいて要素間距離を算出してもよい。例えば、要素 a を含む集合 A の集合族 c(a) = {A|a∈A} と要素 b を含む集合 B の集合族 c(b) = {B|b∈B} をそれぞれ集合を要素とする上位の集合とみなして
Figure JPOXMLDOC01-appb-M000013
により計算された値を用いてもよい。あるいは、上記 d(a, b) の値に正定数を乗じた値や、計算式 d(a, b)/|c(a)∪c(b)| または d(a, b)/(1 + d(a, b)) の値、さらにはそれらの線形和の値を要素間距離としても良い。
[規則91に基づく訂正 06.09.2011] 
集合間距離の値が与えられれば、c(a) と c(b) の距離は数式7を応用して次式のように算出することができる。
Figure WO-DOC-MATHS-14

この値を a と b の要素間距離とみなして、dc(a, b) = D(c(a), c(b)) により集合間距離から要素間距離を算出し、元々の要素間距離 d(a, b) を dc(a, b) で置き換えても良い。さらに、数式7で要素間距離から集合間距離を算出することと、数式14で集合間距離から要素間距離を算出することを交互に数回繰り返して各距離の値を更新してもよい。
 本発明の装置はこのような集合間の距離を算出するために演算装置と記憶装置を備える。記憶装置は集合とそれに含まれる要素の関係を表すデータを記憶するとともに、異なる2つの要素とそれらの要素間距離を表す数値データを記憶する。演算装置は数式7~12に示すような数式を用いて集合間の距離を計算する。計算に必要な集合の要素と要素間距離は記憶装置から読み出される。要素間距離の数値データとしては外部から与えられた数値データ、または、記憶装置内の集合と要素の関係データから数式13,14に示すような数式を基に演算装置で計算された数値データを利用できる。
 本発明のデータ集合間距離算出装置および方法はデータ集合に含まれる要素の要素間距離の加重平均値をデータ集合間距離として算出するので、データ集合に含まれるすべての要素の遠近関係の平均的特徴をよく反映し、データのノイズやはずれ値の影響が少ないという利点がある。また、その値が自然法則の距離の性質を満たすことにより、類似性が高いデータ集合同士の距離関係にほとんど矛盾が生じないので、距離の大小に基づいてデータ集合の類似データ検索や分類、クラスタ分析を行う場合に、本発明によるデータ集合間距離は正確な評価基準として利用できるという利点がある。
 本発明によれば、集合間距離を集合に含まれる要素の要素間距離から算出するので、この方法で得られた集合間距離を利用して、集合を要素とする上位階層の集合族の集合族間距離を算出することができる。例えば、単語の集合としての文、文の集合としての文書、文書の集合としての文書集合など、階層化された複雑な情報を表すデータ集合に対しても、下位のデータ集合間距離を基に上位のデータ集合間距離を算出することができる。また取り扱うことのできる情報の種類としては、文書情報に限らず、画像情報、音声情報、化学物質の特性情報、生物の遺伝情報、各種観測データ、政治・経済・文化・社会分野における各種データなど、広範囲の情報の分析に利用できる。
本発明の第1の実施例の装置構成と動作を示す模式図である。 本発明の第2の実施例の装置構成と動作を示す模式図である。 本発明の第3の実施例の方法を示すフローチャートである。 本発明の第4の実施例の方法を示すフローチャートである。 本発明の第6の実施例の方法を示すフローチャートである。 本発明の第7の実施例の方法を示すフローチャートである。 本発明の第8の実施例の方法を示すフローチャートである。
 実施形態を大きく場合分けすると、データ集合を構成する要素の要素間距離が事前に与えられている場合と与えられていない場合がある。そこで、まず前者の場合の装置を実施例1に示し、方法を実施例3に示す。後者の装置は実施例2に示し、その方法は実施例4に示す。次に、集合間距離の近似値を算出する方法として、重み係数を簡単化した場合を実施例5に、要素をサンプリングして統計的な推定値を計算する方法を実施例6,7,8に示す。さらに、本発明の応用例を実施例9,10,11に示す。
 図1は本発明装置の構成図と機能の一例を示す。この装置は演算装置 101 と記憶装置 102 からなる。記憶装置 102 には集合とそれに含まれる要素の対応関係、および、異なる要素の組合せとその要素間距離の対応関係を記憶させておく。集合と要素の記憶内容としてはそれらの具体的な情報がすべて記録されている必要はなく、各集合や各要素と一対一に対応する識別記号や識別番号が記憶されていればよい。図1では集合の識別子をA,Bで表し、要素の識別子を a, b, g, h などで表し、要素 a, b の要素間距離を d(a, b) と表している。
 要素間距離の具体的数値としては、要素に対応づけられている情報の内容や性質に基づいて従来技術を用いて事前に算出された値を記憶させておく。例えば、文書データの集合の要素が単語である場合、すべての要素が N 個あるとき、それらを順番に並べて、e1, e2, …, eN とすると、ある要素 ej に関して、他の要素 ek が同じ集合に属する共起頻度または共起確率の数値 f(ej, ek) を成分とする N 次元数値ベクトル Vj =(vj,1, vj,2, …, vj,N) = (f(ej, e1), f(ej, e2), …, f(ej, eN)) を対応させることができる。そうすると、ある2つの単語間の距離 d(ej, ek) はそれらに対応するベクトル間距離として次式で計算できる。
Figure JPOXMLDOC01-appb-M000015
ここで、p は1以上の実数である。また、性質1~4のすべてを満たす必要がなければ、コサイン距離、マハラノビス距離、カルバック・ライブラー情報量などを要素間距離の計算に用いても良い。
 集合が他の情報、例えば、画像、音声、映像、遺伝子情報、物性、化学組成、経済指標など、どのような分野の情報を表す場合であっても、それらの要素の特徴は複数の記号または数値あるいはそれらを複合化した組み合わせで表現される。画像や音声、映像情報の場合、それらのコンテンツの特徴を複数のキーワードで表せば、上記の単語を要素とする集合と同じように取り扱うことができる。また、画素の色情報は3原色の明度を表すRGB値などの数値ベクトルで表すことができ、全画像は画素の2次元配列として表すことができる。形状は円や四角などのキーワードとその位置や大きさを表す数値ベクトルで表される。音声情報は音素、発音記号、単語などに記号化された時系列データや、周波数スペクトル強度の数値ベクトルで表される。遺伝子、物性、化学組成などはそれらの特徴を表す複数の属性データで表される。経済状況や社会現象などは各種の統計データを用いて複数の記号や数値で特徴付けられている。各要素が数値ベクトルに対応づけられていれば、要素間距離は数式15で示されるようなベクトル間距離で表すことができる。いずれにせよ、実施例1で計算に使用する要素間距離は外部から与えられた数値であって、様々な種類の情報に対応させることができるものである。
 演算装置 101 では距離を算出する対象となる2つの集合AとBのそれぞれの要素を記憶装置 102 から読み出し、数式7の計算を行うため、それらの要素を積集合 A∩B と2つの差集合 A\B と B\A の3つの部分集合に分割する。例えば、A = {a, g, h}、B = {b, g} とすると、A∩B = {g}、A\B = {a, h}、B\A = {b} となる。次に、数式7の右辺第1項の A\B と B\A の要素間距離の和として Sum1 = d(a, b) + d(h, b)、数式7の右辺第2項の A∩B と B\A の要素間距離の和として Sum2 = d(g, b)、数式7の右辺第3項の A\B と A∩B の要素間距離の和として Sum3 = d(a, g) + d(h, g) を計算する。次に、数式8を利用して、それぞれの重み係数を w1 = w2 + w3、w2 = 1/|A∪B||A| = 1/12、w3 = 1/|A∪B||B| = 1/8 として、数式7の線形和 w1×Sum1+w2×Sum2+w3×Sum3 を計算してその値を集合間距離として出力する。
 図2は要素間距離が事前に与えられていない場合の実施例を示す。演算装置 201 は記憶装置 202 に記憶されている集合とその要素の組み合わせを読み出して、数式13を用いて要素間距離を算出し、記憶装置 202 に記憶する。例えば、A = {a, g, h}、B = {b, g}、C = {c, g, h} とすると、数式13から d(a, b) = 2、d(a, c) = 2、d(a, g) = 2、d(a, h) = 1、d(b, c) = 2、d(b, g) = 2、d(b, h) = 3、d(c, g) = 2、d(c, h) = 1、d(g, h) = 1 となる。その後、実施例1に従うと、D(A, B) = 19/12、D(A, C) = 5/6、D(B, C) = 19/12 と算出される。さらに、数式14を用いると新たな要素間距離 dc(a, b) = 19/12、dc(a, c) = 5/6、dc(a, g) = 29/36、dc(a, h) = 5/12、dc(b, c) = 19/12、dc(b, g) = 19/18、dc(b, h) = 19/12、dc(c, g) = 29/36、dc(c, h) = 5/12、dc(g, h) = 19/36 が得られる。
 図3は実施例1の演算装置内 101 の数式7の計算に関する処理手続きとして利用される方法のフローチャートを表したものである。すなわち、ステップ 301 では集合AとBを部分集合 A\B,A∩B,B\A に分割し、ステップ 302 では A\B と B\A の要素間距離の和 Sum1 と、A∩B と B\A の要素間距離の和 Sum2 と、A\B と A∩B の要素間距離の和 Sum3 を算出し、ステップ 303 で要素間距離の和 Sum1,Sum2,Sum3 の線形和を集合間距離として算出する。
 図4は実施例2の演算装置内 201 で利用される処理方法のフローチャートを表したものである。すなわち、ステップ 400 で、要素 a を含む集合と要素 b を含む集合の各集合族の対称差から要素間距離 d(a, b) を算出し、その後、実施例3と同様のステップ 401,402,403 を実行する。要素間距離を算出する計算式としては数式13を用いる。あるいは、この d(a, b) の値に正定数を乗じた値や、計算式 d(a, b)/|c(a)∪c(b)| または d(a, b)/(1 + d(a, b)) の値、それらの線形和の値を要素間距離としても良い。さらには数式14を用いても良い。
 厳密な数値を必要としない場合には、近似値を算出してもよい。例えば、集合AとBの和集合の要素数に対してその積集合の要素数の割合が十分に少ない場合はステップ 303, 403 の Sum1,Sum2,Sum3 の線形和の計算において、すべての重み係数の値を数式10で示す一つの同じ値で計算しても良い。
 集合AとBの和集合 A∪B の要素数が多い場合は、ステップ 302, 402 の Sum1,Sum2,Sum3 の算出において、数式7の計算の対象となる要素間距離のすべてを計算することをせず、A∪B に含まれる要素の中から一部の要素を取り出して標本(サンプル)を抽出し、統計的な推定値で近似してもよい。すなわち、図5に示すように、まずステップ 500 において、A∪B の要素から無作為抽出した標本 S(A∪Bの部分集合)を抽出する。次にステップ 501 において、Sを差集合 A\B の部分集合 S1、積集合 A∩B の部分集合 S2、差集合 B\A の部分集合 S3 に分割する。それからステップ 502 において、S1 の要素と S3 の要素の組み合わせのすべてに対する要素間距離の和 Sum1、S2 の要素と S3 の要素の組み合わせのすべてに対する要素間距離の和 Sum2、S1 の要素と S2 の要素の組み合わせのすべてに対する要素間距離の和 Sum3 を算出する。その後のステップ 503 において、数式11に示すように、Sum1,Sum2,Sum3 の線形和 w1×Sum1+w2×Sum2+w3×Sum3 を計算する。ここで、重み係数 w1、w2、w3の値としては例えば数式12を用いた計算値、あるいは、それに正定数を掛けた値でもよい。
 実施例6において、大数の法則が成り立つ場合、標本数が多いほど集合間距離の近似精度が高くなるので、標本を追加しながら、要素間距離の推定値の変化を測定し、変化量が小さくなる条件を満たすまで標本の追加を繰り返す。すなわち、図5に示された実施例6において集合間距離が算出された後に、さらに続いて、図6に示すように、ステップ 600 において、集合AとBの和集合 A∪B の要素から標本を無作為に抽出してSに追加する。次に、ステップ 601 において、Sに追加された要素を差集合 A\B の部分集合S1、積集合 A∩B の部分集合S2、差集合 B\A の部分集合S3に追加的に配分する。次にステップ 602 において、S1の要素とS3の要素の組み合わせのすべてに対する要素間距離の和 Sum1、S2の要素とS3の要素の組み合わせのすべてに対する要素間距離の和 Sum2、S1の要素とS2の要素の組み合わせのすべてに対する要素間距離の和 Sum3 を算出する。ただし、ここでは追加配分された要素に関する要素間距離の追加変更分を計算して Sum1,Sum2,Sum3 を更新すればよい。次に、ステップ 603 において、数式11に示すように、Sum1,Sum2,Sum3 の線形和を新たな集合間距離として算出する。次に、ステップ 604 において、集合間距離の前回までの算出値と新たな算出値とを比較して、それらの値が後述の収束判定条件を満たさなければ、再度ステップ 600 に戻ってステップ 600 から 603 までを繰り返す。もし、それらの値が収束判定条件を満たせば、繰返し処理を終了する。また、集合AとBの和集合の要素のすべてが標本として抽出され、残りが一つもない場合も繰返し処理を終了する。この他に繰返し回数の制限なども加えて、繰返し処理の終了条件としてもよい。
 収束判定条件としては、集合間距離の最初の算出値を D0、繰返し処理後の最新の n 回目の算出値を Dn と記述すると、例えば、非負定数 x、y、z を含む次に示す不等式が成立するとき収束したと判定する方法がある。
Figure JPOXMLDOC01-appb-M000016
より具体的な数値として、x = y = 0とすると、集合間距離の推定値の変化量の絶対値がzよりも小さくなった場合を意味し、y = z = 0 とすると、集合間距離の推定値の変化量の割合がxよりも小さくなった場合を意味する。あるいは、集合間距離のk回分の推定値の分散が一定値x未満となる次に示す不等式を用いても良い。
Figure JPOXMLDOC01-appb-M000017
なお、平均値 En は重み付き移動平均値として次式で計算できる。
Figure JPOXMLDOC01-appb-M000018
ただし、重み r0, r1, …, rk-1 は総和が1、すなわち r0 + r1 + … + rk-1 = 1 となる1以下の非負定数とする。
 実施例7の方法において、標本となる要素を一つずつ追加する場合のフローチャートを図7に示す。まず、ステップ 600 において標本として e∈(A∪B)\S を抽出し、それをSに追加する。次に、ステップ 601 において、e∈Aの条件判定と e∈Bの条件判定を行い、もし e∈Aでなければ e をS3に追加し、e∈Aの場合は e∈Bでなければ e をS1に追加し、e∈Aかつ e∈Bの場合は e をS2に追加する。ステップ 602 では、e∈S1の場合は、e とS3の要素との要素間距離の和を Sum1 に、e とS2の要素との要素間距離の和を Sum3 に追加し、e∈S2の場合は、e とS3の要素との要素間距離の和を Sum2 に、e とS1の要素との要素間距離の和を Sum3 に追加し、e∈S3の場合は、e とS1の要素との要素間距離の和を Sum1 に、e とS2の要素との要素間距離の和を Sum2 に追加する。ステップ 603 では、重み係数と w1、w2、w3 を更新し、集合間距離として D(A, B) = w1×Sum1+w2×Sum2+w3×Sum3 を計算する。
 文書データにおいて、各文書が単語を要素とする集合として表され、要素間距離すなわち単語間距離が単語の非類似性を表している場合、実施例1~8で算出される集合間距離すなわち文書間距離は文書間の非類似性の評価尺度として利用できる。これを文書検索に利用するためには、入力された検索語を要素とする集合 X と文書データベースに記憶されている複数の文書との文書間距離を算出し、文書間距離が小さい順番に各文書を整列させる。整列させた文書を順番に A1, A2, …, AN と表すと、D(X, A1) ≦ D(X, A2) ≦ … ≦ D(X, AN) となるので、この順番に表示すれば、文書 X と類似性の高い文書から順番に表示することができる。
 複数の文書 A1, A2, …, AN に対して、相互間の文書間距離を算出し、D(Ai, Aj) を第i行第j列の行列成分とする大きさN×Nの文書間距離行列を作成する。ただし、距離行列が対称行列の場合は上三角成分または下三角成分のみを計算して対称成分に同じ値を設定すればよい。この文書間距離行列を基にして、類似した内容を持つ文書を要素とする集合(クラスタ)を作成することができる。そのため、まず、各文書に対して、その文書だけを要素として含む単集合の文書集合 B1 = {A1}, B2 = {A2}, …, BN = {AN} を用意し、文書間距離行列を複製した文書集合間距離行列 D(Bi, Bj) = D(Ai, Aj) を作成する。この文書集合間距離行列に対して、従来技術における階層型クラスタリングの手法を利用し、文書集合間距離行列の非対角成分において距離が最小となる文書集合同士を統合して文書集合を変更するステップ1と、その変更に応じて文書集合間距離行列を再計算するステップ2とを交互に繰返し実行することにより、階層的に分類された文書集合を作成できる。
 各ステップを詳細に説明すると、ステップ1では、文書集合間距離行列の非対角成分の中で最小値となる行列成分を抽出し、それが第k行第m列(ただし、k≠m)であれば、Bk = {Ak}と Bm = {Am} の2つの文書集合を統合して一つの文書集合BN+1 = Bk∪Bm = {Ak, Am} とする。その後、統合前のBkとBmを削除する。次のステップ2では、実施例1~8のいずれかの方法またはその組み合わせを利用して、新しく追加された文書集合BN+1とその他の文書集合Biの文書集合間距離D(Bi, BN+1) を計算し、文書集合間距離行列に第(N+1)行と第(N+1)列を追加する。その後、添え字を付け直して整理すると、文書集合間距離行列は(N-1)次正方行列になる。もし、ステップ1で文書集合間距離が最小値となる組み合わせが複数個ある場合、例えば、D(Bk, Bm) = D(Bq, Bt) であれば、BN+1 = Bk∪Bm と BN+2 = Bq∪Bt を追加したのち、Bk, Bm, Bq, Bt を削除し、ステップ2で文書集合 BN+1 と BN+2 を含む文書集合間距離行列を更新する。
 画像データがその特徴を言語的に表現したデータ集合に対応付けられている場合、例えば、画像の説明文や、画像の特徴を表すキーワード:{風景写真、抽象絵画、書画、・・・}、{山、川、空、雲、・・・}、{街、自然、人物、・・・}、{直線、四角、円、・・・}、{アルファベット、漢字、数字、・・・}、{上、下、右、左、手前、奥・・・}、{黒、白、赤、青、黄、・・・}などの組み合わせデータが対応付けられている場合は実施例9,10を応用して類似画像検索や分類ができる。また、画像の要素となるセグメント画像に対して、各種の特徴点、例えば、顔画像の場合は目、鼻、口、耳などの相対位置座標や輪郭線の形状、色情報などの数値データで表される特徴ベクトルが対応付けられている場合は、特徴ベクトル間の距離をセグメント画像の要素間距離として、画像の類似画像検索や分類ができる。映像データは画像データの時系列的集合であり、集合を要素とするさらに上位の集合とみなして、実施例9、10と同様に類似映像検索や分類ができる。音声データに対しても同様に応用可能である。
 本発明は、複数の要素からなるデータ集合について、異なるデータ集合同士の非類似性を距離として計算する装置と計算方法を改善したものである。算出される値が距離の自然な性質を満たすとともに、データ集合間の距離の平均的な特徴を適切に表しており、従来技術に比べて異常値の影響を受けにくいという特徴がある。また、平均値の算出において統計的なサンプリングで効率よく計算できる場合が多いという利点もある。データ集合の種類としては、文書データ、画像データ、音声データ、映像データ、化学物質データ、生物の遺伝子データ、経済指標データ、位置情報データ、気象データ、観測データなど、様々なデータ集合に対して利用可能である。それらのデータ集合において、類似データの検索、類似データの分類、パターン認識、クラスタ解析、データマイニング、機械学習などに利用できる。
 101 201 演算装置
 102 202 記憶装置

Claims (11)

  1.  データ集合に含まれる要素の要素間距離を利用してデータ集合の集合間距離を算出するデータ集合間距離算出装置であって、
    データ集合の要素と要素間距離を記憶する記憶装置と
    データ集合同士の集合演算と距離の数値計算を行う演算装置を備え、
    前記演算装置は、
    第1のデータ集合と第2のデータ集合の積集合と、前記第1のデータ集合と前記第2のデータ集合の第1の差集合と、前記第2のデータ集合と前記第1のデータ集合の第2の差集合を計算する手段と、
    前記第1の差集合の要素から前記第2の差集合の要素への要素間距離の第1の和と、前記積集合の要素から前記第2の差集合の要素への要素間距離の第2の和と、前記第1の差集合の要素から前記積集合の要素への要素間距離の第3の和を計算する手段と、
    前記第1の和と前記第2の和と前記第3の和の線形和を算出してその値を前記第1のデータ集合と前記第2のデータ集合の集合間距離として算出する手段
    を有することを特徴とするデータ集合間距離算出装置。
  2.  請求項1のデータ集合間距離算出装置の演算装置において、
    第1の要素を含む集合を要素として含む第1の集合族と第2の要素を含む集合を要素として含む第2の集合族との集合族間距離を計算し、その値を前記第1の要素と前記第2の要素の要素間距離として算出する手段をさらに有することを特徴とするデータ集合間距離算出装置。
  3.  データ集合に含まれる要素の要素間距離を利用してデータ集合の集合間距離を算出するデータ集合間距離算出方法であって、
    第1のデータ集合と第2のデータ集合の積集合と、前記第1のデータ集合と前記第2のデータ集合の第1の差集合と、前記第2のデータ集合と前記第1のデータ集合の第2の差集合を求めるステップと、
    前記第1の差集合の要素から前記第2の差集合の要素への要素間距離の第1の和と、前記積集合の要素から前記第2の差集合の要素への要素間距離の第2の和と、前記第1の差集合の要素から前記積集合の要素への要素間距離の第3の和を算出するステップと、
    前記第1の和と前記第2の和と前記第3の和の線形和を算出してその値を前記第1のデータ集合と前記第2のデータ集合の集合間距離として算出するステップ
    を有することを特徴とするデータ集合間距離算出方法。
  4.  請求項3のデータ集合間距離算出方法の線形和の算出において、
    前記第2の和の係数が第1の積因子として前記第1のデータ集合と前記第2のデータ集合の和集合の濃度の逆数を含み、かつ、第2の積因子として前記第1のデータ集合の濃度の逆数を含み、
    前記第3の和の係数が前記第1の積因子を含み、かつ、第3の積因子として前記第2のデータ集合の濃度の逆数を含み、
    前記第1の和の係数が前記第2の和の係数と前記第3の和の係数の和に等しいことを特徴とするデータ集合間距離算出方法。
  5.  請求項3のデータ集合間距離算出方法の線形和の算出において、
    前記第1の和の係数と前記第2の和の係数と前記第3の和の係数がともに前記第1のデータ集合の濃度と前記第2のデータ集合の濃度との積の逆数を積因子として含むことを特徴とするデータ集合間距離算出方法。
  6.  請求項3のデータ集合間距離算出方法において、
    第1の要素を含むすべての集合を要素として含む第1の集合族と第2の要素を含むすべての集合を要素として含む第2の集合族との集合族間距離を計算し、その値を前記第1の要素と前記第2の要素の要素間距離として算出するステップをさらに有することを特徴とするデータ集合間距離算出方法。
  7.  データ集合に含まれる要素の要素間距離を利用してデータ集合の集合間距離を算出するデータ集合間距離算出方法であって、
    第1のデータ集合と第2のデータ集合の和集合から一部の要素を取り出して標本を抽出するステップと、
    その標本を、前記第1のデータ集合と前記第2のデータ集合の第1の差集合に含まれる第1の部分集合と、前記第1のデータ集合と前記第2のデータ集合の積集合に含まれる第2の部分集合と、前記第2のデータ集合と前記第1のデータ集合の第2の差集合に含まれる第3の部分集合の3つの部分集合に分割するステップと、
    前記第1の部分集合の要素から前記第3の部分集合の要素への要素間距離の第1の和と、前記第2の部分集合の要素から前記第3の部分集合の要素への要素間距離の第2の和と、前記第1の部分集合の要素から前記第2の部分集合の要素への要素間距離の第3の和を算出するステップと、
    前記第1の和と前記第2の和と前記第3の和の線形和を算出してその値を前記第1のデータ集合と前記第2のデータ集合の集合間距離として算出するステップを備えたことを特徴とするデータ集合間距離算出方法。
  8.  請求項7のデータ集合間距離算出方法の線形和の算出において、
    前記第2の和の係数が第1の積因子として前記標本に含まれる要素の数の逆数を含み、かつ、第2の積因子として前記第1の部分集合と前記第2の部分集合の和集合の濃度の逆数を含み、
    前記第3の和の係数が前記第1の積因子を含み、かつ、第3の積因子として前記第2の部分集合と前記第3の部分集合の和集合の濃度の逆数を含み、
    前記第1の和の係数が前記第2の和の係数と前記第3の和の係数の和に等しいことを特徴とするデータ集合間距離算出方法。
  9.  請求項7のデータ集合間距離算出方法において、さらに、
    前記第1のデータ集合と前記第2のデータ集合の和集合からすでに標本抽出された要素とは異なる一部の要素を取り出して標本に追加する第1のステップと、
    その追加分の要素の中で、前記第1の差集合にも含まれる要素を前記第1の部分集合に、前記積集合にも含まれる要素を前記第2の部分集合に、前記第2の差集合にも含まれる要素を前記第3の部分集合に追加配分する第2のステップと、
    前記第1の部分集合の要素から前記第3の部分集合の要素への要素間距離の第1の和と、前記第2の部分集合の要素から前記第3の部分集合の要素への要素間距離の第2の和と、前記第1の部分集合の要素から前記第2の部分集合の要素への要素間距離の第3の和を更新する第3のステップと、
    前記第1の和と前記第2の和と前記第3の和の線形和を算出してその値を前記第1のデータ集合と前記第2のデータ集合の集合間距離として算出する第4のステップと、
    標本を追加する前の集合間距離の算出値と追加した後の集合間距離の算出値について収束判定を行う第5のステップとを備え、
    第5のステップにおいて終了条件を満たしていない場合には前記第1のステップから前記第5のステップまでを繰り返すことを特徴とするデータ集合間距離算出方法。
  10.  請求項3、4、5、6、7、8、9のいずれか1項に記載のデータ集合間距離算出方法の各ステップをコンピュータに実行させるためのプログラムとしたことを特徴とするデータ集合間距離算出プログラム。
  11.  請求項10に記載のプログラムを当該コンピュータが読み取りできる記録媒体に記録したことを特徴とするデータ集合間距離算出プログラムを記録した記録媒体。
PCT/JP2010/064972 2010-09-02 2010-09-02 データ集合間距離算出装置および方法 WO2012029152A2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2010/064972 WO2012029152A2 (ja) 2010-09-02 2010-09-02 データ集合間距離算出装置および方法
JP2012531622A JPWO2012029152A1 (ja) 2010-09-02 2010-09-02 データ集合間距離算出装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/064972 WO2012029152A2 (ja) 2010-09-02 2010-09-02 データ集合間距離算出装置および方法

Publications (1)

Publication Number Publication Date
WO2012029152A2 true WO2012029152A2 (ja) 2012-03-08

Family

ID=45773331

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/064972 WO2012029152A2 (ja) 2010-09-02 2010-09-02 データ集合間距離算出装置および方法

Country Status (2)

Country Link
JP (1) JPWO2012029152A1 (ja)
WO (1) WO2012029152A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022502744A (ja) * 2018-09-28 2022-01-11 ダウ グローバル テクノロジーズ エルエルシー コード分類のためのハイブリッド機械学習モデル
WO2023113400A1 (ko) * 2021-12-14 2023-06-22 한국전자기술연구원 임베딩 기반 데이터 집합의 처리 장치 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022502744A (ja) * 2018-09-28 2022-01-11 ダウ グローバル テクノロジーズ エルエルシー コード分類のためのハイブリッド機械学習モデル
JP7443349B2 (ja) 2018-09-28 2024-03-05 ダウ グローバル テクノロジーズ エルエルシー コード分類のためのハイブリッド機械学習モデル
WO2023113400A1 (ko) * 2021-12-14 2023-06-22 한국전자기술연구원 임베딩 기반 데이터 집합의 처리 장치 및 그 방법

Also Published As

Publication number Publication date
JPWO2012029152A1 (ja) 2014-01-20

Similar Documents

Publication Publication Date Title
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
US11782928B2 (en) Computerized information extraction from tables
KR102092263B1 (ko) 일정한 처리 시간 내에 k개의 극값을 찾는 방법
CN113360701B (zh) 一种基于知识蒸馏的素描图处理方法及其系统
CN112487199B (zh) 一种基于用户购买行为的用户特征预测方法
CN110309867B (zh) 一种基于卷积神经网络的混合气体识别方法
WO2010075408A1 (en) System and method for annotating and searching media
CN110097096B (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
US20190197043A1 (en) System and method for analysis and represenation of data
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及系统
CN110968693A (zh) 基于集成学习的多标签文本分类计算方法
WO2012029152A2 (ja) データ集合間距離算出装置および方法
CN116629258A (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN111177492A (zh) 一种基于多视角对称非负矩阵分解的跨模态信息检索方法
CN107491490B (zh) 基于情感中心的文本情感分类方法
CN115345248A (zh) 一种面向深度学习的数据去偏方法及装置
CN115329083A (zh) 文档分类方法、装置、计算机设备和存储介质
CN114580398A (zh) 文本信息提取模型生成方法、文本信息提取方法和装置
CN109670552B (zh) 一种图像分类方法、装置、设备及可读存储介质
CN111737469A (zh) 数据挖掘方法、装置、终端设备和可读存储介质
CN110609961A (zh) 一种基于词嵌入的协同过滤推荐方法
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统
Zhang et al. A multi-scale information fusion-based multiple correlations for unsupervised attribute selection
CN115329883B (zh) 一种语义相似度处理方法、装置、系统以及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10854847

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase in:

Ref country code: DE

ENP Entry into the national phase in:

Ref document number: 2012531622

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 10854847

Country of ref document: EP

Kind code of ref document: A2