WO2005050479A1 - 類似パターン検索装置、類似パターン検索方法、類似パターン検索プログラム、および分画分離装置 - Google Patents

類似パターン検索装置、類似パターン検索方法、類似パターン検索プログラム、および分画分離装置 Download PDF

Info

Publication number
WO2005050479A1
WO2005050479A1 PCT/JP2004/016841 JP2004016841W WO2005050479A1 WO 2005050479 A1 WO2005050479 A1 WO 2005050479A1 JP 2004016841 W JP2004016841 W JP 2004016841W WO 2005050479 A1 WO2005050479 A1 WO 2005050479A1
Authority
WO
WIPO (PCT)
Prior art keywords
pattern
class
particle size
map
similar
Prior art date
Application number
PCT/JP2004/016841
Other languages
English (en)
French (fr)
Inventor
Hiromi Kataoka
Original Assignee
National University Corporation Kochi University
A & T Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University Corporation Kochi University, A & T Corporation filed Critical National University Corporation Kochi University
Priority to EP04818872A priority Critical patent/EP1686494A4/en
Priority to US10/580,252 priority patent/US7697764B2/en
Priority to JP2005515594A priority patent/JP4521490B2/ja
Publication of WO2005050479A1 publication Critical patent/WO2005050479A1/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/01Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials specially adapted for biological cells, e.g. blood cells
    • G01N2015/016White blood cells
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N2015/1477Multiparameters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N2015/1486Counting the particles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N2015/1488Methods for deciding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N2015/1493Particle size

Definitions

  • the present invention provides a similar pattern search apparatus, a similar pattern search method, a similar pattern search program, and a similar pattern search method for searching a pattern having a high similarity to a pattern of a test sample from a population including a plurality of patterns.
  • the present invention relates to an image separation device.
  • flow cytometry is a test that can quickly classify leukocytes into neutrophils, lymphocytes, monocytes, eosinophils, and the like.
  • Leukocyte particle size data obtained by flow cytometry can be classified into various particle size patterns depending on cell maturity and disease (see Non-Patent Document 1).
  • the present inventors have developed a method of performing clustering by using a self-organizing map (SOM) using leukocyte particle size data obtained as a two-dimensional histogram (see Non-Patent Documents 2-4).
  • SOM self-organizing map
  • the leukocyte particle size data is recorded in a database, and a characteristic pattern is extracted by applying data mining, thereby enabling a powerful classification that cannot be determined only by information based on a two-dimensional histogram.
  • processing is performed by a separation method in which a valley of each fraction is used as a boundary inside the analyzer, and a method is used in which each fraction is used as one numerical data for diagnosis.
  • Non-Patent Document 1 Noriyuki Tatsumi, Izumi Tsuda, Nobuyuki Takubo, et al .: Reflection of automatic leukocyte classification results in on-site medical care, HORIBA Technical Reports, No. 20, pp. 23-26, 2000.
  • Non-Patent Document 2 Hiromi Kataoka, Hiromi Ioki, Osamu Konishi, et al .: Construction of a data mining support system for leukocyte particle size, Journal of the Japan Society of Clinical Laboratory Automation, Vol. 27, 4, pp. 583, 2002.
  • Non-Patent Document 4 Hiromi Ioki, Hiromi Kataoka, Yuka Kawasaki, et al .: Pattern Classification of Allergic Disease Area by Leukocyte Particle Size Data, Medical Informatics 22 (Suppl.), Pp. 211-212, 2002.
  • the present invention has been made in view of the above, and a pattern having a high similarity to the pattern of a test sample is highly accurately searched for from a group including a plurality of patterns, and is used for diagnosis.
  • the invention according to claim 1 searches a pattern including a plurality of patterns for a pattern highly similar to the pattern of the test sample.
  • a similar pattern search means for selecting a class similar to the component fraction contained in the pattern of the test sample from the class map.
  • clustering is performed on a plurality of patterns using a model parameter characterizing a plurality of component fractions respectively included in the plurality of patterns, and a class map is obtained. Is created, and is similar to the component fraction contained in the pattern of the test sample. Class is selected from the class map and a similarity search is performed with high accuracy.
  • the invention according to claim 2 is characterized in that the pattern is a one-dimensional or multidimensional pattern.
  • a one-dimensional or multidimensional pattern similarity search is performed with high accuracy.
  • the invention according to claim 3 is characterized in that the pattern is a leukocyte particle size pattern, a protein electrophoresis waveform, or a blood cell histogram.
  • the pattern is a leukocyte particle size pattern, a protein electrophoresis waveform, or a blood cell histogram.
  • the invention according to claim 4 is a similar pattern search method for searching a pattern having high similarity to a pattern of a test sample from a population including a plurality of patterns, wherein Selecting a model parameter characterizing a plurality of component fractions contained in each of the plurality of patterns, performing a clustering on the plurality of patterns to create a class map, and a class map created in the class map creating step. And a similar pattern search step of selecting a class similar to the component fraction contained in the pattern of the test sample from the class map.
  • the cluster map is performed on the plurality of patterns by using the model parameters characterizing the plurality of component fractions respectively included in the plurality of patterns. Is created, and a class similar to the component fraction contained in the pattern of the test sample is selected from the class map, and a similarity search is performed with high accuracy.
  • An invention according to claim 5 is a program for causing a computer to execute a similar pattern search method for searching a pattern having a high similarity to a pattern of a test sample from a population including a plurality of patterns.
  • a computer executes a storage step of storing the class map created in the step and a similar pattern search step of selecting a class similar to the component fraction contained in the pattern of the test sample from the class map. It is characterized by making it.
  • the plurality of components respectively included in the plurality of patterns are provided.
  • clustering is performed on multiple patterns to create a class map, and a class similar to the component fraction contained in the pattern of the test sample is identified in the class map. Select from among them and perform similarity search with high accuracy.
  • the invention according to claim 6 is a similar pattern search device that searches a population containing a plurality of leukocyte particle size patterns for a leukocyte particle size pattern having a pattern highly similar to the leukocyte particle size pattern of the test sample.
  • the leukocyte particle size pattern includes a plurality of cell component fractions, and performs a clustering by applying a self-organizing map to the plurality of actually measured leukocyte particle size patterns to create a primary class map.
  • the primary clustering means and the EM algorithm for each pattern included in the primary class map are executed by using a predetermined initial value, whereby the number of components of the cell component included in each pattern and each cell
  • First parameter determining means for determining a first mixture distribution model parameter comprising a mean value, a variance, and a density of components;
  • Second parameter determination means for determining a second mixture distribution model parameter consisting of a value, a variance, and a density, and applying a self-organizing map to the second mixture distribution model parameter for each of the leukocyte particle size patterns.
  • Secondary clustering means to create a secondary class map, calculate the similarity distances of all combinations between the classes included in the secondary class map, and calculate the class combinations and similarities between the classes.
  • Means for creating an inter-class distance master for creating an inter-class distance master corresponding to the distance;
  • Storage means for storing the class and the inter-class distance master, class determination means for determining a class belonging to each cell component fraction included in the leukocyte particle size pattern of the test sample from the secondary class map, and A class in which the similar distance to the class determined by the class determining means is equal to or smaller than a predetermined threshold is detected as a similar class from the interclass distance master, and a leukocyte particle size pattern included in the similar class is detected.
  • a similar pattern search means for determining a pattern having a high similarity to the leukocyte particle size pattern of the test sample.
  • the initial value determined by applying the self-organizing map Then, the components of the leukocyte particle size are separated by the EM algorithm using, and the clustering is performed again using the self-organizing map, thereby constructing a secondary class map and an interclass distance master.
  • the invention according to claim 7 is a similar pattern search method for searching a leukocyte particle size pattern having a pattern highly similar to the leukocyte particle size pattern of a test sample from a population including a plurality of leukocyte particle size patterns.
  • the leukocyte particle size pattern includes a plurality of cell component fractions, and performs a clustering by applying a self-organizing map to the plurality of actually measured leukocyte particle size patterns to create a primary class map.
  • the primary clustering step and the EM algorithm for each pattern included in the primary class map are performed using a predetermined initial value, so that the number of components of the cell component included in each pattern and each cell
  • the initial value determined by applying the self-organizing map Then, the components of the leukocyte particle size are separated by the EM algorithm using, and the clustering is performed again using the self-organizing map, thereby constructing a secondary class map and an interclass distance master.
  • the invention according to claim 8 causes a computer to execute a similar pattern search method for searching for a leukocyte particle size pattern having a pattern highly similar to the leukocyte particle size pattern of a test sample from a population including a plurality of leukocyte particle size patterns.
  • a program wherein the leukocyte particle size pattern includes a plurality of cell component fractions, and performs clustering by applying a self-organizing map to the plurality of leukocyte particle size patterns obtained by actual measurement.
  • a class whose similarity distance between the class determined in the class determining step and the class determined in the class determining step is equal to or less than a predetermined threshold is detected as a similar class from the interclass distance master, and is included in the similar class.
  • each component of the leukocyte particle size is separated by the EM algorithm using the initial value determined by applying the self-organizing map, and the initial value is determined using the self-organizing map.
  • a secondary class map and an inter-class distance master are constructed.
  • the invention according to claim 9 is a cell component fractionation separation device for separating each cell component fraction in a leukocyte particle size pattern including a plurality of cell component fractions, wherein the plurality of cell component fractions obtained by actual measurement are obtained.
  • a primary clustering means for performing a clustering by applying a self-organizing map to the leukocyte particle size pattern to create a primary class map, and a predetermined initial state for each pattern included in the primary class map.
  • the parameter determination for determining the number of components of the cell components included in each pattern and the mixture distribution model parameters including the average value, variance, and density of each cell component fraction Means, and for each leukocyte particle size pattern by executing an EM algorithm with the mixture distribution model parameters as initial values, Characterized in that a fractionation means for separating the fractions of each cell component contained in the particle size pattern.
  • the self-organizing map (SOM) is applied to the determination of the initial value of the EM algorithm.
  • the similar pattern search device (claim 1) performs clustering on a plurality of patterns by using model parameters characterizing a plurality of component fractions respectively included in the plurality of patterns.
  • a class map is created based on the test pattern, and a class similar to the component fraction included in the pattern of the test sample is selected as a neutral class map.Therefore, the pattern of the test sample is selected from a population containing multiple patterns. This provides an effect that a pattern with high similarity to the above can be searched for with high accuracy, and useful information for diagnosis can be provided.
  • the similar pattern search device uses a one-dimensional or multi-dimensional pattern as the pattern. This has the effect that a pattern with a high degree of similarity can be searched for with high accuracy.
  • the similar pattern search device (claim 3) is characterized in that white blood cells are used as the pattern. Because it is determined to be a particle size pattern, protein electrophoresis waveform, or blood cell histogram, it is possible to perform a similarity search with high accuracy on a pattern having a high similarity to the white blood cell particle size pattern, protein electrophoresis waveform, or blood cell histogram pattern. It works.
  • a similar pattern search method is performed on a plurality of patterns by using model parameters characterizing a plurality of component fractions respectively included in the plurality of patterns.
  • a class map is created based on the test pattern, and a class similar to the component fraction included in the pattern of the test sample is selected as a neutral class map.Therefore, the pattern of the test sample is selected from a population containing multiple patterns. This provides an effect that a pattern with high similarity to the above can be searched for with high accuracy, and useful information for diagnosis can be provided.
  • the similar pattern search program according to the present invention (claim 5) performs clustering on a plurality of patterns by using model parameters characterizing a plurality of component fractions contained in a plurality of patterns. To create a class map, and select a class similar to the component fraction included in the pattern of the test sample as a neutral class map. This makes it possible to perform a similarity search with high accuracy on a pattern having a high similarity to the above pattern, and to provide useful information for diagnosis.
  • the similar pattern search device (claim 6) separates each component of the leukocyte particle size by an EM algorithm using an initial value determined by applying the self-organization mapping map, By performing clustering again by using the dani map, a secondary class map and an inter-class distance master are constructed, so that the similarity of the search target can be freely selected.
  • each component is separated by performing a mixture density approximation using an EM algorithm, and further, by clustering feature parameters of each fraction, similarity focusing on a distribution pattern of a target cell group is obtained. It enables search
  • the similar pattern search method according to the present invention uses an EM algorithm to separate each component of leukocyte particle size using an initial value determined by applying a self-organizing map. By separating and re-clustering using the self-organizing map, a secondary class map and an inter-class distance master are constructed, so that the similarity of the search target can be freely selected.
  • the similar pattern search program according to the present invention separates each component of leukocyte particle size by an EM algorithm using an initial value determined by applying a self-organizing map. By performing clustering again using the organization map, a secondary class map and an inter-class distance master are constructed, so that there is an effect that the similarity of the search target can be freely selected.
  • the fraction separating apparatus applies a self-organizing map (SOM) to the determination of the initial value of the EM algorithm, so that the local maximum Solving the problem of convergence to a value has an effect.
  • SOM self-organizing map
  • FIG. 1 is a block diagram showing a configuration of a similar pattern search device 1 according to the present embodiment.
  • FIG. 2 is a flowchart of a process performed by a similar pattern search device 1 according to the present embodiment.
  • FIG. 3 is a diagram showing an example of a primary class map obtained as a result of performing primary clustering by an SOM.
  • Fig. 4 shows a model obtained by synthesizing each fraction component using the two-dimensional histogram of the original grain size data (upper diagram) and the obtained mixed distribution parameters and redrawing. This is a two-dimensional histogram (figure below).
  • Fig. 5 shows the individual mixture model parameters obtained by the EM algorithm.
  • FIG. 9 is a diagram showing an example of a secondary class map obtained as a result of clustering with M.
  • FIG. 6 is a view showing the distribution of rod-shaped nuclei and lobulated nuclei distributed in the neutrophil region.
  • FIG. 7 is an enlarged view of distribution of lobulated nuclei based on Class 351.
  • FIG. 8 is a diagram plotting distances of each class based on Class801 of eosinophils.
  • Figure 9 shows the results of primary clustering performed on protein electrophoresis waveforms by SOM.
  • FIG. 9 is a diagram illustrating an example of an obtained primary class map.
  • FIG. 10 is a diagram showing an example of a primary class map obtained as a result of performing primary clustering on a blood cell histogram by SOM.
  • FIG. 11 is a diagram showing one embodiment of the present invention.
  • the present inventors performed a mixture density approximation using an EM algorithm on each cell component included in the leukocyte particle size pattern to separate each component, and further separated each fraction. It has been found that clustering the characteristic parameters of the above makes it possible to perform a similarity search focusing on the distribution pattern of the target cell group, and based on this finding, completed the present invention.
  • the EM algorithm has a problem that the convergence point strongly depends on the initial condition, and the local maximum of the marginal likelihood cannot be avoided. In other words, depending on the initial value, there is a phenomenon that a local solution with low quality converges.
  • the initial value of each class is obtained based on the result of clustering the leukocyte particle size data of the entirety by the SOM, and the convergence problem of the marginal likelihood to the local maximum value Is to solve.
  • an algorithm that enables a high-speed similarity search from a comprehensive viewpoint of each cell component of leukocytes or a combination of each component is developed, and information useful for diagnosis is provided.
  • FIG. 1 is a block diagram illustrating a configuration of a similar pattern search device 1 according to the present embodiment.
  • the similar pattern search device 1 that is effective in the present embodiment includes a primary clustering unit 11, a first parameter determining unit 12, a second parameter determining unit 13, a secondary clustering unit 14, an inter-class distance master creating unit 15, It has a memory 16, a class determination unit 17, and a similar pattern search unit 18.
  • the present invention separates each component by performing a mixture density approximation using an EM algorithm, and clusters the characteristic parameters of each fraction to obtain a distribution pattern of a target cell group.
  • the feature is that a similarity search focused on is enabled.
  • the EM algorithm is composed of two processing algorithms, the Expectation step (E-step) and the Maximization step (M-step). These operations are repeated until the convergence is reached, and the meter is updated. The maximum point of the maximum likelihood estimator can be obtained.
  • E-ste P calculates the conditional expected value of the log-likelihood, and M-step performs processing to maximize the conditional expected value.
  • the EM algorithm has a problem that the convergence point strongly depends on the initial condition, and the local maximum of the marginal likelihood cannot be avoided. In other words, depending on the initial value Has the phenomenon of converging to a low-quality local solution.
  • the initial value of each class is obtained based on the result of clustering the leukocyte particle size data of the entirety by the SOM, and the convergence problem of the marginal likelihood to the local maximum value Is to solve.
  • the two-dimensional histogram data of the leukocyte particle size measured by the analyzer 2 is transmitted to the similar pattern searcher 1 and stored in the memory 16.
  • the primary clustering unit 11 performs a clustering by applying a self-organizing map to a plurality of the leukocyte particle size patterns obtained by actual measurement, thereby creating a primary class map.
  • the first parameter determination unit 12 executes the EM algorithm for each pattern included in the primary class map using a predetermined initial value to thereby determine the number of components of the cell component included in each pattern. And a first mixture distribution model parameter consisting of the mean value, variance and density of each cell component.
  • the second parameter determination unit 13 executes an EM algorithm for each actually measured leukocyte particle size pattern with the first mixture distribution model parameter as an initial value, thereby obtaining a cell component included in each of the leukocyte particle size patterns. And the second mixture distribution model parameters including the average value, the variance, and the density of each cell component.
  • the secondary clustering unit 14 creates a secondary class map by performing clustering by applying the self-organizing map to the second mixture distribution model parameters.
  • a force K mean clustering or the like that uses the self-organizing map may be used.
  • the inter-class distance master creating unit 15 calculates the similar distances of all the combinations between the classes included in the secondary class map, and associates the class combinations with the similar distances between the classes. This is to create a distance master.
  • the memory 16 includes two-dimensional histogram data of the leukocyte particle size measured by the analyzer 2, the secondary class map data created by the secondary clustering unit 14, and the inter-class distance created by the inter-class distance master creating unit 15. It stores data such as master data.
  • the class determination unit 17 determines the cell component fraction contained in the leukocyte particle size pattern of the test sample.
  • the class to which it belongs is also used to determine the strength of the secondary class map.
  • the similar pattern search unit 18 detects a class whose similar distance to the class determined in the class determination step is equal to or less than a predetermined threshold from the inter-class distance master as a similar class, and The included leukocyte particle size pattern is determined as a pattern having a high similarity to the leukocyte particle size pattern of the test sample.
  • the distance between classes was used to determine the similarity.
  • the evaluation criterion for similarity is not limited to this. You may decide to use distance, etc.
  • the external input / output device 2 transmits to the similar pattern search device 1 various parameters and similar pattern search conditions input by the user.
  • the similar pattern hit by the similar pattern search device 1 is output on the screen.
  • FIG. 2 shows a flowchart of a process performed by the similar pattern search device 1 according to the present embodiment.
  • a two-dimensional histogram of LMNE channels of 8,800 general patient samples analyzed by the automatic blood cell counter PENTRA120 (Horiba, Ltd.) 128 * 128, 8bit / sample data The explanation is given along the case of processing.
  • the two-dimensional histogram data output from the analyzer 2 has been subjected to smoothing processing of eight points in the vicinity.
  • the human power layer 128 water 128 (16,384 neurons), the competitive layer 12 water 12 (uni (1) Clustering was performed using the SOM, and the 144 patterns obtained were used as the primary class map.
  • the learning parameters of the SOM were a neighborhood distance of 4 and a learning rate of 0.3.
  • 4 * 4 16-divided areas are set, the center of gravity of each two-dimensional histogram is obtained, and the center of gravity is used as the initial value to separate the mixed model using the EM algorithm.
  • the distribution model for each fraction was calculated assuming a normal distribution.
  • the obtained mixture distribution model parameters (number of components, average value of each component, variance, density) were artificially adjusted to determine temporary parameters.
  • the classes belonging to each fraction of the test sample were determined from the secondary map, the interclass distance master was read, the threshold was determined according to the purpose of the search, and the class group matching the conditions was searched.
  • the threshold variable By making the threshold variable, the strength of similarity of the search can be freely selected, and the similarity search is realized by searching the class group of the area included in the threshold with the disjunctive condition.
  • To search for the overall pattern of each fraction we decided to search using the conjunction of the classes belonging to each fraction.
  • FIG. 3 shows the result of performing primary clustering by SOM. It shows the inside of a 12 * 12 competitor layer, and the result obtained by clustering the entire pattern of leukocyte particle size into 144 clusters was obtained.
  • the upper diagram of Fig. 4 shows a two-dimensional histogram of the original granularity data, in which + represents an initial value, and a path and a convergence point where an optimal likelihood was searched by the X force 3 ⁇ 4M algorithm.
  • the lower part of Fig. 4 is a modeled two-dimensional histogram in which each fraction component is synthesized and redrawn using the obtained mixture distribution parameters.
  • Fig. 5 shows the results of clustering individual mixture model parameters obtained by the EM algorithm with SOM.
  • the elliptical component drawn in red indicates the fraction of one component cell, and a result in which a similar pattern was arranged around the component was obtained. It can be understood that various patterns exist for each cell group. Pink 1 indicates lymphocytes, yellow 2 indicates monocytes, light blue 3 indicates neutrophils, and purple 4 indicates eosinophils.
  • the clustering of four cell populations with literal LMNE channels was obtained.
  • platelets were mapped in the white area distributed below the lymphocytes, and distributions considered to be abnormal cells were mapped in the other white areas and in the boundary area between each cell group.
  • the cell groups shown in FIGS. 5 and 6 are referred to by sequential numbers in the raster direction, with the upper left corner being ClassO and the lower right corner being Class899.
  • FIG. 6 shows the distribution of rod-shaped nuclei and lobulated nuclei distributed in the neutrophil region.
  • Classl20 is a class with more rods than any other class
  • Class351 is a class with more lobulated nuclei.
  • the Dalladiation region of yellow 31 (left) represents the pattern of similar distances centered on Classl20, which was the group of cases containing the most rod-like nuclei with marked left nucleus movement, by color intensity. Distribution.
  • the blue radiation (Daradiation) region of 32 shows a pattern centering on Class 351 where lobulated nuclei were the most powerful.
  • FIG. 7 is an enlarged view of the distribution of lobulated nuclei based on Class 351. If you want to perform a similar search over a wide range, search for classes in the area enclosed by the red line, and if you want to search for cells with strong similarity, use the green or blue area. By searching for classes, the search target can be narrowed down.
  • FIG. 8 is a diagram plotting the distance of each class based on Class 801 of eosinophils.
  • the vertical axis represents distances from Class801, and the horizontal axis represents classes sorted in ascending order of distance.
  • the distance is 1 or less, the same eosinophils are distributed, indicating that the similarity of the search target can be changed by changing the threshold of the distance.
  • a step-like curve was obtained for each cell, and interesting results were obtained in which neutrophil lobulated and rod-shaped nuclei were separated by monocytes. This tended to be in various patterns depending on the reference cells.
  • the similarity search device 1 searches for the similarity of the leukocyte particle size pattern.
  • the present invention is not limited to this.
  • the similarity of the test sample patterns such as the protein electrophoresis waveform and the blood cell histogram can be searched, and the similarity of various test sample patterns can be searched.
  • the test sample pattern is not limited to two-dimensional information such as the leukocyte particle size pattern described above, but can be applied to one-dimensional information and multidimensional information (including a time axis).
  • FIG. 9 is a diagram showing an example of a primary class map obtained as a result of performing primary clustering on a protein electrophoresis waveform by SOM using the similar pattern search device 1.
  • FIG. 10 is a diagram showing an example of a primary class map obtained as a result of performing primary clustering on blood cell histograms by the SOM in the similar pattern search device 1.
  • a program for realizing the function of the similar parameter search device 1 is recorded on the computer-readable recording medium 60 shown in FIG.
  • Each function may be realized by causing the computer 50 shown in the same figure to read the executed program and executing it.
  • the computer 50 shown in the figure includes a CPU (Central Processing Unit) 51 for executing the above program, an input device 52 such as a keyboard and a mouse, and a ROM (Read Only Memory) 53 for storing various data. And a RAM (Random Access Memory) 54 for storing calculation parameters and the like, a reading device 55 for reading a program from a recording medium 60, and an output device 56 such as a display and a printer.
  • a CPU Central Processing Unit
  • an input device 52 such as a keyboard and a mouse
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 51 reads the program recorded on the recording medium 60 via the reading device 55, and executes the program to realize the above-described functions.
  • the recording medium 60 includes an optical disk, a flexible disk, a hard disk, and the like.
  • the similar pattern search device can provide a useful information for diagnosis and treatment because the similarity scale can be freely changed with respect to the similarity obtained by integrating the components. Can be.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

 複数の細胞成分分画を含む白血球粒度パターンにおいて、EMアルゴリズムを用いた混合密度近似を行うことで各成分を分離し、さらに、各分画の特徴パラメータをクラスタリングすることで、目的の細胞群の分布パターンに注目した類似検索を行って、白血球の細胞成分ごと、あるいは、各細胞成分の組み合わせという総合的な視点で高精度な類似検索を可能とするアルゴリズムを開発し、診断に有用な情報を提供する。

Description

明 細 書
類似パターン検索装置、類似パターン検索方法、類似パターン検索プロ グラム、および分画分離装置
技術分野
[0001] 本発明は、複数のパターンを含む集団の中から、被検検体のパターンと類似性の 高いパターンを検索する類似パターン検索装置、類似パターン検索方法、類似バタ ーン検索プログラム、および分画分離装置に関する。
背景技術
[0002] 例えば、フローサイトメトリーは白血球を好中球、リンパ球、単球、好酸球などに短 時間で分類することが可能な検査である。フローサイトメトリーによって得られる白血 球粒度データは、細胞の成熟度や疾患によってさまざま粒度パターンに分類するこ とができる (非特許文献 1参照)。
[0003] この検査は、日常のスクリーニング検査法として多くの施設で導入されている力 分 類された数値データのみが利用され、分析装置内部で発生する白血球粒度データ を臨床で診断に利用することはまれであった。これは、白血球粒度データが膨大な データ量であり、外部の情報システムで取り扱うことができな力つた点と、分析生デー タに対して視覚的な探索方法しか実施されておらず、科学的な手法で検討すること が困難であったためである。
[0004] これに対し、本発明者らは、 2次元ヒストグラムとして得られる白血球粒度データを用 いて、自己組織ィ匕マップ (SOM)によりクラスタリングを行う方法を開発した (非特許 文献 2— 4参照)。当該分類方法は、白血球粒度データをデータベースに記録し、デ 一タマイニングを適用して特徴的なパターンを抽出することにより、 2次元ヒストグラム だけの情報では判断できな力つた分類が可能となる。
[0005] 従来の分類方法は、分析装置内部で各分画の谷間を境界とした分離方法で処理 されており、各分画を 1つの数値データとして診断に利用する方法が用いられていた
。しかし、この方法では、複数のクラスターが近接した分布、たとえば、好中球に属す る桿状核球と分葉核球、あるいは、正常細胞と幼弱球の分離ができないという問題が あった。
[0006] 非特許文献 1 :巽典之、津田泉、田窪考行、他:自動白血球分類結果の実地診療へ の反映、 HORIBA Technical Reports, No. 20、 pp. 23—26、 2000.
非特許文献 2 :片岡浩巳、井沖浩美、小西修、他:白血球粒度のデータマイニング支 援システムの構築、 日本臨床検査自動化学会誌、 Vol27, 4、 pp. 583、 2002. 非特許文献 3 :片岡浩巳、井沖浩美、小西修、他:白血球粒度のクラスタリングと 3Dビ ジユアライゼーシヨン、医療情報学 22 (Suppl. )、 pp. 209— 210、 2002.
非特許文献 4:井沖浩美、片岡浩巳、川崎由夏、他:白血球粒度データによるアレル ギー疾患領域のパターン分類、医療情報学 22 (Suppl. )、 pp. 211-212、 2 002.
発明の開示
発明が解決しょうとする課題
[0007] 本発明は、上記に鑑みてなされたものであって、複数のパターンを含む集団の中 から、被検検体のパターンと類似性の高いパターンを高精度に類似検索して、診断 に有用な情報を提供することが可能な類似パターン検索装置、類似パターン検索方 法、類似パターン検索プログラム、および分画分離装置を提供することを目的とする 課題を解決するための手段
[0008] 上述した課題を解決し、 目的を達成するために、請求項 1に係る発明は、複数のパ ターンを含む集団の中から、被検検体のパターンと類似性の高いパターンを検索す る類似パターン検索装置であって、前記複数のパターンに各々含まれる複数の成分 分画を特徴づけるモデルパラメータを選択し、前記複数のパターンに対してクラスタリ ングを行って作成されたクラスマップを記憶する記憶手段と、前記被検検体のパター ンに含まれる成分分画に類似するクラスを前記クラスマップの中から選択する類似パ ターン検索手段と、を備えたことを特徴とする。
[0009] この請求項 1にかかる発明によれば、複数のパターンに各々含まれる複数の成分 分画を特徴づけるモデルパラメータを使用して、複数のパターンに対してクラスタリン グを行ってクラスマップを作成し、被検検体のパターンに含まれる成分分画に類似す るクラスをクラスマップの中から選択して高精度に類似検索を行う。
[0010] 請求項 2にかかる発明は、前記パターンは、 1次元または多次元のパターンである ことを特徴とする。この請求項 2にかかる発明によれば、 1次元または多次元のパター ンを高精度に類似検索する。
[0011] 請求項 3にかかる発明は、前記パターンは、白血球粒度パターン、蛋白電気泳動 波形、または血球ヒストグラムであることを特徴とする。この請求項 3にかかる発明によ れば、白血球粒度パターン、蛋白電気泳動波形、または血球ヒストグラムを高精度に 類似検索する。
[0012] 請求項 4にかかる発明は、複数のパターンを含む集団の中から、被検検体のバタ ーンと類似性の高 、パターンを検索する類似パターン検索方法であって、前記複数 のパターンに各々含まれる複数の成分分画を特徴づけるモデルパラメータを選択し 、前記複数のパターンにクラスタリングを行ってクラスマップを作成するクラスマップ作 成工程と、前記クラスマップ作成工程で作成されたクラスマップを記憶する記憶工程 と、前記被検検体のパターンに含まれる成分分画に類似するクラスを前記クラスマツ プの中から選択する類似パターン検索工程と、を含むことを特徴とする。
[0013] この請求項 4にかかる発明によれば、複数のパターンに各々含まれる複数の成分 分画を特徴づけるモデルパラメータを使用して、複数のパターンに対してクラスタリン グを行ってクラスマップを作成し、被検検体のパターンに含まれる成分分画に類似す るクラスをクラスマップの中から選択して高精度に類似検索を行う。
[0014] 請求項 5にかかる発明は、複数のパターンを含む集団の中から、被検検体のバタ ーンと類似性の高いパターンを検索する類似パターン検索方法をコンピュータに実 行させるためのプログラムであって、前記複数のパターンに各々含まれる複数の成分 分画を特徴づけるモデルパラメータを選択し、前記複数のパターンにクラスタリングを 行ってクラスマップを作成するクラスマップ作成工程と、前記クラスマップ作成工程で 作成されたクラスマップを記憶する記憶工程と、前記被検検体のパターンに含まれる 成分分画に類似するクラスを前記クラスマップの中から選択する類似パターン検索ェ 程と、をコンピュータに実行させることを特徴とする。
[0015] この請求項 5にかかる発明によれば、複数のパターンに各々含まれる複数の成分 分画を特徴づけるモデルパラメータを使用して、複数のパターンに対してクラスタリン グを行ってクラスマップを作成し、被検検体のパターンに含まれる成分分画に類似す るクラスをクラスマップの中から選択して、高精度に類似検索を行う。
[0016] 請求項 6にかかる発明は、複数の白血球粒度パターンを含む集団の中から、被検 検体の白血球粒度パターンと類似性の高いパターンを持つ白血球粒度パターンを 検索する類似パターン検索装置であって、前記白血球粒度パターンは、複数の細胞 成分分画を含み、実測して得られた複数の前記白血球粒度パターンに自己組織ィ匕 マップを適用してクラスタリングを行 、、 1次クラスマップを作成する 1次クラスタリング 手段と、前記 1次クラスマップに含まれる各パターンについて、所定の初期値を用い て EMアルゴリズムを実行することにより、前記各パターンに含まれる細胞成分の成 分数、ならびに、各細胞成分の平均値、分散および密度からなる第 1の混合分布モ デルパラメータを決定する第 1のパラメータ決定手段と、前記各白血球粒度パターン につ 、て、前記第 1の混合分布モデルパラメータを初期値として EMアルゴリズムを 実行することにより、前記各白血球粒度パターンに含まれる細胞成分の成分数、なら びに、各細胞成分の平均値、分散および密度からなる第 2の混合分布モデルパラメ ータを決定する第 2のパラメータ決定手段と、前記各白血球粒度パターンについて、 前記第 2の混合分布モデルパラメータに自己組織ィ匕マップを適用してクラスタリング を行い、 2次クラスマップを作成する 2次クラスタリング手段と、前記 2次クラスマップに 含まれる各クラス間におけるすべての組合せの類似距離を計算し、クラスの組合せと 当該クラス間の類似距離とを対応させたクラス間距離マスターを作成するクラス間距 離マスター作成手段と、前記 2次クラスマップと前記クラス間距離マスターを記憶する 記憶手段と、被検検体の白血球粒度パターンに含まれる各細胞成分分画に属する クラスを前記 2次クラスマップの中から決定するクラス決定手段と、および、前記クラス 決定手段で決定されたクラスとの類似距離が所定の閾値以下であるクラスを前記クラ ス間距離マスターの中から類似クラスとして検出し、当該類似クラスに含まれる白血 球粒度パターンを、前記被検検体の白血球粒度パターンと類似性の高いパターンと して判定する類似パターン検索手段と、を備えたことを特徴とする。
[0017] この請求項 6にかかる発明によれば、 自己組織ィ匕マップを適用して決定した初期値 を用いて EMアルゴリズムにより白血球粒度の各成分を分離し、自己組織ィ匕マップを 用いて再びクラスタリングを行うことにより、 2次クラスマップおよびクラス間距離マスタ 一を構築する。
[0018] 請求項 7にかかる発明は、複数の白血球粒度パターンを含む集団の中から、被検 検体の白血球粒度パターンと類似性の高いパターンを持つ白血球粒度パターンを 検索する類似パターン検索方法であって、前記白血球粒度パターンは、複数の細胞 成分分画を含み、実測して得られた複数の前記白血球粒度パターンに自己組織ィ匕 マップを適用してクラスタリングを行 、、 1次クラスマップを作成する 1次クラスタリング 工程と、前記 1次クラスマップに含まれる各パターンについて、所定の初期値を用い て EMアルゴリズムを実行することにより、前記各パターンに含まれる細胞成分の成 分数、ならびに、各細胞成分の平均値、分散および密度からなる第 1の混合分布モ デルパラメータを決定する第 1のパラメータ決定工程と、前記各白血球粒度パターン につ 、て、前記第 1の混合分布モデルパラメータを初期値として EMアルゴリズムを 実行することにより、前記各白血球粒度パターンに含まれる細胞成分の成分数、なら びに、各細胞成分の平均値、分散および密度からなる第 2の混合分布モデルパラメ ータを決定する第 2のパラメータ決定工程と、前記各白血球粒度パターンについて、 前記第 2の混合分布モデルパラメータに自己組織ィ匕マップを適用してクラスタリング を行い、 2次クラスマップを作成する 2次クラスタリング工程と、前記 2次クラスマップに 含まれる各クラス間におけるすべての組合せの類似距離を計算し、各クラスの組合 せと当該クラス間の類似距離とを対応させたクラス間距離マスターを作成するクラス 間距離マスター作成工程、前記 2次クラスマップと前記クラス間距離マスターを記憶 する記憶工程と、被検検体の白血球粒度パターンに含まれる各細胞成分分画に属 するクラスを前記 2次クラスマップの中から決定するクラス決定工程と、前記クラス決 定工程で決定されたクラスとの類似距離が所定の閾値以下であるクラスを前記クラス 間距離マスターの中から類似クラスとして検出し、当該類似クラスに含まれる白血球 粒度パターンを、前記被検検体の白血球粒度パターンと類似性の高いパターンとし て判定する類似パターン検索工程と、を備えたことを特徴とする。
[0019] この請求項 7にかかる発明によれば、 自己組織ィ匕マップを適用して決定した初期値 を用いて EMアルゴリズムにより白血球粒度の各成分を分離し、自己組織ィ匕マップを 用いて再びクラスタリングを行うことにより、 2次クラスマップおよびクラス間距離マスタ 一を構築する。
請求項 8にかかる発明は、複数の白血球粒度パターンを含む集団の中から、被検 検体の白血球粒度パターンと類似性の高いパターンを持つ白血球粒度パターンを 検索する類似パターン検索方法をコンピュータに実行させるプログラムであって、前 記白血球粒度パターンは、複数の細胞成分分画を含み、実測して得られた複数の 前記白血球粒度パターンに自己組織ィ匕マップを適用してクラスタリングを行い、 1次 クラスマップを作成する 1次クラスタリング工程と、前記 1次クラスマップに含まれる各 パターンについて、所定の初期値を用いて EMアルゴリズムを実行することにより、前 記各パターンに含まれる細胞成分の成分数、ならびに、各細胞成分の平均値、分散 および密度カゝらなる第 1の混合分布モデルパラメータを決定する第 1のパラメータ決 定工程と、前記各白血球粒度パターンについて、前記第 1の混合分布モデルパラメ ータを初期値として EMアルゴリズムを実行することにより、前記各白血球粒度パター ンに含まれる細胞成分の成分数、ならびに、各細胞成分の平均値、分散および密度 力 なる第 2の混合分布モデルパラメータを決定する第 2のパラメータ決定工程と、前 記各白血球粒度パターンについて、前記第 2の混合分布モデルパラメータに自己組 織ィ匕マップを適用してクラスタリングを行 、、 2次クラスマップを作成する 2次クラスタリ ング工程と、前記 2次クラスマップに含まれる各クラス間におけるすべての組合せの 類似距離を計算し、各クラスの組合せと当該クラス間の類似距離とを対応させたクラ ス間距離マスターを作成するクラス間距離マスター作成工程と、前記 2次クラスマップ と前記クラス間距離マスターを記憶する記憶工程と、被検検体の白血球粒度パター ンに含まれる各細胞成分分画に属するクラスを前記 2次クラスマップの中から決定す るクラス決定工程と、前記クラス決定工程で決定されたクラスとの類似距離が所定の 閾値以下であるクラスを前記クラス間距離マスターの中から類似クラスとして検出し、 当該類似クラスに含まれる白血球粒度パターンを、前記被検検体の白血球粒度バタ ーンと類似性の高 ヽパターンとして判定する類似パターン検索工程と、をコンビユー タに実行させることを特徴とする。 [0021] この請求項 8にかかる発明によれば、 自己組織ィ匕マップを適用して決定した初期値 を用いて EMアルゴリズムにより白血球粒度の各成分を分離し、自己組織ィ匕マップを 用いて再びクラスタリングを行うことにより、 2次クラスマップおよびクラス間距離マスタ 一を構築する。
[0022] 請求項 9にかかる発明は、複数の細胞成分分画を含む白血球粒度パターンにおい て各細胞成分分画を分離する細胞成分分画分離装置であって、実測して得られた 複数の前記白血球粒度パターンに自己組織ィ匕マップを適用してクラスタリングを行い 、 1次クラスマップを作成する 1次クラスタリング手段と、前記 1次クラスマップに含まれ る各パターンにつ 、て、所定の初期値を用いて EMアルゴリズムを実行することにより 、各パターンに含まれる細胞成分の成分数、ならびに、各細胞成分分画の平均値、 分散および密度カゝらなる混合分布モデルパラメータを決定するパラメータ決定手段と 、および前記各白血球粒度パターンについて、前記混合分布モデルパラメータを初 期値として EMアルゴリズムを実行することにより、各白血球粒度パターンに含まれる 各細胞成分の分画を分離する分画分離手段とを備えたことを特徴とする。
[0023] この請求項 9にかかる発明によれば、 EMアルゴリズムの初期値の決定に自己組織 化マップ (SOM)を適用する。
発明の効果
[0024] 本発明(請求項 1)に力かる類似パターン検索装置は、複数のパターンに各々含ま れる複数の成分分画を特徴づけるモデルパラメータを使用して、複数のパターンに 対してクラスタリングを行ってクラスマップを作成し、被検検体のパターンに含まれる 成分分画に類似するクラスをクラスマップの中力 選択しているため、複数のパター ンを含む集団の中から、被検検体のパターンと類似性の高いパターンを高精度に類 似検索して、診断に有用な情報を提供することができるという効果を奏する。
[0025] 本発明(請求項 2)に力かる類似パターン検索装置は、前記パターンとして、 1次元 または多次元のパターンを使用することとしたので、 1次元または多次元の被検検体 のパターンと類似度の高いパターンを高精度に類似検索することができるという効果 を奏する。
[0026] 本発明(請求項 3)に力かる類似パターン検索装置は、前記パターンとして、白血球 粒度パターン、蛋白電気泳動波形、または血球ヒストグラムであることとしたので、白 血球粒度パターン、蛋白電気泳動波形、または血球ヒストグラムのパターンと類似度 の高いパターンを高精度に類似検索することができるという効果を奏する。
[0027] 本発明(請求項 4)に力かる類似パターン検索方法は、複数のパターンに各々含ま れる複数の成分分画を特徴づけるモデルパラメータを使用して、複数のパターンに 対してクラスタリングを行ってクラスマップを作成し、被検検体のパターンに含まれる 成分分画に類似するクラスをクラスマップの中力 選択しているため、複数のパター ンを含む集団の中から、被検検体のパターンと類似性の高いパターンを高精度に類 似検索して、診断に有用な情報を提供することができるという効果を奏する。
[0028] 本発明(請求項 5)に力かる類似パターン検索プログラムは、複数のパターンに各々 含まれる複数の成分分画を特徴づけるモデルパラメータを使用して、複数のパター ンに対してクラスタリングを行ってクラスマップを作成し、被検検体のパターンに含ま れる成分分画に類似するクラスをクラスマップの中力 選択しているため、複数のパタ ーンを含む集団の中から、被検検体のパターンと類似性の高いパターンを高精度に 類似検索して、診断に有用な情報を提供することができるという効果を奏する。
[0029] 本発明(請求項 6)に力かる類似パターン検索装置は、自己組織ィ匕マップを適用し て決定した初期値を用いて EMアルゴリズムにより白血球粒度の各成分を分離し、自 己組織ィ匕マップを用いて再びクラスタリングを行うことにより、 2次クラスマップおよびク ラス間距離マスターを構築するため、検索対象の類似性を自由に選択できるという効 果を奏する。
[0030] 従来は、 2次元ヒストグラムの粒度データを直接用いて SOMによりクラスタリングを 行って 、たため、白血球の個々の成分に注目した部分的な類似性に注目した類似 検索を行うことができなカゝつた。本発明によれば、 EMアルゴリズムを用いた混合密度 近似を行うことで各成分を分離し、さらに、各分画の特徴パラメータをクラスタリングす ることで、 目的の細胞群の分布パターンに注目した類似検索を可能とするものである
[0031] また、本発明(請求項 7)に力かる類似パターン検索方法は、自己組織ィ匕マップを 適用して決定した初期値を用いて EMアルゴリズムにより白血球粒度の各成分を分 離し、 自己組織ィ匕マップを用いて再びクラスタリングを行うことにより、 2次クラスマップ およびクラス間距離マスターを構築するため、検索対象の類似性を自由に選択でき るという効果を奏する。
[0032] また、本発明(請求項 8)に力かる類似パターン検索プログラムは、自己組織化マツ プを適用して決定した初期値を用いて EMアルゴリズムにより白血球粒度の各成分を 分離し、 自己組織ィ匕マップを用いて再びクラスタリングを行うことにより、 2次クラスマツ プおよびクラス間距離マスターを構築するため、検索対象の類似性を自由に選択で きるという効果を奏する。
[0033] また、本発明(請求項 9)に力かる分画分離装置は、 EMアルゴリズムの初期値の決 定に自己組織ィ匕マップ (SOM)を適用するため、周辺尤度の局所的最大値への収 束問題を解決できると 、う効果を奏する。
図面の簡単な説明
[0034] [図 1]図 1は、本実施の形態にかかる類似パターン検索装置 1の構成を示すブロック 図である。
[図 2]図 2は、本実施の形態に力かる類似パターン検索装置 1によって行われる処理 のフローチャートである。
[図 3]図 3は、 SOMにより 1次クラスタリングを行った結果得られた 1次クラスマップの 一例を示す図である。
[図 4]図 4は、もとの粒度データの 2次元ヒストグラム(上図)、および、得られた混合分 布パラメータを用いて各分画成分を合成して再描画を行ったモデル化された 2次元ヒ ストグラム(下図)である。
[図 5]図 5は、 EMアルゴリズムにより得られた個々の混合分布モデルパラメータを SO
Mでクラスタリングした結果得られた 2次クラスマップの一例を示す図である。
[図 6]図 6は、好中球領域に分布する桿状核球と分葉核球の分布を示す図である。
[図 7]図 7は、 Class351を基準とした分葉核球の分布の拡大図である。
[図 8]図 8は、好酸球の Class801を基準とした各クラスの距離をプロットした図である
[図 9]図 9は、蛋白電気泳動波形について SOMにより 1次クラスタリングを行った結果 得られた 1次クラスマップの一例を示す図である。
[図 10]図 10は、血球ヒストグラムについて SOMにより 1次クラスタリングを行った結果 得られた 1次クラスマップの一例を示す図である。
[図 11]図 11は、本発明の一実施例を示す図である。
符号の説明
[0035] 1 類似パターン検索装置
11 1次クラスタリング部
12 第 1のパラメータ決定部
13 第 2のパラメータ決定部
14 2次クラスタリング部
15 クラス間距離マスター作成部
16 メモリ
17 クラス決定部
18 類似パターン検索部
2 分析装置
3 外部入出力装置
発明を実施するための最良の形態
[0036] 以下、この発明に係る類似パターン検索装置、類似パターン検索方法、類似バタ ーン検索プログラム、および分画分離装置について、図面を参照しつつ詳細に説明 する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施 形態における構成要素には、当業者が容易に想定できるものまたは実質的に同一 のものが含まれる。以下の実施形態では、白血球粒度パターンを例示して説明する 力 本発明はこれに限られるものではない。
[0037] 本発明者らは、鋭意研究の結果、白血球粒度パターンに含まれる各細胞成分につ いて、 EMアルゴリズムを用いた混合密度近似を行うことで各成分を分離し、さらに、 各分画の特徴パラメータをクラスタリングすることで、 目的の細胞群の分布パターンに 注目した類似検索を可能にできることを見いだし、この知見に基づいて本発明を完 成させるに至った。 [0038] 一般的に EMアルゴリズムは、収束点が初期条件に強く依存し、周辺尤度の局所 的最大値を回避できない場合が存在する問題を抱えている。つまり、初期値によって は、低品質の局所解に収束するという現象がある。本発明では、この問題に対し、あ らカじめ全体の白血球粒度データを SOMによりクラスタリングした結果をもとに、各ク ラスの初期値を求め周辺尤度の局所的最大値への収束問題を解決するものである。 本発明では、白血球の細胞成分ごと、あるいは、各成分の組み合わせという総合的 な視点で高速な類似検索を可能とするアルゴリズムを開発し、診断に有用な情報を 提供する。
[0039] 以下に、本発明の実施形態について説明する。図 1は、本実施の形態に力かる類 似パターン検索装置 1の構成を示すブロック図である。本実施の形態に力かる類似 パターン検索装置 1は、 1次クラスタリング部 11、第 1のパラメータ決定部 12、第 2の パラメータ決定部 13、 2次クラスタリング部 14、クラス間距離マスター作成部 15、メモ リ 16、クラス決定部 17、および類似パターン検索部 18を備えている。
[0040] 本発明は、 EMアルゴリズムを用いた混合密度近似を行うことで各成分を分離し、さ らに、各分画の特徴パラメータをクラスタリングすることで、目的の細胞群の分布パタ 一ンに注目した類似検索を可能とすることを特徴とする。
[0041] EMァノレゴリズムは Expectation step (E— step)と Maximization step (M-ste p)の 2つの処理アルゴリズムカゝら構成され、これらの操作を収束するまで繰り返して ノ メータを更新することによって、最尤推定量の極大点を得ることができる。 E-ste Pは、対数尤度の条件付期待値を計算し、 M - stepは、条件付期待値を最大化する 処理が行われる。
本実施の形態で用いたデータセットと近似モデルは、
データタイプ: 2次元ヒストグラム
モデル:正規混合モデル
パラメータ:平均、分散、密度
である。
[0042] 一般的に EMアルゴリズムは、収束点が初期条件に強く依存し、周辺尤度の局所 的最大値を回避できない場合が存在する問題を抱えている。つまり、初期値によって は、低品質の局所解に収束するという現象がある。本発明では、この問題に対し、あ らカじめ全体の白血球粒度データを SOMによりクラスタリングした結果をもとに、各ク ラスの初期値を求め周辺尤度の局所的最大値への収束問題を解決するものである。
[0043] 分析装置 2で測定した白血球粒度の 2次元ヒストグラムデータは、類似パターン検 索装置 1に送信され、メモリ 16に格納される。
[0044] 1次クラスタリング部 11は、実測して得られた複数の前記白血球粒度パターンに自 己組織ィ匕マップを適用してクラスタリングを行 、、 1次クラスマップを作成するものであ る。
[0045] 第 1のパラメータ決定部 12は、 1次クラスマップに含まれる各パターンについて、所 定の初期値を用いて EMアルゴリズムを実行することにより、前記各パターンに含ま れる細胞成分の成分数、ならびに、各細胞成分の平均値、分散および密度からなる 第 1の混合分布モデルパラメータを決定するものである。
[0046] 第 2のパラメータ決定部 13は、実測した各白血球粒度パターンについて、前記第 1 の混合分布モデルパラメータを初期値として EMアルゴリズムを実行することにより、 前記各白血球粒度パターンに含まれる細胞成分の成分数、ならびに、各細胞成分 の平均値、分散および密度カゝらなる第 2の混合分布モデルパラメータを決定するもの である。
[0047] 2次クラスタリング部 14は、第 2の混合分布モデルパラメータに自己組織ィ匕マップを 適用してクラスタリングを行い、 2次クラスマップを作成するものである。なお、ここでは 、 自己組織ィ匕マップを使用することとした力 K meanクラスタリング等を使用するこ とにしてちよい。
[0048] クラス間距離マスター作成部 15は、 2次クラスマップに含まれる各クラス間における すべての組合せの類似距離を計算し、クラスの組合せと当該クラス間の類似距離とを 対応させたクラス間距離マスターを作成するものである。
[0049] メモリ 16は、分析装置 2で測定した白血球粒度の 2次元ヒストグラムデータ、 2次クラ スタリング部 14で作成した 2次クラスマップデータ、クラス間距離マスター作成部 15で 作成したクラス間距離マスターデータ等のデータを記憶するものである。
[0050] クラス決定部 17は、被検検体の白血球粒度パターンに含まれる各細胞成分分画に 属するクラスを前記 2次クラスマップの中力も決定するものである。
[0051] 類似パターン検索部 18は、クラス決定工程で決定されたクラスとの類似距離が所 定の閾値以下であるクラスを前記クラス間距離マスターの中から類似クラスとして検 出し、当該類似クラスに含まれる白血球粒度パターンを、前記被検検体の白血球粒 度パターンと類似性の高いパターンとして判定するものである。ここでは、類似度を判 定する場合に、クラス間距離を使用することとしたが、類似度の評価基準 (クラスタ評 価基準)はこれに限られるものではなぐクラスタ重心力 の距離、クラスタ内距離等を 使用することにしてもよ 、。
[0052] 外部入出力装置 2は、ユーザによって入力された各種パラメータや類似パターンの 検索条件等を類似パターン検索装置 1に送信する。また、類似パターン検索装置 1 でヒットした類似パターンを画面上に出力する。
[0053] 図 2に本実施の形態に力かる類似パターン検索装置 1によって行われる処理のフロ 一チャートを示す。なお、以下の説明では、処理の具体例として、自動血球計数装置 PENTRA120 (堀場製作所)により分析された一般患者検体 8, 800件の LMNEチ ヤンネルの 2次元ヒストグラム 128 * 128、 8bit/検体のデータを処理するケースに 沿って説明を行う。
[0054] (1)初期値決定のための 1次マップの作成
分析装置 2から出力された 2次元ヒストグラムデータを近傍 8点の平滑ィ匕処理を行つ たデータ【こ関して、人力層 128水 128 (16, 384ニューロン)、競合層 12水 12 (ュニ ット)の SOMでクラスタリングを行い、得られた 144種類のパターンを 1次クラスマップ とした。 SOMの学習パラメータは、近傍距離 4、学習率 0. 3とした。さらに、この 1次ク ラスマップの個々のパターンについて、 4 * 4の 16分割した領域を設定し、それぞれ の 2次元ヒストグラムの重心を求め、その重心を初期値として、 EMアルゴリズムにより 混合モデルの分離を行った。各分画の分布モデルは正規分布と仮定して計算を行 つた。さらに、得られた混合分布モデルパラメータ (成分数、各成分の平均値、分散、 密度)を人為的に調整し一時的なパラメータを決定した。
[0055] (2) EMアルゴリズムによる混合分布近似
EMアルゴリズムによる混合分布近似については、「データ学習アルゴリズム」(渡辺 澄夫、共立出版、 2001. )および Igor V. Cadez, Scott Gaffney, Padhrai c Smyth : A General Probabilistic Framework for Clustering Indiv iduals and Objects, Knowledge Discovery and Data Mining, ppl4 0-149 , 2000.等に記載の手法を用いて実施することができる。
[0056] 具体的には、各検体の 2次元ヒストグラムデータに対して、 1次マップに最も類似し たクラスを検索し、そのクラスの混合分布モデルパラメータのパラメータを使って EM アルゴリズムを実行し粒度成分を分離した。全ての被検粒度データにっ ヽて同じ処 理を実行し個別の混合分布モデルパラメータを計算した。
[0057] (3)混合分布パラメータを入力とした SOMによる 2次マップの作成混合分布パラメ一 タを入力とした SOMによる 2次マップの作成については、 Tom Heskes : Self— o rganizmg maps, vector quantization, and mixture modeling, IEEE
Transactions on Neural Networks, 12 : ppl299— 1305, 2001. 等に記載の手法を用いて実施することができる。
[0058] 競合層 30 * 30 (ユニット)、近傍距離 10、学習率 0. 3の SOMを用いて、 X平均値 、 Y平均値、 X共分散行列、 Y共分散行列、 XY共分散行列、そして、密度の 6個で構 成された実数の混合分布モデルパラメータを入力層に加えクラスタリングを行った。こ のクラスタリング結果を 2次マップとして類似検索に用いた。この時、各クラス間におけ る全ての組み合わせの類似距離を求めておき、クラス間距離マスターに登録した。
[0059] (4)類似検索
被検検体の各分画に属するクラスを 2次マップから求め、クラス間距離マスターを読 み込み、検索の目的にあわせて閾値を決定し、その条件に一致するクラス群を検索 した。閾値を可変することにより、検索の類似性の強度を自由に選択できるようにし、 さらに、閾値に含まれる領域のクラス群について選言条件で検索することにより類似 検索を実現した。各分画の総合的なパターンについての検索を行いたい場合は、そ れぞれの分画に属するクラスの連言により検索することとした。
[0060] 図 3に SOMにより 1次クラスタリングを行った結果を示す。 12 * 12の競合層の内部 を表示したもので、白血球粒度の全体のパターンを 144個にクラスタリングされた結 果が得られた。 [0061] 図 4の上図は、もとの粒度データの 2次元ヒストグラムを示し、 +が初期値、 X力 ¾M アルゴリズムにより最適尤度の探索が行われた経路と収束点を示す。図 4の下図は、 得られた混合分布パラメータを用いて各分画成分を合成して再描画を行ったモデル 化された 2次元ヒストグラムである。
[0062] 図 5は、 EMアルゴリズムにより得られた個々の混合分布モデルパラメータを SOM でクラスタリングした結果を示す。赤で描画した楕円形の成分は、 1成分の細胞の分 画を示し、周囲に類似したパターンが配置された結果が得られた。それぞれの細胞 群についてさまざまなパターンが存在していることが理解できる。ピンク色 1はリンパ 球、黄色 2は単球、水色 3で示す領域は好中球、紫色 4は好酸球の分布結果が得ら れた。文字どおりの LMNEチャンネルの 4つの細胞群がクラスタリングされた結果を 得た。さらに、リンパ球の下部に分布した白色領域は血小板がマッピングされており、 その他の白色部分と各細胞群の境界領域には異常細胞と考えられる分布がマツピン グされた。図 5と図 6に示した細胞群は、左上の角を ClassOとし、右下の角を Class8 99としたラスター方向のシーケンシャル番号で呼ぶことにした。
[0063] 図 6は、好中球領域に分布する桿状核球と分葉核球の分布を示す。顕微鏡による 目視分類結果より Classl20は桿状核球がどのクラスよりも多いクラスで、 Class351 は、分葉核球が多い症例のクラスである。黄色 31 (左)のダラディエーシヨン領域は、 核左方移動が著明な桿状核球が一番多く含まれる症例群であった Classl20を中心 とした類似距離のパターンを色の強度で表現した分布である。また、青色 32 (右)の ダラディエーシヨン領域は、分葉核球が一番多力つた Class351を中心としたパター ンを示している。
[0064] 図 7は、 Class351を基準とした分葉核球の分布を拡大した図である。幅広い範囲 で類似検索を行いたい場合、赤線で囲んだ領域のクラスを対象に検索し、類似性が 強い細胞の検索を行いたい場合は、緑線、あるいは、青線で囲まれた領域のクラスを 検索することで検索対象の絞込みが可能となった。
[0065] 図 6で示した桿状核球(Classl20)と分葉核球(Class351)との視覚的な境界面は 、滑らかなダラディエーシヨンで結合されており、類似性の境界が不明瞭であることを 示している。これは、桿状核球と分葉核球が同じ好中球に属することから、細胞の分 化度の視点力も見た類似性がマップ上でクラスタリングができて 、ることを示唆して ヽ る。一方、 Class351の分葉核球とリンパ球領域との境界はダラディエーシヨンの少な い明瞭な境界面が観察され、これらの細胞群はマップ上で明確に分離できることを示 している。図 8は、好酸球の Class801を基準とした各クラスの距離をプロットした図で ある。縦軸は、 Class801からの距離、横軸は、距離の少ない順にソートしたクラスで ある。距離が 1以下は同じ好酸球が分布しており、距離の閾値を可変することで、検 索対象の類似性を可変できることを示している。また、細胞ごとに階段状の曲線が得 られ、好中球の分葉核球と桿状核球が単球で分断されて ヽる興味深 ヽ結果が得ら れた。これは、基準となる細胞によってさまざまなパターンとなる傾向があった。
[0066] 白血球の各成分単独、あるいは、各成分を統合した類似性に関して、類似性の尺 度を自由に可変できる類似検索システムを構築した。 EMアルゴリズムは、事前に SO Mによりクラスタリングしたパターンで初期値を決定することにより、正しい収束結果が 得られた。また、臨床検査領域のフローサイトメトリーで桿状核球と分葉核球の分離 は不可能であつたが、本法を用いることで容易に分離することが可能となり、診断や 治療に有用な情報を提供するシステムを構築することができた。
[0067] 以上本発明にかかる一実施例について図面を参照して詳述してきた力 具体的な 構成例はこの一実施例に限られるものではなぐ本発明の要旨を逸脱しない範囲の 設計変更等があっても本発明に含まれる。
[0068] 例えば、前述した一実施例にお!、ては、類似パターン検索装置 1で白血球粒度パ ターンの類似性を検索することとしたが、本発明はこれに限られるものではなぐ一次 元の蛋白電気泳動波形や血球ヒストグラム等の被検検体パターンの類似性を検索す ることもでき、各種の被検検体パターンの類似性を検索することができる。また、被検 検体パターンは、上述した白血球粒度パターンのような 2次元の情報に限られるもの ではなぐ 1次元の情報や多次元の情報(時間軸を含む)についても適用可能である 。図 9は、類似パターン検索装置 1で蛋白電気泳動波形について SOMにより 1次クラ スタリングを行った結果得られた 1次クラスマップの一例を示す図である。図 10は類 似パターン検索装置 1で血球ヒストグラムについて SOMにより 1次クラスタリングを行 つた結果得られた 1次クラスマップの一例を示す図である。 [0069] また、前述した一実施例においては、類似パラメータ検索装置 1の機能を実現する ためのプログラムを図 11に示したコンピュータ読み取り可能な記録媒体 60に記録し て、この記録媒体 60に記録されたプログラムを同図に示したコンピュータ 50に読み 込ませ、実行することにより各機能を実現してもよい。
[0070] 同図に示したコンピュータ 50は、上記プログラムを実行する CPU (Central Proce ssing Unit) 51と、キーボード、マウス等の入力装置 52と、各種データを記憶する R OM (Read Only Memory) 53と、演算パラメータ等を記憶する RAM (Random Access Memory) 54と、記録媒体 60からプログラムを読み取る読取装置 55と、デ イスプレイ、プリンタ等の出力装置 56とから構成されている。
[0071] CPU51は、読取装置 55を経由して記録媒体 60に記録されているプログラムを読 み込んだ後、プログラムを実行することにより、前述した機能を実現する。なお、記録 媒体 60としては、光ディスク、フレキシブルディスク、ハードディスク等が挙げられる。 産業上の利用可能性
[0072] 以上のように、本発明に力かる類似パターン検索装置は、各成分を統合した類似 性に関して、類似性の尺度を自由に可変できるため、診断や治療に有用な情報を提 供することができる。

Claims

請求の範囲
[1] 複数のパターンを含む集団の中から、被検検体のパターンと類似性の高 、パター ンを検索する類似パターン検索装置であって、
前記複数のパターンに各々含まれる複数の成分分画を特徴づけるモデルパラメ一 タを選択し、前記複数のパターンに対してクラスタリングを行って作成されたクラスマ ップを記憶する記憶手段と、
前記被検検体のパターンに含まれる成分分画に類似するクラスを前記クラスマップ の中から選択する類似パターン検索手段と、
を備えたことを特徴とする類似パターン検索装置。
[2] 前記パターンは、 1次元または多次元のパターンであることを特徴とする請求項 1に 記載の類似パターン検索装置。
[3] 前記パターンは、白血球粒度パターン、蛋白電気泳動波形、または血球ヒストグラ ムであることを特徴とする請求項 2に記載の類似パターン検索装置。
[4] 複数のパターンを含む集団の中から、被検検体のパターンと類似性の高 、パター ンを検索する類似パターン検索方法であって、
前記複数のパターンに各々含まれる複数の成分分画を特徴づけるモデルパラメ一 タを選択し、前記複数のパターンにクラスタリングを行ってクラスマップを作成するクラ スマップ作成工程と、
前記クラスマップ作成工程で作成されたクラスマップを記憶する記憶工程と、 前記被検検体のパターンに含まれる成分分画に類似するクラスを前記クラスマップ の中から選択する類似パターン検索工程と、
を含むことを特徴とする類似パターン検索方法。
[5] 複数のパターンを含む集団の中から、被検検体のパターンと類似性の高 、パター ンを検索する類似パターン検索方法をコンピュータに実行させるためのプログラムで あって、
前記複数のパターンに各々含まれる複数の成分分画を特徴づけるモデルパラメ一 タを選択し、前記複数のパターンにクラスタリングを行ってクラスマップを作成するクラ スマップ作成工程と、 前記クラスマップ作成工程で作成されたクラスマップを記憶する記憶工程と、 前記被検検体のパターンに含まれる成分分画に類似するクラスを前記クラスマップ の中から選択する類似パターン検索工程と、
をコンピュータに実行させることを特徴とする類似パターン検索プログラム。
[6] 複数の白血球粒度パターンを含む集団の中から、被検検体の白血球粒度パター ンと類似性の高 、パターンを持つ白血球粒度パターンを検索する類似パターン検索 装置であって、
前記白血球粒度パターンは、複数の細胞成分分画を含み、
実測して得られた複数の前記白血球粒度パターンに自己組織化マップを適用して クラスタリングを行い、 1次クラスマップを作成する 1次クラスタリング手段と、
前記 1次クラスマップに含まれる各パターンにつ 、て、所定の初期値を用いて EM アルゴリズムを実行することにより、前記各パターンに含まれる細胞成分の成分数、な らびに、各細胞成分の平均値、分散および密度からなる第 1の混合分布モデルパラ メータを決定する第 1のパラメータ決定手段と、
前記各白血球粒度パターンについて、前記第 1の混合分布モデルパラメータを初 期値として EMアルゴリズムを実行することにより、前記各白血球粒度パターンに含ま れる細胞成分の成分数、ならびに、各細胞成分の平均値、分散および密度からなる 第 2の混合分布モデルパラメータを決定する第 2のパラメータ決定手段と、
前記各白血球粒度パターンについて、前記第 2の混合分布モデルパラメータに自 己組織ィ匕マップを適用してクラスタリングを行 、、 2次クラスマップを作成する 2次クラ スタリング手段と、
前記 2次クラスマップに含まれる各クラス間におけるすべての組合せの類似距離を 計算し、クラスの組合せと当該クラス間の類似距離とを対応させたクラス間距離マスタ 一を作成するクラス間距離マスター作成手段と、
前記 2次クラスマップと前記クラス間距離マスターを記憶する記憶手段と、 被検検体の白血球粒度パターンに含まれる各細胞成分分画に属するクラスを前記 2次クラスマップの中から決定するクラス決定手段と、
前記クラス決定工程で決定されたクラスとの類似距離が所定の閾値以下であるクラ スを前記クラス間距離マスターの中から類似クラスとして検出し、当該類似クラスに含 まれる白血球粒度パターンを、前記被検検体の白血球粒度パターンと類似性の高い パターンとして判定する類似パターン検索手段と、
を備えたことを特徴とする類似パターン検索装置。
[7] 複数の白血球粒度パターンを含む集団の中から、被検検体の白血球粒度パター ンと類似性の高 、パターンを持つ白血球粒度パターンを検索する類似パターン検索 方法であって、
前記白血球粒度パターンは、複数の細胞成分分画を含み、
実測して得られた複数の前記白血球粒度パターンに自己組織化マップを適用して クラスタリングを行い、 1次クラスマップを作成する 1次クラスタリング工程と、
前記 1次クラスマップに含まれる各パターンにつ 、て、所定の初期値を用いて EM アルゴリズムを実行することにより、前記各パターンに含まれる細胞成分の成分数、な らびに、各細胞成分の平均値、分散および密度からなる第 1の混合分布モデルパラ メータを決定する第 1のパラメータ決定工程と、
前記各白血球粒度パターンについて、前記第 1の混合分布モデルパラメータを初 期値として EMアルゴリズムを実行することにより、前記各白血球粒度パターンに含ま れる細胞成分の成分数、ならびに、各細胞成分の平均値、分散および密度からなる 第 2の混合分布モデルパラメータを決定する第 2のパラメータ決定工程と、
前記各白血球粒度パターンについて、前記第 2の混合分布モデルパラメータに自 己組織ィ匕マップを適用してクラスタリングを行 、、 2次クラスマップを作成する 2次クラ スタリング工程と、
前記 2次クラスマップに含まれる各クラス間におけるすべての組合せの類似距離を 計算し、各クラスの組合せと当該クラス間の類似距離とを対応させたクラス間距離マ スターを作成するクラス間距離マスター作成工程と、
前記 2次クラスマップと前記クラス間距離マスターを記憶する記憶工程と、 被検検体の白血球粒度パターンに含まれる各細胞成分分画に属するクラスを前記 2次クラスマップの中力 決定するクラス決定工程と、
前記クラス決定工程で決定されたクラスとの類似距離が所定の閾値以下であるクラ スを前記クラス間距離マスターの中から類似クラスとして検出し、当該類似クラスに含 まれる白血球粒度パターンを、前記被検検体の白血球粒度パターンと類似性の高い パターンとして判定する類似パターン検索工程と、
を含むことを特徴とする類似パターン検索方法。
[8] 複数の白血球粒度パターンを含む集団の中から、被検検体の白血球粒度パター ンと類似性の高 、パターンを持つ白血球粒度パターンを検索する類似パターン検索 方法をコンピュータに実行させるプログラムであって、
前記白血球粒度パターンは、複数の細胞成分分画を含み、
実測して得られた複数の前記白血球粒度パターンに自己組織化マップを適用して クラスタリングを行い、 1次クラスマップを作成する 1次クラスタリング工程と、
前記 1次クラスマップに含まれる各パターンにつ 、て、所定の初期値を用いて EM アルゴリズムを実行することにより、前記各パターンに含まれる細胞成分の成分数、な らびに、各細胞成分の平均値、分散および密度からなる第 1の混合分布モデルパラ メータを決定する第 1のパラメータ決定工程と、
前記各白血球粒度パターンについて、前記第 1の混合分布モデルパラメータを初 期値として EMアルゴリズムを実行することにより、前記各白血球粒度パターンに含ま れる細胞成分の成分数、ならびに、各細胞成分の平均値、分散および密度からなる 第 2の混合分布モデルパラメータを決定する第 2のパラメータ決定工程と、
前記各白血球粒度パターンについて、前記第 2の混合分布モデルパラメータに自 己組織ィ匕マップを適用してクラスタリングを行 、、 2次クラスマップを作成する 2次クラ スタリング工程と、
前記 2次クラスマップに含まれる各クラス間におけるすべての組合せの類似距離を 計算し、各クラスの組合せと当該クラス間の類似距離とを対応させたクラス間距離マ スターを作成するクラス間距離マスター作成工程と、
前記 2次クラスマップと前記クラス間距離マスターを記憶する記憶工程と、 被検検体の白血球粒度パターンに含まれる各細胞成分分画に属するクラスを前記 2次クラスマップの中力 決定するクラス決定工程と、
前記クラス決定工程で決定されたクラスとの類似距離が所定の閾値以下であるクラ スを前記クラス間距離マスターの中から類似クラスとして検出し、当該類似クラスに含 まれる白血球粒度パターンを、前記被検検体の白血球粒度パターンと類似性の高い パターンとして判定する類似パターン検索工程と、
をコンピュータに実行させることを特徴とする類似パターン検索プログラム。
[9] 複数の細胞成分分画を含む白血球粒度パターンにおいて各細胞成分分画を分離 する細胞成分分画分離装置であって、
実測して得られた複数の前記白血球粒度パターンに自己組織化マップを適用して クラスタリングを行い、 1次クラスマップを作成する 1次クラスタリング手段と、
前記 1次クラスマップに含まれる各パターンにつ 、て、所定の初期値を用いて EM アルゴリズムを実行することにより、各パターンに含まれる細胞成分の成分数、ならび に、各細胞成分分画の平均値、分散および密度からなる混合分布モデルパラメータ を決定するパラメータ決定手段と、
前記各白血球粒度パターンにつ 、て、前記混合分布モデルパラメータを初期値と して EMアルゴリズムを実行することにより、各白血球粒度パターンに含まれる各細胞 成分の分画を分離する分画分離手段と、
を備えたことを特徴とする分画分離装置。
PCT/JP2004/016841 2003-11-21 2004-11-12 類似パターン検索装置、類似パターン検索方法、類似パターン検索プログラム、および分画分離装置 WO2005050479A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP04818872A EP1686494A4 (en) 2003-11-21 2004-11-12 DEVICE, METHOD AND PROGRAM FOR SEARCHING FOR SIMILAR PATTERNS AND FRACTION DEVICE
US10/580,252 US7697764B2 (en) 2003-11-21 2004-11-12 Similar pattern searching apparatus, method of similar pattern searching, program for similar pattern searching, and fractionation apparatus
JP2005515594A JP4521490B2 (ja) 2003-11-21 2004-11-12 類似パターン検索装置、類似パターン検索方法、類似パターン検索プログラム、および分画分離装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003392845 2003-11-21
JP2003-392845 2003-11-21

Publications (1)

Publication Number Publication Date
WO2005050479A1 true WO2005050479A1 (ja) 2005-06-02

Family

ID=34616468

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/016841 WO2005050479A1 (ja) 2003-11-21 2004-11-12 類似パターン検索装置、類似パターン検索方法、類似パターン検索プログラム、および分画分離装置

Country Status (4)

Country Link
US (1) US7697764B2 (ja)
EP (1) EP1686494A4 (ja)
JP (1) JP4521490B2 (ja)
WO (1) WO2005050479A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008191467A (ja) * 2007-02-06 2008-08-21 Nippon Hoso Kyokai <Nhk> 混合モデル初期値算出装置及び混合モデル初期値算出プログラム
JP2009210465A (ja) * 2008-03-05 2009-09-17 Yamaguchi Univ がん細胞を分類する方法、がん細胞を分類するための装置及びがん細胞を分類するためのプログラム
US7716169B2 (en) 2005-12-08 2010-05-11 Electronics And Telecommunications Research Institute System for and method of extracting and clustering information
JP2010122137A (ja) * 2008-11-21 2010-06-03 Kochi Univ 血球分析装置、血球分析方法及びコンピュータプログラム
WO2014112567A1 (ja) * 2013-01-17 2014-07-24 国立大学法人 東京大学 細胞群分類装置及び、細胞群分類方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7299135B2 (en) * 2005-11-10 2007-11-20 Idexx Laboratories, Inc. Methods for identifying discrete populations (e.g., clusters) of data within a flow cytometer multi-dimensional data set
EP2105863B1 (en) * 2008-03-28 2017-09-13 Cytognos, S.L. Method and system for the automatic classification of events acquired by a flow cytometer
US8349256B2 (en) * 2008-11-21 2013-01-08 Sysmex Corporation Blood cell analyzer, blood cell analyzing method, and computer program product
US8363922B2 (en) * 2009-02-12 2013-01-29 International Business Machines Corporation IC layout pattern matching and classification system and method
US9522396B2 (en) 2010-12-29 2016-12-20 S.D. Sight Diagnostics Ltd. Apparatus and method for automatic detection of pathogens
US8989514B2 (en) * 2011-02-03 2015-03-24 Voxeleron Llc Method and system for image analysis and interpretation
EP2786311A4 (en) 2011-11-29 2016-08-17 Nokia Technologies Oy METHOD, APPARATUS AND COMPUTER PROGRAM PRODUCT FOR CLASSIFYING OBJECTS
WO2013098821A1 (en) 2011-12-29 2013-07-04 Parasight Ltd. Methods and systems for detecting a pathogen in a biological sample
SI2911699T1 (en) * 2012-10-23 2018-04-30 Synaffix B.V. MODIFIED AGAINST, PROTITELO-KONJUGAT AND PROCESS FOR THEIR PREPARATION
EP2999988A4 (en) 2013-05-23 2017-01-11 S.D. Sight Diagnostics Ltd. Method and system for imaging a cell sample
IL227276A0 (en) 2013-07-01 2014-03-06 Parasight Ltd A method and system for obtaining a monolayer of cells, for use specifically for diagnosis
WO2015029032A1 (en) 2013-08-26 2015-03-05 Parasight Ltd. Digital microscopy systems, methods and computer program products
WO2016030897A1 (en) 2014-08-27 2016-03-03 S.D. Sight Diagnostics Ltd System and method for calculating focus variation for a digital microscope
EP3859425B1 (en) 2015-09-17 2024-04-17 S.D. Sight Diagnostics Ltd. Methods and apparatus for detecting an entity in a bodily sample
WO2017168411A1 (en) 2016-03-30 2017-10-05 S.D. Sight Diagnostics Ltd Image processing device for identifying blood parasites
CN109564209B (zh) 2016-05-11 2022-05-31 思迪赛特诊断有限公司 对样品实施的光学测量
EP3455610B1 (en) 2016-05-11 2023-01-04 S.D. Sight Diagnostics Ltd. Sample carrier for optical measurements
CN106644897A (zh) * 2016-10-14 2017-05-10 北京海岸鸿蒙标准物质技术有限责任公司 一种用于颗粒计数标准物质的计数装置
CN111788471B (zh) 2017-11-14 2023-12-12 思迪赛特诊断有限公司 用于光学测量的样品载体
US20220076114A1 (en) * 2020-09-04 2022-03-10 NEC Laboratories Europe GmbH Modular-related methods for machine learning algorithms including continual learning algorithms
CN117787864B (zh) * 2023-12-27 2024-10-15 石家庄博瑞迪生物技术有限公司 一种动物组织采样管溯源入库管理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6073356A (ja) * 1983-09-29 1985-04-25 Toa Medical Electronics Co Ltd 血液分析用試薬
JP4136017B2 (ja) * 1996-09-19 2008-08-20 シスメックス株式会社 粒子分析装置
KR101106201B1 (ko) 2003-07-18 2012-01-20 고치 유니버시티 임상검사분석장치, 임상검사분석방법 및 그 방법을 컴퓨터에 실행시키는 프로그램을 저장하는 컴퓨터 판독 가능한 기록매체
GB2411369B (en) 2004-02-27 2007-02-14 Dynamic Proc Solutions Ltd Cyclone assembly and method for increasing or decreasing flow capacity of a cyclone separator in use

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
BODDY L ET AL., PATTERN RECOGNITION IN FLOW CYTOMETRY, vol. 44, no. 3, 1 July 2001 (2001-07-01), pages 195 - 209
HUJUN YIN ET AL.: "IEEE Transactions on Neural Networks", vol. 12, 1 March 2001, IEEE SERVICE CENTER, article "Self-Organizing Mixture Networks for Probability Density Estimation"
IOKI H. ET AL.: "Data mining shuho o mochiita kesshoban ryudo data karano shorei tansaku", JAPANESE JOURNAL OF CLINICAL LABORATORY AUTOMATION, vol. 27, no. 4, 1 August 2002 (2002-08-01), pages 584, XP002989336 *
IOKI H. ET AL.: "Hakkekkyu ryudo data ni yoru allergy shikkan ryoiki no pattern bunrui", IRYO JOHOGAKU RENGO TAIKAI RONBUNSHU, vol. 22, 14 November 2002 (2002-11-14), pages 211 - 212, XP002989337 *
KATAOKA H. ET AL.: "A Data Mining System for Protein Electrophoresis Waveforms", JAPANESE JOURNAL OF CLINICAL LABORATORY AUTOMATION, vol. 26, no. 3, 1 June 2001 (2001-06-01), pages 170 - 175, XP002985383 *
KATAOKA H. ET AL.: "Doteki keikakuho - SOM ni motozuku ruiji hakei kensaku system", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 42, no. SIG010, 15 September 2001 (2001-09-15), pages 92 - 99, XP002989332 *
KATAOKA H. ET AL.: "Jiko soshikika map doteki keikakuho o mochiita tanpaku denki eido hakei no ruiji kensaku", JAPAN JOURNAL OF MEDICAL INFORMATION, no. 20, 23 November 2000 (2000-11-23), pages 394 - 395, XP002989334 *
KATAOKA H. ET AL.: "Jiko soshikika map o mochiita tanpaku eido hakei no ruiji kensaku", JAPANESE JOURNAL OF CLINICAL LABORATORY AUTOMATION, vol. 25, no. 4, 1 August 2000 (2000-08-01), pages 408, XP002989333 *
KATAOKA H. ET AL.: "Kongo mitsudo kinji oyobi clustering ni motozuku hakkekkyu ryudo no ruiji kensaku", IRYO JOHOGAKU RENGO TAIKAI RONBUNSHU, vol. 23, 22 November 2003 (2003-11-22), pages 447 - 450, XP002989338 *
See also references of EP1686494A4
TOM HESKES: "IEEE Transactions on Neural Networks", vol. 12, 1 November 2001, IEEE SERVICE CENTER, article "Self-Organizing Maps, Vector Quantization, and Mixture Modelling"
WILKINS, MF ET AL.: "Cabios Computer Applications in the Biosciences", vol. 12, 1 January 1996, IRL PRESS, article "A comparison of some neural and non- neural methods for identification of phytoplankton from flow cytometry data", pages: 9 - 18

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716169B2 (en) 2005-12-08 2010-05-11 Electronics And Telecommunications Research Institute System for and method of extracting and clustering information
JP2008191467A (ja) * 2007-02-06 2008-08-21 Nippon Hoso Kyokai <Nhk> 混合モデル初期値算出装置及び混合モデル初期値算出プログラム
JP2009210465A (ja) * 2008-03-05 2009-09-17 Yamaguchi Univ がん細胞を分類する方法、がん細胞を分類するための装置及びがん細胞を分類するためのプログラム
JP2010122137A (ja) * 2008-11-21 2010-06-03 Kochi Univ 血球分析装置、血球分析方法及びコンピュータプログラム
WO2014112567A1 (ja) * 2013-01-17 2014-07-24 国立大学法人 東京大学 細胞群分類装置及び、細胞群分類方法

Also Published As

Publication number Publication date
EP1686494A4 (en) 2011-07-27
US20070133855A1 (en) 2007-06-14
JPWO2005050479A1 (ja) 2007-06-14
US7697764B2 (en) 2010-04-13
JP4521490B2 (ja) 2010-08-11
EP1686494A1 (en) 2006-08-02

Similar Documents

Publication Publication Date Title
WO2005050479A1 (ja) 類似パターン検索装置、類似パターン検索方法、類似パターン検索プログラム、および分画分離装置
KR102469620B1 (ko) 생물학적 입자의 분류 시스템 및 방법
Saraswat et al. Automated microscopic image analysis for leukocytes identification: A survey
CN106248559B (zh) 一种基于深度学习的白细胞五分类方法
US7043500B2 (en) Subtractive clustering for use in analysis of data
JPS6171337A (ja) フローサイトメトリー法を用いる粒子の検出および分類のための装置および方法
KR100303608B1 (ko) 혈구세포자동인식방법및장치
CN106228554B (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
CN113658174B (zh) 基于深度学习和图像处理算法的微核组学图像检测方法
CN111062296B (zh) 一种基于计算机的白细胞自动识别分类方法
CN112365471B (zh) 基于深度学习的宫颈癌细胞智能检测方法
CN116580394A (zh) 一种基于多尺度融合和可变形自注意力的白细胞检测方法
Naqvi et al. Feature quality-based dynamic feature selection for improving salient object detection
CN115270874A (zh) 一种基于密度估计的流式细胞分类和计数的方法和系统
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
US20220207895A1 (en) Cytometry data analysis
Rathore et al. CBISC: a novel approach for colon biopsy image segmentation and classification
JPH0584544B2 (ja)
Bazoon et al. A hierarchical artificial neural network system for the classification of cervical cells
CN109886332A (zh) 基于对称邻居关系的改进dpc聚类算法及系统
CN111723737B (zh) 一种基于多尺度匹配策略深度特征学习的目标检测方法
Othman et al. Segmentation and feature extraction of lymphocytes WBC using microscopic images
Gelsema et al. Application of the method of multiple thresholding to white blood cell classification
Huque Shape Analysis and Measurement for the HeLa cell classification of cultured cells in high throughput screening
Nattkemper et al. Extracting patterns of lymphocyte fluorescence from digital microscope images

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005515594

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2004818872

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007133855

Country of ref document: US

Ref document number: 10580252

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWP Wipo information: published in national office

Ref document number: 2004818872

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10580252

Country of ref document: US