WO2021192750A1 - 情報処理システム、情報処理装置及び情報処理方法 - Google Patents

情報処理システム、情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2021192750A1
WO2021192750A1 PCT/JP2021/006046 JP2021006046W WO2021192750A1 WO 2021192750 A1 WO2021192750 A1 WO 2021192750A1 JP 2021006046 W JP2021006046 W JP 2021006046W WO 2021192750 A1 WO2021192750 A1 WO 2021192750A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
sample
data
difference
information
Prior art date
Application number
PCT/JP2021/006046
Other languages
English (en)
French (fr)
Inventor
悠二 西牧
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2022509412A priority Critical patent/JPWO2021192750A1/ja
Priority to CN202180021071.8A priority patent/CN115280133A/zh
Priority to EP21775473.8A priority patent/EP4130712A4/en
Priority to US17/912,655 priority patent/US20230138514A1/en
Publication of WO2021192750A1 publication Critical patent/WO2021192750A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Electro-optical investigation, e.g. flow cytometers
    • G01N15/1434Electro-optical investigation, e.g. flow cytometers using an analyser being characterised by its optical arrangement
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Electro-optical investigation, e.g. flow cytometers
    • G01N15/1429Electro-optical investigation, e.g. flow cytometers using an analyser being characterised by its signal processing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Electro-optical investigation, e.g. flow cytometers
    • G01N15/1456Electro-optical investigation, e.g. flow cytometers without spatial resolution of the texture or inner structure of the particle, e.g. processing of pulse signals
    • G01N15/1459Electro-optical investigation, e.g. flow cytometers without spatial resolution of the texture or inner structure of the particle, e.g. processing of pulse signals the analysis being performed on a sample stream
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Electro-optical investigation, e.g. flow cytometers
    • G01N15/1468Electro-optical investigation, e.g. flow cytometers with spatial resolution of the texture or inner structure of the particle
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N2015/1006Investigating individual particles for cytology
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Electro-optical investigation, e.g. flow cytometers
    • G01N15/1468Electro-optical investigation, e.g. flow cytometers with spatial resolution of the texture or inner structure of the particle
    • G01N2015/1472Electro-optical investigation, e.g. flow cytometers with spatial resolution of the texture or inner structure of the particle with colour
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Electro-optical investigation, e.g. flow cytometers
    • G01N2015/1477Multiparameters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2610/00Assays involving self-assembled monolayers [SAMs]
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound

Definitions

  • This disclosure relates to an information processing system, an information processing device, and an information processing method.
  • flow cytometers may be used to quickly measure the properties of large amounts of fine particles.
  • the flow cytometer is a measuring device using an analysis method called flow cytometry, which irradiates fine particles such as cells flowing through a flow cell with light and detects fluorescence emitted from the fine particles.
  • the fluorescence signal is multicolored to enable detailed analysis of cells.
  • a spectral type flow cytometer has been developed.
  • a spectroscopic element such as a prism or a grating is used to disperse light emitted from fine particles such as cells labeled with a plurality of fluorescent dyes.
  • the dispersed light is detected by a light receiving element array in which a plurality of light receiving elements having different detection wavelength ranges are arranged. Then, by collecting the detected values of each light receiving element, the measurement spectrum of the measurement target such as a cell is acquired.
  • Such a spectral type flow cytometer has an advantage that it can be used as analysis information without leaking fluorescence information, as compared with a filter method in which fluorescence is separated and detected for each wavelength region using an optical filter. ..
  • this disclosure proposes an information processing system, an information processing device, and an information processing method capable of reducing the amount of data.
  • the information processing system includes an excitation light source that irradiates each of a plurality of samples belonging to the sample group with excitation light, a measurement unit that measures fluorescence generated by irradiating the sample with the excitation light, and each of the samples. It is provided with an information processing unit that generates difference data based on the difference between similar fluorescence signals among the fluorescence signals based on the fluorescence measured for.
  • FIG. 1st Embodiment It is a schematic diagram which shows the schematic structure example of the flow cytometer used in 1st Embodiment. It is a block diagram which shows the schematic structure example of the flow cytometer shown in FIG. It is a block diagram which shows the schematic structure example of the information processing system which concerns on 1st Embodiment. It is a figure for demonstrating the unmixing which concerns on 1st Embodiment. It is a figure which shows the data structure example of the sample group which holds the fluorescence spectrum which concerns on 1st Embodiment. It is a figure which shows the data structure example of the sample group which holds the fluorescent dye information which concerns on 1st Embodiment.
  • the flow cytometer may be an apparatus for individually analyzing samples by using an analysis method called flow cytometry.
  • a sample is labeled with a fluorescent reagent that emits light under specific conditions, and the light emitted when the excitation light is applied is collected as fluorescence information. Cells can be analyzed from this fluorescence information.
  • the fluorescence emitted from the sample is divided and extracted according to the wavelength range, and the data obtained by measuring it is the information related to the fluorescent dye (the following fluorescent dye information). Equivalent to).
  • the light emitted from the sample is emitted by separating the fluorescence for each wavelength with a spectroscope composed of prisms and measuring the light intensity for each wavelength without using an optical filter.
  • measurement spectrum is acquired.
  • this measurement spectrum is separated for each fluorescent dye by a process called spectrum unmixing (hereinafter, simply referred to as unmixing) using a fluorescence spectrum reference.
  • Unmixing is a method of obtaining fluorescent dye information for each fluorescent dye from the measurement spectrum by approximating the measurement spectrum obtained by a spectral type flow cytometer with the linear sum of the fluorescence spectra for each fluorescent dye.
  • the fluorescent dye information for each fluorescent dye generated by this unmixing is used for analysis of samples such as cells.
  • the fluorescence signal in this description may be defined as a concept including both the measurement spectrum and the fluorescent dye information.
  • the fluorescence spectrum for each fluorescent dye is referred to as a fluorescence spectrum reference.
  • This fluorescence spectrum reference is a spectrum obtained from a sample labeled with a single fluorochrome and may include an autofluorescence spectrum obtained from an unlabeled sample.
  • the fluorescence spectrum reference may be acquired by a spectrum type flow cytometer, or a catalog value or the like provided by the provider of the fluorescence dye may be used.
  • a spectrum type flow cytometer capable of acquiring both a measurement spectrum and fluorescent dye information is exemplified, but the present invention is not limited to this, and a general flow cytometer that acquires fluorescent dye information is used. It can also be used.
  • the flow cytometer has a microchip method, a droplet method, a cuvette method, a flow cell method, and the like as a sample supply method to an observation point (hereinafter referred to as a spot) on the flow path.
  • a microchip type partly, flow cell type
  • the present invention is not limited to this, and other supply type flow cytometers may be used.
  • an analyzer type for the purpose of analyzing samples of cells and the like
  • a cell sorter type for the purpose of analyzing the sample and collecting the sample.
  • an analyzer type flow cytometer is illustrated, but the present invention is not limited to this, and a cell sorter type flow cytometer may be used.
  • the present disclosure is not limited to a flow cytometer, and may be various optical measuring devices that irradiate a sample with excitation light and analyze the sample based on its fluorescence, for example, a tissue section on a slide. It may be a microscope or the like that acquires an image of a sample.
  • FIG. 1 is a schematic diagram showing a schematic configuration example of the spectral type flow cytometer (hereinafter, simply referred to as a flow cytometer) used in the present embodiment.
  • FIG. 2 is a block diagram showing a schematic configuration example of the flow cytometer shown in FIG. For convenience of drawing, some optical elements are omitted in each of FIGS. 1 and 2.
  • the flow cytometer 1 includes a light source unit 100, a demultiplexing optical system 150, a scattered light detection unit 130, and a fluorescence detection unit 140, and is a microchip. 120 is used to detect light from a sample fed over a predetermined flow path.
  • the sample is, for example, a biological particle such as a cell, a microorganism, or a biological particle, and includes a group of a plurality of biological particles.
  • Samples include, for example, animal cells (eg, blood cell lines), cells such as plant cells, bacteria such as Escherichia coli, viruses such as tobacco mosaic virus, or microorganisms such as yeast, chromosomes, liposomes, etc.
  • Bio-related particles that make up cells such as mitochondria, exosomes, or various organelles (organelles), or bio-derived microparticles such as bio-related polymers such as nucleic acids, proteins, lipids, sugar chains, or complexes thereof. There may be.
  • the sample shall widely include synthetic particles such as latex particles, gel particles, and industrial particles.
  • the industrial particles may be, for example, an organic or inorganic polymer material, a metal, or the like.
  • Organic polymer materials include polystyrene, styrene / divinylbenzene, polymethylmethacrylate and the like.
  • Inorganic polymer materials include glass, silica, magnetic materials and the like.
  • Metals include colloidal gold, aluminum and the like. The shape of these particles is generally spherical, but may be non-spherical, and the size and mass are not particularly limited.
  • the sample is labeled (stained) with one or more fluorescent dyes.
  • Labeling of the sample with a fluorescent dye can be performed by a known method.
  • the sample is a cell
  • a fluorescently labeled antibody that selectively binds to an antigen present on the cell surface and a cell to be measured are mixed, and the fluorescently labeled antibody is bound to the antigen on the cell surface.
  • the cell to be measured can be labeled with a fluorescent dye.
  • a fluorescently labeled antibody is an antibody to which a fluorescent dye is bound as a label.
  • the fluorescently labeled antibody may be a biotin-labeled antibody bound to a fluorescent dye to which avidin is bound by an avidin-biodin reaction.
  • the fluorescently labeled antibody may be one in which a fluorescent dye is directly bound to the antibody.
  • the antibody either a polyclonal antibody or a monoclonal antibody can be used.
  • the fluorescent dye for labeling the sample is not particularly limited, and at least one or more known dyes used for staining cells and the like can be used.
  • the light source unit 100 includes, for example, one or more (three in this example) excitation light sources 101 to 103, a total reflection mirror 111, a dichroic mirror 112 and 113, and a total reflection mirror 115. It includes an objective lens 116.
  • the total reflection mirror 111, the dichroic mirrors 112 and 113, and the total reflection mirror 115 constitute a waveguide optical system that guides the excitation lights L1 to L3 emitted from the excitation light sources 101 to 103 on a predetermined optical path. do.
  • the objective lens 116 constitutes a condensing optical system that focuses the excitation lights L1 to L3 propagating on the predetermined optical path onto the spot 123a set on the flow path in the microchip 120.
  • the number of spots 123a is not limited to one, that is, the excitation lights L1 to L3 may be focused on different spots. Further, the focusing positions of the excitation lights L1 to L3 do not have to coincide with the spots 123a, and may be displaced back and forth on the respective optical axes.
  • the excitation light sources 101 to 103 that emit excitation lights L1 to L3 having different wavelengths are provided.
  • a laser light source that emits coherent light may be used.
  • the excitation light source 102 may be a DPSS laser (Diode Pumped Solid State Laser: semiconductor laser excited solid-state laser) that irradiates a blue laser beam (peak wavelength: 488 nm (nanometer), output: 20 mW).
  • DPSS laser Diode Pumped Solid State Laser: semiconductor laser excited solid-state laser
  • the excitation light source 101 may be a laser diode that irradiates a red laser beam (peak wavelength: 637 nm, output: 20 mW), and similarly, the excitation light source 103 may be a near-ultraviolet laser beam (peak wavelength: 405 nm, output). : It may be a laser diode that irradiates 8 mW). Further, the excitation lights L1 to L3 emitted by the excitation light sources 101 to 103 may be pulsed light.
  • the total reflection mirror 111 for example, totally reflects the excitation light L1 emitted from the excitation light source 101 in a predetermined direction.
  • the dichroic mirror 112 is an optical element for aligning or paralleling the optical axis of the excitation light L1 reflected by the total reflection mirror 111 with the optical axis of the excitation light L2 emitted from the excitation light source 102.
  • the excitation light L1 from the reflection mirror 111 is transmitted, and the excitation light L2 from the excitation light source 102 is reflected.
  • a dichroic mirror designed to transmit light having a wavelength of 637 nm and reflect light having a wavelength of 488 nm may be used.
  • the dichroic mirror 113 is an optical element for aligning or paralleling the optical axes of the excitation lights L1 and L2 from the dichroic mirror 112 with the optical axes of the excitation light L3 emitted from the excitation light source 103.
  • the excitation light L1 from the reflection mirror 111 is transmitted, and the excitation light L3 from the excitation light source 103 is reflected.
  • a dichroic mirror designed to transmit light having a wavelength of 637 nm and light having a wavelength of 488 nm and to reflect light having a wavelength of 405 nm may be used.
  • the excitation lights L1 to L3 finally collected as light traveling in the same direction by the dichroic mirror 113 are totally reflected by the total reflection mirror 115 and incident on the objective lens 116.
  • a beam shaping unit for converting the excitation lights L1 to L3 into parallel light may be provided on the optical path from the excitation light sources 101 to 103 to the objective lens 116.
  • the beam shaping unit may be composed of, for example, one or more lenses, mirrors, and the like.
  • the objective lens 116 focuses the incident excitation lights L1 to L3 on a predetermined spot 123a on the flow path in the microchip 120, which will be described later.
  • excitation lights L1 to L3 which are pulsed lights
  • fluorescence is emitted from the sample and the excitation lights L1 to L3 are scattered by the sample. Scattered light is generated.
  • the component within a predetermined angle range in which the excitation light L1 to L3 travels forward in the traveling direction is referred to as the forward scattered light L12, and the traveling of the excitation light L1 to L3.
  • a component within a predetermined angle range traveling backward in the direction is referred to as backward scattered light, and a component in a direction deviating from the optical axis of the excitation lights L1 to L3 by a predetermined angle is referred to as laterally scattered light.
  • the objective lens 116 has a numerical aperture corresponding to, for example, about 30 ° to 40 ° with respect to the optical axis.
  • fluorescence L13 the component within a predetermined angle range traveling forward in the traveling direction of the excitation light L1 to L3 and the forward scattered light L12 are the front in the traveling direction of the excitation light L1 to L3. It is input to the demultiplexing optical system 150 arranged in.
  • the demultiplexing optical system 150 includes, for example, a filter 151, a collimating lens 152, a dichroic mirror 153, and a total reflection mirror 154 (see FIG. 1).
  • the present invention is not limited to this configuration, and various modifications may be made.
  • the filter 151 arranged on the optical path of the excitation lights L1 to L3 on the downstream side of the microchip 120 is, for example, a part of the excitation lights L1 to L3 (for example, of the light L11 traveling downstream of the microchip 120). , The excitation lights L1 and L3) are selectively blocked.
  • the light traveling downstream from the microchip 120 includes excitation lights L1 to L3 (including these forward scattered lights) and fluorescence L13 emitted from a sample in the microchip 120. Therefore, the filter 151 blocks the components of the excitation lights L1 and L3, and transmits the components of the excitation light L2 (referred to as the forward scattered light L12) and the fluorescence L13.
  • the filter 151 is arranged so as to be tilted with respect to the optical axis of the light L16. As a result, the return light of the light L16 reflected by the filter 151 is prevented from entering the scattered light detection unit 130 or the like via the objective lens 116 or the like.
  • the forward scattered light L12 and the fluorescent L13 that have passed through the filter 151 are converted into collimated light by, for example, the collimated lens 152, and then demultiplexed by the dichroic mirror 153.
  • the dichroic mirror 153 reflects, for example, the forward scattered light L12 of the incident light and transmits the fluorescence L13.
  • the forward scattered light L12 reflected by the dichroic mirror 153 is waved to the scattered light detection unit 130, and the fluorescence L13 transmitted through the dichroic mirror 153 is waved to the fluorescence detection unit 140.
  • the scattered light detection unit 130 includes, for example, a plurality of lenses 131, 133 and 135 that shape the beam cross section of the forward scattered light L12 reflected by the dichroic mirror 153 and the fully reflected mirror 132, and an aperture that adjusts the amount of light of the forward scattered light L12. 137, a mask 134 that selectively transmits light of a specific wavelength (for example, a component of excitation light L2) of the forward scattered light L12, and light that detects incident light that has passed through the mask 134 and the lens 135. It is equipped with a detector 136.
  • a specific wavelength for example, a component of excitation light L2
  • the photodetector 136 is composed of, for example, a two-dimensional image sensor, a photodiode, or the like, and detects the amount and size of light incident through the mask 134 and the lens 135.
  • the signal detected by the photodetector 136 is input to, for example, the information processing device 2 described later.
  • the fluorescence detection unit 140 is, for example, a spectroscopic optical system 141 that disperses the incident fluorescence L13 into dispersed light L14 for each wavelength, and a photodetector that detects the amount of light of the dispersed light L14 for each predetermined wavelength band (also referred to as a channel). It is equipped with 142.
  • the spectroscopic optical system 141 is configured to include, for example, one or more optical elements 141a such as a prism and a diffraction grating, and disperses the incident fluorescence L13 into dispersed light 7L14 emitted from different angles for each wavelength.
  • optical elements 141a such as a prism and a diffraction grating
  • the photodetector 142 may be composed of, for example, a plurality of light receiving units that receive light for each channel.
  • the plurality of light receiving units may be arranged in one row or two or more rows in the spectral direction by the spectroscopic optical system 141.
  • a photoelectric conversion element such as a photomultiplier tube can be used for each light receiving unit.
  • a signal (fluorescent signal) indicating the amount of light of the fluorescence L13 for each channel detected by the photodetector 142 is input to, for example, an information processing device 2 described later.
  • FIG. 3 is a block diagram showing a schematic configuration example of the information processing system according to the present embodiment.
  • the information processing system may be composed of, for example, the above-mentioned flow cytometer 1, information processing device 2, cloud 3, and one or more terminals 4.
  • the information processing device 2 is composed of, for example, a personal computer, a workstation, or the like, and executes acquisition of data detected by the flow cytometer 1 and some analysis work related to a sample to be analyzed. It can correspond to the information processing device 2, for example, an example of the information processing unit in the claims.
  • the information processing device 2 may include a transmitting unit for transmitting various data via a predetermined network and a receiving unit for receiving various data from the predetermined network.
  • the cloud 3 is connected to the information processing device 2 via a predetermined network such as a LAN (Local Area Network), the Internet, or a mobile communication network, and is a sample based on the data transferred from the information processing device 2. Perform a detailed analysis.
  • a predetermined network such as a LAN (Local Area Network), the Internet, or a mobile communication network
  • the terminal 4 is a terminal on the user side in charge of detailed analysis of a sample, which is composed of, for example, a personal computer, a tablet terminal, a smartphone, etc., and gives an analysis instruction to the cloud 3 and an analysis result obtained by the cloud 3. It is a terminal for the user to acquire, browse, etc.
  • FIG. 4 is a diagram for explaining unmixing according to the present embodiment.
  • unmixing is a process of obtaining fluorescent dye information of a sample to be analyzed by approximating the measurement spectrum obtained by the spectral flow cytometer by the linear sum of the fluorescence spectrum references.
  • FIG. 4 shows an example in which the measurement spectra C1 + C2 + C3 + C4 in which the fluorescence spectra C1 to C4 of each of the four fluorescent dyes overlap are separated into the fluorescence spectra C1 to C4 (fluorescent dye information) of each of the four fluorescent dyes.
  • the number of dimensions of the fluorescent dye information is smaller than the number of dimensions of the measurement spectrum. Therefore, the amount of data can be suppressed by converting the measurement spectrum into the fluorescent dye information by unmixing.
  • the number of dimensions is a value corresponding to the number of types of data.
  • the measurement spectrum may correspond to the number of channels
  • the fluorescent dye information may correspond to the number of colors.
  • the number of dimensions of the fluorescent dye information may be a value that changes depending on the number of fluorescent reagents that label the sample.
  • FIG. 5 is a diagram showing an example of data structure of a sample group holding a fluorescence spectrum according to this embodiment.
  • the sample group indicates a group of samples to be measured by the flow cytometer 1.
  • the sample group is composed of sample data for each sample acquired from a test tube or a well and measured by a flow cytometer 1.
  • the sample data may be a measurement spectrum obtained by measuring individual samples.
  • one sample group may include tens of thousands to 20 million or more samples.
  • Each sample data has a unit called a deck.
  • Each deck corresponds to one excitation light source (ie, one excitation light). Therefore, in this example, one sample data has seven decks # 1 to # 7.
  • Each deck # 1 to # 7 is composed of a maximum of 32 channels ch1 to ch32. However, in each deck # 1 to # 7, fluorescence does not appear in the channel corresponding to the wavelength shorter than the excitation light, so that not all decks # 1 to # 7 have 32 channels. In this example, one sample data as a whole constitutes data of a maximum of 188 channels in total.
  • each channel is composed of data of Area (area) and Height (height).
  • Area Area
  • Height height
  • With (width) may be used.
  • the Area may be a value obtained by Height ⁇ Width, or a value obtained by multiplying the value by a predetermined coefficient.
  • FIG. 6 is a diagram showing an example of data structure of a sample group holding fluorescent dye information according to the present embodiment.
  • the sample group is composed of sample data for each sample measured by the flow cytometer 1 as in the sample group in FIG. 5, and sample data of about tens of thousands to 20 million or more samples. Can be included.
  • the sample data may be fluorescent dye information obtained by fluorescently separating the measurement spectra obtained from the individual samples.
  • each sample data is composed of color information of 44 colors # 1 to # 44 at the maximum, and each color # 1 to # 44 is composed of data of Area (area) and Height (height). ..
  • Area area
  • Height height
  • With (width) may be used.
  • the data structure of the measurement spectrum and the fluorescent dye information described above is merely an example, and it is not essential that the measurement spectrum and the fluorescent dye information have the above data structure. That is, there is a group that holds a large amount of high-dimensional data as the data to be transferred and / or the data to be saved (measurement spectrum and / or fluorescent dye information in this embodiment), and the height held by the group.
  • the present embodiment can be applied to various types of data as long as the type of dimensional data is data having a smaller data structure than the entire high-dimensional data.
  • the present embodiment can be applied to fluorescent dye information acquired by a general flow cytometer using an optical filter.
  • FIG. 7 and 8 are diagrams showing a sample data example (Area) of the measurement spectrum according to the present embodiment
  • FIGS. 9 and 10 show a sample data example (Height) of the measurement spectrum according to the present embodiment. It is a figure.
  • the sample data example (Area) shown in FIG. 7 and the sample data example (Height) shown in FIG. 9 are data obtained from the same sample A, and the sample data example (Area) shown in FIG. 8 and the sample data example (Area) are shown in FIG.
  • the sample data example (Height) shown in FIG. 10 is assumed to be data acquired from the same sample B.
  • the sample data for Area in the measurement spectrum has a maximum of 188 channels of data, and each channel is represented by 28-bit data.
  • the sample data for the high weight of the measurement spectrum has a maximum of 188 channels of data, and each channel is represented by 20-bit data.
  • the data output from the flow cytometer 1 for example, the measurement spectrum
  • the data generated from the data for example, fluorescent dye information
  • fluorescence the data to be transferred or stored
  • This method is a method of expressing data with a smaller number of bits by reducing the number of unused bits when expressing a numerical value in bits.
  • This method is a method of expressing data with a smaller number of bits by reducing the number of unused bits when expressing a numerical value in bits.
  • System. Structures also referred to as molds
  • int32 are widely used.
  • System. dynamic range that can be expressed by int32 is - if '2 31' is in the range of '2 31 -1' from which there are only tentatively to 8-bit value to represent '0' to '255', System. Since the dynamic range of int32 is not used up, this unused bit is wasted.
  • the structure to be used is System.
  • wint8 By replacing with wint8, it is possible to reduce the data from 32 bits to 8 bits.
  • LZ method As the second lossless compression method, a lexicographic compression method (LZ method) can be considered.
  • the LZ method is a method of reducing the amount of data by expressing the data in a dictionary.
  • 11 and 12 show an example of compression processing by the LZ method.
  • the dictionaries as shown in FIG. 12 are sequentially created by reading the input data in order from the beginning. NS. Then, if there is data registered in the dictionary in the process of reading the input data from the beginning, as shown in FIG. 11, the output data'(0, a) (0) is used using the dictionary number registered in the dictionary of FIG. , B) (1, b) (1, a) (2, a) (4, b) (6, a) (7,-)'is expressed.
  • the compression method using an entropy code is a method of reducing data by expressing data having a high frequency of occurrence with a short bit length and data having a low frequency of appearance with a long bit length.
  • 13 and 14 show an example of compression processing using an entropy code (Huffman code).
  • the compression method using such an entropy code is also based on the correspondence between the entropy code and the normal bit representation (FIG. 14), so that the data string represented by the entropy code is represented by the usual 2 bits. It is possible to restore to a column.
  • the bit length is determined according to the appearance probability of the data, so that the data can be significantly reduced especially when the appearance frequency is biased.
  • the compression method using statistical prediction is a method of reducing data by predicting the next data to appear from the observed data. For example, consider data in which'abcabc'is continuous. When this data is compressed with an entropy code, the frequency of occurrence of'a','b',and'c' is not biased, so that the data reduction rate cannot be increased. On the other hand, when coding is performed using the probability that'b'appears after'a', it is possible to give a bias, so that the data reduction rate can be increased.
  • the lossless compression method exemplified above can be used in combination of two or more.
  • a compression method such as zip
  • data is compressed by combining a lexicographic compression method (LZ method) and a compression method using an entropy code.
  • LZ method lexicographic compression method
  • the lossless compression method is not limited to the above-mentioned lossless compression method, and various lossless compression methods and combinations thereof can be used.
  • Lexicographic In the lexicographic compression method (LZ method) exemplified as the second lossless compression method, a dictionary is used for data that changes for each sample, such as a fluorescence spectrum. Since it is difficult to capture the characteristics of the spectral shape using the above, there is a problem that it is difficult to effectively increase the reduction rate. Even if one sample data is registered in the dictionary, it is difficult to increase the reduction rate because the spectral shapes of the other sample data rarely match perfectly. Similarly, even if the sample data is divided into small pieces and each is registered in the dictionary, it is rare that they match exactly, so it is difficult to increase the reduction rate as expected.
  • the existing lossless compression method described above has a problem that it is not possible to effectively reduce data for high-dimensional data such as a sample group.
  • FIG. 15 is a diagram for explaining an outline of the data reduction method according to the present embodiment.
  • the compression operation in the data reduction method illustrated below may be realized, for example, by the information processing apparatus 2 executing a predetermined program. Further, the operation of deployment in the data reduction method may be realized by, for example, the cloud 3 executing a predetermined program. That is, in the present embodiment, the information processing device 2 can also function as a difference calculation unit and a compression unit, and the cloud 3 can also function as a development unit and a restoration unit.
  • difference data generation (S01) is executed before data compression (S02).
  • restoration (S12) of the expanded difference data (S12) is executed.
  • the compressed data generated by data compression (S02) may be transferred to the cloud 3 or stored in a recording device (also referred to as a storage unit) included in the information processing device 2.
  • FIG. 16 shows an example of generating the difference data executed in step S01 of FIG.
  • the sample A and the sample B are samples having similar spectral shapes.
  • the dynamic range referred to here may be the difference between the minimum value and the maximum value.
  • FIG. 17 is a diagram for explaining an example of the properties of the sample group according to the present embodiment.
  • the number of sample types in the sample group is the number of samples in the entire sample group (for example, the number of cells). Compared to, it is overwhelmingly small. There are tens of thousands to tens of millions of samples in the sample group, and the types of samples included in the sample group are about several hundred, which is smaller than the number of samples in the sample group. Therefore, it is very likely that there are samples with similar properties for any of the samples.
  • the first property is that samples of the same type have similar feature values.
  • sample # 1 and sample # 3 are the same type of sample (cell), their sample data have similar spectral shapes.
  • the data reduction rate is increased by removing this redundant portion using a difference.
  • FIG. 18 is a schematic diagram for explaining the difference data according to the present embodiment. Note that FIG. 18 shows a case where sample # 100 is specified as a sample similar to sample # 1 and the sample # 1 is compressed into difference data.
  • the difference data according to the present embodiment is composed of, for example, a header area R1 and a data area R2.
  • the difference value for each dimension (channel) calculated by calculating the difference between the sample data for each dimension (channel) is stored.
  • the header area R1 an index for identifying the sample from which this difference is taken is stored.
  • the header area R1 also contains information for specifying the most significant bit (MSB) in the difference value of each dimension. It is stored.
  • the index of the similar sample in the header area R1 is used when restoring the sample data of sample # 1 to the original data.
  • the header area R1 is assigned in advance as a value indicating that no similar sample exists instead of the index of the similar sample.
  • a numerical value (for example, '0') may be stored.
  • the amount of data for the header area R1 is increased as compared with the original data, the amount of data stored in the data area R2 can be significantly reduced, resulting in a result. Therefore, it is possible to significantly reduce the amount of data as compared with the original data.
  • FIG. 19 is a diagram for explaining a first similarity determination method according to the present embodiment.
  • FIG. 19 shows a case where it is determined which of the sample B and the sample C is more similar to the sample A.
  • the difference value of each sample is calculated first.
  • the difference value from all the other samples is calculated.
  • a difference value with sample B and a difference value with sample C are calculated, respectively.
  • the most significant bit is specified for the difference value data set (difference values # 1 to # 188) calculated for each sample.
  • the difference value data set difference values # 1 to # 188
  • the difference AB and the difference AC are respectively.
  • the MSB of each difference value is specified for.
  • the sample of the sample data used when calculating the data set including the smallest MSB is specified as a similar sample.
  • the sample B is specified as a sample similar to the sample A.
  • the sample with the youngest index attached to the sample may be selected.
  • the compression efficiency of the compression method is maximized by reducing unnecessary bit representations. It will be possible to demonstrate it.
  • the header area R1 may store information for specifying the MSB of each difference value.
  • FIG. 20 is a diagram for explaining a second similarity determination method according to the present embodiment.
  • FIG. 20 shows a case where it is determined whether the sample B or the sample C is similar to the sample A.
  • the method of generating the difference between the samples may be the same as the first similarity determination method, so detailed description thereof will be omitted here.
  • the difference values # 1 to # 188 included in the difference AB and the difference values # 1 to # 188 included in the difference AC are obtained.
  • the frequency of appearance (also referred to as the number of occurrences) is managed using the difference value appearance frequency management database 301. This management is realized, for example, by incrementing the appearance frequency of the same value as the difference value by 1 in the difference value appearance frequency management database 301 each time the difference value of each dimension in the difference AB and the difference AC is calculated. May be good.
  • the difference value appearance frequency management database 301 may store the appearance frequency of the difference value calculated for the same sample group in the past. That is, the difference value appearance frequency management database 301 may be created for each sample group or for each execution of the similarity determination process for the same sample group.
  • the present invention is not limited to this.
  • FIG. 21 shows an example of the difference value appearance frequency management database according to this embodiment.
  • the appearance frequency is managed for each difference value value, and entropy codes having different bit lengths are assigned according to the appearance frequency.
  • the method of assigning the entropy code may be the same as the compression method using the entropy code.
  • the appearance frequencies of the difference values # 1 to # 188 are specified for each of the difference AB and the difference AC, and the total value of the specified appearance frequencies is the difference AB and the difference AC, respectively. Is calculated for. Then, a sample of the sample data used to create a dataset having a larger total calculated value is specified as a similar sample.
  • the sample B is specified as a sample similar to the sample A.
  • the value appearance frequency management database 301 stores the appearance frequency specified from the difference value between the sample X and the sample Y.
  • searching for a similar sample similar to sample A in this state the total of the appearance frequencies af1 to af188 of the difference values in each of the data sets of the differences AB, AC, AX, and AY is calculated, and the data set having the largest total value is calculated.
  • the sample is identified as a similar sample similar to sample A.
  • the original data is better in MSB and total appearance frequency than the difference value data set. If a good value is obtained, the original data may be used as it is as the data to be compressed without taking the difference. In that case, the header area R1 may store information indicating that the data in the data area R2 is the original data, instead of the index indicating a similar sample.
  • FIG. 22 is a diagram for explaining a first similar sample selection method according to the present embodiment.
  • FIG. 22 illustrates a case where the k-means clustering method is used as the clustering method.
  • clustering by the k-means method is executed for the sample group. Then, a representative sample is determined from the generated cluster.
  • the five samples of samples A to E are divided into two clusters, a cluster containing samples A, B and E, and a cluster containing samples C and D, which are closest to the center of each cluster. Sample A and sample C are selected as representative samples for each cluster.
  • samples other than the representative sample are represented by the difference from the representative sample.
  • samples B and E are represented by the difference from the representative sample A
  • sample D is represented by the difference from the representative sample C.
  • Second similar sample selection method In the method using the dictionary illustrated as the second similar sample selection method, a dictionary is constructed while reading the sample group from the beginning, and the dictionary is used. This is a method of generating a difference.
  • 23 to 27 are diagrams for explaining a second similar sample selection method according to the present embodiment. In addition, in FIGS. 23 to 27, the case where five samples of samples A to E are included in the sample group is illustrated.
  • the dictionary in the initial state may be in an empty state, that is, in a state in which nothing is registered.
  • the second similar sample selection method as shown in FIG. 23, first, as an input, the samples in the sample group are read in order from the beginning. Therefore, in the first stage, the sample data of the first sample A in the sample group is read. Next, the sample data of the read sample A is registered in the dictionary with the dictionary number # 1. Further, as the difference data of the sample A, the sample data of the sample A is output as it is.
  • a specific numerical value (for example, '0') assigned in advance as a value indicating that the difference value is not a reference dictionary number in the header area R1 is used. ) Is stored.
  • the sample data of the next sample B in the sample group is read as an input, and the difference between the read sample B and the sample A is calculated.
  • the difference data of the sample B is calculated by subtracting the sample A from the sample B.
  • the difference BA is output.
  • the sample data of the next sample C in the sample group is read as an input, and the difference between the read sample C and the sample A is calculated.
  • the sample data of the sample C is registered in the dictionary with the dictionary number # 2. Further, as the difference data of the sample C, the sample data of the sample C is output as it is.
  • a specific numerical value for example, '0' assigned in advance as a value indicating that the difference value is not a reference dictionary number in the header area R1 is used. ) Is stored.
  • the sample data of the next sample D in the sample group is read, and the difference between the read sample D and the sample A and the difference value between the sample D and the sample C are obtained. Each is calculated.
  • the difference DC calculated by subtracting the sample C from the sample D is output as the difference data of the sample D. ..
  • the difference data including the reference dictionary number in the header is generated for all the samples.
  • the data can be compressed according to the characteristics of the data (sample group) to be compressed, so that the data transfer time can be shortened or lengthened. It is possible to reduce or increase the storage cost required for data storage.
  • the transfer time of the sample group can be shortened or the lengthening thereof can be suppressed. It becomes possible. Further, by applying the data reduction method described above to the sample group stored in the cloud 3, it is possible to reduce the storage cost required for storing the sample group or suppress the increase thereof. Become.
  • the data to be compressed in the first embodiment is the fluorescence spectrum and / or fluorescent dye information. Therefore, when both the fluorescence spectrum and the fluorescent dye information are compressed, it may be necessary to execute the generation of difference data (corresponding to step S01 in FIG. 15) in each of the compression of the fluorescence spectrum and the compression of the fluorescent dye information. ..
  • the fluorescence spectrum and the fluorescent dye information to be compressed are the fluorescence spectrum measured from the same sample group and the fluorescent dye information generated from this fluorescence spectrum. Therefore, the samples determined to have high similarity in the fluorescence spectrum are very likely to be determined to be samples having high similarity in the fluorescent dye information. This is because the fluorescence spectrum and the fluorescent dye information have different numbers of dimensions, but the types of samples represented are the same.
  • similarity information information on the similarity obtained in the generation of the difference data (S01) in the data compression of one of the fluorescence spectrum and the fluorescent dye information is compressed by the other data. It is considered that it can be used in (mutual use of similarity information).
  • the result (similarity information) obtained by the determination process of the similar sample in the generation of the difference data (S01) of one of the compression processes of the fluorescence spectrum and the fluorescent dye information is obtained as the difference data of the other.
  • the determination process of the similar sample in the other generation of the difference data (S01) is omitted.
  • the compression process of the other is speeded up, so that the entire compression process can be speeded up.
  • similarity information for each sample generated in the process of one compression process (information indicating which sample is similar) is managed in a database or the like, and the other is managed. This can be achieved by referring to the similarity information managed in a database or the like in the compression process.
  • FIG. 28 is a diagram for explaining an example of execution order of compression, transfer, and decoding according to the present embodiment
  • FIG. 28A is a diagram for explaining compression, transfer, and decoding. It is a schematic diagram which shows the process flow in the case of sequentially executing
  • (b) is a schematic diagram which shows the process flow in the case of pipelinening compression, transfer and decoding.
  • the compression process S1 is executed in the information processing apparatus 2 (see FIG. 3) after all the compressed data are prepared. , Transfer of compressed data from the information processing device 2 to the cloud 3 S2 is executed, and after all the compressed data have been received on the cloud 3 side, the restored compressed data S3 is executed.
  • the compression process S1 is performed in the information processing apparatus 2 (see FIG. 3).
  • the compressed data transfer S2 is executed from the information processing device 2 to the cloud 3 in order from the generated compressed data, and then the compressed data is restored S3 in order from the compressed data received on the cloud 3 side. Is executed. Therefore, by making the compression, data transfer, and decoding into a pipeline, it is possible to significantly reduce the time required from the compression of the sample data on the information processing apparatus 2 side to the restoration of the compressed data on the cloud 3 side.
  • FIG. 29 is a diagram for explaining in more detail an example of the execution order of compression, transfer, and decoding according to the present embodiment.
  • the sample group is divided into a plurality of blocks.
  • Each block may be composed of, for example, several thousand to several hundred thousand samples.
  • the information processing device 2 executes compression in block units, and transfers (transmits ⁇ receives) the compressed data to the cloud 3 in order from the block in which the compression is completed. Then, the cloud 3 sequentially restores the compressed data received from the information processing device 2 in block units.
  • the compression process of the next block (for example, compression # 2 and # 3) is hidden behind the transfer process of the previous block (for example, transmission # 1, # 2 and reception # 1), and the previous block. Since the restoration process (for example, restoration # 1 and # 2) is hidden behind the transfer processing of the next block (for example, transmission # 3 and reception # 2 and # 3), the processing from compression to restoration for all sample data. It is possible to significantly reduce the time.
  • the data reduction rate may decrease, but the number of samples is tens of thousands to 2,000 as in the sample data illustrated in this embodiment. When there are more than 10,000 types of samples, but there are several hundred types of samples, even if the sample group is divided into blocks of several thousand to hundreds of thousands, a sufficient data reduction rate can be achieved in each block. It is possible.
  • An excitation light source that irradiates each of a plurality of samples belonging to the sample group with excitation light
  • a measuring unit for measuring fluorescence generated by irradiating the sample with the excitation light and a measuring unit.
  • an information processing unit that generates difference data based on the difference between similar fluorescence signals, and an information processing unit.
  • Information processing system equipped with (2) The information processing unit according to (1), wherein the information processing unit sets the combination of the two fluorescent signals selected from the plurality of fluorescent signals having the smallest calculated difference as the similar fluorescent signal. system.
  • the fluorescent signal includes multiple dimensions.
  • the information processing unit uses the combination of the two fluorescence signals selected from the plurality of fluorescence signals as the combination having the smallest maximum difference calculated between the corresponding dimensions as the similar fluorescence signal.
  • the information processing unit sets the combination having the highest frequency of occurrence of the calculated difference as the similar fluorescent signal (1) to (1).
  • the fluorescent signal includes multiple dimensions.
  • the information processing unit sets the combination with the highest total frequency of occurrence of differences calculated between the corresponding dimensions as the similar fluorescent signal.
  • the information processing system according to any one of (1) to (4) above.
  • the information processing system identifies the similar fluorescent signal by using at least one of the Euclidean distance and the cosine similarity.
  • the difference data includes first information for identifying a combination of the similar fluorescent signals used for calculating the difference.
  • the difference data includes predetermined second information in place of the first information when a fluorescence signal similar to the first fluorescence signal among the plurality of fluorescence signals does not exist in the sample group (7).
  • Information processing system described in. (9) The information processing unit generates compressed data by compressing the difference data.
  • the information processing system according to any one of (1) to (8) above.
  • the information processing unit uses at least one of a compression method by reducing unnecessary bit representations, a dictionary-type compression method, a compression method using an entropy code, and a compression method using statistical prediction.
  • the difference data includes information for identifying the most significant bit of the difference.
  • the information processing system according to any one of (1) to (12) above, wherein the fluorescent signal includes first spectrum information of light generated by irradiating a sample with light.
  • the fluorescent signal is any one of (1) to (13) above, which includes fluorescent dye information of the fluorescent dye obtained from spectral information of light generated by irradiating a sample labeled with the fluorescent dye with excitation light.
  • Information processing system described in. 15) The fluorescent signal includes spectral information of light generated by irradiating a sample labeled with a fluorescent dye with excitation light, and fluorescent dye information of the fluorescent dye obtained from the spectral information.
  • the information processing unit identifies similar fluorescent dye information based on the combination of samples of the similar spectral information specified when calculating the difference between the similar spectral information, and identifies the similar fluorescent dye information.
  • the information processing system according to any one of (9) to (12) further comprising a storage unit for storing the compressed data generated by the information processing unit.
  • a decompression unit that expands the compressed data of the difference generated by the information processing unit, and a decompression unit.
  • a restoration unit that restores the plurality of fluorescent signals based on the difference developed in the expansion unit, and a restoration unit.
  • the information processing system according to any one of (1) to (17) above.
  • a difference calculation unit that calculates the difference between similar fluorescence signals among the fluorescence signals based on fluorescence generated by irradiating each of a plurality of samples belonging to the sample group with excitation light.
  • a compression unit that compresses the difference and Information processing device equipped with.
  • (20) Among the fluorescence signals based on fluorescence generated by irradiating each of a plurality of samples belonging to the sample group with excitation light, the difference between similar fluorescence signals is calculated.
  • An information processing method including compressing the difference.

Abstract

データ量を削減する。実施形態に係る情報処理システムは、サンプルグループに属する複数のサンプルそれぞれに励起光を照射する励起光源(100)と、前記励起光の前記サンプルへの照射により発生する蛍光を測定する測定部(142)と、前記サンプルそれぞれについて測定された前記蛍光に基づく蛍光信号のうち、類似する蛍光信号同士の差分に基づき差分データを生成する情報処理部(2)と、を備える。

Description

情報処理システム、情報処理装置及び情報処理方法
 本開示は、情報処理システム、情報処理装置及び情報処理方法に関する。
 医学や生化学などの分野では、大量の微小粒子の特性を迅速に測定するために、フローサイトメータを用いることがある。フローサイトメータは、フローサイトメトリーと呼ばれる分析手法を用いた測定装置であり、フローセルを流れる細胞などの微小粒子に光を照射し、該微小粒子から発せられる蛍光などを検出する。
 また、次世代のフローサイトメータでは、細胞の詳細な分析を可能にするために、蛍光信号の多色化が行われている。このような次世代フローサイトメータとしては、スペクトル型のフローサイトメータが開発されてきている。スペクトル型フローサイトメータでは、プリズムまたはグレーティングなどの分光素子が用いられることで、複数の蛍光色素を用いて標識された細胞などの微小粒子から発せられる光が分光される。分光された光は、検出波長域の異なる複数の受光素子が配列する受光素子アレイにて検出される。そして、各受光素子の検出値が収集されることで、細胞などの測定対象の測定スペクトルが取得される。
 このようなスペクトル型のフローサイトメータは、光学フィルタを使用して蛍光を波長領域別に分離して検出するフィルタ方式と比較して、蛍光の情報を漏らすことなく解析情報として活用できるといった利点がある。
特開2009-104026号公報
 スペクトル型のフローサイトメータを用いると、複数の蛍光色素のスペクトルが混ざり合った測定スペクトルと、蛍光色素ごとの測定結果を表す測定データとを取得することができるため、これらの双方を用いて、測定対象の分析をきめ細かく行える利点がある。しかし、このような分析をローカル環境で行うには、ローカル環境に十分な計算リソースを確保する必要がある。
 そこで、ローカル環境で得られたデータをクラウド環境に転送し、クラウド環境において測定対象の分析を行うことが検討される。分析アプリケーションをクラウド化することにより、クラウド環境の十分な計算リソースを活用して測定対象の詳細な分析が容易に行えるとともに、データ共有なども容易に行うことができ、利便性が向上する。
 しかしながら、蛍光信号の多色化によってサンプルあたりに取得されるデータの次元数が増加すると、サンプルグループのデータ量が大幅に増加する。そのため、分析をクラウド側で行おうとすると、データ転送に非常に長い時間がかかってしまうという問題が生じる。
 また、データ量の増加はこれを保存するためのストレージコストの増加に直結するため、多色化によってクラウド側に要求されるストレージコストが大幅に増加してしまうという問題も存在する。
 そこで本開示では、データ量を削減することが可能な情報処理システム、情報処理装置及び情報処理方法を提案する。
 実施形態に係る情報処理システムは、サンプルグループに属する複数のサンプルそれぞれに励起光を照射する励起光源と、前記励起光の前記サンプルへの照射により発生する蛍光を測定する測定部と、前記サンプルそれぞれについて測定された前記蛍光に基づく蛍光信号のうち、類似する蛍光信号同士の差分に基づき差分データを生成する情報処理部と、を備える。
第1の実施形態で使用されるフローサイトメータの概略構成例を示す模式図である。 図1に示すフローサイトメータの概略構成例を示すブロック図である。 第1の実施形態に係る情報処理システムの概略構成例を示すブロック図である。 第1の実施形態に係るアンミキシングを説明するための図である。 第1の実施形態に係る蛍光スペクトルを保持するサンプルグループのデータ構造例を示す図である。 第1の実施形態に係る蛍光色素情報を保持するサンプルグループのデータ構造例を示す図である。 第1の実施形態に係る測定スペクトルのサンプルデータ例(Area)を示す図である(サンプルA)。 第1の実施形態に係る測定スペクトルのサンプルデータ例(Area)を示す図である(サンプルB)。 第1の実施形態に係る測定スペクトルのサンプルデータ例(Height)を示す図である(サンプルA)。 第1の実施形態に係る測定スペクトルのサンプルデータ例(Height)を示す図である(サンプルB)。 第1の実施形態に係る辞書式の圧縮手法(LZ法)による圧縮処理の一例を説明するための図である。 図11に示す圧縮処理において作成される辞書の一例を示す図である。 第1の実施形態に係るエントロピー符号(ハフマン符号)を利用した圧縮処理の一例を説明するための図である。 図13に示す圧縮処理における通常のビット表現とエントロピー符号との対応関係を示す図である。 第1の実施形態に係るデータ削減手法の概要を説明するための図である。 図15のステップS01で実行される差分データの生成の一例を示す図である。 第1の実施形態に係るサンプルグループの性質の一例を説明するための図である。 第1の実施形態に係る差分データを説明するための模式図である。 第1の実施形態に係る第1の類似性判定方法を説明するための図である。 第1の実施形態に係る第2の類似性判定方法を説明するための図である。 第1の実施形態に係る差分値出現頻度管理データベースの一例を示す図である。 第1の実施形態に係る第1の類似サンプル選択方法を説明するための図である。 第1の実施形態に係る第2の類似サンプル選択方法を説明するための図である(その1)。 第1の実施形態に係る第2の類似サンプル選択方法を説明するための図である(その2)。 第1の実施形態に係る第2の類似サンプル選択方法を説明するための図である(その3)。 第1の実施形態に係る第2の類似サンプル選択方法を説明するための図である(その4)。 第1の実施形態に係る第2の類似サンプル選択方法を説明するための図である(その5)。 第3の実施形態に係る圧縮、転送及び復号の実行順序例を説明するための図である。 第3の実施形態に係る圧縮、転送及び復号の実行順序例をより詳細に説明するための図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
  1.第1の実施形態
   1.1 フローサイトメータの概要
   1.2 スペクトル型フローサイトメータの概略構成例
   1.3 情報処理システムの概略構成例
   1.4 アンミキシングについて
   1.5 データ構造について
    1.5.1 測定スペクトルのデータ構造例
    1.5.2 蛍光色素情報のデータ構造例
   1.6 サンプルデータ例
   1.7 サンプルデータに関する課題
   1.8 データの削減手法について
    1.8.1 不要なビット表現の削減
    1.8.2 辞書式(LZ法)
    1.8.3 エントロピー符号
    1.8.4 統計的な予測
   1.9 高次元のデータを可逆圧縮する際の課題
    1.9.1 不要なビット表現の削減の場合
    1.9.2 辞書式(LZ法)の場合
    1.9.3 エントロピー符号の場合
    1.9.4 統計的な予測の場合、
   1.10 データ削減手法
   1.11 データ削減方法
    1.11.1 データの圧縮・展開
    1.11.2 差分データのフォーマット
    1.11.3 差分データの生成・復元方法
     1.11.3.1 類似サンプルの判定方法
      1.11.3.1.1 第1の類似性判定方法
      1.11.3.1.2 第2の類似性判定方法
     1.11.3.2 類似サンプルの選択方法
      1.11.3.2.1 第1の類似サンプル選択方法
      1.11.3.2.2 第2の類似サンプル選択方法
   1.12 まとめ
  2.第2の実施形態
   2.1 蛍光スペクトル・蛍光色素情報で得られた類似性情報の相互利用について
  3.第3の実施形態
   3.1 分割圧縮・復号によるクラウド転送の高速化
 1.第1の実施形態
 以下に、本開示の第1の実施形態について、図面を参照して詳細に説明する。
 1.1 フローサイトメータの概要
 本実施形態に係るフローサイトメータは、フローサイトメトリーと呼ばれる分析手法を用いて、サンプルを個々に分析する装置であってよい。フローサイトメータでは特定の条件下で発光する蛍光試薬でサンプルを標識し、励起光を当てた際に発する光を蛍光情報として収集する。この蛍光情報から細胞を分析できる。
 一般のフローサイトメータでは、光学フィルタを使用することで、サンプルから放射した蛍光を波長域別に分割・抽出し、それを測定することで得られたデータを蛍光色素に関する情報(以下の蛍光色素情報に相当)としている。
 一方で、スペクトル型フローサイトメータでは、光学フィルタを使用せず、プリズムなどから構成された分光器で蛍光を波長ごとに分離し、波長ごとの光強度を測定することで、サンプルから放射した光のスペクトル情報(以下、測定スペクトルという)を取得する。そして、この測定スペクトルを、蛍光スペクトルリファレンスを用いたスペクトル・アンミキシング(以下、単にアンミキシングという)と呼ばれる処理で蛍光色素ごとに分離する。
 アンミキシングとは、スペクトル型のフローサイトメータによって得られる測定スペクトルを、蛍光色素ごとの蛍光スペクトルの線形和により近似することで、測定スペクトルから蛍光色素ごとの蛍光色素情報を求める手法である。このアンミキシングにより生成された蛍光色素ごとの蛍光色素情報は、細胞などのサンプルの分析等に利用される。
 なお、本説明における蛍光信号は、測定スペクトルと蛍光色素情報との両方を含む概念として定義されてよい。
 また、本説明では、蛍光色素ごとの蛍光スペクトルを蛍光スペクトルリファレンスという。この蛍光スペクトルリファレンスは、単一の蛍光色素で標識されたサンプルから得られるスペクトルであり、無標識のサンプルから得られる自家蛍光スペクトルを含んでもよい。ここで、蛍光スペクトルリファレンスは、スペクトル型フローサイトメータで取得してもよいし、蛍光色素の提供元から提供されたカタログ値などが用いられてもよい。
 本実施形態では、光学測定装置として、測定スペクトルと蛍光色素情報との両方を取得できるスペクトラム型フローサイトメータを例示するが、これに限定されず、蛍光色素情報を取得する一般のフローサイトメータを用いることも可能である。
 ここで、フローサイトメータには、流路上の観測地点(以下、スポットという)へのサンプルの供給方式として、マイクロチップ方式や、ドロップレット方式や、キュベット方式や、フローセル方式などが存在する。本実施形態では、マイクロチップ方式(一部、フローセル方式)のフローサイトメータを例示するが、これに限定されず、他の供給方式のフローサイトメータであってもよい。
 また、フローサイトメータには、細胞等のサンプルの分析を目的としたアナライザ型と、サンプルの分析からその分取までを目的としたセルソータ型とが存在する。本実施形態では、アナライザ型のフローサイトメータを例示するが、これに限定されず、セルソータ型のフローサイトメータであってもよい。
 さらに、本開示は、フローサイトメータに限定されず、サンプルに励起光を照射してその蛍光に基づいてサンプルを分析する種々の光学測定装置であってよく、例えば、スライド上の組織切片などのサンプルの画像を取得する顕微鏡などであってもよい。
 1.2 スペクトル型フローサイトメータの概略構成例
 図1は、本実施形態で使用されるスペクトル型フローサイトメータ(以下、単にフローサイトメータという)の概略構成例を示す模式図である。また、図2は、図1に示すフローサイトメータの概略構成例を示すブロック図である。なお、作図の都合上、図1と図2とのそれぞれにおいて一部の光学素子が省略されている。
 図1及び図2に示すように、本実施形態に係るフローサイトメータ1は、光源部100と、分波光学系150と、散乱光検出部130と、蛍光検出部140とを備え、マイクロチップ120を用いて所定の流路上に供給されたサンプルからの光を検出する。
 サンプルは、例えば、細胞、微生物又は生体関連粒子などの生体由来粒子であり、複数の生体由来粒子の集団を含む。サンプルは、例えば、動物細胞(例えば、血球系細胞など)、若しくは植物細胞などの細胞、大腸菌等の細菌類、タバコモザイクウイルス等のウイルス類、若しくはイースト等の菌類などの微生物、染色体、リポソーム、ミトコンドリア、エクソソーム若しくは各種オルガネラ(細胞小器官)などの細胞を構成する生体関連粒子、又は核酸、タンパク質、脂質、糖鎖、若しくはこれらの複合体などの生体関連高分子などの生体由来の微小粒子であってもよい。更に、サンプルは、ラテックス粒子やゲル粒子、工業用粒子などの合成粒子などが広く含まれるものとする。また、工業用粒子は、例えば有機もしくは無機高分子材料、金属などであってもよい。有機高分子材料には、ポリスチレン、スチレン・ジビニルベンゼン、ポリメチルメタクリレートなどが含まれる。無機高分子材料には、ガラス、シリカ、磁性体材料などが含まれる。金属には、金コロイド、アルミなどが含まれる。これら粒子の形状は、一般には球形であるのが普通であるが、非球形であってもよく、また大きさや質量なども特に限定されない。
 ここで、サンプルは、1つ以上の蛍光色素によって標識(染色)されている。蛍光色素によるサンプルの標識は、公知の手法によって行うことができる。例えば、サンプルが細胞である場合、細胞表面に存在する抗原に対して選択的に結合する蛍光標識抗体と、測定対象の細胞とを混合し、細胞表面の抗原に蛍光標識抗体を結合させることで、測定対象の細胞を蛍光色素にて標識することができる。
 蛍光標識抗体は、標識として蛍光色素を結合させた抗体である。具体的には、蛍光標識抗体は、ビオチン標識した抗体に、アビジンを結合させた蛍光色素をアビジン-ビオジン反応によって結合させたものであってもよい。または、蛍光標識抗体は、抗体に蛍光色素を直接結合させたものであってもよい。なお、抗体は、ポリクローナル抗体又はモノクローナル抗体のいずれを用いることも可能である。また、サンプルを標識するための蛍光色素も特に限定されず、細胞等の染色に使用される公知の色素を少なくとも1つ以上用いることが可能である。
 (光源部100)
 図1に示すように、光源部100は、例えば、1以上(本例では3つ)の励起光源101~103と、全反射ミラー111と、ダイクロイックミラー112及び113と、全反射ミラー115と、対物レンズ116とを備える。
 この構成において、全反射ミラー111と、ダイクロイックミラー112及び113と、全反射ミラー115とは、励起光源101~103から出射した励起光L1~L3を所定の光路上に導く導波光学系を構成する。
 対物レンズ116は、上記所定の光路上を伝搬した励起光L1~L3をマイクロチップ120内の流路上に設定されたスポット123aに集光させる集光光学系を構成する。なお、スポット123aは1つに限られない、すなわち、励起光L1~L3は、それぞれ異なるスポットに集光されてもよい。また、励起光L1~L3それぞれの集光位置は、スポット123aと一致している必要はなく、それぞれの光軸上において前後にズレていてもよい。
 図1に示す例では、それぞれ異なる波長の励起光L1~L3を出射する3つの励起光源101~103が設けられている。各励起光源101~103には、例えば、コヒーレント光を出射するレーザ光源が用いられてもよい。例えば、励起光源102は、青色レーザビーム(ピーク波長:488nm(ナノメートル),出力:20mW)を照射するDPSSレーザ(Diode Pumped Solid State Laser:半導体レーザ励起固体レーザ)であってもよい。また、励起光源101は、赤色レーザビーム(ピーク波長:637nm,出力:20mW)を照射するレーザダイオードであってもよく、同様に、励起光源103は、近紫外レーザビーム(ピーク波長:405nm,出力:8mW)を照射するレーザダイオードであってもよい。また、各励起光源101~103が出射する励起光L1~L3は、パルス光であってもよい。
 全反射ミラー111は、例えば、励起光源101から出射された励起光L1を所定方向へ向けて全反射する。
 ダイクロイックミラー112は、全反射ミラー111で反射した励起光L1の光軸と、励起光源102から出射された励起光L2の光軸とを一致又は平行にするための光学素子であり、例えば、全反射ミラー111からの励起光L1を透過し、励起光源102からの励起光L2を反射させる。このダイクロイックミラー112には、例えば、波長637nmの光を透過し、波長488nmの光を反射するように設計されたダイクロイックミラーが用いられてもよい。
 ダイクロイックミラー113は、ダイクロイックミラー112からの励起光L1及びL2の光軸と、励起光源103から出射された励起光L3の光軸とを一致又は平行にするための光学素子であり、例えば、全反射ミラー111からの励起光L1を透過し、励起光源103からの励起光L3を反射させる。このダイクロイックミラー113には、例えば、波長637nmの光及び波長488nmの光を透過し、波長405nmの光を反射するように設計されたダイクロイックミラーが用いられてもよい。
 最終的にダイクロイックミラー113によって同じ方向に進行する光として集められた励起光L1~L3は、全反射ミラー115で全反射して、対物レンズ116に入射する。
 なお、各励起光源101~103から対物レンズ116までの光路上には、励起光L1~L3を平行光に変換するためのビーム整形部が設けられていてもよい。ビーム整形部は、例えば、1つ以上のレンズやミラー等で構成されていてもよい。
 対物レンズ116は、入射した励起光L1~L3を、後述するマイクロチップ120内の流路上の所定のスポット123aに集光させる。サンプルがスポット123aを通過している最中にパルス光である励起光L1~L3がスポット123aに照射されることで、サンプルから蛍光が放射するとともに、励起光L1~L3がサンプルで散乱されて散乱光が発生する。
 本説明では、サンプルから全方向へ向けて発生する散乱光のうち、励起光L1~L3の進行方向前方へ進む所定角度範囲内の成分を前方散乱光L12といい、励起光L1~L3の進行方向後方へ進む所定角度範囲内の成分を後方散乱光といい、励起光L1~L3の光軸から所定角度よりも外れた方向の成分を側方散乱光という。
 対物レンズ116は、例えば、光軸に対して30°~40°程度に相当する開口数を有している。サンプルから放射した蛍光のうち、励起光L1~L3の進行方向前方へ進む所定角度範囲内の成分(以下、蛍光L13という)と、前方散乱光L12とは、励起光L1~L3の進行方向前方に配置された分波光学系150に入力される。
 (分波光学系150)
 図1及び図2に示すように、分波光学系150は、例えば、フィルタ151と、コリメートレンズ152と、ダイクロイックミラー153と、全反射ミラー154(図1参照)とを含んで構成される。ただし、この構成に限らず、種々変形されてよい。
 励起光L1~L3の光路上においてマイクロチップ120よりも下流側に配置されたフィルタ151は、例えば、マイクロチップ120よりも下流側へ進む光L11のうち、励起光L1~L3の一部(例えば、励起光L1及びL3)を選択的に遮断する。ここで、マイクロチップ120よりも下流側へ進む光には、励起光L1~L3(これらの前方散乱光を含む)と、マイクロチップ120内のサンプルから放射した蛍光L13とが含まれている。そこで、フィルタ151は、励起光L1及びL3の成分を遮断し、励起光L2の成分(これを前方散乱光L12とする)と蛍光L13とを透過させる。
 なお、フィルタ151は、光L16の光軸に対して傾いて配置される。それにより、フィルタ151で反射した光L16の戻り光が対物レンズ116等を介して散乱光検出部130等に入射することが防止されている。
 フィルタ151を透過した前方散乱光L12及び蛍光L13は、例えば、コリメートレンズ152でコリメート光に変換された後、ダイクロイックミラー153において分波される。ダイクロイックミラー153は、例えば、入射した光のうちの前方散乱光L12を反射し、蛍光L13を透過させる。ダイクロイックミラー153で反射した前方散乱光L12は、散乱光検出部130に導波され、ダイクロイックミラー153を透過した蛍光L13は、蛍光検出部140に導波される。
 (散乱光検出部130)
 散乱光検出部130は、例えば、ダイクロイックミラー153及び全反射ミラー132で反射した前方散乱光L12のビーム断面を整形する複数のレンズ131、133及び135と、前方散乱光L12の光量を調整する絞り137と、前方散乱光L12のうちの特定の波長の光(例えば、励起光L2の成分)を選択的に透過させるマスク134と、マスク134及びレンズ135を透過して入射した光を検出する光検出器136とを備える。
 光検出器136は、例えば、2次元イメージセンサやフォトダイオード等で構成され、マスク134及びレンズ135を透過して入射した光の光量やサイズを検出する。光検出器136で検出された信号は、例えば、後述する情報処理装置2に入力される。
 (蛍光検出部140)
 蛍光検出部140は、例えば、入射した蛍光L13を波長ごとの分散光L14に分光する分光光学系141と、所定の波長帯(チャンネルともいう)ごとの分散光L14の光量を検出する光検出器142とを備える。
 分光光学系141は、例えば、プリズムや回折格子などの1つ以上の光学素子141aを含んで構成され、入射した蛍光L13を、波長ごとに異なる角度へ向けて出射する分散光7L14に分光する。
 光検出器142は、例えば、チャンネルごとの光を受光する複数の受光部から構成されていてもよい。その場合、複数の受光部は、分光光学系141による分光方向に一列又は2列以上に配列していてもよい。また、各受光部には、例えば、光電子増倍管などの光電変換素子を用いることができる。ただし、複数の受光部に代えて、2次元イメージセンサなどを用いることも可能である。
 光検出器142で検出されたチャンネルごとの蛍光L13の光量を示す信号(蛍光信号)は、例えば、後述する情報処理装置2に入力される。
 1.3 情報処理システムの概略構成例
 図3は、本実施形態に係る情報処理システムの概略構成例を示すブロック図である。図3に示すように、情報処理システムは、例えば、上述したフローサイトメータ1と、情報処理装置2と、クラウド3と、1台以上の端末4とから構成され得る。
 情報処理装置2は、例えば、パーソナルコンピュータやワークステーション等で構成され、フローサイトメータ1で検出されたデータの取得や、分析対象であるサンプルに関する一部の分析作業等を実行する。情報処理装置2、例えば、請求の範囲における情報処理部の一例に相当し得る。なお、情報処理装置2は、各種データを所定のネットワークを介して送信するための送信部、及び、所定のネットワークから各種データを受信するための受信部を備えていてよい。
 クラウド3は、例えば、LAN(Local Area Network)やインターネットや移動体通信網等などの所定のネットワークを介して情報処理装置2と接続され、情報処理装置2から転送されたデータに基づいてサンプルの詳細な分析を実行する。
 端末4は、例えば、パーソナルコンピュータやタブレット端末やスマートフォン等で構成された、サンプルの詳細な分析を担当するユーザ側の端末であり、クラウド3への分析指示や、クラウド3で得られた分析結果の取得・閲覧等をユーザが行うための端末である。
 1.4 アンミキシングについて
 ここで、本実施形態において情報処理装置2及び/又はクラウド3において実行されるアンミキシングについて、より詳細に説明する。図4は、本実施形態に係るアンミキシングを説明するための図である。上述したように、アンミキシングとは、スペクトル型フローサイトメータによって得られる測定スペクトルを蛍光スペクトルリファレンスの線形和により近似することで、分析対象であるサンプルの蛍光色素情報を求める処理である。図4には、4つの蛍光色素それぞれの蛍光スペクトルC1~C4が重なり合った測定スペクトルC1+C2+C3+C4を、4つの蛍光色素それぞれの蛍光スペクトルC1~C4(蛍光色素情報)に分離する例が示されている。
 通常、蛍光色素情報の次元数は、測定スペクトルの次元数よりも小さい、そのため、アンミキシングにより測定スペクトルを蛍光色素情報に変換することで、データ量を抑えることができる。なお、次元数とは、データの種類数に相当する値であり、例えば、測定スペクトルであればチャンネル数に相当し得、蛍光色素情報であれば色数に相当し得る。
 例えば、ソニー株式会社(登録商標)製のスペクトル型セルアナライザーID7000(登録商標)であれば、最大188チャンネル(すなわち、次元数=188)の測定スペクトルを、44色(すなわち、次元数=44)の蛍光色素情報に変換することができる。ただし、蛍光色素情報の次元数は、サンプルを標識する蛍光試薬の数で変化する値であってよい。
 1.5 データ構造について
 ここで、測定スペクトル及び蛍光色素情報それぞれのデータ構造について、以下に説明する。なお、以下の説明では、7つの励起光源(すなわち、波長が異なる7種類の励起光。図2では3つの励起光源101~103)と、32チャンネルの光検出器142とを用いて最大188チャンネルの測定スペクトルを生成するフローサイトメータ1から出力される測定スペクトルのデータ構造と、この測定スペクトルを44色の蛍光色素情報に変換した場合の蛍光色素情報のデータ構造とについて、例を挙げて説明する。
 1.5.1 測定スペクトルのデータ構造例
 図5は、本実施形態に係る蛍光スペクトルを保持するサンプルグループのデータ構造例を示す図である。ここで、サンプルグループとは、フローサイトメータ1での測定対象であるサンプルの集団を示す。図5に示すように、サンプルグループには、試験管やウェルから取得され、フローサイトメータ1にて測定されたサンプルごとのサンプルデータから構成される。サンプルデータは、個々のサンプルを測定することで得られた測定スペクトルであってよい。また、1つのサンプルグループには、数万から2000万程度若しくはそれ以上のサンプルが含まれ得る。
 各サンプルデータは、デッキという単位を持っている。各デッキは1つの励起光源(すなわち、1つの励起光)に対応している。したがって、本例では、1つのサンプルデータが7つのデッキ#1~#7を持っている。
 各デッキ#1~#7は、最大32つのチャンネルch1~ch32から構成される。ただし、各デッキ#1~#7において、励起光よりも短い波長に相当するチャンネルには蛍光が出現しないため、全てのデッキ#1~#7が32チャンネルを備えているとは限られない。本例では、1つのサンプルデータ全体が、合計で最大188チャンネルのデータを構成する。
 また、各チャンネルは、Area(面積)とHeight(高さ)とのデータから構成される。ただし、これらに加えて、又は、これらのうちの1つに代えて、Width(幅)が用いられてもよい。なお、Area(面積)は、Height(高さ)×Width(幅)で求められる値、又は、その値に所定の係数をかけた値であってもよい。
 ここで、Areaを28ビット、Heightを20ビットとし、サンプル数を2000万個とすると、最大188チャンネルのサンプルデータのデータ量は、約23ギガバイトと、膨大なデータ量となる。
 1.5.2 蛍光色素情報のデータ構造例
 図6は、本実施形態に係る蛍光色素情報を保持するサンプルグループのデータ構造例を示す図である。本例において、サンプルグループには、図5におけるサンプルグループと同様に、フローサイトメータ1にて測定されたサンプルごとのサンプルデータから構成され、数万から2000万程度若しくはそれ以上のサンプルのサンプルデータが含まれ得る。ただし、本例では、サンプルデータは、個々のサンプルから得られた測定スペクトルを蛍光分離することで得られた蛍光色素情報であってよい。
 本例において、各サンプルデータは、最大で44色#1~#44の色情報から構成され、各色#1~#44は、Area(面積)とHeight(高さ)とのデータから構成される。ただし、これらに加えて、又は、これらのうちの1つに代えて、Width(幅)が用いられてもよい。
 ここで、Areaを28ビット、Heightを20ビットとし、サンプル数を2000万個とすると、最大44色のサンプルデータのデータ量は、約5ギガバイトと、こちらも膨大なデータ量となる。
 なお、上述した測定スペクトル及び蛍光色素情報のデータ構造は、単なる例であり、測定スペクトル及び蛍光色素情報が上述のデータ構造を備えていることは必須ではない。すなわち、転送対象のデータ及び/又は保存対象のデータ(本実施形態では、測定スペクトル及び/又は蛍光色素情報)として、高次元のデータを大量に保持するグループが存在し、そのグループが保持する高次元のデータの種類が、全体の高次元のデータに比べて少ないデータ構造を備えるデータであれば、種々のデータに対して、本実施形態を適用することが可能である。例えば、光学フィルタを使用する一般的なフローサイトメータで取得される蛍光色素情報に対しても、本実施形態を適応することが可能である。
 1.6 サンプルデータ例
 つづいて、本実施形態に係るサンプルデータについて、幾つか例を挙げて説明する。
 図7及び図8は、本実施形態に係る測定スペクトルのサンプルデータ例(Area)を示す図であり、図9及び図10は、本実施形態に係る測定スペクトルのサンプルデータ例(Height)を示す図である。なお、図7に示すサンプルデータ例(Area)と、図9に示すサンプルデータ例(Height)とは、同一のサンプルAから取得したデータであり、図8に示すサンプルデータ例(Area)と、図10に示すサンプルデータ例(Height)とは、同一のサンプルBから取得したデータであるとする。
 図7及び図8に示すように、測定スペクトルのAreaについてのサンプルデータは、それぞれ最大で188チャンネルのデータを持ち、各チャンネルが28ビットのデータで表されている。
 同様に、図9及び図10に示すように、測定スペクトルのHeightについてのサンプルデータは、それぞれ最大で188チャンネルのデータを持ち、各チャンネルが20ビットのデータで表されている。
 1.7 サンプルデータに関する課題
 上述のように、本実施形態に係るフローサイトメータ1では、多色化によって取得されるサンプルあたりの次元数が増加し、それにより、サンプルグループのデータが増加している。また、フローサイトメータ1では、利便性の改善や高度な分析のために、分析環境がクラウド化されている(図3参照)。
 分析環境をクラウド化する場合、フローサイトメータ1側(情報処理装置2)からクラウド3へ分析対象のデータ(蛍光信号。すなわち、測定スペクトル及び/又は蛍光色素情報)を転送する必要が生じるが、上述のように、測定スペクトル及び/又は蛍光色素情報のデータ量は膨大であるため、これらのデータをクラウド3へ転送しようとすると膨大な転送時間が発生する。
 また、データの転送後においては、クラウド3側で転送されたデータ(蛍光信号。すなわち、測定スペクトル及び/又は蛍光色素情報)を保存しておく必要があるが、そのためには、クラウド3側に膨大な容量のストレージを確保しておなかければならず、クラウド3側に要求されるストレージコストが膨大になってしまう。
 このように、フローサイトメータ1を多色化した場合、多次元化によるデータ量の増加により、データ転送時間の長期化や、ストレージコストの増大化といった課題が発生する。
 そこで本実施形態では、フローサイトメータ1から出力されるデータ(例えば、測定スペクトル)又はそのデータから生成されるデータ(例えば、蛍光色素情報)であって、転送や保存の対象となるデータ(蛍光信号。すなわち、測定スペクトル及び/又は蛍光色素情報)のデータ量を削減する手法について、幾つか例を挙げて説明する。
 1.8 データの削減手法について
 フローサイトメータ1から得られた測定スペクトルや蛍光色素情報のデータ量を削減する場合、分析時にデータ量削減前のデータを復元することが求められる。そこで本実施形態では、データ量削減手法として、可逆圧縮によるデータ削減手法を提案する。以下に、本実施形態で利用され得る可逆圧縮手法について、いくつか例を挙げる。
 1.8.1 不要なビット表現の削減
 まず、第1の可逆圧縮手法として、不要なビット表現を削減することによる圧縮手法を例示する。この手法は、数値をビット表現する際に、使用していないビット数を削減し、より少ないビット数でデータを表現する手法である。例えば、一般的なコンピュータでは、System.int32などの構造体(型ともいう)が広く用いられている。
 ここで、System.int32で表現できるダイナミックレンジは、‘-231’から ‘231-1’の範囲であるが、仮に表現する数値が‘0’から‘255’の8ビットまでしか存在しない場合、System.int32のダイナミックレンジを使い切っていないため、この使用されていないビットが無駄となる。
 そこで、このような場合には、使用する構造体をSystem.uint8に置き換えることで、32ビットから8ビットまでデータを削減することが可能となる。このような使用していないビットを削減する手法では、削減した分のビットを追加することで元のデータを復元することが可能である。
 1.8.2 辞書式(LZ法)
 第2の可逆圧縮手法としては、辞書式の圧縮手法(LZ法)が考えられる。LZ法とは、辞書でデータを表現することで、データ量を削減する方法である。図11及び図12に、LZ法による圧縮処理の一例を示す。
 LZ法では、例えば、図11に示す入力データ‘a b ab aa ba aab aaba aaba’が入力された場合、この入力データを先頭から順に読み込むことで、図12に示すような辞書が順次作成される。そして、入力データを先頭から読み込む過程で辞書に登録したデータがあった場合、図11に示すように、図12の辞書に登録された辞書番号を使って出力データ‘(0,a)(0,b)(1,b)(1,a)(2,a)(4,b)(6,a)(7,-)’が表現される。それにより、例えば、19バイト(=1バイト×19)の入力データが、16バイト(=2バイト×8)の出力データに圧縮される。
 このようなLZ法は、出力データに基づいて辞書を参照することで、元のデータ(入力データ)を復元することが可能である。
 1.8.3 エントロピー符号
 第3の可逆圧縮手法としては、エントロピー符号を利用した圧縮手法が考えられる。エントロピー符号を利用した圧縮手法とは、出現頻度が高いデータは短いビット長で表現し、出現頻度が低いデータは長いビット長で表現することで、データを削減する手法である。図13及び図14に、エントロピー符号(ハフマン符号)を利用した圧縮処理の一例を示す。
 図13に示すように、データ列‘1 1 1 1 2 2 3 4’を通常の2ビットで表現した場合、‘00 00 00 00 01 01 10 11’と表現されるため、その合計ビット数は16ビットとなる。一方で、図14に示すエントロピー符号を利用した場合、データ列‘1 1 1 1 2 2 3 4’は、‘0 0 0 0 10 10 110 111’と表現されるため、その合計ビット数は14ビットに削減される。
 このようなエントロピー符号を利用した圧縮手法も、エントロピー符号と通常のビット表現との対応関係(図14)に基づくことで、エントロピー符号で表現されたデータ列を通常の2ビットで表現されたデータ列に復元することが可能である。
 なお、エントロピー符号を利用した圧縮手法では、データの出現確率に応じてビット長が決定されるため、特に出現頻度に偏りがある場合には、データを大幅に削減することが可能となる。
 1.8.4 統計的な予測
 第4の可逆圧縮手法としては、統計的な予測を用いた圧縮手法が考えられる。統計的な予測を用いた圧縮手法とは、観測したデータから次に出現するデータを予測することで、データを削減する手法である。例えば、‘abcabc’が連続するデータを考える。このデータをエントロピー符号で圧縮した場合、‘a’、‘b’、‘c’の出現頻度の偏りは無いため、データの削減率を上げられない。一方で、‘a’の次に‘b’が出現する確率を使って符号化した場合、偏りを持たせることが可能となるため、データの削減率を上げることが可能となる。
 なお、上述において例示した可逆圧縮手法は、2つ以上を組み合わせて使用することが可能である。例えば、zipなどの圧縮手法では、辞書式の圧縮手法(LZ法)とエントロピー符号を利用した圧縮手法とが組み合わされて、データが圧縮される。また、本実施形態では、上述した可逆圧縮手法に限定されず、種々の可逆圧縮手法及びその組合せを用いることが可能である。
 1.9 高次元のデータを可逆圧縮する際の課題
 つづいて、上述において例示した可逆圧縮手法それぞれを用いてサンプルグループのような高次元のデータを可逆圧縮する際の課題について説明する。
 1.9.1 不要なビット表現の削減の場合
 第1の可逆圧縮手法として例示した不要なビット表現を削減することによる圧縮手法では、データを保存する構造体のダイナミックレンジが機器が取り得る値から算出される。そのため、極端な測定データ以外では削減率を効果的に挙げることができないという課題が存在する。
 1.9.2 辞書式(LZ法)の場合
 第2の可逆圧縮手法として例示した辞書式の圧縮手法(LZ法)では、蛍光スペクトルのようなサンプルごとに変化するデータに対しては、辞書を用いてスペクトル形状の特徴を捉えることが困難であるため、削減率を効果的に上げることが難しいという課題がある。仮に、1つのサンプルデータを辞書に登録した場合でも、他のサンプルデータのスペクトル形状が完全に一致することは少ないため、削減率を上けることが困難である。同様に、サンプルデータを細かく区切り、それぞれを辞書に登録したとしても、完全一致することは稀であるため、思うように削減率を上げることは困難である。
 1.9.3 エントロピー符号の場合
 第3の可逆圧縮手法として例示したエントロピー符号を利用した圧縮手法では、サンプルデータのような、28ビットや20ビットといった広ダナミックレンジのデータを対象とした場合、取り得る数値のバリエーションが多く、出現頻度の偏りが発生し難いため、削減率を上げることが難しいという課題が存在する。
 1.9.4 統計的な予測の場合、
 第4の可逆圧縮手法として例示した統計的な予測を用いた圧縮手法では、蛍光スペクトルのようなスペクトル形状は、観測した値から次の値を予測するのが難しい。そのため、精度の高い予測モデルを生成することが難しく、削減率を上がることが困難であるという課題が存在する。
 このように、上述した既存の可逆圧縮手法では、サンプルグループのような高次元のデータに対して効果的なデータ削減をすることができないという課題が存在する。
 1.10 データ削減手法
 そこで本実施形態では、サンプルグループの特徴を利用することで、効果的にデータ削減率を高めることを可能にする。図15は、本実施形態に係るデータ削減手法の概要を説明するための図である。なお、以下で例示するデータ削減手法における圧縮の動作は、例えば、情報処理装置2が所定のプログラムを実行することで実現されてよい。また、データ削減手法における展開の動作は、例えば、クラウド3が所定のプログラムを実行することで実現されてよい。すなわち、本実施形態において、情報処理装置2は差分算出部及び圧縮部としても機能し得、クラウド3は展開部及び復元部としても機能し得る。
 図15に示すように、本実施形態では、圧縮の際に、サンプルグループの特徴を利用するために、データの圧縮(S02)前に差分データの生成(S01)を実行する。同様に、展開時には、展開(S11)した差分データの復元(S12)を実行する。差分データの生成(S01)では、サンプルグループ内のサンプル同士の差が算出される。なお、データの圧縮(S02)で生成された圧縮データは、クラウド3へ転送されてもよいし、情報処理装置2が備える記録装置(保存部ともいう)に保存されてもよい。
 差分データを生成する理由は、スペクトル形状の似たサンプル同士の差分を取ることで、圧縮の削減効果を高めるためである。図16に、図15のステップS01で実行される差分データの生成の一例を示す。図16に示す例において、サンプルAとサンプルBとは、スペクトル形状の似たサンプルであるとする。図16に示すように、スペクトル形状の似たサンプルA及びBの差を計算することで、差分データにおけるダイナミックレンジを狭くすることが可能となる。なお、ここで言うダイナミックレンジとは、最小値と最大値との差であってよい。ダイナミックレンジを狭くすることで、不要なビット表現を削減することによる圧縮手法やエントロピー符号を利用した圧縮手法のデータ削減効果を高めることが可能となる。
 また、サンプルグループ内のサンプル同士で差分を取る理由として、サンプルグループの性質が関係している。図17は、本実施形態に係るサンプルグループの性質の一例を説明するための図である。
 図17に示すように、サンプルグループの性質としては、まず第1に、サンプルグループ内のサンプルの種類数(例えば、細胞の種類数)が、サンプルグループ全体のサンプル数(例えば、細胞の数)と比較して、圧倒的に少ないということが挙げられる。サンプルグループには数万から数千万のサンプルが存在するが、この中に含まれるサンプルの種類は数百種類程度と、サンプルグループ内のサンプル数よりも小さい値である。そのため、いずれのサンプルに関しても、それと似た性質を持つサンプルが存在する可能性が非常に高い。
 また、第1の性質としては、同じ種類のサンプルは似た特徴値を持つことが挙げられる。図17に示す例において、サンプル#1とサンプル#3とを同じ種類のサンプル(細胞)とした場合、それらのサンプルデータは似たスペクトル形状となる。
 このように、サンプルグループ全体をサンプル単位で観察すると、冗長な部分が存在する。そこで本実施形態では、この冗長な部分を差分を使って取り除くことで、データの削減率を高める。
 1.11 データ削減方法
 次に、本実施形態に係るデータ削減方法について、以下に具体例を挙げて説明する。なお、以下では、図15に例示した圧縮及び展開におけるデータ削減方法について説明する。
 1.11.1 データの圧縮・展開
 図15で例示したデータの圧縮・展開では、上述した可逆圧縮手法又はそれらの組合せを使用することができる。また、使用する可逆圧縮手法に応じて、後述するサンプル間の類似度の判定方法を変えることで、データ削減において有利な差分データを算出することが可能となる。
 1.11.2 差分データのフォーマット
 図18は、本実施形態に係る差分データを説明するための模式図である。なお、図18には、サンプル#1に類似するサンプルとしてサンプル#100が特定され、サンプル#1を差分データに圧縮する場合が示されている。
 図18に示すように、本実施形態に係る差分データは、例えば、ヘッダ領域R1と、データ領域R2とから構成される。
 データ領域R2には、例えば、サンプルデータ間の差分を次元(チャンネル)ごとに計算することで算出された次元(チャンネル)ごとの差分値が格納される。
 ヘッダ領域R1には、この差分を取ったサンプルを特定するためのインデックスが格納される。なお、可逆圧縮手法として不要なビット表現を削減することによる圧縮手法が使用される場合には、ヘッダ領域R1には、各次元の差分値における最上位ビット(MSB)を特定するための情報も格納される。
 ヘッダ領域R1における類似サンプルのインデックスは、サンプル#1のサンプルデータを元データに復元する際に利用される。なお、サンプル#1に類似するサンプルがサンプルグループから発見されなかった場合、ヘッダ領域R1には、類似サンプルのインデックスの代わりに、類似サンプルが存在しないことを示す値として予め割り当てておいた特定の数値(例えば、‘0’など)を格納してもよい。
 このようなデータフォーマットによれば、元データと比較して、ヘッダ領域R1分のデータ量が増加するものの、データ領域R2に格納されるデータ量を大幅に削減することが可能となるため、結果的に、元データよりも大幅にデータ量を削減することが可能となる。
 1.11.3 差分データの生成・復元方法
 つづいて、本実施形態に係る差分データの生成方法及び復元方法について説明する。なお、以下では、類似サンプルの判定方法と、類似サンプルの選択方法とについて、それぞれ具体的に説明する。
 1.11.3.1 類似サンプルの判定方法
 まず、複数のサンプルが与えられた場合に、あるサンプルに対して何れのサンプルが最も類似しているかを判定する方法(類似性判定方法)について説明する。上述したように、サンプルデータは多次元のデータであるため、一般的にはユークリッド距離やコサイン類似度等を用いて2つのサンプルの類似性を判定することができる。ただし、本実施形態では、類似すると判定されたサンプル同士の差分値が圧縮対象のデータとなるため、2つのサンプルの類似性をどのような方法で判定したかによって、言い換えれば、類似性判定方法を適宜選択することで、圧縮効率を変化させることができる。これは、類似性判定方法を選択して差分値をデザインすることで、圧縮効率をコントロールすることが可能であることを意味している。そこで本実施形態では、上述した一般的な類似性判定方法(ユークリッド距離やコサイン類似度等)に加えて、以下に2つの方法を例示する。
 1.11.3.1.1 第1の類似性判定方法
 第1の類似性判定方法として、ダイナミックレンジが狭い差分を得る方法を例示する。図19は、本実施形態に係る第1の類似性判定方法を説明するための図である。図19には、サンプルAに対して、サンプルBとサンプルCとのどちらの方が類似しているかを判定する場合が示されている。
 図19に示すように、第1の類似性判定方法では、最初に各サンプルの差分値を計算する。この計算では、例えば、各サンプルについて、他の全てのサンプルとの差分値が計算される。図19に示す例では、サンプルAについて、サンプルBとの差分値と、サンプルCとの差分値とが、それぞれ計算される。
 つづいて、各サンプルについて計算された差分値のデータセット(差分値#1~#188)について、最上位ビット(MSB)が特定される。図19に示す例では、サンプルAとサンプルBとの差分値のデータセットを差分ABとし、サンプルAとサンプルCとの差分値のデータセットを差分ACとすると、差分ABと差分ACとのそれぞれについて、各差分値のMSBが特定される。
 次に、それぞれのデータセットについて特定された最大MSBのうち、最小のMSBを含むデータセットを算出する際に用いられたサンプルデータのサンプルが、類似サンプルとして特定される。図19に示す例において、差分ABのMSBの方が差分ACのMSBよりも小さい場合には、サンプルBがサンプルAに類似するサンプルとして特定される。
 なお、最小のMSBを含むデータセットが複数ある場合には、例えば、サンプルに付されたインデックスが最も若いサンプルが選択されてもよい。
 以上のように、差分値のMSBが最小となるサンプルの組合せとなるようにサンプル間の類似性を判定することで、例えば、不要なビット表現を削減することによる圧縮手法の圧縮効率を最大限に発揮させることが可能となる。
 なお、不要なビット表現を削減することによる圧縮手法により差分データを圧縮した場合には、そのヘッダ領域R1には、各差分値のMSBを特定するための情報が格納されてよい。
 1.11.3.1.2 第2の類似性判定方法
 第2の類似性判定方法として、エントロピーが高い差分を得る方法を例示する。図20は、本実施形態に係る第2の類似性判定方法を説明するための図である。図20には、サンプルAに対して、サンプルBとサンプルCとのどちらが類似しているかを判定する場合が示されている。
 第2の類似性判定方法において、各サンプル間の差分を生成する方法は、第1の類似性判定方法と同様であってよいため、ここでは詳細な説明を省略する。
 図20に示すように、第2の類似性判定方法では、まず、差分ABに含まれる差分値#1~#188と、差分ACに含まれる差分値#1~#188とのそれぞれの値の出現頻度(出現回数ともいう)が、差分値出現頻度管理データベース301を用いて管理される。この管理は、例えば、差分AB及び差分ACにおける各次元の差分値が算出されるたびに、差分値出現頻度管理データベース301においてその差分値と同じ値の出現頻度を1インクリメントすることで実現されてもよい。なお、差分値出現頻度管理データベース301は、過去に同一のサンプルグループについて計算された差分値の出現頻度を格納したものであってよい。すなわち、差分値出現頻度管理データベース301は、サンプルグループごと、或いは、同一のサンプルグループに対する類似性判定処理の実行ごとに作成されてよい。ただし、これに限定されるものではない。
 図21に、本実施形態に係る差分値出現頻度管理データベースの一例を示す。図21に示すように、差分値出現頻度管理データベース301には、差分値の値ごとに出現頻度が管理され、また、出現頻度に応じてビット長の異なるエントロピー符号が割り当てられている。エントロピー符号の割当て方法は、エントロピー符号を利用した圧縮手法と同様の方法であってもよい。
 次に、第2の類似性判定方法では、差分AB及び差分ACそれぞれについて、各差分値#1~#188の出現頻度が特定され、特定された出現頻度の合計値が差分AB及び差分ACそれぞれについて算出される。そして、算出された合計値がより大きいデータセットの作成に使用したサンプルデータのサンプルが、類似サンプルとして特定される。図20に示す例において、差分ABの出現頻度の合計値が差分ACの出現頻度の合計値よりも大きい場合には、サンプルBがサンプルAに類似するサンプルとして特定される。
 これを別の例を用いて説明する。例えば、サンプルグループにA、B、C、X、Yという5つのサンプルが存在し、サンプルXとサンプルYとが類似と判断された後に、サンプルAの類似サンプルを5つのサンプルから探し出す場合、差分値出現頻度管理データベース301には、サンプルXとサンプルYとの差分値から特定された出現頻度が格納されている。この状態でサンプルAに類似する類似サンプルを探し出す場合、差分AB、AC、AX、AYそれぞれのデータセットにおける差分値の出現頻度af1~af188の合計が計算され、この合計値が最も大きいデータセットのサンプルが、サンプルAに類似する類似サンプルとして特定される。
 以上、2つの類似性判定方法を例示したが、本実施形態では、必ずしも類似のサンプルを決めなければならない訳ではなく、元データの方が差分値のデータセットよりもMSBや合計出現頻度において良好な値が得られる場合には、差分を取らずに元データをそのまま圧縮対象のデータとして使用してもよい。その場合、ヘッダ領域R1には、類似サンプルを示すインデックスの代わりに、データ領域R2内のデータが元データであることを示す情報が格納されてよい。
 1.11.3.2 類似サンプルの選択方法
 次に、類似サンプルの選択方法について説明する。類似サンプルの選択方法としては、例えば、一般的なクラスタリングを使った方法と、辞書を使った方法とを例示することができる。
 1.11.3.2.1 第1の類似サンプル選択方法
 第1の類似サンプル選択方法として例示するクラスタリングを使った方法は、クラスタの代表点から代表サンプルを選定し、各サンプルを代表サンプルとの差分で表現する方法である。図22は、本実施形態に係る第1の類似サンプル選択方法を説明するための図である。図22には、クラスタリング手法としてk平均法(k-means clustering)を用いた場合が例示されている。
 図22に示すように、第1の類似サンプル選択方法では、サンプルグループに対してk平均法によるクラスタリングが実行される。そして、生成されたクラスタから代表サンプルが決定される。図22に示す例では、サンプルA~Eの5つのサンプルが、サンプルA、B及びEを含むクラスタと、サンプルC及びDを含むクラスタとの2つのクラスタに分かれ、各クラスタの中心に最も近いサンプルAとサンプルCとがそれぞれのクラスタの代表サンプルとして選択される。
 第1の類似サンプル選択方法では、代表サンプル以外のサンプルは、代表サンプルとの差分で表現される。図22に示す例では、サンプルB及びEが代表サンプルAとの差分で表現され、サンプルDが代表サンプルCとの差分で表現される。
 1.11.3.2.2 第2の類似サンプル選択方法
 第2の類似サンプル選択方法として例示する辞書を使った方法は、サンプルグループを先頭から読みながら辞書を構築し、その辞書を使って差分を生成する方法である。図23~図27は、本実施形態に係る第2の類似サンプル選択方法を説明するための図である。なお、図23~図27では、サンプルグループにサンプルA~Eの5つのサンプルが含まれている場合を例示する。
 第2の類似サンプル選択方法において、初期状態の辞書は、空の状態、すなわち何も登録されていない状態であってよい。第2の類似サンプル選択方法では、図23に示すように、まず、入力として、サンプルグループにおけるサンプルを先頭から順番に読み込む。したがって、最初の段階では、サンプルグループにおける先頭のサンプルAのサンプルデータが読み込まれる。次に、読み込んだサンプルAのサンプルデータが辞書に辞書番号#1で登録される。また、サンプルAの差分データとしては、サンプルAのサンプルデータがそのまま出力される。その際、サンプルAの差分データは差分値ではないため、そのヘッダ領域R1における参照辞書番号には、差分値ではないことを示す値として予め割り当てておいた特定の数値(例えば、‘0’など)が格納される。
 次に、図24に示すように、入力として、サンプルグループにおける次のサンプルBのサンプルデータが読み込まれ、読み込んだサンプルBとサンプルAとの差分が計算される。読み込んだサンプルBとサンプルAとの差分値から、サンプルBがサンプルAに類似していると判定される場合、サンプルBの差分データとしては、サンプルBからサンプルAを減算することで算出された差分BAが出力される。また、そのヘッダ領域R1における参照辞書番号には、差分値の算出に使用したサンプルAを特定するための参照辞書番号(=1)が格納される。
 次に、図25に示すように、入力として、サンプルグループにおける次のサンプルCのサンプルデータが読み込まれ、読み込んだサンプルCとサンプルAとの差分が計算される。読み込んだサンプルCとサンプルAとの差分値から、サンプルCがサンプルAに類似しないと判定される場合、サンプルCのサンプルデータが辞書に辞書番号#2で登録される。また、サンプルCの差分データとしては、サンプルCのサンプルデータがそのまま出力される。その際、サンプルCの差分データは差分値ではないため、そのヘッダ領域R1における参照辞書番号には、差分値ではないことを示す値として予め割り当てておいた特定の数値(例えば、‘0’など)が格納される。
 次に、図26に示すように、入力として、サンプルグループにおける次のサンプルDのサンプルデータが読み込まれ、読み込んだサンプルDとサンプルAとの差分、及び、サンプルDとサンプルCとの差分値がそれぞれ計算される。算出された差分値から、サンプルDがサンプルCに類似していると判定される場合、サンプルDの差分データとしては、サンプルDからサンプルCを減算することで算出された差分DCが出力される。また、そのヘッダ領域R1における参照辞書番号には、差分値の算出に使用したサンプルCを特定するための参照辞書番号(=2)が格納される。
 以降、同様の動作を繰返し実行することで、図27に示すように、最終的に、全てのサンプルについて、ヘッダに参照辞書番号を含む差分データを生成する。
 1.12 まとめ
 以上のように、本実施形態によれば、圧縮対象のデータ(サンプルグループ)の特徴に応じて当該データを圧縮することが可能となるため、データ転送時間の短縮又はその長期化の抑制やデータの保存に必要なストレージコストの縮小又はその増大化の抑制を達成することができる。
 例えば、多色化された次世代のフローサイトメータ1から取得されるサンプルグループを情報処理装置2からクラウド3へ転送する場合でも、サンプルグループの転送時間の短縮又はその長期化の抑制を達成することが可能となる。また、上記で説明したデータ削減手法を、クラウド3において保存するサンプルグループに対して適用することで、サンプルグループの保存に必要なストレージコストの縮小又はその増大化の抑制を達成することも可能となる。
 2.第2の実施形態
 次に、本開示の第2の実施形態について説明する。なお、本実施形態に係るフローサイトメータ及び情報処理システムの構成及び動作は、上述した実施形態と同様であってよいため、ここでは詳細な説明を省略する。
 2.1 蛍光スペクトル・蛍光色素情報で得られた類似性情報の相互利用について
 第1の実施形態で圧縮対象としているデータは、蛍光スペクトル及び/又は蛍光色素情報である。そのため、蛍光スペクトル及び蛍光色素情報の両方を圧縮する場合、蛍光スペクトルの圧縮と蛍光色素情報の圧縮とのそれぞれにおいて、差分データの生成(図15のステップS01に相当)を実行する必要が生じ得る。
 ただし、圧縮対象としている蛍光スペクトル及び蛍光色素情報は、同一のサンプルグループから測定された蛍光スペクトルと、この蛍光スペクトルから生成された蛍光色素情報とである。そのため、蛍光スペクトルで類似性が高いと判定されたサンプル同士は、蛍光色素情報においても類似性が高いサンプル同士と判定される可能性が非常に高い。これは、蛍光スペクトルと蛍光色素情報とでは次元数が異なるが、表しているサンプルの種類自体は同じであるためである。
 このような条件下では、蛍光スペクトル及び蛍光色素情報のうちの一方のデータ圧縮における差分データの生成(S01)で得られた類似性に関する情報(以下、類似性情報という)を、他方のデータ圧縮において利用することができると考えられる(類似性情報の相互利用)。
 そこで本実施形態では、蛍光スペクトル及び蛍光色素情報それぞれの圧縮処理のうち、一方の差分データの生成(S01)における類似サンプルの判定処理で得られた結果(類似性情報)を、他方の差分データの生成(S01)で利用することで、この他方の差分データの生成(S01)における類似サンプルの判定処理を省略する。それにより、他方の圧縮処理が高速化されるため、全体の圧縮処理を高速化することが可能となる。
 類似性情報の相互利用は、例えば、一方の圧縮処理の過程で生成されたサンプルごとの類似性情報(何れのサンプルと類似しているかを示す情報)をデータベース等で管理しておき、他方の圧縮処理においてデータベース等で管理されている類似性情報を参照することで、実現することが可能である。
 その他の構成、動作及び効果は、上述した実施形態と同様であってよいため、ここでは詳細な説明を省略する。
 3.第3の実施形態
 次に、本開示の第3の実施形態について説明する。なお、本実施形態に係るフローサイトメータ及び情報処理システムの構成及び動作は、上述した実施形態と同様であってよいため、ここでは詳細な説明を省略する。
 3.1 分割圧縮・復号によるクラウド転送の高速化
 図28は、本実施形態に係る圧縮、転送及び復号の実行順序例を説明するための図であり、(a)は、圧縮、転送及び復号を逐次的に実行する場合の処理の流れを示す模式図であり、(b)は、圧縮、転送及び復号をパイプライン化した場合の処理の流れを示す模式図である。
 図28の(a)に示すように、圧縮、データ転送及び復号を逐次的に実行する場合、情報処理装置2(図3参照)において圧縮処理S1を実行して全ての圧縮データが揃ってから、情報処理装置2からクラウド3へ圧縮データの転送S2が実行され、その後、クラウド3側において全ての圧縮データを受信し終わってから、圧縮データの復元S3が実行される。
 これに対し、図28の(b)に示すように、圧縮、データ転送及び復号をパイプライン化して部分的に並列処理を実行する場合、情報処理装置2(図3参照)において圧縮処理S1の完了を待たずに、生成された圧縮データから順に、情報処理装置2からクラウド3へ圧縮データの転送S2が実行され、その後、クラウド3側において受信された圧縮データから順に、圧縮データの復元S3が実行される。そのため、圧縮、データ転送及び復号をパイプライン化することで、情報処理装置2側におけるサンプルデータの圧縮からクラウド3側における圧縮データの復元までに要する時間を大幅に短縮することが可能となる。
 図29は、本実施形態に係る圧縮、転送及び復号の実行順序例をより詳細に説明するための図である。図29に示すように、本実施形態では、サンプルグループが複数のブロックに分割される。各ブロックは、例えば数千~数十万程度のサンプルで構成されていてよい。
 情報処理装置2は、ブロック単位で圧縮を実行し、圧縮が完了したブロックから順に、その圧縮データをクラウド3へ転送(送信→受信)する。そして、クラウド3は、情報処理装置2からブロック単位で受信した圧縮データを順次、復元する。
 このようなパイプライン化により、次ブロックの圧縮処理(例えば、圧縮#2、#3)が前ブロックの転送処理(例えば、送信#1、#2及び受信#1)の裏に隠れ、前ブロックの復元処理(例えば、復元#1、#2)が次ブロックの転送処理(例えば、送信#3及び受信#2及び#3)の裏に隠れるため、全てのサンプルデータに対する圧縮から復元までの処理時間を大幅に短縮することが可能となる。
 なお、圧縮対象のデータをより小さいブロック単位に区切った場合、データ削減率が低下してしまう可能性が存在するが、本実施形態で例示したサンプルデータのように、サンプル数が数万から2000万以上あるのに対し、サンプルの種類が数百種類程度である場合には、サンプルグループを数千から数十万程度のブロックに分割したとしても、各ブロックで十分なデータ削減率を実現することが可能である。
 その他の構成、動作及び効果は、上述した実施形態と同様であってよいため、ここでは詳細な説明を省略する。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 サンプルグループに属する複数のサンプルそれぞれに励起光を照射する励起光源と、
 前記励起光の前記サンプルへの照射により発生する蛍光を測定する測定部と、
 前記サンプルそれぞれについて測定された前記蛍光に基づく蛍光信号のうち、類似する蛍光信号同士の差分に基づき差分データを生成する情報処理部と、
 を備える情報処理システム。
(2)
 前記情報処理部は、前記複数の蛍光信号から選択された2つの蛍光信号の組合せのうち、算出される差分が最も小さい組合せを、前記類似する蛍光信号とする
 前記(1)に記載の情報処理システム。
(3)
 前記蛍光信号は、複数の次元を含み、
 前記情報処理部は、前記複数の蛍光信号から選択された2つの蛍光信号の組合せのうち、対応する次元間で算出される差分の最大値が最も小さい組合せを、前記類似する蛍光信号とする
 前記(1)又は(2)に記載の情報処理システム。
(4)
 前記情報処理部は、前記複数の蛍光信号から選択された2つの蛍光信号の組合せのうち、算出される差分の出現頻度が最も高い組合せを、前記類似する蛍光信号とする
 前記(1)~(3)の何れか1つに記載の情報処理システム。
(5)
 前記蛍光信号は、複数の次元を含み、
 前記情報処理部は、前記複数の蛍光信号から選択された2つの蛍光信号の組合せのうち、対応する次元間で算出される差分の出現頻度の合計が最も大きい組合せを、前記類似する蛍光信号とする
 前記(1)~(4)の何れか1つに記載の情報処理システム。
(6)
 前記情報処理部は、ユークリッド距離及びコサイン類似度のうちの少なくとも1つを用いて、前記類似する蛍光信号を特定する
 前記(1)~(5)の何れか1つに記載の情報処理システム。
(7)
 前記差分データは、前記差分の算出に使用した前記類似する蛍光信号の組合せを特定するための第1情報を含む
 前記(1)~(6)の何れか1つに記載の情報処理システム。
(8)
 前記差分データは、前記複数の蛍光信号のうちの第1の蛍光信号に類似する蛍光信号が前記サンプルグループに存在しない場合、前記第1情報に代えて所定の第2情報を含む
 前記(7)に記載の情報処理システム。
(9)
 前記情報処理部は、前記差分データの圧縮により圧縮データを生成する、
 前記(1)~(8)の何れか1つに記載の情報処理システム。
(10)
 前記情報処理部は、可逆圧縮手法を用いて前記差分データを圧縮する
 前記(9)に記載の情報処理システム。
(11)
 前記情報処理部は、不要なビット表現を削減することによる圧縮手法、辞書式の圧縮手法、エントロピー符号を利用した圧縮手法、及び、統計的な予測を用いた圧縮手法のうち少なくとも1つを用いて前記差分データを圧縮する
 前記(9)又は(10)に記載の情報処理システム。
(12)
 前記差分データは、前記差分の最上位ビットを特定するための情報を含み、
 前記情報処理部は、不要なビット表現を削減することによる圧縮手法を含む前記可逆圧縮手法を用いて前記差分データを圧縮する
 前記(10)に記載の情報処理システム。
(13)
 前記蛍光信号は、サンプルに光が照射されることにより生じる光の第1スペクトル情報を含む
 前記(1)~(12)の何れか1つに記載の情報処理システム。
(14)
 前記蛍光信号は、蛍光色素で標識されたサンプルに励起光が照射されることにより生じる光のスペクトル情報より求まる前記蛍光色素の蛍光色素情報を含む
 前記(1)~(13)の何れか1つに記載の情報処理システム。
(15)
 前記蛍光信号は、蛍光色素で標識されたサンプルに励起光が照射されることにより生じる光のスペクトル情報と、前記スペクトル情報より求まる前記蛍光色素の蛍光色素情報とを含み、
 前記情報処理部は、類似する前記スペクトル情報同士の差分を算出する際に特定した前記類似するスペクトル情報それぞれのサンプルの組合せに基づいて、類似する前記蛍光色素情報を特定し、特定した前記類似する蛍光色素情報同士の差分を算出する
 前記(1)~(14)の何れか1つに記載の情報処理システム。
(16)
 前記情報処理部により生成された前記圧縮データを所定のネットワークを介して送信する送信部をさらに備える
 前記(9)~(12)の何れか1つに記載の情報処理システム。
(17)
 前記情報処理部により生成された前記圧縮データを保存する保存部をさらに備える
 前記(9)~(12)の何れか1つに記載の情報処理システム。
(18)
 前記情報処理部で生成された前記差分の圧縮データを展開する展開部と、
 前記展開部で展開された前記差分に基づいて前記複数の蛍光信号を復元する復元部と、
 を備える前記(1)~(17)の何れか1つに記載の情報処理システム。
(19)
 サンプルグループに属する複数のサンプルそれぞれへ励起光を照射することで発生した蛍光に基づく蛍光信号のうち、類似する蛍光信号同士の差分を算出する差分算出部と、
 前記差分を圧縮する圧縮部と、
 を備える情報処理装置。
(20)
 サンプルグループに属する複数のサンプルそれぞれへ励起光を照射することで発生した蛍光に基づく蛍光信号のうち、類似する蛍光信号同士の差分を算出し、
 前記差分を圧縮する
 ことを含む情報処理方法。
 1 フローサイトメータ
 2 情報処理装置
 3 クラウド
 4 端末
 100 光源部
 101~103 励起光源
 111、115 全反射ミラー
 112、113 ダイクロイックミラー
 116 対物レンズ
 120 マイクロチップ
 123a スポット
 130 散乱光検出部
 131、133、135 レンズ
 132 全反射ミラー
 134 マスク
 136 光検出器
 137 絞り
 140 蛍光検出部
 141 分光光学系
 141a 光学素子
 142 光検出器
 150 分波光学系
 151 フィルタ
 152 コリメートレンズ
 153 ダイクロイックミラー
 154 全反射ミラー
 L1、L2、L3 励起光
 L11 光
 L12 前方散乱光
 L13 蛍光
 L14 分散光

Claims (20)

  1.  サンプルグループに属する複数のサンプルそれぞれに励起光を照射する励起光源と、
     前記励起光の前記サンプルへの照射により発生する蛍光を測定する測定部と、
     前記サンプルそれぞれについて測定された前記蛍光に基づく蛍光信号のうち、類似する蛍光信号同士の差分に基づき差分データを生成する情報処理部と、
     を備える情報処理システム。
  2.  前記情報処理部は、前記複数の蛍光信号から選択された2つの蛍光信号の組合せのうち、算出される差分が最も小さい組合せを、前記類似する蛍光信号とする
     請求項1に記載の情報処理システム。
  3.  前記蛍光信号は、複数の次元を含み、
     前記情報処理部は、前記複数の蛍光信号から選択された2つの蛍光信号の組合せのうち、対応する次元間で算出される差分の最大値が最も小さい組合せを、前記類似する蛍光信号とする
     請求項1に記載の情報処理システム。
  4.  前記情報処理部は、前記複数の蛍光信号から選択された2つの蛍光信号の組合せのうち、算出される差分の出現頻度が最も高い組合せを、前記類似する蛍光信号とする
     請求項1に記載の情報処理システム。
  5.  前記蛍光信号は、複数の次元を含み、
     前記情報処理部は、前記複数の蛍光信号から選択された2つの蛍光信号の組合せのうち、対応する次元間で算出される差分の出現頻度の合計が最も大きい組合せを、前記類似する蛍光信号とする
     請求項1に記載の情報処理システム。
  6.  前記情報処理部は、ユークリッド距離及びコサイン類似度のうちの少なくとも1つを用いて、前記類似する蛍光信号を特定する
     請求項1に記載の情報処理システム。
  7.  前記差分データは、前記差分の算出に使用した前記類似する蛍光信号の組合せを特定するための第1情報を含む
     請求項1に記載の情報処理システム。
  8.  前記差分データは、前記複数の蛍光信号のうちの第1の蛍光信号に類似する蛍光信号が前記サンプルグループに存在しない場合、前記第1情報に代えて所定の第2情報を含む
     請求項7に記載の情報処理システム。
  9.  前記情報処理部は、前記差分データの圧縮により圧縮データを生成する、
     請求項1に記載の情報処理システム。
  10.  前記情報処理部は、可逆圧縮手法を用いて前記差分データを圧縮する
     請求項9に記載の情報処理システム。
  11.  前記情報処理部は、不要なビット表現を削減することによる圧縮手法、辞書式の圧縮手法、エントロピー符号を利用した圧縮手法、及び、統計的な予測を用いた圧縮手法のうち少なくとも1つを用いて前記差分データを圧縮する
     請求項9に記載の情報処理システム。
  12.  前記差分データは、前記差分の最上位ビットを特定するための情報を含み、
     前記情報処理部は、不要なビット表現を削減することによる圧縮手法を含む前記可逆圧縮手法を用いて前記差分データを圧縮する
     請求項10に記載の情報処理システム。
  13.  前記蛍光信号は、サンプルに光が照射されることにより生じる光の第1スペクトル情報を含む
     請求項1に記載の情報処理システム。
  14.  前記蛍光信号は、蛍光色素で標識されたサンプルに励起光が照射されることにより生じる光のスペクトル情報より求まる前記蛍光色素の蛍光色素情報を含む
     請求項1に記載の情報処理システム。
  15.  前記蛍光信号は、蛍光色素で標識されたサンプルに励起光が照射されることにより生じる光のスペクトル情報と、前記スペクトル情報より求まる前記蛍光色素の蛍光色素情報とを含み、
     前記情報処理部は、類似する前記スペクトル情報同士の差分を算出する際に特定した前記類似するスペクトル情報それぞれのサンプルの組合せに基づいて、類似する前記蛍光色素情報を特定し、特定した前記類似する蛍光色素情報同士の差分を算出する
     請求項1に記載の情報処理システム。
  16.  前記情報処理部により生成された前記圧縮データを所定のネットワークを介して送信する送信部をさらに備える
     請求項9に記載の情報処理システム。
  17.  前記情報処理部により生成された前記圧縮データを保存する保存部をさらに備える
     請求項9に記載の情報処理システム。
  18.  前記情報処理部で生成された前記差分の圧縮データを展開する展開部と、
     前記展開部で展開された前記差分に基づいて前記複数の蛍光信号を復元する復元部と、
     を備える請求項1に記載の情報処理システム。
  19.  サンプルグループに属する複数のサンプルそれぞれへ励起光を照射することで発生した蛍光に基づく蛍光信号のうち、類似する蛍光信号同士の差分を算出する差分算出部と、
     前記差分を圧縮する圧縮部と、
     を備える情報処理装置。
  20.  サンプルグループに属する複数のサンプルそれぞれへ励起光を照射することで発生した蛍光に基づく蛍光信号のうち、類似する蛍光信号同士の差分を算出し、
     前記差分を圧縮する
     ことを含む情報処理方法。
PCT/JP2021/006046 2020-03-26 2021-02-18 情報処理システム、情報処理装置及び情報処理方法 WO2021192750A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022509412A JPWO2021192750A1 (ja) 2020-03-26 2021-02-18
CN202180021071.8A CN115280133A (zh) 2020-03-26 2021-02-18 信息处理系统、信息处理装置和信息处理方法
EP21775473.8A EP4130712A4 (en) 2020-03-26 2021-02-18 INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US17/912,655 US20230138514A1 (en) 2020-03-26 2021-02-18 Information processing system, information processing apparatus, and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020056230 2020-03-26
JP2020-056230 2020-03-26

Publications (1)

Publication Number Publication Date
WO2021192750A1 true WO2021192750A1 (ja) 2021-09-30

Family

ID=77892484

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/006046 WO2021192750A1 (ja) 2020-03-26 2021-02-18 情報処理システム、情報処理装置及び情報処理方法

Country Status (5)

Country Link
US (1) US20230138514A1 (ja)
EP (1) EP4130712A4 (ja)
JP (1) JPWO2021192750A1 (ja)
CN (1) CN115280133A (ja)
WO (1) WO2021192750A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0620428A1 (en) * 1993-03-19 1994-10-19 Becton, Dickinson and Company Method for compression of multiparameter event list recordings
JP2004221708A (ja) * 2003-01-10 2004-08-05 Dainippon Printing Co Ltd 時系列信号の符号化装置および復号装置
WO2006028156A1 (ja) * 2004-09-10 2006-03-16 Pioneer Corporation 画像処理装置、画像処理方法、および画像処理プログラム
JP2008199587A (ja) * 2007-01-18 2008-08-28 Matsushita Electric Ind Co Ltd 画像符号化装置、画像復号化装置および方法
JP2009104026A (ja) 2007-10-25 2009-05-14 Nisca Corp 光学フィルタの製造方法及び光学フィルタ並びに撮像光量調整装置
JP2012004636A (ja) * 2010-06-14 2012-01-05 Yokogawa Electric Corp データ圧縮装置およびデータ復元装置
JP2013246140A (ja) * 2012-05-29 2013-12-09 Sony Corp 情報処理装置、情報処理方法、及びプログラム
WO2017203679A1 (ja) * 2016-05-27 2017-11-30 株式会社日立ハイテクノロジーズ 発光画像符号化装置、発光画像復号化装置、及び発光画像解析システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751462B2 (en) * 2008-11-14 2014-06-10 Emc Corporation Delta compression after identity deduplication

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0620428A1 (en) * 1993-03-19 1994-10-19 Becton, Dickinson and Company Method for compression of multiparameter event list recordings
JP2004221708A (ja) * 2003-01-10 2004-08-05 Dainippon Printing Co Ltd 時系列信号の符号化装置および復号装置
WO2006028156A1 (ja) * 2004-09-10 2006-03-16 Pioneer Corporation 画像処理装置、画像処理方法、および画像処理プログラム
JP2008199587A (ja) * 2007-01-18 2008-08-28 Matsushita Electric Ind Co Ltd 画像符号化装置、画像復号化装置および方法
JP2009104026A (ja) 2007-10-25 2009-05-14 Nisca Corp 光学フィルタの製造方法及び光学フィルタ並びに撮像光量調整装置
JP2012004636A (ja) * 2010-06-14 2012-01-05 Yokogawa Electric Corp データ圧縮装置およびデータ復元装置
JP2013246140A (ja) * 2012-05-29 2013-12-09 Sony Corp 情報処理装置、情報処理方法、及びプログラム
WO2017203679A1 (ja) * 2016-05-27 2017-11-30 株式会社日立ハイテクノロジーズ 発光画像符号化装置、発光画像復号化装置、及び発光画像解析システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4130712A4

Also Published As

Publication number Publication date
CN115280133A (zh) 2022-11-01
EP4130712A4 (en) 2023-08-30
US20230138514A1 (en) 2023-05-04
EP4130712A1 (en) 2023-02-08
JPWO2021192750A1 (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
US11340167B2 (en) Fluorescence intensity correcting method, fluorescence intensity calculating method, and fluorescence intensity calculating apparatus
Nolan et al. Spectral flow cytometry
Grégori et al. Hyperspectral cytometry at the single‐cell level using a 32‐channel photodetector
US20220082488A1 (en) Methods of forming multi-color fluorescence-based flow cytometry panel
JP2018529980A (ja) オンラインプロセスモニタリング
WO2021200411A1 (ja) 情報処理装置、情報処理方法、プログラム及び光学測定システム
CN109187443B (zh) 基于多波长透射光谱的水体细菌微生物准确识别方法
WO2021100622A1 (ja) 情報処理システムおよび情報処理装置
WO2021192750A1 (ja) 情報処理システム、情報処理装置及び情報処理方法
WO2021039158A1 (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
JP7010293B2 (ja) 情報処理装置、情報処理方法及びプログラム
US11674877B2 (en) Apparatus and method for cyclic flow cytometry using particularized cell identification
CN102262043A (zh) 微粒分析装置和数据显示方法
WO2021193218A1 (ja) 粒子分析システム、情報処理方法、及びプログラム
US20240027447A1 (en) Methods and aparatus for a mouse surface and intracellular flow cytometry immunophenotyping kit
US20240027448A1 (en) B cell monitoring reagent panel and reagent kit for analyzing b cell subsets in anti-cd20 treated autoimmune patients
US20240159757A1 (en) High parameter 20 color panel for effective detection of aberrant cells in acute myeloid leukemia
WO2023240165A2 (en) Methods and apparatus for a twenty-five-color fluorescence-based assay and flow cytometry panel

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21775473

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022509412

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021775473

Country of ref document: EP

Effective date: 20221026