WO2024018725A1 - 配列解析方法、配列解析装置、重合条件提案装置、及び、自動合成装置 - Google Patents
配列解析方法、配列解析装置、重合条件提案装置、及び、自動合成装置 Download PDFInfo
- Publication number
- WO2024018725A1 WO2024018725A1 PCT/JP2023/017129 JP2023017129W WO2024018725A1 WO 2024018725 A1 WO2024018725 A1 WO 2024018725A1 JP 2023017129 W JP2023017129 W JP 2023017129W WO 2024018725 A1 WO2024018725 A1 WO 2024018725A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- matrix
- spectrum
- polymer
- sequence analysis
- nmf
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000006116 polymerization reaction Methods 0.000 title claims description 64
- 230000002194 synthesizing effect Effects 0.000 title description 2
- 229920000642 polymer Polymers 0.000 claims abstract description 153
- 239000011159 matrix material Substances 0.000 claims abstract description 145
- 238000001228 spectrum Methods 0.000 claims abstract description 143
- 239000013598 vector Substances 0.000 claims abstract description 81
- 239000000523 sample Substances 0.000 claims abstract description 60
- 238000001819 mass spectrum Methods 0.000 claims abstract description 37
- 238000009826 distribution Methods 0.000 claims abstract description 29
- 238000010438 heat treatment Methods 0.000 claims abstract description 24
- 239000013074 reference sample Substances 0.000 claims abstract description 19
- 239000000178 monomer Substances 0.000 claims description 116
- 238000012300 Sequence Analysis Methods 0.000 claims description 109
- 238000012545 processing Methods 0.000 claims description 47
- 238000006243 chemical reaction Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 32
- 230000015572 biosynthetic process Effects 0.000 claims description 21
- 238000003786 synthesis reaction Methods 0.000 claims description 21
- 230000010365 information processing Effects 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 14
- 239000011347 resin Substances 0.000 claims description 10
- 229920005989 resin Polymers 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 7
- 229940050561 matrix product Drugs 0.000 claims description 6
- 230000000379 polymerizing effect Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 abstract description 2
- 229920002521 macromolecule Polymers 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 30
- PPBRXRYQALVLMV-UHFFFAOYSA-N Styrene Chemical compound C=CC1=CC=CC=C1 PPBRXRYQALVLMV-UHFFFAOYSA-N 0.000 description 26
- 230000006870 function Effects 0.000 description 26
- 238000004949 mass spectrometry Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 238000003860 storage Methods 0.000 description 18
- VVQNEPGJFQJSBK-UHFFFAOYSA-N Methyl methacrylate Chemical compound COC(=O)C(C)=C VVQNEPGJFQJSBK-UHFFFAOYSA-N 0.000 description 11
- 239000007789 gas Substances 0.000 description 9
- 150000002500 ions Chemical class 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- NIXOWILDQLNWCW-UHFFFAOYSA-M Acrylate Chemical compound [O-]C(=O)C=C NIXOWILDQLNWCW-UHFFFAOYSA-M 0.000 description 7
- 238000005481 NMR spectroscopy Methods 0.000 description 6
- 229920001577 copolymer Polymers 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- -1 helium ions Chemical class 0.000 description 6
- CQEYYJKEWSMYFG-UHFFFAOYSA-N butyl acrylate Chemical compound CCCCOC(=O)C=C CQEYYJKEWSMYFG-UHFFFAOYSA-N 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000035484 reaction time Effects 0.000 description 5
- NIXOWILDQLNWCW-UHFFFAOYSA-N Acrylic acid Chemical compound OC(=O)C=C NIXOWILDQLNWCW-UHFFFAOYSA-N 0.000 description 4
- CERQOIWHTDAKMF-UHFFFAOYSA-M Methacrylate Chemical compound CC(=C)C([O-])=O CERQOIWHTDAKMF-UHFFFAOYSA-M 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000000375 direct analysis in real time Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000003756 stirring Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 3
- UHOVQNZJYSORNB-UHFFFAOYSA-N Benzene Chemical compound C1=CC=CC=C1 UHOVQNZJYSORNB-UHFFFAOYSA-N 0.000 description 3
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 3
- 229920001222 biopolymer Polymers 0.000 description 3
- 239000000356 contaminant Substances 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000001097 direct analysis in real time mass spectrometry Methods 0.000 description 3
- 238000012063 dual-affinity re-targeting Methods 0.000 description 3
- 229920001519 homopolymer Polymers 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000010526 radical polymerization reaction Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- ZMAOPHHNBQIJOQ-UHFFFAOYSA-N (2-propan-2-yl-2-adamantyl) 2-methylprop-2-enoate Chemical compound C1C(C2)CC3CC1C(C(C)C)(OC(=O)C(C)=C)C2C3 ZMAOPHHNBQIJOQ-UHFFFAOYSA-N 0.000 description 2
- OOIBFPKQHULHSQ-UHFFFAOYSA-N (3-hydroxy-1-adamantyl) 2-methylprop-2-enoate Chemical compound C1C(C2)CC3CC2(O)CC1(OC(=O)C(=C)C)C3 OOIBFPKQHULHSQ-UHFFFAOYSA-N 0.000 description 2
- OZAIFHULBGXAKX-UHFFFAOYSA-N 2-(2-cyanopropan-2-yldiazenyl)-2-methylpropanenitrile Chemical compound N#CC(C)(C)N=NC(C)(C)C#N OZAIFHULBGXAKX-UHFFFAOYSA-N 0.000 description 2
- DZFGVGDQHQHOKZ-UHFFFAOYSA-N 2-dodecylsulfanylcarbothioylsulfanyl-2-methylpropanoic acid Chemical compound CCCCCCCCCCCCSC(=S)SC(C)(C)C(O)=O DZFGVGDQHQHOKZ-UHFFFAOYSA-N 0.000 description 2
- YEJRWHAVMIAJKC-UHFFFAOYSA-N 4-Butyrolactone Chemical compound O=C1CCCO1 YEJRWHAVMIAJKC-UHFFFAOYSA-N 0.000 description 2
- BAPJBEWLBFYGME-UHFFFAOYSA-N Methyl acrylate Chemical compound COC(=O)C=C BAPJBEWLBFYGME-UHFFFAOYSA-N 0.000 description 2
- IMNFDUFMRHMDMM-UHFFFAOYSA-N N-Heptane Chemical compound CCCCCCC IMNFDUFMRHMDMM-UHFFFAOYSA-N 0.000 description 2
- BZHJMEDXRYGGRV-UHFFFAOYSA-N Vinyl chloride Chemical compound ClC=C BZHJMEDXRYGGRV-UHFFFAOYSA-N 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000012644 addition polymerization Methods 0.000 description 2
- 229920005603 alternating copolymer Polymers 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 229910001873 dinitrogen Inorganic materials 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000010550 living polymerization reaction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- ZQMHJBXHRFJKOT-UHFFFAOYSA-N methyl 2-[(1-methoxy-2-methyl-1-oxopropan-2-yl)diazenyl]-2-methylpropanoate Chemical compound COC(=O)C(C)(C)N=NC(C)(C)C(=O)OC ZQMHJBXHRFJKOT-UHFFFAOYSA-N 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 2
- 239000003505 polymerization initiator Substances 0.000 description 2
- 229920000915 polyvinyl chloride Polymers 0.000 description 2
- 239000004800 polyvinyl chloride Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000000197 pyrolysis Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- ABUIKOPEGIZINI-UHFFFAOYSA-N (1-ethylcyclohexyl) 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OC1(CC)CCCCC1 ABUIKOPEGIZINI-UHFFFAOYSA-N 0.000 description 1
- FMEBJQQRPGHVOR-UHFFFAOYSA-N (1-ethylcyclopentyl) 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OC1(CC)CCCC1 FMEBJQQRPGHVOR-UHFFFAOYSA-N 0.000 description 1
- FDOANYJWOYTZAP-UHFFFAOYSA-N (1-ethylcyclopentyl) prop-2-enoate Chemical compound C=CC(=O)OC1(CC)CCCC1 FDOANYJWOYTZAP-UHFFFAOYSA-N 0.000 description 1
- LBHPSYROQDMVBS-UHFFFAOYSA-N (1-methylcyclohexyl) 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OC1(C)CCCCC1 LBHPSYROQDMVBS-UHFFFAOYSA-N 0.000 description 1
- VSYDNHCEDWYFBX-UHFFFAOYSA-N (1-methylcyclopentyl) 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OC1(C)CCCC1 VSYDNHCEDWYFBX-UHFFFAOYSA-N 0.000 description 1
- KDSLFWBFCGYUIQ-UHFFFAOYSA-N (1-propan-2-ylcyclohexyl) 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OC1(C(C)C)CCCCC1 KDSLFWBFCGYUIQ-UHFFFAOYSA-N 0.000 description 1
- BGDWDFVUSUCDHI-UHFFFAOYSA-N (2-acetyloxy-4-ethenylphenyl) acetate Chemical compound CC(=O)OC1=CC=C(C=C)C=C1OC(C)=O BGDWDFVUSUCDHI-UHFFFAOYSA-N 0.000 description 1
- WRPYDXWBHXAKPT-UHFFFAOYSA-N (2-ethenylphenyl) acetate Chemical compound CC(=O)OC1=CC=CC=C1C=C WRPYDXWBHXAKPT-UHFFFAOYSA-N 0.000 description 1
- DCTVCFJTKSQXED-UHFFFAOYSA-N (2-ethyl-2-adamantyl) 2-methylprop-2-enoate Chemical compound C1C(C2)CC3CC1C(CC)(OC(=O)C(C)=C)C2C3 DCTVCFJTKSQXED-UHFFFAOYSA-N 0.000 description 1
- FDYDISGSYGFRJM-UHFFFAOYSA-N (2-methyl-2-adamantyl) 2-methylprop-2-enoate Chemical compound C1C(C2)CC3CC1C(OC(=O)C(=C)C)(C)C2C3 FDYDISGSYGFRJM-UHFFFAOYSA-N 0.000 description 1
- YRPLSAWATHBYFB-UHFFFAOYSA-N (2-methyl-2-adamantyl) prop-2-enoate Chemical compound C1C(C2)CC3CC1C(C)(OC(=O)C=C)C2C3 YRPLSAWATHBYFB-UHFFFAOYSA-N 0.000 description 1
- NUTJVZGIRRFKKI-UHFFFAOYSA-N (2-oxo-1,3-dioxolan-4-yl)methyl 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OCC1COC(=O)O1 NUTJVZGIRRFKKI-UHFFFAOYSA-N 0.000 description 1
- QSUJHKWXLIQKEY-UHFFFAOYSA-N (2-oxooxolan-3-yl) 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OC1CCOC1=O QSUJHKWXLIQKEY-UHFFFAOYSA-N 0.000 description 1
- MWMWRSCIFDZZGW-UHFFFAOYSA-N (2-oxooxolan-3-yl) prop-2-enoate Chemical compound C=CC(=O)OC1CCOC1=O MWMWRSCIFDZZGW-UHFFFAOYSA-N 0.000 description 1
- VULULCJGEQPEOV-UHFFFAOYSA-N (2-propan-2-yl-2-adamantyl) prop-2-enoate Chemical compound C1C(C2)CC3CC1C(C(C)C)(OC(=O)C=C)C2C3 VULULCJGEQPEOV-UHFFFAOYSA-N 0.000 description 1
- JEKQGWWKEWSQCU-UHFFFAOYSA-N (3-acetyloxy-5-ethenylphenyl) acetate Chemical compound CC(=O)OC1=CC(OC(C)=O)=CC(C=C)=C1 JEKQGWWKEWSQCU-UHFFFAOYSA-N 0.000 description 1
- DKDKCSYKDZNMMA-UHFFFAOYSA-N (3-hydroxy-1-adamantyl) prop-2-enoate Chemical compound C1C(C2)CC3CC1(O)CC2(OC(=O)C=C)C3 DKDKCSYKDZNMMA-UHFFFAOYSA-N 0.000 description 1
- ALRKOZVWDDKMPA-UHFFFAOYSA-N (3-methyl-5-oxooxolan-3-yl) 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OC1(C)COC(=O)C1 ALRKOZVWDDKMPA-UHFFFAOYSA-N 0.000 description 1
- YGGARCQQBAOLGB-UHFFFAOYSA-N (3-prop-2-enoyloxy-1-adamantyl) prop-2-enoate Chemical compound C1C(C2)CC3CC1(OC(=O)C=C)CC2(OC(=O)C=C)C3 YGGARCQQBAOLGB-UHFFFAOYSA-N 0.000 description 1
- JAMNSIXSLVPNLC-UHFFFAOYSA-N (4-ethenylphenyl) acetate Chemical compound CC(=O)OC1=CC=C(C=C)C=C1 JAMNSIXSLVPNLC-UHFFFAOYSA-N 0.000 description 1
- OWXOPPOUUFQEPB-UHFFFAOYSA-N (4-ethenylphenyl) benzoate Chemical compound C1=CC(C=C)=CC=C1OC(=O)C1=CC=CC=C1 OWXOPPOUUFQEPB-UHFFFAOYSA-N 0.000 description 1
- PJMXUSNWBKGQEZ-UHFFFAOYSA-N (4-hydroxyphenyl) 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OC1=CC=C(O)C=C1 PJMXUSNWBKGQEZ-UHFFFAOYSA-N 0.000 description 1
- JJMQLQLMPJLIPZ-UHFFFAOYSA-N (5-oxo-4-oxatricyclo[4.2.1.03,7]nonan-2-yl) 2-methylprop-2-enoate Chemical compound O1C(=O)C2CC3C(OC(=O)C(=C)C)C1C2C3 JJMQLQLMPJLIPZ-UHFFFAOYSA-N 0.000 description 1
- WRYQRPLUGDVEBM-UHFFFAOYSA-N (5-oxooxolan-2-yl)methyl 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OCC1CCC(=O)O1 WRYQRPLUGDVEBM-UHFFFAOYSA-N 0.000 description 1
- RYHBNJHYFVUHQT-UHFFFAOYSA-N 1,4-Dioxane Chemical compound C1COCCO1 RYHBNJHYFVUHQT-UHFFFAOYSA-N 0.000 description 1
- PHPRWKJDGHSJMI-UHFFFAOYSA-N 1-adamantyl prop-2-enoate Chemical compound C1C(C2)CC3CC2CC1(OC(=O)C=C)C3 PHPRWKJDGHSJMI-UHFFFAOYSA-N 0.000 description 1
- RAFFBVNAPPAKCN-UHFFFAOYSA-N 1-adamantyloxymethyl 2-methylprop-2-enoate Chemical compound C1C(C2)CC3CC2CC1(OCOC(=O)C(=C)C)C3 RAFFBVNAPPAKCN-UHFFFAOYSA-N 0.000 description 1
- LTGJSMARDKHZOY-UHFFFAOYSA-N 1-ethenyl-3-[(2-methylpropan-2-yl)oxy]benzene Chemical compound CC(C)(C)OC1=CC=CC(C=C)=C1 LTGJSMARDKHZOY-UHFFFAOYSA-N 0.000 description 1
- GRFNSWBVXHLTCI-UHFFFAOYSA-N 1-ethenyl-4-[(2-methylpropan-2-yl)oxy]benzene Chemical compound CC(C)(C)OC1=CC=C(C=C)C=C1 GRFNSWBVXHLTCI-UHFFFAOYSA-N 0.000 description 1
- ZSZUAWYMYCAJNX-UHFFFAOYSA-N 1-ethenyl-4-prop-2-enoxybenzene Chemical compound C=CCOC1=CC=C(C=C)C=C1 ZSZUAWYMYCAJNX-UHFFFAOYSA-N 0.000 description 1
- MEPWMZKEADGNEO-UHFFFAOYSA-N 1-ethenyl-4-propan-2-yloxybenzene Chemical compound CC(C)OC1=CC=C(C=C)C=C1 MEPWMZKEADGNEO-UHFFFAOYSA-N 0.000 description 1
- HVBADOTWUFBZMF-UHFFFAOYSA-N 1-ethoxyethyl 2-methylprop-2-enoate Chemical compound CCOC(C)OC(=O)C(C)=C HVBADOTWUFBZMF-UHFFFAOYSA-N 0.000 description 1
- QTKPMCIBUROOGY-UHFFFAOYSA-N 2,2,2-trifluoroethyl 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OCC(F)(F)F QTKPMCIBUROOGY-UHFFFAOYSA-N 0.000 description 1
- VIEHKBXCWMMOOU-UHFFFAOYSA-N 2,2,3,3,4,4,4-heptafluorobutyl 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OCC(F)(F)C(F)(F)C(F)(F)F VIEHKBXCWMMOOU-UHFFFAOYSA-N 0.000 description 1
- OOHZIRUJZFRULE-UHFFFAOYSA-N 2,2-dimethylpropyl 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OCC(C)(C)C OOHZIRUJZFRULE-UHFFFAOYSA-N 0.000 description 1
- LSMMPNJVETUZFD-UHFFFAOYSA-N 2,3,3-trimethylbutan-2-yl prop-2-enoate Chemical compound CC(C)(C)C(C)(C)OC(=O)C=C LSMMPNJVETUZFD-UHFFFAOYSA-N 0.000 description 1
- OWPUOLBODXJOKH-UHFFFAOYSA-N 2,3-dihydroxypropyl prop-2-enoate Chemical compound OCC(O)COC(=O)C=C OWPUOLBODXJOKH-UHFFFAOYSA-N 0.000 description 1
- RJZBGVXQGQGRRL-UHFFFAOYSA-N 2-(4-prop-1-en-2-ylphenoxy)oxolane Chemical compound C1=CC(C(=C)C)=CC=C1OC1OCCC1 RJZBGVXQGQGRRL-UHFFFAOYSA-N 0.000 description 1
- AAUXVPAKDMCMMN-UHFFFAOYSA-N 2-[(4-ethenylphenoxy)methyl]oxirane Chemical compound C1=CC(C=C)=CC=C1OCC1OC1 AAUXVPAKDMCMMN-UHFFFAOYSA-N 0.000 description 1
- OMPLGTOUDZNCGW-UHFFFAOYSA-N 2-cyclohexylpropan-2-yl 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OC(C)(C)C1CCCCC1 OMPLGTOUDZNCGW-UHFFFAOYSA-N 0.000 description 1
- QSRHBXMVAHNFKV-UHFFFAOYSA-N 2-decyldodecanoic acid Chemical compound CCCCCCCCCCC(C(O)=O)CCCCCCCCCC QSRHBXMVAHNFKV-UHFFFAOYSA-N 0.000 description 1
- YQIGLEFUZMIVHU-UHFFFAOYSA-N 2-methyl-n-propan-2-ylprop-2-enamide Chemical compound CC(C)NC(=O)C(C)=C YQIGLEFUZMIVHU-UHFFFAOYSA-N 0.000 description 1
- APFDQKQZNOGFBR-UHFFFAOYSA-N 2-methylheptan-2-yl 2-methylprop-2-enoate Chemical compound CCCCCC(C)(C)OC(=O)C(C)=C APFDQKQZNOGFBR-UHFFFAOYSA-N 0.000 description 1
- XKMQZJVRJABRHU-UHFFFAOYSA-N 2-methylhexan-2-yl 2-methylprop-2-enoate Chemical compound CCCCC(C)(C)OC(=O)C(C)=C XKMQZJVRJABRHU-UHFFFAOYSA-N 0.000 description 1
- XLLXMBCBJGATSP-UHFFFAOYSA-N 2-phenylethenol Chemical compound OC=CC1=CC=CC=C1 XLLXMBCBJGATSP-UHFFFAOYSA-N 0.000 description 1
- KXYAVSFOJVUIHT-UHFFFAOYSA-N 2-vinylnaphthalene Chemical compound C1=CC=CC2=CC(C=C)=CC=C21 KXYAVSFOJVUIHT-UHFFFAOYSA-N 0.000 description 1
- LDQRPWJIHDBXFV-UHFFFAOYSA-N 3-(4-hydroxyphenoxy)propyl prop-2-enoate Chemical compound OC1=CC=C(OCCCOC(=O)C=C)C=C1 LDQRPWJIHDBXFV-UHFFFAOYSA-N 0.000 description 1
- MCDBEBOBROAQSH-UHFFFAOYSA-N 3-[dimethoxy(methyl)silyl]propyl prop-2-enoate Chemical compound CO[Si](C)(OC)CCCOC(=O)C=C MCDBEBOBROAQSH-UHFFFAOYSA-N 0.000 description 1
- ZBWYHNHRVUSVNU-UHFFFAOYSA-N 4-(4-prop-2-enoyloxybutoxy)benzoic acid Chemical compound OC(=O)C1=CC=C(OCCCCOC(=O)C=C)C=C1 ZBWYHNHRVUSVNU-UHFFFAOYSA-N 0.000 description 1
- UCBGDYNJUOJESM-UHFFFAOYSA-N 4-ethenyl-2,3-difluorophenol Chemical compound OC1=CC=C(C=C)C(F)=C1F UCBGDYNJUOJESM-UHFFFAOYSA-N 0.000 description 1
- LFBOTPSZVHTHON-UHFFFAOYSA-N 4-ethenyl-3-fluorophenol Chemical compound OC1=CC=C(C=C)C(F)=C1 LFBOTPSZVHTHON-UHFFFAOYSA-N 0.000 description 1
- JAGRUUPXPPLSRX-UHFFFAOYSA-N 4-prop-1-en-2-ylphenol Chemical compound CC(=C)C1=CC=C(O)C=C1 JAGRUUPXPPLSRX-UHFFFAOYSA-N 0.000 description 1
- LTOHYCJMUWCZBU-UHFFFAOYSA-N 6-(2-methylprop-2-enoyl)-6-azabicyclo[3.2.0]heptan-7-one Chemical compound C1CCC2C(=O)N(C(=O)C(=C)C)C21 LTOHYCJMUWCZBU-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- COCZSYPQGAILAD-UHFFFAOYSA-N C(C(=C)C)(=O)OC12CC3(CC(CC(C1)(C3)C)(C2)C)OC(C(=C)C)=O Chemical compound C(C(=C)C)(=O)OC12CC3(CC(CC(C1)(C3)C)(C2)C)OC(C(=C)C)=O COCZSYPQGAILAD-UHFFFAOYSA-N 0.000 description 1
- NWBXUKVAACWTJM-UHFFFAOYSA-N C(C=C)(=O)OC12CC3(CC(CC(C1)(C3)C)(C2)C)OC(C=C)=O Chemical compound C(C=C)(=O)OC12CC3(CC(CC(C1)(C3)C)(C2)C)OC(C=C)=O NWBXUKVAACWTJM-UHFFFAOYSA-N 0.000 description 1
- GAAFCTNQAOVBMF-UHFFFAOYSA-N CC(=C)C(O)=O.OC1COC(=O)C1 Chemical compound CC(=C)C(O)=O.OC1COC(=O)C1 GAAFCTNQAOVBMF-UHFFFAOYSA-N 0.000 description 1
- JIGUQPWFLRLWPJ-UHFFFAOYSA-N Ethyl acrylate Chemical compound CCOC(=O)C=C JIGUQPWFLRLWPJ-UHFFFAOYSA-N 0.000 description 1
- DCTLJGWMHPGCOS-UHFFFAOYSA-N Osajin Chemical compound C1=2C=CC(C)(C)OC=2C(CC=C(C)C)=C(O)C(C2=O)=C1OC=C2C1=CC=C(O)C=C1 DCTLJGWMHPGCOS-UHFFFAOYSA-N 0.000 description 1
- QLXPCOBCFPUQGK-UHFFFAOYSA-N [2-oxo-2-(2,2,3,3,3-pentafluoropropoxy)ethyl] 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OCC(=O)OCC(F)(F)C(F)(F)F QLXPCOBCFPUQGK-UHFFFAOYSA-N 0.000 description 1
- RZDMCGPZDGKURQ-UHFFFAOYSA-N [2-oxo-2-[(5-oxo-4-oxatricyclo[4.2.1.03,7]nonan-2-yl)oxy]ethyl] 2-methylprop-2-enoate Chemical compound O1C(=O)C2CC3C(OC(=O)COC(=O)C(=C)C)C1C2C3 RZDMCGPZDGKURQ-UHFFFAOYSA-N 0.000 description 1
- XRWQJHXVAMHQAY-UHFFFAOYSA-N [2-oxo-2-[(5-oxo-4-oxatricyclo[4.3.1.13,8]undecan-2-yl)oxy]ethyl] 2-methylprop-2-enoate Chemical compound O1C(=O)C(C2)CC3C(OC(=O)COC(=O)C(=C)C)C1CC2C3 XRWQJHXVAMHQAY-UHFFFAOYSA-N 0.000 description 1
- LWZDPKCUTBVCGX-UHFFFAOYSA-N [3-(2-methylprop-2-enoyloxy)-1-adamantyl] 2-methylprop-2-enoate Chemical compound C1C(C2)CC3CC1(OC(=O)C(=C)C)CC2(OC(=O)C(C)=C)C3 LWZDPKCUTBVCGX-UHFFFAOYSA-N 0.000 description 1
- MWCWDGHNCOLGHS-UHFFFAOYSA-N [9-(prop-2-enoyloxymethyl)fluoren-9-yl]methyl prop-2-enoate Chemical compound C1=CC=C2C(COC(=O)C=C)(COC(=O)C=C)C3=CC=CC=C3C2=C1 MWCWDGHNCOLGHS-UHFFFAOYSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- MJYSISMEPNOHEG-UHFFFAOYSA-N anthracen-9-ylmethyl 2-methylprop-2-enoate Chemical compound C1=CC=C2C(COC(=O)C(=C)C)=C(C=CC=C3)C3=CC2=C1 MJYSISMEPNOHEG-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010560 atom transfer radical polymerization reaction Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 229920005557 bromobutyl Polymers 0.000 description 1
- 230000005587 bubbling Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003795 desorption Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 125000004386 diacrylate group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- SUPCQIBBMFXVTL-UHFFFAOYSA-N ethyl 2-methylprop-2-enoate Chemical compound CCOC(=O)C(C)=C SUPCQIBBMFXVTL-UHFFFAOYSA-N 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000001307 helium Substances 0.000 description 1
- 229910052734 helium Inorganic materials 0.000 description 1
- 238000000752 ionisation method Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- OETMLOBORLMQPE-YIUHCBHRSA-N molport-023-221-753 Chemical compound C[C@@H]1CC[C@@]2([C@](CC3)(C)OC(C)=O)[C@@H]3C(C)(C)[C@@H]1C2 OETMLOBORLMQPE-YIUHCBHRSA-N 0.000 description 1
- JESXATFQYMPTNL-UHFFFAOYSA-N mono-hydroxyphenyl-ethylene Natural products OC1=CC=CC=C1C=C JESXATFQYMPTNL-UHFFFAOYSA-N 0.000 description 1
- YOZHLACIXDCHPV-UHFFFAOYSA-N n-(methoxymethyl)-2-methylprop-2-enamide Chemical compound COCNC(=O)C(C)=C YOZHLACIXDCHPV-UHFFFAOYSA-N 0.000 description 1
- 229920005615 natural polymer Polymers 0.000 description 1
- QJGQUHMNIGDVPM-UHFFFAOYSA-N nitrogen group Chemical group [N] QJGQUHMNIGDVPM-UHFFFAOYSA-N 0.000 description 1
- KCAMXZBMXVIIQN-UHFFFAOYSA-N octan-3-yl 2-methylprop-2-enoate Chemical compound CCCCCC(CC)OC(=O)C(C)=C KCAMXZBMXVIIQN-UHFFFAOYSA-N 0.000 description 1
- CSVRUJBOWHSVMA-UHFFFAOYSA-N oxolan-2-yl 2-methylprop-2-enoate Chemical compound CC(=C)C(=O)OC1CCCO1 CSVRUJBOWHSVMA-UHFFFAOYSA-N 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- PNJWIWWMYCMZRO-UHFFFAOYSA-N pent‐4‐en‐2‐one Natural products CC(=O)CC=C PNJWIWWMYCMZRO-UHFFFAOYSA-N 0.000 description 1
- 238000006068 polycondensation reaction Methods 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 229920001059 synthetic polymer Polymers 0.000 description 1
- 238000005979 thermal decomposition reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/62—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
Definitions
- the present invention relates to a sequence analysis method, a sequence analysis device, a polymerization condition proposing device, and an automatic synthesis device.
- Patent Document 1 describes ⁇ a sequencing method for determining the sequence of a plurality of monomers constituting a biopolymer by measuring a tunnel current flowing between a pair of electrodes, a) measuring the current value between the electrodes at predetermined time intervals to obtain current value data; b) selecting an analysis region including a signal dense region from the current value data; c) the step of a step of determining, in the analysis region, a minimum representative value with the smallest current value among the plurality of representative values and a maximum representative value with the largest current value among the plurality of representative values; d) the minimum representative value and the maximum representative value; and a step of determining the type of monomer corresponding to the signal based on the value.” is described.
- an object of the present invention is to provide a simple method for sequence analysis of polymers.
- Another object of the present invention is to provide a sequence analysis device, a polymerization condition proposal device, and an automatic synthesis device.
- a polymer obtained by polymerizing monomers selected from a monomer set containing two or more types of monomers, which is composed of an array of units derived from the above monomers A polymer sequence analysis method for estimating the content of multiple molecules, the method according to the number of types of monomers included in the monomer set and the number of units constituting the multiple molecules. Then, the number of variants K of the above-mentioned multiple molecules is determined, and the gas components generated by heating each of the reference sample, which is a polymer composed of the above-mentioned monomer, and the estimation target sample, are sequentially ionized.
- the spectrum of the model polymer is reconstructed by matrix product of the matrix representing the feature vector of the model polymer and the matrix representing the base spectrum, and the spectrum of the model polymer is The sequence analysis method according to [1] or [2], further comprising identifying the multiplex to which the spectrum belongs.
- the above-mentioned identification is carried out by comparing the sum of the mass numbers of the above-mentioned units constituting the above-mentioned multiplex and m/z of the peak of the spectrum of the above-mentioned model polymer, as described in [3] sequence analysis method.
- a mass spectrometer that sequentially ionizes and continuously observes mass spectra; and an information processing device that processes the observed mass spectra, and the information processing device a data matrix creation unit that obtains a data matrix including a mass spectrum; a first NMF process that performs NMF processing that performs non-negative matrix factorization of the data matrix and decomposes it into a product of a matrix representing a normalized base spectrum and its intensity distribution matrix; A non-negative matrix factorization of the intensity distribution matrix of each of the specimens results in a matrix representing the mass proportion of the model polymer composed only of the multiplex elements in the specimen, and the characteristics of the model polymer.
- a second NMF processing unit that performs NMF processing to decompose the vector into a product of a matrix representing the vector to obtain the feature vector of the model polymer;
- a vector projection unit that sets the included K-1-dimensional simplex, the distances between the K end members, and the feature vector of the estimation target sample using a Riemann metric that takes into account the non-orthogonality of the basis spectrum of the first NMF process.
- a composition estimating unit that is defined by a distance and estimates the content ratio of each of the multiple molecules in the estimation target sample from the ratio of the distances.
- the sequence analysis device comprising a model polymer spectrum identification unit that identifies the multiplex.
- the above-mentioned identification is carried out by comparing the sum of the mass numbers of the above-mentioned units constituting the above-mentioned multiplex and m/z of the peak of the spectrum of the above-mentioned model polymer, as described in [12] sequence analyzer.
- the information processing device changes the number of variants K and performs the analysis by the first NMF processing unit.
- the sequence analysis device according to [12] or [13], which repeats NMF processing, NMF processing by the second NMF processing section, and identification by the model polymer spectrum identification section.
- a policy proposal unit that is subjected to machine learning using the sequence analysis device according to any one of [11] to [14], sequence analysis results by the sequence analysis device, and polymerization conditions of the estimation target sample as training data.
- a polymerization condition proposing device further comprising: the policy proposing unit comparing the sequence analysis result with a predetermined target sequence and proposing new polymerization conditions for obtaining a polymer having the target sequence.
- the apparatus for proposing polymerization conditions according to [15] and the apparatus for synthesizing the polymer wherein the synthesis apparatus includes a supply mechanism for the monomer, and a supply mechanism for supplying the monomer from the supply mechanism. a reaction tank in which the monomer is reacted with the monomer, and a control device, the control device controlling the supply mechanism and the monomer from the reaction tank based on the polymerization conditions proposed by the polymerization condition proposal device.
- An automatic synthesis device that synthesizes a new polymer by controlling at least one selected from the group consisting of:
- a simple method for sequence analysis of polymers can be provided. Further, according to the present invention, a sequence analysis device, a polymerization condition proposal device, and an automatic synthesis device can be provided.
- FIG. 1 is a flowchart of an embodiment of the sequence analysis method of the present invention.
- a data matrix was obtained from a specimen synthesized using methyl methacrylate (M) and styrene (S) as monomers, and the M spectrum was calculated from each matrix obtained by the first NMF treatment and the second NMF treatment.
- FIG. 3 is an image diagram showing a K-1-dimensional simplex (two-dimensional simplex, triangle) when K is 3. It is an image diagram showing a K-1 dimensional simplex (two-dimensional simplex, triangle) when K is 3.
- FIG. 1 is a hardware configuration diagram of an embodiment of a sequence analysis device of the present invention.
- FIG. 2 is a functional block diagram of a sequence analysis device.
- FIG. 2 is a functional block diagram of a second embodiment of a sequence analysis device.
- FIG. 1 is a functional block diagram of an embodiment of the polymerization condition proposing device of the present invention.
- FIG. 1 is a functional block diagram of an embodiment of an automatic synthesis device of the present invention.
- FIG. 3 is a diagram showing a model polymer spectrum for each multiplex obtained by calculation. It is a figure showing the calculation result of a model polymer spectrum when the number of types of monomers is 2, and the length of a multiplex is 5. It is a figure showing the relationship between polymerization time and conversion rate.
- These are the results of sequence analysis, and are diagrams showing the relationship between the mass-based content (A) of BBB and BBS (B) with respect to the conversion rate. It is a result of sequence analysis, and is a diagram showing the relationship between the content of BBS on a mass basis and the conversion rate.
- the embodiments shown below are examples that embody the technical idea of the present invention, and the technical idea of the present invention is based on the embodiments shown below. It is not specific to Furthermore, the drawings are schematic. Therefore, the relationships, ratios, etc. between thickness and planar dimensions may differ from those in reality, and the relationships and ratios between dimensions may also differ between drawings.
- the term "monomer” refers to a compound (monomer) used to synthesize a polymer that is a test sample. Both the "reference specimen” and the “estimated target specimen” described below are polymers.
- the polymer is synthesized from one or more monomers selected from a monomer set consisting of a predetermined number of monomers.
- the term "unit” refers to a part of the structure of a polymer that is derived from a monomer.
- vinyl chloride corresponds to a "monomer”
- polyvinyl chloride corresponds to a "polymer”.
- CH 2 CHCl corresponds to "unit”.
- polyads means a partial structure of a polymer composed of a plurality of finite units arranged.
- possible combinations of multiplexes in a polymer synthesized from monomers A and B include diadlets such as AA, BB, and AB (or BA); triads such as AAB; etc.
- a multiplex is a unit of sequence analysis, and sequence analysis in this specification means estimating the type of multiplex contained in an estimated target specimen and its mass-based content.
- the "number of units constituting the multiplex" is 2 for AA, BB, AB (BA), etc. 3 for AAA, AAB, BBA, BBB, ABA (BAB), etc.
- “the number of units constituting the multiplex” may be simply referred to as "the length of the multiplex”.
- Numberer of variations of multiple series means combination variations of units in multiple series.
- the number of types of monomers included in the monomer set is 3 (monomers A, B, and C)
- the number of units constituting the multiplex is 3 (triadlet)
- the number of variants of the triplet is AAA, BBB, CCC, AAC, AC ⁇ AC ⁇ , CCA, BBA, AB ⁇ AB ⁇ , AAB, BBC, BC ⁇ BC ⁇
- BCC and ABC There are 13 types: BCC and ABC. Note that “AC ⁇ AC ⁇ ” means that "AC” is repeated.
- the number of variants of the multiplex is uniquely determined as the number of possible combinations depending on the length of the multiplex and the number of types of monomers included in the monomer set.
- the number of variants of the multiplex is equal to or less than the number of combinations uniquely determined depending on the length of the multiplex and the number of types of monomers included in the monomer set.
- the number of variants of a multiplex may be expressed as "K (a number of 1 or more)".
- a "specimen to be estimated” is a specimen whose sequence is to be estimated.
- the estimated target specimen is composed of one or more of the two or more monomers included in the specimen set. Note that the type and amount of monomers used in the synthesis may be unknown.
- the estimated target specimen may be a so-called homopolymer composed of one type of monomer.
- homopolymer in this specification refers to a polymer that is actually composed of only one type of unit, and a polymer that is presumed to be composed of only one type of unit based on mass spectroscopy (although it appears that way). ) polymers.
- Reference specimen means a specimen necessary for determining K end members of a K-1 dimension unit, which will be described later, and includes one or more types selected from the “sample set” in the same way as the estimation target specimen. It is a polymer synthesized from monomers.
- the reference specimen includes at least one type of multiplex selected from K types of multiplexes.
- the types of multiplexes included are not particularly limited and may be 1 to K types.
- the reference sample may include a sample having the same composition as the estimated target sample. That is, the estimation target sample and the reference sample may be the same, but the reference samples are different.
- the reference specimens being "different" means that they are different in at least one type selected from the group consisting of the types of units included and the arrangement of units.
- End member means a vector corresponding to the vertex of a K-1-dimensional simplex, and an end member is a feature vector of a polymer (model polymer) consisting of only one type of multiplex among K types. corresponds to
- the sequence analysis method of the present invention includes the number of variants K determined according to the number of types of monomers included in a sample set and the number of units constituting a multiplex, a reference sample, and an estimated target sample. This is a sequence analysis method that uses as input the two-dimensional mass spectrum obtained from the method, and outputs the mass-based content ratio of multiple molecules in the sample to be estimated.
- FIG. 1 is a flowchart of an embodiment of the invention.
- K is an integer of 2 or more
- the number of variants of a multiplex is a number that can be uniquely determined as the number of possible combinations depending on the length of the multiplex and the number of types of monomers included in the monomer set. It is.
- the number of types of monomers is an integer of 2 or more, and although the upper limit is not particularly limited, it is preferably 10 or less.
- the reference sample and the estimated target sample are those synthesized by one or more of the 10 types of monomers. It is. That is, the reference sample may be a (co)polymer obtained by adding one or more monomers selected from the sample set to a reaction vessel and polymerizing under various conditions (temperature and time). .
- the estimation target specimen may be one synthesized using one or more monomers included in the monomer set.
- the number of units constituting the multiplex is 2 or more, and the upper limit is not particularly limited, but is preferably 10 or less.
- the length of the multiplex is preferably 3 or more, preferably 9 or less, more preferably 7 or less, and even more preferably 5 or less.
- the sequence of a polymer is estimated as the content ratio of multiple chains, so the longer the multiple chains, the closer it is to uniquely defining the entire polymer chain.
- the number of multiplexes is 10 or less, the increase in the number of variants of multiplexes and the number of end members will be within a certain level in combination calculations, and the number of required reference specimens will not easily increase.
- the length of the multiplex is 3 or more, it is easier to predict the physical properties of the polymer based on the analysis results by this sequence analysis method, and when it is 5 or less, variations in the reference sample are more likely to be reduced. , which tends to be easier to analyze.
- the length of the multiplex is uniquely determined as described above from the number of theoretically possible combinations, as will be described later, the realizable number may be smaller than this, and K is It is preferable that the number is equal to or less than the above theoretically possible number of combinations.
- step S2 gas components generated by heating the reference sample, which is a polymer composed of monomers, and the estimation target sample are sequentially ionized, and the m/z (original is italicized.
- a data matrix containing a two-dimensional mass spectrum of the ion (defined as the dimensionless quantity obtained by dividing the mass of the ion by the unified atomic mass unit and the absolute value of the number of charges on the ion) is obtained.
- the method of observing (obtaining) a mass spectrum is not particularly limited, but a method of mass spectrometry of a sample under ambient conditions without pretreatment is preferred.
- Such ionization method and mass spectrometry method include a mass spectrometry method called "DART-MS” which combines an ion source called “DART” (registered trademark, Direct Analysis in Real Time) ion source and a mass spectrometer. Analyzers are known.
- the mass spectrometer is not particularly limited, but one capable of accurate mass spectrometry is preferred, and may be either a quadrupole type, a time-of-flight (TOF) type, or the like.
- the specific conditions for acquiring mass spectra are not particularly limited, but to give one non-limiting example, the sample is heated at a heating rate of 50°C/min, and the heat generated in the temperature range of 50 to 550°C.
- the procedure includes injecting helium ions into the decomposed gas at an interval of 50 shots/min to ionize the gas, and obtaining a two-dimensional mass spectrum with m/z on the horizontal axis and temperature on the vertical axis.
- the obtained two-dimensional mass spectra may be stored for each sample and heating temperature, and at least two or more of these two-dimensional mass spectra may be collectively converted into a data matrix.
- mass spectra are continuously acquired at predetermined heating intervals. These mass spectra may be used as they are to create a data matrix, or may be averaged for each predetermined heating temperature range. By averaging mass spectra into one mass spectrum for each predetermined heating temperature range, the amount of data can be compressed.
- An example of such a heating temperature range is about 10 to 30°C.
- the peak intensity may be normalized.
- Examples of the normalization method include a method of normalizing so that the sum of squares of peak intensities becomes 1.
- the number of two-dimensional mass spectra used to create the data matrix X is not particularly limited as long as it is two or more, but it is preferable to use two-dimensional mass spectra of all samples (all samples included in the sample set). Note that when one sample is measured twice or more, part or all of the two-dimensional mass spectra obtained from the two or more measurements may be used to create the data matrix X. .
- step S3 a first NMF process is performed in which the data matrix is decomposed into non-negative matrix factors and decomposed into the product of a matrix consisting of the normalized base spectrum and its intensity distribution matrix.
- the data matrix X is decomposed into the product of the intensity distribution matrix A and the matrix S consisting of the base spectrum.
- the output intensity distribution matrix A and the matrix S representing the base spectrum (base spectrum matrix) are expressed by the following equations.
- N number of samples
- T number of temperature band divisions
- D number of channels
- M number of base spectra
- X T represents the transposed matrix of X, represents the Frobenius norm.
- Tr(X) represents a trace
- diag(X) represents a diagonal matrix consisting of diagonal components.
- 1 N and 11 N represent N-dimensional vectors or (N,N) matrices in which all elements are 1.
- I N represents an N-dimensional unit matrix.
- ⁇ Change 1 Variance-covariance matrix of Gaussian noise for each channel
- ⁇ Change 2 Apply soft orthogonality constraints between base fragment spectra
- ⁇ Change 3 Integrate fragment spectra with similar intensity distributions (extension of merging conditions)
- p(S) is The uniform distribution on the hypersphere of p( ⁇
- a 1 + 10 -16
- b can be estimated empirically from the expected value E (A im ) of A im , It can be related to This is further expressed as E(X id ) There is a relationship, and if E(X id ) is approximated by the average ⁇ of X , then From b, It is determined that Therefore, the negative log-likelihood function is It can be written as This is a downwardly convex function with respect to ⁇ , so That is, An update formula for ⁇ can be obtained as follows. Up to this point, we have completely followed the derivation of ARD-SO-NMF reported by Shiga et al.
- noise components included in the intensity distribution matrix are extracted by canonical correlation analysis between the obtained base spectrum matrix and the data matrix, and the intensity distribution matrix is corrected to reduce the influence of the noise components.
- a distribution matrix may also be obtained.
- NMF is a low-rank approximation of a data matrix, even if component k does not actually exist in the i-th spectrum, if it exists, the approximation will be better in a least squares sense, then C ik >0 shall be. In many cases, such C ik is very small and does not pose a problem in NMF analysis.
- CCA Canonical Correlation Analysis
- the CCA filter scans sample-wise to see if each component of the base spectrum output from NMF is actually included in the original data, and if a similar peak pattern is not seen in the original data, it is removed from that sample. by eliminating it from the spectrum of .
- the CCA filter will be explained in detail below.
- the input is the base spectrum matrix of the output in the first NMF process, , and the background spectrum,
- the output is a list of multiples determined to be from the background.
- the M-component obtained in the first NMF treatment contains components derived from background and contaminants, which may distort the sequence analysis results, so it is preferable to remove them from A and S.
- the M'-component is determined by the CCA-filter to be a background-derived multiplex, as well as are each and become.
- the number of components after applying the CCA-filter is MM', but M is used throughout.
- the background spectrum It is necessary to include this in the data set and perform the first NMF together with the sample spectrum. If some contaminant is expected, the spectrum measured for that contaminant can be used as XBG .
- the coefficients of the linear combination of are vectors as well as Suppose that it is stored in . Therefore, each spectral pair is as well as It can be written as The similarity is evaluated by the correlation coefficient ⁇ , here,
- the problem setting for CCA is It can be written as
- the solution is given as the solution to the general eigenvalue problem, here is the eigenvector This is a matrix obtained by arranging the eigenvalues as column vectors in descending order of their eigenvalues.
- Each eigenvalue is a correlation coefficient between y and z created by linear combination using the corresponding (u * , v * ) as a coefficient.
- u * corresponding to all eigenvalues satisfying ⁇ >t 2 is extracted, and if the first element corresponding to the coefficient of S m: is a large component that contributes significantly to u * , that is, If so, component m is determined to be a component originating from the background and is removed from the system.
- t 2 ⁇ [0.9, 0.99] and t 3 ⁇ [0,1]. This is summarized as Algorithm 2 below.
- the background component After the background component is identified, it is removed from the system by deleting the corresponding column vector of A and row vector of S.
- the M′-component derived from the background has been removed, output from the CCA-filter. (Hereafter, for simplicity, M-M' is replaced with M, ), the assigned intensity is corrected by the sample amount and internal standard peak.
- the small matrix part A (n) of A regarding sample n was converted into a one-dimensional vector. may be input to the second NMF as the feature vector of sample n, but since the temperature distribution of the M-fragment is unnecessary information in composition analysis, all temperature bands are added up for each sample to calculate the M-fragment for each sample. -Represents fragment abundance (FA) may also be input.
- FA fragment abundance
- non-negative least square (NNLS) fitting we will frequently use non-negative least square (NNLS) fitting.
- the problem is to find the optimal non-negative coefficient using the constant matrix By the column vector linear combination of It approximates It is determined by To solve this problem, many optimization methods can be used, including alternating direction multiplier methods (ADMM) (1), but here we use Fu. et. al. (2)
- ADMM-NNLS developed by It is written as.
- Approximate vector set Y [y 1 , . .. , y L ]
- FCLS fully constrained least square
- I will write it as
- the FA for each sample is calculated by multiplying the matrix C representing the mass proportion of the model polymer in the sample by the matrix B representing the feature vector of the model polymer, as expressed by the following formula. Disassemble.
- Input is FA for each sample , basis M-fragment-wise spectrum , and the number of variants K, and the output is a matrix representing the mass proportion of the model polymer in the sample,
- Fu et al. (3) In order to provide robustness to outliers, We propose the introduction of a weight matrix.
- p ⁇ (0,2] and ⁇ are small regularization parameters.
- test data (Projection of test data onto the hyperplane spanned by S and B) Data that was not used to estimate S and B after estimating S and B from the data set (referred to as test data here)
- test data We will explain how to project , onto the hyperplane extending between S and B.
- step S5 the calculation of the spectrum of the model polymer (hereinafter sometimes referred to as "M spectrum") in step S5 will be described in detail.
- the spectrum (M spectrum) of the model polymer composed of only one type of multiplex is reconstructed from the calculation results so far.
- the method is to obtain the matrix product of a matrix representing the base spectrum determined by the first NMF process and a matrix representing the feature vector of the model polymer determined by the second NMF process.
- the spectrum of a model polymer is calculated by multiplying the base spectrum by a matrix (such as a coefficient) representing a characteristic vector specific to each model polymer. That is, the M spectrum is calculated as a matrix product of a matrix representing the base spectrum and a matrix representing the feature vector of the model polymer.
- the spectrum of the model polymer can be resolved into BS. This BS corresponds to the M spectrum.
- the M spectra calculated in this step can be said to estimate the mass spectrum of the sample containing only the model polymer, and in step S6, identification is performed to determine which multiplex each of the M spectra can belong to.
- the number of multiplexes is determined based on the number of theoretically possible combinations, and in principle, all M spectra can be assigned to each multiplex. However, as will be described in detail later, one or more of the M spectra may not belong to a multiplex.
- step S6 it is determined whether there is an M spectrum that is not assigned to a multiplex. If there is an M spectrum that cannot be assigned to the multiplex (step S6: YES), the number of variants of the multiplex is changed, and the first NMF process and the second NMF process are repeated again. If there is an M spectrum that cannot be assigned to a multiplex, one of the reasons may be that at least one of the multiplex variants does not actually exist or is not sufficiently contained in the reference sample. There are some things that have not been done.
- correction can be made by subtracting K by 1 and then performing the first NMF process and the second NMF process again.
- the fact that A and B do not have alternating copolymerizability was unknown. Even so, more accurate analysis results can be obtained.
- the present sequence analysis method includes steps S5 and S6, a variant of a multiple chain that cannot exist is incorporated into K due to the combination of individual monomers, etc. Even if the M spectrum is unknown, it is possible to evaluate and correct the validity of the analysis by simply checking whether the M spectrum can be assigned to the set multiplex.
- the sample typically, a reference sample
- the first NMF treatment and the second NMF treatment may be performed by subtracting K by 1 while leaving the reference specimen as it is.
- step S7 when M spectra are assigned to each of the multiplexes (step S6: NO), the next step (S7) is performed.
- the estimation of the content ratio of multiples in this sequence analysis method is carried out by projecting the feature vector of the specimen onto a K-1 dimension simplex, and the " An end member is required.
- This "end member” is defined by a feature vector of a polymer (model polymer) composed only of multiple molecules. However, it is often difficult to actually prepare a model polymer as a reference specimen.
- the number of variants K is, in principle, 13, and the "end members" include three types of homopolymers.
- Feature vectors of 13 types of "model polymers” are required.
- the feature vector of the "end member” is estimated by combining the first NMF treatment and the second NMF treatment as described above, and there is no need to actually measure the mass spectrum of the model polymer.
- One of the characteristics is that
- Figure 2 shows data matrices obtained from samples synthesized using methyl methacrylate (M) and styrene (S) as monomers, and calculated from each matrix obtained by the first NMF treatment and the second NMF treatment. This is a graphical representation of the M spectrum. The experimental procedure will be explained below.
- the sample was synthesized by adding methyl methacrylate, styrene, and a polymerization initiator (dimethyl 2,2'-azobis(isobutyrate)) to a reaction vessel, and heating the mixture for a predetermined period of time.
- a polymerization initiator dimethyl 2,2'-azobis(isobutyrate)
- the amounts of methyl methacrylate and styrene added, the heating temperature, and the reaction time were variously adjusted to produce polymers with different compositions, and each was used as a specimen. Note that detailed procedures and the like are the same as those in the embodiments described later, and therefore will not be described here.
- the polymerization conditions are shown in the table below.
- M initial fraction and S initial fraction represent the addition amount ratio of methyl methacrylate and styrene, respectively, and "Time (h)” represents the polymerization time, “Temp (°C)” represents the heating temperature.
- time (h) represents the polymerization time
- Temp (°C) represents the heating temperature.
- Figure 2 is the calculated M spectrum.
- spectra (1) to (5) are calculated M spectra, respectively.
- each M spectrum is not labeled with which multiplex it originates from in the first NMF processing and the second NMF processing. Even if a label is not attached, it does not affect the subsequent analysis itself.
- by attributing the M spectrum to a multiplex it is possible to check the validity of analysis conditions, and as a result, more accurate analysis becomes possible.
- step S6 is a step of identifying the multiplex to which the M spectrum belongs. Since the M spectrum is, in principle, assigned to one of the multiplexes, it is identified in step S6. Although the identification method is not particularly limited, it is preferably carried out by comparing the sum of the mass numbers of the units constituting the multiplex with m/z at the peak of the M spectrum.
- the sum of the mass numbers of the units making up the multiplex is 300 for MMM, 304 for MMS, 304.308 for MS (MS), 308 for SSM, and 312 for SSS.
- the peaks of the M spectrum are 300+1 in the spectrum of (1), 304+1 in (2), 304+1 and 308+1 in (3), 308+1 in (4), and 312+1 in (5). This coincides with the protonated peak of multiple chains.
- M spectra of MMM, MMS, MS (MS), SSM, and SSS are identified in the order of (1) to (5).
- the labels of each spectrum in FIG. 2 are given as a result of this step.
- the spectrum (6) in Figure 2 represents the mass spectrum obtained from the actual polymerization of the M/S alternating copolymer, and it almost coincides with the calculated spectrum (3). I know that there is. Since the M spectra obtained as a result of the first NMF processing and the second NMF processing in this sequence analysis method are almost the same as the actually measured mass spectra as described above, the identification processing in this step is It can be easily implemented based on the structure and mass number.
- step S7 a K-1 dimensional simplex that includes all of the feature vectors (each corresponding to each specimen) is set, with the feature vectors of the model polymer as end members.
- the K-1 dimension simplex is set by the second NMF process based on the estimated endmember, regardless of whether the reference sample contains the endmember.
- the number of variants K is 3 or more, at least one of the feature vectors of the reference specimen is located in each of the outer regions of the hypersphere inscribed in the K-1 dimension simplex, or the reference specimen is located in an end member of the end member. It is preferable to include at least one.
- each position within the region of the K-1 dimensional simple substance represents the content ratio based on the mass of the end member. Therefore, the outer region of the hypersphere inscribed in the K-1 dimensional simplex roughly represents a region in which the content of any end member, ie, any multiplex, is greater than or equal to a predetermined amount.
- the fact that the feature vector of the reference specimen is located at such a position means that the specimen set includes the reference specimen in which the content of any multiplex is equal to or greater than a predetermined amount.
- the reference specimen includes an end member.
- FIG. 3 is an image diagram representing a K-1-dimensional simplex (two-dimensional simplex, triangle) when K is 3.
- the K-1 dimensional simplex 10 is a triangle whose vertices are the end members 13, 14, and 15 determined by the reference specimens 16, 17, and 18.
- reference specimens 16, 17, and 18 are located in each of the outer regions 19 (hatched) of the inscribed hypersphere 12 (in this case, a "circle") of the K-1 dimension simplex. , highly accurate quantitative analysis results can be obtained.
- the distances between the K end members and the feature vector of the estimation target specimen are calculated, and the content ratio of multiple chains in the estimation target specimen is estimated (step S8).
- the above distance is defined by a Riemann metric distance that takes into account the non-orthogonality of the base spectrum obtained by the first NMF process.
- FIG. 4 is an image diagram showing a K-1-dimensional simplex (two-dimensional simplex, triangle) when K is 3.
- the K-1 dimension simplex 20 is a triangle whose vertices are the end members 24 and 25 determined by the reference specimen 21 as an end member, the other reference specimens 22, and the reference specimen 23.
- the difference from FIG. 3 is that the reference specimens 22 and 23 are located in the inner region of the hypersphere inscribed in the K-1 dimensional simplex.
- the other reference specimens may be located on the hypersphere inscribed in the K-1 dimension simplex, or may be located on the outer region. You can leave it there. That is, in this case, the position of the other reference specimen may be arbitrary.
- the other reference specimen should contain 20% by mass or more of an end member component (component of other end member) different from the reference specimen which is the end member. is preferable, and it is more preferable to contain 40% by mass or more.
- sequence analysis method even for polymers for which reference specimens are difficult to prepare, accurate sequence analysis can be performed with a simple procedure without the need for special pretreatment.
- This sequence analysis method can significantly shorten the time required to obtain results, especially when applied to quality control of polymers synthesized from multiple monomers and investigation of causes of defects. can.
- the polymer to which this sequence analysis method is applicable is not particularly limited, and may be either a synthetic polymer or a natural polymer.
- a (co)polymer synthesized based on a monomer having an ethylenically unsaturated bond is explained, but the (main chain) structure of the polymer is not limited thereto.
- the polymerization method is not particularly limited, and the polymer may be synthesized by any method such as addition polymerization, opening polymerization, polycondensation, polyaddition, and addition polymerization.
- the reference specimen and the estimation target specimen may be synthesized using different synthesis methods (polymerization methods) as long as they are synthesized from the same monomer set.
- the reference sample is a sample prepared by ordinary radical polymerization with various polymerization conditions
- the presumed target sample is a sample prepared by other methods (e.g., atom transfer radical polymerization or reversible addition-fragmentation chain transfer (RAFT) polymerization).
- Polymerization may be performed under precise control by living polymerization (e.g., living polymerization, etc.).
- sequence analysis method is application to sequence analysis of (photo)resist resin. It is known that there is a correlation between the developability of resist resin and the multi-strand array, and by performing array analysis of resist resin using this array analysis method, it is possible to achieve better developability. It becomes easier to develop resist resins and investigate the causes of development defects in resist resins.
- the resist resin to which this sequence analysis method can be applied is not particularly limited. Examples of the resist resin include resins synthesized from the following monomers.
- Specific monomer combinations include, for example, ⁇ -butyrolactone (meth)acrylate/2-methyl-2-adamantyl (meth)acrylate/3-hydroxy-1-adamantyl (meth)acrylate; Examples include hydroxystyrene/2-methyl-2-adamantyl (meth)acrylate/styrene.
- FIG. 5 is a hardware configuration diagram of an embodiment of the sequence analysis device of the present invention.
- the sequence analysis device 30 includes a mass spectrometer 31 and an information processing device 32, and the information processing device 32 has a processor 33, a storage device 34, a display device (not shown), and an input device for connecting an input device.
- the mass spectrometer 31 and the information processing device 32 are configured to have an output interface (I/F) 35 and can mutually transmit and receive data.
- I/F output interface
- the processor 33 includes, for example, a microprocessor, a processor core, a multiprocessor, an ASIC (application-specific integrated circuit), an FPGA (field programmable gate array), and a GPGPU (gene ral-purpose computing on graphics processing units), etc.
- a microprocessor for example, a microprocessor, a processor core, a multiprocessor, an ASIC (application-specific integrated circuit), an FPGA (field programmable gate array), and a GPGPU (gene ral-purpose computing on graphics processing units), etc.
- the storage device 34 has a function of temporarily and/or non-temporarily storing various programs and data, and provides a work area for the processor 33.
- the storage device 34 is, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), an HDD (Hard Disk Drive), a flash memory, or an SSD (Solid State Drive).
- the input device connected to the input/output I/F 35 can accept various information inputs, and can also accept inputs of instructions to the sequence analysis device 30.
- the input device may be a keyboard, mouse, scanner, touch panel, or the like.
- the display device connected to the input/output I/F 35 can display the status of the sequence analysis apparatus 30, the progress of analysis, the sequence analysis results, and the like.
- the display device may be a liquid crystal display, an organic EL (Electro Luminescence) display, or the like. Further, the display device may be configured integrally with the input device. In this case, the display device may be a touch panel display that provides a GUI (Graphical User Interface).
- the information processing device 32 which includes a processor 33, a storage device 34, and an input/output I/F 35 that can communicate data with each other via a data bus, is typically a computer.
- the mass spectrometer 31 is typically a mass spectrometer equipped with a "DART" ion source, a sample heating device, and a time-of-flight mass spectrometer.
- the ion source and mass spectrometer included in the mass spectrometer 31 are both non-limiting examples, and the configuration of the mass spectrometer included in the sequence analyzer is not limited to the above.
- FIG. 6 is a functional block diagram of the sequence analysis device 30.
- the sequence analysis device 30 includes a mass spectrometer 31 that performs mass spectrometry on a specimen, and an information processing device 32 that processes a mass spectrum obtained by the mass spectrometer 31.
- the mass spectrometer 31 is controlled by the processor 33 executing a program stored in the storage device 34 of the information processing device 32 .
- the mass spectrometer 31 ionizes gas components generated by thermal desorption and/or thermal decomposition while heating the loaded specimen, sequentially performs mass analysis, and outputs a mass spectrum.
- the mass spectrum acquired by the mass spectrometer 31 is passed to the data matrix creation section 41 of the information processing device 32.
- the data matrix creation unit 41 is a function realized by the processor 33 executing a program stored in the storage device 34.
- the data matrix creation section 41 creates a data matrix from a two-dimensional mass spectrum in which a mass spectrum is stored in each row, and passes it to a first NMF processing section 43, which will be described later. Note that the details of the data matrix are as already explained.
- the number of variants determining unit 42 is a function realized by the processor 33 executing a program stored in the storage device 34.
- the variant number determining unit 42 determines the variant number K according to the number of monomer types acquired from the outside 47 via the input/output I/F 35 and the length of the multiplex, and performs the first NMF process. Hand it over to Department 43.
- the storage device 34 stores the maximum value of the number of variants K, which is predetermined according to the number of monomer types and the length of the multiplex, and the variant number determining unit 42 refers to this. Then, the number of variants K is determined.
- the number of types of monomers and the length of the multiplex are acquired from the outside 47 via the input/output I/F 35;
- the length of the multiplex may be obtained not only from the input/output I/F 35 but also from an external network using communication.
- the maximum value of the number of variants K may be stored in the storage device 34 as a table for the number of monomer types and the length of the multiplex, or may be stored as a table for the number of monomer types and the length of the multiplex. It may also be stored as a function of the length of the tether.
- the first NMF processing unit 43 is a function realized by the processor 33 executing a program stored in the storage device 34.
- the first NMF processing unit 43 performs non-negative matrix factorization (NMF) on the data matrix based on the data matrix provided from the data matrix creation unit 41 and the number of variants K provided from the number of variants determination unit 42, It is decomposed into the product of the intensity distribution matrix and the matrix representing the base spectrum. The method of matrix decomposition has already been explained.
- the result is passed to the second NMF processing section 44.
- the second NMF processing unit 44 is a function realized by the processor 33 executing a program stored in the storage device 34.
- the second NMF processing unit 44 factorizes the intensity distribution matrix provided from the first NMF processing unit 43 into a non-negative value matrix, and generates a matrix representing the mass proportion in the sample of the model polymer composed of only multiples, and a model It is decomposed into a product with a matrix representing the feature vector of the polymer.
- the method of matrix decomposition has already been explained. The result is passed to the vector projection section 45.
- the vector projection unit 45 is a function realized by the processor 33 executing a program stored in the storage device 34.
- the vector projection unit 45 uses the feature vector of the model polymer provided from the second NMF processing unit 44 as an end member, and sets a K-1 dimensional simplex that includes all the feature vectors of the specimen. Note that the method for setting the K-1 dimension is as already explained.
- the composition estimation unit 46 is a function realized by the processor 33 executing a program stored in the storage device 34.
- the composition estimation unit 46 calculates the distances between the K end members in the K-1 dimension simplex set by the vector projection unit 45 and the feature vector of the estimation target specimen, and based on the distance ratio, Estimate the content ratio of each of the multiples.
- the composition estimation unit 46 then outputs the sequence analysis results to the outside 48 via the input/output I/F 35.
- the sequence analysis results are output to the outside 48 via the input/output I/F 35, but the sequence analysis results can also be output to the external network using communication in addition to the input/output I/F 35. may be sent to.
- sequence analysis device 30 even for polymers for which reference specimens are difficult to prepare, accurate sequence analysis can be performed with a simple procedure without the need for special pretreatment. According to the sequence analysis device 30, the time required to obtain results is significantly reduced, especially when applied to quality control of polymers synthesized from multiple monomers, investigation of causes of defects, etc. be able to.
- FIG. 7 is a functional block diagram of a second embodiment of the sequence analysis device.
- the sequence analysis device 50 is similar to the sequence analysis device 30 except that the information processing device 32 has a model polymer spectrum identification section 51 (described as "M spectrum identification section” in the figure). The same is true. Below, differences from the sequence analysis device 30 will be explained.
- the model polymer spectrum identification unit 51 included in the sequence analysis device 50 is a function realized by the processor 33 executing a program stored in the storage device 34.
- the model polymer spectrum identification unit 51 uses the base spectrum provided from the first NMF processing unit 43, the feature vector of the model polymer provided from the second NMF processing unit 44, and the multiplex acquired from the outside 52.
- the multiplex to which the M spectrum belongs is identified from the mass numbers of the constituent units. The details of the identification method are as already explained. Note that the mass number of the units forming the multiplex may be stored in the storage device 34 in advance.
- the model polymer spectrum identification unit 51 adds a new number of variants K (typically, from the initial number of variants K to a predetermined number of variants) to the first NMF processing unit 43.
- the first NMF processing section 43 performs the first NMF processing
- the second NMF processing section 44 performs the second NMF processing. This process is repeated until all of the M spectra can be assigned to the multiplex.
- the method for reducing the number of variants is not particularly limited, but a typical method is to reduce the number by 1.
- the matrix representing the mass proportion of the model polymer in the sample calculated by the second NMF processing unit 44 and the feature vector of the model polymer A matrix representing is provided to the vector projection unit 45 .
- the subsequent processing is similar to that of the sequence analysis device 30.
- sequence analysis device 50 Since the sequence analysis device 50 has a model polymer spectrum identification section 51, even if the initially set K as a theoretically possible value does not correspond to reality and the reason is unknown, Through predetermined processing, an appropriate K can be reset to provide more accurate sequence analysis results.
- FIG. 8 is a functional block diagram of an embodiment of the polymerization condition proposing device of the present invention.
- the polymerization condition proposing device 60 has an information processing device 61. In addition to the functions of the sequence analysis device 30, the information processing device 61 further includes a policy proposal section 62.
- the hardware of the polymerization condition proposing device 60 is similar to that of the sequence analyzing device 30, and the policy proposing unit 62 is a function realized by the processor 33 executing a program stored in the storage device 34.
- the functions of the polymerization condition proposing device 60 are similar to those of the sequence analyzing device 30 except that it includes a policy proposing section 62, so the functions of the policy proposing section 62 will be described below.
- the policy proposal unit 62 is a learning model generated by machine learning using, as training data, a plurality of actually measured data in which polymerization conditions are associated with sequence analysis results of polymers obtained as a result.
- the policy proposal unit 62 generates a polymerization condition data set including a plurality of polymerization conditions for which the resulting polymer arrangement is unknown, and calculates a predicted result (polymer arrangement) for each polymerization condition.
- the policy proposal unit 62 creates a prediction data set that associates polymerization conditions and prediction results, identifies prediction results that are close to the target sequence among the obtained prediction results, and creates prediction data sets that are associated with the identified prediction results. Extract polymerization conditions.
- the policy proposal unit 62 receives data in which the sequence analysis result of the estimation target sample and its polymerization conditions are associated from the composition estimation unit 46, and further receives data of the target sequence from the outside 63 via the input/output I/F 35. receive.
- the policy proposal unit 62 generates a plurality of polymerization condition data sets and predicts sequences. Among these, conditions that yield a sequence closer to the target sequence than the sequence analysis result obtained from the composition estimating unit 46 are extracted, and these are proposed as "polymerization conditions" to the outside 64 via the input/output I/F 35. .
- the learning model may be, for example, a trained neural network that is trained using each parameter of the polymerization conditions as an explanatory variable and the result of sequence analysis of the obtained polymer as an objective variable.
- Known methods can be used to construct such a learning model, for example, the methods described in International Publication No. 2020/054183, International Publication No. 2020/066309, and Japanese Patent Publication No. 2008-501837 can be used. .
- the polymerization condition proposing device 60 includes the policy proposing unit 62, it can compare the sequence analysis results with the target sequence and propose polymerization conditions that are expected to yield a polymer closer to the target sequence. According to the above, it is possible to design materials more efficiently even in a complex system in which there are many types of monomers and/or the length of multiple molecules is long.
- the polymerization condition proposing device 60 does not have the model polymer spectrum identifying section 51, it is preferable that the polymerization condition proposing device of the present invention has the model polymer spectrum identifying section 51.
- FIG. 9 is a functional block diagram of an embodiment of the automatic synthesis device of the present invention.
- the automatic synthesis device 70 further includes a polymer synthesis device 71.
- the polymer synthesis apparatus 71 includes a monomer supply mechanism 75, a reaction tank 76, and a control device 72 that controls these.
- the polymerization condition proposing device 60 has the same functions as the polymerization condition proposing device 60 described above.
- Polymer synthesis apparatus 71 may typically be a flow reactor.
- the monomer supply mechanism 75 supplies the monomer and/or a monomer solution in which the monomer is dissolved in a solvent to the reaction tank 76 .
- the synthesis device 71 may have a plurality of monomer supply mechanisms 75, each of which is independently controlled by a control device 72.
- the monomer supply mechanism 75 typically includes a container containing the monomer (or solution), a pipe line from the container to the reaction tank 76, and a pump. The type and amount of monomers supplied to the reaction tank 76 are adjusted by the output of the pump.
- the reaction tank 76 is a hollow part provided in a pipe connected to the supply mechanism 75, and is typically a container-shaped reaction field.
- the reaction tank 76 includes a heater, a gas pipe for adjusting the atmosphere, a valve, a pump, a stirring blade, and the like.
- the monomer supply mechanism 75 and the reaction tank 76 are controlled by the processor 73 executing a program stored in the storage device 74. Specifically, upon receiving the polymerization conditions provided from the polymerization condition proposing device 60, that is, the polymerization conditions predicted to yield a polymer closer to the target sequence, the supply mechanism 75 is controlled in accordance with the conditions. , the type of monomers supplied to the reaction tank 76 and the supply amount of each monomer are adjusted. Further, the reaction tank 76 is controlled to adjust the reaction temperature, reaction time, stirring speed, etc.
- the control device 72 controls the pump of the reaction tank 76 to send the obtained polymer from the reaction tank 76 to the mass spectrometer 31.
- the reaction tank 76 and the mass spectrometer 31 are connected through a pipe, and the synthesized polymer is subjected to sequence analysis again.
- the automatic synthesis device 70 configured in this way, polymerization is automatically performed under the polymerization conditions proposed by the polymerization condition proposal device 60, and the polymer is further subjected to sequence analysis again. The evaluation of the results is repeated again. As a result, a polymer is automatically synthesized along the target sequence.
- Example 1 Triad analysis of MMA/St/BA
- Triad analysis was performed using methyl methacrylate (M), styrene (S), and butyl acrylate as monomer sets.
- Methyl methacrylate, styrene, and butyl acrylate were each manufactured by Tokyo Kasei Kogyo. Pour a predetermined amount of these monomers into a vial, add dimethyl 2,2'-azobis(isobutyrate) as a polymerization initiator, and after purging with nitrogen gas, polymerize at a predetermined temperature for a predetermined time while stirring, Thereafter, the reaction was stopped with methanol. The obtained polymer was dried and then subjected to mass spectrometry using "DART-MS”.
- the procedure for mass spectrometry using "DART-MS” is as follows.
- the polymer was decomposed by heating from 50° C. to 500° C. on a heater (trade name “ionRocket” manufactured by Biochromato) at a temperature increase rate of 50° C./min. Measurement was performed for 11 minutes per sample, including 2 minutes of preheating time from room temperature to 50°C.
- the pyrolysis gas was continuously ionized with excited He gas using a "DART"-ion source (trade name “DART-OS”; manufactured by IonSense).
- Spectra of MS (“LCMS-2020” manufactured by Shimadzu) were recorded in positive ion mode at 50 scan/min, and 550 spectra were obtained per sample.
- the mass range was 50-1500 m/z
- the interval scale was 0.05 m/z
- the mass resolution was 2000.
- the number of samples was 85
- the temperature range for mass spectrometry was 200-450°C
- the m/z range was 50-410.
- other hyperparameters are as follows.
- FIG. 10 is a diagram showing a model polymer spectrum for each multiplex, determined by calculation. Since there are 3 types of monomers and triplet analysis is used, K is 13, and both spectra have peaks at reasonable positions when compared with the sum of the mass numbers of the monomers. was. In addition, in the figure, “(XXX) l " etc. written next to each spectrum represent the type of multiplex, and "XXX" written at the peak position indicates the peak position of the identified multiplex. represents. It became clear that each model polymer spectrum in FIG. 10 was reasonably assigned to each triad, and the calculations could be performed as intended.
- Example 2 St/BA pentad analysis
- Sequence analysis was carried out in the same manner as in Example 1, except that the monomer set was changed from MMA/St/BA to St/BA and pentadlet analysis was performed.
- the table below is a table of polymerization conditions.
- “mass (mg)” represents the mass of the obtained polymer
- “S initial fraction” and “B initial fraction” represent the charging ratio of S and B (based on mass), respectively.
- polym.Time(h) represents the reaction time (h)
- polym.Temp(C) represents the reaction temperature (° C.).
- 81 different polymers were synthesized under different reaction conditions.
- the number of samples was 81
- the temperature range for mass spectrometry was 200-450°C
- the m/z range was 100-700.
- other hyperparameters are as follows.
- FIG. 11 shows the results of obtaining the model polymer spectrum. Both spectra had peaks at reasonable positions when compared with the sum of the mass numbers of the monomers. In addition, in the figure, "(XXXX) l " etc. written next to each spectrum represent the type of multiplex, and "XXXX" written at the peak position indicates the peak position of the identified multiplex. represents. It became clear that each model polymer spectrum in FIG. 11 was reasonably assigned to each triad, and the calculations could be performed as intended.
- Example 3 Comparison with NMR measurement results
- the pentad composition of the sample to be estimated is obtained by projection onto the hyperplane defined by S and B. This is called C test (here, K-9). This, is multiplied from the right by the transformation matrix from quintuplets to triplets.
- the conversion matrix is shown in the table below.
- “Sequence-defined copolymers” is a matrix representing the basis spectrum of the quintad calculated in Example 2, and "B-centered triad matrix, T B " is a matrix where B is It represents a transformation matrix to a centered triad (for example, BBS, etc.), and “B-centered triad matrix, T S ” represents a transformation matrix to a triad in which S is also centered.
- T B is a matrix where B is It represents a transformation matrix to a centered triad (for example, BBS, etc.)
- B-centered triad matrix, T S represents a transformation matrix to a triad in which S is also centered.
- TB mainly B, for which data can be obtained by NMR. According to the above transformation matrix,
- the three-dimensional vector is decomposed into mass ratios of BBB, BBS, and SBS.
- FIG. 12 is a diagram showing the relationship between polymerization time and conversion rate.
- FIG. 13(A) shows the change in the BBB triad content in the obtained copolymer.
- the horizontal axis is the conversion rate (%), and the vertical axis is the mass fraction of BBB triplets.
- FIG. 13(B) shows changes in the content of BBS triads in the obtained copolymer
- FIG. 14 shows changes in the content of SBS triads.
- the NMR analysis results and the analysis results according to the embodiment of the analysis method "RQPMS;"reference-free” quantitative pyrolysis MS" of the present invention are in good agreement, and furthermore, Alfrey - It also matched the theoretical curve calculated using the Mayo formula.
Landscapes
- Chemical & Material Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Electrochemistry (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
重合体における、単位の複数が配列して構成される多連子の含有量を推定する配列解析方法であって、多連子の変種数Kを決定することと、参照検体、及び、推定対象検体のそれぞれの検体を加熱して生ずるガス成分を順次イオン化し、二次元マススペクトルを含むデータ行列を得ることと、データ行列を非負値行列因子分解し、基底スペクトル行列と強度分布行列の積に分解することと、強度分布行列を非負値行列因子分解し、多連子のみから構成されるモデル重合体の質量割合を表す行列と、特徴ベクトルを表す行列との積に分解することと、モデル重合体の特徴ベクトルをエンドメンバーとし、検体の特徴ベクトルの全てを内包するK-1次元単体を設定することと、エンドメンバーと推定対象検体の特徴ベクトルとの距離の比より、多連子のそれぞれの含有量比を推定することと、を含む配列解析方法によれば、高分子の簡便な配列解析方法が提供される。
Description
本発明は、配列解析方法、配列解析装置、重合条件提案装置、及び、自動合成装置に関する。
タンパク質、及び、核酸分子等において広く知られるように、高分子の物性には単量体(モノマー)由来の単位の配列が大きく影響を与える。タンパク質、及び、核酸分子等の生体高分子については、その配列解析手法が数多く提案されている。このような技術として、特許文献1には、「一対の電極間を流れるトンネル電流を測定することにより、生体高分子を構成する複数の単量体の配列を決定する配列決定方法であって、a)前記電極間の電流値を所定の時間間隔で計測し、電流値データを取得する工程と、b)前記電流値データからシグナルの密集領域を含む解析領域を選択する工程と、c)前記解析領域において、複数の代表値のうちで最も電流値が小さい最小代表値と、複数の代表値のうちで最も大きい最大代表値とを決定する工程と、d)前記最小代表値および前記最大代表値を基準として、前記シグナルに対応する単量体の種類を判別する工程と、を含む、配列決定方法。」が記載されている。
上述のとおり、生体高分子等についてはその配列解析方法が確立されているものの、工業的に使用される高分子の多くについては、配列解析方法は未だ確立されていない。そこで、本発明は、高分子の簡便な配列解析方法の提供を課題とする。また、本発明は、配列解析装置、重合条件提案装置、及び、自動合成装置の提供も課題とする。
本発明者らは、上記課題を解決すべく鋭意検討した結果、以下の構成により上記課題を解決することができることを見出した。
[1] 2種以上の単量体を含む単量体セットから選択された単量体を重合させて得られる重合体における、上記単量体に由来する単位の複数が配列して構成される多連子の含有量を推定する、重合体の配列解析方法であって、上記単量体セットに含まれる単量体の種類数と、上記多連子を構成する上記単位の数とに応じて、上記多連子の変種数Kを決定することと、上記単量体から構成される重合体である参照検体、及び、推定対象検体のそれぞれの検体を加熱して生ずるガス成分を順次イオン化し、加熱温度に対するm/zの二次元マススペクトルを含むデータ行列を得ることと、上記データ行列を非負値行列因子分解し、規格化された基底スペクトルを表す行列とその強度分布行列の積に分解する第1NMF処理を行うことと、上記検体のそれぞれの上記強度分布行列を非負値行列因子分解し、上記多連子のみから構成されるモデル重合体の上記検体中における質量割合を表す行列と、上記モデル重合体の特徴ベクトルを表す行列との積に分解する第2NMF処理を行うことと、上記モデル重合体の特徴ベクトルをエンドメンバーとし、上記検体の特徴ベクトルの全てを内包するK-1次元単体を設定することと、K個の上記エンドメンバーと、上記推定対象検体の特徴ベクトルとの距離を、第1NMF処理の基底スペクトルの非直交性を考慮したリーマン計量距離により定義し、上記距離の比より、上記推定対象検体中の上記多連子のそれぞれの含有量比を推定することと、を含む配列解析方法。
[2] 上記変種数Kが3以上の場合、上記K-1次元単体に内接する超球体の外側の領域のそれぞれに、上記参照検体の特徴ベクトルの少なくとも1つが位置する、又は、上記参照検体が上記エンドメンバーの少なくとも1つを含む、[1]に記載の配列解析方法。
[3] 上記第2NMF処理の後に、上記モデル重合体の上記特徴ベクトルを表す行列と、上記基底スペクトルを表す行列との行列積により、上記モデル重合体のスペクトルを再構築し、上記モデル重合体のスペクトルが帰属する上記多連子を同定することと、を更に含む、[1]又は[2]に記載の配列解析方法。
[4] 上記同定が、上記多連子を構成する上記単位の質量数の和と、上記モデル重合体のスペクトルのピークにおけるm/zとを比較することにより実施される、[3]に記載の配列解析方法。
[5] 上記同定の結果、いずれの上記多連子にも帰属されない上記モデル重合体のスペクトルが存在する場合、上記変種数Kを変更して、上記第1NMF処理と、上記第2NMF処理、及び、上記同定とを繰り返す、[3]又は[4]に記載の配列解析方法。
[6] 上記変更が、上記変種数Kを所定数減ずることである、[5]に記載の配列解析方法。
[7] 上記同定の結果、上記多連子に帰属できない上記モデル重合体のスペクトルが存在する場合、上記参照検体を追加して、上記データ行列の取得、上記第1NMF処理、上記第2NMF処理、及び、上記同定を繰り返す、[3]又は[4]に記載の配列解析方法。
[8] 上記種類数をjとし、jが3以上のとき、上記変種数Kが式:K=jC3+3jC2+jC1で決定される、[1]~[7]のいずれかに記載の配列解析方法。
[9] 上記重合体がレジスト樹脂を含む、[1]~[8]のいずれかに記載の配列解析方法。
[10] 上記参照検体と、上記推定対象検体の重合方法が異なる、[1]~[9]のいずれかに記載の配列解析方法。
[11] 2種以上の単量体を含む単量体セットから選択された単量体を重合させて得られる重合体における、上記単量体に由来する単位の複数が配列して構成される多連子の含有量を推定する、重合体の配列解析装置であって、上記単量体から構成される重合体である参照検体、及び、推定対象検体からなる検体を加熱して生ずるガス成分を順次イオン化し、マススペクトルを連続的に観測する質量分析装置と、観測された上記マススペクトルを処理する情報処理装置と、を備え、上記情報処理装置は、加熱温度に対するm/zの二次元マススペクトルを含むデータ行列を得るデータ行列作成部と、上記単量体セットに含まれる単量体の種類数と、上記多連子を構成する上記単位の数とに応じて、上記多連子の変種数Kを決定する変種数決定部と、上記データ行列を非負値行列因子分解し、規格化された基底スペクトルを表す行列とその強度分布行列の積に分解するNMF処理を行う第1NMF処理部と、上記検体のそれぞれの上記強度分布行列を非負値行列因子分解し、上記多連子のみから構成されるモデル重合体の上記検体中における質量割合を表す行列と、上記モデル重合体の特徴ベクトルを表す行列との積に分解するNMF処理を行い、上記モデル重合体の特徴ベクトルを得る第2NMF処理部と、上記モデル重合体の特徴ベクトルをエンドメンバーとし、上記検体の特徴ベクトルの全てを内包するK-1次元単体を設定するベクトル射影部と、K個の上記エンドメンバーと、上記推定対象検体の特徴ベクトルとの距離を、第1NMF処理の基底スペクトルの非直交性を考慮したリーマン計量距離により定義し、上記距離の比より、上記推定対象検体中の上記多連子のそれぞれの含有量比を推定する組成推定部と、を含む、配列解析装置。
[12] 更に、上記モデル重合体の上記特徴ベクトルを表す行列と、上記基底スペクトルを表す行列との行列積により、上記モデル重合体のスペクトルを再構築し、上記モデル重合体のスペクトルが帰属する上記多連子を同定するモデル重合体スペクトル同定部を含む、[11]に記載の配列解析装置。
[13] 上記同定が、上記多連子を構成する上記単位の質量数の和と、上記モデル重合体のスペクトルのピークにおけるm/zとを比較することにより実施される、[12]に記載の配列解析装置。
[14] 上記同定の結果、いずれの上記多連子にも帰属されない上記モデル重合体のスペクトルが存在する場合、上記情報処理装置は、上記変種数Kを変更して、上記第1NMF処理部によるNMF処理と、上記第2NMF処理部によるNMF処理と、上記モデル重合体スペクトル同定部による同定とを繰り返す、[12]又は[13]に記載の配列解析装置。
[15] [11]~[14]のいずれかに記載の配列解析装置と、上記配列解析装置による配列解析結果と、上記推定対象検体の重合条件とを訓練データとして機械学習された方針提案部とを更に備え、上記方針提案部は、配列解析結果と、所定の目標配列とを比較し、上記目標配列の重合体を得るための新たな重合条件を提案する、重合条件提案装置。
[16] [15]に記載の重合条件提案装置と、上記重合体の合成装置と、を有し、上記合成装置は、上記単量体の供給機構、上記供給機構から上記単量体の供給を受けて上記単量体を反応させる反応槽、及び、制御装置を有し、上記制御装置は、上記重合条件提案装置により提案された重合条件に基づき、上記供給機構、及び、上記反応槽からなる群より選択される少なくとも一方を制御して、新たな重合体を合成する、自動合成装置。
[2] 上記変種数Kが3以上の場合、上記K-1次元単体に内接する超球体の外側の領域のそれぞれに、上記参照検体の特徴ベクトルの少なくとも1つが位置する、又は、上記参照検体が上記エンドメンバーの少なくとも1つを含む、[1]に記載の配列解析方法。
[3] 上記第2NMF処理の後に、上記モデル重合体の上記特徴ベクトルを表す行列と、上記基底スペクトルを表す行列との行列積により、上記モデル重合体のスペクトルを再構築し、上記モデル重合体のスペクトルが帰属する上記多連子を同定することと、を更に含む、[1]又は[2]に記載の配列解析方法。
[4] 上記同定が、上記多連子を構成する上記単位の質量数の和と、上記モデル重合体のスペクトルのピークにおけるm/zとを比較することにより実施される、[3]に記載の配列解析方法。
[5] 上記同定の結果、いずれの上記多連子にも帰属されない上記モデル重合体のスペクトルが存在する場合、上記変種数Kを変更して、上記第1NMF処理と、上記第2NMF処理、及び、上記同定とを繰り返す、[3]又は[4]に記載の配列解析方法。
[6] 上記変更が、上記変種数Kを所定数減ずることである、[5]に記載の配列解析方法。
[7] 上記同定の結果、上記多連子に帰属できない上記モデル重合体のスペクトルが存在する場合、上記参照検体を追加して、上記データ行列の取得、上記第1NMF処理、上記第2NMF処理、及び、上記同定を繰り返す、[3]又は[4]に記載の配列解析方法。
[8] 上記種類数をjとし、jが3以上のとき、上記変種数Kが式:K=jC3+3jC2+jC1で決定される、[1]~[7]のいずれかに記載の配列解析方法。
[9] 上記重合体がレジスト樹脂を含む、[1]~[8]のいずれかに記載の配列解析方法。
[10] 上記参照検体と、上記推定対象検体の重合方法が異なる、[1]~[9]のいずれかに記載の配列解析方法。
[11] 2種以上の単量体を含む単量体セットから選択された単量体を重合させて得られる重合体における、上記単量体に由来する単位の複数が配列して構成される多連子の含有量を推定する、重合体の配列解析装置であって、上記単量体から構成される重合体である参照検体、及び、推定対象検体からなる検体を加熱して生ずるガス成分を順次イオン化し、マススペクトルを連続的に観測する質量分析装置と、観測された上記マススペクトルを処理する情報処理装置と、を備え、上記情報処理装置は、加熱温度に対するm/zの二次元マススペクトルを含むデータ行列を得るデータ行列作成部と、上記単量体セットに含まれる単量体の種類数と、上記多連子を構成する上記単位の数とに応じて、上記多連子の変種数Kを決定する変種数決定部と、上記データ行列を非負値行列因子分解し、規格化された基底スペクトルを表す行列とその強度分布行列の積に分解するNMF処理を行う第1NMF処理部と、上記検体のそれぞれの上記強度分布行列を非負値行列因子分解し、上記多連子のみから構成されるモデル重合体の上記検体中における質量割合を表す行列と、上記モデル重合体の特徴ベクトルを表す行列との積に分解するNMF処理を行い、上記モデル重合体の特徴ベクトルを得る第2NMF処理部と、上記モデル重合体の特徴ベクトルをエンドメンバーとし、上記検体の特徴ベクトルの全てを内包するK-1次元単体を設定するベクトル射影部と、K個の上記エンドメンバーと、上記推定対象検体の特徴ベクトルとの距離を、第1NMF処理の基底スペクトルの非直交性を考慮したリーマン計量距離により定義し、上記距離の比より、上記推定対象検体中の上記多連子のそれぞれの含有量比を推定する組成推定部と、を含む、配列解析装置。
[12] 更に、上記モデル重合体の上記特徴ベクトルを表す行列と、上記基底スペクトルを表す行列との行列積により、上記モデル重合体のスペクトルを再構築し、上記モデル重合体のスペクトルが帰属する上記多連子を同定するモデル重合体スペクトル同定部を含む、[11]に記載の配列解析装置。
[13] 上記同定が、上記多連子を構成する上記単位の質量数の和と、上記モデル重合体のスペクトルのピークにおけるm/zとを比較することにより実施される、[12]に記載の配列解析装置。
[14] 上記同定の結果、いずれの上記多連子にも帰属されない上記モデル重合体のスペクトルが存在する場合、上記情報処理装置は、上記変種数Kを変更して、上記第1NMF処理部によるNMF処理と、上記第2NMF処理部によるNMF処理と、上記モデル重合体スペクトル同定部による同定とを繰り返す、[12]又は[13]に記載の配列解析装置。
[15] [11]~[14]のいずれかに記載の配列解析装置と、上記配列解析装置による配列解析結果と、上記推定対象検体の重合条件とを訓練データとして機械学習された方針提案部とを更に備え、上記方針提案部は、配列解析結果と、所定の目標配列とを比較し、上記目標配列の重合体を得るための新たな重合条件を提案する、重合条件提案装置。
[16] [15]に記載の重合条件提案装置と、上記重合体の合成装置と、を有し、上記合成装置は、上記単量体の供給機構、上記供給機構から上記単量体の供給を受けて上記単量体を反応させる反応槽、及び、制御装置を有し、上記制御装置は、上記重合条件提案装置により提案された重合条件に基づき、上記供給機構、及び、上記反応槽からなる群より選択される少なくとも一方を制御して、新たな重合体を合成する、自動合成装置。
本発明によれば、高分子の簡便な配列解析方法を提供できる。また、本発明によれば、配列解析装置、重合条件提案装置、及び、自動合成装置を提供できる。
以下、本発明について詳細に説明する。
以下に記載する構成要件の説明は、本発明の代表的な実施形態に基づいてなされることがあるが、本発明はそのような実施形態に制限されるものではない。
なお、本明細書において、「~」を用いて表される数値範囲は、「~」の前後に記載される数値を下限値及び上限値として含む範囲を意味する。
以下に記載する構成要件の説明は、本発明の代表的な実施形態に基づいてなされることがあるが、本発明はそのような実施形態に制限されるものではない。
なお、本明細書において、「~」を用いて表される数値範囲は、「~」の前後に記載される数値を下限値及び上限値として含む範囲を意味する。
また、以下に示す実施形態は、本発明の技術的思想を具体化した一例であって、本発明の技術的思想は、構成部品の材質、形状、構造、及び、配置等を下記の実施形態に特定するものではない。また、図面は模式的なものである。そのため、厚みと平面寸法との関係、比率等は現実のものとは異なる場合があり、また、図面相互間においても互いの寸法の関係や比率が異なることがある。
[用語の定義]
本明細書において使用される用語について説明する。なお、以下に説明のない用語については、当業者の間で普通に理解される意味で使用される。
本明細書において使用される用語について説明する。なお、以下に説明のない用語については、当業者の間で普通に理解される意味で使用される。
本明細書において「単量体」とは、検体である重合体の合成に使用される化合物(モノマー)を意味する。後述する「参照検体」及び「推定対象検体」はいずれも重合体(ポリマー)である。重合体は、所定数の単量体からなる単量体セットから選択された1又は2以上の単量体から合成されたものである。
本明細書において「単位」とは、重合体の構造の一部であって、単量体に由来するものをいう。例えば、塩化ビニル(CH2=CHCl)の重合によって合成されるポリ塩化ビニル(CH2CHCl)nについては、塩化ビニルが「単量体」に該当し、ポリ塩化ビニルが「重合体」に該当し、「CH2CHCl」が「単位」に該当する。
本明細書において「多連子」(ポリアド、polyads)は、有限の複数の単位が配列して構成される重合体の部分構造を意味する。例えば、単量体A、Bから合成される重合体における多連子として、組合せ上考えられるものとしてAA、BB、及び、AB(又はBA)等の二連子;AAB等の三連子;等が挙げられる。
多連子は、配列解析の単位であり、本明細書における配列解析は、推定対象検体に含まれる多連子の種類、及び、その質量基準の含有量を推定することを意味する。
多連子は、配列解析の単位であり、本明細書における配列解析は、推定対象検体に含まれる多連子の種類、及び、その質量基準の含有量を推定することを意味する。
また、「多連子を構成する単位の数」は、上記の例において、AA、BB、及び、AB(BA)等については、2である。AAA、AAB、BBA、BBB、及び、ABA(BAB)等については、3である。なお、以下の説明では、「多連子を構成する単位の数」を、単に「多連子の長さ」ということがある。
「多連子の変種数」とは、多連子における単位の組合せバリエーションを意味する。例えば、単量体セットに含まれる単量体の種類数が3(単量体A、B、及び、C)であって、多連子を構成する単位の数(多連子の長さ)が3(三連子)である場合、三連子の変種数は、AAA、BBB、CCC、AAC、AC{AC}、CCA、BBA、AB{AB}、AAB、BBC、BC{BC}、BCC、及び、ABCの13通りとなる。なお、「AC{AC}」は、「AC」が繰り返されるものを意味する。「AC」が繰り返されるものは、三連子としては「ACA」「CAC」と表せるが、異なる配列である「AAC{AAC}」「CCA{CCA}」と区別するために「AC{AC}」と表している。他も同様である。
多連子の変種数は、多連子の長さ、及び、単量体セットに含まれる単量体の種類数に応じた取りうる組合せの数として一意に決定される。しかし、単量体の種類、及び、重合形態等によっては、理論上の組合せとしては存在するものの、実際には生じ得ない多連子も存在する。例えば、単量体A、Bが交互共重合体を作らない場合、「AB{AB}」は理論上の組合せとしては存在するものの、実際には生じ得ない多連子となる。従って、多連子の変種数は、多連子の長さ、及び、単量体セットに含まれる単量体の種類数に応じて一意に決まる組合せの数、又は、それ以下の数となる。なお、本明細書では、多連子の変種数を「K(1以上の数)」と表すことがある。
「推定対象検体」とは、配列を推定すべき検体である。推定対象検体は、検体セットに含まれる2種以上の単量体の1種又は2種以上の単量体から構成される。なお、合成に使用された単量体の種類、及び、その量はいずれも未知であってよい。推定対象検体は、単量体の1種から構成される、いわゆるホモポリマーであってもよい。
なお、本明細書における「ホモポリマー」は、実際に1種類の単位のみから構成されている重合体、及び、マススペクトル上、1種類の単位のみから構成されていると推測される(そう見える)重合体、のいずれをも含む。すなわち、マススペクトル上、1種類の単位のみから構成されていると推測されるものの、実際には検出限界以下の他の単位が含まれている場合であっても、本明細書では、「ホモポリマー」として取り扱う。上記取り扱いは、参照検体についても同様である。
なお、本明細書における「ホモポリマー」は、実際に1種類の単位のみから構成されている重合体、及び、マススペクトル上、1種類の単位のみから構成されていると推測される(そう見える)重合体、のいずれをも含む。すなわち、マススペクトル上、1種類の単位のみから構成されていると推測されるものの、実際には検出限界以下の他の単位が含まれている場合であっても、本明細書では、「ホモポリマー」として取り扱う。上記取り扱いは、参照検体についても同様である。
「参照検体」とは、後述するK-1次元単体のK個のエンドメンバー決定に必要な検体を意味し、推定対象検体と同様に「検体セット」から選択される1種又は2種以上の単量体により合成された重合体である。
参照検体には、K種類の多連子から選択される少なくとも1種以上の多連子が含まれる。含まれる多連子の種類は特に制限されず1~K種類であってよい。なお、参照検体には、推定対象検体と同一の組成のものが含まれていてもよい。すなわち、推定対象検体と参照検体とは同一であってもよいが、参照検体同士はそれぞれ異なる。
なお、参照検体がそれぞれ「異なる」とは、含まれる単位の種類、及び、単位の配列からなる群より選択される少なくとも1種が異なることを意味する。
参照検体には、K種類の多連子から選択される少なくとも1種以上の多連子が含まれる。含まれる多連子の種類は特に制限されず1~K種類であってよい。なお、参照検体には、推定対象検体と同一の組成のものが含まれていてもよい。すなわち、推定対象検体と参照検体とは同一であってもよいが、参照検体同士はそれぞれ異なる。
なお、参照検体がそれぞれ「異なる」とは、含まれる単位の種類、及び、単位の配列からなる群より選択される少なくとも1種が異なることを意味する。
「エンドメンバー」とは、K-1次元単体の頂点に対応するベクトルを意味し、エンドメンバーは、K種類のうちの1種類の多連子のみからなる重合体(モデル重合体)の特徴ベクトルに対応する。
[配列解析方法]
本発明の配列解析方法は、検体セットに含まれる単量体の種類数と、多連子を構成する単位数とに応じて決定される変種数K、並びに、参照検体、及び、推定対象検体から得られた二次元マススペクトルを入力として、推定対象検体中における多連子の質量基準の含有量比を出力とする配列解析方法である。
本発明の配列解析方法は、検体セットに含まれる単量体の種類数と、多連子を構成する単位数とに応じて決定される変種数K、並びに、参照検体、及び、推定対象検体から得られた二次元マススペクトルを入力として、推定対象検体中における多連子の質量基準の含有量比を出力とする配列解析方法である。
図面を参照しながら、本発明の配列解析方法について詳述する。図1は、本発明の実施形態のフローチャートである。
まず、ステップS1として、単量体セットに含まれる単量体の種類数と、多連子を構成する単位の数とに応じて、多連子の変種数K(Kは2以上の整数)が決定される。
多連子の変種数は、一形態として、多連子の長さ、及び、単量体セットに含まれる単量体の種類数に応じて取り得る組合せの数として一意に決めることができる数である。
まず、ステップS1として、単量体セットに含まれる単量体の種類数と、多連子を構成する単位の数とに応じて、多連子の変種数K(Kは2以上の整数)が決定される。
多連子の変種数は、一形態として、多連子の長さ、及び、単量体セットに含まれる単量体の種類数に応じて取り得る組合せの数として一意に決めることができる数である。
単量体の種類数は2以上の整数であって、上限は特に限定されないが、一形態として10以下が好ましい。例えば、単量体セットに含まれる単量体の種類数が10である場合、参照検体、及び、推定対象検体は、その10種類の単量体の1種又は2種以上によって合成されたものである。
すなわち、参照検体は、検体セットから選択された1種又は2種以上の単量体を反応容器に添加し、様々な条件(温度・時間)で重合させた(共)重合体であってよい。また、推定対象検体は、単量体セットに含まれるいずれかの1種又は2種以上単量体により合成されたものであればよい。
すなわち、参照検体は、検体セットから選択された1種又は2種以上の単量体を反応容器に添加し、様々な条件(温度・時間)で重合させた(共)重合体であってよい。また、推定対象検体は、単量体セットに含まれるいずれかの1種又は2種以上単量体により合成されたものであればよい。
多連子を構成する単位の数(多連子の長さ)は2以上であって、上限は特に制限されないが、10以下が好ましい。なかでも、多連子の長さは3以上が好ましく、9以下が好ましく、7以下がより好ましく、5以下が更に好ましい。
本配列解析方法では、重合体の配列を多連子の含有量比として推定するため、多連子が長くなるほど、ポリマー鎖の全体を一意に定義することに近づく。一方で、多連子が10以下であると、組合せ計算上、多連子の変種数、エンドメンバーの数の増加が一定程度に収まり、必要な参照検体数も多くなりにくい。
多連子の長さが3以上であると、本配列解析方法による解析結果をもとに、重合体の物性をより予測しやすく、5以下であると、参照検体のバリエーションがより少なくなりやすく、解析がより容易になりやすい。
多連子の長さが3以上であると、本配列解析方法による解析結果をもとに、重合体の物性をより予測しやすく、5以下であると、参照検体のバリエーションがより少なくなりやすく、解析がより容易になりやすい。
多連子の変種数Kは、単量体セットに含まれる単量体の種類数、及び、多連子の長さが決まると、一意に決めることができる。例えば、単量体の数が3以上、多連子の長さが3(三連子)である場合、K=jC3+3jC2+jC1により計算できる。また、単量体の数が2のとき、多連子の長さが2、3、4、5、…であると、Kは3、5、6、9、…となる。
なお、多連子の長さは、理論上の可能な組合せの数から上記のように一意に決定されるものの、後述するとおり、実現可能な数はこれより少なくなる場合があり、Kは、上記理論上の可能な組合せの数、又は、これ以下の数であることが好ましい。
なお、多連子の長さは、理論上の可能な組合せの数から上記のように一意に決定されるものの、後述するとおり、実現可能な数はこれより少なくなる場合があり、Kは、上記理論上の可能な組合せの数、又は、これ以下の数であることが好ましい。
次に、ステップS2として、単量体から構成される重合体である参照検体、及び、推定対象検体のそれぞれの検体を加熱して生ずるガス成分を順次イオン化し、加熱温度に対するm/z(本来は斜体で表す。イオンの質量を統一原子質量単位とイオンの電荷数の絶対値で割って得られる無次元量と定義される)の二次元マススペクトルを含むデータ行列が取得される。
マススペクトルを観測する(取得する)方法としては特に制限されないが、アンビエントな条件にある試料を前処理なしで質量分析する方法が好ましい。このようなイオン化法、及び、質量分析方法としては、「DART」(登録商標、Direct Analysis in Real Time)イオン源と呼ばれるイオン源と質量分析計とを組合わせた「DART-MS」と呼ばれる質量分析装置が知られている。
質量分析計としては特に制限されず、精密質量分析が可能なものが好ましく、四重極型、及び、飛行時間(TOF)型等のいずれでもよい。
質量分析計としては特に制限されず、精密質量分析が可能なものが好ましく、四重極型、及び、飛行時間(TOF)型等のいずれでもよい。
マススペクトルの取得について、具体的な条件は特に制限されないが、非限定的な一例を挙げると、検体を順次50℃/minの昇温速度で加熱し、50~550℃の温度範囲で生じる熱分解ガスに対して50shot/minの間隔でヘリウムイオンを噴射しガスをイオン化させ、横軸にm/z、縦軸に温度を有する二次元マススペクトルを得るという手順が挙げられる。
得られた二次元マススペクトルは、一形態として、検体・加熱温度ごとに格納され、この二次元マススペクトルの少なくとも2つ以上がまとめてデータ行列に変換されてよい。
本ステップでは、所定の昇温間隔ごとに連続的にマススペクトルが取得される。これらのマススペクトルは、そのままデータ行列の作成に使用されてもよいが、所定の昇温温度範囲ごとに平均して使用されてもよい。所定の昇温温度範囲ごとに平均してマススペクトルを1本にまとめることで、データ量を圧縮することができる。このような昇温温度範囲としては、例えば、10~30℃程度が挙げられる。
また、各スペクトルにおいて、ピーク強度は規格化されていてもよい。規格化の方法としては、例えば、ピーク強度の二乗和が1になるように規格化する方法が挙げられる。
このようにすることで、ある検体について、一回測定するとで、加熱温度ごと(又は、所定の範囲ごとにまとめられた加熱温度ごと)に、所定の本数(まとめ方によって異なる、例えば、20本等)のマススペクトルが得られる。
このマススペクトルが各行に格納され、加熱温度が各列に格納されると、検体ごとの二次元マススペクトルが得られる。
このマススペクトルが各行に格納され、加熱温度が各列に格納されると、検体ごとの二次元マススペクトルが得られる。
こうして、検体ごとの二次元マススペクトルが得られたら、これらの少なくとも2つ以上をまとめてデータ行列Xに変換する。
データ行列Xの作成に用いられる二次元マススペクトルの個数は2つ以上であれば特に限定されないが、全検体(検体セットに含まれるすべての検体)の二次元マススペクトルが用いられることが好ましい。
なお、1つの検体について2回以上、測定が行われる場合には、2回以上の測定で得られた二次元マススペクトルの一部、又は、全てがデータ行列Xの作成に用いられてもよい。
データ行列Xの作成に用いられる二次元マススペクトルの個数は2つ以上であれば特に限定されないが、全検体(検体セットに含まれるすべての検体)の二次元マススペクトルが用いられることが好ましい。
なお、1つの検体について2回以上、測定が行われる場合には、2回以上の測定で得られた二次元マススペクトルの一部、又は、全てがデータ行列Xの作成に用いられてもよい。
次に、ステップS3として、データ行列を非負値行列因子分解し、規格化された基底スペクトルからなる行列とその強度分布行列の積に分解する第1NMF処理が実施される。
上記は、非負、又は、実数のN×M行列を表す。
また、ある行列
また、ある行列
再び、第1NMF処理の説明に戻る。本解析方法における第1NMF処理は、志賀らによって提案されたARD-SO-NMFに対して以下3点を主な変更点として加え、MS(Mass spectrometry)のデータ解釈によりよく適合するように開発されたものである。
・変更点1:チャネルごとのガウスノイズの分散共分散行列
を自然同位体ピークに基づき見積もること
・変更点2:ソフト直交制約を基底フラグメントスペクトル間に適用すること
・変更点3:似た強度分布を有するフラグメントスペクトル同士を統合すること(マージング条件の拡張)
・変更点2:ソフト直交制約を基底フラグメントスペクトル間に適用すること
・変更点3:似た強度分布を有するフラグメントスペクトル同士を統合すること(マージング条件の拡張)
変更点1については、以下しばらくの間、分散σ2で独立等分散(i.i.d)のガウスノイズを仮定し、途中で分散共分散行列Rを導入する。ノイズにi.i.dを仮定すると、データ行列Xの確率生成モデルは、
と書ける。基底スペクトル数Mは未知なので、自動的に推定できるように、automatic relevance determination (ARD)を分布行列Aのスパース性に基づいて導入する。まず、基底成分ごとにλmでパラメトライズされた指数分布をAの事前分布として仮定する。
すなわち、
に対して、
全体の確率モデルとしては、
と書ける。ここで、p(S)は、
の超球面上の一様分布を、p(λ|a,b)は(a,b)でパラメトライズされる逆ガンマ分布、すなわち
とする。aはスパース性を調整するハイパーパラメータで、a=1+10-16、bは経験的にAimの期待値E(Aim)から見積もれて、
と関係づけられる。これは更にE(Xid)と
なる関係があり、E(Xid)をXの平均μXで近似すると、
よりbは、
と定まる。したがって負対数尤度関数は、
と書ける。これはλに対して下に凸な関数なので、
すなわち、
としてλに関する更新式が得られる。ここまでは志賀らの報告したARD-SO-NMFの導出に完全に従った。
と書ける。ここで、p(S)は、
ノイズに対するi.i.dガウス分布の仮定はMSデータについては当てはまらず、大きいシグナルほど大きなノイズを有する傾向があることが知られている。そこで、ノイズ分布
を自然同位体ピークによる線形回帰の残渣成分として求めた。すなわち、
ここで
はチャネルdを中心にした[d-30,d-20,d-10,d+10,d+20,d+30]なるチャネルで、チャネルdの±3m/zの同位体ピークである(チャネル間隔が0.1m/zであることに留意)。チャネルごとの分散共分散行列
は
として求まる。これを用いて尤度関数を書き直すと、
となる。Rは定数行列であることに注意する。全体の負対数尤度関数は、
となる。λについての更新式Eq.S3を代入し、定数項を落として簡略化すると、
となる。この関数のA、Sに関する最小化はhierarchical alternating least square (HALS)により行う。簡便のため、以下のベクトル表記を用いる。
HALSでは残差X-ASを
として表す。ここで
である。これによりL(X,A,S,λ)は成分mごとに分離して書けて、
Sについてのソフト直交制約はペナルティー項
として目的関数Lに組み込むことができる。ここで
である。この項はm-成分とその他成分の非直交性を表し、ξmは厳密に直交性が満たされる際のラグランジェ未定乗数を表す。この項は更にwO∈[0,1]によって緩和される。したがって最小化すべき目的関数は、
となり、amとsmに関する勾配は、
となり、これらをゼロと置けば、更新式は
となる。smは更新毎に規格化されるので、定数係数は省略した。非負制約は、更新毎に非負象限に射影することにより満たした。具体的には例えば、
によって射影できる。ここで
は要素ごとに絶対値を取ったベクトルを意味する。未定乗数ξmは
をEq.S6の左側から乗じ、厳密な直交条件、
とwO=1を適用することで、
と得られる。以上Eq.S1-S7を用いて以下のアルゴリズム1を提案する。
ここで、AとSの更新毎に、似た成分同士をマージングするようにする。同様のスペクトルを有する成分同士をマージすることが志賀らに提案されているが、ここではさらに、同様の強度分布を有する成分同士もマージングすることにした。これにより、同位体ピーク、異なるイオン付加によりイオン化されたフラグメントシリーズ、単位数違いのオリゴマーピークシリーズなどを一つの成分とすることで、より解釈性の高い結果を与えることができる。
なお、更に、得られた基底スペクトル行列とデータ行列との正準相関分析によって強度分布行列に含まれるノイズ成分を抽出し、ノイズ成分の影響を減ずるよう強度分布行列を補正して、補正後強度分布行列を得てもよい。
NMFはデータ行列の低ランク近似であるため、実際にはi番目のスペクトルには存在しない成分kであっても、存在するとしたほうが最小二乗の意味で近似が良くなるのであればCik>0とする。多くの場合このようなCikは非常に小さく、NMF解析において問題にならない場合が多い。
しかし、微量成分検出においては、j番目のスペクトルに微量実在するCjk>0と、NMFアーティファクトであるCik>0を区別し、ゴーストピークであるCikには0を代入することが好ましい。NMFアルゴリズムのアーティファクトに由来する偽ピークをノイズの1つとして除くことによりより精度の高い推定結果が得られるからである。
上記を解決するための一つの方法として、正準相関分析(Canonical Correlation Analysis )を用いることができる。本発明者らはこの方法を、Canonical Correlation Analysis (CCA) Filterと命名した。
CCA filterは、概念的には、NMFから出力される基底スペクトルの各成分が実際に元データに含まれていたかをサンプルワイズにスキャンし、元データに類似のピークパターンが見られなければそのサンプルのスペクトルから消去することによる。以下、CCA filterについて詳述する。
出力はバックグラウンド由来と判定された多連子のリストである。
第1NMF処理で得られたM-成分の中には、バックグラウンドや混入物に由来する成分が含まれ、これらは配列解析結果をゆがめる可能性があるため、AやSから取り除くことが好ましい。M′-成分がバックグラウンド由来の多連子だとCCA-filterにより判定されたとすると、
及び
はそれぞれ、
と
になる。単純のため、CCA-filter適用後の成分数はM-M′になるが、一貫してMを用いる。
CCA-filterを用いるためには、バックグラウンドスペクトル
をデータセットに含めて、サンプルスペクトルと併せて1回目のNMFを行う必要がある。もし何らかの混入物が予想できる場合は、その混入物について測定したスペクトルをXBGとして用いることができる。CCA-filterは成分m=1,…,Mについてひとつずつ、そのスペクトルSm:がXBGに含まれているか確認していく。
最初のステップは、M-スペクトルからなる
されたSを、Sm:に似たスペクトルセット
と、似ていないスペクトルセット
に分割することである。この分割は、
が満たされるように行う。t1∈[0,1]はある閾値で本発明では一貫してt1=0.2を用いた。なお、Sm:は常にYに含まれるので、Yの一列目にSm:を格納した。ZはXBGと結合し、
とした。YとZは、平均ゼロとなるように、
とした。これら二つのスペクトルセットに対して、CCAを行う。CCAは、二つのスペクトルセット内の線形結合により、なるべく似たペアのスペクトルを作り出す。
CCA-filterを用いるためには、バックグラウンドスペクトル
最初のステップは、M-スペクトルからなる
及び
の線形結合の係数がベクトル
及び
に格納されているとする。従ってスペクトルペアはそれぞれ、
及び
と書ける。その類似度は相関係数ρによって評価され、
ここで、
CCAの問題設定は、
と書ける。その解
は一般固有値問題の解として与えられて、
ここで
は固有ベクトル
をその固有値が大きい順に列ベクトルとして並べて得られる行列である。
各固有値、
は、対応する(u*,v*)を係数として線形結合で作られたyとzの相関係数になっている。ここではρ>t2を満たすすべての固有値に対応するu*を取り出し、もしSm:の係数に対応する1番目の要素がu*に大きく寄与する大きな成分であれば、すなわち
であれば、成分mはバックグラウンドに由来する成分と判定して、システムから除く。ここでt2∈[0.9,0.99]、t3∈[0,1]である。これを以下にアルゴリズム2としてまとめた。
各固有値、
バックグラウンド成分が特定されたあとは、対応するAの列ベクトル、及びSの行ベクトルを削除することで、システムから除いた。
CCA-filterから出力された、バックグラウンドに由来するM′-成分除去済みの
(以下、簡単のためM-M′をMと置き換えて、
と表す)は、サンプル量及び内部標準ピークで割り付け強度を補正する。その後、サンプルnに関するAの小行列部分A(n)を一次元ベクトル化した
をサンプルnの特徴ベクトルとして二回目のNMFの入力としてもよいが、組成分析においてはM-フラグメントの温度分布は不要な情報のため、サンプル毎にすべての温度帯域を足し合わせてサンプル毎のM-フラグメント存在強度(fragment abundance; FA)を表す
を入力としてもよい。ここでは簡単のため
について二回目のNMFを行うことにする。
CCA-filterから出力された、バックグラウンドに由来するM′-成分除去済みの
以下のセクションでは、Non-negative least square (NNLS)によるフィッティングを頻繁に使う。この問題は、最適な非負係数
を用いて、定数行列
の列ベクトル線形結合により
を近似するもので、
により求められる。これを解くには、alternating direction multiplier methods (ADMM)(1)を含む数多くの最適化手法が使えるが、ここではFu. et. al. (2)により開発されたADMM-NNLSを用いてこの問題をとき、解を
と表記する。近似するベクトルセットY=[y1,..,yL]に対応する非負係数ベクトルxl
*(l=1,..,L)は個別に計算できて、
または行列形式で、
と書くことにする。ここで
である。同様の問題で、係数ベクトルの総和が1になるような拘束条件付の問題はfully constrained least square (FCLS)とよばれ、ADMMを用いて同じく解くことができて、
または行列表記で、
と書くことにする。
次に、ステップS4の第2NMF処理について詳述する。第2NMF処理では、以下の式で表されるとおり、サンプル毎のFAを、検体中におけるモデル重合体の質量割合を表す行列Cと、モデル重合体の特徴ベクトルを表す行列Bとの積に行列分解する。
2回目のNMF:
は、リーマン計量を用いてその近似残差
を評価する、すなわち、
ここで、
である。下三角行列
をコレスキー分解G=LLTにより得れば、
と書ける。ここで
であり、
と行列分解することと等値である。
の行ベクトルで張られるシンプレックスの体積項を
の行ベクトル間の非直交性項を
として、α>0とβ∈[0,1]を重みとすれば、
により
が求まる。ここで、Fuらは(3)外れ値へのロバスト性を付与するために、
なる重み行列の導入を提案している。ここで、p∈(0,2]、かつεは小さな正則化パラメータである。本発明では、一貫してp=1.5かつε=10-8とした。最適化問題は
となる。Cと
はblock coordinate descent (BCD) 理論により交互に最適化する。今、t回の最適化を行い、
を得たとする。なお、初期化には、vertex component analysis (VCA)(4)を用いて、
のN-行ベクトルの中からシンプレックスのK-頂点に近いK個の行ベクトルを選択し、これを
とした。
に基づくCのアップデートは、
により単純に行える。そこでC(t)に基づく
から
へのアップデートについて考える。なお、
で、
は未定乗数である。また
ここで、
は小さな正則化パラメータで、一貫してτ=10-8を用いた。ここで、
のMajorizer関数を導入する。接線不等式より、一期前の
に基づいて、
が成立する。ここで
は
のH(t)における勾配で、
より、
ここで、
かつ、constは定数項である。したがって、
を
で置き換えて、すべてのペナルティー項を合わせて書くと、
ここで
従って
のアップデートは以下を解くことで得られる。
複雑な制約条件を整理するために、
なる制約をラグランジェ未定乗数
を用いて、目的関数に組み込み、ADMMの枠組みでこの問題を解く。
ここで、
かつμはADMMのハイパーパラメータである(ここでは一貫してμ=1とした)。Z′は一期前のZを表し、
のときに目的関数はZについて最大化された、
を与える。これを
について最適化すればよい。
をサイクリックに最適化し、アルゴリズムをAlgorithm3にまとめた。
目的関数
は
については拘束条件なしの二次関数の最適化なので、
より最小化される。また
はNNLSにより解けて、
と更新される。以上より元の問題Eq.S11を解くための
の更新式が得られた。最後にV=αF(t)+βΛ(t)の更新について考える。F(t)については
と簡単に求まる。Λ(t)は厳密な直交条件、すなわち
と
を組み合わせて、
をEq.S19の右側からかけると、
と得られる。Eq.S18とEq.S20より、
が与えられる。以上を用いて、問題Eq.S11を解くためのアルゴリズムは以下のとおりである。
(SとBの張る超平面へのテストデータの射影)
データセットからSとBを推定したのちに、SとBの推定には用いなかったデータ(ここではテストデータと呼ぶ)
を、SとBの張る超平面へ射影する方法について述べる。
まずS-超平面への射影により、
が得られる。すなわち、
温度帯域について総和をとり、
に変換したのちに、B-超平面への射影と規格化により、
が得られる。すなわち、
データセットからSとBを推定したのちに、SとBの推定には用いなかったデータ(ここではテストデータと呼ぶ)
まずS-超平面への射影により、
次に、ステップS5における、モデル重合体のスペクトル(以下「Mスペクトル」ということがある)の算出について詳述する。ステップS5では、多連子の1種のみから構成されるモデル重合体のスペクトル(Mスペクトル)が、これまでの計算結果から再構築される。その方法は、第1NMF処理によって求められた基底スペクトルを表す行列、及び、第2NMF処理によって求められたモデル重合体の特徴ベクトルを表す行列の行列積を求めることである。
モデル重合体のスペクトル(Mスペクトル)は、基底スペクトルに対して、各モデル重合体に特有の特徴ベクトルを表す行列(係数のようなもの)をかけ合わせることによって算出される。すなわち、Mスペクトルは、基底スペクトルを表す行列と、そのモデル重合体の特徴ベクトルを表す行列の行列積として計算される。
すなわち、第1NMF処理がX=ASであるとき、第2NMF処理でこれをX=AS=(CB)Sと分解し、更に、C(BS)と解釈することによって、モデル化合物の質量比Cとモデル重合体のスペクトルBSに分解できる。このBSが、Mスペクトルに該当する。
本ステップによって算出されたMスペクトルは、そのモデル重合体のみを含む試料のマススペクトルを推定するものといえ、ステップS6では、このMスペクトルのそれぞれが、どの多連子に帰属できるのか、同定が実施される。
すでに説明したとおり、多連子の数は、理論上取り得る組合せの数をもとに決められており、原則としてはすべてのMスペクトルが、それぞれ多連子に帰属できる。しかし、詳細は後述するが、Mスペクトルの1個以上が、多連子に帰属できない場合がある。
すでに説明したとおり、多連子の数は、理論上取り得る組合せの数をもとに決められており、原則としてはすべてのMスペクトルが、それぞれ多連子に帰属できる。しかし、詳細は後述するが、Mスペクトルの1個以上が、多連子に帰属できない場合がある。
ステップS6では、多連子に帰属されないMスペクトルが存在するかが判断される。多連子に帰属できないMスペクトルが存在する場合(ステップS6:YES)、多連子の変種数Kを変更して、再度、第1NMF処理、第2NMF処理が繰り返される。
多連子に帰属できないMスペクトルが存在する場合、その原因の一つとして、多連子の変種のうちの少なくとも1つ以上が実際には存在しないか、又は、参照検体中に十分に含まれていないことが挙げられる。
多連子に帰属できないMスペクトルが存在する場合、その原因の一つとして、多連子の変種のうちの少なくとも1つ以上が実際には存在しないか、又は、参照検体中に十分に含まれていないことが挙げられる。
前者のケースとして、例えば、単量体A、B、Cにより得られる重合体の三連子について、A、Bに交互共重合性がない場合を考える。このとき、三連子の変種の一つとして、「AB{AB}」が存在することを前提として変種数Kを決定し、Mスペクトルを得た場合、「AB{AB}」に由来する(帰属される)Mスペクトルを得ることはできない。なぜなら、検体にそのような三連子を有する重合体が含まれないためである。
すると、結果として、Mスペクトルの1つ以上が多連子に帰属されないこととなる。
すると、結果として、Mスペクトルの1つ以上が多連子に帰属されないこととなる。
このような場合、Kを1減じたうえで、再度、第1NMF処理、及び、第2NMF処理を行うことで修正ができる。
すなわち、多連子に帰属できないMスペクトルが存在する場合、機械的にKを1減じて、再度、Mスペクトルを求めることで、A、Bに交互共重合性がないという事実が未知であったとしても、より正確な解析結果が得られる。
上記のように、本配列解析方法がステップS5、及び、S6を有する場合、個別の単量体の組合せ等に起因して、存在しえない多連子の変種がKに組み込まれ、その原因が未知であった場合でも、設定した多連子に、Mスペクトルが帰属できるかを単に確認するだけで、解析の妥当性を評価し、修正することが可能になる。
すなわち、多連子に帰属できないMスペクトルが存在する場合、機械的にKを1減じて、再度、Mスペクトルを求めることで、A、Bに交互共重合性がないという事実が未知であったとしても、より正確な解析結果が得られる。
上記のように、本配列解析方法がステップS5、及び、S6を有する場合、個別の単量体の組合せ等に起因して、存在しえない多連子の変種がKに組み込まれ、その原因が未知であった場合でも、設定した多連子に、Mスペクトルが帰属できるかを単に確認するだけで、解析の妥当性を評価し、修正することが可能になる。
また、例えば「AB」の多連子が実際に存在する場合であっても、検体(典型的には、参照検体)にその多連子が十分に含まれていない場合、上記と同様の状況となる場合がある。この場合、検体数を追加して、データ行列の取得、第1NMF処理、第2NMF処理を再度行うことで修正することもできる。なお、この場合であっても、参照検体はそのままに、Kを1減じで第1NMF処理、第2NMF処理を行ってもよい。
一方で、多連子のそれぞれにMスペクトルが帰属される場合(ステップS6:NO)、次のステップ(S7)が実施される。
詳細は後述するが、本配列解析方法における多連子の含有量比の推定は、検体の特徴ベクトルをK-1次元単体に射影することにより実施され、このK-1次元単体の頂点にあたる「エンドメンバー」が必要となる。この「エンドメンバー」は、多連子のみから構成される重合体(モデル重合体)の特徴ベクトルにより定義される。しかし、参照検体として、モデル重合体を実際に準備するのは困難な場合が多い。
詳細は後述するが、本配列解析方法における多連子の含有量比の推定は、検体の特徴ベクトルをK-1次元単体に射影することにより実施され、このK-1次元単体の頂点にあたる「エンドメンバー」が必要となる。この「エンドメンバー」は、多連子のみから構成される重合体(モデル重合体)の特徴ベクトルにより定義される。しかし、参照検体として、モデル重合体を実際に準備するのは困難な場合が多い。
例えば、検体セットがA、B、Cの3種の単量体からなる場合の三連子解析では、原則として、変種数Kは13となり、「エンドメンバー」としては、ホモポリマー3種を含む13種の「モデル重合体」の特徴ベクトルが必要となる。しかし、単位の配列を精密に制御して、これら13種のモデル(共)重合体を合成してマススペクトルを取得するのは現実的ではないことが多い。
これに対して、本配列解析方法では、上記のとおり第1NMF処理と第2NMF処理とを組み合わせることよって、「エンドメンバー」の特徴ベクトルを推測することとし、モデル重合体のマススペクトルの実測を不要としていることに特徴の1つがある。
ここまでステップS5、6における、Mスペクトルの解析の実例を実験結果をもとに説明する。
図2は、単量体として、メチルメタクリレート(M)、及び、スチレン(S)を用いて合成した検体からデータ行列を取得し、第1NMF処理、第2NMF処理によって得られた各行列から計算されたMスペクトルを図示したものである。以下、実験手順について説明する。
図2は、単量体として、メチルメタクリレート(M)、及び、スチレン(S)を用いて合成した検体からデータ行列を取得し、第1NMF処理、第2NMF処理によって得られた各行列から計算されたMスペクトルを図示したものである。以下、実験手順について説明する。
まず、検体の合成は、メチルメタクリレートとスチレンと重合開始剤(ジメチル2,2′-アゾビス(イソブチレート))とを反応容器に添加し、所定時間加熱することにより実施した。メチルメタクリレート、及び、スチレンの添加量、加熱温度、及び、反応時間を様々に調整し、異なる組成の重合体を作製し、それぞれを検体とした。なお、詳細な手順等は、後述する実施例と同様であり、ここでは説明を省略する。重合条件は下表のとおりである。
表中、「M initial fraction」、「S initial fraction」とあるのは、それぞれ、メチルメタクリレート、及び、スチレンの添加量比を表しており、「Time(h)」とあるのは、重合時間、「Temp(℃)」とあるのは、加熱温度を表している。このようにして、31種の互いに異なる検体を作製した。
上記のとおり、サンプル数は31、質量分析の温度範囲は200~450℃、m/zの範囲は50~410とした。また、その他のハイパーパラメータは以下のとおりである。
上記のとおり、サンプル数は31、質量分析の温度範囲は200~450℃、m/zの範囲は50~410とした。また、その他のハイパーパラメータは以下のとおりである。
この実験の場合、単量体セットに含まれる単量体の種類数は、メチルメタクリレート、及び、スチレンの2種である。そして、多連子の長さは3(三連子解析)としたため、多連子の変種は、理論上の組合せとして想定される、MMM、MMS、MS{MS}、SSM、及び、SSSの5種類すべてとした(変種数K=5)。
図2は計算されたMスペクトルである。図2中、(1)~(5)のスペクトルは、それぞれ計算されたMスペクトルである。ここで、各Mスペクトルには、それがいずれの多連子に由来するものであるかのラベルは第1NMF処理、及び、第2NMF処理では付されない。ラベルが付されていなくても、後段の解析自体には影響はない。一方で、Mスペクトルを多連子に帰属させることにより、解析条件の妥当性等をチェックすることができ、結果としてより正確な解析が可能になる。
すでに説明したとおり、ステップS6は、Mスペクトルが帰属する多連子を同定する工程である。
Mスペクトルは、原則としていずれかの多連子に帰属されるため、ステップS6ではそれを同定する。同定の方法は特に制限されないが、一形態として、多連子を構成する単位の質量数の和と、Mスペクトルのピークにおけるm/zとを比較することにより実施されることが好ましい。
Mスペクトルは、原則としていずれかの多連子に帰属されるため、ステップS6ではそれを同定する。同定の方法は特に制限されないが、一形態として、多連子を構成する単位の質量数の和と、Mスペクトルのピークにおけるm/zとを比較することにより実施されることが好ましい。
図2の場合で説明すると、多連子を構成する単位の質量数の和は、MMMは300、MMSは304、MS(MS)は304・308、SSMは308、及び、SSSは312となる。これに対して、Mスペクトルのピークは、(1)のスペクトルで300+1、(2)で304+1、(3)で304+1、308+1、(4)で308+1、(5)で312+1となっており、上記多連子のプロトン付加型ピークと一致する。
上記によれば、(1)から(5)の順に、MMM、MMS、MS(MS)、SSM、及び、SSSのそれぞれのMスペクトルであることが同定される。図2中の各スペクトルのラベルは、本ステップによる結果としてつけられたものである。
上記によれば、(1)から(5)の順に、MMM、MMS、MS(MS)、SSM、及び、SSSのそれぞれのMスペクトルであることが同定される。図2中の各スペクトルのラベルは、本ステップによる結果としてつけられたものである。
なお、図2中の(6)のスペクトルは、M/S交互共重合体を実際に重合し、これから得られたマススペクトルを表しており、計算された(3)のスペクトルとほぼ一致していることがわかる。
本配列解析方法における第1NMF処理、及び、第2NMF処理の結果として得られるMスペクトルは、上記のように実測のマススペクトルとほぼ同様であることから、本ステップにおける同定処理は、多連子の構造・質量数をもとに容易に実施可能である。
本配列解析方法における第1NMF処理、及び、第2NMF処理の結果として得られるMスペクトルは、上記のように実測のマススペクトルとほぼ同様であることから、本ステップにおける同定処理は、多連子の構造・質量数をもとに容易に実施可能である。
図1に戻り、次に、ステップS7として、モデル重合体の特徴ベクトルをエンドメンバーとし、特徴ベクトル(それぞれ各検体に対応する)の全てを内包するK-1次元単体を設定する。本配列解析方法では、第2NMF処理によって、参照検体にエンドメンバーが含まれるか否かによらず、推定されたエンドメンバーによって、K-1次元単体が設定される。
なお、変種数Kが3以上である場合、K-1次元単体に内接する超球体の外側の領域のそれぞれに、参照検体の特徴ベクトルの少なくとも1つが位置する、又は、参照検体がエンドメンバーの少なくとも1つを含むことが好ましい。上記によって、より正確な解析結果が得られる。
ここで、K-1次元単体の領域内の各位置は、エンドメンバーの質量基準の含有量比を表す。従って、K-1次元単体に内接する超球体の外側の領域は、概略的には、任意のエンドメンバー、すなわち、任意の多連子の含有量が所定量以上の領域を表す。このような位置に参照検体の特徴ベクトルが位置することは、すなわち、検体セットが、任意の多連子の含有量が所定量以上の参照検体を含むことを意味する。参照検体がエンドメンバーを含むのは、そのうちの一形態である。
図3は、Kが3のときのK-1次元単体(2次元単体、三角形)を表すイメージ図である。K-1次元単体10は、参照検体16、17、及び、18によって決定されたエンドメンバー13、14、及び、15を頂点とする三角形である。
図3のように、参照検体16、17、及び、18が、K-1次元単体の内接超球12(この場合「円」)の外側の領域19(ハッチング)のそれぞれに位置していると、精度の高い定量分析結果が得られる。
次に、K個のエンドメンバーと、推定対象検体の特徴ベクトルとの距離をそれぞれ計算し、推定対象検体中の多連子の含有量比を推定する(ステップS8)。
なお、上記距離は、第1NMF処理により得られる基底スペクトルの非直交性を考慮したリーマン計量距離により定義される。
なお、上記距離は、第1NMF処理により得られる基底スペクトルの非直交性を考慮したリーマン計量距離により定義される。
参照検体がエンドメンバーを少なくとも1つ含む(参照検体の少なくとも1つがエンドメンバーである)場合、他の参照検体の特徴ベクトルは、K-1次元単体に内接する超球体の内側の領域に位置していてもよい。図4は、図3と同様に、Kが3のときのK-1次元単体(2次元単体、三角形)を表すイメージ図である。K-1次元単体20は、エンドメンバーである参照検体21、それ以外の参照検体22、及び、参照検体23によって決定されたエンドメンバー24、及び、25を頂点とする三角形である。図3と異なるのは、参照検体22、及び、23が、K-1次元単体に内接する超球体の内側の領域に位置していることである。
なお、参照検体の少なくとも1つがエンドメンバーである場合であっても、他の参照検体は、K-1次元単体に内接する超球体上に位置していてもよいし、外側の領域に位置していてもよい。すなわち、この場合、他の参照検体の位置は任意でよい。
なかでも、より優れた本発明の効果が得られる点では、他の参照検体は、エンドメンバーである参照検体とは異なるエンドメンバーの成分(他のエンドメンバーの成分)を20質量%以上含むことが好ましく、40質量%以上含むことがより好ましい。
なかでも、より優れた本発明の効果が得られる点では、他の参照検体は、エンドメンバーである参照検体とは異なるエンドメンバーの成分(他のエンドメンバーの成分)を20質量%以上含むことが好ましく、40質量%以上含むことがより好ましい。
本配列解析方法によれば、参照検体が準備しにくい重合体でも、特段の前処理を必要とせず、簡便な手順で、正確な配列解析が可能になる。本配列解析方法は、特に、複数の単量体から合成された重合体の品質管理、及び、不良原因の調査等に適用した場合、結果を得るために必要な時間を大幅に短縮することができる。
本配列解析方法が適用可能な重合体は特に制限されず、合成高分子、及び、天然高分子のいずれであってもよい。後述の実施例では、エチレン性不飽和結合を有する単量体を基に合成された(共)重合体について説明されているが、重合体の(主鎖)構造はこれに限定されない。また、重合方法も特に制限されず、付加重合、開館重合、重縮合、重付加、及び、付加重合等のいずれの方法で合成されたものであってもよい。また、参照検体と、推定対象検体とは、同じ単量体セットから合成されたものであれば、その合成方法(重合方法)が異なっていてもよい。
例えば、参照検体が重合条件を種々に変更させた通常のラジカル重合によって準備された検体で、推定対象検体は、その他の方法(例えば、原子移動ラジカル重合や可逆的付加開裂連鎖移動(RAFT)重合等のリビング重合)等によって精密制御されて重合されたものであってもよい。
例えば、参照検体が重合条件を種々に変更させた通常のラジカル重合によって準備された検体で、推定対象検体は、その他の方法(例えば、原子移動ラジカル重合や可逆的付加開裂連鎖移動(RAFT)重合等のリビング重合)等によって精密制御されて重合されたものであってもよい。
本配列解析方法の応用例の1つとして、(フォト)レジスト樹脂の配列解析に適用することが挙げられる。レジスト樹脂の現像性と、多連子配列との間には相関があることが知られており、本配列解析方法を用いてレジスト樹脂の配列解析を行うことで、より優れた現像性を有するレジスト樹脂の開発や、レジスト樹脂の現像不具合の原因究明等がより容易になる。
本配列解析方法が適用可能なレジスト樹脂としては特に限定されない。レジスト樹脂としては、例えば、以下の単量体から合成される樹脂が挙げられる。
本配列解析方法が適用可能なレジスト樹脂としては特に限定されない。レジスト樹脂としては、例えば、以下の単量体から合成される樹脂が挙げられる。
3-ヒドロキシ-1-アダマンチルメタクリルレート、1-アダマンチルアクリレート、1-アダマンチルメタクリレート、2-メチル-2-アダマンチルメタクリレート、2-メチルアダマンタン-2-イルアクリレート、2-エチル-2-アダマンチルメタクリレート、2-エチル-2-アダマンタンアクリレート、ジシクロペンタニルアクリレート、2-イソプロピルアダマンタン-2-イルアクリレート、テトラヒドロジシクロペンタジエニルメタクリレート、5-メタクロイルオキシ-2,6-ノルボルナンカルボラクトン、β-ヒドロキシ-γ-ブチロラクトンメタクリレート、1-エチルシクロペンチルメタクリレート、α-メタクリロキシ-γ-ブチロラクトン、1-エチルシクロヘキシルメタクリレート、1-メチルシクロペンチルメタクリレート、4-アセトキシスチレン、2-オキソ-2-(2,2,3,3,3-ペンタフルオロプロポキシ)エチルメタクリレート、3-ヒドロキシ-1-アダマンチルアクリレート、(アダマンタン-1-イルオキシ)メチルメタクリレート、2-イソプロピル-2-アダマンチル メタクリレート、1,3-アダマンタンジオールジアクリレート、1,3-アダマンタンジオールジメタクリレート、1-メチル-1-エチル-1-アダマンチルメタノールメタクリレート、1,1-ジエチル-1-アダマンチルメタノールメタクリレート、5,7-ジメチル-1,3-アダマンタンジオールジアクリレート、5,7-ジメチル-1,3-アダマンタンジオールジメタクリレート、5-エチル-1,3-ジアダマンタンジオールジアクリレート、5-エチル-1,3-ジアダマンタンジオールジメタクリレート、2-メチル-2-プロペン酸 2-オキソ-2-[(5-オキソ-4-オキサトリシクロ[4.3.1.13,8]ウンデック-2-イル)オキシ]エチルエステル、2-プロペン酸,2-メチル-,2-[(ヘキサヒドロ-2-オキソ-3,5-メタノ-2H-シクロペンタ[b]フラン-6-イル)オキシ]-2-オキソエチルエステル、2-(2,2-ジフルオロエテニル)ビシクロ[2.2.1]へプタン、6-メタクリロイル-6-アザビシクロ[3.2.0]へプタン-7-オン、2-プロペン酸, (3R,3aS,6R,7R,8aS)-オクタヒドロ-3,6,8,8-テトラメチル-1H-3a, 7-メタノアズレン-6-オル エステル、2-プロペン酸,(3R,3aS,6R,7R,8aS)-オクタヒドロ-3,6,8,8-テトラメチル-1H-3a,7-メタノアズレン-6-イル エステル、2-シクロヘキシルプロパン-2-イル メタクリレート、1-イソプロピルシクロヘキシルメタクリレート、1-メチルシクロヘキシルメタクリレート、1-エチルシクロペンチルアクリレート、1-メチルシクロヘキシルアクリレート、テトラヒドロピラニルメタクリレート、テトラヒドロ-2-フラニルメタクリレート、(3-メチル-5-オキソオキソラン-3-イル)2-メチルプロプ-2-エノエート、2-オキソテトラヒドロフラン-3-イル アクリレート、(5-オキソテトラヒドロフラン-2-イル)メチルメタクリレート、(2-オキソ-1,3-ジオキソラン-4-イル)メチルメタクリレート、1-エトキシエチルメタクリレート、N-(メトキシメチル)メタクリルアミド、N-イソプロピルメタクリルアミド、2-(ブロモメチル)アクリル酸エチル、2-(ブロモメチル)アクリル酸メチル、N-ブチル-2-(ブロモブチル)アクリレート、2,2,3,3,4,4,4-へプタフルオロブチル メタクリレート、2,5-ジメチルヘキサン-2,5-ジイル ビス(2-メチルメタクリレート)、2-(トリフルオロメタンスルフォアミド)エチルメタクリレート、3-[ジメトキシ(メチル)シリル]プロピルアクリレート、2,3-ジヒドロキシプロピルアクリレート、9H-フルオレン-9,9-ジメタノールジメタクリレート、9,9-ビス[(アクリロイルオキシ)メチル]フルオレン、9-アントリルメチルメタクリレート、4-ヒドロキシフェニルメタクリレート、4-(4-アクリロイルオキシブトキシ)安息香酸、3-(4-ヒドロオキシ-フェノキシ)プロピルアクリレート、10-([1,1′-ビフェニル]-2-イロキシ)デシルアクリレート、2-ビニルナフタレン、4-tert-ブトキシスチレン、4-イソプロぺニルフェノール、4-([1-エトキシエトキシ)スチレン、3,4-ジアセトキシスチレン、4-アリロキシスチレン、3-tert-ブトキシスチレン、2-アセトキシスチレン、4-エテニル-1,2-ビス(1-エトキシエトキシ)ベンゼン、テトラヒドロ-2-[4-(1-メチルエテニル)フェノキシ]フラン、2-[(4-ビニルフェノキシ)メチル]オキシラン、3,5-ジアセトキシスチレン、2,3-ジフルオロ-4-ビニルフェノール、3-フルオロ-4-ビニルフェノール、1,1,2,2-テトラメチルプロピルアクリレート、1-エテニル-4-プロパン-2-イロキシベンゼン、4-ビニルフェニルベンゾアート、1-エチルヘキシルメタクリレート、2-イソプロピル-2-アダマンチルメタクリレート、3-ヒドロキシ-1-アダマンチルメタクリレート、1,1-ジメチルペンチルメタクリレート、1,1-ジメチルヘキシルメタクリレート、ネオペンチルメタクリレート、及び、2,2,2-トリフルオロエチルメタクリレート。
具体的な単量体の組合せとしては、例えば、γ-ブチロラクトン(メタ)アクリレート/(メタ)アクリル酸2-メチル-2-アダマンチル/3-ヒドロキシ-1-アダマンチル(メタ)アクリレート、及び、4-ヒドロキシスチレン/2-メチル-2-アダマンチル(メタ)アクリレート/スチレン等が挙げられる。
[配列解析装置(第1実施形態)]
次に、本発明の実施形態に係る配列解析装置について、図面を参照しながら説明する。図5は、本発明の配列解析装置の一実施形態のハードウェア構成図である。
配列解析装置30は、質量分析装置31と、情報処理装置32とを備え、情報処理装置32は、プロセッサ33と、記憶デバイス34と、図示しない表示デバイス、及び、入力デバイスを接続するための入出力インタフェース(I/F)35とを有し、質量分析装置31と情報処理装置32とは相互にデータを送受信できるよう構成されている。
次に、本発明の実施形態に係る配列解析装置について、図面を参照しながら説明する。図5は、本発明の配列解析装置の一実施形態のハードウェア構成図である。
配列解析装置30は、質量分析装置31と、情報処理装置32とを備え、情報処理装置32は、プロセッサ33と、記憶デバイス34と、図示しない表示デバイス、及び、入力デバイスを接続するための入出力インタフェース(I/F)35とを有し、質量分析装置31と情報処理装置32とは相互にデータを送受信できるよう構成されている。
プロセッサ33は、例えば、マイクロプロセッサ、プロセッサコア、マルチプロセッサ、ASIC(application-specific integrated circuit)、FPGA(field programmable gate array)、及び、GPGPU(General-purpose computing on graphics processing units)等である。
記憶デバイス34は、各種プログラム、及び、データを一時的に、及び/又は、非一時的に記憶する機能を有し、プロセッサ33の作業エリアを提供する。
記憶デバイス34は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、及び、SSD(Solid State Drive)等である。
記憶デバイス34は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、及び、SSD(Solid State Drive)等である。
入出力I/F35に接続される入力デバイスは、各種情報入力を受け付け、また、配列解析装置30への指示の入力を受け付けることができる。入力デバイスは、キーボード、マウス、スキャナ、及び、タッチパネル等でよい。
また、入出力I/F35に接続される表示デバイスは、配列解析装置30のステータス、分析の進捗、及び、配列解析結果等を表示できる。表示デバイスは、液晶ディスプレイ、及び、有機EL(Electro Luminescence)ディスプレイ等でよい。
また、表示デバイスは、入力デバイスと一体として構成されていてもよい。この場合、表示デバイスがタッチパネルディスプレイであって、GUI(Graphical User Interface)を提供する形態が挙げられる。
また、表示デバイスは、入力デバイスと一体として構成されていてもよい。この場合、表示デバイスがタッチパネルディスプレイであって、GUI(Graphical User Interface)を提供する形態が挙げられる。
データバスにより相互にデータを通信可能なプロセッサ33、記憶デバイス34、入出力I/F35を備える情報処理装置32は、典型的にはコンピュータである。
質量分析装置31は、典型的には、「DART」イオン源、検体加熱装置、及び、飛行時間型質量分析計を備える質量分析装置である。質量分析装置31が備えるイオン源、及び、質量分析計は、いずれも非限定的な例であり、配列解析装置が備える質量分析装置の構成は上記に限定されない。
図6は、配列解析装置30の機能ブロック図である。配列解析装置30は、検体の質量分析を行う質量分析装置31と、質量分析装置31によって得られたマススペクトルを処理する情報処理装置32とを備える。
質量分析装置31は、情報処理装置32の記憶デバイス34に記憶されたプログラムをプロセッサ33が実行することで制御される。
質量分析装置31は、ロードされた検体を加熱しながら熱脱着、及び/又は、熱分解されて生ずるガス成分をイオン化し、順次質量分析して、マススペクトルを出力する。
質量分析装置31は、ロードされた検体を加熱しながら熱脱着、及び/又は、熱分解されて生ずるガス成分をイオン化し、順次質量分析して、マススペクトルを出力する。
質量分析装置31によって取得されたマススペクトルは、情報処理装置32のデータ行列作成部41へと渡される。データ行列作成部41は、記憶デバイス34に記憶されたプログラムをプロセッサ33が実行することで実現される機能である。データ行列作成部41は、マススペクトルを各行に格納した二次元マススペクトルからデータ行列を作成し、後述する第1NMF処理部43に渡す。なお、データ行列の詳細については、すでに説明したとおりである。
変種数決定部42は、記憶デバイス34に記憶されたプログラムをプロセッサ33が実行することで実現される機能である。変種数決定部42は、入出力I/F35を介して外部47から取得された単量体の種類数、及び、多連子の長さに応じて、変種数Kを決定し、第1NMF処理部43に渡す。
記憶デバイス34には、単量体の種類数、及び、多連子の長さに応じて予め定められた変種数Kの最大値が記憶されており、変種数決定部42はこれを参照して、変種数Kを決定する。
なお、本実施形態では、単量体の種類数、及び、多連子の長さが、入出力I/F35を介して外部47から取得されているが、単量体の種類数、及び、多連子の長さは、入出力I/F35以外にも、通信を利用して外部ネットワークから取得されてもよい。
また、変種数Kの最大値は、記憶デバイス34に単量体の種類数、及び、多連子の長さに対するテーブルとして記憶されていてもよいし、単量体の種類数、及び、多連子の長さに対する関数として記憶されていてもよい。
記憶デバイス34には、単量体の種類数、及び、多連子の長さに応じて予め定められた変種数Kの最大値が記憶されており、変種数決定部42はこれを参照して、変種数Kを決定する。
なお、本実施形態では、単量体の種類数、及び、多連子の長さが、入出力I/F35を介して外部47から取得されているが、単量体の種類数、及び、多連子の長さは、入出力I/F35以外にも、通信を利用して外部ネットワークから取得されてもよい。
また、変種数Kの最大値は、記憶デバイス34に単量体の種類数、及び、多連子の長さに対するテーブルとして記憶されていてもよいし、単量体の種類数、及び、多連子の長さに対する関数として記憶されていてもよい。
第1NMF処理部43は、記憶デバイス34に記憶されたプログラムをプロセッサ33が実行することで実現される機能である。第1NMF処理部43は、データ行列作成部41から提供されたデータ行列と、変種数決定部42から提供された変種数Kをもとに、データ行列を非負値行列因子分解(NMF)し、強度分布行列と、基底スペクトルを表す行列との積に分解する。行列分解の方法はすでに説明したとおりである。その結果は、第2NMF処理部44に渡される。
第2NMF処理部44は、記憶デバイス34に記憶されたプログラムをプロセッサ33が実行することで実現される機能である。第2NMF処理部44は、第1NMF処理部43から提供された強度分布行列を非負値行列因子分解し、多連子のみから構成されるモデル重合体の検体中における質量割合を表す行列と、モデル重合体の特徴ベクトルを表す行列との積に分解する。この行列分解の方法はすでに説明したとおりである。その結果は、ベクトル射影部45に渡される。
ベクトル射影部45は、記憶デバイス34に記憶されたプログラムをプロセッサ33が実行することで実現される機能である。ベクトル射影部45は、第2NMF処理部44から提供されたモデル重合体の特徴ベクトルをエンドメンバーとし、検体の特徴ベクトルの全てを内包するK-1次元単体を設定する。なお、K-1次元単体の設定方法はすでに説明したとおりである。
組成推定部46は、記憶デバイス34に記憶されたプログラムをプロセッサ33が実行することで実現される機能である。組成推定部46は、ベクトル射影部45によって設定されたK-1次元単体におけるK個のエンドメンバーと、推定対象検体の特徴ベクトルとの距離をそれぞれ計算し、距離の比より、推定対象検体中の多連子のそれぞれの含有量比を推定する。そして、組成推定部46は、入出力I/F35を介して、配列解析結果を外部48に出力する。
なお、本実施形態では、配列解析結果が入出力I/F35を介して外部48へと出力されているが、配列解析結果は、入出力I/F35以外にも、通信を利用して外部ネットワークへ送信されてもよい。
なお、本実施形態では、配列解析結果が入出力I/F35を介して外部48へと出力されているが、配列解析結果は、入出力I/F35以外にも、通信を利用して外部ネットワークへ送信されてもよい。
配列解析装置30によれば、参照検体が準備しにくい重合体でも、特段の前処理を必要とせず、簡便な手順で、正確な配列解析が可能になる。配列解析装置30によれば、特に、複数の単量体から合成された重合体の品質管理、及び、不良原因の調査等に適用した場合、結果を得るために必要な時間を大幅に短縮することができる。
[配列解析装置(第2実施形態)]
図7は、配列解析装置の第2実施形態の機能ブロック図である。配列解析装置50は、情報処理装置32が、モデル重合体スペクトル同定部51(図中では「Mスペクトル同定部」と記載されている。)を有していること以外は、配列解析装置30と同様である。以下では、配列解析装置30との相違点について説明する。
図7は、配列解析装置の第2実施形態の機能ブロック図である。配列解析装置50は、情報処理装置32が、モデル重合体スペクトル同定部51(図中では「Mスペクトル同定部」と記載されている。)を有していること以外は、配列解析装置30と同様である。以下では、配列解析装置30との相違点について説明する。
配列解析装置50が有するモデル重合体スペクトル同定部51は、記憶デバイス34に記憶されたプログラムをプロセッサ33が実行することで実現される機能である。モデル重合体スペクトル同定部51は、第1NMF処理部43にから提供された基底スペクトルと、第2NMF処理部44から提供されたモデル重合体の特徴ベクトルと、外部52から取得された多連子を構成する単位の質量数とから、Mスペクトルが帰属する多連子を同定する。同定方法の詳細はすでに説明したとおりである。なお、多連子を構成する単位の質量数は、予め記憶デバイス34に記憶されていてもよい。
モデル重合体スペクトル同定部51は、Mスペクトルのうち多連子に帰属されないものが存在する場合、第1NMF処理部43に新たな変種数K(典型的には、当初の変種数Kから、所定数減じたもの)を提供し、第1NMF処理部43に第1NMF処理を、第2NMF処理部44に第2NMF処理をそれぞれ実施させる。この処理は、Mスペクトルのすべてが多連子に帰属できるまで繰り返し実施される。変種数の減少の方法は特に限定されないが、典型的には、1減じる方法が挙げられる。
Mスペクトル同定部51によって、Mスペクトルのすべてが多連子に帰属された場合、第2NMF処理部44により計算されたモデル重合体の検体中における質量割合を表す行列と、モデル重合体の特徴ベクトルを表す行列は、ベクトル射影部45に提供される。その後の処理は、配列解析装置30と同様である。
配列解析装置50は、モデル重合体スペクトル同定部51を有しているため、理論上取り得る値として当初設定したKが、実際に即しておらず、かつ、その理由が未知の状態でも、所定の処理によって適切なKを再設定し、より正確な配列解析結果を提供できる。
[重合条件提案装置]
次に、本発明の実施形態に係る重合条件提案装置について、図面を参照しながら説明する。図8は、本発明の重合条件提案装置の一実施形態の機能ブロック図である。
次に、本発明の実施形態に係る重合条件提案装置について、図面を参照しながら説明する。図8は、本発明の重合条件提案装置の一実施形態の機能ブロック図である。
重合条件提案装置60は、情報処理装置61を有する。情報処理装置61は、配列解析装置30が有する各機能に加えて、更に、方針提案部62を有する。重合条件提案装置60が有するハードウェアは配列解析装置30と同様であり、方針提案部62は、記憶デバイス34に記憶されたプログラムをプロセッサ33が実行することで実現される機能である。重合条件提案装置60の機能は、方針提案部62を有すること以外は、配列解析装置30と同様であるため、以下では、方針提案部62の機能について説明する。
方針提案部62は、重合条件と、その結果として得られた重合体の配列解析結果とを関連付けた複数の実測データを訓練データとした機械学習により生成された学習モデルである。
方針提案部62は、得られる重合体の配列が未知である重合条件の複数を含む重合条件データセットを生成し、その重合条件ごとに予測結果(重合体の配列)を算出する。
更に、方針提案部62は、重合条件と予測結果とを関連付けた予測データセットを作成し、得られた予測結果のうち、目標配列に近い予測結果を特定し、特定した予測結果に関連付けられた重合条件を抽出する。
方針提案部62は、得られる重合体の配列が未知である重合条件の複数を含む重合条件データセットを生成し、その重合条件ごとに予測結果(重合体の配列)を算出する。
更に、方針提案部62は、重合条件と予測結果とを関連付けた予測データセットを作成し、得られた予測結果のうち、目標配列に近い予測結果を特定し、特定した予測結果に関連付けられた重合条件を抽出する。
方針提案部62は、組成推定部46から、推定対象検体の配列解析結果と、その重合条件とが関連付けられたデータを受け取り、更に、入出力I/F35を介して外部63から目標配列のデータを受け取る。
方針提案部62は、複数の重合条件データセットを生成し、配列を予測する。このうち、組成推定部46から取得された配列解析結果よりも目標配列に近い配列が得られる条件を抽出し、これを「重合条件」として、入出力I/F35を介して外部64へ提案する。
方針提案部62は、複数の重合条件データセットを生成し、配列を予測する。このうち、組成推定部46から取得された配列解析結果よりも目標配列に近い配列が得られる条件を抽出し、これを「重合条件」として、入出力I/F35を介して外部64へ提案する。
学習モデルとしては、例えば、重合条件の各パラメータを説明変数とし、得られた重合体の配列解析結果を目的変数として学習された、学習済みのニューラルネットワークであってよい。このような学習モデルの構築には公知の方法が使用でき、例えば、国際公開第2020/054183号、国際公開第2020/066309号、及び、特表2008-501837号公報に記載の方法が使用できる。
重合条件提案装置60は、方針提案部62を有しているため、配列解析結果と目標配列とを比較し、より目標配列に近い重合体が得られると予想される重合条件を提案できる。上記によれば、単量体の種類数が多い、及び/又は、多連子の長さが長いような複雑な系であっても、より効率的に材料設計が可能になる。
なお、重合条件提案装置60は、モデル重合体スペクトル同定部51を有していないが、本発明の重合条件提案装置はモデル重合体スペクトル同定部51を有していることが好ましい。
[自動合成装置]
次に、本発明の実施形態に係る自動合成装置について、図面を参照しながら説明する。図9は、本発明の自動合成装置の一実施形態の機能ブロック図である。
自動合成装置70は、重合条件提案装置60に加えて、更に、重合体の合成装置71を有する。
重合体の合成装置71は、単量体の供給機構75、反応槽76、及び、これらを制御する制御装置72を備えている。
なお、図8では、重合条件提案装置60は機能の一部を省略し、説明に必要な部分のみ図示されているが、上述の重合条件提案装置60と同様の機能を有する。
次に、本発明の実施形態に係る自動合成装置について、図面を参照しながら説明する。図9は、本発明の自動合成装置の一実施形態の機能ブロック図である。
自動合成装置70は、重合条件提案装置60に加えて、更に、重合体の合成装置71を有する。
重合体の合成装置71は、単量体の供給機構75、反応槽76、及び、これらを制御する制御装置72を備えている。
なお、図8では、重合条件提案装置60は機能の一部を省略し、説明に必要な部分のみ図示されているが、上述の重合条件提案装置60と同様の機能を有する。
重合体の合成装置71は、典型的には、フロー反応装置であってよい。単量体の供給機構75からは、単量体、及び/又は、単量体を溶媒に溶解した単量体溶液が反応槽76へと供給される。
合成装置71は、単量体の供給機構75を複数有していてもよく、これらはそれぞれ独立に制御装置72によって制御される。単量体の供給機構75は、典型的には、単量体(又は溶液)を収容する容器と、容器から反応槽76までの管路と、ポンプとを有する。反応槽76へ供給される単量体の種類、及び、量は、ポンプの出力で調整される。
合成装置71は、単量体の供給機構75を複数有していてもよく、これらはそれぞれ独立に制御装置72によって制御される。単量体の供給機構75は、典型的には、単量体(又は溶液)を収容する容器と、容器から反応槽76までの管路と、ポンプとを有する。反応槽76へ供給される単量体の種類、及び、量は、ポンプの出力で調整される。
反応槽76は、供給機構75に接続した管路に設けられた中空部であり典型的には容器状の反応場である。反応槽76には、ヒータ、雰囲気調整用のガス管路、弁、ポンプ、及び、攪拌翼等を有する。
単量体の供給機構75、及び、反応槽76は、記憶デバイス74に記憶されたプログラムがプロセッサ73により実行されることで制御される。具体的には、重合条件提案装置60から提供される重合条件、すなわち、目標配列により近い重合体が得られると予測される重合条件を受け取ると、その条件に沿って、供給機構75を制御し、反応槽76に供給する単量体の種類、及び、各単量体の供給量を調整する。また、反応槽76を制御し、反応温度、反応時間、及び、攪拌速度等を調整する。
また、所定の反応時間の反応が終了した後は、制御装置72は、反応槽76のポンプを制御して、得られた重合体を反応槽76から、質量分析装置31へと送る。
自動合成装置70では、反応槽76と、質量分析装置31とが管路で接続されており、合成された重合体は、再度、配列解析に供される。
このように構成された自動合成装置70によれば、重合条件提案装置60から提案された重合条件にて自動的に重合が実施され、更に、その重合物が再度、配列解析に供せられ、再びその結果の評価が繰り返される。これによって、自動的に目標配列に沿って重合体が合成される。
自動合成装置70では、反応槽76と、質量分析装置31とが管路で接続されており、合成された重合体は、再度、配列解析に供される。
このように構成された自動合成装置70によれば、重合条件提案装置60から提案された重合条件にて自動的に重合が実施され、更に、その重合物が再度、配列解析に供せられ、再びその結果の評価が繰り返される。これによって、自動的に目標配列に沿って重合体が合成される。
以下、本発明を実施例により説明するが、本発明はこれらに限定されるものではない。
[実施例1:MMA/St/BAの三連子解析]
単量体セットとして、メチルメタクリレート(M)、スチレン(S)、及び、ブチルアクリレートを用いて三連子解析を実施した。
メチルメタクリレート、スチレン、及び、ブチルアクリレートはそれぞれ東京化成工業製を用いた。
これらの単量体を所定量バイアル瓶に注入し、重合開始剤としてジメチル2,2′-アゾビス(イソブチレート)を添加し、窒素ガス置換の後、攪拌しながら所定温度にて所定時間重合させ、その後メタノールで反応停止させた。得られた重合体は、乾燥させたのち、「DART-MS」による質量分析に供した。
単量体セットとして、メチルメタクリレート(M)、スチレン(S)、及び、ブチルアクリレートを用いて三連子解析を実施した。
メチルメタクリレート、スチレン、及び、ブチルアクリレートはそれぞれ東京化成工業製を用いた。
これらの単量体を所定量バイアル瓶に注入し、重合開始剤としてジメチル2,2′-アゾビス(イソブチレート)を添加し、窒素ガス置換の後、攪拌しながら所定温度にて所定時間重合させ、その後メタノールで反応停止させた。得られた重合体は、乾燥させたのち、「DART-MS」による質量分析に供した。
「DART-MS」による質量分析の手順は以下のとおりである。重合体は、ヒーター(商品名「ionRocket」Biochromato社製)上で50℃/minの昇温速度で50℃から500℃まで加熱され、分解された。室温から50℃までの予熱時間2分を含め、1試料あたり11分の測定を行った。熱分解ガスは「DART」-イオン源(商品名「DART-OS」;IonSense社製)を用いて、励起されたHeガスにより連続的にイオン化された。
MS(「LCMS-2020」Shimadzu社製)のスペクトルはポジティブイオンモードで50scan/minで記録し、1サンプルあたり550スペクトルを得た。質量範囲は50-1500m/z、インターバルスケールは0.05m/zで、質量分解能は2000であった。
MS(「LCMS-2020」Shimadzu社製)のスペクトルはポジティブイオンモードで50scan/minで記録し、1サンプルあたり550スペクトルを得た。質量範囲は50-1500m/z、インターバルスケールは0.05m/zで、質量分解能は2000であった。
スペクトルはCDFファイル形式で出力され、PythonモジュールであるnetCDF4でNumpy形式に変換された。データ処理はすべて、AMD Ryzen9 4900HSを搭載したWindows 11ノートパソコン上のPython3.7で、外部GPUの支援なしに行われた。総処理時間は2-3時間だった。
以下の表は、M/S/B三成分系の重合条件をまとめたものである。表中、「mass(mg)」とあるのは、得られた重合体の質量を表し、「M initial fraction」「S initial fraction」「B initial fraction」はそれぞれ、M、S、Bの仕込み比(質量基準)を表しており、「polym.Time(h)」は反応時間(h)、「polym.Temp(C)」は、反応温度(℃)を表している。下表のとおり、異なる反応条件で、85種類の異なる重合体が合成された。
上記のとおり、サンプル数は85、質量分析の温度範囲は200~450℃、m/zの範囲は50~410とした。また、その他のハイパーパラメータは以下のとおりである。
図10は、計算により求められた、多連子ごとのモデル重合体スペクトルを表す図である。単量体の種類数が3で、三連子解析であるため、Kは13となり、いずれのスペクトルも、単量体の質量数の和と比較したとき、合理的な位置にピークを有していた。なお、図中、各スペクトルの横に記された「(XXX)l」等は多連子の種類を表し、ピーク位置に記された「XXX」は、同定された多連子のピーク位置を表している。
図10の各モデル重合体スペクトルは、三連子へそれぞれ合理的に帰属されて、計算が意図どおりに実施できたことが明らかとなった。
図10の各モデル重合体スペクトルは、三連子へそれぞれ合理的に帰属されて、計算が意図どおりに実施できたことが明らかとなった。
[実施例2:St/BAの五連子解析]
単量体セットを、MMA/St/BAから、St/BAとし、五連子解析としたことを除いては、実施例1と同様にして、配列解析を実施した。以下の表は重合条件の表である。表中、「mass(mg)」とあるのは、得られた重合体の質量を表し、「S initial fraction」「B initial fraction」はそれぞれ、S、Bの仕込み比(質量基準)を表しており、「polym.Time(h)」は反応時間(h)、「polym.Temp(C)」は、反応温度(℃)を表している。下表のとおり、異なる反応条件で、81種類の異なる重合体が合成された。
単量体セットを、MMA/St/BAから、St/BAとし、五連子解析としたことを除いては、実施例1と同様にして、配列解析を実施した。以下の表は重合条件の表である。表中、「mass(mg)」とあるのは、得られた重合体の質量を表し、「S initial fraction」「B initial fraction」はそれぞれ、S、Bの仕込み比(質量基準)を表しており、「polym.Time(h)」は反応時間(h)、「polym.Temp(C)」は、反応温度(℃)を表している。下表のとおり、異なる反応条件で、81種類の異なる重合体が合成された。
上記のとおり、サンプル数は81、質量分析の温度範囲は200~450℃、m/zの範囲は100~700とした。また、その他のハイパーパラメータは以下のとおりである。
解析は、K=9として行った。単量体の種類数が2のとき、多連子の長さが5である場合の理論上の組合せ数が9である。モデル重合体スペクトルを求めた結果が図11である。
いずれのスペクトルも、単量体の質量数の和と比較したとき、合理的な位置にピークを有していた。なお、図中、各スペクトルの横に記された「(XXXXX)l」等は多連子の種類を表し、ピーク位置に記された「XXXXX」は、同定された多連子のピーク位置を表している。
図11の各モデル重合体スペクトルは、三連子へそれぞれ合理的に帰属されて、計算が意図どおりに実施できたことが明らかとなった。
いずれのスペクトルも、単量体の質量数の和と比較したとき、合理的な位置にピークを有していた。なお、図中、各スペクトルの横に記された「(XXXXX)l」等は多連子の種類を表し、ピーク位置に記された「XXXXX」は、同定された多連子のピーク位置を表している。
図11の各モデル重合体スペクトルは、三連子へそれぞれ合理的に帰属されて、計算が意図どおりに実施できたことが明らかとなった。
[実施例3:NMR測定結果との比較]
実施例2で学習させた5連子の基底スペクトルを用いて、スチレン(S)、ブチルアクリレート(B)の2種類の単量体を用いたリビングラジカル重合系で重合体を生長させ、経時的にサンプリングして得た検体を解析した。さらに同一のサンプルをNMRで分析するとともに、Alfrey-Mayo式で計算される理論曲線と比較した。
実施例2で学習させた5連子の基底スペクトルを用いて、スチレン(S)、ブチルアクリレート(B)の2種類の単量体を用いたリビングラジカル重合系で重合体を生長させ、経時的にサンプリングして得た検体を解析した。さらに同一のサンプルをNMRで分析するとともに、Alfrey-Mayo式で計算される理論曲線と比較した。
なお、NMRのデータとの比較にあたっては、NMRでは「B」を中心とする三連子の情報しか得られないために、実施例2で学習させた5連子の基底スペクトルを三連子組成にダウングレード(集約)して新たに基底スペクトルを作成した。その方法について以下に詳述する。
まず、すでに説明した方法に沿って、SとBの張る超平面への射影により推定対象検体の五連子組成を得る。これをCtest(ここではK-9)とする。この、
に対して、五連子から三連子への変換行列を右からかける。
変換行列は下表のとおりである。
変換行列は下表のとおりである。
上記表中「Sequence-defined copolymers」とあるのは、実施例2で計算された五連子の基底スペクトルを表す行列であり、「B-centered triad matrix,TB」とあるのは、Bが中心になる(例えばBBS等)三連子への変換行列を表し、「B-centered triad matrix,TS」とあるのは、同じくSが中心になる三連子への変換行列を表す。今回の検証ではNMRでデータが取得可能なBが中心となるTBを用いた。
上記変換行列によれば、
上記変換行列によれば、
の三次元ベクトルが、BBB、BBS、SBSの質量比に分解される。
スチレン(S)、ブチルアクリレート(B)の2種類の単量体を用いたリビングラジカル重合は以下の手順により実施した。
2-(dodecylthiocarbonothioylthio)-2-methylpropionic acid (DDMAT)72.9mgとAzobis(isobutyronitrile) (AIBN)9.9mgを反応容器にとり、窒素雰囲気に置換した。別の容器にスチレン2.1mLとn-ブチルアクリレートを2mL、1,4-ジオキサンを2mLを入れ、窒素ガスを30分間バブリングすることで酸素を除去し、これを反応容器に加えた。反応容器を攪拌しながら70℃に加熱し、時々重合溶液をサンプリングして、転化率、及び、配列解析を行った。なお図12は、重合時間と転化率との関係を表す図である。
2-(dodecylthiocarbonothioylthio)-2-methylpropionic acid (DDMAT)72.9mgとAzobis(isobutyronitrile) (AIBN)9.9mgを反応容器にとり、窒素雰囲気に置換した。別の容器にスチレン2.1mLとn-ブチルアクリレートを2mL、1,4-ジオキサンを2mLを入れ、窒素ガスを30分間バブリングすることで酸素を除去し、これを反応容器に加えた。反応容器を攪拌しながら70℃に加熱し、時々重合溶液をサンプリングして、転化率、及び、配列解析を行った。なお図12は、重合時間と転化率との関係を表す図である。
図13、14は配列解析の結果である。図13(A)は得られた共重合体におけるBBB三連子の含有量の変化を表している。横軸が転化率(%)、縦軸が、BBB三連子の質量分率である。また、同様に図13(B)は、得られた共重合体におけるBBS三連子の含有量の変化を表し、図14は、SBS三連子の含有量の変化を表している。
いずれの三連子の解析結果でも、NMRの解析結果と、本発明の解析方法「RQPMS;“reference-free” quantitative pyrolysis MS」の実施例による解析結果とはよく一致しており、更に、Alfrey-Mayo式で計算される理論曲線とも一致していた。
いずれの三連子の解析結果でも、NMRの解析結果と、本発明の解析方法「RQPMS;“reference-free” quantitative pyrolysis MS」の実施例による解析結果とはよく一致しており、更に、Alfrey-Mayo式で計算される理論曲線とも一致していた。
10、20 K-1次元単体
12 内接超球
13、14、24、25 エンドメンバー
16、17、21-23 参照検体
19 領域
30、50 配列解析装置
31 質量分析装置
32 情報処理装置
33、73 プロセッサ
34、74 記憶デバイス
35 入出力インタフェース(I/F)
41 データ行列作成部
42 変種数決定部
43 第1NMF処理部
44 第2NMF処理部
45 ベクトル射影部
46 組成推定部
51 モデル重合体スペクトル同定部
60 重合条件提案装置
62 方針提案部
70 自動合成装置
71 合成装置
72 制御装置
75 供給機構
76 反応槽
12 内接超球
13、14、24、25 エンドメンバー
16、17、21-23 参照検体
19 領域
30、50 配列解析装置
31 質量分析装置
32 情報処理装置
33、73 プロセッサ
34、74 記憶デバイス
35 入出力インタフェース(I/F)
41 データ行列作成部
42 変種数決定部
43 第1NMF処理部
44 第2NMF処理部
45 ベクトル射影部
46 組成推定部
51 モデル重合体スペクトル同定部
60 重合条件提案装置
62 方針提案部
70 自動合成装置
71 合成装置
72 制御装置
75 供給機構
76 反応槽
Claims (16)
- 2種以上の単量体を含む単量体セットから選択された単量体を重合させて得られる重合体における、前記単量体に由来する単位の複数が配列して構成される多連子の含有量を推定する、重合体の配列解析方法であって、
前記単量体セットに含まれる単量体の種類数と、前記多連子を構成する前記単位の数とに応じて、前記多連子の変種数Kを決定することと、
前記単量体から構成される重合体である参照検体、及び、推定対象検体のそれぞれの検体を加熱して生ずるガス成分を順次イオン化し、加熱温度に対するm/zの二次元マススペクトルを含むデータ行列を得ることと、
前記データ行列を非負値行列因子分解し、規格化された基底スペクトルを表す行列とその強度分布行列の積に分解する第1NMF処理を行うことと、
前記検体のそれぞれの前記強度分布行列を非負値行列因子分解し、前記多連子のみから構成されるモデル重合体の前記検体中における質量割合を表す行列と、前記モデル重合体の特徴ベクトルを表す行列との積に分解する第2NMF処理を行うことと、
前記モデル重合体の特徴ベクトルをエンドメンバーとし、前記検体の特徴ベクトルの全てを内包するK-1次元単体を設定することと、
K個の前記エンドメンバーと、前記推定対象検体の特徴ベクトルとの距離を、第1NMF処理の基底スペクトルの非直交性を考慮したリーマン計量距離により定義し、前記距離の比より、前記推定対象検体中の前記多連子のそれぞれの含有量比を推定することと、を含む配列解析方法。 - 前記変種数Kが3以上の場合、前記K-1次元単体に内接する超球体の外側の領域のそれぞれに、前記参照検体の特徴ベクトルの少なくとも1つが位置する、又は、前記参照検体が前記エンドメンバーの少なくとも1つを含む、請求項1に記載の配列解析方法。
- 前記第2NMF処理の後に、
前記モデル重合体の前記特徴ベクトルを表す行列と、前記基底スペクトルを表す行列との行列積により、前記モデル重合体のスペクトルを再構築し、前記モデル重合体のスペクトルが帰属する前記多連子を同定することと、を更に含む、請求項1又は2に記載の配列解析方法。 - 前記同定が、前記多連子を構成する前記単位の質量数の和と、前記モデル重合体のスペクトルのピークにおけるm/zとを比較することにより実施される、請求項3に記載の配列解析方法。
- 前記同定の結果、いずれの前記多連子にも帰属されない前記モデル重合体のスペクトルが存在する場合、前記変種数Kを変更して、前記第1NMF処理と、前記第2NMF処理、及び、前記同定とを繰り返す、請求項3又は4に記載の配列解析方法。
- 前記変更が、前記変種数Kを所定数減ずることである、請求項5に記載の配列解析方法。
- 前記同定の結果、前記多連子に帰属できない前記モデル重合体のスペクトルが存在する場合、前記参照検体を追加して、前記データ行列の取得、前記第1NMF処理、前記第2NMF処理、及び、前記同定を繰り返す、請求項3又は4に記載の配列解析方法。
- 前記種類数をjとし、jが3以上のとき、前記変種数Kが式:K=jC3+3jC2+jC1で決定される、請求項1~7のいずれか1項に記載の配列解析方法。
- 前記重合体がレジスト樹脂を含む、請求項1~8のいずれか1項に記載の配列解析方法。
- 前記参照検体と、前記推定対象検体の重合方法が異なる、請求項1~9のいずれか1項に記載の配列解析方法。
- 2種以上の単量体を含む単量体セットから選択された単量体を重合させて得られる重合体における、前記単量体に由来する単位の複数が配列して構成される多連子の含有量を推定する、重合体の配列解析装置であって、
前記単量体から構成される重合体である参照検体、及び、推定対象検体からなる検体を加熱して生ずるガス成分を順次イオン化し、マススペクトルを連続的に観測する質量分析装置と、
観測された前記マススペクトルを処理する情報処理装置と、を備え、
前記情報処理装置は、
加熱温度に対するm/zの二次元マススペクトルを含むデータ行列を得るデータ行列作成部と、
前記単量体セットに含まれる単量体の種類数と、前記多連子を構成する前記単位の数とに応じて、前記多連子の変種数Kを決定する変種数決定部と、
前記データ行列を非負値行列因子分解し、規格化された基底スペクトルを表す行列とその強度分布行列の積に分解するNMF処理を行う第1NMF処理部と、
前記検体のそれぞれの前記強度分布行列を非負値行列因子分解し、前記多連子のみから構成されるモデル重合体の前記検体中における質量割合を表す行列と、前記モデル重合体の特徴ベクトルを表す行列との積に分解するNMF処理を行い、前記モデル重合体の特徴ベクトルを得る第2NMF処理部と、
前記モデル重合体の特徴ベクトルをエンドメンバーとし、前記検体の特徴ベクトルの全てを内包するK-1次元単体を設定するベクトル射影部と、
K個の前記エンドメンバーと、前記推定対象検体の特徴ベクトルとの距離を、第1NMF処理の基底スペクトルの非直交性を考慮したリーマン計量距離により定義し、前記距離の比より、前記推定対象検体中の前記多連子のそれぞれの含有量比を推定する組成推定部と、を含む、配列解析装置。 - 更に、前記モデル重合体の前記特徴ベクトルを表す行列と、前記基底スペクトルを表す行列との行列積により、前記モデル重合体のスペクトルを再構築し、前記モデル重合体のスペクトルが帰属する前記多連子を同定するモデル重合体スペクトル同定部を含む、請求項11に記載の配列解析装置。
- 前記同定が、前記多連子を構成する前記単位の質量数の和と、前記モデル重合体のスペクトルのピークにおけるm/zとを比較することにより実施される、請求項12に記載の配列解析装置。
- 前記同定の結果、いずれの前記多連子にも帰属されない前記モデル重合体のスペクトルが存在する場合、前記情報処理装置は、前記変種数Kを変更して、前記第1NMF処理部によるNMF処理と、前記第2NMF処理部によるNMF処理と、前記モデル重合体スペクトル同定部による同定とを繰り返す、請求項12又は13に記載の配列解析装置。
- 請求項11~14のいずれか1項に記載の配列解析装置と、
前記配列解析装置による配列解析結果と、前記推定対象検体の重合条件とを訓練データとして機械学習された方針提案部とを更に備え、
前記方針提案部は、配列解析結果と、所定の目標配列とを比較し、前記目標配列の重合体を得るための新たな重合条件を提案する、重合条件提案装置。 - 請求項15に記載の重合条件提案装置と、
前記重合体の合成装置と、を有し、
前記合成装置は、
前記単量体の供給機構、前記供給機構から前記単量体の供給を受けて前記単量体を反応させる反応槽、及び、制御装置を有し、
前記制御装置は、前記重合条件提案装置により提案された重合条件に基づき、前記供給機構、及び、前記反応槽からなる群より選択される少なくとも一方を制御して、新たな重合体を合成する、自動合成装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022116542 | 2022-07-21 | ||
JP2022-116542 | 2022-07-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024018725A1 true WO2024018725A1 (ja) | 2024-01-25 |
Family
ID=89617351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2023/017129 WO2024018725A1 (ja) | 2022-07-21 | 2023-05-02 | 配列解析方法、配列解析装置、重合条件提案装置、及び、自動合成装置 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024018725A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130035867A1 (en) * | 2010-04-12 | 2013-02-07 | Katholieke Universiteit Leuven K.U. Leuven R & D, | Intensity normalization in imaging mass spectrometry |
JP2018512580A (ja) * | 2015-03-06 | 2018-05-17 | マイクロマス ユーケー リミテッド | 気体サンプルの改良されたイオン化 |
WO2019208225A1 (ja) * | 2018-04-27 | 2019-10-31 | 株式会社Screenホールディングス | 配列決定方法および配列決定装置 |
-
2023
- 2023-05-02 WO PCT/JP2023/017129 patent/WO2024018725A1/ja unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130035867A1 (en) * | 2010-04-12 | 2013-02-07 | Katholieke Universiteit Leuven K.U. Leuven R & D, | Intensity normalization in imaging mass spectrometry |
JP2018512580A (ja) * | 2015-03-06 | 2018-05-17 | マイクロマス ユーケー リミテッド | 気体サンプルの改良されたイオン化 |
WO2019208225A1 (ja) * | 2018-04-27 | 2019-10-31 | 株式会社Screenホールディングス | 配列決定方法および配列決定装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bourinet | Rare-event probability estimation with adaptive support vector regression surrogates | |
Karpievitch et al. | Normalization and missing value imputation for label-free LC-MS analysis | |
JP6760380B2 (ja) | 分析データ処理方法及び分析データ処理装置 | |
Hook et al. | Multivariate ToF-SIMS image analysis of polymer microarrays and protein adsorption | |
Chilkoti et al. | Static secondary ion mass spectrometric investigation of the surface chemistry of organic plasma-deposited films created from oxygen-containing precursors. 3. Multivariate statistical modeling | |
US8831316B2 (en) | Point source detection | |
Aguilar et al. | Intuitive joint priors for Bayesian linear multilevel models: The R2D2M2 prior | |
Gundry et al. | Inclusion of multiple cycling of potential in the deep neural network classification of voltammetric reaction mechanisms | |
WO2019077955A1 (ja) | スペクトル分析装置およびスペクトル分析方法 | |
WO2024018725A1 (ja) | 配列解析方法、配列解析装置、重合条件提案装置、及び、自動合成装置 | |
Barradas et al. | Artificial neural network algorithm for analysis of Rutherford backscattering data | |
Koo et al. | Analysis of Metabolomic Profiling Data Acquired on GC–MS | |
Buback et al. | Detailed analysis of termination kinetics in radical polymerization | |
CN117686442A (zh) | 一种氯离子扩散浓度检测方法、系统、介质及设备 | |
Mareček et al. | Faster and lower-dose X-ray reflectivity measurements enabled by physics-informed modeling and artificial intelligence co-refinement | |
US20200273545A1 (en) | Computer-implemented methods and systems for identifying a species from mass spectra | |
Ordabayev et al. | Bayesian machine learning analysis of single-molecule fluorescence colocalization images | |
CN112420131B (zh) | 基于数据挖掘的分子生成方法 | |
Suzuki et al. | Extraction of physical parameters from X-ray spectromicroscopy data using machine learning | |
Barkauskas et al. | Analysis of MALDI FT-ICR mass spectrometry data: A time series approach | |
van Dyk | Hierarchical models, data augmentation, and Markov chain Monte Carlo | |
WO2022270289A1 (ja) | 検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム | |
JP2021025953A (ja) | 質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラム | |
CN113779860B (zh) | 一种准分子激光器能量模型辨识方法及装置 | |
Wei et al. | High-Dimensional Multi-Task Learning using Multivariate Regression and Generalized Fiducial Inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23842657 Country of ref document: EP Kind code of ref document: A1 |