WO2001039041A1 - Id symbol unique to structural formula of compound - Google Patents

Id symbol unique to structural formula of compound Download PDF

Info

Publication number
WO2001039041A1
WO2001039041A1 PCT/JP2000/008078 JP0008078W WO0139041A1 WO 2001039041 A1 WO2001039041 A1 WO 2001039041A1 JP 0008078 W JP0008078 W JP 0008078W WO 0139041 A1 WO0139041 A1 WO 0139041A1
Authority
WO
WIPO (PCT)
Prior art keywords
structural formula
chemical structural
symbol
compound
character string
Prior art date
Application number
PCT/JP2000/008078
Other languages
English (en)
French (fr)
Inventor
Tetsuro Toyoda
Akiko Itai
Original Assignee
Institute Of Medicinal Molecular Design. Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Medicinal Molecular Design. Inc. filed Critical Institute Of Medicinal Molecular Design. Inc.
Priority to AU14139/01A priority Critical patent/AU1413901A/en
Priority to CA002393321A priority patent/CA2393321A1/en
Priority to DE60033422T priority patent/DE60033422T2/de
Priority to EP00976284A priority patent/EP1235159B1/en
Publication of WO2001039041A1 publication Critical patent/WO2001039041A1/ja
Priority to US11/381,497 priority patent/US20070027900A1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Definitions

  • the present invention relates to a method of generating a fixed-length or variable-length character string that is substantially unique to a chemical structural formula of a compound as an ID symbol attached to the compound or information related to the compound.
  • a compound is uniquely identified by a chemical structural formula indicating the types of atoms constituting the compound and the bonding state between the atoms.
  • compound nomenclature has been studied for a long time for that purpose.
  • the IUPAC method and the chemical abstract method are well known.
  • neither of these nomenclatures is still used.
  • common names arbitrarily named by the discoverer of a new compound are often used for natural compounds and the like. Strict application of naming conventions requires a high degree of skill, but ordinary organic chemists using nomenclature are not familiar with naming conventions.
  • Chemical Abstract which is a database based on compounds published in academic papers and patent applications, is famous as a database based on nomenclature.
  • ACD which is a database of commercially available compounds, is famous as a compound database based on chemical structural formulas.
  • each compound record of the compound has an identifier (ID symbol) consisting of 6 to 10 alphanumeric characters.
  • ID symbol identifier
  • Tasks that require extensive trials to search for a compound in one of the existing databases or to find out if the same compound is contained in databases from different sources include: It is convenient to have an ID symbol that can be compared instead of the compound structural formula. To do this, the structural formula of all compounds must be unique It is necessary to develop a method for assigning a unique ID symbol that can be fixed. Disclosure of the invention
  • An object of the present invention is to provide a method for attaching an ID symbol consisting of a substantially unique fixed-length or variable-length character string to a chemical structural formula of a compound so that the same chemical structural formula can be used anytime and anywhere.
  • Another object is to provide an index search method that can directly use a chemical structural formula as a query.
  • the inventors of the present invention have made intensive efforts to solve the above-mentioned problems, and as a result, have performed a process of converting a structural formula of a compound into a unique character string or a group of character strings and expressing the same. It has been found that a substantially unique ID symbol can be generated.
  • the present invention provides a fixed-length or variable-length character string that is substantially unique to a chemical structural formula based on the types of atoms constituting the chemical structural formula of the compound and the bonding relationship between the atoms. It is intended to provide a method of generating and using this character string as an ID symbol of the compound.
  • each atom has an atomic number depending on the element number of each atom constituting the chemical structural formula, and / or the type of each atom, the type of isotope, or the type of isomer generated by the atom.
  • the present invention also provides a method including a step of converting the character string obtained by the above step into a shorter fixed-length or variable-length character string using a conversion function, following the step of the above method.
  • a collision-resistant hash function and / or a general-purpose one-way hash function can be used as the conversion function.
  • the conversion function is selected from message digest functions such as SHA, SHA 1, MD-4.
  • At least one function can be used to generate a fixed-length string, preferably a fixed-length string consisting of alphabetic and / or Arabic characters.
  • Character strings or character strings obtained by the above method include one or more character strings related to information not used directly (for example, information on the type of the ID symbol generation method and / or the category of the ID symbol object). 1 or 2 or more character strings).
  • the method of the present invention preferably comprises the following elements:
  • (b) means n for storing vectors whose values are elements
  • (c) means for inputting a covalent bond relationship between the atoms, and / or storage means c for storing the relationship as a matrix element;
  • (d) means for storing a sequence generated by an arithmetic expression using n and c, a generation device thereof, and / or a medium for storing an arithmetic procedure for the generation;
  • each atom is assigned a numerical value according to the element number of each atom in the chemical structural formula, the type of isotope, and the type of isomer generated by the atom, and these numerical values are used as elements.
  • the above method can be performed using a medium that stores a sequence of elements in which the elements are rearranged in units of elements or atoms, and a device that outputs the series as a character string unique to the structural formula of the compound.
  • an ID symbol unique to the chemical structural formula of the compound obtained by the above method and a storage medium storing the ID symbol.
  • This ID symbol can be used to determine the identity or similarity of the chemical structures of the compounds. For example, it can be used to extract information on the same or similar chemical structural formulas within a single compound database or between two or more compound databases. Can also be used. For example, the above-mentioned ID symbol is added to the compound database or each file in the database containing the compound information, and the compound information is searched or collated only by comparing the ID symbols without using the chemical structural formula information. be able to.
  • the above-mentioned ID symbol is used A method for maintaining the confidentiality of the chemical structural formula because it is not necessary to directly compare the chemical structural formulas of the compound; It said ID symbols are provided to be used to search more than one database in the same query; how the performed to match the ID symbol subjected to Oite same compound.
  • Both the file and the record are of the same nature in the essence of the present invention, and are one mode of information recording format in a computer.
  • a storage medium storing a computer program implementing the above method is provided by the present invention, wherein the apparatus for executing the above method and the program for operating the apparatus are provided.
  • a recorded medium is provided by the present invention.
  • the storage medium, the storage device, the recording medium, and the recording device any medium or device that can be read by a computer may be used, and preferably, a memory, a flash memory, a floppy disk, a hard disk, a CD-R0M, a DVD, and a M0. Etc. can be used.
  • FIG. 1 is a diagram showing an example of a database system capable of searching for a record managed by a local ID by using an ID unique to a compound structural formula in a query.
  • “Characters” are codes that encode all or some of the characters and symbols used around the world, such as alphabets, Arabic numerals, hiragana, hiragana, kana, kanji, and angles.
  • a "character string” is a data sequence in which one or more finite numbers of characters are arranged in order. Usually, the data sequence is stored and used in a computer-readable storage device. “Character strings” include those that consist of alphanumeric characters and data that are converted into bit strings using the ASCI I code.
  • a “sequence” is a data sequence in which one or more finite numbers of rational numbers are arranged in order. Usually, the data sequence is stored in a storage device that can be read by a computer and used. Since data that can be represented by a binary bit string can be represented by 0 and 1, it can be interpreted as either a character string or a sequence.
  • each character is converted to a 1- or 4-byte length binary number in the character-code table. It is preferable to memorize.
  • ASCI I code or UNICODE is preferred as a character-to-code table, but one-to-one correspondence between characters and sequences Any material may be used as long as it is attached.
  • a group of characters in a character string collectively represents a numerical value such as a decimal number or a hexadecimal number, the value may be converted to a binary number and stored. It may be stored in the character code table by converting it to a binary number of 1 to 16 bytes long.
  • each rational number is converted into a 1- to 8-byte binary number and stored.
  • the value of each rational number may be converted to a binary number and stored, or the value may be represented as a group of 10 or hexadecimal numbers in a plurality of character groups and stored in the same format as a character string.
  • Data expressing a character string and a sequence in a binary number format may be referred to as a “bit sequence” or “binary data” in this specification.
  • “Chemical structural formula of a compound” is generally used by chemists to uniquely express a compound, and refers to a figure that describes the types of atoms, bonding relationships, types of bonds, and types of isomers. In the specification, a broader concept is used to mean data that uniquely identifies the structure of a compound.
  • “Unique ID symbol” (sometimes referred to as “unique ID symbol” in this specification) means that the ID symbol of the same compound is the same, and the ID symbols of compounds with different structural formulas do not substantially match Means nature.
  • “unique” may be used in place of “unique” in the sense of expressing the above properties. "Substantial disagreement” does not prove to be logically inconsistent, but in the sense that there is very little likelihood in practical use because the likelihood of a match is very small. is there.
  • a “compound” is an atomic group bound to each other by a covalent bond, and includes inorganic compounds in addition to organic compounds.
  • a conversion process for expressing a chemical structural formula of a compound by a unique character string is performed.
  • a chemical structure into a unique character string, if the same chemical structure always generates the same character string, and different chemical structures generate substantially different character strings.
  • the type is not particularly limited.
  • methanol (CH 3 OH) will be specifically described as an example, but the conversion treatment that can be used in the method of the present invention is not limited to the following.
  • This storage means may be a register, a memory, a magnetic storage medium, a punch tape, or the like, but a memory is most preferable as a storage device usable by a computer. Allocate to these atoms the values determined according to their "type of atom".
  • a numerical value to be assigned a numerical value arbitrarily defined according to the element number of each atom, the type of each atom, or a different numerical value can be assigned to the type of isotope.
  • the assigned numerical value may be assigned.
  • data representing the chemical structural formula or three-dimensional data of the chemical structure which is information equivalent to the chemical structural formula, is input from an input means such as a file system, and It is good to automatically assign numerical values (element numbers are assigned for simplicity in the following explanation. Element numbers are not necessarily assigned in the conversion process. The following procedure is performed by changing the assigned values several times. In the figure below, the assigned values are also shown and the numbers in front of the element symbols are in a convenient order to distinguish each atom.)
  • Step 1 Chemical formula (1)
  • the numerical value assigned to each atom in step 1 is stored in the storage means 1.
  • the data stored in the storage means 1 consists of a plurality of numerical values, where each numerical value is the number assigned to each atom. Value. If the number of atoms is M, it is possible to collectively treat these multiple values (numerical value 1, numerical value 2,, numerical value M) as one M-dimensional vector.
  • the data is called a “vector”, and the numerical value assigned to each atom in the vector may be called an “element”.
  • the vector stored in the storage means 1 in step 1 is called “first term”.
  • the first term obtained by arranging numerical values in the order of 1H, 2H, 3H, 4C, 50, and 6H is (1, 1, 1, 6, 6, 8, 1). Stored in 1.
  • information representing a covalent bond relationship between atoms is stored in the storage means c from the data representing the chemical structural formula input from the input means.
  • the data structure of the storage means c is not particularly limited.
  • a matrix or two-dimensional array (c [l, 2,, M] [l, 2,, M]) containing 0 is stored in electronic memory and used.
  • Step 2 a storage means 2 equivalent to the storage means 1 is prepared, and a value newly allocated to each atom is stored in the storage means 2 as a result of performing the following arithmetic processing based on the value of each atom in step 1.
  • the value of each atom in step 2 is calculated as follows.
  • the value obtained by multiplying the value of each atom in the storage means 1 by a constant (preferably 1) is stored in the storage means 2.
  • the number of partner atoms to which each atom can be covalently bonded by the storage means c (1 partner for H, 4 for C, 2 for 0) is multiplied by a constant (preferably 0) and stored.
  • the value obtained by multiplying the value of each atom in step 1 is added to the value of the atom in the storage means 2.
  • 3H (1 + 6 7)
  • calculate the value of each atom in step n as follows.
  • the multiplied (preferably 1) value is stored in the storage means n + 1.
  • k is an integer group of n-1 or less selected from integers satisfying 1 ⁇ k ⁇ n.
  • the value multiplied by the value of each atom is added to the value of the atom in the storage means n + 1.
  • the storage means k of the partner atom group to which each atom can be examined by the storage means c (where k is an integer group of n or less arbitrarily selected from integers satisfying 1 ⁇ k ⁇ n
  • the number of steps may be repeated any finite number of times (preferably about 10).
  • a vector sequence corresponding to each step is generated.
  • the recurrence formula is defined based on covalent bond relationship information between atoms stored in the storage means C.
  • the execution result up to step 2 will be described for simplicity, but the number of steps is not particularly limited in the practice of the present invention.
  • the vectors in steps 1 and 2 are as shown in the above chemical formula, the vector of storage means 1 is (1,1,1,1,6,8,1), and the vector of storage means 2 is ( 7, 7, 7, 17, 15, and 9).
  • the vector elements for each atom are as follows: Chemical formula (3)
  • these elements are rearranged according to the magnitude comparison rule to generate a sequence.
  • the sequence "1, 1, 1, 1, 7, 7, 9, 15, 17" is a sequence that is substantially unique to a chemical structural formula.
  • Is generated as As another size comparison rule it is also possible to arrange in the order in which the atoms are collectively compared for each atom.For example, it is possible to first compare the element strings for each atom by the value in the storage means 1 and then sort them in ascending order . If the values in the storage means 1 are equal, the values in the storage means 2 are compared to obtain the following order.
  • the number of steps to be performed for the purpose of the present invention is as follows. For tens of thousands of commercially available compounds, character strings are generated by changing the number of steps, and the character strings collide (the same character strings are generated from different structural formulas). By comparing the frequencies, the minimum number of required steps can be estimated. Using this method to process actual data and studying string collisions, the longer the number of steps is calculated and the longer the string is, the longer the string is between compounds with different structures. It was confirmed that the collision could be prevented.
  • ACD a database of about 250,000 commercially available compounds
  • the string thus generated is a variable length string that is substantially unique to the chemical formula. This is referred to below as a "structured string”.
  • Structural strings are generated from sequences like the ones above (such sequences are sometimes referred to as “structural sequences”), and have a one-to-one correspondence with the chemical structure, so the chemical structure matches. And similarity determination, and can also be used as an ID symbol.
  • each value in the sequence is represented as a character string by Arabic characters, etc., and those character strings are concatenated with an arbitrary delimiter or null character, and combined into a single character string as a whole. Is also good.
  • element numbers are assigned to each atom as initial values, but any number may be given instead of element numbers.
  • the algorithm may be executed up to the final step, and when arranging the numbers, the numbers obtained with the respective initial values may be arranged together.
  • atoms that have local features in the structure they can be dealt with by changing the initial value of the atom. For example, by changing the initial value of atoms related to differences in geometric isomerism, stereoisomerism, etc. for each isomer, it is possible to reflect differences in structural character strings.
  • Structural character strings derived directly from the structural formula of a compound have various lengths, but are unique to the structural formula of the compound and are generated from information only on the structural formula. If the character string is within the appropriate length range, the structural character string itself may be used as an ID symbol to determine the identity or similarity of chemical structural formulas. When a shorter character string is used as the ID symbol, it is desirable to perform processing using a conversion function. By using a conversion function, a character string that is a fixed-length ID symbol can be derived from the structural character strings having different lengths obtained as described above. Therefore, a method including this step is a preferred embodiment of the present invention.
  • an algorithm for converting a structural character string into a bit string and storing it in the storage means b, and converting it to a short fixed-length bit string of about 20 bytes is applied to the storage means b.
  • the converted bit string can be stored in the storage means d.
  • This can be converted to a character string and output from the output means as an ID symbol that is a character string.
  • the storage means b and d any device capable of storing a binary number can be used, but preferably a computer register or a memory can be used.
  • a structural character string is applied will be described.
  • the present invention can be similarly applied to a structural number sequence.
  • the character string as the ID symbol generated by the conversion function processing is unique to the structural character string, and must substantially satisfy the following conditions as a one-to-one mapping function.
  • the same ID string is generated from the same structural character string.
  • Different ID strings are generated from different structure strings.
  • the ID symbol must be a fixed-length or variable-length (preferably fixed-length) short character string.
  • the generation method is easy.
  • a hash function more preferably a collision-resistant hash function, and a general-purpose one-way C and Nsch function
  • the transformation function used in the method of the present invention does not need to be mathematically rigorously proved to be difficult to collide, preferably to be difficult to collide and one-way, and in fact satisfies the above characteristics. Any function may be used as long as it provides a conversion result.
  • ⁇ Universal one-way hash function 3 ⁇ 4 A function introduced by Naor and Yung, where h (x) h given a function h and a certain value X of its domain A function for which it is difficult to find y such that (y).
  • the collision-resistant hash function is stronger than the general-purpose one-way function.
  • a hash function particularly a hard-to-collision hash function or a general-purpose one-way hash function, must be interpreted in the broadest sense, and should not be interpreted restrictively in any sense.
  • any function classified as a collision-resistant hash function or a general-purpose one-way hash function can be used.
  • SHA or SHA-1 the functions to be used and their combination are appropriately determined by those skilled in the art so as to sufficiently reduce the possibility of collision of generated ID symbols. Can be selected. In this specification, these functions are sometimes referred to as message digest functions.
  • an algorithm of SHA will be introduced as a conversion function that can be particularly preferably used in the method of the present invention, but the conversion function that can be used in the method of the present invention is not limited to SHA.
  • the character string that is the hash value generated by the hash function processing is represented by a combination of lowercase letters and numbers, but the characters are not limited to lowercase letters.
  • the characters used in the method of the present invention may be either uppercase or lowercase, and may be used without distinguishing between uppercase and lowercase, or may be used with distinguishing between them.
  • the present method may be implemented by using a high-speed hashing method, which has higher collision resistance, instead of SHA.
  • SHA1 which is an improved version of SHA may be used.
  • a hash value of 160 bits is generated for “m”.
  • Padding is performed in the following procedure so that the input bit string “m” is a multiple of 512 bits (16 x 32 bits).
  • Step 1) Add a bit array 100 ... 0 to the end of "m" so that the bit array length of m is '512N-64'.
  • Step 2) Express the bit array length of the input array in 64 bits and add it after the bit array.
  • the obtained bit array is divided into ⁇ pieces each of 512 bits, and each of them is Ml 5 5 2 ⁇ ⁇ .
  • Mi Using the following constants and functions for the above bit array, calculate the hash value by the procedure described below.
  • the following constant values are expressed in hexadecimal.
  • X ⁇ n means that X is cyclically shifted left by n bits.
  • Circular shift Moves the numerical array of bits in a certain direction, and the number at the end is cyclic.
  • Reference 5) '+' indicates the remainder of the sum of left and right by '2 32 '.
  • a method for converting a structure character string into a bit string will be described below.
  • Each character is converted to 8 bits in the order of the character string by ASCII code to create a bit string.
  • ASCII code may be used when converting a character code into a bit string.
  • the bit string is a sequence of 1-bit information. One bit corresponds to one digit of a binary number and is represented by 0 or 1.
  • ASCII code is used, the SHA condition of less than 2 64 bits means that the number of characters is less than about 210 18 , and it is possible to express a structured character string with a considerably high number of steps.
  • 160 bits are decomposed into 5 bits, and each 5 bits is divided into 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, a, b, c, d, e, f, g, It is represented by a hexadecimal number using 32 characters of h, i, j, k, 1, m, n, o, p, q, r, s, t, u, and v.
  • next 160-bit string is divided into 5 bits and converted to the corresponding hex characters
  • the ID symbol generated by the method of the present invention includes information indicating the type of the corresponding data (for example, information indicating that the ID symbol indicates a compound) and the type of the ID symbol generation method. Information indicating the type (for example, information indicating the type of hash function used), etc.
  • a character string one or more fixed-length character strings, preferably a character string composed of alphanumeric characters, may be added as a new ID symbol.
  • the character string to be added may be placed at any part, such as the beginning or end of the character string obtained by applying the hash function.
  • a character string of 1 is added to the beginning of a character string obtained as a hash value.
  • the ID symbol of the present invention can be used for management and collation of compound data (including chemical structural formula data). Since the ID symbol is unique to each compound and the possibility of collision is extremely low, multiple compounds are treated by the method of the present invention to generate an ID symbol, and the ID symbols are compared by comparing the ID symbols. Can be determined easily and at high speed. For example, the same chemical structural formula as a specific compound can be searched at high speed from a compound database using the ID symbol. Also, compound databases can be managed using the ID symbols described above. For example, the above-mentioned ID symbol can be generated for a compound in the database, and a compound that is duplicated in the compound database can be detected. And it becomes possible to detect at high speed. Also, when registering new compound information in the database, it is possible to easily search whether or not the compound is already registered. Furthermore, it is possible to protect the confidentiality of compound data by disclosing only the ID symbol for compound comparison and not disclosing the compound data itself.
  • the method of the present invention is convenient for the purpose of searching and collating basically the same chemical structural formula, but can also be used for classification and the like by detecting similar chemical structural formulas such as derivatives. Further, the following method can be used for the purpose of detecting a compound having a similar structural formula.
  • a compound having a similar structural formula For a certain chemical structural formula, in addition to the ID symbol of the structural formula itself, it is better to create an ID symbol for the structure excluding the substituent (not limited to one) and store it together. For example, if the ID symbol generated by substituting H for C1 in a chloride compound and the ID symbol generated by substituting H for Br in a bromide compound match, it can be determined mechanically that the compound is related. The same operation can be performed for a group of compounds having a more complicated structural formula.
  • ID symbol There is no limit on the number of, and it is only necessary to save them in order from the original one. Similarly, if multiple ID symbols are generated and stored for all the compounds in the database, whether or not there is a compound of a certain derivative series between data bases of different sources, and a specific compound Can be searched at high speed for the presence of the derivative in the compound database. It should be understood that all such embodiments are also within the scope of the present invention.
  • step 1
  • Figure 1 shows an example of building a database system that can search for records by using a unique ID for a compound structural formula as a query.
  • records are assigned IDs and managed internally. Record ID (In Fig. 1, RecordIDl, RecordID2, etc. are used locally in this database system, so they are called local IDs here.
  • IDs unique to the structural formulas of compounds.
  • the correspondence table between the record searcher and ID and the local database may be physically separated from each other, Communication during this time may be performed via the Internet / Intranet, and the administrator and the mouth of the correspondence table between IDs may be used.
  • the administrator of the local database may be different.
  • the correspondence table between IDs may be any method as long as the unique ID can be searched for the local ID associated with the unique ID.
  • the correspondence may be many-to-many.
  • the processing procedure at the time of retrieval is as follows.
  • a searcher outside the database system sends a search query that contains one or more unique IDs to the compound's structural formula to the record search device of the database system (Fig. 1 (2)).
  • the record retrieval device retrieves the local ID associated with the unique ID from the ID correspondence table (Fig. 1 (1)).
  • the record retrieval device retrieves a record with the local ID from the oral database (Fig. 1 (3)).
  • the record search device sends the record back to the searcher.
  • the searches for 2 and 3 can be performed collectively. It is possible.
  • the searcher can search the database only from the IDs unique to the structural formula of the compound, and at the time of searching, search for the record of the local ID that is associated with the "correspondence table between IDs" be able to.
  • the system administrator changes, adds, or deletes records in the local database, the correspondence between the unique ID and the role ID is changed to an appropriate one, so that the structure of the compound required by the searcher is changed.
  • a setting is made so that correction information about the record is sent back to the searcher instead of the record. it can.
  • searchers can search multiple databases simultaneously by sending the same unique ID as a query to multiple database systems shown in Fig. 1 via the Internet intranet. .
  • the index search program automatically recognizes the unique ID in the file as a key and automatically creates a correspondence between the ID and the path of the file (corresponding to a correspondence table between IDs). Willing to. Therefore, by sending the unique ID as a query to the index search program, a file containing the unique ID can be searched.
  • a unique ID symbol is generated in a chemical structural formula of a compound having a fixed length or a variable length and having a very low probability of collision for a compound having any structure. be able to.
  • This ID symbol can be generated very quickly and easily from the chemical formula of the compound.
  • the ID symbol is unique to the chemical formula of each organic compound and there is virtually no possibility of collision, the ID symbol By comparing only one, the identity or similarity of the chemical structures can be easily determined. It can be used for database management so that entries do not overlap, compound databases made at different sites can be used centrally, and whether a compound or its derivative exists in the compound database, etc. Can be checked at high speed.
  • the ID symbol of the present invention is generated by software from the chemical structure itself, if the software is distributed, the same ID symbol will be given to the same structure anywhere in the world, instead of the chemical structural formula. It can be used for overnight search and collation. This eliminates the need to search the database using the chemical structural formula itself as a query, thereby preventing confidential information from leaking outside during communication or search.
  • the database administrator adds all the compounds in the database, it can be used to avoid duplication and to link between databases created from different sources.
  • the same software can easily assign ID symbols to chemical structural formulas of compounds to be synthesized or to be synthesized by researchers, making it possible to search databases and check structures.

Landscapes

  • Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Adhesives Or Adhesive Processes (AREA)
  • Dental Preparations (AREA)

Description

明 細 書 化合物の構造式にユニークな ID記号 技術分野
本発明は、 化合物の化学構造式に実質的にユニークである固定長または可変長 の文字列をその化合物又はその化合物に関連する情報に付する ID記号として生 成する方法に関する。 背景技術
近年、 医薬開発に有用な活性化合物を探す目的で、 多数の化合物のスクリ一二 ングが行われている。 市販されている化合物は現在 1 0 0万種類に及んでいる。 製薬企業ではこれらの膨大な数の化合物をライブラリとして管理することが行わ れている。 そこで、 膨大な化合物の情報をデータベース化するとともに、 デ一夕 ベースの中から、 ある化学構造と同一又は類似構造の化合物を効率的に検索する 有効な方法が必要となってきた。
化合物はそれを構成する原子の種類と原子間の結合状態を示す化学構造式によ つて一義的に特定される。 一方、 印刷や出版の都合上、 言葉や文字で化学構造を 特定する方法も必要であり、 その目的のために化合物命名法が昔から研究されて きた。 命名法としては、 I U P A Cの方式とケミカルァブストラク卜の方式が有 名である。 しかし、 そのどちらでもない命名法も依然として用いられている。 例 えば、 新たな化合物の発見者が任意に命名した慣用名も天然化合物等にはよく用 いられている。 命名規則を厳密に適用するには高度 熟練が必要であるが、 命名 法を利用する通常の有機化学者は命名規則に練達していない。 よって適用する者 によって異なる名前がつけられているケースが多い。 また IUPAC命名規則をコン ピュー夕に行わせた場合でも、 巨大で複雑な化学構造式では命名できないケース や、 命名結果が一意にきまらないというケースもあり問題となっている。 結局、 1つの化合物に幾通りもの名前や呼び方が存在する可能性があること、 また正確 に記述することを目的とする正式命名法では化合物名として固定長の名前が付け られないこと、 という理由から上記の命名法はコンビュ一夕による管理に適して いない。
そこで、 近年では命名法によらず、 化学構造式を直接クエリーに用いて検索で きる化合物データベースが主流となってきた。 コンピュータソフトウヱァを利用 し、 コンピュータ画面上で化学構造式を描画すると、 原子の種類と原子間の結合 関係を入力することができる。 該化学構造式をクエリ一として検索を行うことが できる。 そのデ一夕ベースの仕様及び検索法としては、 米国M E) L社のI S I S が有名である。 この方法は、 原子の種類と原子間のつながりを指定することで、 それを部分構造に含む化学構造式が検索できるので便利である。 しかしながら、 この方法は比較用の化学構造式データがデ一夕ベース内に存在しないと比較でき ないということと、 化学構造式を比較する専用のソフトウエアが必要とされる。 化学構造式は文字列デ一夕でないため、 インデックス検索用ソフトウヱァを利用 して化学構造式から検索することはできない。
学術論文で発表された化合物や特許出願された化合物のデ一夕ベースである Chemical Abstract は命名法に基づく化合物デ一夕ベースとして有名である。 ま た、 市販化合物のデ一夕べ一スである A C Dは化学構造式に基づく化合物デ一夕 ベースとして有名である。 後者のデ一夕ベースでは、 化合物のデ一夕レコードそ れそれに対し 6〜1 0字の英数字からなる識別子 (ID記号) が付されている。 し かしながら、 それらの ID記号は構造と無関係に付されているため、同一構造に異 なる ID記号が付されるケースが多い。このため、構造式や命名法による化合物名 のように化学構造式が同一かどうかを該 ID記号から確認することはできない。 ある化合物が既存のいずれかのデータベース中にあるかどうを検索したり、 出 所の異なるデータベース間で同じ化合物が含まれているかどうかを検出するよう な膨大な試行が要求される作業には、 化合物の構造式の代わりに照合の対象とで きる ID記号があると便利である。そのためには、すべての化合物の構造式に一義 的に定まる固有な ID記号を付する方法を開発する必要がある。 発明の開示
本発明の課題は、 化合物の化学構造式に対して実質的にユニークな固定長又は 可変長の文字列からなる ID記号を付する方法を提供することにより、いつでもど こでも同一の化学構造式に同一の ID記号を付する手段を提供することにある。ま た、 別の課題としては化学構造式をクエリ一として直接用いることができるイン デックスサーチ方法を提供することにある。 本発明者らは上記の課題を解決すベ く鋭意努力した結果、 化合物の構造式を一意な文字列又は文字列群に変換して表 す処理を実行することにより、化学構造式に対して実質的にユニークな ID記号を 生成できることを見出した。 また、 この文字列又は文字列群を変換関数によりさ らに短い固定長又は可変長の文字列に変換するという 2つの処理を組み合わせる ことにより、 化学構造式に対して実質的にユニークな IP記号を 30数文字程度の 適切な長さの文字列で付与することに成功した。また、上記の性質の ID記号をィ ンデックスサーチのクエリーとして用いることで、 化学構造式を直接クエリーと してインデックスサーチした場合と同等の検索をすることができることを見いだ した。 本発明は上記の知見を基にして完成された。
すなわち、 本発明は、 化合物の化学構造式を構成する各原子の種類及び原子間 の結合関係にもとづいて、 化学構造式に対して実質的にユニークである固定長又 は可変長の文字列を生成し、 この文字列を該化合物の ID 記号とする方法を提供 するものである。 この発明の好ましい態様によれば、 化学構造式を構成する各原 子の元素番号、 及び/又は各原子の種類、 ァイソトープの種類、 若しくはその原 子によって生ずる異性体の種類に応じて各原子に数値を割り振り、 これを数列の 初項とし、 そして該原子群の共有結合関係によって定める演算規則を漸化的に有 限回繰り返すことで数列を得、 この数列を各項の大小比較により並べなおして得 られる該化学構造式に対して実質的にユニークである数列を生成し、 この数列を もとに文字列を生成することができる。 上記の方法における工程に続き、 上記工程によ'り得られた文字列を変換関数を 用いてさらに短い固定長又は可変長の文字列に変換する工程を含む方法も本発明 により提供される。 変換関数として衝突困難ハッシュ関数及び/又は汎用一方向 性ハッシュ関数を用いることができ、 好ましくは該変換関数として SHA、 SHA 1、 MD-4. D-5 及び RIPEMDなどのメッセージダイジエスト関数から選ばれる少なく とも一つの関数を利用して、 固定長の文字列、 好ましくはアルファベッ ト及び/ 又はアラビア文字からなる固定長の文字列を生成させることができる。 上記方法 により得られた文字列又は文字列群には、 直接利用されなかった情報に関する 1 又は 2以上の文字列 (例えば該 ID記号生成法の種類及び/又は該 ID記号対象物 のカテゴリの情報に関する 1又は 2以上の文字列) をさらに付加してもよい。 本発明の方法は、 好ましくは、 下記の要素:
(a)化学構造式を構成する各原子の種類に応じて各原子に数値を割り振る手段;
(b)それらの値を要素とするべクトルを記憶する手段 n;
( c)該原子間の共有結合関係を入力する手段、及び/又はその関係を行列の要素と して記憶する記憶手段 c ;
(d) nと cとを利用する演算式によって生成する数列を記憶する手段、その生成装 置、 及び/又はその生成のための演算手順を記憶する媒体;及び
(e)上記数列を大小比較規則による並べ替えにより、該化学構造式に固有な数列を 得、 該数列を文字列に変換した結果を記憶する媒体、 該変換を行う装置、 及び/ 又はその変換方法を記憶する媒体
からなる装置を用いて行うことができる。
別の好ましい態様では、各原子の種類として、化学構造式の各原子の元素番号、 ァイソトープの種類、 及びその原子によって生ずる異性体の種類に応じて各原子 に数値を割り振り、 これらの数値を要素として並べたべクトルを記憶する記憶手 段 nと、 該原子間の共有結合関係を記憶する記憶手段 cと、 記憶手段 n及び/又 は記憶手段 n- 1の各原子が対応するべク トル要素に該べク トル要素の定数倍及び /又は結合価数倍とその原子が記憶手段 cにより共有結合していると判定される 原子が対応するべクトル要素を定数倍及び/又は結合価数倍して加えた値を記憶 する記憶手段 n+1 と、 これらの演算を漸化的に繰り返すことで得られるすべての べクトル列の要素を要素ごと又は原子ごとの単位で並べなおした数列を記憶する 媒体と、 その数列を該化合物の構造式にユニークな文字列として出力する装置と を用いて上記方法を行うことができる。
別の観点からは、 上記の方法により得られる化合物の化学構造式にユニークな ID記号、 及び該 ID記号を格納した記憶媒体が提供される。 この ID記号は化合物 の化学構造の同一性又は類似性の判定に用いることができる。 例えば 1つの化合 物デ—夕ベース内、 又は 2つ以上の化合物デ一夕ベース間において同一又は類似 の化学構造式に関する情報を抽出するために用いることができ、 化合物デ一夕べ ースの管理に用いることもできる。 例えば、 化合物データベース又は化合物の情 報を含むデータベース中の各ファイルについて上記 ID記号を付加しておき、化学 構造式の情報を用いずに ID 記号の比較のみから化合物の情報を検索又は照合す ることができる。
さらに、 本発明により、 上記 ID記号を含むファイル、 レコード、 データォブジ ェクト、 ファイル名、 ファイルパス名、 レコード名、 又は検索キー;上記 ID記号 を含む検索クェリーと、該クエリ一を生成する装置;上記 ID記号が含まれている ファイル、 レコード、 データオブジェクト、 ファイル名、 ファイルパス名、 又は レコ一ド名を検索するための装置;上記の装置を動作させる手順を記録した媒 体;化合物間の化学構造式の同一性判定に用いる上記 ID記号;化合物の化学構造 式の一部又は全部を使用せずに行う化合物間の同一性または類似性の判定に用い る上記 ID記号;上記 ID記号を使用することにより、 該化合物の化学構造式を直 接比較しなくて済むため、 該化学構造式の機密性を保持する方法; 2以上のデ一 夕ベースにおいて同一化合物に付する ID 記号を一致させるために行う上記の方 法; 2以上のデータベースを同一のクエリーで検索するために使用する上記 ID 記号が提供される。 ファイルもレコードも本発明の本質において同質であり、 コ ンピュー夕における情報の記録形式の一態様である。 さらに別の観点からは、 上記の方法を実装したコンピュータ用プログラムを記 憶する記憶媒体が本発明により提供され、 上記の方法を実行するための上記装置 と、 該装置を動作させるためのプラグラムを記録した媒体が本発明により提供さ れる。 記憶媒体、 記憶装置、 記録媒体及び記録装置としてはコンビュ一夕により 読みとり可能ないかなる媒体又は装置を用いてもよく、 好ましくはメモリ、 フラ ッシュメモリ、 フロッピ一ディスク、 ハードディスク、 CD-R0M、 DVD, M0 などを 用いることができる。 図面の簡単な説明
第 1図は、 ローカル IDで管理されたレコードを、 化合物の構造式に固有の ID をクエリ一に用いて検索できるデータベースシステムの例を示した図である。 発明を実施するための最良の形態
本明細書において用いられる用語の意味は以下のとおりである。
「文字」 とはアルファベッ ト、 アラビア数字、 ひらがな、 力夕カナ、 漢字、 ノヽ ングルなど、 世界中で使用されているすべて又は一部の文字記号をコードするデ 一夕。 「文字列」とは 1個以上の有限個数の文字を順番に並べたデ一夕であり、通 常は該デ一夕をコンピュータで読み出すことができる記憶装置に格納して使用す る。 「文字列」としては英数字やそれを ASCI Iコードでビッ ト列に変換したデ一夕 からなるものも包含する。「数列」は 1個以上の有限個数の有理数を順番に並べた デ一夕であり、 通常は該デ一夕をコンピュータで読み出すことができる記憶装置 に格納して使用する。 なお、 二進数のビッ ト列で表現可能なデータは 0と 1で表 現できるため、 文字列又は数列のいずれと解釈しても差し支えない。
記憶装置としてコンビュ一夕のメモリを含む二進数を記憶できる装置を使用す るのが好ましく、 文字列においては、 各一文字をキャラクタ一コード表で 1ない し 4バイ ト長の二進数に変換して記憶するのが好ましい。 キャラクタ一コード表 としては ASCI Iコードまたは UNICODEが好ましいが、 文字と数列を 1対 1で対応 付けているものであればいかなるものを用いてもよい。 また文字列中の複数文字 群がひとまとまりで 1 0進数や 1 6進数などの数値を表している場合は、 その値 を二進数に変換して記憶してもよく、 あるいはそれらを 1文字ずつキャラクター コード表で 1ないし 1 6バイ ト長の二進数に変換して記憶してもよい。
数列では、 各有理数を 1ないし 8バイ ト長の二進数に変換して記憶することが 好ましい。 この際、 各有理数の値を二進数に変換して記憶してもよく、 あるいは その値を 1 0進数や 1 6進数として複数文字群で表し、 文字列と同様の形式で記 憶してもよい。 文字列および数列を二進数形式で表現したデータを本明細書では 「ビッ ト列」 あるいは 「バイナリデ一夕」 と呼ぶことがある。
「化合物の化学構造式」 とは、 一般に化学者が化合物をユニークに表現する目 的で、 原子の種類、 結合関係、 結合の種類、 異性体の種類など記述した図形を意 味するが、 本明細書ではより広い概念として化合物の構造をユニークに特定しう るデータという意味で使用する。 「ユニークな ID記号」 (本明細書において 「固 有の ID記号」 と呼ぶ場合もある) とは、 同じ化合物の ID記号は-致し、 構造式 が異なる化合物の ID 記号は実質的に一致しない性質を意味している。 本明細書 では 「ユニーク」 に替えて 「固有」 を上記の性質をあらわす意味で使用する場合 がある。 「実質的に一致しない」とは論理的に一致しないことが証明されている訳 ではないが、 一致する可能性が非常に小さいため、 現実的な使用においてほとん ど一致することがないという意味である。
「化合物」 は共有結合で互いに結合した原子団であり、 有機化合物の他、 無機 化合物も含む。
本発明の方法では、 化合物の化学構造式を一意な文字列で表現するための変換 処理を行う。 化学構造式を一意な文字列に変換する方法は、 同じ化学構造式から は必ず同じ文字列が生成し、 かつ異なる化学構造式からは実質的に異なる文字列 が生成するものであれば、 その種類は特に限定されない。 以下、 メタノール (C H 3 O H ) を例にして具体的に説明するが、 本発明の方法に利用可能な変換処理 は下記のものに限定されることはない。 「文字列の生成」
まず、 各原子に割り振る数値を記憶する手段を準備する。 この記憶手段はレジ ス夕、メモリ、磁気記憶媒体、又はパンチテープなどのいずれでもかまわないが、 コンピュータが利用可能な記憶装置としてメモリが最も好ましい。 これら原子に その 「原子の種類」 に応じて定められた数値を割り振る。 割り振る数値としては 各原子の元素番号、 各原子の種類に応じて任意に定義した数値、 又はアイソトー プの種類まで区別して異なる数値を割り振ることができる。 その原子が光学異性 体の元となる不斉中心である場合や幾何異性体のもととなるシス結合やトランス 結合に関わる場合は、 その原子によって生ずる異性体の種類も区別可能なように 定義された数値を割り振ってもよい。 好ましくはコンピュータを用いて、 化学構 造式を表現したデータ又は化学構造式と同等の情報である該化学構造の 3次元デ —夕をファイルシステムなどの入力手段から入力し、 各原子に上記の数値を自動 的に割り振るとよい (以下の説明では簡略化のために元素番号を割り振つたが.. 変換処理では必ずしも元素番号を割り振る必要はなく、 割り振る値を数通り変え て以下の手順を実行してもよい。 下図では割り振った値はかつこの中に記してあ る。 また、 元素記号の前の数字は各原子を区別できるように便宜的につけた順番 である)。 数値を初期値として割り振った状態をステップ 1と呼ぶ。 化学式 ( 1 )
1 H ( 1 )
2H ( 1 ) - 4 C ( 6 ) 50 ( 8 ) - 6 H ( 1 )
3 H ( 1 ) ステップ 1で各原子に割り振られた数値を記憶手段 1に記憶させる。 記憶手段 1に記憶されたデータは複数の数値からなり、 各数値は各原子に割り振られた数 値である。 原子の数が M個である場合、 これら複数の数値 (数値 1 , 数値 2,,, 数値 M) をまとめて 1つの M次元ベクトルと見立てることが可能である。 本明細 書では該デ一夕を 「ベクトル」 とよび、 ベクトル中で各原子に割り振られた数値 を 「要素」 と呼ぶことがある。 特にステップ 1で記憶手段 1に記憶されたべクト ルを 「初項」 と呼ぶ。 化学式 ( 1) の例では、 1H、 2H、 3H、 4C、 50、 6Hの順 で数値をならベた初項は、 ( 1 , 1, 1 , 6 , 8, 1) であり、 これが記憶手段 1 に記憶される。
また、 入力手段より入力した化学構造式を表すデータから原子間の共有結合関 係を表す情報を、 記憶手段 cに記憶させる。 記憶手段 cのデ一夕に基づくことで 任意の原子についてそれが共有結合している相手原子を判定できるならば、 記憶 手段 cのデ一夕構造は特に限定されない。 好ましくは、 任意の 2つの原子ペアが 共有結合していれば真、 共有結合していなければ偽を返すものとして、 原子群を 行と列にならべ、 2つの原子組に対応する要素に真なら 1、 偽なら 0を格納した 行列又は 2次元配列 ( c[l,2,,M][l,2,,,M] ) を電子メモリに格納して使用する とよい。化学式( 1 )の例では、 5番目の 50と 6番目の 6Hが結合しているので、 c[5][6]=c[6][5]二 1 であり、 4番目の 4Cと 6番目の 6Hは結合していないため、 c[4][6]二 c[6][4]=0となる。
次に記憶手段 1と同等の記憶手段 2を用意し、 ステップ 1の各原子の値をもと に以下に説明する演算処理を行った結果として各原子に新たに割り振られる値を 記憶手段 2に格納する (これを 「ステップ 2」 と呼ぶ)。 さらに同様の処理を漸化 的に繰り返しステップごとに原子に割り振られる値を記憶手段 n ( n=l, 2,,,,,) に記憶させる (このステップを 「ステップ nj と呼ぶ)。
まず、 ステップ 2での各原子の値を次のように算出する。 記憶手段 1の各原子 の値を定数倍 (好ましくは 1倍) した値を記憶手段 2に記憶させる。 引き続き、 記憶手段 cにより調べることができる各原子が共有結合する相手原子の個数 ( H の相手は 1個, Cなら 4個、 0は 2個) を定数倍 (好ましくは 0倍) して記憶手 段 1の各原子の値に掛け合わした値を該原子の記憶手段 2における値に加える。 引き続き、 記憶手段 cにより調べることができる各原子が結合する相手原子群の 記憶手段 1における値を定数倍 (好ましくは 1倍) して該原子の記憶手段 2にお ける値に加える。 好ましい定数倍率で実行したステップ 2における記憶手段 2の 各原子の値を下記に記す。 化学式 ( 2 )
1 H ( 1+6=7)
I
2 H ( 1+6=7) - 4 C (6+1+1+1+8=17) - 50 (8+6+1=15) - 6 H ( 1+8=9)
I
3H (1+6=7) 同様に、 ステップ nでの各原子の値を次のように算出する。 記憶手段 k (ただ し、 kは 1 ≤ k ≤ nを満たす整数から任意に選んだ n個以下の整数群であり、 好ましくは k = nの 1整数のみを用いる) の各原子の値を定数倍 (好ましくは 1 倍) した値を記憶手段 n+1に記憶させる。 引き続き、 記憶手段 cにより調べるこ とができる各原子が共有結合する相手原子の個数を定数倍 (好ましくは n = 1の 場合は 0倍であり、 n > 1の場合に - 1倍) して記憶手段 ただし、 kは 1≤ k≤ nを満たす整数から選んだ n-1個以下の整数群であり、 好ましくは n > 1の場合 のみに k = n- 1の 1整数のみを用いる)の各原子の値に掛け合わした値を該原子の 記憶手段 n+1における値に加える。 引き続き、 記憶手段 cにより調べることがで きる各原子が結合する相手原子群の記憶手段 k (ただし、 kは 1 ≤ k≤ nを満た す整数から任意に選んだ n個以下の整数群であり、 好ましくは k = nの 1整数だ け)における値を定数倍(好ましくは 1倍) して該原子の記憶手段 n+1における値 に加える。
ステップ数は任意の有限回数繰り返してよい (好ましくは 10程度)。 これによ り各ステップに対応したべクトル列が生成される。 コンピュータで処理する場合 は、 上記の演算規則を漸化式としてプログラムすることから、 ここではこれを漸 化式とよぶ。 該漸化式は記憶手段 Cに記憶された原子間の共有結合関係情報に基 づいて定義されている。 ここでの説明ではわかりやすくするためにステップ 2ま での実行結果について説明するが、 本発明の実施においてはステップ数は特に制 限されない。 ステップ 1と 2におけるべクトルは上記の化学式に示した通りであ り、 記憶手段 1のべク トルは ( 1 , 1 , 1, 6, 8, 1) であり、 記憶手段 2の ベクトルは (7, 7, 7 , 17, 1 5, 9) である。 ちなみに、 原子ごとにべク トルの要素を並べると下記のようになる 化学式 ( 3 )
1H (1, 7)
I
2H (1, 7) - 4C (6, 17) - 50 (8, 15) - 6H (1, 9)
I
3H (1, 7) 次に大小比較規則によりこれらの要素を並べ替えて数列を生成する。 例えば、 各要素の値を小さい順にならベた例では 「1, 1, 1, 1, 7, 7, 7, 9, 15, 17」 と いう数列が 「化学構造式に実質的にユニークな数列」 として生成される。 また、 別の大小比較規則として、 原子ごとにまとめて比較した順に並べることも可能で あり、 例えば原子ごとの要素列をまず記憶手段 1における値で比較し、 小さい順 にならベることができる。 もし、 記憶手段 1における値が等しい場合は、 記憶手 段 2における値を比較することで次のような順になる。 (1, 7), (1, 7), (1, 7), (1, 9), (6, 17), (8, 15)— 1, 7, 1, 7, 1, 7, 1, 9, 6, 17, 8, 15。 そしてこ の数列をキャラクタコードあるいは数値として 2進数化し、 数列の順番に並べる ことでビット列からなる文字列を生成することができる。
この方法では、 ステップ数が増すほど文字列全体は長くなり、 かつ構造の特徴 が強調される。 本発明の目的に何ステップまで行えばよいかは、 数万の市販化合 物に対してステップ数を変えて文字列を生成し、 文字列が衝突する (異なる構造 式から同じ文字列が生成する) 頻度を比較することにより、 最小限必要なステツ プ数を推定することができる。 この方法を用いて実際のデータを処理し、 文字列 の衝突について検討を行ったところ、 ステップ数を多く計算して文字列を長くす ればする程、構造が異なる化合物間での文字列の衝突は防げることが確認された。
ACD (約 25万の市販化合物のデータベース) を用いて、 全化合物に対して本方法 で数列を生成して文字列の衝突を調べたところ、 ステップ 6まで計算を行うと衝 突はほとんど起こらなかった。 安全を期してステップ数を 1 0程度までとれば、 現実的な化合物に関しては十分である。
このように生成された文字列は化学構造式に対して実質的にユニークである可 変長の文字列である。 これを以下では 「構造文字列」 と呼ぶ。 構造文字列は上記 のような数列から生成され (このような数列を 「構造数列」 と呼ぶ場合がある)、 化学構造と実質的に 1対 1に対応しているので、 化学構造の-一致や類似の判定に 利用することができ、 ID記号として用いることもできる。 また数列中の各値をァ ラビア文字などで文字列として表し、 それら文字列を任意の区切り文字またはヌ ル文字をはさんで連結し、 全体として一つの文字列にまとめたものを利用しても よい。
以上の説明では各原子に元素番号を初期数値として割り振つたが、 元素番号で なくとも任意の数値を与えて行ってもよく、 何通りかに初期数値の割り振り方を 変えた条件で上記のアルゴリズムを最終ステップまで実行し、 数字列に並べる際 にそれぞれの初期数値で得られた数字列をまとめて並べてもよい。 構造中で局所 的な特徴をもつ原子については、その原子の初期数値を変えることで対処できる。 例えば、 幾何異性、 立体異性などの違いに関わる原子の初期値を異性体それそれ で変えることで構造文字列の違いに反映させることができる。
化合物の構造式から直接に導かれる構造文字列はさまざまな長さになるが、 化 合物の構造式に固有で、 かつ構造式のみの情報から生成されるので、 得られた文 字列が適切な長さの範囲内であれば、構造文字列自身を ID記号として化学構造式 の同一性又は類似性の判定に用いても差し支えない。さらに短い文字列を ID記号 として用いる場合には、 変換関数による処理を行うことが望ましい。 変換関数を 用いることにより、上記で得られる長さの異なる構造文字列から固定長の ID記号 である文字列を導くこともできるので、 この工程を含む方法は本発明の好ましい 態様である。
例えば、 以下に説明するように構造文字列をビット列に変換して記憶手段 bに 保持し、 2 0バイ ト程度の短い固定長のビッ ト列に変換するアルゴリズムを記憶 手段 bに適用して、 変換されたビッ ト列を記憶手段 dに記憶することができる。 これを文字列に変換して出力手段から文字列である ID 記号として出力すること ができる。 ここで、 記憶手段 bおよび dとしては二進数を記憶できる任意の装置 を用いることができるが、 好ましくは電算機のレジス夕またはメモリを使用する ことができる。 以下の説明ではわかりやすくするために構造文字列について適応 した例で説明するが、 構造数列にも同様に適応できる。
変換関数での処理により生成される ID記号としての文字列は、構造文字列に固 有であり、 次のような 1対 1写像関数としての条件を実質的に満たしている必要 がある。
同一の構造文字列からは同一の ID記号が生成されること。
異なる構造文字列からは異なる ID記号が生成されること。
ID記号は固定長又は可変長 (好ましくは固定長) の短い文字列であること。
生成方法が容易であること。
本発明の方法において好適に用いられる変換関数として、 ハッシュ関数、 より 好ましくは衝突困難ハッシュ関数及び汎用一方向性ハ、ンシュ関数を挙げることが できる。 もっとも、 本発明の方法に用いる変換関数としては、 衝突困難性、 好ま しくは衝突困難性及び一方向性が数学的に厳密に証明されている必要はなく、 実 際上、 上記の特徴を満足する変換結果を与える関数であればいかなるものを用い てもよい。 讽用一方向性ノヽッシュ関数 (universal one-way hash function )¾ Naorと Yung により導入された関数であり、関数 hとその定義域のある値 Xが与えられた場合 に h(x)=h(y)となるような yを求めることが難しいような関数のことである。 一 方、 衝突困難ハッシュ関数(col l ision intractable hash function)は Damgard により導入された関数であり、関数 hが与えられた場合に、 h(x)=h(y)となるよう な一対の値(x, y) を求めることが難しいような関数のことである。
関数に対する要求条件としては、 衝突困難ハッシュ関数の方が汎用一方向性関 数よりも強い(ハッシュ関数について、総説として、 岡本龍明、 山本博資 著:『シ リーズ / 情報科学の数学 現代暗号』 産業図書;岡本栄司 著:『暗号理論入門』 共立出版株式会社などを参照のこと)。本明細書において、 ハッシュ関数、 特に衝 突困難ハッシュ関数又は汎用一方向性ハッシュ関数は最も広義に解釈する必要が あり、いかなる意味においても限定的に解釈してはならない。本発明の方法には、 衝突困難ハッシュ関数又は汎用一方向性ハッシュ関数に分類される関数はいずれ も使用可能である。
また、 衝突困難性をもつことを目標としつつ、 実用的な効率性を重視して開発 された多くのハッシュ関数が提案されており、 Rivestによる MD- 4, MD-5やそれ らに基づく RIPEMD, SHA( secure hash algorithm)などが広く使用されている (Menezes, A. J. , van Oorschot, P. and Vanstone, S. A.: Handbook of Applied Cryptography, CRC Press, 1996 )ので、 このような関数を本発明の方法に用いて もよい。 2種以上の異なる変換関数、 例えば 2種以上の衝突困難ハッシュ関数、 2種以上の汎用一方向性ハッシュ関数を組み合わせて用いてもよい。 また、 例え ば 1種又は 2種以上の衝突困難ハッシュ関数と 1種又は 2種以上の汎用一方向性 ハッシュ関数とを適宜組み合わせて処理することも可能である。 本発明の方法に は SHA又は SHA- 1を単独で用いることが特に好ましいが、 使用する関数及びそれ らの組み合わせは、生成する ID記号の衝突可能性を十分に下げるように、当業者 が適宜選択可能である。 本明細書では、 これらの関数をメッセージダイジェスト 関数とよぶ場合もある。 以下に、 本発明の方法に特に好適に使用可能な変換関数として SHAのアルゴリ ズムを紹介するが、 本発明の方法に利用可能な変換関数は SHAに限定されること はない。 なお、 この例では、 ハッシュ関数の処理により生成するハッシュ値であ る文字列は、 英字の小文字と数字の組み合わせにより表現されているが、 文字は 英字の小文字に限定されることはない。 本発明の方法に用いる文字は大文字又は 小文字のいずれでもよく、 大文字と小文字を区別せずに用いるか、 あるいはそれ らを区別して用いてもよい。 また、 より衝突困難性が高く、 高速なハッシュ法を SHAの代用として本方法を実施してもよい。例えば SHAの改良型である SHA1を使 用しても良い。
ネ入力データ
2 6 4ビッ ト未満の任意長のビッ ト配列 「m」 (各化合物の構造文字列デ一夕をビ ット配列 「m」 に変換する方法は後述)。
*出力データ
「m」 に対して 1 6 0ビヅ卜のハッシュ値を生成する。
入力されたビッ ト列「m」 が 512ビッ ト (16 x 32ビット) の倍数になるようにパ ディングを以下の手順で行う。
手順 1 ) m のビッ ト配列長が ' 512N— 64' となるように、 「m」 の最後にビット 配列 100···0を付加する。
手順 2 )入力配列のビット配列長を 64ビッ トで表現し、 さらにビット配列の後ろ に付加する。
得られたビッ ト配列を 512 ビヅトずつ Ν個に分割し、 それそれ Ml 5 Μ2 ΜΝと する。
ビット補正後の配列を各 512ビットのブロックに分割
Mi
Figure imgf000017_0001
上記のビット配列に対し、 以下の定数と関数を使用して、 以下に述べる手順によ りハッシュ値を計算する。 定数) 以下の定数値は 16進数で表現されている
H0 = 67452301
HI = EFCDAB89
H2 = 98BADCFE
H3 = 10325476
H4 = C3D2E1F0
Kt = 5A827999 (0≤t≤19)
Kt = 6ED9EBA1 (20≤t≤39)
Kt = 8F1BBCDC (40≤t≤59)
Kt = CA62C1D6 (60≤t≤79)
関数)
ή(χ, y, z) = (xAy) V ( Λζ) (0≤t≤19)
ft(x, y, z) = χ τ y & z (20≤t≤39)
/H x, y, z ) = ( xAy) V (χΛζ) V (yAz) ( 40≤t≤59 )
ft(x, y, z) = x&y&z (60≤t≤79)
注) Λ:論理積 (AND)
V:論理和 (OR)
Φ:排他的論理和 (XOR)
*処理
i = 0から Nまで以下の手順を繰り返す。
を 32ビットずつ 16ブロックに分割し、 左から Wi, … , 5とおく。
(2) Wt = ( Wt-s®
Figure imgf000018_0001
«< 1 (ただし SHA-1の場合のみ)
により …, W79 (各 32ビット) を定める。
参考 4) X«< nは、 Xに対して左に nビット巡回シフトすることを意味する。
巡回シフ卜 : ビッ卜の数字配列を一定方向に移動し、 端の数字は巡回
Figure imgf000018_0002
(3) A= HO, B = HI, C = H2, D = H3, E = H4 (各 32ビット) を設定する c
(4) t = 0 から 79 まで以下の手順を繰り返す。
参考 5) ' + ' は左右の加算値の '232' による剰余を示す。
TEMP = (Α«<5) + ίέ(Β,0,Ό) + Ε+ Wt+ Kt
E = D
D = C
C = B «< 30
B=A
A = TEMP
(5) HO = H0+A,H1 = H1 + B, H2 = H2 + C, H3 = H3 + D, H4 = U4十 E 最終的に得られた H 0〜 H 4のビット配列を連結した計 160ビッ トをハッシュ値とす る。
構造文字列をビッ ト列に変換する方法を次に説明する。 ASCII コードにより、 文字列の順に各文字を 8ビッ トに変換して並べたビッ ト列を作成する。 本明細書 の実施例ではこの方法を使用しているが、 文字コードをビッ ト列に変換する際、 ASCIIコード以外の変換コードを使用してもよい。 なお、 ビッ ト列とは 1 ビッ ト の情報を並べたものである。 1ビットは 2進数の 1桁に対応し 0または 1で表現 される。 ASCIIコードを用いた場合、 264ビッ ト未満という SHAの条件は文字数 にして約 2 1018未満ということになり、 かなり高いステップ数の構造文字列 も表現できる。
上記のハッシュ関数によって得られた 160ビッ ト列を IDとして利用するには、 このビット列を英数字で表現できるよう、必要なビット数に分割すればよい。 160 ビットを 5ビッ 卜ずつに分解し、 各 5ビッ トを 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, a, b, c, d, e, f, g, h, i, j, k, 1, m, n, o, p, q, r, s, t, u, vの 32文字を 用いた 32進数で表現する。
次の 160ビッ ト列を 5ビット毎に分割し、それそれを対応する 32進数文字に変 換すると、
10000110111101111110010000110111 - 10111000 10000 11011 11011 11110 01000 … g r r u 8
のように変換され、 次のような I Dが得られる。
"grru8dvqkmjvpoat3nebjqnat8rncpto': 本発明の方法により生成される ID記号には、対応するデ一夕の種類を表わす情 報 (例えば、 ID記号が化合物を示すことを示す情報) や ID記号の作成方法の種 類を表わす情報 (例えば、 利用したハッシュ関数の種類などを表わす情報) など を付加するため、 さらに固定長の 1又は 2以上の文字列、 好ましくは英数字から なる文字列を付加して新たな ID記号としてもよい。付加する文字列はハッシュ関 数を適用して得られた文字列の先頭又は末尾など、 いかなる部分に配置してもよ い。 好ましくはハッシュ値として得られる文字列の先頭に 1の文字列を付加する のがよい。
本発明の ID記号は、 化合物データ (化学構造式デ一夕を含む)の管理や照合に 用いることができる。上記 ID記号は各化合物に固有であり、 しかも衝突の可能性 が極めて低いため、 複数の化合物を本発明の方法で処理して ID記号を生成させ、 その ID 記号を比較することによって化合物の同一性を簡便かつ高速に判定する ことができる。例えば、 上記 ID記号を用いて、 特定の化合物と同一の化学構造式 を化合物データベースから高速に検索することができる。また、 上記の ID記号を 使用して、 化合物データベースを管理することができる。 例えば、 データベース 中の化合物について上記の ID記号を生成し、化合物データベース中に重複して含 まれる化合物を検出することができ、 あるいは異なる化合物データベース間で重 複して登録されている化合物を簡便かつ高速に検出することが可能になる。また、 新しい化合物情報をデータベースに登録する際に、 すでにその化合物が登録され ているものであるかどうかを簡便に検索することが可能になる。 さらに、 化合物 比較のために ID記号のみを公開し、化合物デー夕そのものは公開しないことで化 合物データの機密性を守ることも可能である。
本発明の方法は、 基本的に同一の化学構造式を検索 ·照合する目的に便利であ るが、 誘導体など類似の化学構造式を検出して分類などの用途にも利用できる。 また、 以下のようにすれば、 類似の構造式の化合物を検出する目的にも利用でき る。ある化学構造式について、構造式そのものの ID記号の他、 置換基を除いた構 造( 1つに限らない) について ID記号を作成して、 いっしょに保存しておくのが よい。 例えば、 塩化化合物の C1を Hに置換して生成した ID記号と臭化化合物の Br を Hに置換して生成した ID記号が一致すれば、 類縁の化合物であることが機 械的に判定でき、 さらに複雑な構造式の化合物群でも同様に操作できる。 ID記号 の数に制限はなく、 元の構造式に対するものから順に保存すればよい。 データべ ース中の化合物全部についても同様に複数の ID 記号を発生させて保存しておけ ば、 異なる出処のデ一夕ベース間で、 ある誘導体系列の化合物があるかどうか、 ある特定の化合物について化合物データベース中にその誘導体があるかどうかな どを高速に調べることができる。 このような態様もすベて本発明の範囲に包含さ れることを理解すべきである。 実施例
以下、 実施例により本発明をさらに具体的に説明するが、 本発明の範囲は下記 の実施例に限定されることはない。
例 1
組成式がともに C2H601であるエタノールとジメチルエーテルに、上記方法を適 用した (文中で 「好ましい」 と記した方法をここでは採用した)。 エタノール
ステップ 1)
H (1) H (1)
I I
H (1) - C (6) - C (6) - 0 (8) - H (1)
H (1) H (1)
ステップ 2 )
H (1, 7) H (1, 7)
I I
H (1, 7) 一 C (6, 15) ― C (6, 22) 一 0 (8, 15) 一 H (1, 9)
I I
H (1, 7) H (1, 7)
構造数列:
1,7,1,7,1,7,1,7,1,7,1,9,6,15,6,22,8,15
構造文字列:
"1 7 1 7 1 7 1 7 1 7 1 9 6 15 6 22 8 15"
ID: cb6mv472bodkdaelhsgvrda77dlvlhgr ジメチルエーテル
ステップ 1 )
H (1) H (1)
H (1) - C (6) - 0 (8) - C (6) - H (1)
H (1) H (1) ステップ 2 )
H (1, 7) H (1, 7)
H (1, 7) - C (6, 17) 一 0 (8, 20) 一 C (6, 17) 一 H (1, 7)
H (1, 7) H (1, 7) 構造数列:
1,7,1,7,1,7,1,7,1,7,1,7,6,17,6,17,8,20
構造文字列:
"1 7 1 7 1 7 1 7 1 7 1 7 6 17 6 17 8 20"
ID: 9o7fkpmigj73svgq6gqist2sjuillshn
このように、エタノールとジメチルェ一テルでは異なる構造数列、構造文字列、 IDが得られた。 例 2
化合物の構造式に固有の IDをクエリーに用いてレコードを検索できるデータべ ースシステムの構築例を図 1に示す。
データベースシステム内ではレコードに対して IDをつけて内部で管理している。 レコードの ID (図 1中、 RecordIDl, RecordID2等 はこのデータベースシステム の内部でローカルに用いられているため、 ここではローカル IDと呼ぶ。 データべ ースシステム内には、 化合物の構造式に固有の IDとローカル IDの対応テーブルが あり、 この対応づけはデータベースシステムの管理者により、 変更、 追加、 削除 可能になっている。 また、 データべ一スシステム内にはレコードを口一カル IDで 管理する口一カルデータベースが存在し、 ローカル IDによりレコードを検索する ことが可能である。 レコード検索装置と ID間の対応テーブルとローカルデータべ —スは物理的に互いに離れた場所に存在してもよく、 その間の通信はィンタ一ネ ッ トゃイントラネッ トを経由して行われてもよい。 また、 ID間の対応テーブルの 管理者と口一カルデータベースの管理者は異なつていてもよい。 ID間の対応テー ブルは固有 IDから、 それに対応づけられたローカル IDを検索できれば、 いかなる 手段をもちいてもよい。 固有 IDとローカル IDの対応は多対多であってもよい。
検索時の処理手順は以下のようになつている。 データベースシステムの外部にいる検索者が、 化合物の構造式に固有の IDを 1 つ以上含む検索クエリ一を該デ一タベースシステムのレコード検索装置に送る (図 1①)。レコード検索装置は該固有 IDに対応づけられたローカル IDを ID間の対 応テーブルから検索する(図 1②)。次に該ローカル IDを使ってレコ一ド検索装置 は口一カルデータべ一スから該ローカル IDがついたレコ一ドを検索する(図 1③)。 最後にレコード検索装置は該レコ一ドを検索者に送り返す。
別の方法としては、 リレーショナルデータベースのビュー作成機能を用いて、 ID 間の対応テ一ブルとローカルデータベースのテ一ブルを予め融合しておけば、 ② と③の検索を一括して行うことも可能である。
この例では、 検索者は化合物の構造式に固有の IDのみからデータベース検索で き、 しかも、 検索する時点で 「ID間の対応テーブル」 により対応づけられている ローカル IDのレコ一ドを検索することができる。 データべ一スシステム管理者は ローカルデータベース内のレコードを変更、 追加、 削除した際に、 固有 IDとロー 力ル IDの対応を適切なものに変更することで、 検索者が要求する化合物の構造式 に対し、 常に適切なレコードを送り返すように設定できる。 また、 レコードの変 更ゃ削除により、 固有 IDが対応するレコ一ドが口一カルデータベース内に存在し なくなった場合は、 レコードの代わりにそれについての訂正情報を検索者に対し 送り返すように設定できる。 また、 検索者はィンターネッ トゃィントラネッ トを 経由して図 1に示したデータベースシステムの複数に対し同じ固有の IDをクエリ 一として同時に送ることで、 同時に複数のデータベース検索をすることも可能で ある。 また、 本システムのレコードとして固有 IDを含むファイルに限定すれば、 市販のインデックスサーチ用プログラムを使用すると便利である。 この場合、 ィ ンデックスサーチ用プログラムがファイル内の固有 IDをキ一ヮ一ドとして自動認 識し、 該 IDと該ファイルのパスの対応づけ (ID間の対応テーブルに相当) を自動 的に作成してくれる。 このためィンデックスサーチ用プログラムに固有 IDをクェ リーとして送ることで、 該固有 IDを含むファィルを検索することができる。 産業上の利用可能性
本方法の方法によれば、 いかなる構造の化合物に対しても、 固定長又は可変長 で衝突確率が極めて低い文字列又は文字列群として、 その化合物の化学構造式に ユニークな ID記号を生成することができる。 この ID記号は化合物の化学構造式 から極めて高速かつ簡便に生成することができ、しかも ID記号は各有機化合物の 化学構造式に固有であり、 実際上衝突の可能性がほとんどないため、 ID記号のみ を比較することにより化学構造の同一性又は類似性を容易に判定することができ る。 エントリ一に重複のないようデータベースの管理に利用でき、 異なるサイ ト で作られる化合物デー夕ベースが一元的に利用できるようになるほか、 ある化合 物またはその誘導体が化合物データベースにあるか否かなどを高速に調べること ができる。
また、本発明の ID記号は化学構造自身からソフトウエアによって生成されるの で、該ソフトウエアを配布しておけば、世界中どこでも同じ構造には同じ ID記号 が与えら、化学構造式の代わりにデ一夕ベース検索や照合に用いることができる。 化学構造式自身をクエリーとしてデータベースを検索する必要がなくなるため、 通信時や検索時等に機密が外部に漏れることも防げる。 また、 デ一夕べ一ス管理 者がデータベース中の全化合物に付加しておくことで、 重複を避けたり、 作成元 の異なるデ一夕べ一ス間のリンクに用いることができる。 さらに、 研究者が合成 したり、 これから合成しょうとする化合物の化学構造式についても、 同じソフト ウェアにより容易に ID記号を与えることができ、データベース検索や構造の照合 をすることができる。

Claims

請 求 の 範 囲
1 . 化学構造式を構成する各原子の種類及び該原子間の結合関係に基づいて、 該 化学構造式に対して実質的にユニークである固定長又は可変長の文字列を生成し、 この文字列を該化学構造式及び/又は該化学構造式で特定される化合物の ID 記 号とする方法。
2 . 次の手順により文字列を生成する請求の範囲第 1項に記載の方法
( 1 )化学構造式を構成する各原子の元素の種類に対して定められた数値を各要素 とするべクトルを初項とする、
(2 )該化学構造式中の原子間の共有結合関係にもとづいて漸化式を定義する、
( 3 )該初項と該漸化式に基づき有限個のべクトル列を生成する、
(4)全ぺクトル内の全要素を大小比較規則により並べ直すことで、 同一の化学構 造式からは必ず同一数列となる「化学構造式に実質的にユニークな数列」を生成 する、
( 5 )該数列の順番で該数列の各項を変換し文字列を生成する。
3 . 化学構造式を構成する各原子の元素の種類及び該原子によって生ずる異性体 の種類に対して定められた数値を各要素とするべクトルを初項とする請求の範囲 第 2項に記載の方法。
4 . 請求の範囲第 1項から第 3項のいずれか 1項に記載の方法で得られる文字列 を、 実質的に 1対 1写像関数である変換関数により固定長の文字列に変換し、 こ れを ID記号とする方法。
5 . 実質的に 1対 1写像関数である変換関数として衝突困難ハッシュ関数及び/ 又は汎用一方向性ハッシュ関数を用いる請求の範囲第 4項に記載の方法。
6 . 実質的に 1対 1写像関数である変換関数としてメッセージダイジェスト関数 を用いる請求の範囲第 4項又は第 5項に記載の方法。
7 . 該 ID記号生成法の種類及び/又は該 ID記号対象物のカテゴリの情報に関す る 1又は 2以上の文字列をさらに付加する工程を含む請求の範囲第 1項ないし 6 のいずれか 1項に記載の方法。
8 .複数の化学構造式間の同一性判定を ID記号のみの比較で行うために用いる請 求の範囲第 1項ないし第 7項のいずれか 1項に記載の方法。
9 .請求の範囲第 5項又は第 6項に記載の ID記号を使用することにより、該化合 物の化学構造式の機密性を保持する請求の範囲第 8項に記載の方法。
1 0 . 請求の範囲第 1項ないし第 7項のいずれか 1項に記載の方法により生成し た ID記号を記録した媒体及び/又は該 ID記号を含むファイルを記録した媒体。
1 1 . 2以上のデ一夕ベースにおいて同一化学構造式に付する ID記号を一致させ るために用いる、 請求の範囲第 1項ないし第 7項のいずれか 1項に記載の方法。
1 2 . 化学構造式及び/又は化学構造式で特定される化合物に関連する情報を記 録したファイルと、該化学構造式の ID記号とを対応づけたデータを記録した媒体。
1 3 .請求の範囲第 1 2項に記載の対応付けデータに基づき ID記号から対応づけ られたファイルを検索する装置。
1 4 . 化学構造式又はこれと同等のデータから、 請求の範囲第 1項ないし第 7項 のいずれか 1項に記載の方法により該化学構造式の ID 記号を生成するプログラ ムを記録した媒体、 及び/又は該プログラムをネットワーク経由で送信可能なサ ーバ装置。
PCT/JP2000/008078 1999-11-19 2000-11-16 Id symbol unique to structural formula of compound WO2001039041A1 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
AU14139/01A AU1413901A (en) 1999-11-19 2000-11-16 Id symbol unique to structural formula of compound
CA002393321A CA2393321A1 (en) 1999-11-19 2000-11-16 Id symbol unique to structural formula of compound
DE60033422T DE60033422T2 (de) 1999-11-19 2000-11-16 Identifikationssymbol das einmalig für die struktur der formel einer mischung ist
EP00976284A EP1235159B1 (en) 1999-11-19 2000-11-16 Id symbol unique to structural formula of compound
US11/381,497 US20070027900A1 (en) 1999-11-19 2006-05-03 Id symbol unique to structural formula of compound

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP33043299 1999-11-19
JP11-330432 1999-11-19
JP2000149641 2000-05-22
JP2000-149641 2000-05-22

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/381,497 Continuation US20070027900A1 (en) 1999-11-19 2006-05-03 Id symbol unique to structural formula of compound

Publications (1)

Publication Number Publication Date
WO2001039041A1 true WO2001039041A1 (en) 2001-05-31

Family

ID=26573527

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/008078 WO2001039041A1 (en) 1999-11-19 2000-11-16 Id symbol unique to structural formula of compound

Country Status (8)

Country Link
US (1) US20070027900A1 (ja)
EP (1) EP1235159B1 (ja)
CN (1) CN1425159A (ja)
AT (1) ATE354133T1 (ja)
AU (1) AU1413901A (ja)
CA (1) CA2393321A1 (ja)
DE (1) DE60033422T2 (ja)
WO (1) WO2001039041A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323182A (ja) * 2006-05-30 2007-12-13 Riron Soyaku Kenkyusho:Kk 大規模化学構造データベースから高速に化学構造を検索するシステム及び方法
JP2009116592A (ja) * 2007-11-06 2009-05-28 Nippon Telegr & Teleph Corp <Ntt> ベクトル検索装置、ベクトル検索方法、プログラムおよびプログラムを記録した記録媒体
JP2009543489A (ja) * 2006-07-10 2009-12-03 ジェムアルト エスアー 匿名の機密データを管理するためのサーバ

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010085075A (ko) * 2001-08-01 2001-09-07 조현정 네트워크 기반의 3차원 화학정보 제공시스템 및 그 화학식에디터
US7809843B1 (en) * 2003-09-18 2010-10-05 Intel Corporation Globally unique identification in communications protocols and databases
US9143357B2 (en) * 2004-03-31 2015-09-22 Nec Infrontia Corporation Chat apparatus transmitting/receiving information indicating switching of chat
US20070016612A1 (en) * 2005-07-11 2007-01-18 Emolecules, Inc. Molecular keyword indexing for chemical structure database storage, searching, and retrieval
US7676484B2 (en) * 2006-07-30 2010-03-09 International Business Machines Corporation System and method of performing an inverse schema mapping
US7996576B2 (en) * 2008-05-08 2011-08-09 Lsi Corporation Generating an identifier for a SATA disk
US9600808B1 (en) * 2011-06-24 2017-03-21 Epic One Texas, Llc Secure payment card, method and system
US20160021543A1 (en) * 2012-01-05 2016-01-21 Andrew Jay Diamond Method and system for ad hoc cellular pbx
CN113919290A (zh) * 2020-07-09 2022-01-11 中国科学院上海药物研究所 一种用于有机化合物的化学结构和命名双向自动转化的处理方法及装置
CN112988358A (zh) * 2021-04-18 2021-06-18 上海丽人丽妆网络科技有限公司 一种用于电商平台的数据中间件
CN113903410B (zh) * 2021-12-08 2022-03-11 成都健数科技有限公司 一种化合物检索方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996006391A2 (en) * 1994-08-10 1996-02-29 Oxford Molecular Limited Relational database management system for chemical structure storage, searching and retrieval

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6199017B1 (en) * 1995-03-17 2001-03-06 Kureha Kagaku Kogyo Kabushiki Kaisha Biochemical information processing apparatus, biochemical information processing method, and biochemical information recording medium
JP3462024B2 (ja) * 1996-12-04 2003-11-05 株式会社東芝 ネットワークシステムの伝送制御方法
US6640278B1 (en) * 1999-03-25 2003-10-28 Dell Products L.P. Method for configuration and management of storage resources in a storage network
WO2003023656A1 (en) * 2001-09-13 2003-03-20 Jda Software Group, Inc Database interface architecture with time-based load balancing in a real-time environment
US8108249B2 (en) * 2001-12-04 2012-01-31 Kimberly-Clark Worldwide, Inc. Business planner
US7379890B2 (en) * 2003-10-17 2008-05-27 Makor Issues And Rights Ltd. System and method for profit maximization in retail industry

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996006391A2 (en) * 1994-08-10 1996-02-29 Oxford Molecular Limited Relational database management system for chemical structure storage, searching and retrieval

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FUKUDA ET AL.: "Seibutsu johou tougou database system no kouchiku; Atarashii hassou ni motozuita seibutsu johou kanrihou", DAI 22KAI JOUHOU KAGAKU TOURONKAI, DAI 27 KAI KOUZOU KASSEI SOUKAN SYMPOSIUM KOUEN YOUSHISHU, 31 October 1999 (1999-10-31), pages 84 - 85, XP002935900 *
IHLENFELDT W.D. & GASTEIGER J.: "Hash codes for the identification and classification of molecular structure elements", JOURNAL OF COMPUTATIONAL CHEMISTRY, vol. 15, no. 8, August 1994 (1994-08-01), pages 793 - 813, XP002935899 *
WIPKE W T ET AL: "Stereochemically unique naming algorithm", JOURNAL OF THE AMERICAN CHEMICAL SOCIETY, vol. 96, no. 15, 24 July 1974 (1974-07-24), pages 4834 - 4872, XP002935898 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323182A (ja) * 2006-05-30 2007-12-13 Riron Soyaku Kenkyusho:Kk 大規模化学構造データベースから高速に化学構造を検索するシステム及び方法
JP2009543489A (ja) * 2006-07-10 2009-12-03 ジェムアルト エスアー 匿名の機密データを管理するためのサーバ
JP2009116592A (ja) * 2007-11-06 2009-05-28 Nippon Telegr & Teleph Corp <Ntt> ベクトル検索装置、ベクトル検索方法、プログラムおよびプログラムを記録した記録媒体

Also Published As

Publication number Publication date
ATE354133T1 (de) 2007-03-15
AU1413901A (en) 2001-06-04
EP1235159A1 (en) 2002-08-28
DE60033422T2 (de) 2007-11-29
DE60033422D1 (de) 2007-03-29
CN1425159A (zh) 2003-06-18
CA2393321A1 (en) 2001-05-31
EP1235159B1 (en) 2007-02-14
EP1235159A4 (en) 2003-04-02
US20070027900A1 (en) 2007-02-01

Similar Documents

Publication Publication Date Title
US20070027900A1 (en) Id symbol unique to structural formula of compound
US11899641B2 (en) Trie-based indices for databases
US7739288B2 (en) Systems and methods of directory entry encodings
JP5373846B2 (ja) リレーショナルシステムにおける階層的に編成された情報にアクセスするための階層的インデックス付け
Kamara et al. Dynamic searchable symmetric encryption
US8209334B1 (en) Method to direct data to a specific one of several repositories
US7814129B2 (en) Method and apparatus for storing data with reduced redundancy using data clusters
JP4722620B2 (ja) 暗号化文書検索方法および暗号化文書検索システム
JP2638307B2 (ja) データベースの登録簿を探索する方法
US7574457B2 (en) Non-mutating tree-structured file identifiers
KR20130062889A (ko) 데이터 압축 방법 및 시스템
WO2006094365A1 (en) Method for storing data with reduced redundancy using data clusters
CN111801665A (zh) 用于大数据应用的分层局部敏感哈希(lsh)分区索引
CN109492410B (zh) 数据可搜索加密和关键词搜索方法、系统及终端、设备
Moataz et al. Oblivious substring search with updates
JP4768009B2 (ja) データ・クラスタを使用する冗長性の少ないデータを格納する方法
Kanda et al. Dynamic path-decomposed tries
Ghaleb et al. Novel scheme for labeling XML trees based on bits-masking and logical matching
JP2001022766A (ja) 多次元データベースの高速処理方法および装置
CN113836018B (zh) 一种测试环境配置参数的备份方法及相关装置
JP2988304B2 (ja) 文字列管理装置
JP2990312B2 (ja) データアクセス方法および装置
Peters et al. FLOUDS: A Succinct File System Structure.
Dromey A Compact Free-Keyword File Structure for Author-Title-Keyword Searching. An Application to an NMR Bibliographic Database
Markova et al. Distributed Data Addressed in Natural Language

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref country code: JP

Ref document number: 2001 540635

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 2393321

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 2000976284

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 008185190

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2000976284

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWG Wipo information: grant in national office

Ref document number: 2000976284

Country of ref document: EP