WO2023165018A1 - 化学反应流程图中元素的提取方法及装置 - Google Patents

化学反应流程图中元素的提取方法及装置 Download PDF

Info

Publication number
WO2023165018A1
WO2023165018A1 PCT/CN2022/092361 CN2022092361W WO2023165018A1 WO 2023165018 A1 WO2023165018 A1 WO 2023165018A1 CN 2022092361 W CN2022092361 W CN 2022092361W WO 2023165018 A1 WO2023165018 A1 WO 2023165018A1
Authority
WO
WIPO (PCT)
Prior art keywords
chemical reaction
reaction flow
element information
extraction model
flow chart
Prior art date
Application number
PCT/CN2022/092361
Other languages
English (en)
French (fr)
Inventor
刘小红
申圣珂
肖红忠
李召军
钮振江
费超远
刘刚娣
郑明月
Original Assignee
苏州阿尔脉生物科技有限公司
上海阿尔脉生物科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏州阿尔脉生物科技有限公司, 上海阿尔脉生物科技有限公司 filed Critical 苏州阿尔脉生物科技有限公司
Publication of WO2023165018A1 publication Critical patent/WO2023165018A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Definitions

  • the disclosure relates to the technical field of chemical informatics, in particular to a method and device for extracting elements in a chemical reaction flow chart.
  • organic chemical reaction formulas are usually expressed in the form of reaction flow diagrams, which may contain elements such as arrows (such as unidirectional arrows, multi-directional arrows, etc.), indicator marks, etc.
  • arrows such as unidirectional arrows, multi-directional arrows, etc.
  • indicator marks etc.
  • the elements in the element will have a certain impact on the accuracy of subsequent extraction of chemical reaction formulas from electronic publications such as journals and patents.
  • the purpose of the embodiments of the present disclosure is to provide a method and device for extracting elements in a chemical reaction flow chart, which are used to solve the problems of low element extraction accuracy and poor generalization existing in the prior art.
  • the embodiment of the present disclosure provides a method for extracting elements in the chemical reaction flow chart, which includes:
  • the target image includes a chemical reaction flow chart
  • element information is extracted from the chemical reaction flow chart, wherein the element information includes element types and coordinates.
  • the extraction of element information from the chemical reaction flow chart by using a pre-trained extraction model includes:
  • the extraction model calculates the chemical reaction flow diagram, and outputs element information in the chemical reaction flow diagram, including:
  • the extraction model calculates the chemical reaction flow chart to obtain a plurality of candidate elements and a probability value corresponding to each candidate element
  • a preset spacer is used to separate the pieces of element information.
  • the step of training the extraction model includes:
  • the training set includes a first chemical reaction flow diagram sample and first theoretical element information of a first element included therein;
  • the extraction method also includes:
  • the parameter-adjusted extraction model corresponding to the smallest second error is used as the extraction model.
  • the embodiment of the present disclosure also provides a device for extracting elements in the chemical reaction flow chart, which includes:
  • An acquisition module configured to acquire a target image, wherein the target image includes a chemical reaction flow chart
  • An extraction module is configured to extract element information from the chemical reaction flow diagram by using a pre-trained extraction model, wherein the element information includes the type and coordinates of the element.
  • an embodiment of the present disclosure further provides a storage medium, wherein a computer program is stored on the computer-readable storage medium, and when the computer program is run by a processor, the following steps are performed:
  • the target image includes a chemical reaction flow chart
  • element information is extracted from the chemical reaction flow chart, wherein the element information includes element types and coordinates.
  • an embodiment of the present disclosure further provides an electronic device, which includes: a processor and a memory, the memory stores machine-readable instructions executable by the processor, and when the electronic device is running, the The processor communicates with the memory through a bus, and when the machine-readable instructions are executed by the processor, the following steps are performed:
  • the target image includes a chemical reaction flow chart
  • element information is extracted from the chemical reaction flow chart, wherein the element information includes element types and coordinates.
  • this disclosure extracts element information from the target image through an extraction model to determine whether the target image contains a target element, which greatly improves element extraction. Accuracy and generalization are better.
  • Fig. 1 shows the flow chart of the extraction method of the element in the chemical reaction flow chart provided by the present disclosure
  • Fig. 2 shows the flowchart of training the extraction model in the extraction method provided by the present disclosure
  • Fig. 3 shows the flow chart of verifying the extraction model in the extraction method provided by the present disclosure
  • FIG. 4 shows a schematic structural diagram of an element extraction device in the chemical reaction flow diagram provided by the present disclosure
  • Fig. 5 shows a schematic structural diagram of an electronic device provided by the present disclosure.
  • each page of periodicals and patents is used as a target image, that is to say, each target image can include one or more.
  • target images can be pre-extracted from electronic publications such as periodicals and patents.
  • the target image may be in JPG format, PNG format, or the like.
  • the extraction model is pre-trained using a large amount of historical data, and the extraction model is regularly or irregularly updated and trained to improve the accuracy of the extraction model.
  • the target image needs to be identified to identify each chemical reaction flow chart in the target image, and then the chemical reaction
  • the flowchart is used as the input of the extraction model. Compared with the target image as the input of the extraction model, the calculation efficiency and accuracy of the extraction model are higher.
  • the preset conversion algorithm may be a mapping relationship between chemical structure sub-images and feature vectors, and the like.
  • the extraction model calculates the chemical reaction flow chart
  • the extraction model calculates the feature vectors corresponding to each chemical reaction flow chart to obtain multiple candidate element information and the probability value corresponding to each candidate element information ; Further, select candidate element information whose probability value is greater than a preset threshold as element information in the chemical reaction flow chart.
  • the chemical reaction flow chart or the entire target image includes multiple elements. Therefore, when the target image includes multiple elements, the information of multiple elements is separated by a preset spacer, and the spacer can be For punctuation marks, special symbols, etc.
  • the element information includes the type and coordinates of the element.
  • the type of the element may include a one-way arrow, a two-way arrow, and a multi-directional arrow
  • the coordinates of the element may include the coordinates of each end point of the arrow.
  • the element information may also include the direction of the element, such as the angle between the arrow and the horizontal direction.
  • the embodiment of the present disclosure is described by identifying the chemical reaction flow chart from the target image and using the chemical reaction flow chart as an input of the extraction model as an example.
  • the target image can also be directly used as The input of the extraction model, so that the extraction model directly performs calculations on the target image to extract elemental information.
  • the embodiment of the present disclosure also provides a method for training an extraction model, specifically referring to the steps shown in FIG. 2 , which includes S201-S204.
  • first obtain a training set the training set includes the first chemical reaction flow chart sample and the first theoretical element information of the first element included in it, the first theoretical element information of the first element is obtained by manual conversion, Or it is obtained after automatic conversion by a preset algorithm and manual verification.
  • the first chemical reaction flow diagram sample is converted into a first input vector according to a preset conversion algorithm, wherein the first chemical reaction flow diagram sample can be converted into a first input vector based on a pre-established dictionary, wherein, in the dictionary Including the mapping relationship between chemical reaction flow chart samples and input vectors, and the mapping relationship between element information and output vectors.
  • the extraction model to be trained will also calculate multiple candidate elements, and the first actual element information is the element information of the candidate element with the largest probability value calculated by the extraction model to be trained.
  • the extraction model to be trained calculates the first input vector to obtain the first output vector, and converts the first output vector into candidate element information based on the dictionary.
  • the extraction model to be trained in the embodiment of the present disclosure includes but not limited to perceptron algorithm, convolutional neural network, recurrent neural network and attention mechanism network, etc.
  • the extraction model to be trained uses a feature extractor-translator
  • the architecture, feature extractor and translator all consist of neural networks.
  • the first actual element information After obtaining the first actual element information, calculate a first error between the first actual element information and the first theoretical element information, and determine whether the first error is within an allowable range. If the error is not within the allowable range, adjust the parameters of the extraction model to be trained, and use the extraction model after adjusting the parameters to perform the next round of training until the first error falls within the allowable range, and complete the training of the extraction model.
  • the second chemical reaction flow chart sample included in the verification set uses the second chemical reaction flow chart sample included in the verification set to convert into the second input vector, and input the second input vector to the extraction after each parameter adjustment.
  • the second actual element information is obtained, wherein the method of converting the second chemical reaction flow chart sample into the second input vector is the same as the way of converting the first chemical reaction flow chart sample into the first input vector, here, I won't go into too much detail.
  • the smallest second error is selected from the plurality of second errors, and the extraction model corresponding to the smallest second error after adjusting parameters is used as the extraction model.
  • the finally determined extraction model can also be tested by using the test set, so as to further verify the accuracy of the extraction model.
  • the extraction model can also be updated and trained periodically to ensure the accuracy of the extraction model.
  • this disclosure extracts element information from the target image through an extraction model to determine whether the target image contains a target element, which greatly improves element extraction. Accuracy and generalization are better.
  • the second aspect of the present disclosure also provides a device for extracting elements in the chemical reaction flow chart, because the problem-solving principle of the device in the present disclosure is similar to the extraction method of the elements in the above-mentioned chemical reaction flow chart of the present disclosure , so the implementation of the device can refer to the implementation of the method, and the repetition will not be repeated.
  • the extraction device of elements in the chemical reaction flow chart includes:
  • An acquisition module 401 configured to acquire a target image, wherein the target image includes a chemical reaction flow chart;
  • the extraction module 402 is configured to use a pre-trained extraction model to extract element information from the chemical reaction flow chart, wherein the element information includes element types and coordinates.
  • the device for extracting elements in the chemical reaction flow chart further includes an identification module 403, which is configured to:
  • the extraction module 402 is specifically configured as:
  • the extraction model in the extraction module 402 calculates the chemical reaction flow diagram, and outputs the element information in the chemical reaction flow diagram, it specifically includes:
  • the extraction model calculates the chemical reaction flow chart to obtain a plurality of candidate elements and a probability value corresponding to each candidate element
  • the device for extracting elements in the chemical reaction flow chart further includes a separation module 404, which is configured to:
  • the pieces of element information are separated by a preset spacer.
  • the device for extracting elements in the chemical reaction flow chart further includes a first training module 405, which is configured to:
  • the training set includes a first chemical reaction flow diagram sample and first theoretical element information of a first element included therein;
  • the device for extracting elements in the chemical reaction flow chart further includes a second training module 406, which is configured to:
  • the parameter-adjusted extraction model corresponding to the smallest second error is used as the extraction model.
  • this disclosure extracts element information from the target image through an extraction model to determine whether the target image contains a target element, which greatly improves element extraction. Accuracy and generalization are better.
  • the third aspect of the present disclosure also provides a storage medium, which is a computer-readable medium and stores a computer program.
  • a storage medium which is a computer-readable medium and stores a computer program.
  • the processor Before the computer program is executed by the processor and uses the pre-trained extraction model to extract element information from the chemical reaction flow diagram, the processor also specifically executes the following step: identifying each chemical reaction flow diagram in the target image.
  • the processor When the computer program is executed by the processor and uses the pre-trained extraction model to extract element information from the chemical reaction flow chart, the processor specifically performs the following steps: use all the chemical reaction flow charts as the input of the extraction model , so that the extraction model calculates the chemical reaction flow diagram, and outputs element information in the chemical reaction flow diagram.
  • the computer program is executed by the processor to extract the model to calculate the chemical reaction flow chart, and when the element information in the chemical reaction flow chart is output, the processor also executes the following steps: the extraction model calculates the chemical reaction flow chart performing calculations to obtain a plurality of candidate elements and the probability value corresponding to each candidate element; selecting the candidate element whose probability value is greater than a preset threshold as element information in the chemical reaction flow chart.
  • the processor When the computer program is executed by the processor to perform the extraction method, the processor further executes the following step: in the case that the target image includes multiple elements, separate the information of multiple elements by a preset spacer.
  • the processor When the computer program is executed by the processor to perform the extraction method, the processor also performs the following steps: obtaining a training set, the training set includes the first chemical reaction flow chart sample and the first theoretical element information of the first element included therein; The sample of the first chemical reaction flow diagram is converted into a first input vector, and the first input vector is input into the extraction model to be trained to obtain the first actual element information; calculate the first actual element information and the Whether the first error between the first theoretical element information is within the allowable range; if the first error is not within the allowable range, adjust the parameters of the extraction model to be trained until the first error falls within the allowable range within the allowable range.
  • the processor When the computer program executes the extraction method by the processor, the processor also executes the following steps: when there are multiple extraction models to be trained, convert the second chemical reaction flow chart sample included in the verification set into a second input vector , and input the second input vector into the extraction model after each of the adjusted parameters to obtain the second actual element information; calculate each of the second actual element information and the second included in the verification set The second error between the second theoretical element information corresponding to the sample of the chemical reaction flowchart; the extraction model after adjusting the parameters corresponding to the smallest second error is used as the extraction model.
  • this disclosure extracts element information from the target image through an extraction model to determine whether the target image contains a target element, which greatly improves element extraction. Accuracy and generalization are better.
  • the storage medium mentioned above in the present disclosure may be a computer-readable signal medium or a computer-readable storage medium, or any combination of the above two.
  • a computer readable storage medium may be, for example, but not limited to, an electrical, magnetic, optical, electromagnetic, infrared, or semiconductor system, device, or device, or any combination thereof. More specific examples of computer-readable storage media may include, but are not limited to, electrical connections with one or more wires, portable computer diskettes, hard disks, random access memory (RAM), read-only memory (ROM), erasable Programmable read-only memory (EPROM or flash memory), optical fiber, portable compact disk read-only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination of the above.
  • a computer-readable storage medium may be any tangible medium that contains or stores a program that can be used by or in conjunction with an instruction execution system, apparatus, or device.
  • a computer-readable signal medium may include a data signal in baseband or propagated as part of a carrier wave carrying computer-readable program code therein. Such propagated data signals may take many forms, including but not limited to electromagnetic signals, optical signals, or any suitable combination of the foregoing.
  • a computer-readable signal medium may also be any storage medium other than a computer-readable storage medium that can transmit, propagate, or transport a program for use by or in conjunction with an instruction execution system, apparatus, or device.
  • Program code contained on a storage medium may be transmitted using any appropriate medium, including but not limited to: wires, optical cables, RF (radio frequency), etc., or any suitable combination of the above.
  • the fourth aspect of the present disclosure also provides an electronic device. As shown in FIG.
  • the program implements the method provided by any embodiment of the present disclosure. Exemplarily, the method executed by the computer program of the electronic device is as follows:
  • the processor Before the processor executes the pre-trained extraction model stored in the memory to extract element information from the chemical reaction flow diagram, it further executes the following computer program: identifying each chemical reaction flow diagram in the target image.
  • the processor executes the pre-trained extraction model stored on the memory to extract element information from the chemical reaction flow diagram, it also executes the following computer program: all the chemical reaction flow diagrams are used as the input of the extraction model , so that the extraction model calculates the chemical reaction flow diagram, and outputs element information in the chemical reaction flow diagram.
  • the processor executes the extraction model stored in the memory to calculate the chemical reaction flow diagram and output the element information in the chemical reaction flow diagram, it also executes the following computer program: the extraction model calculates the chemical reaction flow diagram performing calculations to obtain a plurality of candidate elements and the probability value corresponding to each candidate element; selecting the candidate element whose probability value is greater than a preset threshold as element information in the chemical reaction flow chart.
  • the processor executes the extraction method stored in the memory, it also executes the following computer program: in the case that the target image includes multiple elements, separate the multiple pieces of element information by a preset spacer.
  • the processor executes the extraction method stored in the memory, it also executes the following computer program: obtain a training set, the training set includes the first chemical reaction flow chart sample and the first theoretical element information of the first element included in it; The sample of the first chemical reaction flow diagram is converted into a first input vector, and the first input vector is input into the extraction model to be trained to obtain the first actual element information; calculate the first actual element information and the Whether the first error between the first theoretical element information is within the allowable range; if the first error is not within the allowable range, adjust the parameters of the extraction model to be trained until the first error falls within the allowable range within the allowable range.
  • the processor executes the extraction method stored in the memory, it also executes the following computer program: when there are multiple extraction models to be trained, convert the second chemical reaction flowchart sample included in the verification set into a second input vector , and input the second input vector into the extraction model after each of the adjusted parameters to obtain the second actual element information; calculate each of the second actual element information and the second included in the verification set The second error between the second theoretical element information corresponding to the sample of the chemical reaction flowchart; the extraction model after adjusting the parameters corresponding to the smallest second error is used as the extraction model.
  • this disclosure extracts element information from the target image through an extraction model to determine whether the target image contains a target element, which greatly improves element extraction. Accuracy and generalization are better.
  • each block in a flowchart or block diagram may represent a module, program segment, or portion of code that contains one or more logical functions for implementing specified executable instructions.
  • the functions noted in the block may occur out of the order noted in the figures. For example, two blocks shown in succession may, in fact, be executed substantially concurrently, or they may sometimes be executed in the reverse order, depending upon the functionality involved.
  • each block of the block diagrams and/or flowchart illustrations, and combinations of blocks in the block diagrams and/or flowchart illustrations can be implemented by a dedicated hardware-based system that performs the specified functions or operations , or may be implemented by a combination of dedicated hardware and computer instructions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种化学反应流程图中元素的提取方法及装置,提取方法包括获取目标图像,其中,目标图像中包括化学反应流程图;利用预先训练好的提取模型,从化学反应流程图中提取元素信息,其中,元素信息包括元素的类型和坐标。相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。

Description

化学反应流程图中元素的提取方法及装置 技术领域
本公开涉及化学信息学技术领域,特别涉及化学反应流程图中元素的提取方法及装置。
背景技术
在期刊和专利等电子刊物中,有机化学反应式通常以反应流程图的形式表示,反应流程图中可能包含箭头(如单向箭头、多向箭头等)、指示标识等元素,反应流程图中的元素对后续从期刊和专利等电子刊物中提取化学反应式的精确度产生一定影响。
目前,存在识别箭头元素的方法:针对一特定元素预先定义一参照形状,之后,检测特定图像中是否包含预先定义的参照形状,进而确定特定图像中是否包含特定元素。但该种方法准确率较低,泛化性较差。
发明内容
有鉴于此,本公开实施例的目的在于提供一种化学反应流程图中元素的提取方法及装置,用于解决现有技术存在的元素提取准确率较低以及泛化性较差等问题。
第一方面,本公开实施例提供了一种化学反应流程图中元素的提取方法,其中,包括:
获取目标图像,其中,所述目标图像中包括化学反应流程图;
利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
在一种可能的实施方式中,在利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息之前,还包括:
识别所述目标图像中的每个化学反应流程图。
在一种可能的实施方式中,所述利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,包括:
将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
在一种可能的实施方式中,所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息,包括:
所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;
选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。
在一种可能的实施方式中,在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
在一种可能的实施方式中,训练所述提取模型的步骤包括:
获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;
将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;
计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;
若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
在一种可能的实施方式中,所述提取方法还包括:
所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;
计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;
将最小的第二误差对应的调整参数后的提取模型作为提取模型。
第二方面,本公开实施例还提供了一种化学反应流程图中元素的提取装置,其包括:
获取模块,其配置为获取目标图像,其中,所述目标图像中包括化学反应流程图;
提取模块,其配置为利用预先训练好的提取模型,从所述化学反应流程 图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
第三方面,本公开实施例还提供了一种存储介质,其中,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取目标图像,其中,所述目标图像中包括化学反应流程图;
利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
第四方面,本公开实施例还提供了一种电子设备,其中,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取目标图像,其中,所述目标图像中包括化学反应流程图;
利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开所提供的化学反应流程图中元素的提取方法的流程图;
图2示出了本公开所提供的提取方法中训练提取模型的流程图;
图3示出了本公开所提供的提取方法中验证提取模型的流程图;
图4示出了本公开所提供的化学反应流程图中元素的提取装置的结构示意图;
图5示出了本公开所提供的电子设备的结构示意图。
具体实施方式
此处参考附图描述本公开的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本公开的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本公开进行了描述,但本领域技术人员能够确定地实现本公开的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所申请的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
第一方面,为便于对本公开进行理解,首先对本公开所提供的一种化学反应流程图中元素的提取方法进行详细介绍。如图1所示,为本公开实施例提供的化学反应流程图中元素的提取方法具体包括以下步骤:
S101,获取目标图像,其中,目标图像中包括化学反应流程图。
在期刊和专利等电子刊物中,有机化学反应式通常以化学反应流程图的形式表示,因此,为了不遗漏期刊、专利中每页包含的每一个化学反应流程图,可以将包括化学反应流程图的每页期刊、专利均作为一个目标图像,也 就是说,每个目标图像中可以包括一个或多个。相应地,可以从期刊、专利等电子刊物中预先提取出目标图像。
其中,目标图像可以是JPG格式、PNG格式等。
S102,利用预先训练好的提取模型,从化学反应流程图中提取元素信息,其中,元素信息包括元素的类型和坐标。
在具体实施中,该提取模型为利用大量的历史数据预先训练好的,并且,定期或不定期的对该提取模型进行更新训练,以提高提取模型的准确性。
值得说明的是,在利用预先训练好的提取模型,从化学反应流程图中提取元素信息之前,需要对目标图像进行识别,以识别出目标图像中的每个化学反应流程图,之后将化学反应流程图作为提取模型的输入,相较于将目标图像作为提取模型的输入,提取模型运算效率和准确性均较高。
在利用预先训练好的提取模型,从化学反应流程图中的提取元素信息时,将所有化学反应流程图作为提取模型的输入,按照预设转换算法将化学结构子图像转换为特征向量,以使提取模型对化学反应流程图对应的特征向量进行计算,从而输出化学反应流程图中的元素信息。其中,预设转换算法可以为化学结构子图像与特征向量之间的映射关系等。
作为其中一个示例地,提取模型对化学反应流程图进行计算时,提取模型对每个化学反应流程图对应的特征向量分别进行计算,得到多个候选元素信息以及每个候选元素信息对应的概率值;进一步地,选取概率值大于预设阈值的候选元素信息作为化学反应流程图中的元素信息。
其中,存在化学反应流程图或整个目标图像中包括多个元素的情况,因此,在目标图像中包括多个元素的情况下,多个元素信息之间通过预设间隔符进行间隔,间隔符可以为标点符号、特殊符号等。
作为一个示例地,元素信息包括元素的类型和坐标。例如,元素为箭头时,元素的类型可以包括单向箭头、双向箭头以及多向箭头等,元素的坐标可以包括箭头每个端点的坐标等。元素信息还可以包括元素的方向,例如箭头与水平方向之间的夹角等。
值得说明的是,本公开实施例是以从目标图像中识别出化学反应流程图,并将化学反应流程图作为提取模型输入为例进行阐述的,在实际应用中,也可以将目标图像直接作为提取模型的输入,以使提取模型直接对目标图像进行计算以提取元素信息。
本公开实施例还提供了训练提取模型的方法,具体参照图2示出的步骤,其包括S201-S204。
S201,获取训练集,训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息。
S202,将第一化学反应流程图样本转化为第一输入向量,并将第一输入向量输入至待训练的提取模型中,得到第一实际元素信息。
S203,计算第一实际元素信息与第一理论元素信息之间的第一误差是否在允许范围内。
S204,若第一误差不在允许范围内,调整待训练的提取模型的参数,直至第一误差落入允许范围内。
在具体实施中,先获取训练集,训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息,该第一元素的第一理论元素信息为人工转换得到的,或者由预设算法进行自动转换之后人工进行校验之后得到的。
之后,按照预设转换算法将第一化学反应流程图样本转化为第一输入向量,其中,可以基于预先建立的字典将第一化学反应流程图样本转化为第一输入向量,其中,该字典中包括化学反应流程图样本与输入向量之间的映射关系以及元素信息与输出向量之间的映射关系。之后,将第一输入向量输入至待训练的提取模型中,经待训练的提取模型对第一输入向量进行计算,得到第一实际元素信息,当然,待训练的提取模型也会计算得到多个候选元素,而第一实际元素信息为待训练的提取模型计算得到的概率值最大的候选元素的元素信息。其中,待训练的提取模型对第一输入向量进行计算得到的为第一输出向量,基于字典将第一输出向量转化为候选元素信息。
本公开实施例中的待训练的提取模型包括但不限于感知机算法、卷积神经网络、循环神经网络以及注意力机制网络等,可选地,待训练的提取模型用特征提取器-翻译器架构,特征提取器和翻译器均由神经网络组成。当然,本领域技术人员应知晓的是,上述为本公开的一个实施例,并不限定于此。
在得到第一实际元素信息之后,计算第一实际元素信息与第一理论元素信息之间的第一误差,并确定该第一误差是否在允许范围内。若误差不在允许范围内,调整待训练的提取模型的参数,利用调整参数之后的提取模型进行下一轮将训练,直至第一误差落入允许范围内,完成提取模型的训练。
在具体实施中,模型中的处理层数量不同或处理层的顺序不同均可能导致计算得到的结果不同,因此,可以预先建立多个待训练的提取模型,在对每个待训练的提取模型完成训练之后,利用验证集确定最终的提取模型,具体参照图3示出的方法流程图,步骤包括S301-S303。
S301,待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将第二输入向量分别输入至每个调整参数后的提取模型中,得到第二实际元素信息。
S302,计算每个第二实际元素信息与验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差。
S303,将最小的第二误差对应的调整参数后的提取模型作为提取模型。
这里,在待训练的提取模型为多个的情况下,利用验证集包括的第二化学反应流程图样本转化为第二输入向量,并将第二输入向量分别输入至每个调整参数后的提取模型中,得到第二实际元素信息,其中,将第二化学反应流程图样本转化为第二输入向量的方式与将第一化学反应流程图样本转化为第一输入向量的方式相同,在此,便不做过多赘述。
在得到每个调整参数后的提取模型对应的第二实际元素信息之后,计算该第二实际元素信息与验证集包括的第二理论元素信息之间的第二误差,也即该调整参数后的提取模型产生的误差。
之后,从多个第二误差中选取最小的第二误差,将最小的第二误差对应的调整参数后的提取模型作为提取模型。
进一步地,还可以利用测试集对最终确定的提取模型进行测试,以进一步验证提取模型的准确性。另外,还可以周期性的对提取模型进行更新训练,以确保提取模型的准确性。
在验证和更新的过程中,可以运行bash train.sh进行提取模型的训练,以完全实现自动化操作,自动化程度较高,节省人工成本。
相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
基于同一发明构思,本公开的第二方面还提供了一种化学反应流程图中元素的提取装置,由于本公开中的装置解决问题的原理与本公开上述化学反 应流程图中元素的提取方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图4所示,化学反应流程图中元素的提取装置包括:
获取模块401,其配置为获取目标图像,其中,所述目标图像中包括化学反应流程图;
提取模块402,其配置为利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
在另一实施例中,化学反应流程图中元素的提取装置还包括识别模块403,其配置为:
识别所述目标图像中的每个化学反应流程图。
在另一实施例中,提取模块402具体配置为:
将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
在另一实施例中,提取模块402中提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息时,具体包括:
所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;
选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。
在另一实施例中,化学反应流程图中元素的提取装置还包括分隔模块404,其配置为:
在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
在另一实施例中,化学反应流程图中元素的提取装置还包括第一训练模块405,其配置为:
获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;
将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;
计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;
若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
在另一实施例中,化学反应流程图中元素的提取装置还包括第二训练模块406,其配置为:
所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;
计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;
将最小的第二误差对应的调整参数后的提取模型作为提取模型。
相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
本公开的第三方面还提供了一种存储介质,该存储介质为计算机可读介质,存储有计算机程序,该计算机程序被处理器执行时实现本公开任意实施例提供的方法,包括如下步骤:
S11,获取目标图像,其中,所述目标图像中包括化学反应流程图;
S12,利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
计算机程序被处理器执行利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息之前,还具体被处理器执行如下步骤:识别所述目标图像中的每个化学反应流程图。
计算机程序被处理器执行利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息时,具体被处理器执行如下步骤:将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
计算机程序被处理器执行提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息时,还被处理器执行如下步骤:所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;选取所述概率值大于预设阈值的所述候选元素作为所述化 学反应流程图中的元素信息。
计算机程序被处理器执行提取方法时,还被处理器执行如下步骤:在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
计算机程序被处理器执行提取方法时,还被处理器执行如下步骤:获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
计算机程序被处理器执行提取方法时,还被处理器执行如下步骤:所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;将最小的第二误差对应的调整参数后的提取模型作为提取模型。
相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
需要说明的是,本公开上述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信 号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
本公开的第四方面还提供了一种电子设备,如图5所示,该电子设备至少包括存储器501和处理器502,存储器501上存储有计算机程序,处理器502在执行存储器501上的计算机程序时实现本公开任意实施例提供的方法。示例性的,电子设备计算机程序执行的方法如下:
S21,获取目标图像,其中,所述目标图像中包括化学反应流程图;
S22,利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
处理器在执行存储器上存储的利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息之前,还执行如下计算机程序:识别所述目标图像中的每个化学反应流程图。
处理器在执行存储器上存储的利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息时,还执行如下计算机程序:将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
处理器在执行存储器上存储的提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息时,还执行如下计算机程序:所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。
处理器在执行存储器上存储的提取方法时,还执行如下计算机程序:在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
处理器在执行存储器上存储的提取方法时,还执行如下计算机程序:获 取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
处理器在执行存储器上存储的提取方法时,还执行如下计算机程序:所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;将最小的第二误差对应的调整参数后的提取模型作为提取模型。
相较于现有技术中基于预先定义的参照形状确定目标图像中是否包含目标元素,本公开通过提取模型从目标图像中提取元素信息,以确定目标图像中是否包含目标元素,大大提高了元素提取的准确率,泛化性较好。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本邻域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替 换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
以上对本公开多个实施例进行了详细说明,但本公开不限于这些具体的实施例,本邻域技术人员在本公开构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本公开所要求保护的范围之内。

Claims (10)

  1. 一种化学反应流程图中元素的提取方法,其特征在于,包括:
    获取目标图像,其中,所述目标图像中包括化学反应流程图;
    利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
  2. 根据权利要求1所述的提取方法,其特征在于,在利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息之前,还包括:
    识别所述目标图像中的每个化学反应流程图。
  3. 根据权利要求1或2所述的提取方法,其特征在于,所述利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,包括:
    将所有所述化学反应流程图作为所述提取模型的输入,以使所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息。
  4. 根据权利要求3所述的提取方法,其特征在于,所述提取模型对所述化学反应流程图进行计算,输出所述化学反应流程图中的元素信息,包括:
    所述提取模型对所述化学反应流程图进行计算,得到多个候选元素以及每个候选元素对应的概率值;
    选取所述概率值大于预设阈值的所述候选元素作为所述化学反应流程图中的元素信息。
  5. 根据权利要求1-4中任一所述的提取方法,其特征在于,在所述目标图像中包括多个元素的情况下,通过预设间隔符将多个所述元素信息之间进行分隔。
  6. 根据权利要求1所述的提取方法,其特征在于,训练所述提取模型的步骤包括:
    获取训练集,所述训练集包括第一化学反应流程图样本和其包括的第一元素的第一理论元素信息;
    将所述第一化学反应流程图样本转化为第一输入向量,并将所述第一输入向量输入至待训练的提取模型中,得到第一实际元素信息;
    计算所述第一实际元素信息与所述第一理论元素信息之间的第一误差是否在允许范围内;
    若所述第一误差不在所述允许范围内,调整所述待训练的提取模型的参数,直至所述第一误差落入所述允许范围内。
  7. 根据权利要求6所述的提取方法,其特征在于,还包括:
    所述待训练的提取模型为多个的情况下,将验证集包括的第二化学反应流程图样本转化为第二输入向量,并将所述第二输入向量分别输入至每个所述调整参数后的提取模型中,得到第二实际元素信息;
    计算每个所述第二实际元素信息与所述验证集包括的第二化学反应流程图样本对应的第二理论元素信息之间的第二误差;
    将最小的第二误差对应的调整参数后的提取模型作为提取模型。
  8. 一种化学反应流程图中元素的提取装置,其特征在于,包括:
    获取模块,其配置为获取目标图像,其中,所述目标图像中包括化学反应流程图;
    提取模块,其配置为利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
  9. 一种存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
    获取目标图像,其中,所述目标图像中包括化学反应流程图;
    利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
  10. 一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
    获取目标图像,其中,所述目标图像中包括化学反应流程图;
    利用预先训练好的提取模型,从所述化学反应流程图中提取元素信息,其中,所述元素信息包括元素的类型和坐标。
PCT/CN2022/092361 2022-03-01 2022-05-12 化学反应流程图中元素的提取方法及装置 WO2023165018A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210206448.3A CN114581924A (zh) 2022-03-01 2022-03-01 化学反应流程图中元素的提取方法及装置
CN202210206448.3 2022-03-01

Publications (1)

Publication Number Publication Date
WO2023165018A1 true WO2023165018A1 (zh) 2023-09-07

Family

ID=81772057

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/092361 WO2023165018A1 (zh) 2022-03-01 2022-05-12 化学反应流程图中元素的提取方法及装置

Country Status (2)

Country Link
CN (1) CN114581924A (zh)
WO (1) WO2023165018A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334839A (zh) * 2018-01-31 2018-07-27 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN108776787A (zh) * 2018-06-04 2018-11-09 北京京东金融科技控股有限公司 图像处理方法及装置、电子设备、存储介质
US10699112B1 (en) * 2018-09-28 2020-06-30 Automation Anywhere, Inc. Identification of key segments in document images
EP3876236A1 (en) * 2020-03-04 2021-09-08 Merck Patent GmbH Extracting chemical structures from digitized images
CN114241505A (zh) * 2021-12-20 2022-03-25 苏州阿尔脉生物科技有限公司 化学结构图像的提取方法、装置、存储介质及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678734A (zh) * 2012-09-06 2014-03-26 北京化工大学 一种石脑油高温蒸汽裂解制乙烯分子反应模型优化方法
US9530102B2 (en) * 2015-02-17 2016-12-27 The Mathworks, Inc. Multimodal input processing
CN112543931A (zh) * 2018-03-07 2021-03-23 爱思唯尔有限公司 自动识别专利文献中相关化合物的方法、系统和存储介质
CN114868192A (zh) * 2019-12-26 2022-08-05 富士胶片株式会社 信息处理装置、信息处理方法及程序

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334839A (zh) * 2018-01-31 2018-07-27 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN108776787A (zh) * 2018-06-04 2018-11-09 北京京东金融科技控股有限公司 图像处理方法及装置、电子设备、存储介质
US10699112B1 (en) * 2018-09-28 2020-06-30 Automation Anywhere, Inc. Identification of key segments in document images
EP3876236A1 (en) * 2020-03-04 2021-09-08 Merck Patent GmbH Extracting chemical structures from digitized images
CN114241505A (zh) * 2021-12-20 2022-03-25 苏州阿尔脉生物科技有限公司 化学结构图像的提取方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RAJAN KOHULAN, BRINKHAUS HENNING OTTO, SOROKINA MARIA, ZIELESNY ACHIM, STEINBECK CHRISTOPH: "DECIMER-Segmentation: Automated extraction of chemical structure depictions from scientific literature", JOURNAL OF CHEMINFORMATICS, vol. 13, no. 1, 1 December 2021 (2021-12-01), pages 1 - 9, XP093074587, DOI: 10.1186/s13321-021-00496-1 *

Also Published As

Publication number Publication date
CN114581924A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
US10096121B2 (en) Human-shape image segmentation method
CN111160171B (zh) 一种联合两域多特征的辐射源信号识别方法
CN110570433B (zh) 基于生成对抗网络的图像语义分割模型构建方法和装置
CN110245685B (zh) 基因组单位点变异致病性的预测方法、系统及存储介质
JP2020123330A (ja) ニューラルネットワーク学習に利用されるオートラベリングされたイメージのうちでラベル検収のためのサンプルイメージを取得する方法、及びそれを利用したサンプルイメージ取得装置
CN112862774B (zh) 一种遥感影像建筑物精确分割方法
CN112597999B (zh) 一种题目识别方法、装置、电子设备及计算机存储介质
WO2023115790A1 (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
CN111158068A (zh) 一种基于简单卷积循环神经网络的短临预报方法及系统
CN111428817A (zh) 一种面向无线电信号识别对抗攻击的防御方法
CN111611386B (zh) 文本分类方法和装置
CN113065525B (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
WO2023035896A1 (zh) 视频的识别方法、装置、可读介质和电子设备
CN116681885B (zh) 输变电设备红外图像目标识别方法及系统
CN111476307A (zh) 一种基于深度领域适应的锂电池表面缺陷检测方法
CN113920255B (zh) 基于点云数据的高效测绘系统
CN110176006B (zh) 图像前景物体分割方法及装置
CN107992873A (zh) 目标检测方法及装置、存储介质、电子设备
WO2023165018A1 (zh) 化学反应流程图中元素的提取方法及装置
WO2023020210A1 (zh) 化学结构式的识别方法、装置、存储介质及电子设备
CN116189800B (zh) 基于气体检测的模式识别方法、装置、设备及存储介质
CN115147727A (zh) 一种遥感影像不透水面提取方法及系统
CN115311553A (zh) 目标检测方法、装置、电子设备及存储介质
CN114722905A (zh) 一种光通信接收模型的训练方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22929455

Country of ref document: EP

Kind code of ref document: A1