WO2022116417A1 - 三元组信息提取方法、装置、设备及计算机可读存储介质 - Google Patents

三元组信息提取方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
WO2022116417A1
WO2022116417A1 PCT/CN2021/082660 CN2021082660W WO2022116417A1 WO 2022116417 A1 WO2022116417 A1 WO 2022116417A1 CN 2021082660 W CN2021082660 W CN 2021082660W WO 2022116417 A1 WO2022116417 A1 WO 2022116417A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
text
triplet
training
triple
Prior art date
Application number
PCT/CN2021/082660
Other languages
English (en)
French (fr)
Inventor
侯丽
刘翔
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022116417A1 publication Critical patent/WO2022116417A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Definitions

  • the present application relates to the field of computer technologies, and in particular, to a method, apparatus, device, and computer-readable storage medium for extracting triple information.
  • the main purpose of this application is to provide a triple information extraction method, device, equipment and computer-readable storage medium, which aims to solve the problem that the existing triple information extraction technology only extracts several entities and relationships of specific types, and cannot The technical problem of extracting different types of triple information in text.
  • the present application provides a method for extracting triplet information, and the method for extracting triplet information includes the following steps:
  • data annotation is performed on any ordinary text to obtain annotated ordinary text, and the annotated ordinary text is used as training text;
  • the bert pre-training language model is trained based on the training text, a triple extraction model is obtained when the training of the bert pre-training language model is completed, and the triple information corresponding to any text is determined based on the triple extraction model .
  • the present application also provides a device for extracting triplet information
  • the device for extracting triplet information includes the following modules:
  • a crawling module is used to crawl a large amount of entry information in Internet data through a crawler tool, wherein the entry information includes a plurality of data in different fields;
  • a first extraction module configured to determine a sentence containing triplet information in the entry information based on the entry information, and preliminarily extract the triplet information in the sentence to obtain initial triplet information
  • An annotation module configured to perform data annotation on any ordinary text based on the initial triplet information, to obtain the annotated ordinary text, and use the annotated ordinary text as training text;
  • the second extraction module is used to train the bert pre-trained language model based on the training text, obtain a triple extraction model when training the bert pre-trained language model is completed, and determine any arbitrary extraction model based on the triple extraction model.
  • the present application also provides a triplet information extraction device, the triplet information extraction device includes: a memory, a processor and a device stored in the memory and available on the processor
  • the running triplet information extraction program when the triplet information extraction program is executed by the processor, realizes the steps of the above-mentioned triplet information extraction method, including:
  • data annotation is performed on any ordinary text to obtain annotated ordinary text, and the annotated ordinary text is used as training text;
  • the bert pre-training language model is trained based on the training text, a triple extraction model is obtained when the training of the bert pre-training language model is completed, and the triple information corresponding to any text is determined based on the triple extraction model .
  • the present application also provides a computer-readable storage medium
  • the computer-readable storage medium may be non-volatile or volatile
  • the computer-readable storage medium stores three A tuple information extraction program, when the triplet information extraction program is executed by a processor, realizes the steps of the above-mentioned triplet information extraction method, including:
  • data annotation is performed on any ordinary text to obtain annotated ordinary text, and the annotated ordinary text is used as training text;
  • the bert pre-training language model is trained based on the training text, a triple extraction model is obtained when the training of the bert pre-training language model is completed, and the triple information corresponding to any text is determined based on the triple extraction model .
  • This application crawls massive cross-domain entry information from Baidu Encyclopedia, finds sentences containing triple information in the entry information, and preliminarily extracts the triple information in the sentence to obtain the initial triple information, and then Align the initial triplet information to the pre-acquired ordinary text, and automatically label the ordinary text with triplet information.
  • These annotated data that is, the annotated ordinary text, are used as the training text for the subsequent bert pre-training language model; then use the obtained
  • the training text is used as the input of the deep learning algorithm, and the triplet extraction model is obtained by training, so that after the training of the triplet extraction model is completed, the triplet information in any text can be identified according to the trained triplet extraction model.
  • the final high-quality triple information can be finally extracted.
  • FIG. 1 is a schematic structural diagram of a triplet information extraction device of a hardware operating environment involved in a solution according to an embodiment of the present application;
  • FIG. 2 is a schematic flowchart of the first embodiment of the triple information extraction method of the present application.
  • FIG. 3 is a schematic flowchart of a second embodiment of a method for extracting triplet information according to the present application.
  • FIG. 1 is a schematic structural diagram of a triplet information extraction device of the hardware operating environment involved in the solution of the embodiment of the present application.
  • the triplet information extraction device in the embodiment of the present application may be a PC, or a smart phone, a tablet computer, an e-book reader, an MP3 (Moving Picture Experts Group Audio Layer III, moving image expert compression standard audio layer 3) player, MP4 (Moving Picture Experts Group Audio Layer IV, moving image expert compression standard audio layer 4) player, portable computer and other portable terminal equipment with display function.
  • MP3 Motion Picture Experts Group Audio Layer III, moving image expert compression standard audio layer 3
  • MP4 Motion Picture Experts Group Audio Layer IV, moving image expert compression standard audio layer 4
  • portable computer and other portable terminal equipment with display function.
  • the triplet information extraction device may include: a processor 1001 , such as a CPU, a network interface 1004 , a user interface 1003 , a memory 1005 , and a communication bus 1002 .
  • the communication bus 1002 is used to realize the connection and communication between these components.
  • the user interface 1003 may include a display screen (Display), an input unit such as a keyboard (Keyboard), and the optional user interface 1003 may also include a standard wired interface and a wireless interface.
  • the network interface 1004 may include a standard wired interface and a wireless interface (eg, a WI-FI interface).
  • the memory 1005 may be high-speed RAM memory, or may be non-volatile memory, such as disk memory.
  • the memory 1005 may also be a storage device independent of the aforementioned processor 1001 .
  • the triplet information extraction device may further include a camera, an RF (Radio Frequency, radio frequency) circuit, a sensor, an audio circuit, a WiFi module, and the like.
  • sensors such as light sensors, motion sensors and other sensors.
  • the light sensor may include an ambient light sensor and a proximity sensor, wherein the ambient light sensor may adjust the brightness of the display screen according to the brightness of the ambient light, and the proximity sensor may turn off the display when the triplet information extraction device is moved to the ear screen and/or backlight.
  • the gravitational acceleration sensor can detect the magnitude of acceleration in all directions (generally three axes), and can detect the magnitude and direction of gravity when it is stationary, and can be used to identify triplet information to extract the application of device attitude (such as Horizontal and vertical screen switching, related games, magnetometer attitude calibration), vibration recognition related functions (such as pedometer, tapping), etc.; of course, triple information extraction equipment can also be equipped with gyroscope, barometer, hygrometer, thermometer, Other sensors such as infrared sensors will not be repeated here.
  • the structure of the triplet information extraction device shown in FIG. 1 does not constitute a limitation on the triplet information extraction device, and may include more or less components than those shown in the figure, or combine some components, or a different arrangement of components.
  • the memory 1005 as a computer storage medium may include an operating system, a network communication module, a user interface module, and a triplet information extraction program.
  • the network interface 1004 is mainly used to connect to the background server and perform data communication with the background server; the user interface 1003 is mainly used to connect to the client (client) and perform data communication with the client. and the processor 1001 may be configured to call the triplet information extraction program stored in the memory 1005, and execute the triplet information extraction method provided by the embodiment of the present application.
  • FIG. 2 is a schematic flowchart of the first embodiment of the method for extracting triplet information according to the present application.
  • the method for extracting triplet information includes the following steps:
  • Step S10 crawling a large amount of entry information in Internet data by a crawler tool, wherein the entry information includes a plurality of data in different fields;
  • a crawler tool is used to automatically crawl a large amount of entry information from Baidu Encyclopedia in Internet data, and the crawled entry information covers people, life, culture, science, sports, economy, history, society, All fields included in Baidu Encyclopedia, such as geography, nature, art, etc., and at least 200,000 articles.
  • the crawler tool is an application program that collects a large amount of information. It is a program or script that automatically grabs information from the World Wide Web according to certain rules and requirements.
  • the crawler tool is composed of General Purpose Web Crawler, Focus Network Crawler (Focused Web Crawler), Incremental Web Crawler (Incremental Web Crawler), Deep Web Crawler (Deep Web Crawler) one or a combination of several crawler technologies.
  • Step S20 based on the entry information, determine a sentence containing triplet information in the entry information, and initially extract the triplet information in the sentence to obtain initial triplet information;
  • the triple information in the entry information is preliminarily extracted. Specifically, from the crawled entry information, first perform a preprocessing operation on the entry information, wherein the preprocessing operation may be sequentially performing operations such as parsing, segmentation, and filtering on the entry information, thereby initially filtering out the entry. redundant information in information.
  • the preprocessing operation is performed on the entry information, that is, the redundant information in the entry information is initially filtered out, the entry information after the preprocessing operation is parsed, and the sentence containing the triple information in the entry information is parsed; After the entry information contains a sentence containing triplet information, the triplet information therein is preliminarily extracted from the sentence containing triplet information to obtain initial triplet information.
  • step S20 includes:
  • Step S21 extracting useful text in the entry information through a text recognition model to obtain text information, and the useful text in the entry information includes semi-structured first text information and unstructured second text information;
  • Step S22 parsing the text information to obtain a sentence containing triplet information in the text information
  • Step S23 extracting triple information in the sentence to obtain initial triple information.
  • a preprocessing operation is first performed on the entry information to filter out redundant information in the entry information.
  • the entry information after filtering the redundant information is input into the pre-trained text recognition model to extract the useful text in the entry information, so as to extract the useful text in the entry information to obtain the text information, and the text information includes the semi-structure
  • the transformed first text information and the unstructured second text information that is, the semi-structured first text information and the unstructured second text information with scattered information, so as to parse out the semi-structured first text information in the entry information.
  • the semi-structured first text information refers to text with a certain structure, such as resume information, which has a certain structure but is not a very neat and strict structure, not a very fixed structure, so the resume information is semi-structured text information.
  • Unstructured second text information refers to text information without structure, such as a piece of news, which is freely written by a writer and has no fixed structure.
  • the text recognition model is used to extract semi-structured text information and unstructured text information in the entry information.
  • the text recognition model includes a text box recognition module and a text recognition module, and the text box recognition module is used to identify the entry information.
  • the text position in the text box, the text recognition module is used to recognize the text in the text box, and the text recognition model can be an OCR model.
  • the first text information and the second text information are parsed according to the preset parsing rules, so as to filter out the first text information and the second text information Sentences with triplet information contained in both messages; after that, extract triplet information in the sentence to obtain initial triplet information.
  • Step S30 based on the initial triplet information, perform data annotation on any ordinary text, obtain the ordinary text after the annotation, and use the ordinary text after the annotation as the training text;
  • the ordinary text is obtained, and the above-mentioned extracted initial triplet information is aligned into the sentence of the ordinary text.
  • Automatic sequence labeling for each text character the first character of entity information in ordinary text can be marked as SUB-B
  • the first character of associated information in ordinary text can be marked as PDC-B
  • the first character of attribute information in ordinary text can be marked as OBJ-B
  • All other non-triple information characters in ordinary text are marked with O.
  • the marked normal text is used as the training text of the bert pre-training language model to train the bert pre-training language model.
  • Step S40 train the bert pre-training language model based on the training text, obtain a triplet extraction model when the training of the bert pre-training language model is completed, and determine the triplet corresponding to any text based on the triplet extraction model. Tuple information.
  • the above marked training text is input into the bert pre-training language model for training, the matrix output by the last hidden layer of the bert pre-training language model is obtained, a fully connected layer operation is performed, and the calculation
  • Each character of the training text is predicted to be the probability value of a different label, and then the cross entropy loss value corresponding to this probability is calculated, and the parameters of the learning model are reversely updated according to the cross entropy loss value.
  • Triple extraction the triple information of the sentence includes the entity information, association information and attribute information of the sentence.
  • the entity information is the abstraction of the objective object, the attribute information represents the nature of the object, and the association information represents the relationship between entities.
  • any text can be predicted. Specifically, a news text (or other text) is randomly selected from the Internet, sentence segmentation is performed on the news text, and then each of the news texts is divided into sentences.
  • the sentence uses the triple extraction model to extract triples, and combines the triples extracted from all sentences to obtain triple information. After that, the obtained triplet information is checked and filtered, and the triplet information extracted by the triplet extraction model is further filtered to improve the quality of the triplet extracted by the triplet extraction model. , and finally use the NLP component to perform an advanced checksum filtering on the recognition results, which can extract the final high-quality triple results.
  • the triplet information perform word segmentation and part-of-speech tagging on a sentence from which a certain triplet information is extracted, and perform entity recognition on the sentence. If, in the extracted triplet information, the entity information of the extracted triplet information is identified as The entities or nouns and idioms in the part-of-speech tagging result are retained, and the triplet information is retained as the prediction result, so as to obtain the triplet information of the predicted text, otherwise the triplet information is discarded, and the triplet information is extracted again. model is adjusted.
  • the above-mentioned triplet information can also be stored in a node of a blockchain.
  • the triplet information extraction method proposed in this embodiment by crawling massive cross-domain entry information from Baidu Encyclopedia, finds sentences containing triplet information in the entry information, and preliminarily extracts the triplet information in the sentence
  • the initial triplet information is obtained from the group information, and then the initial triplet information is aligned to the pre-acquired ordinary text, and the ordinary text is automatically labeled with triplet information.
  • Train the training text of the language model then use the obtained training text as the input of the deep learning algorithm to train the triple extraction model, so that after training the triple extraction model, the trained triple extraction model can identify The possible triple information in any text can be extracted, so that the final high-quality triple information can be finally extracted.
  • step S40 the method further includes:
  • Step S50 inputting the triplet information corresponding to the arbitrary text into a preset knowledge system framework to construct a knowledge system map including multi-domain data;
  • Step S60 When receiving the question information input by the user, match the knowledge data included in the knowledge graph according to the question information, and determine the answer information corresponding to the question information.
  • the obtained triplet information ie entity information, association information and attribute information
  • the preset knowledge system framework can be input into the preset knowledge system framework, and an association with association information can be constructed.
  • Sexual Knowledge System Graph is a template framework for constructing the relationship between triple information.
  • the knowledge system graph is a database constructed by the knowledge system framework for storing and correlating triple information.
  • the system corresponding to the knowledge system map provides the function of information retrieval, that is, the question information can be input into the system corresponding to the knowledge system map, and the knowledge system map is based on the question information.
  • the relevant information matching the question information assemble the relevant information matching the question information according to the preset word order to obtain the answer information, and output the answer information.
  • the triplet information includes association information
  • the step of inputting the triplet information corresponding to the arbitrary text into a preset knowledge system framework to construct a knowledge system graph including multi-domain data includes:
  • Step S501 inputting the triplet information into a preset knowledge system framework, and acquiring the associated information of each of the triplet information;
  • Step S502 according to the association information of each of the triplet information, carry out an association arrangement for each of the triplet groups, and determine a triplet group information tree;
  • Step S503 based on the triple information tree, construct a knowledge system graph including multi-domain data.
  • the obtained triplet information can be input into a preset knowledge system framework to obtain each triplet Information related to information.
  • the obtained multiple triples are correlated and sorted, so as to sort out the triple information tree of the association relationship between the triple information with the associated relationship;
  • the tuple information tree is stored according to the template corresponding to the preset knowledge system framework, and the related knowledge system graph can be obtained.
  • the knowledge graph contains multiple triple information trees, and each triple information tree stores related triple information and the relationship between the triple information.
  • the step of inputting the triplet information corresponding to the arbitrary text into a preset knowledge system framework to construct a knowledge system map containing multi-domain data it also includes:
  • Step S70 if the request information for processing the newly added data information is received, the verification processing is performed on the newly added data information according to a preset information verification rule;
  • Step S80 if the verification of the newly added data information is passed, then the newly added data information is added to the knowledge system map to obtain an updated knowledge system map.
  • the newly added data information to be added is verified according to a preset information verification rule.
  • the newly added data information is the data information that supplements the knowledge data in the knowledge system graph
  • the newly added data information includes a plurality of newly added knowledge data
  • the preset information verification rules are used to verify the knowledge data in the knowledge graph. Verification information for verification processing of the contained knowledge data.
  • the information verification rules include knowledge data classification verification information, standard unified verification information, deduplication verification information, and association verification information.
  • the classification verification information is the information used to classify the newly added knowledge data according to the attribute information of the newly added knowledge data;
  • the standard unified verification information is the unit of the time, amount and other data in the newly added knowledge data Information for standardized processing;
  • deduplication verification information is the information for judging whether there is duplication between the new knowledge data and the original knowledge data in the knowledge graph. If the data is repeated, the newly added knowledge data will not be added to the knowledge graph;
  • the association verification information is information used to sort out the association relationship between the newly added knowledge data and other knowledge data.
  • the verification processing of the newly added data information through the preset information verification rules can avoid problems such as classification errors and inconsistent unit standards in the knowledge system map obtained after the update, and realize the verification of the newly added data information in the knowledge map. normalization.
  • the bert pre-training language model is trained based on the training text, and the step of obtaining the triplet extraction model when training the bert pre-training language model is completed includes:
  • Step S41 inputting the training text into the bert pre-training language model, and determining the entity link relationship of the entities in the training text;
  • Step S42 determining a model adjustment parameter according to the actual entity link relationship corresponding to the ordinary text and the entity link relationship, wherein the actual entity link relationship is determined by the annotation information of the ordinary text;
  • step S43 the bert pre-training language model is trained based on the model adjustment parameters, and a triple extraction model is obtained when the training of the bert pre-training language model is completed.
  • the marked training text is input into the bert pre-training language model for training, the matrix output by the last hidden layer of the bert pre-training language model is obtained, a fully connected layer operation is performed, and the training text is determined.
  • the entity link relationship of the entity and calculate the probability value that each character of the training text is predicted to be a different label according to the actual entity link relationship and the entity link relationship corresponding to the ordinary text, and then calculate the model adjustment parameter corresponding to this probability value, and adjust the parameters according to the model.
  • the model adjustment parameter may be a cross entropy loss value.
  • the bert pre-training language model includes a transformer structure
  • the training text is input into the bert pre-training language model
  • the step of determining the entity link relationship of entities in the training text includes:
  • Step S411 inputting the training text into the bert pre-training language model, and obtaining the vector representation of each character in the training text through the transformer structure;
  • Step S412 the vector representation of entity information in the training text is used as the entity link relationship of the entities in the training text.
  • the marked training text is input into the bert pre-training language model for training, and the matrix of the output of the last hidden layer of the bert pre-training language model is obtained through the transformer structure in the bert pre-training language model, A fully connected layer operation is performed to obtain the vector representation of each character in the training text; after obtaining the vector representation of each character in the training text, the vector representation of the entity information in the training text is used as the entity link relationship in the training text.
  • the triplet information extraction method proposed in this embodiment constructs a knowledge system map including multi-domain data by inputting the triplet information into a preset knowledge system framework; when receiving the question information input by the user, The knowledge data included in the knowledge graph is matched according to the question information, and the answer information corresponding to the question information is determined.
  • the triplet information obtained by extraction can be input into a preset knowledge system framework, and a knowledge system map including data in various fields can be generated, thereby A parseable, retrievable, and traceable knowledge system map is constructed, so that after the knowledge system map is constructed, the answer information corresponding to the input question information can be output according to the knowledge system map.
  • an embodiment of the present application also proposes an apparatus for extracting triplet information, where the apparatus for extracting triplet information includes:
  • a crawling module is used to crawl a large amount of entry information in Internet data through a crawler tool, wherein the entry information includes a plurality of data in different fields;
  • a first extraction module configured to determine a sentence containing triplet information in the entry information based on the entry information, and preliminarily extract the triplet information in the sentence to obtain initial triplet information
  • An annotation module configured to perform data annotation on any ordinary text based on the initial triplet information, to obtain the annotated ordinary text, and use the annotated ordinary text as training text;
  • the second extraction module is used to train the bert pre-trained language model based on the training text, obtain a triple extraction model when training the bert pre-trained language model is completed, and determine any arbitrary extraction model based on the triple extraction model.
  • the first extraction module is also used for:
  • the text information is parsed to obtain a sentence containing triplet information in the text information
  • the second extraction module is also used for:
  • the knowledge data included in the knowledge graph is matched according to the question information, and the answer information corresponding to the question information is determined.
  • the second extraction module is also used for:
  • the triplet is associated and sorted, and the triplet information tree is determined;
  • a knowledge system graph including multi-domain data is constructed.
  • the second extraction module is also used for:
  • the verification processing is performed on the newly added data information according to a preset information verification rule
  • the newly added data information is added to the knowledge system map to obtain an updated knowledge system map.
  • the second extraction module is also used for:
  • the training text is input into the bert pre-training language model, and the entity link relationship of the entities in the training text is determined;
  • the bert pre-training language model is trained based on the model adjustment parameters, and a triple extraction model is obtained when the training of the bert pre-training language model is completed.
  • the second extraction module is also used for:
  • the training text is input into the bert pre-training language model, and the vector representation of each character in the training text is obtained through the transformer structure;
  • the vector representation of entity information in the training text is used as the entity link relationship of the entities in the training text.
  • an embodiment of the present application also proposes a computer-readable storage medium, the computer-readable storage medium may be non-volatile or volatile, and the computer-readable storage medium stores triple information extraction A program, when the triple information extraction program is executed by the processor, implements the steps of the triple information extraction method described in any one of the above.
  • the blockchain referred to in this application is a new application mode of computer technologies such as distributed data storage, point-to-point transmission, consensus mechanism, and encryption algorithm.
  • Blockchain essentially a decentralized database, is a series of data blocks associated with cryptographic methods. Each data block contains a batch of network transaction information to verify its Validity of information (anti-counterfeiting) and generation of the next block.
  • the blockchain can include the underlying platform of the blockchain, the platform product service layer, and the application service layer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种三元组信息提取方法、装置、设备及计算机可读存储介质,涉及人工智能领域,包括:通过爬虫工具在互联网数据中爬取海量的词条信息;基于词条信息,确定词条信息中包含三元组信息的句子,并初步提取句子中的三元组信息,得到初始三元组信息(S20);基于初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将标注后的普通文本作为训练文本(S30);基于训练文本对bert预训练语言模型进行训练,在训练bert预训练语言模型完成时得到三元组抽取模型,并基于三元组抽取模型确定任意文本对应的三元组信息(S40)。三元组信息提取方法、装置、设备及计算机可读存储介质可以识别出任意文本中可能的三元组信息,从而最终可以抽取出最终的高质量的三元组信息并存储于区块链中。

Description

三元组信息提取方法、装置、设备及计算机可读存储介质
本申请要求于2020年12月03日提交中国专利局、申请号为202011415288.0、发明名称为“三元组信息提取方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
技术领域
本申请涉及计算机技术领域,尤其涉及一种三元组信息提取方法、装置、设备及计算机可读存储介质。
背景技术
目前,互联网上只有极少数知识被人类手工整理成了机器可以解析的格式,如各种百科栏目和垂直领域数据库,然而这些信息仅仅是沧海之一粟,无论是覆盖范围、更新频率、可靠程度都无法满足日益增长的自动化和智能化需求。
知识图谱构建技术发展至今,已有部分成熟的算法可用于少量特征明显的特定类型实体和关系的抽取,也有一些开源的NLP工具可用于特定类型实体的抽取。例如斯坦福大学开源的NLP工具stanford-corenlp支持对人名、地名、机构名、数字、货币、日期、时间等23类实体的抽取,哈工大开源的NLP工具LTP支持人名、机构名、地名三类实体的识别。而在三元组的关系抽取中,现有技术的实现方式均是把关系约束在已知的若干种类中,然后使用分类模型对包含实体的句子进行关系分类,进而抽取出三元组中的关系。
但是,发明人意识到随着互联网技术的发展,海量的文本中包含类型各异的实体和关系类型,现有的三元组信息抽取技术仅抽取特定类型的几种实体和关系,即提取出预先约定好的有限的几种类型,无法提取海量文本中类型各异的三元组信息。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种三元组信息提取方法、装置、设备及计算机可读存储介质,旨在解决现有的三元组信息抽取技术仅抽取特定类型的几种实体和关系,无法提取文本中类型各异的三元组信息的技术问题。
为实现上述目的,本申请提供一种三元组信息提取方法,所述三元组信息提取方法包括以下步骤:
通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
进一步地,为实现上述目的,本申请还提供供一种三元组信息提取装置,所述三元组信息提取装置包括以下模块:
爬取模块,用于通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
第一提取模块,用于基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
标注模块,用于基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
第二提取模块,用于基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
进一步地,为实现上述目的,本申请还提供一种三元组信息提取设备,所述三元组信息提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三元组信息提取程序,所述三元组信息提取程序被所述处理器执行时实现如上述的三元组信息提取方法的步骤,包括:
通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
进一步地,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性,所述计算机可读存储介质上存储有三元组信息提取程序,所述三元组信息提取程序被处理器执行时实现如上述的三元组信息提取方法的步骤,包括:
通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
本申请通过从百度百科中爬取海量的跨领域词条信息,在词条信息中找出包含三元组信息的句子,并初步提取句子中的三元组信息得到初始三元组信息,之后把初始三元组信息对齐到预先获取的普通文本中,对普通文本进行自动化的三元组信息标注,这些标注数据即标注后的普通文本作为后续bert预训练语言模型的训练文本;然后利用得到的训练文本作为深度学习算法的输入,训练得到三元组抽取模型,从而在训练完成三元组抽取模型后,根据训练完成的三元组抽取模型可以识别出任意文本中的三元组信息,从而最终可以抽取出最终的高质量的三元组信息。
附图说明
图1是本申请实施例方案涉及的硬件运行环境的三元组信息提取设备结构示意图;
图2为本申请三元组信息提取方法第一实施例的流程示意图;
图3为本申请三元组信息提取方法第二实施例的流程示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,图1是本申请实施例方案涉及的硬件运行环境的三元组信息提取设备结构示意图。
本申请实施例三元组信息提取设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该三元组信息提取设备可以包括:处理器1001,例如CPU,网络接口1004, 用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,三元组信息提取设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在三元组信息提取设备移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别三元组信息提取设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,三元组信息提取设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的三元组信息提取设备结构并不构成对三元组信息提取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及三元组信息提取程序。
在图1所示的三元组信息提取设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的三元组信息提取程序,并执行本申请实施例提供的三元组信息提取方法。
本申请还提供一种三元组信息提取方法,参照图2,图2为本申请三元组信息提取方法第一实施例的流程示意图。
在本实施例中,该三元组信息提取方法包括以下步骤:
步骤S10,通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
在本实施例中,使用爬虫工具在互联网数据中自动爬取百度百科大量的词条信息,所爬取的词条信息的领域涵盖人物、生活、文化、科学、体育、经济、历史、社会、地理、自然、艺术等百度百科中包含的全部领域,并且至少包括20万篇。其中,爬虫工具为一种收集大量信息的应用程序,是一种按照一定的规则,按需求自动地抓取万维网信息的程序或者脚本,爬虫工具由通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬 虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)中的一种或者几种爬虫技术相结合实现的。
步骤S20,基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
在本实施例中,得到各个不同领域的词条信息后,先初步提取词条信息中的三元组信息。具体地,从所爬取的词条信息中,对词条信息先执行预处理操作,其中,预处理操作可以是对词条信息依次进行解析、分词、过滤等操作,从而初步过滤掉词条信息中的多余信息。在对词条信息执行预处理操作即初步过滤掉词条信息中的多余信息后,对执行预处理操作后的词条信息进行解析,解析出词条信息中包含三元组信息的句子;得到词条信息中包含三元组信息的句子后,再从包含三元组信息的句子中初步提取其中的三元组信息,得到初始三元组信息。
进一步地,步骤S20包括:
步骤S21,通过文本识别模型提取所述词条信息中的有用文本,得到文本信息,所述词条信息中的有用文本包括半结构化的第一文本信息和非结构化的第二文本信息;
步骤S22,对所述文本信息进行解析,得到所述文本信息中包含三元组信息的句子;
步骤S23,提取所述句子中的三元组信息,得到初始三元组信息。
在本实施例中,从所爬取的词条信息中,对词条信息先执行预处理操作,以过滤掉词条信息中的多余信息。之后,将过滤多余信息后的词条信息输入职预先训练好的文本识别模型中进行提取词条信息中的有用文本,以提取出词条信息中的有用文本得到文本信息,文本信息包括半结构化的第一文本信息和非结构化的第二文本信息,即半结构化的第一文本信息以及信息零散的非结构化的第二文本信息,从而解析出词条信息中半结构化的第一文本信息和非结构化的第二文本信息。其中,半结构化的第一文本信息指的是具有一定结构的文本,比如简历信息,有一定的结构但是不是非常工整的严格的结构,不是非常固定的结构,因此简历信息属于半结构化的文本信息。非结构化的第二文本信息指的是没有结构的文本信息,比如一篇新闻,撰稿人是自由的编写,没有固定的结构。其中,文本识别模型用于提取词条信息中的半结构化的文本信息以及非结构化的文本信息,文本识别模型包含文本框识别模块和文字识别模块,文本框识别模块用于识别词条信息中的文字位置,文字识别模块用于识别文本框中的文字,文本识别模型可以是OCR模型。
得到半结构化的第一文本信息以及非结构化的第二文本信息之后,根据预设解析规则,对第一文本信息和第二文本信息进行解析,从而过滤出第一文本信息和第二文本信息二者所包含三元组信息的句子;之后,提取句子中的三元组信息,得到初始三元组信息。
步骤S30,基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
在本实施例中,在得到词条信息中的初始三元组信息后,获取普通文本,把上述提取出来的的初始三元组信息对齐到普通文本的句子中,对普通文本的句子中的每一个文字字 符进行自动化的序列标注。其中,可以对普通文本中实体信息的开头字符标注为SUB-B,可以对普通文本中关联信息的开头字符标注为PDC-B,可以对普通文本中属性信息的开头字符标注为OBJ-B,普通文本中其他非三元组信息的字符全部标注为O。对普通文本标注完成后,将已标注的普通文本作为bert预训练语言模型的训练文本,以对bert预训练语言模型进行训练。
步骤S40,基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
在本实施例中,把上述标注好的训练文本,输入到bert预训练语言模型中进行训练,获得bert预训练语言模型的最后一层隐藏层输出的矩阵,进行一个全连接层操作,并计算训练文本每一个字符预测为不同标签的概率值,再计算此概率对应的交差熵损失值,根据该交差熵损失值反向更新学习模型的参数,训练到模型收敛后保存起来,用于后续的三元组抽取。其中,句子的三元组信息包括句子的实体信息、关联信息和属性信息,实体信息为对客观物体的抽象,属性信息表示客体的性质,关联信息表示实体与实体之间的关系。
在训练完成三元组抽取模型后,可以对任意文本进行预测,具体地,从互联网中随便选取一个新闻文本(或者其他文本),对新闻文本进行句子切分,再对新闻文本中的每一个句子使用三元组抽取模型进行三元组抽取,把所有句子抽取出来的三元组合并,得到三元组信息。之后,对所得到的三元组信息进行校验和过滤,对三元组抽取模型所提取出来的三元组信息进行进一步的过滤,以提升三元组抽取模型抽取三元组的质量,其中,最后使用NLP组件进行对识别的结果进行一进步的校验和过滤,可以抽取出最终的高质量的三元组结果。具体地,把提取出某个三元组信息的句子进行分词和词性标注,并对该句子进行实体识别,如果提取出来的三元组信息中,提取出来的三元组信息的实体信息为识别出来的实体或者词性标注结果中的名词和习惯用语,则保留该三元组信息作为预测结果,从而得到预测文本的三元组信息,否则丢弃该三元组信息,重新对三元组信息抽取模型进行调整。
需要强调的是,为进一步保证上述三元组信息的私密和安全性,上述三元组信息还可以存储于一区块链的节点中。
本实施例提出的三元组信息提取方法,通过从百度百科中爬取海量的跨领域词条信息,在词条信息中找出包含三元组信息的句子,并初步提取句子中的三元组信息得到初始三元组信息,之后把初始三元组信息对齐到预先获取的普通文本中,对普通文本进行自动化的三元组信息标注,这些标注数据即标注后的普通文本作为后续bert预训练语言模型的训练文本;然后利用得到的训练文本作为深度学习算法的输入,训练得到三元组抽取模型,从而在训练完成三元组抽取模型后,根据训练完成的三元组抽取模型可以识别出任意文本中可能的三元组信息,从而最终可以抽取出最终的高质量的三元组信息。
基于第一实施例,提出本申请三元组信息提取方法的第二实施例,参照图3,在本实施例中,步骤S40之后,还包括:
步骤S50,将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;
步骤S60,在接收到用户输入的提问信息时,根据所述提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。
在本实施例中,识别到任意文本的三元组信息后,可以将所得到的三元组信息即实体信息、关联信息以及属性信息输入至预设的知识体系框架,即可构建得到具有关联性的知识体系图谱。其中,知识体系框架是一种用于构建三元组信息之间关联关系的模板框架,通过使用知识体系框架能够使三元组信息本身的信息得以存储,并能够被计算机设备理解和处理。知识体系图谱即是通过知识体系框架构建得到的用于对三元组信息进行存储及关联的数据库。在基于三元组信息构建完成知识体系图谱后,知识体系图谱对应的系统提供信息检索的功能,即可以向知识体系图谱对应的系统输入提问信息,知识体系图谱则根据提问信息,在知识图谱中的知识数据进行查询,在查询到与提问信息相匹配的相关信息时,按照预设语序对与提问信息相匹配的相关信息进行组装得到回答信息,并输出该回答信息。
进一步地,所述三元组信息包括关联信息,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤包括:
步骤S501,将所述三元组信息输入至预设的知识体系框架,并获取所述各所述三元组信息的关联信息;
步骤S502,根据各所述三元组信息的关联信息,对各所述三元组进行关联整理,确定三元组信息树;
步骤S503,基于所述三元组信息树,构建包含多领域数据的知识体系图谱。
在本实施例中,识别到任意文本的三元组信息后,可以将所得到的三元组信息即实体信息、关联信息以及属性信息输入至预设的知识体系框架,以获取各三元组信息的关联信息。之后,根据各数据信息所对应的数据关联信息对所得到的多个三元组进行关联整理,以梳理出具有关联关系的三元组信息之间的关联关系的三元组信息树;将三元组信息树按照预设的知识体系框架对应的模板进行存储,即可得到具有关联性的知识体系图谱。知识图谱中包含多个三元组信息树,每一个三元组信息树中存储有具有关联性的三元组信息以及三元组信息之间的关系。
进一步地,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤之后,还包括:
步骤S70,若接收到对新增数据信息进行处理的请求信息,根据预设的信息校验规则对所述新增数据信息进行校验处理;
步骤S80,若所述新增数据信息校验通过,则将所述新增数据信息添加至所述知识体 系图谱中以得到更新后的知识体系图谱。
在本实施例中,若接收到新增数据信息进行处理的请求信息,根据预设的信息校验规则对所需添加的新增数据信息进行校验。其中,新增数据信息即是对知识体系图谱中的知识数据进行补充的数据信息,新增数据信息中包含多个新增知识数据,预设的信息校验规则即是用于对知识图谱中所包含的知识数据进行校验处理的校验信息。
具体地,信息校验规则包括知识数据归类校验信息、标准统一校验信息、去重校验信息和关联校验信息。归类校验信息即是用于依据新增知识数据的属性信息对该新增知识数据进行分类处理的信息;标准统一校验信息即是对新增知识数据中的时间、金额等数据的单位进行标准化处理的信息;去重校验信息即是对新增知识数据与知识图谱中原有知识数据之间是否存在重复进行判断处理的信息,若新增知识数据与知识图谱中原有知识数据之间重复,则不将该新增知识数据添加至知识图谱中;关联校验信息即是用于对新增知识数据与其他知识数据之间的关联关系进行整理的信息。
通过预设的信息校验规则对新增数据信息进行校验处理,能够避免更新后所得到的知识体系图谱中存在分类错误、单位标准不统一等问题,实现了对知识图谱中新增数据信息的规范化。
进一步地,所述基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型的步骤包括:
步骤S41,将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系;
步骤S42,根据所述普通文本对应的实际实体链接关系以及所述实体链接关系,确定模型调整参数,其中,所述实际实体链接关系由所述普通文本的标注信息确定;
步骤S43,基于所述模型调整参数对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型。
在本实施例中,把标注好的训练文本输入到bert预训练语言模型中进行训练,获得bert预训练语言模型的最后一层隐藏层输出的矩阵,进行一个全连接层操作,确定训练文本中实体的实体链接关系,并根据普通文本对应的实际实体链接关系以及实体链接关系计算训练文本每一个字符预测为不同标签的概率值,再计算此概率值对应的模型调整参数,根据该模型调整参数反向更新bert预训练语言模型的模型参数,训练到模型收敛后保存起来,用于后续的三元组抽取。其中,模型调整参数可以是交差熵损失值。
进一步地,所述bert预训练语言模型包括transformer结构,所述将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系的步骤包括:
步骤S411,将所述训练文本输入到所述bert预训练语言模型中,通过所述transformer结构,得到所述训练文本中每个字符的向量表示;
步骤S412,将所述训练文本中实体信息的向量表示作为所述训练文本中实体的实体 链接关系。
在本实施例中,把标注好的训练文本输入到bert预训练语言模型中进行训练,通过bert预训练语言模型中的transformer结构,获得bert预训练语言模型的最后一层隐藏层输出的矩阵,进行一个全连接层操作,得到训练文本中每个字符的向量表示;得到训练文本中每个字符的向量表示后,将训练文本中实体信息的向量表示作为训练文本中实体链接关系。
本实施例提出的三元组信息提取方法,通过将所述三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;在接收到用户输入的提问信息时,根据提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。在本实施例中,可以对不同领域的任意文本进行三元组信息提取后,基于提取得到的三元组信息输入至预设的知识体系框架中,进行包含各个领域数据的知识体系图谱,从而构建了可解析、可检索、可溯源的知识体系图谱,以供在构建完成知识体系图谱之后,根据知识体系图谱输出对输入提问信息对应的回答信息。
此外,本申请实施例还提出一种三元组信息提取装置,所述三元组信息提取装置包括:
爬取模块,用于通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
第一提取模块,用于基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
标注模块,用于基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
第二提取模块,用于基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
进一步地,所述第一提取模块,还用于:
通过文本识别模型提取所述词条信息中的有用文本,得到文本信息,所述词条信息中的有用文本包括半结构化的第一文本信息和非结构化的第二文本信息;
对所述文本信息进行解析,得到所述文本信息中包含三元组信息的句子;
提取所述句子中的三元组信息,得到初始三元组信息。
进一步地,所述第二提取模块,还用于:
将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;
在接收到用户输入的提问信息时,根据所述提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。
进一步地,所述第二提取模块,还用于:
将所述三元组信息输入至预设的知识体系框架,并获取所述各所述三元组信息的关联信息;
根据各所述三元组信息的关联信息,对各所述三元组进行关联整理,确定三元组信息树;
基于所述三元组信息树,构建包含多领域数据的知识体系图谱。
进一步地,所述第二提取模块,还用于:
若接收到对新增数据信息进行处理的请求信息,根据预设的信息校验规则对所述新增数据信息进行校验处理;
若所述新增数据信息校验通过,则将所述新增数据信息添加至所述知识体系图谱中以得到更新后的知识体系图谱。
进一步地,所述第二提取模块,还用于:
将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系;
根据所述普通文本对应的实际实体链接关系以及所述实体链接关系,确定模型调整参数,其中,所述实际实体链接关系由所述普通文本的标注信息确定;
基于所述模型调整参数对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型。
进一步地,所述第二提取模块,还用于:
将所述训练文本输入到所述bert预训练语言模型中,通过所述transformer结构,得到所述训练文本中每个字符的向量表示;
将所述训练文本中实体信息的向量表示作为所述训练文本中实体的实体链接关系。
此外,本申请实施例还提出一种计算机可读存储介质,所述所述计算机可读存储介质可以是非易失性,也可以是易失性,计算机可读存储介质上存储有三元组信息提取程序,所述三元组信息提取程序被处理器执行时实现如上述中任一项所述的三元组信息提取方法的步骤。
本申请计算机可读存储介质具体实施例与上述三元组信息提取方法的各实施例基本相同,在此不再详细赘述。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种三元组信息提取方法,其中,所述三元组信息提取方法包括以下步骤:
    通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
    基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
    基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
    基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
  2. 如权利要求1所述的三元组信息提取方法,其中,所述基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息的步骤包括:
    通过文本识别模型提取所述词条信息中的有用文本,得到文本信息,所述词条信息中的有用文本包括半结构化的第一文本信息和非结构化的第二文本信息;
    对所述文本信息进行解析,得到所述文本信息中包含三元组信息的句子;
    提取所述句子中的三元组信息,得到初始三元组信息。
  3. 如权利要求1所述的三元组信息提取方法,其中,所述基于所述三元组抽取模型确定任意文本对应的三元组信息的步骤之后,还包括:
    将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;
    在接收到用户输入的提问信息时,根据所述提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。
  4. 如权利要求3所述的三元组信息提取方法,其中,所述三元组信息包括关联信息,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤包括:
    将所述三元组信息输入至预设的知识体系框架,并获取所述各所述三元组信息的关联信息;
    根据各所述三元组信息的关联信息,对各所述三元组进行关联整理,确定三元组信息树;
    基于所述三元组信息树,构建包含多领域数据的知识体系图谱。
  5. 如权利要求3所述的三元组信息提取方法,其中,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤之 后,还包括:
    若接收到对新增数据信息进行处理的请求信息,根据预设的信息校验规则对所述新增数据信息进行校验处理;
    若所述新增数据信息校验通过,则将所述新增数据信息添加至所述知识体系图谱中以得到更新后的知识体系图谱。
  6. 如权利要求1至5任一项所述的三元组信息提取方法,其中,所述基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型的步骤包括:
    将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系;
    根据所述普通文本对应的实际实体链接关系以及所述实体链接关系,确定模型调整参数,其中,所述实际实体链接关系由所述普通文本的标注信息确定;
    基于所述模型调整参数对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型。
  7. 如权利要求6所述的三元组信息提取方法,其中,所述bert预训练语言模型包括transformer结构,所述将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系的步骤包括:
    将所述训练文本输入到所述bert预训练语言模型中,通过所述transformer结构,得到所述训练文本中每个字符的向量表示;
    将所述训练文本中实体信息的向量表示作为所述训练文本中实体的实体链接关系。
  8. 一种三元组信息提取设备,其中,所述三元组信息提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的三元组信息提取程序,所述三元组信息提取程序被所述处理器执行时实现如下所述的三元组信息提取方法的步骤:
    通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
    基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
    基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
    基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
  9. 如权利要求8所述的三元组信息提取设备,其中,所述三元组信息提取程序被所述处理器执行实现所述基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息的步骤时,还执行以下步骤:
    通过文本识别模型提取所述词条信息中的有用文本,得到文本信息,所述词条信息中的有用文本包括半结构化的第一文本信息和非结构化的第二文本信息;
    对所述文本信息进行解析,得到所述文本信息中包含三元组信息的句子;
    提取所述句子中的三元组信息,得到初始三元组信息。
  10. 如权利要求8所述的三元组信息提取设备,其中,所述三元组信息提取程序被所述处理器执行实现所述基于所述三元组抽取模型确定任意文本对应的三元组信息的步骤之后,还执行以下步骤:
    将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;
    在接收到用户输入的提问信息时,根据所述提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。
  11. 如权利要求10所述的三元组信息提取设备,其中,所述三元组信息提取程序被所述处理器执行实现所述三元组信息包括关联信息,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤时,还执行以下步骤:
    将所述三元组信息输入至预设的知识体系框架,并获取所述各所述三元组信息的关联信息;
    根据各所述三元组信息的关联信息,对各所述三元组进行关联整理,确定三元组信息树;
    基于所述三元组信息树,构建包含多领域数据的知识体系图谱。
  12. 如权利要求10所述的三元组信息提取设备,其中,所述三元组信息提取程序被所述处理器执行实现所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤之后,还执行以下步骤:
    若接收到对新增数据信息进行处理的请求信息,根据预设的信息校验规则对所述新增数据信息进行校验处理;
    若所述新增数据信息校验通过,则将所述新增数据信息添加至所述知识体系图谱中以得到更新后的知识体系图谱。
  13. 如权利要求8至12任一项所述的三元组信息提取设备,其中,所述三元组信息提取程序被所述处理器执行实现所述基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型的步骤时,还执行以下步骤:
    将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系;
    根据所述普通文本对应的实际实体链接关系以及所述实体链接关系,确定模型调整参数,其中,所述实际实体链接关系由所述普通文本的标注信息确定;
    基于所述模型调整参数对bert预训练语言模型进行训练,在训练所述bert预训练语 言模型完成时得到三元组抽取模型。
  14. 一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有三元组信息提取程序,所述三元组信息提取程序被处理器执行时实现如下所述的三元组信息提取方法的步骤:
    通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
    基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
    基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
    基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
  15. 如权利要求14所述的计算机可读存储介质,其中,所述三元组信息提取程序被处理器执行所述基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息的步骤时,还执行如下步骤:
    通过文本识别模型提取所述词条信息中的有用文本,得到文本信息,所述词条信息中的有用文本包括半结构化的第一文本信息和非结构化的第二文本信息;
    对所述文本信息进行解析,得到所述文本信息中包含三元组信息的句子;
    提取所述句子中的三元组信息,得到初始三元组信息。
  16. 如权利要求14所述的计算机可读存储介质,其中,所述三元组信息提取程序被处理器执行所述基于所述三元组抽取模型确定任意文本对应的三元组信息的步骤之后,还执行以下步骤:
    将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱;
    在接收到用户输入的提问信息时,根据所述提问信息对所述知识图谱中所包含的知识数据进行匹配,确定所述提问信息对应的回答信息。
  17. 如权利要求16所述的计算机可读存储介质,其中,所述三元组信息提取程序被处理器执行所述三元组信息包括关联信息,所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤时,还执行如下步骤:
    将所述三元组信息输入至预设的知识体系框架,并获取所述各所述三元组信息的关联信息;
    根据各所述三元组信息的关联信息,对各所述三元组进行关联整理,确定三元组信息树;
    基于所述三元组信息树,构建包含多领域数据的知识体系图谱。
  18. 如权利要求16所述的计算机可读存储介质,其中,所述三元组信息提取程序被处理器执行所述将所述任意文本对应的三元组信息输入至预设的知识体系框架,以构建包含多领域数据的知识体系图谱的步骤之后,还执行以下步骤:
    若接收到对新增数据信息进行处理的请求信息,根据预设的信息校验规则对所述新增数据信息进行校验处理;
    若所述新增数据信息校验通过,则将所述新增数据信息添加至所述知识体系图谱中以得到更新后的知识体系图谱。
  19. 如权利要求14至18任一项所述的计算机可读存储介质,其中,所述三元组信息提取程序被处理器执行所述基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型的步骤时,还执行如下步骤:
    将所述训练文本输入到所述bert预训练语言模型中,确定所述训练文本中实体的实体链接关系;
    根据所述普通文本对应的实际实体链接关系以及所述实体链接关系,确定模型调整参数,其中,所述实际实体链接关系由所述普通文本的标注信息确定;
    基于所述模型调整参数对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型。
  20. 一种三元组信息提取装置,其中,所述三元组信息提取装置包括:
    爬取模块,用于通过爬虫工具在互联网数据中爬取海量的词条信息,其中,所述词条信息包含多个不同领域的数据;
    第一提取模块,用于基于所述词条信息,确定所述词条信息中包含三元组信息的句子,并初步提取所述句子中的三元组信息,得到初始三元组信息;
    标注模块,用于基于所述初始三元组信息,对任意的普通文本进行数据标注,得到标注后的普通文本,并将所述标注后的普通文本作为训练文本;
    第二提取模块,用于基于所述训练文本对bert预训练语言模型进行训练,在训练所述bert预训练语言模型完成时得到三元组抽取模型,并基于所述三元组抽取模型确定任意文本对应的三元组信息。
PCT/CN2021/082660 2020-12-03 2021-03-24 三元组信息提取方法、装置、设备及计算机可读存储介质 WO2022116417A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011415288.0A CN112507125A (zh) 2020-12-03 2020-12-03 三元组信息提取方法、装置、设备及计算机可读存储介质
CN202011415288.0 2020-12-03

Publications (1)

Publication Number Publication Date
WO2022116417A1 true WO2022116417A1 (zh) 2022-06-09

Family

ID=74970684

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/082660 WO2022116417A1 (zh) 2020-12-03 2021-03-24 三元组信息提取方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN112507125A (zh)
WO (1) WO2022116417A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168599A (zh) * 2022-06-20 2022-10-11 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品
CN115168606A (zh) * 2022-07-01 2022-10-11 北京理工大学 一种面向半结构化工艺数据的映射模板知识抽取方法
CN115238688A (zh) * 2022-08-15 2022-10-25 广州市刑事科学技术研究所 电子信息数据关联关系分析方法、装置、设备和存储介质
CN115309870A (zh) * 2022-10-11 2022-11-08 启元世界(北京)信息技术服务有限公司 一种知识获取方法及装置
CN115909386A (zh) * 2023-01-06 2023-04-04 中国石油大学(华东) 一种管道仪表流程图的补全和纠错方法、设备及存储介质
CN116701665A (zh) * 2023-08-08 2023-09-05 滨州医学院 基于深度学习的中医古籍知识图谱构建方法
CN117033667A (zh) * 2023-10-07 2023-11-10 之江实验室 一种知识图谱构建方法、装置、存储介质及电子设备
CN117131208A (zh) * 2023-10-24 2023-11-28 北京中企慧云科技有限公司 产业科技文本数据推送方法、装置、设备和介质
CN117151659A (zh) * 2023-10-31 2023-12-01 浙江万维空间信息技术有限公司 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN117150050A (zh) * 2023-10-31 2023-12-01 卓世科技(海南)有限公司 一种基于大语言模型的知识图谱构建方法及系统
CN117540035A (zh) * 2024-01-09 2024-02-09 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法
CN117725223A (zh) * 2023-11-20 2024-03-19 中国科学院成都文献情报中心 面向知识发现的科学实验知识图谱构建方法及系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507125A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN113094469B (zh) * 2021-04-02 2022-07-05 清华大学 文本数据分析方法、装置、电子设备及存储介质
CN113051356B (zh) * 2021-04-21 2023-05-30 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN113282762B (zh) * 2021-05-27 2023-06-02 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN114398943B (zh) * 2021-12-09 2023-04-07 北京百度网讯科技有限公司 样本增强方法及其装置
CN114595686B (zh) * 2022-03-11 2023-02-03 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055243A1 (en) * 2014-08-22 2016-02-25 Ut Battelle, Llc Web crawler for acquiring content
CN106294593A (zh) * 2016-07-28 2017-01-04 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN112507125A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055243A1 (en) * 2014-08-22 2016-02-25 Ut Battelle, Llc Web crawler for acquiring content
CN106294593A (zh) * 2016-07-28 2017-01-04 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN112507125A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168599A (zh) * 2022-06-20 2022-10-11 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品
CN115168606A (zh) * 2022-07-01 2022-10-11 北京理工大学 一种面向半结构化工艺数据的映射模板知识抽取方法
CN115168606B (zh) * 2022-07-01 2024-05-24 北京理工大学 一种面向半结构化工艺数据的映射模板知识抽取方法
CN115238688A (zh) * 2022-08-15 2022-10-25 广州市刑事科学技术研究所 电子信息数据关联关系分析方法、装置、设备和存储介质
CN115309870A (zh) * 2022-10-11 2022-11-08 启元世界(北京)信息技术服务有限公司 一种知识获取方法及装置
CN115909386A (zh) * 2023-01-06 2023-04-04 中国石油大学(华东) 一种管道仪表流程图的补全和纠错方法、设备及存储介质
CN116701665A (zh) * 2023-08-08 2023-09-05 滨州医学院 基于深度学习的中医古籍知识图谱构建方法
CN117033667B (zh) * 2023-10-07 2024-01-09 之江实验室 一种知识图谱构建方法、装置、存储介质及电子设备
CN117033667A (zh) * 2023-10-07 2023-11-10 之江实验室 一种知识图谱构建方法、装置、存储介质及电子设备
CN117131208B (zh) * 2023-10-24 2024-02-02 北京中企慧云科技有限公司 产业科技文本数据推送方法、装置、设备和介质
CN117131208A (zh) * 2023-10-24 2023-11-28 北京中企慧云科技有限公司 产业科技文本数据推送方法、装置、设备和介质
CN117150050A (zh) * 2023-10-31 2023-12-01 卓世科技(海南)有限公司 一种基于大语言模型的知识图谱构建方法及系统
CN117150050B (zh) * 2023-10-31 2024-01-26 卓世科技(海南)有限公司 一种基于大语言模型的知识图谱构建方法及系统
CN117151659A (zh) * 2023-10-31 2023-12-01 浙江万维空间信息技术有限公司 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN117151659B (zh) * 2023-10-31 2024-03-22 浙江万维空间信息技术有限公司 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN117725223A (zh) * 2023-11-20 2024-03-19 中国科学院成都文献情报中心 面向知识发现的科学实验知识图谱构建方法及系统
CN117540035A (zh) * 2024-01-09 2024-02-09 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法
CN117540035B (zh) * 2024-01-09 2024-05-14 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法

Also Published As

Publication number Publication date
CN112507125A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
WO2022116417A1 (zh) 三元组信息提取方法、装置、设备及计算机可读存储介质
US11599714B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
US20210081611A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
WO2018072563A1 (zh) 一种知识图谱构建方法、装置及系统
CN111538894B (zh) 查询反馈方法、装置、计算机设备及存储介质
CN107220386A (zh) 信息推送方法和装置
CN107451153A (zh) 输出结构化查询语句的方法和装置
US10659398B2 (en) Interactive virtual conversation interface systems and methods
CN110472045B (zh) 一种基于文档嵌入的短文本虚假问题分类预测方法及装置
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
US20220405484A1 (en) Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
US10861437B2 (en) Method and device for extracting factoid associated words from natural language sentences
WO2021120588A1 (zh) 语料生成方法、装置、计算机设备及存储介质
CN110825956A (zh) 一种信息流推荐方法、装置、计算机设备及存储介质
WO2012126259A1 (zh) 一种具有信息发布和搜索功能的系统及信息发布方法
CN102955848A (zh) 一种基于语义的三维模型检索系统和方法
CN109977291A (zh) 基于物理知识图谱的检索方法、装置、设备及存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
US10762438B1 (en) Extracting questions and answers
CN111753522A (zh) 事件抽取方法、装置、设备以及计算机可读存储介质
CN117093460A (zh) 评估方法、装置、电子设备及计算机可读存储介质
CN115640403A (zh) 基于知识图谱的知识管控方法及装置
CN114331932A (zh) 目标图像生成方法和装置、计算设备以及计算机存储介质
CN113822521A (zh) 题库题目的质量检测方法、装置及存储介质
CN113254796A (zh) 网络物件标签管理方法与系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21899461

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21899461

Country of ref document: EP

Kind code of ref document: A1