WO2021218322A1 - 段落搜索方法、装置、电子设备及存储介质 - Google Patents

段落搜索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
WO2021218322A1
WO2021218322A1 PCT/CN2021/077871 CN2021077871W WO2021218322A1 WO 2021218322 A1 WO2021218322 A1 WO 2021218322A1 CN 2021077871 W CN2021077871 W CN 2021077871W WO 2021218322 A1 WO2021218322 A1 WO 2021218322A1
Authority
WO
WIPO (PCT)
Prior art keywords
data set
paragraph
question
searched
text representation
Prior art date
Application number
PCT/CN2021/077871
Other languages
English (en)
French (fr)
Inventor
杨凤鑫
徐国强
Original Assignee
深圳壹账通智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳壹账通智能科技有限公司 filed Critical 深圳壹账通智能科技有限公司
Publication of WO2021218322A1 publication Critical patent/WO2021218322A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Definitions

  • This application relates to the field of artificial intelligence and data processing technology, and in particular to a paragraph search method, device, electronic equipment, and storage medium.
  • Search is an important way for users to query knowledge, and it occupies a very important position in daily life.
  • a paragraph search method includes:
  • a paragraph search device includes:
  • the extension unit is used to obtain a text data set, and expand the text data set based on the Transformer model to obtain an extended data set;
  • An analysis unit configured to perform regression analysis on the extended data set based on the BERT model to obtain a basic data set
  • the determining unit is configured to determine the initial text representation of the question to be searched by using the basic data set in response to the question to be searched for received;
  • An adjustment unit configured to adjust the initial text representation based on the named entity recognition model to obtain the target text representation of the question to be searched;
  • a search unit configured to use the BM25 algorithm to search in the basic data set based on the target text representation to obtain an initial paragraph
  • the screening unit is configured to use a classification model trained based on the BERT algorithm to screen the initial paragraph, and output a target paragraph corresponding to the question to be searched.
  • An electronic device which includes:
  • the memory stores at least one computer readable instruction
  • the processor executes at least one computer-readable instruction stored in the memory to implement the following steps:
  • a classification model trained based on the BERT algorithm is used to screen the initial paragraph, and output the target paragraph corresponding to the question to be searched.
  • a computer-readable storage medium in which at least one computer-readable instruction is stored, and the at least one computer-readable instruction is executed by a processor in an electronic device to implement the following steps:
  • a classification model trained based on the BERT algorithm is used to screen the initial paragraph, and output the target paragraph corresponding to the question to be searched.
  • this application can neutralize the speed and accuracy through the combination of traditional and in-depth methods based on artificial intelligence. First, select some results, and then filter a few paragraphs based on the depth model. Both The combination method improves the search speed and the accuracy of the query results.
  • Fig. 1 is a flowchart of a preferred embodiment of the paragraph search method of the present application.
  • Fig. 2 is a functional block diagram of a preferred embodiment of the paragraph search device of the present application.
  • the paragraph search method is applied to one or more electronic devices.
  • the electronic device is a device that can automatically perform numerical calculation and/or information processing in accordance with pre-set or stored instructions. Its hardware includes but is not limited to Microprocessor, Application Specific Integrated Circuit (ASIC), Field-Programmable Gate Array (FPGA), Digital Processor (Digital Signal Processor, DSP), embedded equipment, etc.
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • DSP Digital Processor
  • embedded equipment etc.
  • the electronic device may be any electronic product that can perform human-computer interaction with the user, such as a personal computer, a tablet computer, a smart phone, a personal digital assistant (PDA), a game console, an interactive network television ( Internet Protocol Television, IPTV), smart wearable devices, etc.
  • a personal computer a tablet computer
  • a smart phone a personal digital assistant (PDA)
  • PDA personal digital assistant
  • IPTV interactive network television
  • smart wearable devices etc.
  • the electronic device may also include a network device and/or user equipment.
  • the network device includes, but is not limited to, a single network server, a server group composed of multiple network servers, or a cloud composed of a large number of hosts or network servers based on cloud computing.
  • the network where the electronic device is located includes, but is not limited to, the Internet, a wide area network, a metropolitan area network, a local area network, a virtual private network (Virtual Private Network, VPN), etc.
  • S10 Acquire a text data set, and expand the text data set based on the Transformer model to obtain an extended data set.
  • the expanding the text data set based on the Transformer model to obtain the expanded data set includes:
  • the expansion of the text data set is realized.
  • “Hesitation period” and “free surrender” are related, but it is difficult to find their relationship only from the text matching. It is difficult to find relevant paragraphs when inquiring.
  • the Transformer model is used to add “free surrender” information to the paragraph of the “hesitation period”, so that it is easy to find relevant information when inquiring about.
  • Synonymous expressions have been added to the question to improve the comprehensiveness of the search. It should be emphasized that, in order to further ensure the privacy and security of the text data set, the text data set may also be stored in a node of a blockchain.
  • the performing regression analysis on the extended data set based on the BERT model to obtain a basic data set includes:
  • the textual representations of each data pair are integrated to obtain the basic data set.
  • TF-IDF term frequency-inverse document frequency, commonly used weighting technology for information retrieval data mining
  • TF-IDF is usually used to predict the importance of a word.
  • TF-IDF is calculated by multiplying the word frequency by the inverse word frequency, and the word frequency refers to a certain
  • the number of times a word appears in the article can represent the importance of the word.
  • the number of occurrences in other articles will be high, but these words are often not important in the article.
  • the BERT model is used in this case instead of TF-IDF to predict the importance of words, and the semantics can be deeply understood through regression analysis, and the prediction results are more accurate.
  • using the basic data set to determine the initial text representation of the question to be searched includes:
  • the at least one word segmentation is matched in the basic data set to obtain the initial text representation of the question to be searched.
  • the adjusting the initial text representation based on the named entity recognition model to obtain the target text representation of the question to be searched includes:
  • the target entity configured with preset weights and other entities in the initial text representation are configured to obtain the target text representation of the question to be searched.
  • the use of the BM25 algorithm to search in the basic data set based on the target text representation to obtain the initial paragraph includes:
  • the relevance is sorted, and the paragraph in the top preset position is obtained as the initial paragraph.
  • a rough search is performed based on the BM25 algorithm to find multiple initial paragraphs that may be relevant in a large amount of data.
  • S15 Use a classification model trained based on the BERT algorithm to filter the initial paragraphs, and output a target paragraph corresponding to the question to be searched.
  • this embodiment first uses the traditional BM25 for rough sorting, finds multiple initial paragraphs that may be relevant in a large amount of data, and then uses the classification model trained based on the BERT algorithm for precise search, which saves calculation time , Can also get higher accuracy.
  • the deep model can understand the in-depth meanings such as the syntax and semantics of the question to be searched, and can find the most relevant paragraphs more accurately. The accuracy is far better than the machine learning model, but the speed is not as good as the traditional machine learning model.
  • This embodiment neutralizes speed and accuracy through a combination of tradition and depth. By first filtering out some results, and then filtering a few paragraphs based on the depth model, the combination of the two improves the search speed and the accuracy of the query results.
  • training samples including multiple paragraphs, multiple questions, and the pre-marked correlation between each paragraph and each question;
  • the training is stopped to obtain the classification model.
  • a classification model trained based on the BERT algorithm is used to perform a precise search, so as to further improve the accuracy of the search.
  • this application can obtain a text data set, and expand the text data set based on the Transformer model to obtain the extended data set, which adds diversified information of each paragraph, and adds a question for each paragraph
  • the synonymous expression is improved, and the comprehensiveness of the search is improved.
  • the extended data set is further analyzed based on the BERT model to obtain the basic data set, so that the semantics can be deeply understood through the regression analysis, and the prediction results are more accurate.
  • the expansion unit 110 expands the text data set based on the Transformer model to obtain the expanded data set including:
  • the combined data pairs are integrated to obtain the extended data set.
  • the expansion of the text data set is realized.
  • "Hesitation period” and “free surrender” are related, but it is difficult to find their relationship only from the text matching. It is difficult to find relevant paragraphs when inquiring.
  • the Transformer model is used to add “free surrender” information to the paragraphs of the “hesitation period”, so that relevant information can be easily found when inquiring about.
  • This embodiment adds diversified information for each paragraph. Synonymous expressions have been added to the question to improve the comprehensiveness of the search.
  • the analysis unit 111 performs regression analysis on the extended data set based on a BERT (Bidirectional Encoder Representations from Transformers) model to obtain a basic data set.
  • BERT Bidirectional Encoder Representations from Transformers
  • the analysis unit 111 performs regression analysis on the extended data set based on the BERT model to obtain a basic data set including:
  • the textual representations of each data pair are integrated to obtain the basic data set.
  • the BERT model is used in this case instead of TF-IDF to predict the importance of words, and the semantics can be deeply understood through regression analysis, and the prediction results are more accurate.
  • the determining unit 112 uses the basic data set to determine the initial text representation of the question to be searched.
  • the determining unit 112 uses the basic data set to determine the initial text representation of the question to be searched, including:
  • the at least one word segmentation is matched in the basic data set to obtain the initial text representation of the question to be searched.
  • the question to be searched is first segmented into words, and then based on the segmented word, the question to be searched is converted into a language that can be recognized by a machine for subsequent use.
  • the adjustment unit 113 adjusts the initial text representation based on the named entity recognition model, and obtains the target text representation of the question to be searched includes:
  • the target entity configured with preset weights and other entities in the initial text representation are configured to obtain the target text representation of the question to be searched.
  • corresponding weights are configured for important words, so that the important words are highlighted in the search process, and the corresponding paragraphs can be searched more easily.
  • the search unit 114 uses the BM25 algorithm to search in the basic data set based on the target text representation to obtain an initial paragraph.
  • the search unit 114 uses the BM25 algorithm to search in the basic data set based on the target text representation, and obtain the initial paragraph including:
  • the relevance is sorted, and the paragraph in the top preset position is obtained as the initial paragraph.
  • a rough search is performed based on the BM25 algorithm to find multiple initial paragraphs that may be relevant in a large amount of data.
  • the screening unit 115 uses a classification model trained based on the BERT algorithm to screen the initial paragraph, and output a target paragraph corresponding to the question to be searched.
  • this embodiment first uses the traditional BM25 for rough sorting, finds multiple initial paragraphs that may be relevant in a large amount of data, and then uses the classification model trained based on the BERT algorithm for precise search, which saves calculation time , Can also get higher accuracy.
  • the deep model can understand the in-depth meanings such as the syntax and semantics of the question to be searched, and can find the most relevant paragraphs more accurately. The accuracy is far better than the machine learning model, but the speed is not as good as the traditional machine learning model.
  • This embodiment neutralizes speed and accuracy through a combination of tradition and depth. By first filtering out some results, and then filtering a few paragraphs based on the depth model, the combination of the two improves the search speed and the accuracy of the query results.
  • the device further includes:
  • the obtaining unit 116 obtains a training sample, the training sample includes multiple paragraphs, multiple questions, and the pre-marked correlation between each paragraph and each question;
  • the training unit 117 uses the BERT algorithm to train the training samples
  • the training unit 117 stops training to obtain the classification model.
  • a classification model trained based on the BERT algorithm is used to perform a precise search, so as to further improve the accuracy of the search.
  • this application can obtain a text data set, and expand the text data set based on the Transformer model to obtain the extended data set, which adds diversified information of each paragraph, and adds a question for each paragraph
  • the synonymous expression is improved, and the comprehensiveness of the search is improved.
  • the extended data set is further analyzed based on the BERT model to obtain the basic data set, so that the semantics can be deeply understood through the regression analysis, and the prediction results are more accurate.
  • FIG. 3 it is a schematic structural diagram of an electronic device according to a preferred embodiment of the paragraph search method according to the present application.
  • the electronic device 1 may include a memory 12, a processor 13, and a bus, and may also include a computer program stored in the memory 12 and running on the processor 13, such as a paragraph search program.
  • the electronic device 1 may have a bus structure or a star structure.
  • the device 1 may also include more or less other hardware or software than shown in the figure, or a different component arrangement.
  • the electronic device 1 may also include an input/output device, a network access device, and the like.
  • the electronic device 1 is only an example. If other existing or future electronic products can be adapted to this application, they should also be included in the scope of protection of this application and included here by reference. .
  • the memory 12 includes at least one type of readable storage medium, the readable storage medium includes flash memory, mobile hard disk, multimedia card, card-type memory (for example: SD or DX memory, etc.), magnetic memory, magnetic disk, optical disk, etc. .
  • the memory 12 may be an internal storage unit of the electronic device 1 in some embodiments, for example, a mobile hard disk of the electronic device 1.
  • the memory 12 may also be an external storage device of the electronic device 1, such as a plug-in mobile hard disk, a smart media card (SMC), and a secure digital (Secure Digital, SD) equipped on the electronic device 1.
  • SMC smart media card
  • SD Secure Digital
  • Card, Flash Card etc.
  • the memory 12 may also include both an internal storage unit of the electronic device 1 and an external storage device.
  • the memory 12 can be used not only to store application software and various data installed in the electronic device 1, such as the code of a paragraph search program, etc., but also to temporarily store data that has been output or will be output.
  • the processor 13 may be composed of integrated circuits in some embodiments, for example, may be composed of a single packaged integrated circuit, or may be composed of multiple integrated circuits with the same function or different functions, including one or more central processing units. Combinations of central processing unit (CPU), microprocessor, digital processing chip, graphics processor, and various control chips.
  • the processor 13 is the control unit of the electronic device 1, which uses various interfaces and lines to connect the various components of the entire electronic device 1, and runs or executes programs or modules stored in the memory 12 (such as executing Paragraph search program, etc.), and call the data stored in the memory 12 to execute various functions of the electronic device 1 and process data.
  • the processor 13 executes the operating system of the electronic device 1 and various installed applications.
  • the processor 13 executes the application program to implement the steps in the foregoing paragraph search method embodiments, such as steps S10, S11, S12, S13, S14, and S15 shown in FIG. 1.
  • the processor 13 implements the functions of the modules/units in the foregoing device embodiments when executing the computer program, for example:
  • a classification model trained based on the BERT algorithm is used to screen the initial paragraph, and output the target paragraph corresponding to the question to be searched.
  • the computer program may be divided into one or more modules/units, and the one or more modules/units are stored in the memory 12 and executed by the processor 13 to complete the present invention.
  • the one or more modules/units may be a series of computer-readable instruction segments capable of completing specific functions, and the instruction segments are used to describe the execution process of the computer program in the electronic device 1.
  • the computer program can be divided into an expansion unit 110, an analysis unit 111, a determination unit 112, an adjustment unit 113, a search unit 114, a screening unit 115, an acquisition unit 116, and a training unit 117.
  • the above-mentioned integrated unit implemented in the form of a software function module may be stored in a computer readable storage medium.
  • the above-mentioned software function module is stored in a storage medium and includes several instructions to make a computer device (which can be a personal computer, a computer device, or a network device, etc.) or a processor to execute the methods described in the various embodiments of the present application part.
  • the computer program includes computer program code
  • the computer program code may be in the form of source code, object code, executable file, or some intermediate forms.
  • the computer-readable medium may include: any entity or device capable of carrying the computer program code, recording medium, U disk, mobile hard disk, magnetic disk, optical disk, computer memory, read-only memory (ROM, Read-Only Memory) , Random access memory, etc.
  • the electronic device 1 may also include a power source (such as a battery) for supplying power to various components.
  • the power source may be logically connected to the at least one processor 13 through a power management device, so as to be realized by the power management device. Functions such as charge management, discharge management, and power consumption management.
  • the power supply may also include any components such as one or more DC or AC power supplies, recharging devices, power failure detection circuits, power converters or inverters, and power status indicators.
  • the electronic device 1 may also include various sensors, Bluetooth modules, Wi-Fi modules, etc., which will not be repeated here.
  • the electronic device 1 may also include a network interface.
  • the network interface may include a wired interface and/or a wireless interface (such as a WI-FI interface, a Bluetooth interface, etc.), which is usually used in the electronic device 1 Establish a communication connection with other electronic devices.
  • the electronic device 1 may also include a user interface.
  • the user interface may be a display (Display) and an input unit (such as a keyboard (Keyboard)).
  • the user interface may also be a standard wired interface or a wireless interface.
  • the display may be an LED display, a liquid crystal display, a touch-sensitive liquid crystal display, an OLED (Organic Light-Emitting Diode, organic light-emitting diode) touch device, etc.
  • the display can also be appropriately called a display screen or a display unit, which is used to display the information processed in the electronic device 1 and to display a visualized user interface.
  • FIG. 3 only shows the electronic device 1 with components 12-13. Those skilled in the art can understand that the structure shown in FIG. 3 does not constitute a limitation on the electronic device 1, and may include less Or more parts, or a combination of some parts, or a different arrangement of parts.
  • the memory 12 in the electronic device 1 stores multiple instructions to implement a paragraph search method, and the processor 13 can execute the multiple instructions to achieve:
  • a classification model trained based on the BERT algorithm is used to screen the initial paragraph, and output the target paragraph corresponding to the question to be searched.
  • the functional modules in the various embodiments of the present application may be integrated into one processing unit, or each unit may exist alone physically, or two or more units may be integrated into one unit.
  • the above-mentioned integrated unit may be implemented in the form of hardware, or may be implemented in the form of hardware plus software functional modules.
  • the blockchain referred to in this application is a new application mode of computer technology such as distributed data storage, point-to-point transmission, consensus mechanism, and encryption algorithm.
  • Blockchain essentially a decentralized database, is a series of data blocks associated with cryptographic methods. Each data block contains a batch of network transaction information for verification. The validity of the information (anti-counterfeiting) and the generation of the next block.
  • the blockchain can include the underlying platform of the blockchain, the platform product service layer, and the application service layer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种段落搜索方法、装置、电子设备及存储介质。该方法能够基于Transformer模型对文本数据集进行扩展,提高了搜索的全面性,基于BERT模型对扩展数据集进行回归分析,得到基础数据集,以深度理解语义,响应于接收到的待搜索问题,确定待搜索问题的初始文本表示,并基于命名实体识别模型对初始文本表示进行调整,得到待搜索问题的目标文本表示,以突出重要的词,采用BM25算法,基于目标文本表示在基础数据集中进行搜索并采用基于BERT算法训练的分类模型对初始段进行筛选,输出段落,通过传统与深度相结合的数据处理形式,提高了搜索的速度以及查询结果的准确度。此外,还涉及区块链技术,所述文本数据集可存储于区块链中。

Description

段落搜索方法、装置、电子设备及存储介质
本申请要求于2020年04月30日提交中国专利局、申请号为202010365953.3,发明名称为“段落搜索方法、装置、电子设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能及数据处理技术领域,尤其涉及一种段落搜索方法、装置、电子设备及存储介质。
背景技术
搜索是用户查询知识的重要途径,在日常生活中占有非常重要的地位。
而现有的搜索引擎在搜索时,主要是依靠关键字或者基于字面的统计信息进行查询,发明人意识到,由于无法充分理解用户的搜索意图,只局限于文字的表层含义,查询结果往往不够准确。
另外,现有的搜索引擎也无法同时兼顾搜索的准确率及搜索效率。
发明内容
鉴于以上内容,有必要提供一种段落搜索方法、装置、电子设备及存储介质,能够基于Attention机制加强每个词汇与其它词汇间的关联,根据关键词汇的权重,实现知识的自动抽取,提高段落搜索的效率及准确率。
一种段落搜索方法,所述方法包括:
获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集;
基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集;
响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示;
基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示;
采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落;
采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
一种段落搜索装置,所述装置包括:
扩展单元,用于获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集;
分析单元,用于基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集;
确定单元,用于响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示;
调整单元,用于基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示;
搜索单元,用于采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落;
筛选单元,用于采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机可读指令;及
处理器,执行所述存储器中存储的至少一个计算机可读指令以实现以下步骤:
获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集;
基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集;
响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示;
基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示;
采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落;
采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机可读指令,所述至少一个计算机可读指令被电子设备中的处理器执行以实现以下步骤:
获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集;
基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集;
响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示;
基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示;
采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落;
采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
由以上技术方案可以看出,本申请能够基于人工智能手段,通过传统与深度相结合的形式,中和了速度与准确度,先筛选出部分结果,再基于深度模型筛选少部分段落,两者结合的方式,提高了搜索的速度以及查询结果的准确度。
附图说明
图1是本申请段落搜索方法的较佳实施例的流程图。
图2是本申请段落搜索装置的较佳实施例的功能模块图。
图3是本申请实现段落搜索方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本申请进行详细描述。
如图1所示,是本申请段落搜索方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述段落搜索方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列 (Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集。
在本申请的至少一个实施例中,所述基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集包括:
获取所述文本数据集中的各个数据对,所述数据对中包括段落及对应的问题;
将各个数据对分别输入至所述Transformer模型,得到各个数据对中段落的多种问题;
将与各个数据对中段落的相关度大于或者等于第一预设值的问题确定为各个数据对中段落的扩展问题;
将各个数据对中段落的扩展问题合并至对应的段落;
整合合并后的各个数据对,得到所述扩展数据集。
通过上述实施方式,实现了对文本数据集的扩展。例如:“犹豫期”和“免费退保”是相关的,但是单单从文字匹配上,很难发现他们的关系。那么在查询时,则很难找到相关的段落。本实施例利用Transformer模型,给“犹豫期”的段落增加“免费退保”的信息,这样查询时就很容易找到相关信息,本实施例增加了各个段落的多样化信息,为每个段落的问题添加了同义表述,提高了搜索的全面性。需要强调的是,为进一步保证上述文本数据集的私密和安全性,上述文本数据集还可以存储于一区块链的节点中。
S11,基于BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码器表征)模型对所述扩展数据集进行回归分析,得到基础数据集。
在本申请的至少一个实施例中,所述基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集包括:
采用BERT算法,并基于通用文本库进行预训练,得到所述BERT模型;
将所述扩展数据集中的各个数据对依次输入至所述BERT模型,输出每个词的重要程度评分;
对每个词的重要程度评分进行标准化处理;
基于所述扩展数据集中各个数据对的词组成生成各个数据对的文本表示;
整合各个数据对的文本表示,得到所述基础数据集。
现有技术方案中通常采用TF-IDF(term frequency–inverse document frequency,信息检索数据挖掘的常用加权技术)预测词的重要程度,TF-IDF采用词频乘以逆词频来计算,词频是指某个词在文章中出现的次数,能够代表该词的重要程度,但是,对于一些语气词、助词等,在其他的文章中出现的次数也会很高,但是这些词往往在文章中并不重要。另外,当利用TF(词频)*IDF(其他文章中词频的倒数)计算词的重要程度时,在本篇文章中出现的次数越多,在其他文章中出现的次数越少的词,其TFIDF的值越高,预测出的重要程度也越高,则会有一定的局限性,比如:对于句子“麋鹿是鹿科动物,以青草或水草为食物,是一种濒危的动物。他们类似驯鹿,但不是驯鹿”。在这句话中,重点词为“麋鹿”,但由于“驯鹿”出现的次数多,假如“驯鹿”和“麋鹿”的逆词频是一致的,那“驯鹿”的TF-IDF要高于“麋鹿”,显然,该结果是不准确的,TF-IDF也就无法 准确预测出这个句子中各个词的重要程度,可见,TF-IDF在应用于本实施例时,存在一定弊端。
相比较而言,本案采用BERT模型代替TF-IDF预测词的重要程度,能够通过回归分析深度理解语义,预测结果更加准确。
S12,响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示。
在本申请的至少一个实施例中,所述响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示包括:
根据预设词典对所述待搜索问题进行切分,得到切分位置;
以所述切分位置构建至少一个有向无环图;
根据所述预设词典中的权值计算每个有向无环图的概率;
将概率最大的有向无环图对应的切分位置确定为目标切分位置;
根据所述目标切分位置切分所述待搜索问题,得到至少一个分词;
将所述至少一个分词在所述基础数据集中进行匹配,得到所述待搜索问题的初始文本表示。
通过上述实施方式,首先将所述待搜索问题进行词切分,再基于切分后的分词将所述待搜索问题转化为能够被机器识别的语言,以供后续使用。
S13,基于命名实体识别模型(Named Entity Recognition,NER)对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示。
在本申请的至少一个实施例中,所述基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示包括:
将所述初始文本表示输入至所述命名实体识别模型,输出所述初始文本表示中的目标实体;
为所述目标实体配置预设权重;
基于所述初始文本表示中各个实体的顺序组合配置了预设权重后的目标实体与所述初始文本表示中的其他实体,得到所述待搜索问题的目标文本表示。
通过上述实施方式,为重要的词配置相应的权重,以便在搜索过程中突出重要的词,更易于搜索到对应的段落。
S14,采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落。
在本申请的至少一个实施例中,所述采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落包括:
采用BM25算法从所述基础数据集中搜索出与所述目标文本表示相关的所有段落;
计算搜索出的段落与所述目标文本表示的相关度;
将相关度大于或者等于第二预设值的段落确定为所述初始段落;或者
对所述相关度进行排序,获取排在前预设位的段落作为所述初始段落。
在本实施例中,基于BM25算法执行粗略搜索,以便在大量的数据中找到可能相关的多条初始段落。
S15,采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
可以理解的是,直接用深度模型的预测结果最为精准,但是由于BERT模型运算量大,如果直接使用BERT模型进行预测,会耗费大量的运算时间。为了解决这个问题,本实施例先采用传统的BM25进行粗排,在大量的数据中找到可能相关的多条初始段落,再利用基于BERT算法训练的分类模型进行精确搜索,这样节约了计算的时间,也能够得到较高的精度。深度模型能够理解待搜索问题中语法语义等深层含义,能够更加精确的找到最为相关的段落,准确度远远优于机器学习模型,但是速度比不上传统的机器学 习模型。本实施例通过传统与深度相结合的形式,中和了速度与准确度。通过先筛选出部分结果,再基于深度模型筛选少部分段落,两者结合的方式,提高了搜索的速度以及查询结果的准确度。
优选地,所述方法还包括:
获取训练样本,所述训练样本中包括多个段落、多个问题,以及预先标记的每个段落与每个问题的相关度;
采用BERT算法对所述训练样本进行训练;
当输出的相关度与预先标记的相关度间的差异小于或者等于配置值时,停止训练,得到所述分类模型。
由于BERT模型具有较佳的分类效果,模型的结构较深,对语义的理解性更好,因此,本实施例采用基于BERT算法训练的分类模型执行精确搜索,以便进一步提升搜索的准确性。
由以上技术方案可以看出,本申请能够获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集,增加了各个段落的多样化信息,为每个段落的问题添加了同义表述,提高了搜索的全面性,进一步基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集,以便通过回归分析深度理解语义,预测结果更加准确,响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示,并基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示,以便在搜索过程中突出重要的词,更易于搜索到对应的段落,进一步采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落,并采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落,基于人工智能手段,通过传统与深度相结合的形式,中和了速度与准确度,先筛选出部分结果,再基于深度模型筛选少部分段落,两者结合的方式,提高了搜索的速度以及查询结果的准确度。
如图2所示,是本申请段落搜索装置的较佳实施例的功能模块图。所述段落搜索装置11包括扩展单元110、分析单元111、确定单元112、调整单元113、搜索单元114、筛选单元115、获取单元116、训练单元117。本申请所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
扩展单元110获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集。
在本申请的至少一个实施例中,所述扩展单元110基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集包括:
获取所述文本数据集中的各个数据对,所述数据对中包括段落及对应的问题;
将各个数据对分别输入至所述Transformer模型,得到各个数据对中段落的多种问题;
将与各个数据对中段落的相关度大于或者等于第一预设值的问题确定为各个数据对中段落的扩展问题;
将各个数据对中段落的扩展问题合并至对应的段落;
整合合并后的各个数据对,得到所述扩展数据集。
通过上述实施方式,实现了对文本数据集的扩展。例如:“犹豫期”和“免费退保”是相关的,但是单单从文字匹配上,很难发现他们的关系。那么在查询时,则很难找到相关的段落。本实施例利用Transformer模型,给“犹豫期”的段落增加“免费退保”的信息,这样查询时就很容易找到相关信息,本实施例增加了各个段落的多样化信息,为每个段落的问题添加了同义表述,提高了搜索的全面性。
分析单元111基于BERT(Bidirectional Encoder Representations from Transformers, 基于Transformer的双向编码器表征)模型对所述扩展数据集进行回归分析,得到基础数据集。
在本申请的至少一个实施例中,所述分析单元111基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集包括:
采用BERT算法,并基于通用文本库进行预训练,得到所述BERT模型;
将所述扩展数据集中的各个数据对依次输入至所述BERT模型,输出每个词的重要程度评分;
对每个词的重要程度评分进行标准化处理;
基于所述扩展数据集中各个数据对的词组成生成各个数据对的文本表示;
整合各个数据对的文本表示,得到所述基础数据集。
现有技术方案中通常采用TF-IDF(term frequency–inverse document frequency,信息检索数据挖掘的常用加权技术)预测词的重要程度,TF-IDF采用词频乘以逆词频来计算,词频是指某个词在文章中出现的次数,能够代表该词的重要程度,但是,对于一些语气词、助词等,在其他的文章中出现的次数也会很高,但是这些词往往在文章中并不重要。另外,当利用TF(词频)*IDF(其他文章中词频的倒数)计算词的重要程度时,在本篇文章中出现的次数越多,在其他文章中出现的次数越少的词,其TFIDF的值越高,预测出的重要程度也越高,则会有一定的局限性,比如:对于句子“麋鹿是鹿科动物,以青草或水草为食物,是一种濒危的动物。他们类似驯鹿,但不是驯鹿”。在这句话中,重点词为“麋鹿”,但由于“驯鹿”出现的次数多,假如“驯鹿”和“麋鹿”的逆词频是一致的,那“驯鹿”的TF-IDF要高于“麋鹿”,显然,该结果是不准确的,TF-IDF也就无法准确预测出这个句子中各个词的重要程度,可见,TF-IDF在应用于本实施例时,存在一定弊端。
相比较而言,本案采用BERT模型代替TF-IDF预测词的重要程度,能够通过回归分析深度理解语义,预测结果更加准确。
响应于接收到的待搜索问题,确定单元112利用所述基础数据集确定所述待搜索问题的初始文本表示。
在本申请的至少一个实施例中,所述确定单元112响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示包括:
根据预设词典对所述待搜索问题进行切分,得到切分位置;
以所述切分位置构建至少一个有向无环图;
根据所述预设词典中的权值计算每个有向无环图的概率;
将概率最大的有向无环图对应的切分位置确定为目标切分位置;
根据所述目标切分位置切分所述待搜索问题,得到至少一个分词;
将所述至少一个分词在所述基础数据集中进行匹配,得到所述待搜索问题的初始文本表示。
通过上述实施方式,首先将所述待搜索问题进行词切分,再基于切分后的分词将所述待搜索问题转化为能够被机器识别的语言,以供后续使用。
调整单元113基于命名实体识别模型(Named Entity Recognition,NER)对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示。
在本申请的至少一个实施例中,所述调整单元113基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示包括:
将所述初始文本表示输入至所述命名实体识别模型,输出所述初始文本表示中的目标实体;
为所述目标实体配置预设权重;
基于所述初始文本表示中各个实体的顺序组合配置了预设权重后的目标实体与所述初始文本表示中的其他实体,得到所述待搜索问题的目标文本表示。
通过上述实施方式,为重要的词配置相应的权重,以便在搜索过程中突出重要的词,更易于搜索到对应的段落。
搜索单元114采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落。
在本申请的至少一个实施例中,所述搜索单元114采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落包括:
采用BM25算法从所述基础数据集中搜索出与所述目标文本表示相关的所有段落;
计算搜索出的段落与所述目标文本表示的相关度;
将相关度大于或者等于第二预设值的段落确定为所述初始段落;或者
对所述相关度进行排序,获取排在前预设位的段落作为所述初始段落。
在本实施例中,基于BM25算法执行粗略搜索,以便在大量的数据中找到可能相关的多条初始段落。
筛选单元115采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
可以理解的是,直接用深度模型的预测结果最为精准,但是由于BERT模型运算量大,如果直接使用BERT模型进行预测,会耗费大量的运算时间。为了解决这个问题,本实施例先采用传统的BM25进行粗排,在大量的数据中找到可能相关的多条初始段落,再利用基于BERT算法训练的分类模型进行精确搜索,这样节约了计算的时间,也能够得到较高的精度。深度模型能够理解待搜索问题中语法语义等深层含义,能够更加精确的找到最为相关的段落,准确度远远优于机器学习模型,但是速度比不上传统的机器学习模型。本实施例通过传统与深度相结合的形式,中和了速度与准确度。通过先筛选出部分结果,再基于深度模型筛选少部分段落,两者结合的方式,提高了搜索的速度以及查询结果的准确度。
优选地,所述装置还包括:
获取单元116获取训练样本,所述训练样本中包括多个段落、多个问题,以及预先标记的每个段落与每个问题的相关度;
训练单元117采用BERT算法对所述训练样本进行训练;
当输出的相关度与预先标记的相关度间的差异小于或者等于配置值时,所述训练单元117停止训练,得到所述分类模型。
由于BERT模型具有较佳的分类效果,模型的结构较深,对语义的理解性更好,因此,本实施例采用基于BERT算法训练的分类模型执行精确搜索,以便进一步提升搜索的准确性。
由以上技术方案可以看出,本申请能够获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集,增加了各个段落的多样化信息,为每个段落的问题添加了同义表述,提高了搜索的全面性,进一步基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集,以便通过回归分析深度理解语义,预测结果更加准确,响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示,并基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示,以便在搜索过程中突出重要的词,更易于搜索到对应的段落,进一步采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落,并采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落,基于人工智能手段,通过传统与深度相结合的形式,中和了速度与准确度,先筛选出部分结果,再基于深度模型筛选少部分段落,两者结合的方式,提高了搜索的速度以及查询结果的准确度。
如图3所示,是本申请实现段落搜索方法的较佳实施例的电子设备的结构示意图。
所述电子设备1可以包括存储器12、处理器13和总线,还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如段落搜索程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,所述电子设备1既可以是总线型结构,也可以是星形结构,所述电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如所述电子设备1还可以包括输入输出设备、网络接入设备等。
需要说明的是,所述电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如段落搜索程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行段落搜索程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。
所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个段落搜索方法实施例中的步骤,例如图1所示的步骤S10、S11、S12、S13、S14、S15。
或者,所述处理器13执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如:
获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集;
基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集;
响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示;
基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示;
采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落;
采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如,所述计算机程序可以被分割成扩展单元110、分析单元111、确定单元112、调整单元113、搜索单元114、筛选单元115、获取单元116、训练单元117。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。所述计算机可读存储介质可以是非易失性,也可以是易失性。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器等。
总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图3中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。
尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器13逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
图3仅示出了具有组件12-13的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
结合图1,所述电子设备1中的所述存储器12存储多个指令以实现一种段落搜索方法,所述处理器13可执行所述多个指令从而实现:
获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集;
基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集;
响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示;
基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标 文本表示;
采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落;
采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。本申请中所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (20)

  1. 一种段落搜索方法,其中,所述方法包括:
    获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集;
    基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集;
    响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示;
    基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示;
    采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落;
    采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
  2. 如权利要求1所述的段落搜索方法,其中,所述文本数据集存储于区块链中,所述基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集包括:
    获取所述文本数据集中的各个数据对,所述数据对中包括段落及对应的问题;
    将各个数据对分别输入至所述Transformer模型,得到各个数据对中段落的多种问题;
    将与各个数据对中段落的相关度大于或者等于第一预设值的问题确定为各个数据对中段落的扩展问题;
    将各个数据对中段落的扩展问题合并至对应的段落;
    整合合并后的各个数据对,得到所述扩展数据集。
  3. 如权利要求1所述的段落搜索方法,其中,所述基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集包括:
    采用BERT算法,并基于通用文本库进行预训练,得到所述BERT模型;
    将所述扩展数据集中的各个数据对依次输入至所述BERT模型,输出每个词的重要程度评分;
    对每个词的重要程度评分进行标准化处理;
    基于所述扩展数据集中各个数据对的词组成生成各个数据对的文本表示;
    整合各个数据对的文本表示,得到所述基础数据集。
  4. 如权利要求1所述的段落搜索方法,其中,所述响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示包括:
    根据预设词典对所述待搜索问题进行切分,得到切分位置;
    以所述切分位置构建至少一个有向无环图;
    根据所述预设词典中的权值计算每个有向无环图的概率;
    将概率最大的有向无环图对应的切分位置确定为目标切分位置;
    根据所述目标切分位置切分所述待搜索问题,得到至少一个分词;
    将所述至少一个分词在所述基础数据集中进行匹配,得到所述待搜索问题的初始文本表示。
  5. 如权利要求1所述的段落搜索方法,其中,所述基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示包括:
    将所述初始文本表示输入至所述命名实体识别模型,输出所述初始文本表示中的目标实体;
    为所述目标实体配置预设权重;
    基于所述初始文本表示中各个实体的顺序组合配置了预设权重后的目标实体与所述 初始文本表示中的其他实体,得到所述待搜索问题的目标文本表示。
  6. 如权利要求1所述的段落搜索方法,其中,所述采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落包括:
    采用BM25算法从所述基础数据集中搜索出与所述目标文本表示相关的所有段落;
    计算搜索出的段落与所述目标文本表示的相关度;
    将相关度大于或者等于第二预设值的段落确定为所述初始段落;或者
    对所述相关度进行排序,获取排在前预设位的段落作为所述初始段落。
  7. 如权利要求1所述的段落搜索方法,其中,所述方法还包括:
    获取训练样本,所述训练样本中包括多个段落、多个问题,以及预先标记的每个段落与每个问题的相关度;
    采用BERT算法对所述训练样本进行训练;
    当输出的相关度与预先标记的相关度间的差异小于或者等于配置值时,停止训练,得到所述分类模型。
  8. 一种段落搜索装置,其中,所述装置包括:
    扩展单元,用于获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集;
    分析单元,用于基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集;
    确定单元,用于响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示;
    调整单元,用于基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示;
    搜索单元,用于采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落;
    筛选单元,用于采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
  9. 一种电子设备,其中,所述电子设备包括:
    存储器,存储至少一个计算机可读指令;及
    处理器,执行所述存储器中存储的至少一个计算机可读指令以实现以下步骤:
    获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集;
    基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集;
    响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示;
    基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示;
    采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落;
    采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
  10. 如权利要求9所述的电子设备,其中,所述文本数据集存储于区块链中,所述处理器执行至少一个计算机可读指令以实现所述基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集时,包括以下步骤:
    获取所述文本数据集中的各个数据对,所述数据对中包括段落及对应的问题;
    将各个数据对分别输入至所述Transformer模型,得到各个数据对中段落的多种问题;
    将与各个数据对中段落的相关度大于或者等于第一预设值的问题确定为各个数据对中段落的扩展问题;
    将各个数据对中段落的扩展问题合并至对应的段落;
    整合合并后的各个数据对,得到所述扩展数据集。
  11. 如权利要求9所述的电子设备,其中,所述处理器执行至少一个计算机可读指令以实现所述基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集时,包括以下步骤:
    采用BERT算法,并基于通用文本库进行预训练,得到所述BERT模型;
    将所述扩展数据集中的各个数据对依次输入至所述BERT模型,输出每个词的重要程度评分;
    对每个词的重要程度评分进行标准化处理;
    基于所述扩展数据集中各个数据对的词组成生成各个数据对的文本表示;
    整合各个数据对的文本表示,得到所述基础数据集。
  12. 如权利要求9所述的电子设备,其中,所述处理器执行至少一个计算机可读指令以实现所述响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示时,包括以下步骤:
    根据预设词典对所述待搜索问题进行切分,得到切分位置;
    以所述切分位置构建至少一个有向无环图;
    根据所述预设词典中的权值计算每个有向无环图的概率;
    将概率最大的有向无环图对应的切分位置确定为目标切分位置;
    根据所述目标切分位置切分所述待搜索问题,得到至少一个分词;
    将所述至少一个分词在所述基础数据集中进行匹配,得到所述待搜索问题的初始文本表示。
  13. 如权利要求9所述的电子设备,其中,所述处理器执行至少一个计算机可读指令以实现所述基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示时,包括以下步骤:
    将所述初始文本表示输入至所述命名实体识别模型,输出所述初始文本表示中的目标实体;
    为所述目标实体配置预设权重;
    基于所述初始文本表示中各个实体的顺序组合配置了预设权重后的目标实体与所述初始文本表示中的其他实体,得到所述待搜索问题的目标文本表示。
  14. 如权利要求9所述的电子设备,其中,所述处理器执行至少一个计算机可读指令以实现所述采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落时,包括以下步骤:
    采用BM25算法从所述基础数据集中搜索出与所述目标文本表示相关的所有段落;
    计算搜索出的段落与所述目标文本表示的相关度;
    将相关度大于或者等于第二预设值的段落确定为所述初始段落;或者
    对所述相关度进行排序,获取排在前预设位的段落作为所述初始段落。
  15. 如权利要求9所述的电子设备,其中,所述处理器执行至少一个计算机可读指令还用以实现以下步骤:
    获取训练样本,所述训练样本中包括多个段落、多个问题,以及预先标记的每个段落与每个问题的相关度;
    采用BERT算法对所述训练样本进行训练;
    当输出的相关度与预先标记的相关度间的差异小于或者等于配置值时,停止训练,得到所述分类模型。
  16. 一种计算机可读存储介质,其中:所述计算机可读存储介质中存储有至少一个 计算机可读指令,所述至少一个计算机可读指令被电子设备中的处理器执行以实现以下步骤:
    获取文本数据集,并基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集;
    基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集;
    响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示;
    基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示;
    采用BM25算法,基于所述目标文本表示在所述基础数据集中进行搜索,得到初始段落;
    采用基于BERT算法训练的分类模型对所述初始段落进行筛选,输出对应于所述待搜索问题的目标段落。
  17. 如权利要求16所述的存储介质,其中,所述文本数据集存储于区块链中,所述至少一个计算机可读指令被处理器执行以实现所述基于Transformer模型对所述文本数据集进行扩展,得到扩展数据集时,包括以下步骤:
    获取所述文本数据集中的各个数据对,所述数据对中包括段落及对应的问题;
    将各个数据对分别输入至所述Transformer模型,得到各个数据对中段落的多种问题;
    将与各个数据对中段落的相关度大于或者等于第一预设值的问题确定为各个数据对中段落的扩展问题;
    将各个数据对中段落的扩展问题合并至对应的段落;
    整合合并后的各个数据对,得到所述扩展数据集。
  18. 如权利要求16所述的存储介质,其中,所述至少一个计算机可读指令被处理器执行以实现所述基于BERT模型对所述扩展数据集进行回归分析,得到基础数据集时,包括以下步骤:
    采用BERT算法,并基于通用文本库进行预训练,得到所述BERT模型;
    将所述扩展数据集中的各个数据对依次输入至所述BERT模型,输出每个词的重要程度评分;
    对每个词的重要程度评分进行标准化处理;
    基于所述扩展数据集中各个数据对的词组成生成各个数据对的文本表示;
    整合各个数据对的文本表示,得到所述基础数据集。
  19. 如权利要求16所述的存储介质,其中,所述至少一个计算机可读指令被处理器执行以实现所述响应于接收到的待搜索问题,利用所述基础数据集确定所述待搜索问题的初始文本表示时,包括以下步骤:
    根据预设词典对所述待搜索问题进行切分,得到切分位置;
    以所述切分位置构建至少一个有向无环图;
    根据所述预设词典中的权值计算每个有向无环图的概率;
    将概率最大的有向无环图对应的切分位置确定为目标切分位置;
    根据所述目标切分位置切分所述待搜索问题,得到至少一个分词;
    将所述至少一个分词在所述基础数据集中进行匹配,得到所述待搜索问题的初始文本表示。
  20. 如权利要求16所述的存储介质,其中,所述至少一个计算机可读指令被处理器执行以实现所述基于命名实体识别模型对所述初始文本表示进行调整,得到所述待搜索问题的目标文本表示时,包括以下步骤:
    将所述初始文本表示输入至所述命名实体识别模型,输出所述初始文本表示中的目 标实体;
    为所述目标实体配置预设权重;
    基于所述初始文本表示中各个实体的顺序组合配置了预设权重后的目标实体与所述初始文本表示中的其他实体,得到所述待搜索问题的目标文本表示。
PCT/CN2021/077871 2020-04-30 2021-02-25 段落搜索方法、装置、电子设备及存储介质 WO2021218322A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010365953.3 2020-04-30
CN202010365953.3A CN111639486A (zh) 2020-04-30 2020-04-30 段落搜索方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
WO2021218322A1 true WO2021218322A1 (zh) 2021-11-04

Family

ID=72331922

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/077871 WO2021218322A1 (zh) 2020-04-30 2021-02-25 段落搜索方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN111639486A (zh)
WO (1) WO2021218322A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399782A (zh) * 2022-01-18 2022-04-26 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备、存储介质及程序产品
CN116932487A (zh) * 2023-09-15 2023-10-24 北京安联通科技有限公司 一种基于数据段落划分的量化式数据分析方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639486A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 段落搜索方法、装置、电子设备及存储介质
CN112416754B (zh) * 2020-11-02 2021-09-03 中关村科学城城市大脑股份有限公司 一种模型评测方法、终端、系统及存储介质
CN112541062B (zh) * 2020-11-27 2022-11-25 北京百分点科技集团股份有限公司 平行语料对齐方法、装置、存储介质及电子设备
CN112364068A (zh) * 2021-01-14 2021-02-12 平安科技(深圳)有限公司 课程标签生成方法、装置、设备及介质
CN113159187A (zh) * 2021-04-23 2021-07-23 北京金山数字娱乐科技有限公司 分类模型训练方法及装置、目标文本确定方法及装置
CN113743087B (zh) * 2021-09-07 2024-04-26 珍岛信息技术(上海)股份有限公司 一种基于神经网络词汇扩展段落的文本生成方法及系统
CN113887621B (zh) * 2021-09-30 2024-04-30 中国平安财产保险股份有限公司 问答资源调整方法、装置、设备及存储介质
CN114881040B (zh) * 2022-05-12 2022-12-06 桂林电子科技大学 一种段落的语义信息处理方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
US20160378853A1 (en) * 2015-06-26 2016-12-29 Authess, Inc. Systems and methods for reducing search-ability of problem statement text
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法
CN111639486A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 段落搜索方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599297A (zh) * 2016-12-28 2017-04-26 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
CN110674429B (zh) * 2018-07-03 2022-05-31 百度在线网络技术(北京)有限公司 用于信息检索的方法、装置、设备和计算机可读存储介质
US20200050638A1 (en) * 2018-08-12 2020-02-13 Parker Douglas Hancock Systems and methods for analyzing the validity or infringment of patent claims
CN109325108B (zh) * 2018-08-13 2022-05-27 北京百度网讯科技有限公司 查询处理方法、装置、服务器及存储介质
CN110781672B (zh) * 2019-10-30 2024-01-30 北京爱学习博乐教育科技有限公司 基于机器智能的题库生产方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
US20160378853A1 (en) * 2015-06-26 2016-12-29 Authess, Inc. Systems and methods for reducing search-ability of problem statement text
CN106484797A (zh) * 2016-09-22 2017-03-08 北京工业大学 基于稀疏学习的突发事件摘要抽取方法
CN111639486A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 段落搜索方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399782A (zh) * 2022-01-18 2022-04-26 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备、存储介质及程序产品
CN114399782B (zh) * 2022-01-18 2024-03-22 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备、存储介质及程序产品
CN116932487A (zh) * 2023-09-15 2023-10-24 北京安联通科技有限公司 一种基于数据段落划分的量化式数据分析方法及系统
CN116932487B (zh) * 2023-09-15 2023-11-28 北京安联通科技有限公司 一种基于数据段落划分的量化式数据分析方法及系统

Also Published As

Publication number Publication date
CN111639486A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
WO2021218322A1 (zh) 段落搜索方法、装置、电子设备及存储介质
US10586155B2 (en) Clarification of submitted questions in a question and answer system
US11361243B2 (en) Recommending machine learning techniques, features, and feature relevance scores
US10282419B2 (en) Multi-domain natural language processing architecture
US10120861B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
US20160171095A1 (en) Identifying and Displaying Relationships Between Candidate Answers
US9342592B2 (en) Method for systematic mass normalization of titles
TW201805839A (zh) 資料處理方法、設備及系統
JP2016532173A (ja) 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
US9251270B2 (en) Grouping search results into a profile page
CN103425710A (zh) 一种基于主题的搜索方法和装置
US10621252B2 (en) Method for searching in a database
US10198497B2 (en) Search term clustering
WO2015084757A1 (en) Systems and methods for processing data stored in a database
US9965766B2 (en) Method to expand seed keywords into a relevant social query
CN110688559A (zh) 一种检索方法及装置
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN115098534A (zh) 基于索引权重提升的数据查询方法、装置、设备及介质
Zhao et al. Improving academic homepage identification from the web using neural networks
Lan et al. Research on scoring mechanism based on BM25F model
JP2008269391A (ja) 係り受けを解析する方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21797821

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 15.03.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21797821

Country of ref document: EP

Kind code of ref document: A1