WO2022048174A1 - 文本匹配方法、装置、计算机设备及存储介质 - Google Patents

文本匹配方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
WO2022048174A1
WO2022048174A1 PCT/CN2021/091340 CN2021091340W WO2022048174A1 WO 2022048174 A1 WO2022048174 A1 WO 2022048174A1 CN 2021091340 W CN2021091340 W CN 2021091340W WO 2022048174 A1 WO2022048174 A1 WO 2022048174A1
Authority
WO
WIPO (PCT)
Prior art keywords
matrix
text
question
feature word
word set
Prior art date
Application number
PCT/CN2021/091340
Other languages
English (en)
French (fr)
Inventor
赵知纬
高维国
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022048174A1 publication Critical patent/WO2022048174A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present application relates to the technical field of artificial intelligence, in particular to natural language processing, and in particular to text matching methods, apparatuses, computer equipment and storage media.
  • the purpose of the present application is to provide a text matching method, apparatus, computer equipment and storage medium, aiming to solve the problem that the accuracy of the existing text matching technology needs to be improved.
  • an embodiment of the present application provides a method for text matching based on term enhancement, which includes:
  • an embodiment of the present application provides a term-enhanced text matching apparatus, which includes:
  • the set construction unit is used to obtain the user question and the text to be matched, perform natural language processing on the user question and the text to be matched, obtain the question feature word set QU and the text feature word set QC respectively, and identify the The terms in the question sentence feature word set QU and the text feature word set QC are used to construct the term set T;
  • the vectorization unit is used for splicing the question feature word set QU and the text feature word set QC, and then performing vectorization processing to obtain a feature vector QE; and performing vectorization processing on the term set T to obtain a term vector TE;
  • a linear conversion unit for performing linear conversion on the eigenvector QE to obtain: key matrix K, query matrix Q and value matrix V, and performing linear conversion on the term vector TE to obtain matrix K T ;
  • the self-multiplying unit is used to calculate the non-normalized weight matrix A QT of the matrix K T and the query matrix Q, and then perform self-multiplication and normalization on the non-normalized weight matrix A QT to obtain a multiplication factor. submatrix;
  • the averaging processing unit is used to perform averaging processing on the plurality of sub-matrices, and then perform normalization processing to obtain an influence matrix
  • the output unit is used to perform matrix multiplication processing on the key matrix K and the query matrix Q to obtain a self-attention matrix A, and then use the self-attention matrix A and the influence matrix Calculate the output of the self-attention module, and then match the user question with the text to be matched according to the output.
  • an embodiment of the present application provides a computer device, including a memory, a processor, and a computer program stored on the memory and executable on the processor, wherein the processor executes the computer program implements the term-enhanced text matching method described above.
  • an embodiment of the present application provides a computer-readable storage medium, wherein the computer-readable storage medium stores a computer program, and when executed by a processor, the computer program causes the processor to execute the above-mentioned A term-enhanced text matching method based on terminology.
  • the embodiments of the present application provide a text matching method, apparatus, computer equipment, and storage medium.
  • the output of the self-attention module incorporates the calculation results of terms, so as to focus on matching between known terms and reduce Matching between non-terms to achieve the effect of improving the matching accuracy.
  • FIG. 1 is a schematic flowchart of a text matching method provided by an embodiment of the present application.
  • FIG. 2 is a schematic sub-flow diagram of a text matching method provided by an embodiment of the present application.
  • FIG. 3 is a schematic diagram of another sub-flow of the text matching method provided by the embodiment of the present application.
  • FIG. 4 is a schematic diagram of another sub-flow of the text matching method provided by the embodiment of the present application.
  • FIG. 5 is a schematic diagram of another sub-flow of the text matching method provided by the embodiment of the present application.
  • FIG. 6 is a schematic diagram of another sub-flow of the text matching method provided by the embodiment of the present application.
  • FIG. 7 is a schematic diagram of another sub-flow of the text matching method provided by the embodiment of the present application.
  • FIG. 8 is a schematic block diagram of a text matching apparatus provided by an embodiment of the present application.
  • FIG. 9 is a schematic block diagram of subunits of a text matching apparatus provided in an embodiment of the present application.
  • FIG. 10 is a schematic block diagram of another subunit of the text matching apparatus provided by the embodiment of the present application.
  • FIG. 11 is a schematic block diagram of another subunit of the text matching apparatus provided by the embodiment of the present application.
  • FIG. 12 is a schematic block diagram of another subunit of the text matching apparatus provided by the embodiment of the present application.
  • FIG. 13 is a schematic block diagram of another subunit of the text matching apparatus provided by the embodiment of the present application.
  • FIG. 14 is a schematic block diagram of another subunit of the text matching apparatus provided by the embodiment of the present application.
  • FIG. 15 is a schematic block diagram of a computer device provided by an embodiment of the present application.
  • FIG. 1 is a schematic flowchart of a text matching method provided by an embodiment of the present application, including steps S101-S106:
  • the natural language processing method is used to process to obtain the question sentence feature word set QU and the text feature word set QC, and at the same time construct the term set T.
  • the step S101 includes:
  • the user's question and the text to be matched are two objects that need to be matched.
  • the user may input a question, then obtain a large amount of stored text to be matched, and then match the user's question.
  • the sentence is matched against the text to be matched.
  • the text to be matched corresponds to the relevant information of the indexed web page, such as title (title), content (content), etc.
  • the user question corresponds to the user's retrieval request, then the meaning of matching the two at this time refers to matching the results. The most relevant text.
  • the text to be matched corresponds to the answer in the smart question and answer, and the user question corresponds to the user's question, then the meaning of matching the two at this time is to find the answer with the highest semantic similarity from the answers.
  • the text to be matched corresponds to the information flow to be recommended, and the user question corresponds to the user's portrait, then the meaning of matching the two at this time is to match the information flow of many metrics that the user is most interested in.
  • the user question can be expressed as [QU 1 , QU 2 , QU 3 , QU 4 , QU 5 ], indicating that the user question can be split into QU 1 , QU 2 , QU 3 , QU 4 , QU 5 5 words, the length of this QU is 5.
  • the question to be matched can be expressed as [QC 1 , QC 2 , QC 3 ], indicating that the text to be matched can be split into three words QC 1 , QC 2 , and QC 3 , and the length of the QC is 3.
  • the term set refers to the set of terms, and the terms are some important words or phrases related to the actual business. For example, in the application scenario of intelligent question answering, for each question, some words and phrases are more important, while the rest are not so important. These more important words and phrases can be called terms, and are often related to actual business. related.
  • some business-related terms are identified from the set of question feature words QU and the set of text feature words QC, and these terms are separately formed into a term set, denoted as T.
  • T can be expressed as [T 1 , T 2 ], and the length of T is 2.
  • NER Named Entity Recognition
  • named entity recognition also known as "proper name recognition”
  • the step S102 includes:
  • the preceding text feature word set QC and the question sentence feature word set QU are spliced together, and the text feature word set QC and the question sentence feature word set QU are further separated by a separator.
  • Concatenated set Q [QC 1 , QC 2 , QC 3 , SEP, QU 1 , QU 2 , QU 3 , QU 4 , QU 5 ], where SEP represents a separator.
  • the characters can be converted into vectors by embedding query. Specifically, the vector corresponding to each character in the splicing set Q can be queried in the mature word vector library. If a certain word cannot directly find its corresponding vector in the word vector library, then the semantic similarity algorithm can be used to obtain In the word vector library, the word with the highest character similarity in the splicing set Q is obtained, and a corresponding vector is obtained.
  • the embedding query can be used to convert characters into vectors.
  • the vector corresponding to each character in the term set T can be queried in the mature word vector library. If a word cannot directly find its corresponding vector in the word vector library, then the semantic similarity algorithm can be used. , in the word vector library, the word with the highest character similarity in the term set T is obtained, and the corresponding vector is obtained.
  • This step is to perform matrix processing on the preceding eigenvector QE and term vector TE, that is, convert the vector into a matrix.
  • the step S103 includes:
  • W K , W Q , and W V are weight matrices.
  • the key matrix K, the query matrix Q, and the value matrix V are also matrices, with For example, the sizes of K, Q, and V obtained after conversion are all ha ⁇ 9, that is, where ha is the length (ie the number of columns) of the weight matrices W K , W Q and W V .
  • K T W T ⁇ TE.
  • K T is a matrix, with For example, the size of the transformed matrix K T is h a ⁇ 2, that is where ha is the length (ie the number of columns) of the weight matrix WT .
  • the non-normalized weight matrix of the matrix K T and the query matrix Q needs to be calculated, and then self-multiplication and normalization are performed to obtain multiple sub-matrices.
  • the step S104 includes:
  • K T is a matrix whose size is assumed to be ha ⁇ 2.
  • Q is also a matrix. Assuming that its size is ha ⁇ 9, to multiply these two matrices, we first need to transpose K T into Then it can be multiplied with Q, which is also a matrix after multiplication, represented as A QT , with a size and shape of 2 ⁇ 9, that is A QT ⁇ R 2 ⁇ 9 .
  • the two calculated matrices are both 9 ⁇ 9 in size, that is,
  • the multiple sub-matrices obtained in the above steps have the same size, and this step is to average and normalize the obtained sub-matrices to obtain an influence matrix.
  • the step S105 includes:
  • n is the number of sub-matrices
  • this step is to average the two previously calculated sub-matrices, that is, add and divide by 2.
  • the averaged results are then normalized so that the influence matrix Each row of , adds up to 1.
  • the role of softmax is to normalize the averaged results, and the resulting values are positive and sum to 1.
  • This step is to synthesize the self-attention matrix A and the influence matrix Thereby, the output of the self-attention module is obtained, and matching is performed based on the output of the self-attention module. That is, the weight of the term is added to the output, thereby reducing the focus on matching between non-terms.
  • the step S105 includes:
  • This step is to perform matrix multiplication on the previous key matrix K and query matrix Q to obtain a self-attention matrix A, and the size of the self-attention matrix A is 9 ⁇ 9. Specifically, it is calculated according to the following formula: A ⁇ R 9 ⁇ 9 .
  • the output of the self-attention module is integrated into the calculation results of terms, which can focus on matching between known terms while reducing attention to matching between non-terms.
  • the key matching terms related to the actual business are realized, and the effect of improving the matching accuracy is achieved.
  • This step is to use the output of the self-attention module to match the user's question with the text to be matched.
  • the user's question is "how many employees does XX company have now”
  • the text to be matched is "XX company's salary and welfare system is What kind of”
  • the attention weight of the word “XX” between the two will be reduced, and the attention weight of "salary” and “welfare” will be increased, so the final matching result will be more accurate.
  • Embodiments of the present application further provide a term-enhanced-based text matching apparatus, which is used to execute any of the foregoing term-enhanced-based text matching methods.
  • FIG. 8 is a schematic block diagram of an apparatus for text matching based on term enhancement provided by an embodiment of the present application.
  • the term-based enhanced text matching apparatus may be configured in a server.
  • the text matching apparatus 800 based on term enhancement includes: a set construction unit 801 , a vectorization unit 802 , a linear conversion unit 803 , a self-multiplication unit 804 , an average processing unit 805 , and an output unit 806 .
  • the set construction unit 801 is used to obtain the user question and the text to be matched, perform natural language processing on the user question and the text to be matched, obtain the question feature word set QU and the text feature word set QC respectively, and identify the The terms in the interrogative sentence feature word set QU and the text feature word set QC are used to construct the term set T;
  • the vectorization unit 802 is used for splicing the question feature word set QU and the text feature word set QC, and then performing vectorization processing to obtain feature vector QE; and performing vectorization processing on the term set T to obtain the term vector TE;
  • Linear conversion unit 803 for performing linear conversion on the feature vector QE to obtain: a key matrix K, a query matrix Q and a value matrix V, and performing linear conversion on the term vector TE to obtain a matrix K T ;
  • a self-multiplying unit 804 configured to calculate a non-normalized weight matrix A QT between the matrix K T and the query matrix Q, and then perform self-multiplication and normalization on the non-normalized weight matrix A QT to obtain multiple submatrices;
  • the averaging processing unit 805 is configured to perform averaging processing on the plurality of sub-matrices, and then perform normalization processing to obtain an influence matrix
  • An output unit 806, configured to perform matrix multiplication processing on the key matrix K and the query matrix Q to obtain a self-attention matrix A, and then use the self-attention matrix A and the influence matrix Calculate the output of the self-attention module, and then match the user question with the text to be matched according to the output.
  • the set construction unit 801 includes:
  • Obtaining unit 901 used to obtain user questions and texts to be matched
  • the feature word extraction unit 902 is used to perform natural language processing on the user question and the text to be matched, and obtain all the feature words in the user question and all the feature words in the text to be matched respectively;
  • the sequence construction unit 903 is used to construct all the feature words in the user's question into the question feature word set QU in order, and construct all the feature words in the text to be matched into the text feature word set QC in order;
  • the identifying unit 904 is configured to identify terms in the question sentence feature word set QU and the text feature word set QC based on a named entity recognition method, and construct a term set T.
  • the vectorization unit 802 includes:
  • the first vectorization unit 1002 is used for querying by embedding, converting the characters in the splicing set Q into corresponding vectors to obtain the feature vector QE;
  • the second vectorization unit 1003 is configured to convert the characters in the term set T into corresponding vectors through embedding query to obtain a term vector TE.
  • the linear conversion unit 803 includes:
  • the feature vector conversion unit 1101 is used to perform matrix multiplication with the feature vector QE using the trained weight matrices W K , W Q and W V respectively, to obtain three matrices of the same shape: the key matrix K, the query matrix Q and the value matrix V;
  • the term vector conversion unit 1102 is configured to perform matrix multiplication with the term vector TE by using the trained weight matrix WT to obtain the matrix K T .
  • the self-multiplying unit 804 includes:
  • the first calculation unit 1201 is used to calculate the non-normalized weight matrix of the matrix K T and the query matrix Q as follows:
  • the second computing unit 1202 is configured to take each row of the non-normalized weight matrix A QT and multiply it by itself, and perform normalization processing to obtain a plurality of subgroups with the same number of rows as the non-normalized weight matrix A QT matrix.
  • the averaging processing unit 805 includes:
  • the third computing unit 1301 is configured to perform averaging processing on the multiple sub-matrices according to the following formula to obtain an average matrix
  • n is the number of sub-matrices
  • the fourth calculation unit 1302 is used to normalize the average matrix according to the following formula to obtain the influence matrix
  • the output unit 806 includes:
  • the self-attention matrix calculation unit 1401 is configured to perform matrix multiplication on the key matrix K and the query matrix Q to obtain a self-attention matrix h a represents the length of the bond matrix K;
  • the self-attention output unit 1402 is used to obtain the output of the self-attention module by the following formula: where ⁇ is a preset hyperparameter;
  • the matching unit 1403 is configured to use the output of the self-attention module to match the user question with the text to be matched.
  • the text matching apparatus 800 described above can be implemented in the form of a computer program, which can be executed on a computer device as shown in FIG. 15 .
  • FIG. 15 is a schematic block diagram of a computer device provided by an embodiment of the present application.
  • the computer device 1500 is a server, and the server may be an independent server or a server cluster composed of multiple servers.
  • the computer device 1500 includes a processor 1502 , a memory and a network interface 1505 connected by a system bus 1501 , wherein the memory may include a non-volatile storage medium 1503 and an internal memory 1504 .
  • the nonvolatile storage medium 1503 can store an operating system 15031 and a computer program 15032 .
  • the computer program 15032 when executed, can cause the processor 1502 to perform a text matching method.
  • the processor 1502 is used to provide computing and control capabilities to support the operation of the entire computer device 1500 .
  • the internal memory 1504 provides an environment for the execution of the computer program 15032 in the non-volatile storage medium 1503.
  • the processor 1502 can execute the text matching method.
  • the network interface 1505 is used for network communication, such as providing transmission of data information.
  • the network interface 1505 is used for network communication, such as providing transmission of data information.
  • FIG. 15 is only a block diagram of a partial structure related to the solution of the present application, and does not constitute a limitation on the computer device 1500 to which the solution of the present application is applied.
  • the specific computer device 1500 may include more or fewer components than shown, or combine certain components, or have a different arrangement of components.
  • the processor 1502 is used to run the computer program 15032 stored in the memory, so as to realize the following functions: acquiring the user question and the text to be matched, and performing natural language processing on the user question and the text to be matched, respectively obtaining Question feature word set QU and text feature word set QC, and identify the terms in the question feature word set QU and text feature word set QC, and construct a term set T;
  • the feature word set QC is spliced, and then vectorized to obtain a feature vector QE; and the term set T is vectorized to obtain a term vector TE;
  • the feature vector QE is linearly transformed to obtain: key matrix K, query matrix Q and value matrix V, and perform linear transformation on the term vector TE to obtain a matrix K T ; calculate the non-normalized weight matrix A QT of the matrix K T and the query matrix Q, and then perform a
  • the normalized weight matrix A QT is self-multiplied and normalized to obtain multiple sub-matrices; the multiple sub-matrices are
  • the embodiment of the computer device shown in FIG. 15 does not constitute a limitation on the specific structure of the computer device.
  • the computer device may include more or less components than those shown in the drawings. Either some components are combined, or different component arrangements.
  • the computer device may only include a memory and a processor. In such an embodiment, the structures and functions of the memory and the processor are the same as those of the embodiment shown in FIG. 15 , and details are not repeated here.
  • the processor 1502 may be a central processing unit (Central Processing Unit, CPU), and the processor 1502 may also be other general-purpose processors, digital signal processors (Digital Signal Processor, DSP), Application Specific Integrated Circuit (ASIC), Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor can be a microprocessor or the processor can also be any conventional processor or the like.
  • a computer-readable storage medium may be a non-volatile computer-readable storage medium, or a volatile computer-readable storage medium.
  • the computer-readable storage medium stores a computer program, wherein when the computer program is executed by the processor, the following steps are implemented: acquiring a user question and a text to be matched, performing natural language processing on the user question and the text to be matched, and obtaining the question respectively.
  • Sentence feature word set QU and text feature word set QC and identify the terms in the question sentence feature word set QU and text feature word set QC, and construct a term set T;
  • the word set QC is spliced, and then vectorized to obtain a feature vector QE; and the term set T is vectorized to obtain a term vector TE;
  • the feature vector QE is linearly transformed to obtain: key matrix K, query matrix Q and value matrix V, and perform linear transformation on the term vector TE to obtain a matrix K T ; calculate the non-normalized weight matrix A QT of the matrix K T and the query matrix Q, and then perform the non-normalized weight matrix A QT on the non-normalized
  • the weight matrix A QT is self-multiplied and normalized to obtain multiple sub-matrices; the average processing is performed on the multiple sub-matrices, and then the normalized processing is performed to obtain the influence matrix Perform matrix multiplication processing on the key matrix K and the query matrix Q to obtain a self-attention matrix A, and then

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文本匹配方法、装置、计算机设备及存储介质,涉及人工智能技术领域,该方法包括:构建问句特征词集合QU和文本特征词集合QC,以及术语集合T;进行向量化处理得到特征向量QE以及术语向量TE;进行线性转换得到键矩阵K、查询矩阵Q和值矩阵V,以及矩阵K T;计算非归一化权重矩阵A QT,然后进行自我相乘以及归一化处理得到多个子矩阵;对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵A QT avg(I);对所述键矩阵K和查询矩阵Q进行矩阵乘法,得到自注意力矩阵A,然后计算得到自注意力模块的输出,再根据所述输出进行匹配。该方法着重于已知的术语之间的匹配,减少非术语之间的匹配,达到提高匹配准确度的效果。

Description

文本匹配方法、装置、计算机设备及存储介质
本申请要求于2020年09月03日提交中国专利局、申请号为202010914259.2,申请名称为“一种文本匹配方法、装置、计算机设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,具体涉及自然语言处理,特别涉及文本匹配方法、装置、计算机设备及存储介质。
背景技术
近年来,基于transformer(Google团队在2017年提出的一种NLP经典模型)架构和海量数据的BERT(Bidirectional Encoder Representation from Transformers和基于Transformer的双向编码器表征)模型在各种NLP(自然语言处理)应用中大放光彩。BERT本身支持两段文本输入的设计使得其能够很容易地应用与文本匹配任务。在智能问答的实际应用中,对每个用户问句来说,不同的词或短语,其重要性不同,这些比较重要的词、短语称为术语,往往与实际业务相关。
但发明人意识到现有的处理方法,并未融合术语的重要性,比如用户问句为“XX公司现在有多少员工”,待匹配文本为“XX公司的薪酬福利体系是什么样的”,那么两者之间的“XX”一词也会有较大的注意力权重。而对待匹配文本来说,匹配上“薪酬”或者“福利”远比匹配上“XX”重要,故现有技术中的文本匹配方法在准确性方面还有待提高。
申请内容
本申请的目的是提供文本匹配方法、装置、计算机设备及存储介质,旨在解决现有文本匹配技术在准确性方面有待提高的问题。
第一方面,本申请实施例提供一种基于术语增强的文本匹配方法,其包括:
获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T;
对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量TE;
对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T
计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵;
对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
Figure PCTCN2021091340-appb-000001
对所述键矩阵K和查询矩阵Q进行矩阵乘法处理,得到自注意力矩阵A,然后利用所述自注意力矩阵A和影响矩阵
Figure PCTCN2021091340-appb-000002
计算得到自注意力模块的输出,再根据所述输出对所述 用户问句与待匹配的文本进行匹配。
第二方面,本申请实施例提供一种基于术语增强的文本匹配装置,其包括:
集合构建单元,用于获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T;
向量化单元,用于对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量TE;
线性转换单元,用于对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T
自我相乘单元,用于计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵;
平均处理单元,用于对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
Figure PCTCN2021091340-appb-000003
输出单元,用于对所述键矩阵K和查询矩阵Q进行矩阵乘法处理,得到自注意力矩阵A,然后利用所述自注意力矩阵A和影响矩阵
Figure PCTCN2021091340-appb-000004
计算得到自注意力模块的输出,再根据所述输出对所述用户问句与待匹配的文本进行匹配。
第三方面,本申请实施例提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的基于术语增强的文本匹配方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于术语增强的文本匹配方法。
本申请实施例提供了文本匹配方法、装置、计算机设备及存储介质,本申请实施例中,自注意力模块的输出融入了术语的计算结果,实现着重于已知的术语之间的匹配,减少非术语之间的匹配,达到提高匹配准确度的效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的文本匹配方法的流程示意图;
图2为本申请实施例提供的文本匹配方法的子流程示意图;
图3为本申请实施例提供的文本匹配方法的另一子流程示意图;
图4为本申请实施例提供的文本匹配方法的另一子流程示意图;
图5为本申请实施例提供的文本匹配方法的另一子流程示意图;
图6为本申请实施例提供的文本匹配方法的另一子流程示意图;
图7为本申请实施例提供的文本匹配方法的另一子流程示意图;
图8为本申请实施例提供的文本匹配装置的示意性框图;
图9为本申请实施例提供的文本匹配装置的子单元示意性框图;
图10为本申请实施例提供的文本匹配装置的另一子单元示意性框图;
图11为本申请实施例提供的文本匹配装置的另一子单元示意性框图;
图12为本申请实施例提供的文本匹配装置的另一子单元示意性框图;
图13为本申请实施例提供的文本匹配装置的另一子单元示意性框图;
图14为本申请实施例提供的文本匹配装置的另一子单元示意性框图;
图15为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的一种文本匹配方法的流程示意图,包括步骤S101~S106:
S101、获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T;
本步骤是利用自然语言处理方式处理得到问句特征词集合QU和文本特征词集合QC,同时构建出术语集合T。
在一实施例中,如图2所示,所述步骤S101包括:
S201、获取用户问句以及待匹配文本;
S202、对所述用户问句以及待匹配文本进行自然语言处理,分别得到用户问句中的所有特征词和待匹配文本中的所有特征词;
S203、将用户问句中的所有特征词按顺序构建为问句特征词集合QU,将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC;
S204、基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T。
在本实施例中,用户问句和待匹配文本为两个需要进行匹配的对象,在一个具体应用场景中,可以是用户输入问句,然后获取已存储的大量待匹配文本,再将用户问句与待匹配文本进行匹配。例如在搜索引擎中:待匹配文本对应索引网页的相关信息,如title(标题)、content(内容)等,用户问句对应用户的检索请求,那么此时二者进行匹配的含义是指匹配出相关度最高的文本。或者在智能问答中:待匹配文本对应智能问答中的答案,用户问句对应用户的问题,那么此时二者进行匹配的含义是指从答案中查找到语义相似度最高的答案。在信息流推荐中:待匹配文本对应待推荐的信息流,用户问句对应用户的画像,那么此时二 者进行匹配的含义就是从中匹配出用户最感兴趣等众多度量标准的信息流。
对于用户问句和待匹配文本而言,都可以进行自然语言处理。这样可以将其表示为一个个的特征词,从而得到分别得到问句特征词集合QU和文本特征词集合QC。例如,所述用户问句可表示为[QU 1,QU 2,QU 3,QU 4,QU 5],表示用户问句可以拆分为QU 1、QU 2、QU 3、QU 4、QU 5这5个词,该QU的长度为5。又例如,所述待匹配的问题可表示为[QC 1,QC 2,QC 3],表示待匹配的文本可以拆分为QC 1、QC 2、QC 3这3个词,该QC的长度为3。
其中术语集合是指术语的集合,术语为一些重要、与实际业务相关的词或短语。例如在智能问答的应用场景中,对每个问句来说,有些词、短语比较重要,而剩下的一些不那么重要,这些比较重要的词、短语可称为术语,且往往与实际业务相关。本申请实施例就是从问句特征词集合QU和文本特征词集合QC中识别一些与业务相关的术语,将其单独构成一个术语集合,表示为T。例如T可以表示为[T 1,T 2],该T的长度为2。术语的识别可采用命名实体识别方法(Named EntityRecognition,简称NER)实现,命名实体识别,又称“专名识别”,其可识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
S102、对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量TE;
本步骤中,需要对前面的问句特征词集合QU和文本特征词集合QC进行拼接和向量化处理,从而进行后续的矩阵化处理。
在一实施例中,如图3所示,所述步骤S102包括:
S301、将所述文本特征词集合QC与问句特征词集合QU进行拼接,并采用分隔符SEP进行分隔,得到拼接集合Q=[QC,SEP,QU];
此步骤是将前面的文本特征词集合QC与问句特征词集合QU拼接,并且文本特征词集合QC与问句特征词集合QU之间还采用分隔符进行分隔。
例如对前面提到的问句特征词集合QU=[QU 1,QU 2,QU 3,QU 4,QU 5],以及文本特征词集合QC=[QC 1,QC 2,QC 3],进行拼接,那么可得到:
拼接集合Q=[QC 1,QC 2,QC 3,SEP,QU 1,QU 2,QU 3,QU 4,QU 5],其中,SEP代表分隔符。
S302、通过embedding查询,将所述拼接集合Q中的字符转换为相应的向量,得到特征向量QE;
本步骤中,可以embedding(嵌入)查询将字符转换为向量。具体地,可以在成熟的词向量库中查询所述拼接集合Q中每个字符对应的向量,如果某个词在词向量库中不能直接找到其对应的向量,那么可通过语义相似度算法,在所述词向量库中与所述拼接集合Q中字符相似度最高的词,并获取对应的向量。
以前述的拼接集合Q=[QC 1,QC 2,QC 3,SEP,QU 1,QU 2,QU 3,QU 4,QU 5]为例,假设每个字符转换后的向量的长度都是h e,那么最终得到的
Figure PCTCN2021091340-appb-000005
R代表矩阵,即其大小为h e×9。
S303、通过embedding查询,将所述术语集合T中的字符转换为相应的向量,得到术语向量TE。
本步骤中,可以embedding查询将字符转换为向量。具体地,通过可以在成熟的词向量 库中查询所述术语集合T中每个字符对应的向量,如果某个词在词向量库中不能直接找到其对应的向量,那么可通过语义相似度算法,在所述词向量库中与所述术语集合T中字符相似度最高的词,并获取对应的向量。
以前述的术语集合T=[T 1,T 2]为例,假设每个字符转换后的向量的长度都是h e,那么最终得到的
Figure PCTCN2021091340-appb-000006
即其大小为h e×2。
S103、对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T
本步骤是对前面的特征向量QE以及术语向量TE进行矩阵化处理,即将向量转换为矩阵。
在一实施例中,如图4所示,所述步骤S103包括:
S401、利用已训练的权重矩阵W K、W Q和W V分别与所述特征向量QE进行矩阵相乘,得到三个形状相同的矩阵:键矩阵K、查询矩阵Q和值矩阵V;
本步骤中,线性转换的方式是矩阵乘法,如:K=W K·QE,Q=W Q·QE,V=W V·QE。其中,W K,W Q,W V均为权重矩阵。键矩阵K,查询矩阵Q,值矩阵V也都是矩阵,以
Figure PCTCN2021091340-appb-000007
为例,转换后得到的K,Q,V三者的大小均为h a×9,即
Figure PCTCN2021091340-appb-000008
其中,h a是权重矩阵W K、W Q和W V的长度(即列数)。
S402、利用已训练的权重矩阵W T与所述术语向量TE进行矩阵相乘,得到矩阵K T
本步骤中,线性转换的方式是矩阵乘法,如:K T=W T·TE。K T为矩阵,以
Figure PCTCN2021091340-appb-000009
为例,转换后的矩阵K T的大小是h a×2,即
Figure PCTCN2021091340-appb-000010
其中,h a是权重矩阵W T的长度(即列数)。
S104、计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵;
本步骤中,需要计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵,然后进行自我相乘和归一化从而得到多个子矩阵。
在一实施例中,如图5所示,所述步骤S104包括:
S501、按下式计算矩阵K T与查询矩阵Q的非归一化权重矩阵:
Figure PCTCN2021091340-appb-000011
本步骤中,K T是一个矩阵,假设其大小是h a×2。Q也是一个矩阵,假设其大小是h a×9,这两个矩阵要相乘,首先需要把K T转置成
Figure PCTCN2021091340-appb-000012
然后才能与Q相乘,相乘后也是一个矩阵,表示为A QT,大小形状为2×9,即
Figure PCTCN2021091340-appb-000013
A QT∈R 2×9
S502、分别取非归一化权重矩阵A QT中的每一行进行自我相乘,并进行归一化处理得到数量与非归一化权重矩阵A QT行数相同的多个子矩阵。
本步骤中,假设
Figure PCTCN2021091340-appb-000014
因为行数共有2行,那么得到2个子矩阵:
Figure PCTCN2021091340-appb-000015
具体如下:
Figure PCTCN2021091340-appb-000016
Figure PCTCN2021091340-appb-000017
所以计算得到的两个矩阵,大小均为9×9,即
Figure PCTCN2021091340-appb-000018
S105、对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
Figure PCTCN2021091340-appb-000019
上述步骤中得到的多个子矩阵大小相同,本步骤是对得到的这些子矩阵进行平均化处理和归一化处理,得到影响矩阵。
在一实施例中,如图6所示,所述步骤S105包括:
S601、按如下公式对所述多个子矩阵进行平均化处理得到平均矩阵
Figure PCTCN2021091340-appb-000020
Figure PCTCN2021091340-appb-000021
n为子矩阵的个数;
S602、按如下公式对平均矩阵进行归一化处理得到影响矩阵
Figure PCTCN2021091340-appb-000022
Figure PCTCN2021091340-appb-000023
softmax表示归一化。
继续以前面的例子为例,本步骤是先对前面计算的两个子矩阵进行平均化处理,也就是相加并除以2。然后对平均化结果进行归一化,从而使得影响矩阵
Figure PCTCN2021091340-appb-000024
的每一行加起来等于1。具体的,
Figure PCTCN2021091340-appb-000025
softmax的作用是使平均化结果归一化,得到的值是正值且和为1。
S106、对所述键矩阵K和查询矩阵Q进行矩阵乘法处理,得到自注意力矩阵A,然后利用所述自注意力矩阵A和影响矩阵
Figure PCTCN2021091340-appb-000026
计算得到自注意力模块的输出,再根据所述输出对所述用户问句与待匹配的文本进行匹配。
本步骤就是综合所述自注意力矩阵A和影响矩阵
Figure PCTCN2021091340-appb-000027
从而得到自注意力模块的输出,基于自注意力模块的输出进行匹配。也就是将术语的权重加入到输出之中,从而减少关注非术语之间的匹配。
在一实施例中,如图7所示,所述步骤S105包括:
S701、对所述键矩阵K和查询矩阵Q进行矩阵乘法,得到自注意力矩阵
Figure PCTCN2021091340-appb-000028
h a表示键矩阵K的长度;
本步骤即为对前面的键矩阵K和查询矩阵Q进行矩阵乘法,从而得到自注意力矩阵A,该自注意力矩阵A的大小是9×9。具体按照如下公式进行计算:
Figure PCTCN2021091340-appb-000029
A∈R 9×9
S702、按下式计算得到自注意力模块的输出:
Figure PCTCN2021091340-appb-000030
其中α是预先设定的超参;
本步骤中,自注意力模块的输出融入了术语的计算结果,可以实现着重于已知的术语之间的匹配,同时减少关注非术语之间的匹配。对每个用户问句来说,通过在自注意力的计算过程中将这部分术语权重增大,实现重点匹配与实际业务相关的术语,达到提高匹配准确度的效果。
S703、利用所述自注意力模块的输出对所述用户问句与待匹配的文本进行匹配。
本步骤就是利用自注意力模块的输出,对用户问句与待匹配的文本进行匹配,例如,用户问句为“XX公司现在有多少员工”,待匹配文本为“XX公司的薪酬福利体系是什么样的”,由于采用本技术方案,两者之间的“XX”一词的注意力权重将会降低,而“薪酬”和“福利” 的注意力权重将会提高,所以最终的匹配结果将会更加准确。
本申请实施例还提供一种基于术语增强的文本匹配装置,该一种基于术语增强的文本匹配装置用于执行前述基于术语增强的文本匹配方法的任一实施例。具体地,请参阅图8,图8是本申请实施例提供的基于术语增强的文本匹配装置的示意性框图。该基于术语增强的文本匹配装置可以配置于服务器中。
如图8所示,基于术语增强的文本匹配装置800包括:集合构建单元801、向量化单元802、线性转换单元803、自我相乘单元804、平均处理单元805、输出单元806。
集合构建单元801,用于获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T;
向量化单元802,用于对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量TE;
线性转换单元803,用于对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T
自我相乘单元804,用于计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵;
平均处理单元805,用于对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
Figure PCTCN2021091340-appb-000031
输出单元806,用于对所述键矩阵K和查询矩阵Q进行矩阵乘法处理,得到自注意力矩阵A,然后利用所述自注意力矩阵A和影响矩阵
Figure PCTCN2021091340-appb-000032
计算得到自注意力模块的输出,再根据所述输出对所述用户问句与待匹配的文本进行匹配。
在一实施例中,如图9所示,所述集合构建单元801包括:
获取单元901,用于获取用户问句以及待匹配文本;
特征词提取单元902,用于对所述用户问句以及待匹配文本进行自然语言处理,分别得到用户问句中的所有特征词和待匹配文本中的所有特征词;
顺序构建单元903,用于将用户问句中的所有特征词按顺序构建为问句特征词集合QU,将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC;
识别单元904,用于基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T。
在一实施例中,如图10所示,所述向量化单元802包括:
拼接单元1001,用于将所述文本特征词集合QC与问句特征词集合QU进行拼接,并采用分隔符SEP进行分隔,得到拼接集合Q=[QC,SEP,QU];
第一向量化单元1002,用于通过embedding查询,将所述拼接集合Q中的字符转换为相应的向量,得到特征向量QE;
第二向量化单元1003,用于通过embedding查询,将所述术语集合T中的字符转换为相 应的向量,得到术语向量TE。
在一实施例中,如图11所示,所述线性转换单元803包括:
特征向量转换单元1101,用于利用已训练的权重矩阵W K、W Q和W V分别与所述特征向量QE进行矩阵相乘,得到三个形状相同的矩阵:键矩阵K、查询矩阵Q和值矩阵V;
术语向量转换单元1102,用于利用已训练的权重矩阵W T与所述术语向量TE进行矩阵相乘,得到矩阵K T
在一实施例中,如图12所示,所述自我相乘单元804包括:
第一计算单元1201,用于按下式计算矩阵K T与查询矩阵Q的非归一化权重矩阵:
Figure PCTCN2021091340-appb-000033
第二计算单元1202,用于分别取非归一化权重矩阵A QT中的每一行进行自我相乘,并进行归一化处理得到数量与非归一化权重矩阵A QT行数相同的多个子矩阵。
在一实施例中,如图13所示,所述平均处理单元805包括:
第三计算单元1301,用于按如下公式对所述多个子矩阵进行平均化处理得到平均矩阵
Figure PCTCN2021091340-appb-000034
Figure PCTCN2021091340-appb-000035
n为子矩阵的个数;
第四计算单元1302,用于按如下公式对平均矩阵进行归一化处理得到影响矩阵
Figure PCTCN2021091340-appb-000036
Figure PCTCN2021091340-appb-000037
softmax表示归一化。
在一实施例中,如图14所示,所述输出单元806包括:
自注意力矩阵计算单元1401,用于对所述键矩阵K和查询矩阵Q进行矩阵乘法,得到自注意力矩阵
Figure PCTCN2021091340-appb-000038
h a表示键矩阵K的长度;
自注意力输出单元1402,用于按下式计算得到自注意力模块的输出:
Figure PCTCN2021091340-appb-000039
其中α是预先设定的超参;
匹配单元1403,用于利用所述自注意力模块的输出对所述用户问句与待匹配的文本进行匹配。
通过本申请实施例的装置,可以实现着重于已知的术语之间的匹配,减少非术语之间的匹配,达到提高匹配准确度的效果。
上述文本匹配装置800可以实现为计算机程序的形式,该计算机程序可以在如图15所示的计算机设备上运行。
请参阅图15,图15是本申请实施例提供的计算机设备的示意性框图。该计算机设备1500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图15,该计算机设备1500包括通过系统总线1501连接的处理器1502、存储器和网络接口1505,其中,存储器可以包括非易失性存储介质1503和内存储器1504。
该非易失性存储介质1503可存储操作系统15031和计算机程序15032。该计算机程序15032被执行时,可使得处理器1502执行文本匹配方法。
该处理器1502用于提供计算和控制能力,支撑整个计算机设备1500的运行。
该内存储器1504为非易失性存储介质1503中的计算机程序15032的运行提供环境,该计算机程序15032被处理器1502执行时,可使得处理器1502执行文本匹配方法。
该网络接口1505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备1500的限定,具体的计算机设备1500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器1502用于运行存储在存储器中的计算机程序15032,以实现如下功能:获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T;对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量TE;对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T;计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵;对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
Figure PCTCN2021091340-appb-000040
对所述键矩阵K和查询矩阵Q进行矩阵乘法处理,得到自注意力矩阵A,然后利用所述自注意力矩阵A和影响矩阵
Figure PCTCN2021091340-appb-000041
计算得到自注意力模块的输出,再根据所述输出对所述用户问句与待匹配的文本进行匹配。
本领域技术人员可以理解,图15中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图15所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器1502可以是中央处理单元(Central Processing Unit,CPU),该处理器1502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以是易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T;对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向 量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量TE;对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T;计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵;对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
Figure PCTCN2021091340-appb-000042
对所述键矩阵K和查询矩阵Q进行矩阵乘法处理,得到自注意力矩阵A,然后利用所述自注意力矩阵A和影响矩阵
Figure PCTCN2021091340-appb-000043
计算得到自注意力模块的输出,再根据所述输出对所述用户问句与待匹配的文本进行匹配。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

  1. 一种基于术语增强的文本匹配方法,其中,包括:
    获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T;
    对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量TE;
    对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T
    计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵;
    对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
    Figure PCTCN2021091340-appb-100001
    对所述键矩阵K和查询矩阵Q进行矩阵乘法处理,得到自注意力矩阵A,然后利用所述自注意力矩阵A和影响矩阵
    Figure PCTCN2021091340-appb-100002
    计算得到自注意力模块的输出,再根据所述输出对所述用户问句与待匹配的文本进行匹配。
  2. 根据权利要求1所述的基于术语增强的文本匹配方法,其中,所述获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T,包括:
    获取用户问句以及待匹配文本;
    对所述用户问句以及待匹配文本进行自然语言处理,分别得到用户问句中的所有特征词和待匹配文本中的所有特征词;
    将用户问句中的所有特征词按顺序构建为问句特征词集合QU,将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC;
    基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T。
  3. 根据权利要求1所述的基于术语增强的文本匹配方法,其中,所述对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量TE,包括:
    将所述文本特征词集合QC与问句特征词集合QU进行拼接,并采用分隔符SEP进行分隔,得到拼接集合Q=[QC,SEP,QU];
    通过embedding查询,将所述拼接集合Q中的字符转换为相应的向量,得到特征向量QE;
    通过embedding查询,将所述术语集合T中的字符转换为相应的向量,得到术语向量 TE。
  4. 根据权利要求1所述的基于术语增强的文本匹配方法,其中,所述对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T,包括:
    利用已训练的权重矩阵W K、W Q和W V分别与所述特征向量QE进行矩阵相乘,得到三个形状相同的矩阵:键矩阵K、查询矩阵Q和值矩阵V;
    利用已训练的权重矩阵W T与所述术语向量TE进行矩阵相乘,得到矩阵K T
  5. 根据权利要求1所述的基于术语增强的文本匹配方法,其中,所述计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵,包括:
    按下式计算矩阵K T与查询矩阵Q的非归一化权重矩阵:
    Figure PCTCN2021091340-appb-100003
    分别取非归一化权重矩阵A QT中的每一行进行自我相乘,并进行归一化处理得到数量与非归一化权重矩阵A QT行数相同的多个子矩阵。
  6. 根据权利要求1所述的基于术语增强的文本匹配方法,其中,所述对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
    Figure PCTCN2021091340-appb-100004
    包括:
    按如下公式对所述多个子矩阵进行平均化处理得到平均矩阵
    Figure PCTCN2021091340-appb-100005
    Figure PCTCN2021091340-appb-100006
    n为子矩阵的个数;
    按如下公式对平均矩阵进行归一化处理得到影响矩阵
    Figure PCTCN2021091340-appb-100007
    Figure PCTCN2021091340-appb-100008
    softmax表示归一化。
  7. 根据权利要求1所述的基于术语增强的文本匹配方法,其中,所述对所述键矩阵K和查询矩阵Q进行矩阵乘法处理,得到自注意力矩阵A,然后利用所述自注意力矩阵A和影响矩阵
    Figure PCTCN2021091340-appb-100009
    计算得到自注意力模块的输出,再根据所述输出对所述用户问句与待匹配的文本进行匹配,包括:
    对所述键矩阵K和查询矩阵Q进行矩阵乘法,得到自注意力矩阵
    Figure PCTCN2021091340-appb-100010
    h a表示键矩阵K的长度;
    按下式计算得到自注意力模块的输出:
    Figure PCTCN2021091340-appb-100011
    其中α是预先设定的超参;
    利用所述自注意力模块的输出对所述用户问句与待匹配的文本进行匹配。
  8. 一种基于术语增强的文本匹配装置,其中,包括:
    集合构建单元,用于获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T;
    向量化单元,用于对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量 TE;
    线性转换单元,用于对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T
    自我相乘单元,用于计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵;
    平均处理单元,用于对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
    Figure PCTCN2021091340-appb-100012
    输出单元,用于对所述键矩阵K和查询矩阵Q进行矩阵乘法处理,得到自注意力矩阵A,然后利用所述自注意力矩阵A和影响矩阵
    Figure PCTCN2021091340-appb-100013
    计算得到自注意力模块的输出,再根据所述输出对所述用户问句与待匹配的文本进行匹配。
  9. 一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1所述的基于术语增强的文本匹配方法。
  10. 根据权利要求9所述的计算机设备,其中,所述获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T,包括:
    获取用户问句以及待匹配文本;
    对所述用户问句以及待匹配文本进行自然语言处理,分别得到用户问句中的所有特征词和待匹配文本中的所有特征词;
    将用户问句中的所有特征词按顺序构建为问句特征词集合QU,将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC;
    基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T。
  11. 根据权利要求9所述的计算机设备,其中,所述对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量TE,包括:
    将所述文本特征词集合QC与问句特征词集合QU进行拼接,并采用分隔符SEP进行分隔,得到拼接集合Q=[QC,SEP,QU];
    通过embedding查询,将所述拼接集合Q中的字符转换为相应的向量,得到特征向量QE;
    通过embedding查询,将所述术语集合T中的字符转换为相应的向量,得到术语向量TE。
  12. 根据权利要求9所述的计算机设备,其中,所述对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T,包括:
    利用已训练的权重矩阵W K、W Q和W V分别与所述特征向量QE进行矩阵相乘,得到三个形状相同的矩阵:键矩阵K、查询矩阵Q和值矩阵V;
    利用已训练的权重矩阵W T与所述术语向量TE进行矩阵相乘,得到矩阵K T
  13. 根据权利要求9所述的计算机设备,其中,所述计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵,包括:
    按下式计算矩阵K T与查询矩阵Q的非归一化权重矩阵:
    Figure PCTCN2021091340-appb-100014
    分别取非归一化权重矩阵A QT中的每一行进行自我相乘,并进行归一化处理得到数量与非归一化权重矩阵A QT行数相同的多个子矩阵。
  14. 根据权利要求9所述的计算机设备,其中,所述对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
    Figure PCTCN2021091340-appb-100015
    包括:
    按如下公式对所述多个子矩阵进行平均化处理得到平均矩阵
    Figure PCTCN2021091340-appb-100016
    Figure PCTCN2021091340-appb-100017
    n为子矩阵的个数;
    按如下公式对平均矩阵进行归一化处理得到影响矩阵
    Figure PCTCN2021091340-appb-100018
    Figure PCTCN2021091340-appb-100019
    softmax表示归一化。
  15. 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1所述的基于术语增强的文本匹配方法。
  16. 根据权利要求15所述的计算机可读存储介质,其中,所述获取用户问句以及待匹配文本,对所述用户问句以及待匹配文本进行自然语言处理,分别得到问句特征词集合QU和文本特征词集合QC,并识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T,包括:
    获取用户问句以及待匹配文本;
    对所述用户问句以及待匹配文本进行自然语言处理,分别得到用户问句中的所有特征词和待匹配文本中的所有特征词;
    将用户问句中的所有特征词按顺序构建为问句特征词集合QU,将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC;
    基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语,构建术语集合T。
  17. 根据权利要求15所述的计算机可读存储介质,其中,所述对所述问句特征词集合QU和文本特征词集合QC进行拼接,然后进行向量化处理,得到特征向量QE;以及对所述术语集合T进行向量化处理,得到术语向量TE,包括:
    将所述文本特征词集合QC与问句特征词集合QU进行拼接,并采用分隔符SEP进行分隔,得到拼接集合Q=[QC,SEP,QU];
    通过embedding查询,将所述拼接集合Q中的字符转换为相应的向量,得到特征向量 QE;
    通过embedding查询,将所述术语集合T中的字符转换为相应的向量,得到术语向量TE。
  18. 根据权利要求15所述的计算机可读存储介质,其中,所述对所述特征向量QE进行线性转换得到:键矩阵K、查询矩阵Q和值矩阵V,以及对所述术语向量TE进行线性转换,得到矩阵K T,包括:
    利用已训练的权重矩阵W K、W Q和W V分别与所述特征向量QE进行矩阵相乘,得到三个形状相同的矩阵:键矩阵K、查询矩阵Q和值矩阵V;
    利用已训练的权重矩阵W T与所述术语向量TE进行矩阵相乘,得到矩阵K T
  19. 根据权利要求15所述的计算机可读存储介质,其中,所述计算所述矩阵K T与查询矩阵Q的非归一化权重矩阵A QT,然后对所述非归一化权重矩阵A QT进行自我相乘以及归一化处理得到多个子矩阵,包括:
    按下式计算矩阵K T与查询矩阵Q的非归一化权重矩阵:
    Figure PCTCN2021091340-appb-100020
    分别取非归一化权重矩阵A QT中的每一行进行自我相乘,并进行归一化处理得到数量与非归一化权重矩阵A QT行数相同的多个子矩阵。
  20. 根据权利要求15所述的计算机可读存储介质,其中,所述对所述多个子矩阵进行平均化处理,再进行归一化处理得到影响矩阵
    Figure PCTCN2021091340-appb-100021
    包括:
    按如下公式对所述多个子矩阵进行平均化处理得到平均矩阵
    Figure PCTCN2021091340-appb-100022
    Figure PCTCN2021091340-appb-100023
    n为子矩阵的个数;
    按如下公式对平均矩阵进行归一化处理得到影响矩阵
    Figure PCTCN2021091340-appb-100024
    Figure PCTCN2021091340-appb-100025
    softmax表示归一化。
PCT/CN2021/091340 2020-09-03 2021-04-30 文本匹配方法、装置、计算机设备及存储介质 WO2022048174A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010914259.2 2020-09-03
CN202010914259.2A CN112052683A (zh) 2020-09-03 2020-09-03 一种文本匹配方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
WO2022048174A1 true WO2022048174A1 (zh) 2022-03-10

Family

ID=73607265

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/091340 WO2022048174A1 (zh) 2020-09-03 2021-04-30 文本匹配方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112052683A (zh)
WO (1) WO2022048174A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548047A (zh) * 2022-04-25 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法以及装置、文本处理方法以及装置
CN115935195A (zh) * 2022-11-08 2023-04-07 华院计算技术(上海)股份有限公司 文本匹配方法及装置、计算机可读存储介质、终端
CN116991979A (zh) * 2023-09-27 2023-11-03 中国科学院文献情报中心 一种基于明确语义内容的匹配方法与装置
CN118396039A (zh) * 2024-06-27 2024-07-26 杭州海康威视数字技术股份有限公司 一种自注意力机制计算方法、推理方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052683A (zh) * 2020-09-03 2020-12-08 平安科技(深圳)有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN113515605B (zh) * 2021-05-20 2023-12-19 中晨田润实业有限公司 基于人工智能的智能机器人问答方法和智能机器人
CN113836266B (zh) * 2021-09-23 2024-07-19 中国平安人寿保险股份有限公司 基于bert的自然语言处理方法及相关设备
CN114372457A (zh) * 2022-01-11 2022-04-19 上海商汤智能科技有限公司 数据处理方法、装置、电子设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452767B2 (en) * 2006-09-15 2013-05-28 Battelle Memorial Institute Text analysis devices, articles of manufacture, and text analysis methods
CN108763535A (zh) * 2018-05-31 2018-11-06 科大讯飞股份有限公司 信息获取方法及装置
CN109766423A (zh) * 2018-12-29 2019-05-17 上海智臻智能网络科技股份有限公司 基于神经网络的问答方法及装置、存储介质、终端
CN110647619A (zh) * 2019-08-01 2020-01-03 中山大学 一种基于问题生成和卷积神经网络的常识问答方法
CN110837586A (zh) * 2018-08-15 2020-02-25 阿里巴巴集团控股有限公司 问答匹配方法、系统、服务器及存储介质
CN111415740A (zh) * 2020-02-12 2020-07-14 东北大学 问诊信息的处理方法、装置、存储介质及计算机设备
CN112052683A (zh) * 2020-09-03 2020-12-08 平安科技(深圳)有限公司 一种文本匹配方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244711B2 (en) * 2009-09-28 2012-08-14 Chin Lung Fong System, method and apparatus for information retrieval and data representation
CN109146064B (zh) * 2018-09-05 2023-07-25 腾讯科技(深圳)有限公司 神经网络训练方法、装置、计算机设备和存储介质
CN110807084A (zh) * 2019-05-15 2020-02-18 北京信息科技大学 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN110134967A (zh) * 2019-05-22 2019-08-16 北京金山数字娱乐科技有限公司 文本处理方法、装置、计算设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452767B2 (en) * 2006-09-15 2013-05-28 Battelle Memorial Institute Text analysis devices, articles of manufacture, and text analysis methods
CN108763535A (zh) * 2018-05-31 2018-11-06 科大讯飞股份有限公司 信息获取方法及装置
CN110837586A (zh) * 2018-08-15 2020-02-25 阿里巴巴集团控股有限公司 问答匹配方法、系统、服务器及存储介质
CN109766423A (zh) * 2018-12-29 2019-05-17 上海智臻智能网络科技股份有限公司 基于神经网络的问答方法及装置、存储介质、终端
CN110647619A (zh) * 2019-08-01 2020-01-03 中山大学 一种基于问题生成和卷积神经网络的常识问答方法
CN111415740A (zh) * 2020-02-12 2020-07-14 东北大学 问诊信息的处理方法、装置、存储介质及计算机设备
CN112052683A (zh) * 2020-09-03 2020-12-08 平安科技(深圳)有限公司 一种文本匹配方法、装置、计算机设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548047A (zh) * 2022-04-25 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法以及装置、文本处理方法以及装置
CN115935195A (zh) * 2022-11-08 2023-04-07 华院计算技术(上海)股份有限公司 文本匹配方法及装置、计算机可读存储介质、终端
CN115935195B (zh) * 2022-11-08 2023-08-08 华院计算技术(上海)股份有限公司 文本匹配方法及装置、计算机可读存储介质、终端
CN116991979A (zh) * 2023-09-27 2023-11-03 中国科学院文献情报中心 一种基于明确语义内容的匹配方法与装置
CN116991979B (zh) * 2023-09-27 2023-12-01 中国科学院文献情报中心 一种基于明确语义内容的匹配方法与装置
CN118396039A (zh) * 2024-06-27 2024-07-26 杭州海康威视数字技术股份有限公司 一种自注意力机制计算方法、推理方法

Also Published As

Publication number Publication date
CN112052683A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
WO2022048174A1 (zh) 文本匹配方法、装置、计算机设备及存储介质
WO2021017721A1 (zh) 智能问答方法、装置、介质及电子设备
US20240202446A1 (en) Method for training keyword extraction model, keyword extraction method, and computer device
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
WO2019242297A1 (zh) 基于机器阅读理解的智能对话方法、装置、终端
WO2020182122A1 (zh) 用于生成文本匹配模型的方法和装置
US20220027569A1 (en) Method for semantic retrieval, device and storage medium
WO2021114810A1 (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
JP6161679B2 (ja) 検索エンジン及びその実現方法
WO2020232882A1 (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
WO2019153607A1 (zh) 智能应答方法、电子装置及存储介质
US20220198327A1 (en) Method, apparatus, device and storage medium for training dialogue understanding model
US20200356729A1 (en) Generation of text from structured data
US10628529B2 (en) Device and method for natural language processing
US20100318531A1 (en) Smoothing clickthrough data for web search ranking
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
CN110134780B (zh) 文档摘要的生成方法、装置、设备、计算机可读存储介质
CN111159343A (zh) 基于文本嵌入的文本相似性搜索方法、装置、设备和介质
US11423093B2 (en) Inter-document attention mechanism
CN112559895B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN111368037A (zh) 基于Bert模型的文本相似度计算方法和装置
US20190384809A1 (en) Methods and systems for providing universal portability in machine learning
CN112989046B (zh) 实时话术预判方法、装置、计算机设备和存储介质
CN117332068B (zh) 人机交互方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21863244

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21863244

Country of ref document: EP

Kind code of ref document: A1