WO2023279692A1 - 基于问答平台的数据处理方法、装置及相关设备 - Google Patents

基于问答平台的数据处理方法、装置及相关设备 Download PDF

Info

Publication number
WO2023279692A1
WO2023279692A1 PCT/CN2022/071320 CN2022071320W WO2023279692A1 WO 2023279692 A1 WO2023279692 A1 WO 2023279692A1 CN 2022071320 W CN2022071320 W CN 2022071320W WO 2023279692 A1 WO2023279692 A1 WO 2023279692A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
question
text
question text
cluster
Prior art date
Application number
PCT/CN2022/071320
Other languages
English (en)
French (fr)
Inventor
陈聪
舒畅
陈又新
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2023279692A1 publication Critical patent/WO2023279692A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Definitions

  • the present application relates to the technical field of data processing, and in particular to a data processing method, device, computer equipment and media based on a question answering platform.
  • the question-and-answer platform is a communication platform for users. Users can receive help from experts on the question-and-answer platform, and at the same time try their best to provide effective help to other users. Most of the question-and-answer platforms involve online interactions, such as raising hands, asking questions, swiping the screen, and popping screens. Questions from users need to be answered as soon as possible. If experts only rely on manual responses to questions from the question-and-answer platform, the efficiency and accuracy of question-and-answer processing cannot be guaranteed.
  • the existing question-and-answer platform uses the way of task assistants to collect the questions output by the user, and match the corresponding answer for the user according to the correlation between the question and the answer .
  • the number of users is large, and the number of questions output by each user is also large. If only the correlation matching method is used, it cannot meet the requirements of correctly answering as many user questions as possible within the effective time. demand, resulting in low efficiency and accuracy of question answering.
  • the first aspect of the embodiment of the present application provides a data processing method based on a question and answer platform, and the data processing method based on a question and answer platform includes:
  • the detection result is that the target text set contains the question text
  • acquiring the question text in the target text set to obtain the question text set
  • the second aspect of the embodiment of the present application also provides a data processing device based on a question and answer platform, and the data processing device based on a question and answer platform includes:
  • a question detection module configured to collect a target text set, and call a pre-trained question detection model to detect whether the target text set contains question text;
  • a question acquiring module configured to acquire the question text in the target text set to obtain the question text set when the detection result is that the target text set contains question text;
  • a correlation degree calculation module configured to obtain the target document content corresponding to each question text in the question text set, and use the question text whose correlation degree between the question text and the target document content exceeds a preset correlation degree threshold as the target question Text, get the target question text set;
  • a clustering analysis module used for clustering and analyzing each of the target question texts in the target question text set to obtain several question clusters
  • An index calculation module configured to calculate a target index value for each of the problem clusters, and combine the target index values according to a preset data format to obtain a target feature value corresponding to each of the problem clusters;
  • An importance calculation module configured to input the target feature value into a pre-trained importance calculation model to obtain the corresponding importance of each of the problem clusters;
  • An answer output module configured to output the answers corresponding to the question clusters according to the order of importance.
  • the third aspect of the embodiment of the present application also provides a computer device, the computer device includes a processor, and the processor is configured to execute computer-readable instructions stored in the memory to implement the following steps:
  • the detection result is that the target text set contains the question text
  • acquiring the question text in the target text set to obtain the question text set
  • the fourth aspect of the embodiment of the present application also provides a computer-readable storage medium, where computer-readable instructions are stored on the computer-readable storage medium, wherein, when the computer-readable instructions are executed by a processor, the following steps are implemented:
  • the detection result is that the target text set contains the question text
  • acquiring the question text in the target text set to obtain the question text set
  • the above-mentioned question-and-answer platform-based data processing method, question-and-answer platform-based data processing device, computer equipment, and computer-readable storage medium provided in the embodiments of the present application, after collecting the target text set, call the pre-trained question detection model detection station Whether the target text set contains the question text is used to intelligently identify the question, and then quickly match the answer to the question text, which can improve the data processing efficiency in high-frequency and high-concurrency question-and-answer scenarios; and this application can realize only for Answering the question text related to the content of the target document avoids answering the question text irrelevant to the content of the target document, which can improve the accuracy of the question and answer; in addition, this application obtains several question clusters by performing cluster analysis on the target question text, Then evaluate the question importance for each question cluster, give priority to answering the target question text corresponding to the question cluster with high importance, and then improve the efficiency of question answering processing.
  • This application can be applied to various functional modules of smart cities such as smart government affairs and smart transportation
  • FIG. 1 is a flow chart of a data processing method based on a question answering platform provided in Embodiment 1 of the present application.
  • FIG. 2 is a structural diagram of a data processing device based on a question answering platform provided in Embodiment 2 of the present application.
  • FIG. 3 is a schematic structural diagram of a computer device provided in Embodiment 3 of the present application.
  • the data processing method based on the question answering platform provided in the embodiment of the present application is executed by computer equipment, and correspondingly, the data processing device based on the question answering platform runs on the computer equipment.
  • Fig. 1 is a flowchart of a data processing method based on a question answering platform according to the first embodiment of the present application.
  • the data processing method based on the question answering platform may include the following steps. According to different requirements, the order of the steps in the flow chart may be changed, and some may be omitted:
  • step S11 Collect a target text set, and call a pre-trained question detection model to detect whether the target text set contains question text, and when the detection result is that the target text set contains question text, perform step S12.
  • the data processing method based on the question and answer platform can be applied to the question and answer processing of the online live teaching platform or the question and answer processing of other platforms.
  • This application takes the question and answer processing of the online live teaching platform as an example.
  • the live teaching platform includes a teacher terminal and a student terminal, the teacher terminal is used to output the corresponding teaching document content, and the student terminal is used to output the corresponding answer content for the teaching document content, for example, the answer content can be "understand, understand " and other content, it can also be the content of the question to the teacher.
  • the target text set refers to a text set composed of response content output by the student terminal.
  • the application calls the pre-trained question detection model to detect whether the target text set contains questions Intelligently identify questions from the text, and then quickly match the answers to the question text, which can improve data processing efficiency in high-frequency and high-concurrency question-and-answer scenarios.
  • the method before calling a pre-trained question detection model to detect whether the target text set contains question text, the method further includes:
  • the text training set is input into the initial neural network model for training to obtain a problem detection model
  • the text test set is input into the question detection model, the accuracy of the model is calculated, and when the accuracy exceeds a preset accuracy threshold, it is determined that the training of the question detection model is completed.
  • the preset question label refers to a label used to mark the question text in the text sample set, and the preset question label may be a number label, a letter label, or a color label, etc., which is not limited here.
  • the preset accuracy threshold is a preset threshold for evaluating model training accuracy, for example, the preset accuracy threshold may be 98%.
  • the initial neural network model may be a FastText model, which is not limited here.
  • the question texts in the target text set are obtained to obtain the question text set.
  • each question text in the question text set carries a time stamp
  • the time stamp is used to identify the time point when the question text is output, by obtaining the target document content corresponding to the time stamp , which can detect whether the question text is related to the content of the target document.
  • the present application can only answer questions related to the content of the target document, avoid answering questions irrelevant to the content of the target document, and improve the accuracy of the question and answer.
  • the acquiring the target document content corresponding to each question text in the question text set includes:
  • the mapping relationship between the preset time period and the target document content is traversed to obtain the target document content corresponding to the target time period.
  • the time stamp may be a time point in the format of 2021/2/1/16:00, each time stamp has a unique corresponding time period, and the time period may be 2021/2/1/15:30 -2021/2/1/16:30 format, no limitation here.
  • a corresponding target document content is preset, and the mapping relationship between the time period and the target document content can be stored in a preset database.
  • the preset database may be the target node of the blockchain.
  • the question text whose correlation degree between the question text and the target document content exceeds a preset correlation degree threshold is used as the target question text, and the target question text set includes:
  • the two-tower model can be invoked to analyze the correlation between the question text and the content of the target document, and the two-tower model respectively performs vectorization processing on the question text and the content of the target document to obtain a question text vector with document content vector.
  • the preset correlation calculation model refers to a preset mathematical model used to calculate the correlation between two vectors.
  • the specific content of the preset correlation calculation model is not limited, and it can be a vector distance calculation model and the like.
  • the preset correlation threshold is a preset threshold for identifying the degree of correlation, for example, the preset correlation threshold is 0.5, and when the correlation between the question text vector and the document content vector exceeds 0.5, It is determined that the question text vector is related to the document content vector; when the correlation between the question text vector and the document content vector is not more than 0.5, it is determined that the question text vector is not related to the document content vector.
  • cluster analysis is performed on each of the target question texts in the target question text set to obtain several question clusters, and the similarity of the question texts in each question cluster is relatively high, The similarity between question texts in different question clusters is low.
  • This application obtains several question clusters by performing cluster analysis on the target question text, and then evaluates the importance of each question cluster, and gives priority to answering the target question texts corresponding to the high importance question clusters, thereby improving the efficiency of question answering.
  • the cluster analysis of each of the target question texts in the target question text set obtains several question clusters including:
  • the K-means algorithm may be invoked to perform cluster analysis on each of the target question texts in the target question text set to obtain several question clusters.
  • the preset number is a preset number of initial cluster centers.
  • the target index value may include, but not limited to, the size value of the question cluster, the average length of the question cluster, the degree of overlap between the question cluster and the preset document content, the The similarity between the question cluster and the content of the preset document and the vector form of the question cluster.
  • the calculating the target index value of each problem cluster includes:
  • a vector expression is computed for each of said problem clusters.
  • the calculating the size value of each question cluster also includes: calculating the number of question texts contained in each question cluster. It can be understood that the larger the number of question texts contained in the question cluster, the higher the frequency of questioning of this type of question and the greater the number of students covered.
  • the calculating the average length of each question cluster includes: obtaining the length of each question text included in each question cluster; and calculating the average length of all question texts in the question cluster. It can be understood that the smaller the average length, the shorter the question and the lower the difficulty of the question.
  • the preset document content refers to the preset document content related to the question-and-answer platform, for example, the preset document content may be a classroom filing text.
  • the calculation of the degree of coincidence between each of the problem clusters and the content of the preset document also includes: using the BLEU(q, D) model to measure the degree of coincidence between the problem cluster and the content of the preset document, where q represents the problem
  • the question text in the cluster, D means the default document content. It can be understood that when the score of BLEU is closer to 1, it indicates that the question cluster has a higher degree of overlap with the content of the preset document; when the score of BLEU is farther away from 1, it indicates that the question cluster has a higher degree of overlap with the content of the preset document lower.
  • the calculating the similarity between each question cluster and the preset document content also includes: calculating the similarity between the question text in the question cluster and the preset document content by using BM25 scores. It can be understood that the higher the BM25 score, the higher the similarity between the question text in the question cluster and the content of the preset document; the lower the BM25 score, the higher the similarity between the question text in the question cluster and the preset document content. The lower the similarity of the preset document content is.
  • the calculation of the vector formula of each of the question clusters also includes: vectorizing the question text in each of the question clusters to obtain the question text vector; averaging the question text vectors to obtain the Vector form of problem clusters.
  • combining the target index values according to the preset data format to obtain the target feature values corresponding to each of the problem clusters includes:
  • the target index value may include but not limited to the size value of the question cluster, the average length of the question cluster, the coincidence degree between the question cluster and the preset document content, the question cluster and the preset
  • the above target index values are vectorized to obtain target index values in vector form, also called index vectors.
  • the arrangement order refers to the splicing order of the preset target index values, which is not limited here.
  • the index vectors are spliced according to the arrangement order to obtain a target eigenvalue vector, and all vector elements contained in the target eigenvalue vector are used as target eigenvalues.
  • target index values are combined according to a preset data format to obtain a target feature value corresponding to each of the problem clusters.
  • the preset data format can be a preset data format for The format for combining multiple target indicator values is not limited here.
  • the importance calculation model is used to calculate the importance corresponding to each of the problem clusters, and the importance can be identified in the form of letters or numbers, for example, when the importance When identifying by letters, letters A, B, and C can be set, among which, A has the highest degree of importance, and C has the lowest degree of importance.
  • the importance calculation model may be a Learning to Rank model, which is not limited here.
  • the outputting the answers corresponding to the question clusters according to the order of importance includes:
  • the answers are output in order of the degrees of importance.
  • the target keyword refers to a keyword in the question cluster that can indicate the gist of the question text, and the way to obtain the target keyword is the prior art, so it will not be repeated here.
  • the method further includes: collecting the final answer output by the preset terminal, and detecting the difference between the final answer and the Whether the answers are consistent; when the detection result is that the final answer is inconsistent with the answer, update the final answer to the preset database, and adjust the association between the preset keywords and the answer.
  • FIG. 2 is a structural diagram of a data processing device based on a question answering platform provided in Embodiment 2 of the present application.
  • the data processing device 20 based on the question answering platform may include a plurality of functional modules composed of computer program segments.
  • the computer program of each program segment in the data processing device 20 based on the question-answering platform can be stored in the memory of the computer device, and executed by at least one processor to execute (see Figure 1 for details) based on the question-answering platform. processing function.
  • the data processing device 20 based on the question answering platform can be divided into multiple functional modules according to the functions it performs.
  • the functional modules may include: a question detection module 201 , a question acquisition module 202 , a correlation calculation module 203 , a cluster analysis module 204 , an index calculation module 205 , an importance calculation module 206 and an answer output module 207 .
  • the module referred to in this application refers to a series of computer program segments that can be executed by at least one processor and can complete fixed functions, and are stored in a memory. In this embodiment, the functions of each module will be described in detail in subsequent embodiments.
  • the question detection module 201 is used to collect a target text set, and call a pre-trained question detection model to detect whether the target text set contains question text.
  • the question acquisition module 202 is configured to acquire question texts in the target text set to obtain a question text set when the detection result is that the target text set contains question texts.
  • the correlation calculation module 203 is used to obtain the target document content corresponding to each question text in the question text set, and use the question text whose correlation degree between the question text and the target document content exceeds a preset correlation threshold as Target question text, get the target question text set.
  • the cluster analysis module 204 is used for cluster analysis of each target question text in the target question text set to obtain several question clusters.
  • the index calculation module 205 is used to calculate the target index value of each of the problem clusters, and combine the target index values according to the preset data format to obtain the target feature value corresponding to each of the problem clusters.
  • the importance calculation module 206 is configured to input the target feature value into a pre-trained importance calculation model to obtain the corresponding importance of each of the question clusters.
  • the answer output module 207 is configured to output the answers corresponding to the question clusters in the order of importance.
  • the computer device 3 includes a memory 31 , at least one processor 32 , at least one communication bus 33 and a transceiver 34 .
  • the structure of the computer equipment shown in Figure 3 does not constitute a limitation of the embodiment of the present application, it can be a bus structure or a star structure, and the computer equipment 3 can also include a ratio diagram more or less other hardware or software, or a different arrangement of components.
  • the computer device 3 is a device that can automatically perform numerical calculation and/or information processing according to preset or stored instructions, and its hardware includes but not limited to microprocessors, application-specific integrated circuits, Programmable gate arrays, digital processors and embedded devices, etc.
  • the computer device 3 may also include a client device, which includes but is not limited to any electronic product that can interact with the client through a keyboard, mouse, remote control, touch pad or voice control device, for example, Personal computers, tablets, smartphones, digital cameras, etc.
  • the memory 31 stores a computer program, and when the computer program is executed by the at least one processor 32, all or part of the steps in the data processing method based on the question answering platform as described above are implemented.
  • the computer program can be divided into one or more modules/units, and the one or more modules/units can be a series of computer-readable instruction segments capable of accomplishing specific functions, and the instruction segments are used to describe The execution process of the computer program in the computer device.
  • each module described in FIG. 2 is a computer program stored in the memory 31, and is executed by the at least one processor 32, so as to realize the functions of the various modules to achieve information processing based on big data the goal of.
  • Described memory 31 comprises read-only memory (Read-Only Memory, ROM), programmable read-only memory (Programmable Read-Only Memory, PROM), erasable programmable read-only memory (Erasable Programmable Read-Only Memory, EPROM) , One-time Programmable Read-Only Memory (OTPROM), Electronically Erasable Programmable Read-Only Memory (EEPROM), Compact Disc Read-Only Memory (EEPROM), Only Memory, CD-ROM) or other optical disk storage, magnetic disk storage, tape storage, or any other computer-readable medium that can be used to carry or store data.
  • Read-Only Memory Read-Only Memory
  • PROM Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • EPROM Erasable Programmable Read-Only Memory
  • OTPROM One-time Programmable Read-Only Memory
  • EEPROM Electronically Erasable Programmable Read-Only Memory
  • CD-ROM Compact Disc Read-Only Memory
  • the computer-readable storage medium may mainly include a program storage area and a data storage area, wherein the program storage area may store an operating system, an application program required by at least one function, etc.; The data created using the node, etc.
  • the computer-readable storage medium may be non-volatile or volatile.
  • Blockchain essentially a decentralized database, is a series of data blocks associated with each other using cryptographic methods. Each data block contains a batch of network transaction information, which is used to verify its Validity of information (anti-counterfeiting) and generation of the next block.
  • the blockchain can include the underlying platform of the blockchain, the platform product service layer, and the application service layer.
  • the at least one processor 32 is the control core (Control Unit) of the computer device 3, and uses various interfaces and lines to connect the various components of the entire computer device 3, by running or executing the Programs or modules in the memory 31 and call data stored in the memory 31 to execute various functions of the computer device 3 and process data.
  • the at least one processor 32 executes the computer program stored in the memory, it realizes all or part of the steps of the data processing method based on the question answering platform described in the embodiment of the present application; or realizes a data processing device based on the question answering platform all or part of the functions.
  • the at least one processor 32 may be composed of an integrated circuit, for example, may be composed of a single packaged integrated circuit, or may be composed of multiple integrated circuits with the same function or different functions, including one or more central processing units (Central Processing unit, CPU), microprocessor, digital processing chip, graphics processor and a combination of various control chips, etc.
  • CPU central processing unit
  • microprocessor microprocessor
  • digital processing chip graphics processor
  • graphics processor a combination of various control chips, etc.
  • the at least one communication bus 33 is configured to realize connection and communication between the memory 31 and the at least one processor 32 and so on.
  • the computer device 3 may also include a power supply (such as a battery) for supplying power to each component.
  • the power supply may be logically connected to the at least one processor 32 through a power management device, thereby realizing Manage functions such as charging, discharging, and power management.
  • the power supply may also include one or more DC or AC power supplies, recharging devices, power failure detection circuits, power converters or inverters, power status indicators and other arbitrary components.
  • the computer device 3 may also include various sensors, a Bluetooth module, a Wi-Fi module, etc., which will not be repeated here.
  • the above-mentioned integrated units implemented in the form of software function modules can be stored in a computer-readable storage medium.
  • the above-mentioned software functional modules are stored in a storage medium, and include several instructions to enable a computer device (which may be a personal computer, computer device, or network device, etc.) or a processor (processor) to execute the methods described in the various embodiments of the present application. part.
  • the modules described as separate components may or may not be physically separated, and the components displayed as modules may or may not be physical units, and may be located in one place or distributed to multiple network units. Part or all of the modules can be selected according to actual needs to achieve the purpose of the solution of this embodiment.
  • each functional module in each embodiment of the present application may be integrated into one processing unit, each unit may exist separately physically, or two or more units may be integrated into one unit.
  • the above-mentioned integrated units can be implemented in the form of hardware, or in the form of hardware plus software function modules.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

涉及数据处理技术,提供一种基于问答平台的数据处理方法、装置、计算机设备与存储介质,包括:调用问题检测模型检测目标文本集中是否包含问题文本;当检测结果为是时,获取问题文本集;获取每一问题文本对应的目标文档内容,并将问题文本与目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本;聚类分析每一目标问题文本,得到若干个问题簇;计算每一问题簇的目标指标值,并组合目标指标值,得到每一问题簇对应的目标特征值;将目标特征值输入至重要程度计算模型中,得到每一问题簇对应的重要程度;输出问题簇对应的答案。能够提高基于问答平台的数据处理效率与准确性,促进智慧城市的快速发展。

Description

基于问答平台的数据处理方法、装置及相关设备
本申请要求于2021年7月9日提交中国专利局,申请号为202110778011.2发明名称为“基于问答平台的数据处理方法、装置及相关设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于问答平台的数据处理方法、装置、计算机设备及介质。
背景技术
问答平台是为用户提供的一个交流平台,用户可以在问答平台接受专家的帮助,同时也尽力给其他用户提供有效的帮助。问答平台大多涉及在线互动,如举手、提问、刷屏及弹幕等操作。对于用户的提问,需尽快进行相应解答,若仅依靠专家人工应付问答平台的提问,问答处理的效率与准确率均无法保证。
在实现本申请的过程中,发明人发现现有技术存在如下技术问题:现有的问答平台采用任务助手的方式,采集用户输出的问题,并根据问题与答案的相关性为用户匹配相应的答案。然而,在高频高并发的问答场景中,用户数量多,每个用户输出的问题数量也多,若仅是采用相关性匹配的方法,无法满足有效时间内尽可能多的正确回答用户提问的需求,导致问答处理的效率与准确性较低。
因此,有必要提供一种基于问答平台的数据处理方法,能够提高问答处理的效率与准确性。
发明内容
鉴于以上内容,有必要提出一种基于问答平台的数据处理方法、基于问答平台的数据处理装置、计算机设备及介质,能够提高基于问答平台的数据处理效率与准确性。
本申请实施例第一方面提供一种基于问答平台的数据处理方法,所述基于问答平台的数据处理方法包括:
采集目标文本集,并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本;
当检测结果为所述目标文本集中包含问题文本时,获取所述目标文本集中的问题文本,得到问题文本集;
获取所述问题文本集中每一问题文本对应的目标文档内容,并将所述问题文本与所述目 标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集;
聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇;
计算每一所述问题簇的目标指标值,并按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值;
将所述目标特征值输入至预先训练好的重要程度计算模型中,得到每一所述问题簇对应的重要程度;
按照所述重要程度的顺序输出所述问题簇对应的答案。
本申请实施例第二方面还提供一种基于问答平台的数据处理装置,所述基于问答平台的数据处理装置包括:
问题检测模块,用于采集目标文本集,并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本;
问题获取模块,用于当检测结果为所述目标文本集中包含问题文本时,获取所述目标文本集中的问题文本,得到问题文本集;
相关度计算模块,用于获取所述问题文本集中每一问题文本对应的目标文档内容,并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集;
聚类分析模块,用于聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇;
指标计算模块,用于计算每一所述问题簇的目标指标值,并按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值;
重要程度计算模块,用于将所述目标特征值输入至预先训练好的重要程度计算模型中,得到每一所述问题簇对应的重要程度;
答案输出模块,用于按照所述重要程度的顺序输出所述问题簇对应的答案。
本申请实施例第三方面还提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机可读指令以实现以下步骤:
采集目标文本集,并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本;
当检测结果为所述目标文本集中包含问题文本时,获取所述目标文本集中的问题文本,得到问题文本集;
获取所述问题文本集中每一问题文本对应的目标文档内容,并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集;
聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇;
计算每一所述问题簇的目标指标值,并按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值;
将所述目标特征值输入至预先训练好的重要程度计算模型中,得到每一所述问题簇对应的重要程度;
按照所述重要程度的顺序输出所述问题簇对应的答案。
本申请实施例第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现以下步骤:
采集目标文本集,并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本;
当检测结果为所述目标文本集中包含问题文本时,获取所述目标文本集中的问题文本,得到问题文本集;
获取所述问题文本集中每一问题文本对应的目标文档内容,并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集;
聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇;
计算每一所述问题簇的目标指标值,并按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值;
将所述目标特征值输入至预先训练好的重要程度计算模型中,得到每一所述问题簇对应的重要程度;
按照所述重要程度的顺序输出所述问题簇对应的答案。
本申请实施例提供的上述基于问答平台的数据处理方法、基于问答平台的数据处理装置、计算机设备以及计算机可读存储介质,在采集到目标文本集后,调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本进行智能识别问题,继而针对问题文本快速匹配答案,能够在高频高并发的问答场景中提高数据处理效率;且本申请通过文本的相关性识别,能够实现仅针对与目标文档内容相关的问题文本进行解答,避免对目标文档内容不相关的问题文本进行解答,能够提高问答的准确性;此外,本申请通过对目标问题文本进行聚类分析,得到若干问题簇,继而对每个问题簇进行问题重要性评估,优先解答重要性高的问题簇对应的目标问题文本,继而提高问答处理的效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的基于问答平台的数据处理模块等,能够促进智慧城市的快速发展。
附图说明
图1是本申请实施例一提供的基于问答平台的数据处理方法的流程图。
图2是本申请实施例二提供的基于问答平台的数据处理装置的结构图。
图3是本申请实施例三提供的计算机设备的结构示意图。
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本申请实施例提供的基于问答平台的数据处理方法由计算机设备执行,相应地,基于问答平台的数据处理装置运行于计算机设备中。
图1是本申请第一实施方式的基于问答平台的数据处理方法的流程图。如图1所示,所述基于问答平台的数据处理方法可以包括如下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略:
S11,采集目标文本集,并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本,当检测结果为所述目标文本集中包含问题文本时,执行步骤S12。
在本申请的至少一实施例中,所述基于问答平台的数据处理方法可应用于在线直播教学平台的问答处理或者其他平台的问答处理,本申请以在线直播教学平台的问答处理为例,在线直播教学平台包括教师端和学生端,所述教师端用于输出相应的教学文档内容,所述学生端用于针对教学文档内容输出相应的应答内容,例如,应答内容可以是“懂了、明白”等内容,还可以是向老师提问的问题内容。在一实施例中,所述目标文本集是指所述学生端输出的应答内容组成的文本集合。由于所述目标文本集中包含“懂了、明白”等内容以及向老师提问的问题内容,本申请在采集到目标文本集后,调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本进行智能识别问题,继而针对问题文本快速匹配答案,能够在高频高并发的问答场景中提高数据处理效率。
可选地,在所述调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本之前,所述方法还包括:
获取携带预设问题标签的文本样本集,并拆分所述文本样本集为文本训练集与文本测试集,其中,所述预设问题标签用于标记所述文本样本集中的问题文本;
将所述文本训练集输入至初始神经网络模型中进行训练,得到问题检测模型;
将所述文本测试集输入至所述问题检测模型中,计算模型的准确率,并在所述准确率超过预设准确率阈值时,确定所述问题检测模型训练完成。
其中,所述预设问题标签是指用于标记所述文本样本集中的问题文本的标签,所述预设问题标签可以为数字标签、字母标签或者颜色标签等,在此不做限制。所述预设准确率阈值为预先设置的用于评估模型训练准确性的阈值,例如,所述预设准确率阈值可以为98%。所述初始神经网络模型可以为FastText模型,在此不做限制。
S12,获取所述目标文本集中的问题文本,得到问题文本集。
在本申请的至少一实施例中,获取所述目标文本集中的问题文本,得到问题文本集。
S13,获取所述问题文本集中每一问题文本对应的目标文档内容,并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集。
在本申请的至少一实施例中,所述问题文本集中每一问题文本携带有时间戳,所述时间戳用于标识该问题文本输出的时间点,通过获取与该时间戳对应的目标文档内容,能够检测该问题文本是否与目标文档内容相关。本申请通过文本的相关性识别,能够实现仅针对与目标文档内容相关的问题文本进行解答,避免对目标文档内容不相关的问题文本进行解答,能够提高问答的准确性。
可选地,所述获取所述问题文本集中每一问题文本对应的目标文档内容包括:
获取所述问题文本集中每一问题文本携带的时间戳;
确定所述时间戳对应的目标时间段;
根据所述目标时间段遍历预先设置的时间段与目标文档内容的映射关系,得到所述目标时间段对应的目标文档内容。
其中,所述时间戳可以是格式为2021/2/1/16:00的时间点,每一个时间戳都有唯一对应的时间段,所述时间段可以为2021/2/1/15:30-2021/2/1/16:30格式,在此不做限制。对于每一个时间段,都预先设置有目标文档内容与之对应,所述时间段与所述目标文档内容间的映射关系可存储于预设数据库中。在一实施例中,考虑到数据存储的隐私性与私密性,所述预设数据库可以为区块链的目标节点。
可选地,所述将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集包括:
向量化处理所述问题文本,得到问题文本向量;
向量化处理所述目标文档内容,得到文档内容向量;
按照预设相关度计算模型计算所述问题文本向量与所述文档内容向量的相关度;
检测所述相关度是否超过预设相关度阈值;
当检测结果为所述相关度超过所述预设相关度阈值时,确定所述相关度超过所述预设相关度阈值的问题文本为目标问题文本;
组合所述目标问题文本,得到目标问题文本集。
其中,可以调用双塔模型对所述问题文本与所述目标文档内容的相关度进行分析,所述双塔模型分别对所述问题文本与所述目标文档内容进行向量化处理,得到问题文本向量与文档内容向量。所述预设相关度计算模型是指预先设置的用于计算两个向量间的相关度的数学模型,所述预设相关度计算模型的具体内容不做限制,可以为向量距离计算模型等。所述预设相关度阈值为预先设置的用于标识相关程度的阈值,例如,所述预设相关度阈值为0.5,当所述问题文本向量与所述文档内容向量的相关度超过0.5时,确定所述问题文本向量与所述文档内容向量相关;当所述问题文本向量与所述文档内容向量的相关度未超过0.5时,确定所述问题文本向量与所述文档内容向量不相关。
S14,聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇。
在本申请的至少一实施例中,将所述目标问题文本集中的每一所述目标问题文本进行聚类分析,得到若干个问题簇,每一个问题簇中的问题文本的相似度较高,不同的问题簇中的问题文本间的相似度较低。本申请通过对目标问题文本进行聚类分析,得到若干问题簇,继而对每个问题簇进行问题重要性评估,优先解答重要性高的问题簇对应的目标问题文本,继而提高问答的效率。
可选地,所述聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇包括:
从所述目标问题文本集中随机选取预设数量的第一目标问题文本,并将所述第一目标问题文本作为初始簇中心;
计算与所述初始簇中心的距离最近的第二目标问题文本,并由所述第一目标问题文本与所述第二目标问题文本组成所述初始簇中心对应的问题簇;
获取所述问题簇中所述第一目标问题文本与所述第二目标问题文本的问题文本均值,并将所述问题文本均值作为第一簇中心;
计算与所述第一簇中心的距离最近的第三目标问题文本,并更新所述问题文本均值与所述第三目标问题文本组成所述第一簇中心对应的问题簇;
重复上述步骤,得到目标问题文本均值作为目标簇中心,计算与所述目标簇中心的距离最近的第四目标问题文本,并更新所述目标问题文本均值与所述第四目标问题文本组成所述目标簇中心对应的目标问题簇。
其中,可调用K-means算法对所述目标问题文本集中的每一所述目标问题文本进行聚类分析,得到若干问题簇。所述预设数量为预先设置的初始簇中心的数量。
S15,计算每一所述问题簇的目标指标值,并按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值。
在本申请的至少一实施例中,所述目标指标值可以包括但不限于所述问题簇的大小值、所述问题簇的平均长度、所述问题簇与预设文档内容的重合度、所述问题簇与所述预设文档 内容的相似度以及所述问题簇的向量式。
可选地,所述计算每一所述问题簇的目标指标值包括:
计算每一所述问题簇的大小值;
计算每一所述问题簇的平均长度;
计算每一所述问题簇与预设文档内容的重合度;
计算每一所述问题簇与所述预设文档内容的相似度;
计算每一所述问题簇的向量式。
其中,所述计算每一所述问题簇的大小值也即包括:计算每一所述问题簇中包含的问题文本的数量。可以理解的是,所述问题簇中包含的问题文本的数量越大,说明该类问题被提问的频次越高,覆盖的学生人数越多。
其中,所述计算每一所述问题簇的平均长度也即包括:获取每一所述问题簇中包含的每一问题文本的长度;计算所述问题簇中所有问题文本的平均长度。可以理解的是,所述平均长度越小,说明该类问题越短,该类问题的问题难度越低。
其中,所述预设文档内容是指预先设置的与问答平台相关的文档内容,例如,所述预设文档内容可以为课堂备案文本。所述计算每一所述问题簇与预设文档内容的重合度也即包括:利用BLEU(q,D)模型度量所述问题簇与预设文档内容的重合度,其中,q表示所述问题簇中的问题文本,D表示预设文档内容。可以理解的是,当BLEU的分数越接近1,说明所述问题簇与预设文档内容的重合度越高;当BLEU的分数越远离1,说明所述问题簇与预设文档内容的重合度越低。
其中,所述计算每一所述问题簇与所述预设文档内容的相似度也即包括:利用BM25分数计算所述问题簇中的问题文本与所述预设文档内容的相似度。可以理解的是,当BM25分数越高,说明所述问题簇中的问题文本与所述预设文档内容的相似度越高;当BM25分数越低,说明所述问题簇中的问题文本与所述预设文档内容的相似度越低。
其中,所述计算每一所述问题簇的向量式也即包括:向量化处理每一所述问题簇中的问题文本,得到问题文本向量;将所述问题文本向量进行平均处理,得到所述问题簇的向量式。
可选地,所述按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值包括:
向量化处理所述目标指标值,得到若干指标向量;
获取每一所述指标向量的排列顺序;
按照所述排列顺序拼接所述指标向量,得到目标特征值向量;
确定所述目标特征值向量中的向量元素作为目标特征值。
其中,所述目标指标值可以包括但不限于所述问题簇的大小值、所述问题簇的平均长度、所述问题簇与预设文档内容的重合度、所述问题簇与所述预设文档内容的相似度以及所述问题簇的向量式,将上述目标指标值进行向量化处理,分别得到向量形式的目标指标值,也称 为指标向量。所述排列顺序是指预先设置的各个目标指标值的拼接顺序,在此不做限制。按照所述排列顺序拼接所述指标向量,得到目标特征值向量,所述目标特征值向量中包含的所有向量元素作为目标特征值。
在本申请的至少一实施例中,按照预设数据格式组合若干个所述目标指标值,得到每一所述问题簇对应的目标特征值,所述预设数据格式可以为预先设置的用于组合多个目标指标值的格式,在此不做限制。
S16,将所述目标特征值输入至预先训练好的重要程度计算模型中,得到每一所述问题簇对应的重要程度。
在本申请的至少一实施例中,所述重要程度计算模型用于计算每一所述问题簇对应的重要程度,所述重要程度可以通过字母或者数字的形式标识,例如,当所述重要程度通过字母形式标识时,可以设置字母A、B与C,其中,A的重要程度最高,C的重要程度最低。所述重要程度计算模型可以为Learning to Rank模型,在此不做限制。
S17,按照所述重要程度的顺序输出所述问题簇对应的答案。
在本申请的至少一实施例中,通过对目标问题文本进行聚类分析,得到若干问题簇,继而对每个问题簇进行问题重要性评估,优先解答重要性高的问题簇对应的目标问题文本,继而提高问答的效率。
可选地,所述按照所述重要程度的顺序输出所述问题簇对应的答案包括:
按照所述重要程度的顺序排列所述问题簇;
获取所述问题簇对应的目标关键词;
根据所述目标关键词遍历预先设置的关键词与答案之间的关联关系,得到所述目标关键词对应的答案;
按照所述重要程度的顺序输出所述答案。
其中,所述关键词与答案之间的关联关系可存储于所述预设数据库中。所述目标关键词是指所述问题簇中能够表明问题文本主旨的关键词,获取目标关键词的方式为现有技术,在此不做赘述。
在本申请的至少一实施例中,在所述按照所述重要程度的顺序输出所述答案之后,所述方法还包括:采集预设终端输出的最终答案,并检测所述最终答案与所述答案是否一致;当检测结果为所述最终答案与所述答案不一致时,将所述最终答案更新至预设数据库中,并调整预先设置的关键词与答案之间的关联关系。
本申请实施例提供的上述基于问答平台的数据处理方法,在采集到目标文本集后,调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本进行智能识别问题,继而针对问题文本快速匹配答案,能够在高频高并发的问答场景中提高数据处理效率;且通过文本的相关性识别,能够实现仅针对与目标文档内容相关的问题文本进行解答,避免对目标文档内容不相关的问题文本进行解答,能够提高问答的准确性;此外,本申请通过对目标问 题文本进行聚类分析,得到若干问题簇,继而对每个问题簇进行问题重要性评估,优先解答重要性高的问题簇对应的目标问题文本,继而提高问答的效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的基于问答平台的数据处理模块等,能够促进智慧城市的快速发展。
图2是本申请实施例二提供的基于问答平台的数据处理装置的结构图。
在一些实施例中,所述基于问答平台的数据处理装置20可以包括多个由计算机程序段所组成的功能模块。所述基于问答平台的数据处理装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于问答平台的数据处理的功能。
本实施例中,所述基于问答平台的数据处理装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:问题检测模块201、问题获取模块202、相关度计算模块203、聚类分析模块204、指标计算模块205、重要程度计算模块206以及答案输出模块207。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述问题检测模块201用于采集目标文本集,并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本。
所述问题获取模块202用于当检测结果为所述目标文本集中包含问题文本时,获取所述目标文本集中的问题文本,得到问题文本集。
所述相关度计算模块203用于获取所述问题文本集中每一问题文本对应的目标文档内容,并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集。
所述聚类分析模块204用于聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇。
所述指标计算模块205用于计算每一所述问题簇的目标指标值,并按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值。
所述重要程度计算模块206用于将所述目标特征值输入至预先训练好的重要程度计算模型中,得到每一所述问题簇对应的重要程度。
所述答案输出模块207用于按照所述重要程度的顺序输出所述问题簇对应的答案。
参阅图3所示,为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少 的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于问答平台的数据处理方法中的全部或者部分步骤。示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。例如,图2中所述的各个模块是存储在所述存储器31中的计算机程序,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到基于大数据的信息处理的目的。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。所述计算机可读存储介质可以是非易失性,也可以是易失性。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的基于问答平台的数据处理方法的全部或者部分步骤;或者 实现基于问答平台的数据处理装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案 进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (20)

  1. 一种基于问答平台的数据处理方法,其中,所述基于问答平台的数据处理方法包括:
    采集目标文本集,并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本;
    当检测结果为所述目标文本集中包含问题文本时,获取所述目标文本集中的问题文本,得到问题文本集;
    获取所述问题文本集中每一问题文本对应的目标文档内容,并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集;
    聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇;
    计算每一所述问题簇的目标指标值,并按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值;
    将所述目标特征值输入至预先训练好的重要程度计算模型中,得到每一所述问题簇对应的重要程度;
    按照所述重要程度的顺序输出所述问题簇对应的答案。
  2. 根据权利要求1所述的基于问答平台的数据处理方法,其中,在所述调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本之前,所述方法还包括:
    获取携带预设问题标签的文本样本集,并拆分所述文本样本集为文本训练集与文本测试集,其中,所述预设问题标签用于标记所述文本样本集中的问题文本;
    将所述文本训练集输入至初始神经网络模型中进行训练,得到问题检测模型;
    将所述文本测试集输入至所述问题检测模型中,计算模型的准确率,并在所述准确率超过预设准确率阈值时,确定所述问题检测模型训练完成。
  3. 根据权利要求1所述的基于问答平台的数据处理方法,其中,所述获取所述问题文本集中每一问题文本对应的目标文档内容包括:
    获取所述问题文本集中每一问题文本携带的时间戳;
    确定所述时间戳对应的目标时间段;
    根据所述目标时间段遍历预先设置的时间段与目标文档内容的映射关系,得到所述目标时间段对应的目标文档内容。
  4. 根据权利要求1所述的基于问答平台的数据处理方法,其中,所述将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集包括:
    向量化处理所述问题文本,得到问题文本向量;
    向量化处理所述目标文档内容,得到文档内容向量;
    按照预设相关度计算模型计算所述问题文本向量与所述文档内容向量的相关度;
    检测所述相关度是否超过预设相关度阈值;
    当检测结果为所述相关度超过所述预设相关度阈值时,确定所述相关度超过所述预设相关度阈值的问题文本为目标问题文本;
    组合所述目标问题文本,得到目标问题文本集。
  5. 根据权利要求1所述的基于问答平台的数据处理方法,其中,所述聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇包括:
    从所述目标问题文本集中随机选取预设数量的第一目标问题文本,并将所述第一目标问题文本作为初始簇中心;
    计算与所述初始簇中心的距离最近的第二目标问题文本,并由所述第一目标问题文本与所述第二目标问题文本组成所述初始簇中心对应的问题簇;
    获取所述问题簇中所述第一目标问题文本与所述第二目标问题文本的问题文本均值,并将所述问题文本均值作为第一簇中心;
    计算与所述第一簇中心的距离最近的第三目标问题文本,并更新所述问题文本均值与所述第三目标问题文本组成所述第一簇中心对应的问题簇;
    重复上述步骤,得到目标问题文本均值作为目标簇中心,计算与所述目标簇中心的距离最近的第四目标问题文本,并更新所述目标问题文本均值与所述第四目标问题文本组成所述目标簇中心对应的目标问题簇。
  6. 根据权利要求1所述的基于问答平台的数据处理方法,其中,所述按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值包括:
    向量化处理所述目标指标值,得到若干指标向量;
    获取每一所述指标向量的排列顺序;
    按照所述排列顺序拼接所述指标向量,得到目标特征值向量;
    确定所述目标特征值向量中的向量元素作为目标特征值。
  7. 根据权利要求1所述的基于问答平台的数据处理方法,其中,所述按照所述重要程度的顺序输出所述问题簇对应的答案包括:
    按照所述重要程度的顺序排列所述问题簇;
    获取所述问题簇对应的目标关键词;
    根据所述目标关键词遍历预先设置的关键词与答案之间的关联关系,得到所述目标关键词对应的答案;
    按照所述重要程度的顺序输出所述答案。
  8. 一种基于问答平台的数据处理装置,其中,所述基于问答平台的数据处理装置包括:
    问题检测模块,用于采集目标文本集,并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本;
    问题获取模块,用于当检测结果为所述目标文本集中包含问题文本时,获取所述目标文 本集中的问题文本,得到问题文本集;
    相关度计算模块,用于获取所述问题文本集中每一问题文本对应的目标文档内容,并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集;
    聚类分析模块,用于聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇;
    指标计算模块,用于计算每一所述问题簇的目标指标值,并按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值;
    重要程度计算模块,用于将所述目标特征值输入至预先训练好的重要程度计算模型中,得到每一所述问题簇对应的重要程度;
    答案输出模块,用于按照所述重要程度的顺序输出所述问题簇对应的答案。
  9. 一种计算机设备,其中,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机可读指令以实现以下步骤:
    采集目标文本集,并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本;
    当检测结果为所述目标文本集中包含问题文本时,获取所述目标文本集中的问题文本,得到问题文本集;
    获取所述问题文本集中每一问题文本对应的目标文档内容,并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集;
    聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇;
    计算每一所述问题簇的目标指标值,并按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值;
    将所述目标特征值输入至预先训练好的重要程度计算模型中,得到每一所述问题簇对应的重要程度;
    按照所述重要程度的顺序输出所述问题簇对应的答案。
  10. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现在所述调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本之前,还包括:
    获取携带预设问题标签的文本样本集,并拆分所述文本样本集为文本训练集与文本测试集,其中,所述预设问题标签用于标记所述文本样本集中的问题文本;
    将所述文本训练集输入至初始神经网络模型中进行训练,得到问题检测模型;
    将所述文本测试集输入至所述问题检测模型中,计算模型的准确率,并在所述准确率超过预设准确率阈值时,确定所述问题检测模型训练完成。
  11. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现所述获取所述问题文本集中每一问题文本对应的目标文档内容时,包括:
    获取所述问题文本集中每一问题文本携带的时间戳;
    确定所述时间戳对应的目标时间段;
    根据所述目标时间段遍历预先设置的时间段与目标文档内容的映射关系,得到所述目标时间段对应的目标文档内容。
  12. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现所述将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集时,包括:
    向量化处理所述问题文本,得到问题文本向量;
    向量化处理所述目标文档内容,得到文档内容向量;
    按照预设相关度计算模型计算所述问题文本向量与所述文档内容向量的相关度;
    检测所述相关度是否超过预设相关度阈值;
    当检测结果为所述相关度超过所述预设相关度阈值时,确定所述相关度超过所述预设相关度阈值的问题文本为目标问题文本;
    组合所述目标问题文本,得到目标问题文本集。
  13. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现所述聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇时,包括:
    从所述目标问题文本集中随机选取预设数量的第一目标问题文本,并将所述第一目标问题文本作为初始簇中心;
    计算与所述初始簇中心的距离最近的第二目标问题文本,并由所述第一目标问题文本与所述第二目标问题文本组成所述初始簇中心对应的问题簇;
    获取所述问题簇中所述第一目标问题文本与所述第二目标问题文本的问题文本均值,并将所述问题文本均值作为第一簇中心;
    计算与所述第一簇中心的距离最近的第三目标问题文本,并更新所述问题文本均值与所述第三目标问题文本组成所述第一簇中心对应的问题簇;
    重复上述步骤,得到目标问题文本均值作为目标簇中心,计算与所述目标簇中心的距离最近的第四目标问题文本,并更新所述目标问题文本均值与所述第四目标问题文本组成所述目标簇中心对应的目标问题簇。
  14. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现所述按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值时,包括:
    向量化处理所述目标指标值,得到若干指标向量;
    获取每一所述指标向量的排列顺序;
    按照所述排列顺序拼接所述指标向量,得到目标特征值向量;
    确定所述目标特征值向量中的向量元素作为目标特征值。
  15. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令以实现所述按照所述重要程度的顺序输出所述问题簇对应的答案时,包括:
    按照所述重要程度的顺序排列所述问题簇;
    获取所述问题簇对应的目标关键词;
    根据所述目标关键词遍历预先设置的关键词与答案之间的关联关系,得到所述目标关键词对应的答案;
    按照所述重要程度的顺序输出所述答案。
  16. 一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现以下步骤:
    采集目标文本集,并调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本;
    当检测结果为所述目标文本集中包含问题文本时,获取所述目标文本集中的问题文本,得到问题文本集;
    获取所述问题文本集中每一问题文本对应的目标文档内容,并将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集;
    聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇;
    计算每一所述问题簇的目标指标值,并按照预设数据格式组合所述目标指标值,得到每一所述问题簇对应的目标特征值;
    将所述目标特征值输入至预先训练好的重要程度计算模型中,得到每一所述问题簇对应的重要程度;
    按照所述重要程度的顺序输出所述问题簇对应的答案。
  17. 根据权利要求16所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行以实现在所述调用预先训练好的问题检测模型检测所述目标文本集中是否包含问题文本之前,还包括:
    获取携带预设问题标签的文本样本集,并拆分所述文本样本集为文本训练集与文本测试集,其中,所述预设问题标签用于标记所述文本样本集中的问题文本;
    将所述文本训练集输入至初始神经网络模型中进行训练,得到问题检测模型;
    将所述文本测试集输入至所述问题检测模型中,计算模型的准确率,并在所述准确率超过预设准确率阈值时,确定所述问题检测模型训练完成。
  18. 根据权利要求16所述的计算机可读存储介质,其中,所述计算机可读指令被处理器 执行以实现所述获取所述问题文本集中每一问题文本对应的目标文档内容时,包括:
    获取所述问题文本集中每一问题文本携带的时间戳;
    确定所述时间戳对应的目标时间段;
    根据所述目标时间段遍历预先设置的时间段与目标文档内容的映射关系,得到所述目标时间段对应的目标文档内容。
  19. 根据权利要求16所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行以实现所述将所述问题文本与所述目标文档内容的相关度超过预设相关度阈值的问题文本作为目标问题文本,得到目标问题文本集时,包括:
    向量化处理所述问题文本,得到问题文本向量;
    向量化处理所述目标文档内容,得到文档内容向量;
    按照预设相关度计算模型计算所述问题文本向量与所述文档内容向量的相关度;
    检测所述相关度是否超过预设相关度阈值;
    当检测结果为所述相关度超过所述预设相关度阈值时,确定所述相关度超过所述预设相关度阈值的问题文本为目标问题文本;
    组合所述目标问题文本,得到目标问题文本集。
  20. 根据权利要求16所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行以实现所述聚类分析所述目标问题文本集中的每一所述目标问题文本,得到若干个问题簇时,包括:
    从所述目标问题文本集中随机选取预设数量的第一目标问题文本,并将所述第一目标问题文本作为初始簇中心;
    计算与所述初始簇中心的距离最近的第二目标问题文本,并由所述第一目标问题文本与所述第二目标问题文本组成所述初始簇中心对应的问题簇;
    获取所述问题簇中所述第一目标问题文本与所述第二目标问题文本的问题文本均值,并将所述问题文本均值作为第一簇中心;
    计算与所述第一簇中心的距离最近的第三目标问题文本,并更新所述问题文本均值与所述第三目标问题文本组成所述第一簇中心对应的问题簇;
    重复上述步骤,得到目标问题文本均值作为目标簇中心,计算与所述目标簇中心的距离最近的第四目标问题文本,并更新所述目标问题文本均值与所述第四目标问题文本组成所述目标簇中心对应的目标问题簇。
PCT/CN2022/071320 2021-07-09 2022-01-11 基于问答平台的数据处理方法、装置及相关设备 WO2023279692A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110778011.2 2021-07-09
CN202110778011.2A CN113486203B (zh) 2021-07-09 2021-07-09 基于问答平台的数据处理方法、装置及相关设备

Publications (1)

Publication Number Publication Date
WO2023279692A1 true WO2023279692A1 (zh) 2023-01-12

Family

ID=77938365

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/071320 WO2023279692A1 (zh) 2021-07-09 2022-01-11 基于问答平台的数据处理方法、装置及相关设备

Country Status (2)

Country Link
CN (1) CN113486203B (zh)
WO (1) WO2023279692A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117609479A (zh) * 2024-01-24 2024-02-27 腾讯科技(深圳)有限公司 一种模型处理方法、装置、设备、介质及产品
CN118279517A (zh) * 2024-06-04 2024-07-02 杭州英太凌科技有限公司 针对储能柜的可视化方法、装置、计算机设备和存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486203B (zh) * 2021-07-09 2024-05-31 平安科技(深圳)有限公司 基于问答平台的数据处理方法、装置及相关设备
CN114416962A (zh) * 2022-01-11 2022-04-29 平安科技(深圳)有限公司 问题答案的预测方法、预测装置、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783617A (zh) * 2018-12-11 2019-05-21 平安科技(深圳)有限公司 用于答复问题的模型训练方法、装置、设备及存储介质
CN110909165A (zh) * 2019-11-25 2020-03-24 杭州网易再顾科技有限公司 数据处理方法、装置、介质及电子设备
CN111274378A (zh) * 2020-02-13 2020-06-12 南京云问网络技术有限公司 用于问答的数据处理方法以及装置、设备、存储介质
US20200257861A1 (en) * 2019-02-13 2020-08-13 Oracle International Corporation Chatbot conducting a virtual social dialogue
CN113486203A (zh) * 2021-07-09 2021-10-08 平安科技(深圳)有限公司 基于问答平台的数据处理方法、装置及相关设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870457A (zh) * 2012-12-07 2014-06-18 北京百度网讯科技有限公司 一种确定问答平台中的未回答问题优先级的方法及装置
CN110110062B (zh) * 2019-04-30 2020-08-11 贝壳找房(北京)科技有限公司 机器智能问答方法、装置与电子设备
CN110472060B (zh) * 2019-07-05 2020-12-01 平安国际智慧城市科技股份有限公司 题目推送方法、装置、计算机设备和存储介质
CN111814466A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN111813889B (zh) * 2020-06-24 2024-08-09 北京安博盛赢教育科技有限责任公司 一种提问信息的排序方法、装置、介质和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783617A (zh) * 2018-12-11 2019-05-21 平安科技(深圳)有限公司 用于答复问题的模型训练方法、装置、设备及存储介质
US20200257861A1 (en) * 2019-02-13 2020-08-13 Oracle International Corporation Chatbot conducting a virtual social dialogue
CN110909165A (zh) * 2019-11-25 2020-03-24 杭州网易再顾科技有限公司 数据处理方法、装置、介质及电子设备
CN111274378A (zh) * 2020-02-13 2020-06-12 南京云问网络技术有限公司 用于问答的数据处理方法以及装置、设备、存储介质
CN113486203A (zh) * 2021-07-09 2021-10-08 平安科技(深圳)有限公司 基于问答平台的数据处理方法、装置及相关设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117609479A (zh) * 2024-01-24 2024-02-27 腾讯科技(深圳)有限公司 一种模型处理方法、装置、设备、介质及产品
CN117609479B (zh) * 2024-01-24 2024-05-03 腾讯科技(深圳)有限公司 一种模型处理方法、装置、设备、介质及产品
CN118279517A (zh) * 2024-06-04 2024-07-02 杭州英太凌科技有限公司 针对储能柜的可视化方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113486203A (zh) 2021-10-08
CN113486203B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
WO2023279692A1 (zh) 基于问答平台的数据处理方法、装置及相关设备
CN109523194B (zh) 汉语阅读能力测评方法、装置及可读存储介质
US20190325773A1 (en) System and method of providing customized learning contents
US20130029307A1 (en) Method and system for computer question-answering
CN112860848B (zh) 信息检索方法、装置、设备及介质
EP3848855A1 (en) Learning method and apparatus for intention recognition model, and device
CN113887930B (zh) 问答机器人健康度评估方法、装置、设备及存储介质
CN114663223A (zh) 基于人工智能的信用风险评估方法、装置及相关设备
CN113516205B (zh) 基于人工智能的员工稳定性分类方法及相关设备
CN114880449A (zh) 智能问答的答复生成方法、装置、电子设备及存储介质
CN114020892A (zh) 基于人工智能的答案选取方法、装置、电子设备及介质
CN112395432B (zh) 课程推送方法、装置、计算机设备及存储介质
CN111930908A (zh) 基于人工智能的答案识别方法及装置、介质、电子设备
CN116861358A (zh) 基于bp神经网络与多源数据融合的计算思维评测方法
CN113240325B (zh) 数据处理方法、装置、设备及存储介质
CN113570286B (zh) 基于人工智能的资源分配方法、装置、电子设备及介质
CN112598202B (zh) 试题难度评估方法、装置及存储介质、计算设备
CN114219663A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN113902302A (zh) 基于人工智能的数据分析方法、装置、设备及存储介质
CN113888265A (zh) 产品推荐方法、装置、设备及计算机可读存储介质
CN111859985A (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN112182147A (zh) 一种可扩展的智能问答方法及系统
Jianyun Big data assisted online teaching platform for ideological and political theory course in universities
CN114781833B (zh) 基于业务人员的能力测评方法、装置、设备及存储介质
CN116342082A (zh) 基于知识图谱的岗位胜任力判断方法、装置、介质及设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22836452

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22836452

Country of ref document: EP

Kind code of ref document: A1