WO2021073116A1 - 生成法律文书的方法、装置、设备和存储介质 - Google Patents

生成法律文书的方法、装置、设备和存储介质 Download PDF

Info

Publication number
WO2021073116A1
WO2021073116A1 PCT/CN2020/093419 CN2020093419W WO2021073116A1 WO 2021073116 A1 WO2021073116 A1 WO 2021073116A1 CN 2020093419 W CN2020093419 W CN 2020093419W WO 2021073116 A1 WO2021073116 A1 WO 2021073116A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
text
word segmentation
sentences
candidate key
Prior art date
Application number
PCT/CN2020/093419
Other languages
English (en)
French (fr)
Inventor
张学晨
刘嘉伟
于修铭
陈晨
李可
汪伟
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021073116A1 publication Critical patent/WO2021073116A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Definitions

  • This application relates to the field of intelligent decision-making in artificial intelligence, and in particular to a method, device, equipment and storage medium for generating legal documents.
  • a legal document is the carrier that records the trial process and results of the people’s court.
  • a legal summary with complete structure, complete elements, and rigorous logic is not only a proof of the parties’ rights and obligations, but also an important role for the higher people’s courts to supervise the civil trial activities of the lower people’s courts. in accordance with.
  • the process of writing legal abstracts is complicated and lengthy, with a lot of repetitive work.
  • the document production method based on the fixed template has an impact on the origin of the case, the trial process, and the facts. , Reasons, and judgment basis can not be very effective, and users still need to fill in a large amount of content, and the content to be filled in a large amount may not meet the form required by the law.
  • This application provides a method for generating legal documents through configuration, which can solve the complicated and lengthy problem of the current legal abstract writing process.
  • this application provides a method for generating legal documents, including:
  • the multiple candidate key sentences are sorted according to the value of S(V i ) from large to small, and multiple candidate key sentences are extracted in order To get multiple abstract sentences;
  • sentences are extracted from the multiple abstract sentences to form an abstract.
  • the present application provides a device for generating legal documents, which has the function of implementing the method corresponding to the platform for generating legal documents provided in the first aspect.
  • the function can be realized by hardware, or by hardware executing corresponding software.
  • the hardware or software includes one or more modules corresponding to the above-mentioned functions, and the modules may be software and/or hardware.
  • the device for generating legal documents includes:
  • the input and output module is used to receive the voice data input by the user
  • the processing module is used to convert the voice data into text data to be processed through voice conversion technology; create graph graph data, identify specific separators through the graph graph data, and process the text data to be processed by sentence , And save multiple candidate key sentences through the nodes of the graph data; input the multiple candidate key sentences into the word segmentation model through the input and output module to obtain the word segmentation vocabulary; construct the edge set E, pass all The edge set E and the content coverage of the text sentence are used to calculate the weights of any two candidate key sentences S i and the candidate key, S j , and link the candidate key sentences with the weights higher than the threshold up; analyzing the importance of retention candidate key sentence, repeated calculation several times until the calculated difference is less than the threshold value between the front S (V i) and the calculated S (V i), where S (V i) represents the The importance of the i nodes Vi , V j represents the j-th node connected to the i-th node; according to the calculated value of each candidate sentence S(V i ), the multiple The
  • the multiple candidate key sentences are sorted according to the value of S(V i ) from large to small, and multiple candidate key sentences are extracted in order To get multiple abstract sentences;
  • sentences are extracted from the multiple abstract sentences to form an abstract.
  • Another aspect of the present application provides a computer storage medium, which includes instructions, which when run on a computer, causes the computer to execute a method for generating legal documents, including:
  • the multiple candidate key sentences are sorted according to the value of S(V i ) from large to small, and multiple candidate key sentences are extracted in order To get multiple abstract sentences;
  • sentences are extracted from the multiple abstract sentences to form an abstract.
  • This application is based on the speech-to-text conversion from the court transcripts or the recordings during the court session, and uses the relevant technology of the text abstract generation in NLP to generate the abstract after the trial.
  • the method of generating judgment documents through knowledge graph combined with NLP's text generation technology can generate more detailed legal abstracts, minimize duplication of labor, and improve case handling efficiency. Analyzing the key nodes of the plaintiff, lawyer, and evidence items in the case to automatically generate legal abstracts can improve the efficiency of the trial and free the judge from the work of writing abstracts.
  • FIG. 1 is a schematic flowchart of a method for generating a legal document in an embodiment of the application.
  • Figure 2 is a schematic structural diagram of a device for generating a legal document in an embodiment of the application.
  • Fig. 3 is a schematic structural diagram of a computer device in an embodiment of the application.
  • Fig. 1 Please refer to Fig. 1, the following is an example of a method for generating a legal document provided in this application, and the method includes:
  • the training data includes voice information and text tags corresponding to the voice information.
  • Call recording refers to a technique or method that monitors the voice communication signals on the telephone line and converts these signals into a medium that can be saved and played back.
  • Sampling indicators for call recording include format, sampling frequency, sampling accuracy, sound channel, compression rate, and data volume per second.
  • the input voice data is the court transcript or the recording during the court session.
  • the speech conversion technology is realized by the sequence neural network.
  • Sequential neural network model refers to the conversion of the vocabulary content in human speech into computer-readable input.
  • Sequential neural network is a type of recurrent neural network that takes sequence data as input, recursively in the evolution direction of the sequence, and all nodes (cyclic units) are connected in a chain.
  • Sequence neural network has memory, parameter sharing and Turing completeness, so it has certain advantages when learning the nonlinear characteristics of the sequence.
  • Recurrent neural networks have applications in natural language processing, such as speech recognition, language modeling, machine translation, and other fields, as well as various time series forecasts.
  • the recurrent neural network constructed by introducing the convolutional neural network can handle computer vision problems involving sequence input.
  • the separator includes at least: comma, question mark, period, and exclamation point.
  • graph-based parallel computing frameworks such as Pregel from Google, Giraph/HAMA, the open source graph computing framework from Apache, and the most famous GraphLab.
  • Pregel, HAMA and Giraph are all very similar and are based on the BSP model. .
  • the whole is synchronous and parallel, which divides the calculation into a series of super-step iterations. From the vertical view, it is a serial mode, and from the horizontal view, it is a parallel mode.
  • a fence is set between every two supersteps, that is, the overall synchronization point. Make sure that all parallel calculations are completed before starting. The number of super steps in the next round.
  • the word segmentation refers to the reserved candidate keywords.
  • the word segmentation model refers to a neural network.
  • Neural network refers to a method of replicating this dense network of neurons. By processing multiple data streams at once, computers can significantly reduce the time required to process data. Applying this technique to deep learning has produced artificial neural networks. These artificial neural networks are composed of input nodes, output nodes and node layers.
  • Input node the input node used to receive data.
  • the output node is used to output the result data.
  • the node layer is used to convert the data input from the input node into the content that can be used by the output node.
  • the node layer refers to multiple hidden nodes between the input node and the output node, and the node layer can also be a hidden layer. As data progresses through these hidden nodes, the neural network uses logic to decide to pass the data to the next hidden node.
  • Construct edge set E calculate the weight of any two candidate key sentences S i and candidate key sentence S j through the edge set E and the content coverage of the text sentence, and link the candidate key sentences with weights higher than the threshold .
  • the formula for calculating the weight of candidate key sentences is Where
  • S (V i) represents the importance of the i-th node of V i
  • V j represents the j-th node connected to node i
  • k V k-th node and the j th node connected
  • w ji Represents the weight of the edge connecting the i-th node to the j-th node
  • w jk represents the weight of the edge connecting the j-th node to the k-th node.
  • the first entity recognition in the abstract extraction process is mainly to identify key entities such as time, place and people, and extract the corresponding sentences containing the key entities.
  • the extraction method uses the relevant algorithm of extractive document summarization.
  • the left side of the equation represents the weight of a sentence), and the sum on the right side represents the contribution of each adjacent sentence to the sentence. Unlike when extracting keywords, it is generally considered that all sentences are adjacent, and the window is no longer extracted.
  • the denominator w ji of the summation indicates the similarity of the two sentences, and the denominator is a summation formula.
  • the entire formula is an iterative process.
  • each candidate sentence S(V i ) sort multiple candidate key sentences according to the value of S(V i ) from large to small, and extract multiple candidate key sentences in order to obtain multiple candidate key sentences.
  • Abstract sentences According to the calculated value of each candidate sentence S(V i ), sort multiple candidate key sentences according to the value of S(V i ) from large to small, and extract multiple candidate key sentences in order to obtain multiple candidate key sentences.
  • This application is based on the speech-to-text conversion from the court transcripts or the recordings during the court session, and uses the relevant technology of the text abstract generation in NLP to generate the abstract after the trial.
  • the method of generating judgment documents through knowledge graph combined with NLP's text generation technology can generate more detailed legal abstracts, minimize duplication of labor, and improve case handling efficiency. Analyzing the key nodes of the plaintiff, lawyer, and evidence items in the case to automatically generate legal abstracts can improve the efficiency of the trial and free the judge from the work of writing abstracts.
  • the method before receiving the voice data input by the user, the method further includes:
  • the weight of the entry of the text to be segmented is adjusted to obtain the word segmentation model.
  • weight adjustment is performed on the terms of the text to be segmented to obtain a word segmentation model, including:
  • f i n represents the output of the nth layer of the word segmentation model after the i-th training data is input to the word segmentation model
  • i, j, and k are any positive integers
  • n is a natural number; when n is the end of the word segmentation model In the first layer, f i n refers to the output of the word segmentation model.
  • the implemented word segmentation model can be iterated in this way to obtain a better effective word segmentation model.
  • receiving voice data input by a user includes:
  • the voice test data refers to the input voice data through the standard.
  • the voice data input by the user refers to the voice data that the user wants to detect. Determine the standard interval of the index through the voice test data, and then determine whether the voice data input by the user is valid, and then detect the voice when it is determined that the voice input by the user is valid.
  • the method after receiving the voice data input by the user, the method further includes:
  • the input voice data can be preprocessed to generate more training data.
  • converting voice data into text data to be processed through voice conversion technology includes:
  • Detect the high-frequency words contained in the voice data calculate the matching degree between the high-frequency words and the preset language type, and determine the language type of the voice information according to the matching degree;
  • the voice information is converted into corresponding text information through the NLP technology, and then the data can be further processed.
  • the word segmentation model includes: a sequentially connected semantic representation layer, a recurrent neural network layer, a Softmax layer, and a conditional random field layer.
  • the sequentially connected semantic representation layers are used to extract acoustic features from the speech information, and eliminate non-maximum values in the acoustic features, thereby reducing the complexity of the acoustic features.
  • Acoustic features include the pronunciation of specific syllables, the user's continuous reading habits, and the speech spectrum.
  • the recurrent neural network layer maps the acoustic features to the hidden layer feature space.
  • the Softmax layer is used to output the text corresponding to the voice information according to the probabilities corresponding to various text types.
  • a schematic structural diagram of a device 20 for generating a legal document can be applied to generate a legal document.
  • the apparatus for generating a legal document in the embodiment of the present application can implement the steps corresponding to the method for generating a legal document executed in the embodiment corresponding to FIG. 1 above.
  • the functions implemented by the device 20 for generating legal documents can be implemented by hardware, or implemented by hardware executing corresponding software.
  • the hardware or software includes one or more modules corresponding to the above-mentioned functions, and the modules may be software and/or hardware.
  • the apparatus for generating a legal document may include an input/output module 201 and a processing module 202.
  • the input/output module 201 can be used to control the input, output, and acquisition operations of the input/output module 201.
  • the input and output module 201 may be used to receive voice data input by the user.
  • the processing module 202 can be used to convert the voice data into text data to be processed through voice conversion technology; create graph data, identify specific separators through the graph graph data, and process the to-be-processed text data by sentence Text data, and save multiple candidate key sentences through the nodes of the graph data; input the multiple candidate key sentences into the word segmentation model through the input and output module to obtain the word segmentation vocabulary; construct an edge set E, Calculate the weight of any two candidate key sentences S i and the candidate key, S j through the edge set E and the content coverage rate of the text sentence, and calculate the weight of the candidate key whose weight is higher than the threshold linked sentence; analyze the importance of the reservation candidate key sentence, repeated calculation several times until the difference is less than the threshold value is calculated between the front S (V i) and the calculated S (V i), where S (V i) the importance of the i-th node V i represents, V j represents the j-th node and the nodes connected to the i-th; according to the value of each of said
  • the processing module 202 is further configured to:
  • weight adjustment is performed on the entry of the text to be segmented to obtain the word segmentation model.
  • the processing module 202 is further configured to:
  • f i n represents the output of the nth layer of the word segmentation model after the i-th training data is input to the word segmentation model
  • i, j, and k are any positive integers
  • n is a natural number
  • f i n refers to the output of the word segmentation model
  • the processing module 202 is further configured to:
  • the processing module 202 is further configured to:
  • De-drying processing is performed on the multiple voice segments to generate multiple standardized voice information.
  • the processing module 202 is also used to:
  • Detecting high-frequency words contained in the voice data calculating a degree of matching between the high-frequency words and a preset language type, and determining the language type of the voice information according to the degree of matching;
  • the word segmentation model includes: a semantic representation layer, a recurrent neural network layer, a Softmax layer, and a conditional random field layer connected in sequence.
  • the above describes the creation device in the embodiment of the present application from the perspective of modular functional entities.
  • the following describes a computer device from the perspective of hardware, as shown in Figure 3, which includes: a processor, a memory, an input and output unit (or Is a transceiver, not identified in FIG. 3) and a computer program stored in the memory and running on the processor.
  • the computer program may be a program corresponding to the method for generating a legal document in the embodiment corresponding to FIG.
  • a computer device executing a method for generating a legal document includes: receiving voice data input by a user, and converting the voice data Convert the text data to be processed by voice conversion technology; create graph Graph data, identify specific separators through the graph Graph data, process the text data to be processed by clauses, and pass the graph data nodes Save multiple candidate key sentences; input the multiple candidate key sentences into the word segmentation model to obtain the word segmentation vocabulary; construct an edge set E, and calculate any two by using the edge set E and the content coverage of the text sentence The weights of the candidate key sentence S i and the candidate key sentence S j , and link the candidate key sentences with the weight higher than the threshold; analyze the importance of the candidate key sentence with the weight higher than the threshold, calculating a plurality of times repeated, until the difference is less than the threshold value between before calculating S (V i) and the calculated S (V i), where S (V i) represents the importance of the i-th node of V i, V j represents the j
  • the processor executes the computer program to realize the execution by the apparatus 20 for generating legal documents in the embodiment corresponding to FIG. The steps in the method of generating legal documents.
  • the processor executes the computer program, the function of each module in the apparatus 20 for generating a legal document in the embodiment corresponding to FIG. 2 is realized.
  • the computer program may be a program corresponding to the method for generating a legal document in the embodiment corresponding to FIG. 1.
  • the so-called processor may be a central processing unit (CPU), other general-purpose processors, digital signal processors (digital signal processors, DSP), application specific integrated circuits (ASICs), ready-made Field-programmable gate array (FPGA) or other programmable logic devices, discrete gates or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor may be a microprocessor or the processor may also be any conventional processor, etc.
  • the processor is the control center of the computer device, and various interfaces and lines are used to connect various parts of the entire computer device.
  • the memory may be used to store the computer program and/or module, and the processor implements the computer by running or executing the computer program and/or module stored in the memory and calling data stored in the memory.
  • the memory may mainly include a storage program area and a storage data area.
  • the storage program area may store an operating system, an application program required by at least one function (such as a sound playback function, an image playback function, etc.), etc.; the storage data area may store Data created based on the use of mobile phones (such as audio data, video data, etc.), etc.
  • the memory may include high-speed random access memory, and may also include non-volatile memory, such as hard disks, memory, plug-in hard disks, smart media cards (SMC), and secure digital (SD) cards , Flash Card, at least one magnetic disk storage device, flash memory device, or other volatile solid-state storage device.
  • non-volatile memory such as hard disks, memory, plug-in hard disks, smart media cards (SMC), and secure digital (SD) cards , Flash Card, at least one magnetic disk storage device, flash memory device, or other volatile solid-state storage device.
  • the input and output units can also be replaced by receivers and transmitters, and they can be the same or different physical entities. When they are the same physical entity, they can be collectively referred to as input and output units.
  • the input and output can be a transceiver.
  • the memory may be integrated in the processor, or may be provided separately from the processor.
  • a computer storage medium of the present application includes instructions that, when running on a computer, cause the computer to execute a method for generating legal documents.
  • the method includes: receiving voice data input by a user; and transmitting the voice data through voice
  • the conversion technology is converted into the text data to be processed; the graph Graph data is created, the specific separator is identified through the graph Graph data, the text data to be processed is processed by clauses, and multiple nodes are stored in the graph Graph data.
  • Candidate key sentences input the multiple candidate key sentences into the word segmentation model to obtain the word segmentation vocabulary; construct an edge set E, and calculate any two of the edge set E and the content coverage of the text sentence
  • the candidate key sentence S i and the weight of the candidate key sentence S j and link the candidate key sentences with the weight higher than the threshold; analyze the importance of the candidate key sentence with the weight higher than the threshold, and repeat the calculation several times until the difference is less than the threshold value is calculated between before S (V i) and the calculated S (V i), S ( V i) represents the importance of the i-th node of V i, V j represents The j-th node connected to the i-th node; according to the calculated value of each candidate sentence S(V i ), the multiple candidate key sentences are reduced according to the value of S(V i ) from large to small Sort, and extract multiple candidate key sentences in order to obtain multiple abstract sentences; according to sentence requirements and word count requirements, extract sentences from the multiple abstract sentences to form an abstract.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

一种生成法律文书的方法、装置、设备和存储介质,方法包括:接收用户输入的语音数据(101);将语音数据通过语音转换技术转换成待处理的文本数据(102);创建图Graph数据,通过图Graph数据辨识特定的分隔符,以分句处理待处理的文本数据,通过图Graph数据的节点保存多个候选关键句(103);将多个候选关键句输入至分词模型,以得到分词后的词汇(104);构建边集E,通过边集E以及文本句子的内容覆盖率,以计算任意两个候选关键句以及权重,并将权重高于阈值的候选关键句链接起来(105);分析保留候选关键句的重要性(106);根据计算的每一个候选句的重要性,将多个候选关键句按照重要性大小从大到小排序,并按数序提取多个候选关键句,以得到文摘句子(107);对预选关键句进行排序,并按顺序提取候选关键句,以得到多个文摘句子(108)。实现了最大化的减少重复劳动,提高办案效率。

Description

生成法律文书的方法、装置、设备和存储介质
本申请要求于2019年10月18日提交中国专利局、申请号为201910992336.3,发明名称为“生成法律文书的方法、装置、设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能中的智能决策领域,尤其涉及一种生成法律文书的方法、装置、设备和存储介质。
背景技术
法律文书是记载人民法院审理过程和结果的载体,一份结构完整、要素齐全、逻辑严谨的法律摘要,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。但法律文摘的书写过程繁杂而冗长,并带有大量的重复性劳动。通过法律知识图谱对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。
发明人意识到,现有的法律文摘自动生成系统中,用户需要根据固定模板中关键词对应的内容进行填写进行法律文摘的初步生成,基于固定模板的文书生产方式对于案件由来和审理经过、事实、理由、裁判依据部分的书写均不能起到很好的效果,依然需要用户进行大量的内容填写,并且大量填写的内容不一定能符合法律要求所需要的形式。
技术问题
本申请提供了一种通过配置生成法律文书的方法,能够解决现法律文摘的书写过程繁杂而冗长的问题。
技术解决方案
第一方面,本申请提供一种生成法律文书的方法,包括:
接收用户输入的语音数据,将所述语音数据通过语音转换技术转换成待处理的文本数据;
创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句 处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;
将所述多个候选关键句输入至分词模型,以得到分词后的词汇;
构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句S i以及所述候选关键句S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;
分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(V i)以及计算后的S(V i)之间差值小于阈值,其中S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;
根据计算的每一个所述候选句S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;
根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
第二方面,本申请提供一种生成法律文书的装置,具有实现对应于上述第一方面提供的生成法律文书的平台的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
所述生成法律文书的装置包括:
输入输出模块,用于接收用户输入的语音数据;
处理模块,用于将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;通过所述输入输出模块将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,以计算任意两个所述候选关键句S i以及所述候选关键,S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述保留候选关键句的重要性,重复计算多次,直至计算前S(V i)以及计算后的S(V i)之间差值小于阈值,其中S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句, 以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
本申请又一方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器、输入输出单元,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行一种生成法律文书的方法,包括:
接收用户输入的语音数据,将所述语音数据通过语音转换技术转换成待处理的文本数据;
创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;
将所述多个候选关键句输入至分词模型,以得到分词后的词汇;
构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句S i以及所述候选关键句S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;
分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(V i)以及计算后的S(V i)之间差值小于阈值,其中S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;
根据计算的每一个所述候选句S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;
根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行一种生成法律文书的方法,包括:
接收用户输入的语音数据,将所述语音数据通过语音转换技术转换成待处理的文本数据;
创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;
将所述多个候选关键句输入至分词模型,以得到分词后的词汇;
构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句S i以及所述候选关键句S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;
分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(V i)以及计算后的S(V i)之间差值小于阈值,其中S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;
根据计算的每一个所述候选句S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;
根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
有益效果
本申请基于由开庭笔录或是开庭时的录音进行语音文字转换,并使用NLP中文本摘要生成的相关技术进行审理经过部分的摘要生成。通过知识图谱结合NLP的文本生成技术生成裁判文书的方式可以生成内容更详尽的法律文摘,最大化的减少重复劳动,提高办案效率。对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。
附图说明
图1为本申请实施例中生成法律文书的方法的流程示意图。
图2为本申请实施例中生成法律文书的装置的结构示意图。
图3为本申请实施例中计算机设备的结构示意图。
本申请的最佳实施方式
请参照图1,以下对本申请提供一种生成法律文书的方法进行举例说明,所述方法包括:
101、接收用户输入的语音数据。
训练数据包括语音信息以及与语音信息对应的文本标签。通话录音是指通过监测电话线路上的语音通讯信号,并将这些信号转化为可以保存和回放的介质的一种技术或方法。通话录音的采样指标包括格式、采样频率、采样精度、声道、压缩率以及每秒数据量。
102、将语音数据通过语音转换技术转换成待处理的文本数据。
输入的语音数据为开庭笔录或是开庭时的录音。语音转换技术通过序列神经网络实现。序列神经网络模型是指将人类的语音中的词汇内容转换为计算机可读的输入。序列神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。序列神经网络具有记忆性、参数共享并且图灵完备,因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理,例如语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报。引入了卷积神经网络构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。
103、创建图Graph数据,通过图Graph数据辨识特定的分隔符,以分句处理待处理的文本数据,通过图Graph数据的节点保存多个候选关键句。
通过图数据将输入的文本或文本集的内容分割成句子;分隔符至少包括:逗号、问号、句号以及感叹号。目前基于图的并行计算框架已经有很多,比如来自Google的Pregel、来自Apache开源的图计算框架Giraph/HAMA以及最为著名的GraphLab,其中Pregel、HAMA和Giraph都是非常类似的,都是基于BSP模式。整体同步并行,它将计算分成一系列的超步的迭代。从纵向上看,它是一个串行模式,而从横向上看,它是一个并行的模式,每两个superstep之间设置一个栅栏,即整体同步点,确定所有并行的计算都完成后再启动下一轮超级步数。
104、将多个候选关键句输入至分词模型,以得到分词后的词汇。
分词后的词汇是指保留的候选关键词。分词模型是指神经网络。神经网络是指一种复制这种密集的神经元网络的方法。通过一次处理多个数据流,计算机能够显著减少处理数据所需的时间。将这种技术应用于深度学习已经产生了人工神经网络。这些人工神经网络由输入节点、输出节点和节点层组成。
输入节点,用于接收数据的输入节点。
输出节点,用于输出结果数据。
节点层,用于将从输入节点输入的数据转换为输出节点可以使用的内容。节点层是指在输入节点和输出节点之间的多个隐藏节点,节点层也可以成为 隐藏层。当数据通过这些隐藏节点前进时,神经网络使用逻辑来决定将数据传递给下一个隐藏节点。
105、构建边集E,通过边集E以及文本句子的内容覆盖率,以计算任意两个候选关键句S i以及候选关键句S j的权重,并将权重高于阈值的候选关键句链接起来。
候选关键句权重的计算公式为
Figure PCTCN2020093419-appb-000001
其中|S i|是候选关键句i分词后的单词,w k是指S i以及S j中的对关键句分词后的词汇。
通过此步骤可以判断两个句子之间的相似度是否大于给定的阈值,就认为这两个句子语义相关并将它们连接起来。
106、分析保留候选关键句的重要性,重复计算多次,直至计算前S(V i)以及计算后的S(V i)之间差值小于阈值。
分析通过通过
Figure PCTCN2020093419-appb-000002
进行分析,S(V i)表示第i个节点V i的重要性,V j表示与第i个节点相连的第j个节点,V k与第j个节点相连的第k个节点,w ji表示第i个节点与第j个节点相连的边的权重,w jk表示第j个节点与第k个节点相连的边的权重。
这个在摘要提取过程中首先进行实体识别主要针对时间地点人物等关键实体进行识别,对于含有关键实体的相应句子进行提取,提取方式采用抽取式文档摘要的相关算法。等式左边表示一个句子的权重),右侧的求和表示每个相邻句子对本句子的贡献程度。与提取关键字的时候不同,一般认为全部句子都是相邻的,不再提取窗口。求和的分母w ji表示两个句子的相似程度,分母又是一个求和公式。整个公式是一个迭代的过程。
107、根据计算的每一个候选句S(V i)的值,将多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个候选关键句,以得到多个文摘句子。
108、根据句子要求以及字数要求,从多个文摘句子中抽取句子组成文摘。
本申请基于由开庭笔录或是开庭时的录音进行语音文字转换,并使用NLP中文本摘要生成的相关技术进行审理经过部分的摘要生成。通过知识图谱结合NLP的文本生成技术生成裁判文书的方式可以生成内容更详尽的法律文摘,最大化的减少重复劳动,提高办案效率。对案件中原告、被告以及证据项等关键节点的解析进而自动生成法律文摘可以提高审案效率将法官从书写文摘的工作中解放出来。
一些实施方式中,接收用户输入的语音数据之前,方法还包括:
获取针对分词模型输出的反馈信息;
根据反馈信息对分词模型进行优化;
采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
接收待分词文本,根据网络词库对待分词文本进行初始分词;
对待分词文本进行初始分词后,对待分词文本进行特征提取,从而获得待分词文本的领域特征;
根据待分词文本的领域特征,对待分词文本的词条进行权重调整从而获得分词模型。
上述实施方式中,通过获取专业的法律词库,并通过法律词库对分词模型训练,可以训练出针对法律领域的高精度模型。
一些实施方式中,根据待分词文本的领域特征,对待分词文本的词条进行权重调整从而获得分词模型,包括:
根据法律领域的词语特征标注网络词库,得到标注好的网络词库;
将标注好的网络词库输入至分词模型;
通过
Figure PCTCN2020093419-appb-000003
训练分词模型,其中,
Figure PCTCN2020093419-appb-000004
代表根据分词模型神经网络层的多层感知器中第n-1层的输出,训练分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值,
Figure PCTCN2020093419-appb-000005
表示
Figure PCTCN2020093419-appb-000006
相应的偏置,f i n表示第i个训练数据输入至分词模型后在分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为分词模型的最后一层时,f i n是指分词模型的输出。
上述实施方式中,通过这个方式可以对实施的分词模型进行迭代,以获得一个较好效果的分词模型。
一些实施方式中,接收用户输入的语音数据,包括:
接收用户的采集请求;
根据采集请求采集多个语音测试数据;
对多个语音测试数据进行语音活动检测,获得多个语音测试数据的语音指标检测结果;
根据语音指标检测结果调整用户输入的语音数据的指标阈值;
保存调整后的指标阈值;
接收用户输入的语音数据;
通过调整后的指标阈值对用户输入的语音数据进行指标检测;
若指标检测不及格,则剔除用户输入的语音数据。
上述实施方式中,通过采集满足符合要求的语音数据,使得模型的效果更好,精度提高。若不满足,则剔除相应语音数据重新采集。语音测试数据是指通过标准的输入语音数据。用户输入的语音数据是指用户要进行检测的语音数据。通过语音测试数据确定指标的标准区间,然后判定用户输入的语音数据是否有效,当确定用户输入的语音有效时再对语音进行检测。
一些实施方式中,接收用户输入的语音数据之后,方法还包括:
检测输入的语音数据的时长;
在时长超出预设值时,根据预设处理规则将输入的语音数据分割为多个片段,以得到多个语音片段;
对多个语音片段进行去燥处理,以生成多个标准化语音信息。
上述实施方式中,可以对输入的语音数据进行预处理,以生成更多的训练数据。
一些实施方式中,将语音数据通过语音转换技术转换成待处理的文本数据,包括:
获取用户输入的语音数据;
检测语音数据中包含的高频词,计算高频词与预设语言类型的匹配度,并根据匹配度确定语音信息的语言类型;
获取与语言类型匹配的神经网络模型,并利用神经网络模型处理语音数据进,生成标准化语音数据;
获取与语言类型匹配的语音转化文本模型,并利用语音转化文本模型处理标准化语音数据,生成文本信息。
上述实施方式中,通过NLP技术将语音信息转化成相应的文本信息,才能对数据做进一步的处理。
一些实施方式中,分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
上述实施方式中,顺序相连的语义表示层用于从语音信息中提取声学特征,并消除声学特征中的非极大值,降低声学特征的复杂度。声学特征包括特定音节的发音、用户连读习惯以及语音频谱等。
循环神经网络层于将声学特征映射到隐层特征空间。
Softmax层用于根据各种文本类型所对应的概率输出语音信息所对应的文本。
如图2所示的一种生成法律文书的装置20的结构示意图,其可应用于生成法律文书。本申请实施例中的生成法律文书的装置能够实现对应于上述图1所对应的实施例中所执行的生成法律文书的方法的步骤。生成法律文书的装置20实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述生成法律文书的装置可包括输入输出模块201和处理模块202,所述处理模块202和输入输出模块201的功能实现可参考图1所对应的实施例中所执行的操作,此处不作赘述。输入输出模块201可用于控制所述输入输出模块201的输入、输出以及获取操作。
一些实施方式中,所述输入输出模块201可用于接收用户输入的语音数据。
所述处理模块202可用于将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;通过所述输入输出模块将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,以计算任意两个所述候选关键句S i以及所述候选关键,S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述保留候选关键句的重要性,重复计算多次,直至计算前S(V i)以及计算后的S(V i)之间差值小于阈值,其中S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
一些实施方式中,所述处理模块202还用于:
获取针对所述分词模型输出的反馈信息;
根据所述反馈信息对所述分词模型进行优化;
采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
一些实施方式中,所述处理模块202还用于:
根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
将所述标注好的网络词库输入至所述分词模型;
通过
Figure PCTCN2020093419-appb-000007
训练所述分词模型,其中,
Figure PCTCN2020093419-appb-000008
代表根据所述分词模型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值,
Figure PCTCN2020093419-appb-000009
表示
Figure PCTCN2020093419-appb-000010
相应的偏置,f i n表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,f i n是指所述分词模型的输出。
一些实施方式中,所述处理模块202还用于:
接收所述用户的采集请求;
根据所述采集请求采集多个语音测试数据;
对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
保存调整后的所述指标阈值;
接收所述用户输入的语音数据;
通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
若所述指标检测不及格,则剔除所述用户输入的语音数据。
一些实施方式中,所述处理模块202还用于:
检测所述输入的语音数据的时长;
在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
一些实施方式中所述处理模块202还用于:
获取所述用户输入的语音数据;
检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
一些实施方式中,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
上面从模块化功能实体的角度分别介绍了本申请实施例中的创建装置,以下从硬件角度介绍一种计算机设备,如图3所示,其包括:处理器、存储器、输入输出单元(也可以是收发器,图3中未标识出)以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如,该计算机程序可以为图1所对应的实施例中生成法律文书的方法对应的程序,即计算机设备执行一种生成法律文书的方法,包括:接收用户输入的语音数据,将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句S i以及所述候选关键句S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(V i)以及计算后的S(V i)之间差值小于阈值,其中S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句 S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。例如,当计算机设备实现如图2所示的生成法律文书的装置20的功能时,所述处理器执行所述计算机程序时实现上述图2所对应的实施例中由生成法律文书的装置20执行的生成法律文书的方法中的各步骤。或者,所述处理器执行所述计算机程序时实现上述图2所对应的实施例的生成法律文书的装置20中各模块的功能。又例如,该计算机程序可以为图1所对应的实施例中生成法律文书的方法对应的程序。
所称处理器可以是中央处理单元(central processing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,SMC),安全数字(decure digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述输入输出单元也可以用接收器和发送器代替,可以为相同或者不同的物理实体。为相同的物理实体时,可以统称为输入输出单元。该输入输出 可以为收发器。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。本申请的一种计算机存储介质,包括指令,当其在计算机上运行时,使得计算机执行一种生成法律文书的方法,所述方法包括:接收用户输入的语音数据;将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句S i以及所述候选关键句S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(V i)以及计算后的S(V i)之间差值小于阈值,S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。其中,所述存储介质为易失性存储介质或非易失性存储介质。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求 所保护的范围情况下,还可做出很多形式,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本申请的保护之内。

Claims (20)

  1. 一种生成法律文书的方法,其中,所述方法包括:
    接收用户输入的语音数据;
    将所述语音数据通过语音转换技术转换成待处理的文本数据;
    创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;
    将所述多个候选关键句输入至分词模型,以得到分词后的词汇;
    构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句S i以及所述候选关键句S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;
    分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(V i)以及计算后的S(V i)之间差值小于阈值,S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;
    根据计算的每一个所述候选句S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;
    根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
  2. 根据权利要求1所述的方法,其中,所述接收用户输入的语音数据之前,所述方法还包括:
    获取针对所述分词模型输出的反馈信息;
    根据所述反馈信息对所述分词模型进行优化;
    采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
    接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
    对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
    根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
  3. 根据权利要求2所述的方法,其中,所述根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得分词模型,包括:
    根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
    将所述标注好的网络词库输入至所述分词模型;
    通过
    Figure PCTCN2020093419-appb-100001
    训练所述分词模型,其中,
    Figure PCTCN2020093419-appb-100002
    代表根据所述分词模型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值,
    Figure PCTCN2020093419-appb-100003
    表示
    Figure PCTCN2020093419-appb-100004
    相应的偏置,f i n表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,f i n是指所述分词模型的输出。
  4. 根据权利要求1所述的方法,其中,所述接收用户输入的语音数据,包括:
    接收所述用户的采集请求;
    根据所述采集请求采集多个语音测试数据;
    对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
    根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
    保存调整后的所述指标阈值;
    接收所述用户输入的语音数据;
    通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
    若所述指标检测不及格,则剔除所述用户输入的语音数据。
  5. 根据权利要求1所述的方法,其中,所述接收用户输入的语音数据之后,所述方法还包括:
    检测所述输入的语音数据的时长;
    在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
    对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
  6. 根据权利要求1所述的方法,其中,所述将所述语音数据通过语音转换技术转换成待处理的文本数据,包括:
    获取所述用户输入的语音数据;
    检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
    获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
    获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
  7. 根据权利要求1-6任一项所述的方法,其中,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
  8. 一种生成法律文书的装置,其中,所述装置包括:
    输入输出模块,用于接收用户输入的语音数据;
    处理模块,用于将所述语音数据通过语音转换技术转换成待处理的文本数据;创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;通过所述输入输出模块将所述多个候选关键句输入至分词模型,以得到分词后的词汇;构建边集E,通过所述边集E以及文本句子的内容覆盖率,以计算任意两个所述候选关键句S i以及所述候选关键,S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;分析所述保留候选关键句的重要性,重复计算多次,直至计算前S(V i)以及计算后的S(V i)之间差值小于阈值,其中S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;根据计算的每一个所述候选句S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
  9. 一种计算机设备,其中,所述计算机设备包括:
    至少一个处理器、存储器和输入输出单元;
    其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中 存储的程序代码来执行一种生成法律文书的方法,所述方法包括:
    接收用户输入的语音数据;
    将所述语音数据通过语音转换技术转换成待处理的文本数据;
    创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;
    将所述多个候选关键句输入至分词模型,以得到分词后的词汇;
    构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句S i以及所述候选关键句S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;
    分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(V i)以及计算后的S(V i)之间差值小于阈值,S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;
    根据计算的每一个所述候选句S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;
    根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
  10. 根据权利要求9所述的计算机设备,其中,所述接收用户输入的语音数据之前,所述方法还包括:
    获取针对所述分词模型输出的反馈信息;
    根据所述反馈信息对所述分词模型进行优化;
    采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
    接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
    对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
    根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
  11. 根据权利要求10所述的计算机设备,其中,所述根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得分词模型,包括:
    根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
    将所述标注好的网络词库输入至所述分词模型;
    通过
    Figure PCTCN2020093419-appb-100005
    训练所述分词模型,其中,
    Figure PCTCN2020093419-appb-100006
    代表根据所述分词模型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值,
    Figure PCTCN2020093419-appb-100007
    表示
    Figure PCTCN2020093419-appb-100008
    相应的偏置,f i n表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,f i n是指所述分词模型的输出。
  12. 根据权利要求9所述的计算机设备,其中,所述接收用户输入的语音数据,包括:
    接收所述用户的采集请求;
    根据所述采集请求采集多个语音测试数据;
    对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
    根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
    保存调整后的所述指标阈值;
    接收所述用户输入的语音数据;
    通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
    若所述指标检测不及格,则剔除所述用户输入的语音数据。
  13. 根据权利要求9所述的计算机设备,其中,所述接收用户输入的语音数据之后,所述方法还包括:
    检测所述输入的语音数据的时长;
    在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
    对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
  14. 根据权利要求9所述的计算机设备,其中,所述将所述语音数据通过语音转换技术转换成待处理的文本数据,包括:
    获取所述用户输入的语音数据;
    检测所述语音数据中包含的高频词,计算所述高频词与预设语言类型的匹配度,并根据所述匹配度确定所述语音信息的语言类型;
    获取与所述语言类型匹配的神经网络模型,并利用所述神经网络模型处理所述语音数据进,生成标准化语音数据;
    获取与所述语言类型匹配的语音转化文本模型,并利用所述语音转化文本模型处理所述标准化语音数据,生成文本信息。
  15. 根据权利要求9-14任一项所述的计算机设备,其中,所述分词模型包括:顺序相连的语义表示层、循环神经网络层、Softmax层以及条件随机场层。
  16. 一种计算机存储介质,其包括指令,其中,当其在计算机上运行时,使得计算机执行一种生成法律文书的方法,所述方法包括:
    接收用户输入的语音数据;
    将所述语音数据通过语音转换技术转换成待处理的文本数据;
    创建图Graph数据,通过所述图Graph数据辨识特定的分隔符,以分句处理所述待处理的文本数据,并通过所述图Graph数据的节点保存多个候选关键句;
    将所述多个候选关键句输入至分词模型,以得到分词后的词汇;
    构建边集E,通过所述边集E以及文本句子的内容覆盖率,计算任意两个所述候选关键句S i以及所述候选关键句S j的权重,并将所述权重高于阈值的所述候选关键句链接起来;
    分析所述权重高于阈值的候选关键句的重要性,重复计算多次,直至计算前的S(V i)以及计算后的S(V i)之间差值小于阈值,S(V i)表示第i个所述节点V i的重要性,V j表示与所述第i个节点相连的第j个节点;
    根据计算的每一个所述候选句S(V i)的值,将所述多个候选关键句按照S(V i)的值从大到小排序,并按顺序提取多个所述候选关键句,以得到多个文摘句子;
    根据句子要求以及字数要求,从所述多个文摘句子中抽取句子组成文摘。
  17. 根据权利要求16所述的计算机存储介质,其中,所述接收用户输入的语音数据之前,所述方法还包括:
    获取针对所述分词模型输出的反馈信息;
    根据所述反馈信息对所述分词模型进行优化;
    采集具有多元语义的网络词库,根据法律领域对网络词库进行训练;
    接收待分词文本,根据所述网络词库对所述待分词文本进行初始分词;
    对所述待分词文本进行初始分词后,对所述待分词文本进行特征提取,从而获得所述待分词文本的领域特征;
    根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得所述分词模型。
  18. 根据权利要求17所述的计算机存储介质,其中,所述根据所述待分词文本的领域特征,对所述待分词文本的词条进行权重调整从而获得分词模型,包括:
    根据法律领域的词语特征标注所述网络词库,得到标注好的网络词库;
    将所述标注好的网络词库输入至所述分词模型;
    通过
    Figure PCTCN2020093419-appb-100009
    训练所述分词模型,其中,
    Figure PCTCN2020093419-appb-100010
    代表根据所述分词模型神经网络层的多层感知器中第n-1层的输出,训练所述分词模型神经网络层的多层感知器中第n层中第k个神经元得到的权值,
    Figure PCTCN2020093419-appb-100011
    表示
    Figure PCTCN2020093419-appb-100012
    相应的偏置,f i n表示第i个训练数据输入至所述分词模型后在所述分词模型的第n层的输出,i、j以及k为任意正整数,n为自然数;当n为所述分词模型的最后一层时,f i n是指所述分词模型的输出。
  19. 根据权利要求16所述的计算机存储介质,其中,所述接收用户输入的语音数据,包括:
    接收所述用户的采集请求;
    根据所述采集请求采集多个语音测试数据;
    对所述多个语音测试数据进行语音活动检测,获得所述多个语音测试数据的语音指标检测结果;
    根据所述语音指标检测结果调整所述用户输入的语音数据的指标阈值;
    保存调整后的所述指标阈值;
    接收所述用户输入的语音数据;
    通过所述调整后的指标阈值对所述用户输入的语音数据进行指标检测;
    若所述指标检测不及格,则剔除所述用户输入的语音数据。
  20. 根据权利要求16所述的计算机存储介质,其中,所述接收用户输入的语音数据之后,所述方法还包括:
    检测所述输入的语音数据的时长;
    在所述时长超出预设值时,根据预设处理规则将所述输入的语音数据分割为多个片段,以得到多个语音片段;
    对所述多个语音片段进行去燥处理,以生成多个标准化语音信息。
PCT/CN2020/093419 2019-10-18 2020-05-29 生成法律文书的方法、装置、设备和存储介质 WO2021073116A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910992336.3A CN110910283A (zh) 2019-10-18 2019-10-18 生成法律文书的方法、装置、设备和存储介质
CN201910992336.3 2019-10-18

Publications (1)

Publication Number Publication Date
WO2021073116A1 true WO2021073116A1 (zh) 2021-04-22

Family

ID=69815550

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/093419 WO2021073116A1 (zh) 2019-10-18 2020-05-29 生成法律文书的方法、装置、设备和存储介质

Country Status (2)

Country Link
CN (1) CN110910283A (zh)
WO (1) WO2021073116A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495900A (zh) * 2021-08-12 2021-10-12 国家电网有限公司大数据中心 基于自然语言的结构化查询语言语句获取方法及装置
CN115017144A (zh) * 2022-05-30 2022-09-06 北京计算机技术及应用研究所 一种基于图神经网络的司法文书案情要素实体识别方法
CN115908061A (zh) * 2022-11-16 2023-04-04 广州明动软件股份有限公司 一种基于行政执法办案平台的结构化电子文书系统
CN117252539A (zh) * 2023-09-20 2023-12-19 广东筑小宝人工智能科技有限公司 基于神经网络的工程标准规范获取方法及系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910283A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 生成法律文书的方法、装置、设备和存储介质
CN111581348A (zh) * 2020-04-28 2020-08-25 辽宁工程技术大学 一种基于知识图谱的查询分析系统
CN112632223B (zh) * 2020-12-29 2023-01-20 天津汇智星源信息技术有限公司 案事件知识图谱构建方法及相关设备
CN113377745A (zh) * 2021-07-02 2021-09-10 贵州电网有限责任公司 一种统一标准的试验数据结构体系的构建方法
CN114492446B (zh) * 2022-02-16 2023-06-16 平安科技(深圳)有限公司 法律文书处理方法、装置、电子设备及存储介质
CN116822477B (zh) * 2023-05-16 2024-04-30 浙江法之道信息技术有限公司 一种法律文书自动生成系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180308487A1 (en) * 2017-04-21 2018-10-25 Go-Vivace Inc. Dialogue System Incorporating Unique Speech to Text Conversion Method for Meaningful Dialogue Response
CN109388701A (zh) * 2018-08-17 2019-02-26 深圳壹账通智能科技有限公司 会议记录生成方法、装置、设备和计算机存储介质
CN109544104A (zh) * 2018-11-01 2019-03-29 平安科技(深圳)有限公司 一种招聘数据处理方法及装置
CN109918650A (zh) * 2019-02-03 2019-06-21 北京大学 自动生成采访稿的采访智能机器人装置及智能采访方法
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN110910283A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 生成法律文书的方法、装置、设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402916A (zh) * 2017-07-17 2017-11-28 广州特道信息科技有限公司 中文文本的分词方法及装置
CN109284357B (zh) * 2018-08-29 2022-07-19 腾讯科技(深圳)有限公司 人机对话方法、装置、电子设备及计算机可读介质
CN109389993A (zh) * 2018-12-14 2019-02-26 广州势必可赢网络科技有限公司 一种语音数据采集方法、装置、设备及存储介质
CN109448699A (zh) * 2018-12-15 2019-03-08 深圳壹账通智能科技有限公司 语音转换文本方法、装置、计算机设备及存储介质
CN109739973A (zh) * 2018-12-20 2019-05-10 北京奇安信科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN109947930A (zh) * 2019-03-12 2019-06-28 上海秘塔网络科技有限公司 摘要生成方法、装置、终端及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180308487A1 (en) * 2017-04-21 2018-10-25 Go-Vivace Inc. Dialogue System Incorporating Unique Speech to Text Conversion Method for Meaningful Dialogue Response
CN109388701A (zh) * 2018-08-17 2019-02-26 深圳壹账通智能科技有限公司 会议记录生成方法、装置、设备和计算机存储介质
CN109544104A (zh) * 2018-11-01 2019-03-29 平安科技(深圳)有限公司 一种招聘数据处理方法及装置
CN109918650A (zh) * 2019-02-03 2019-06-21 北京大学 自动生成采访稿的采访智能机器人装置及智能采访方法
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN110910283A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 生成法律文书的方法、装置、设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495900A (zh) * 2021-08-12 2021-10-12 国家电网有限公司大数据中心 基于自然语言的结构化查询语言语句获取方法及装置
CN115017144A (zh) * 2022-05-30 2022-09-06 北京计算机技术及应用研究所 一种基于图神经网络的司法文书案情要素实体识别方法
CN115017144B (zh) * 2022-05-30 2024-03-29 北京计算机技术及应用研究所 一种基于图神经网络的司法文书案情要素实体识别方法
CN115908061A (zh) * 2022-11-16 2023-04-04 广州明动软件股份有限公司 一种基于行政执法办案平台的结构化电子文书系统
CN115908061B (zh) * 2022-11-16 2024-04-12 广州明动软件股份有限公司 一种基于行政执法办案平台的结构化电子文书系统
CN117252539A (zh) * 2023-09-20 2023-12-19 广东筑小宝人工智能科技有限公司 基于神经网络的工程标准规范获取方法及系统

Also Published As

Publication number Publication date
CN110910283A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
WO2021073116A1 (zh) 生成法律文书的方法、装置、设备和存储介质
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN107092596B (zh) 基于attention CNNs和CCR的文本情感分析方法
Tang et al. Question detection from acoustic features using recurrent neural network with gated recurrent unit
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN106156365A (zh) 一种知识图谱的生成方法及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN105631468A (zh) 一种基于rnn的图片描述自动生成方法
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN108108354A (zh) 一种基于深度学习的微博用户性别预测方法
CN110909230A (zh) 一种网络热点分析方法及系统
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN116150651A (zh) 基于ai的深度合成检测方法和系统
Xu et al. Chinese event detection based on multi-feature fusion and BiLSTM
CN105957517A (zh) 基于开源api的语音数据结构化转换方法及其系统
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN110413985B (zh) 一种相关文本片段搜索方法及装置
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
KR20200040032A (ko) 양방향 lstm―attention 기반 한국어 게시글 분류 방법
CN112668284B (zh) 一种法律文书分段方法及系统
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN114822557A (zh) 课堂中不同声音的区分方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20876736

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20876736

Country of ref document: EP

Kind code of ref document: A1