WO2021012793A1 - 基于大数据分析的律师推荐方法及相关设备 - Google Patents

基于大数据分析的律师推荐方法及相关设备 Download PDF

Info

Publication number
WO2021012793A1
WO2021012793A1 PCT/CN2020/093407 CN2020093407W WO2021012793A1 WO 2021012793 A1 WO2021012793 A1 WO 2021012793A1 CN 2020093407 W CN2020093407 W CN 2020093407W WO 2021012793 A1 WO2021012793 A1 WO 2021012793A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
lawyer
image
case
target
Prior art date
Application number
PCT/CN2020/093407
Other languages
English (en)
French (fr)
Inventor
蔡智晓
吴秋令
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021012793A1 publication Critical patent/WO2021012793A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • This application relates to the field of big data analysis technology, and in particular to a lawyer recommendation method and related equipment based on big data analysis.
  • lawyers' intelligent recommendation platforms can only perform keyword search, and then search for lawyers that meet the client's requirements through keywords entered by users.
  • a lawyer recommendation method based on big data analysis includes the following steps:
  • the target position corresponding to the key information is obtained, and the target word corresponding to the target position is extracted as the key information of the pending case;
  • the word vector corresponding to the key information is transposed and multiplied with the word vector of the case type to obtain a matching matrix.
  • the eigenvalues of the matching matrix are calculated. According to the eigenvalues, the pending case and Send the matching result of the lawyer to be matched to the client.
  • a lawyer recommendation device based on big data analysis including the following modules:
  • the transceiver module is set to receive the text information of the pending case sent by the client;
  • the data processing module is configured to obtain word segmentation processing on the text information of the pending case to obtain the target word corresponding to the text information of the pending case; After arranging the positions in the text information of the case to be processed, a target vector matrix is obtained; after the target vector matrix is entered into the trained neural network model, the target position corresponding to the key information is obtained, and the target is extracted The target word corresponding to the position is used as the key information of the case to be processed; the personal information of the lawyer to be matched is obtained, and the case type information in the personal information is extracted; the word vector corresponding to the key information is transposed to the case The type of word vectors are multiplied to obtain a matching matrix, the eigenvalues of the matching matrix are calculated, and the matching results of the case to be processed and the lawyer to be matched are obtained according to the eigenvalues, and the result of the matching is sent through the transceiver module The matching result is sent to the client.
  • a computer device including a memory and a processor
  • the memory stores computer-readable instructions
  • the processor executes a lawyer based on big data analysis
  • the recommended methods include:
  • the target position corresponding to the key information is obtained, and the target word corresponding to the target position is extracted as the key information of the pending case;
  • the word vector corresponding to the key information is transposed and multiplied with the word vector of the case type to obtain a matching matrix.
  • the eigenvalues of the matching matrix are calculated. According to the eigenvalues, the pending case and Send the matching result of the lawyer to be matched to the client.
  • a storage medium storing computer-readable instructions, which when executed by one or more processors, cause one or more processors to execute a method recommended by lawyers based on big data analysis, including:
  • the target position corresponding to the key information is obtained, and the target word corresponding to the target position is extracted as the key information of the pending case;
  • the word vector corresponding to the key information is transposed and multiplied with the word vector of the case type to obtain a matching matrix.
  • the eigenvalues of the matching matrix are calculated. According to the eigenvalues, the pending case and Send the matching result of the lawyer to be matched to the client.
  • this application effectively matches the lawyer’s personal information with the case information to be processed to quickly and automatically recommend the most suitable lawyer to the user, thereby increasing the user’s pertinence when choosing a lawyer. This will increase the success rate of the case.
  • Figure 1 is an overall flowchart of a lawyer recommendation method based on big data analysis in an embodiment of the application
  • FIG. 2 is a schematic diagram of a case type information acquisition process in a lawyer recommendation method based on big data analysis in an embodiment of the application;
  • FIG. 3 is a schematic diagram of the identity information authentication process in a lawyer recommendation method based on big data analysis in an embodiment of the application;
  • Fig. 4 is a structural diagram of a lawyer recommendation device based on big data analysis in an embodiment of the application.
  • Figure 1 is an overall flowchart of a lawyer recommendation method based on big data analysis in an embodiment of the application, a method for lawyer recommendation based on big data analysis, applied to the field of big data data mining, including the following steps :
  • word segmentation refers to segmenting a piece of text data into multiple words
  • the word segmentation method can be set according to actual needs. For example, one or more of a word segmentation method based on string matching, a word segmentation method based on understanding, or a word segmentation method based on statistics may be used for word segmentation. You can also use word segmentation tools such as the stammering word segmentation application tool or Hanlp word segmentation application tool to perform word segmentation processing on the current text. After obtaining the current text, perform word segmentation processing on the current text to obtain each target word corresponding to the current text.
  • the case to be processed can be divided into several sub-segments, and then each sub-segment is processed for word segmentation, and each sub-segment is extracted according to the result of word segmentation processing
  • the word vector conversion can use Word2vec or word embedding method to convert words into n-dimensional word vectors.
  • the n-dimensional word vectors need to be reduced in dimensionality.
  • the dimensionality reduction method can be PCA reduces the dimensionality of an n-dimensional word vector into a two-dimensional word vector. Then after sorting, the target vector matrix is formed. This facilitates the calculation of feature values in subsequent steps.
  • the order of the target word vector in the target vector matrix is determined according to the order of the corresponding target words in the current text.
  • One or more target word vectors can be taken as a row of the target vector matrix, and the target word vectors are sorted in sequence according to the sequence of the corresponding target words in the current text to obtain the target vector matrix. It is also possible to take one or more target word vectors as a column of the target vector matrix, and sort the target word vectors in sequence according to the arrangement order of the corresponding target words in the current text to obtain the target vector matrix.
  • each word vector can be taken as a row of the matrix, and the order is a, b, c, d, e, Get the target vector matrix.
  • the acquiring the word vectors of the target words and arranging them according to the positions of the target words in the text information of the case to be processed to obtain a target vector matrix includes:
  • the target matrix elements are sequentially arranged to obtain the target vector matrix.
  • the target position corresponding to the key information is obtained, and the target word corresponding to the target position is extracted as the key information of the pending case;
  • the current input matrix and the current feature extraction matrix corresponding to the current feature extraction layer of the trained neural network model are acquired, wherein, when the current feature extraction layer is the first layer, the current input matrix is the target A vector matrix, when the current feature extraction layer is not the first layer, the current input matrix is the output matrix of the previous feature extraction layer of the current feature extraction layer; wherein the matrix elements are the sample word vector and the position word vector The product value.
  • the current input matrix is scaled to obtain a target input matrix, and the preset direction dimension corresponds to The preset direction of is the direction corresponding to the width of the target word vector in the target vector matrix; feature extraction is performed on the target input matrix according to the current feature extraction matrix to obtain the current output matrix; according to the current output The matrix obtains the target position corresponding to the text information of the case to be processed.
  • the personal information of the lawyer to be matched may include text information and image information, where the text information includes the name, age, and brief description of the case involved in the lawyer to be matched.
  • the image information contains the personal photos of the lawyers to be matched and scanned copies of their practice certificates.
  • the word vector corresponding to the key information is transposed and multiplied with the word vector of the case type to obtain a matching matrix, where the matching matrix is a square matrix, that is, the word vector of the key information formation and the case type If the number of elements of the word vector corresponding to the information is different, the redundant elements are discarded, and the eigenvalue of the matching matrix is calculated. If the eigenvalue of the matching matrix is 1, then it is matched, otherwise it is not matched.
  • the text data of pending cases can be divided into several segments, and then key information can be extracted for each segment.
  • Zhang San borrowed 50,000 yuan from Li Si for decorating his house. Because Zhang San had a gambling habit, he could not return the 50,000 yuan to Li Si on the repayment day, so he robbed Wang Wu and caused Wang Wu’s arm. Achilles tendon tear.
  • two legal relationships are involved, one is the loan relationship between Zhang San and Li Si, and the other is the relationship between Zhang San's infringement of Wang Wu's personal rights and interests. Therefore, the text of the case can be divided into two consecutive paragraphs. The first paragraph reads "Zhang San borrowed 50,000 yuan from Li Si for decorating his house.
  • the word vector comparison method can also be used for matching. That is, the key information of the case to be processed and the words of the case type are converted into word vectors, and then compared in the same coordinate system. If the difference between the word vectors of the two is within the error threshold, it matches, otherwise it does not match.
  • the most suitable lawyer can be quickly and automatically recommended to the user, thereby increasing the user's pertinence when selecting a lawyer, thereby improving the success of the case rate.
  • Figure 2 is a schematic diagram of the process of obtaining case type information in a lawyer recommendation method based on big data analysis in one embodiment of the application.
  • the S4 obtains personal information of the lawyer to be matched, and extracts the
  • the case type information in personal information includes:
  • the personal information page of the lawyer to be authenticated may be a structured form or sub-structured text information.
  • location positioning can be used to extract identity information from personal information. As shown in the following table:
  • the identity information is "Zhang San”, “35” and “5" corresponding to "name”, “age”, and “practice years”, while “hobby” is not identity information.
  • the identification information also includes the lawyer's practice license number of the lawyer.
  • the lawyer’s practice certificate as the key proof material to prove the lawyer’s identity, plays a vital role in the review of the lawyer’s identity.
  • the personal information of the lawyer to be authenticated can be pixel-identified, that is, the pixel value of each point in the personal information page can be traversed. Since the license image is a color image and the text information is a grayscale image, the personal information can be divided into text information and license image information simply and effectively by means of pixel values.
  • the lawyer's name, practice period and practice certificate number extracted in the previous step as query conditions extract the lawyer's practice certificate images with the same identity information of the lawyer to be authenticated from the national lawyer's practice certificate query platform database.
  • Perform OCR character recognition on the image of the lawyer's license and identify the lawyer's name information, practice information and license number information on the lawyer's license.
  • keyword extraction can be used for the name information, that is, the keyword "name" is located in the text information.
  • the license number can first extract all the numbers in the text information, and then use the number string with the same length as the license number as the license number.
  • the information is compared with the information of the lawyer to be certified, and the lawyer's photo on the practice certificate is extracted if the comparison is consistent.
  • the lawyer to be authenticated is required to open the camera of the terminal where he is located to collect the face image of the lawyer to be authenticated, and input the collected face image and the lawyer's photo on the lawyer's practice certificate into the neural network model for feature point extraction And recognition. According to the identification result, it is determined whether the lawyer to be authenticated is the lawyer on the lawyer's practice certificate.
  • the neural network model usually adopts the convolutional neural network model.
  • the lawyer’s personal information contains the past information about his participation in the case. Since the case file is very large, the lawyer’s personal information is only a summary of the case. In this way, first extract the characteristic words in the case summary, such as case number, case occurrence time and other digital information, and extract the case details corresponding to the digital information from the cloud case database based on the digital information. Analyze whether the certified lawyer succeeded in handling the case from the judgment result part of the case details. After the case details corresponding to the summary of the case information of all the certified lawyers are analyzed for success, the success of the certified lawyers in handling different cases is obtained. Apply clustering algorithms, such as K-Mean clustering, to cluster the type keywords of different cases, such as: criminal, civil, and administrative.
  • clustering algorithms such as K-Mean clustering
  • said S43 obtain the case entity information in the personal information page of the certified lawyer, and extract the type feature words corresponding to the case entity information, where the type feature words are the case type Information, including:
  • the relationship feature words are extracted from the case abstract, and the type feature words corresponding to the entity information are obtained according to the position of the relationship feature words in the case abstract.
  • the personal information of the lawyer to be matched is effectively disassembled and analyzed, thereby improving the degree of matching between the lawyer and the case to be processed.
  • FIG 3 is a schematic diagram of the identity information authentication process in a lawyer recommendation method based on big data analysis in an embodiment of the application.
  • the S41 is to obtain the personal information page of the lawyer to be authenticated, and extract the The lawyer identification information on the personal information page includes:
  • the personal information page of the lawyer to be authenticated when dividing the personal information page of the lawyer to be authenticated into text information and image information, the personal information page of the lawyer to be authenticated can be pixel-identified, that is, to traverse each of the personal information pages of the lawyer to be authenticated The pixel value of the point. Since the image information generally corresponds to the license image, which is a color image, and the text information is a binary gray image, the personal information can be divided into text information and license image information simply and effectively through the pixel value method .
  • the personal information page can be divided into several sub-blocks.
  • the color gradient change value can be considered as a gradient of "1".
  • the gradient value of the license image is less than "1".
  • the following steps may be adopted:
  • Q n represents the average gray value of the nth sub-circle
  • B(x, y) represents the gray value of each point on the sub-circle in two-dimensional space
  • N represents the number of pixels contained in the sub-circle
  • the Canny operator is applied to perform edge extraction on the sub-circle to obtain the edge image of the sub-circle, and the ratio of the edge points in the edge image to the edge image is calculated, and the calculation formula is:
  • P n represents the proportion of edge points in the edge image of the nth sub-circle in the edge image
  • E(x,y) represents the gray value of the edge image in the two-dimensional space
  • N represents the sub-circle contains pixels quantity
  • a hash value sequence C (Q1, P1, Q2, P2, ... Qn, Pn) is established, Huffman tree coding is performed on the hash value sequence to obtain the image hash value in the image information generation process.
  • the original parameters included in the original information refer to the image parameters before the practice license image is altered, that is, the lawyer photo information on the original practice license image.
  • Non-lawyers will use their own photos to replace the original photos on the lawyer's practice certificate to commit fraud.
  • the lawyer's identity is verified through image recognition technology, thereby effectively preventing the lawyer's fraudulent behavior in data.
  • the S42 traverse the lawyer database, extract the standard practice certificate image corresponding to the lawyer's identity information from the lawyer database, and combine the standard practice certificate image with the personal information page If they are consistent, mark the lawyer to be certified as being certified, otherwise mark it as not being certified, including:
  • Extracting the practice license number in the text information traverse the lawyer database according to the practice license number, and obtain the standard practice license image corresponding to the practice license number;
  • the practice license number is extracted from the text information, and the practice license number is used as the query condition, and the lawyer practice license image with the same identity information of the lawyer to be authenticated is extracted from the national lawyer practice certificate query platform database.
  • the information is compared with the information of the lawyer to be certified, and the lawyer's photo on the practice certificate is extracted if the comparison is consistent.
  • the lawyer to be authenticated is required to open the camera of the terminal where he is located to collect the face image of the lawyer to be authenticated, and input the collected face image and the lawyer's photo on the lawyer's practice certificate into the neural network model for feature point extraction And recognition. According to the identification result, it is determined whether the lawyer to be certified is the lawyer on the lawyer's practice certificate.
  • the neural network model usually adopts the convolutional neural network model.
  • the OCR character recognition is performed on the standard practice license image, and information such as the lawyer's name and ID card corresponding to the standard practice license image is recognized.
  • a lawyer recommendation device based on big data analysis is proposed, as shown in Figure 4, including the following modules:
  • the transceiver module is set to receive the text information of the pending case sent by the client;
  • the data processing module is configured to obtain word segmentation processing on the text information of the pending case to obtain the target word corresponding to the text information of the pending case; After arranging the positions in the text information of the case to be processed, a target vector matrix is obtained; after the target vector matrix is entered into the trained neural network model, the target position corresponding to the key information is obtained, and the target is extracted The target word corresponding to the position is used as the key information of the case to be processed; the personal information of the lawyer to be matched is obtained, and the case type information in the personal information is extracted; the word vector corresponding to the key information is transposed to the case The type of word vectors are multiplied to obtain a matching matrix, the eigenvalues of the matching matrix are calculated, and the matching results of the case to be processed and the lawyer to be matched are obtained according to the eigenvalues, and the result of the matching is sent through the transceiver module The matching result is sent to the client.
  • a computer device in one embodiment, includes a memory and a processor.
  • the memory stores computer-readable instructions.
  • the processor executes the above-mentioned data-based Lawyers recommended methods for analysis, including:
  • the target position corresponding to the key information is obtained, and the target word corresponding to the target position is extracted as the key information of the pending case;
  • the word vector corresponding to the key information is transposed and multiplied with the word vector of the case type to obtain a matching matrix.
  • the eigenvalues of the matching matrix are calculated. According to the eigenvalues, the pending case and Send the matching result of the lawyer to be matched to the client.
  • a storage medium storing computer-readable instructions.
  • the computer-readable instructions are executed by one or more processors, the one or more processors execute the aforementioned lawyers based on big data analysis. Recommended method steps.
  • the storage medium may be a non-volatile storage medium or a volatile storage medium
  • the lawyer recommendation method based on big data analysis includes:
  • the target position corresponding to the key information is obtained, and the target word corresponding to the target position is extracted as the key information of the pending case;
  • the word vector corresponding to the key information is transposed and multiplied with the word vector of the case type to obtain a matching matrix.
  • the eigenvalues of the matching matrix are calculated. According to the eigenvalues, the pending case and Send the matching result of the lawyer to be matched to the client.
  • the program can be stored in a computer-readable storage medium, and the storage medium can include: Read only memory (ROM, Read Only Memory), random access memory (RAM, Random Access Memory), magnetic disk or optical disk, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及大数据分析技术领域,尤其涉及一种基于大数据分析的律师推荐方法及相关设备,包括:接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;建立目标向量矩阵;将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取关键信息;获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;将所述关键信息对应的词向量转置后与所述案件类型的词向量进行匹配。本申请通过将律师的个人信息和待处理的案件信息进行有效的匹配,从而增加了用户在进行律师选择时的针对性,进而提升案件的胜诉率。

Description

基于大数据分析的律师推荐方法及相关设备
本申请要求于2019年07月23日提交中国专利局、申请号为201910667374.1,发明名称为“基于大数据分析的律师推荐方法及相关设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及大数据分析技术领域,尤其涉及一种基于大数据分析的律师推荐方法及相关设备。
背景技术
随着互联网技术的发展,公司在进行诉讼时往往直接在各个律师智能推荐平台上查询所需的律师。目前,律师智能推荐平台往往只能进行关键词检索,通过用户输入的关键词然后查询出符合客户要求的律师。
但是,发明人意识到,仅通过关键词查询匹配度低,不能到达应用智能终端根据用户输入的案件信息,快速自动向用户推荐最适合的律师的需求。因此,急需开发一种应用智能终端快速精准向用户推荐律师的方法。
技术问题
基于此,有必要针对目前通过关键词查询匹配度低,不能到达应用智能终端根据用户输入的案件信息,快速自动向用户推荐最适合的律师的需求问题,提供一种基于大数据分析的律师推荐方法及相关设备。
技术解决方案
一种基于大数据分析的律师推荐方法,包括如下步骤:
接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
一种基于大数据分析的律师推荐装置,包括如下模块:
收发模块,设置为接收客户端发送的待处理案件的文本信息;
数据处理模块,设置为获对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,通过所述收发模块发送所述匹配结果至所述客户端。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行一种基于大数据分析的律师推 荐的方法,包括:
接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行一种基于大数据分析的律师推荐的方法,包括:
接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
有益效果
与现有机制相比,本申请通过将律师的个人信息和待处理的案件信息进行有效的匹配,实现快速自动向用户推荐最适合的律师,从而增加了用户在进行律师选择时的针对性,进而提升案件的胜诉率。
附图说明
图1为本申请在一个实施例中的一种基于大数据分析的律师推荐方法的整体流程图;
图2为本申请在一个实施例中的一种基于大数据分析的律师推荐方法中的案件类型信息获取过程示意图;
图3为本申请在一个实施例中的一种基于大数据分析的律师推荐方法中的身份信息认证过程示意图;
图4为本申请在一个实施例中的一种基于大数据分析的律师推荐装置的结构图。
本发明的最佳实施方式
图1为本申请在一个实施例中的一种基于大数据分析的律师推荐方法的整体流程图,一种基于大数据分析的律师推荐方法,应用于大数据的数据挖掘领域中,包括以下步骤:
S1、接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
其中,分词是指将一段文本数据切分为多个词语,分词的方法可以根据实际需要进行设置。例如可以采用基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法中的一种或多种方法进行分词。还可以采用结巴分词应用工具或者Hanlp分词应用工具等分词工具对当前文本进行分词处理。得到当前文本后,对当前文本进行分词处理,得到当前文本对应的各个目标词语。进一步的,在对待处理案件的文本信息进行分词处理 时,可以将待处理案件先划分为数个子语段,然后对每一个子语段进行分词处理,在根据分词处理的结果提取各个子语段中的共有词,将这些共有词汇总后得到所述待处理案件的文本信息对应的目标词语。
S2、将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
其中,词向量转换可以采用Word2vec或者词嵌入法对词语进行向量转换,转换成n维词向量,在将n维词向量进行排列前需要对n维词向量进行降维,降维的方式可以是PCA降维,将n维词向量降维成二维词向量。然后再进行排序后,形成目标向量矩阵。这样便于在后续步骤中进行特征值的计算。
在生成目标向量矩阵的过程中,可以采用以下步骤:目标词向量在目标向量矩阵的排序是根据对应的目标词语在当前文本的排列顺序确定的。可以将一个或多个目标词向量作为目标向量矩阵的一行,并根据对应的目标词语在当前文本的排列顺序对目标词向量依次排序,得到目标向量矩阵。也可以将一个或多个目标词向量作为目标向量矩阵的一列,并根据对应的目标词语在当前文本的排列顺序对目标词向量依次排序,得到目标向量矩阵。例如,当前文本的目标词语对应的目标词向量依次为a、b、c、d、e,则可以将每一个词向量作为矩阵的一行,且排序依次为a、b、c、d、e,得到目标向量矩阵。
在其中一个实施例中,所述获取所述目标词语的词向量,按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵,包括:
获取各所述目标词语的词向量对应的标量值,将各所述标量值分别作为所述目标向量矩阵中的目标矩阵元素;
按照所述目标词语在所述当前文本的排列顺序,将各个所述目标矩阵元素依次进行排列,得到所述目标向量矩阵。
S3、将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
具体的,获取所述训练好的神经网络模型的当前特征提取层对应的当前输入矩阵以及当前特征提取矩阵,其中,当所述当前特征提取层为首层时,所述当前输入矩阵为所述目标向量矩阵,当所述当前特征提取层不是首层时,所述当前输入矩阵为所述当前特征提取层的上一特征提取层的输出矩阵;其中,矩阵元素为样本词向量和位置词向量的乘积数值。若所述当前输入矩阵对应的预设方向维度与所述当前特征提取矩阵对应的预设方向维度不一致时,则对所述当前输入矩阵进行缩放,得到目标输入矩阵,所述预设方向维度对应的预设方向为所述目标向量矩阵中所述目标词向量的宽度所对应的方向;根据所述当前特征提取矩阵对所述目标输入矩阵进行特征提取,得到当前输出矩阵;根据所述当前输出矩阵得到待处理案件的文本信息对应的目标位置。
S4、获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
具体的,待匹配律师的个人信息可以包括文字信息和图像信息,其中,文字信息包含有待匹配律师的姓名、年龄和参与案件情况的简要说明。图像信息则包含有的待匹配律师的个人照片和执业证扫描件等。在对个人信息中的案件类型信息进行提取时,可以采用先将文字信息和图像信息进行划分,然后再从文字信息中进行关键字查询的方式得到案件类型信息。
S5、将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
具体的,将所述关键信息所对应的词向量转置后与所述案件类型的词向量进行乘积,得到匹配矩阵,其中匹配矩阵是一个方阵,即关键信息队形的词向量和案件类型信息对应的词向量如果元素个数不同,则抛弃多余的元素,计算所述匹配矩阵的特征值,若所述匹配矩阵的特征值为1,则匹配,否则不匹配。
在进行待处理案件和律师进行匹配时,可以将待处理案件的文本资料划分成数个语段,然后对每一个语段进行关键信息提取。例如,张三因装修房屋向李四借款5万元,由于张三染上赌博的恶习,所以在还款日无法将5万元钱归还给李四,遂抢劫王五,并造成王五手臂跟腱撕裂。在这个案件中,涉及到两个法律关系,一个是张三和李四的借贷关系,另一个是张三侵犯王五人身权益的关系。因此,可以将案件的文本资料划分为连个语段,第一个个语段为“张三因装修房屋向李四借款5万元,由于张三染上赌博的恶习,所以在还款日无法将5万元钱归还给李四”;第二个语段为“遂抢劫王五,并造成王五手臂跟腱撕裂”。这两个语段划分的依据是新的“实体”词的出现。
在进行匹配时,还可以采用词向量比较方式进行匹配。即将所述待处理案件的关键信息和所述案件类型的词语进行词向量转换,然后在同一个坐标系下比较,若二者的词向量差值在误差阈值以内,则匹配,否则不匹配。
本实施例,通过将律师的个人信息和待处理的案件信息进行有效的匹配,实现快速自动向用户推荐最适合的律师,从而增加了用户在进行律师选择时的针对性,进而提升案件的胜诉率。
图2为本申请在一个实施例中的一种基于大数据分析的律师推荐方法中的案件类型信息获取过程示意图,如图所示,所述S4、获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息,包括:
S41、获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息;
具体的,待认证律师的个人信息页面可以是结构化的表格,也可以是分结构化文本信息。对于结构化的表格信息,可以采用位置定位的方式对个人信息中的身份信息进行提取。如下表所示:
姓名 张三
年龄 35
执业年限 5
业余爱好 篮球
如上表所示,身份信息为“姓名”、“年龄”、“执业年限”对应的“张三”、“35”和“5”,而“业余爱好”则不是身份信息。在进行结构化的表格信息进行身份信息提取时,可以根据数据库中预设的特征词,在本实施例中为“姓名”、“年龄”和“执业年限”,然后在这些特征词对应的行或者列上获取律师的身份信息。
对于非结构化文本数据,则根据数据库中预设的特征词进行知识抽取,即以特征词作为“实体”,身份信息作为“属性”,通过关系词进行查询每一个实体对应的属性。
例如,我叫张三,在A律师事务所工作3年。实体为“我”,关系为“叫”,属性为“张三”,另外一个关系为“工作”,属性为“3年”。
此外,身份信息还包括律师的律师执业证编号。律师执业证作为证明律师身份的关键证明材料,对于律师身份的审核具有至关重要的作用。
在将个人信息页面划分为文本信息和执业证图像信息时,可以将待认证律师的个人信息进行像素点识别,即遍历所述个人信息页面中的每一个点的像素值。由于执业证图片是彩色图像和文本信息为灰度图像,因此通过像素值的方式可以简单有效的将个人信息划分为文本信息和执业证图片信息。
S42、遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证;
具体的,将上一步骤中提取出的律师姓名、执业年限和执业证号作为查询的条件,从全国律师执业证书查询平台数据库中抽取出所述待认证律师身份信息一致的律师执业证图像。对律师执业证图像进行OCR字符识别,识别出律师执业证上的律师姓名信息,执业情况信息和执业证编号信息。从所述文本信息中抽取所述待认证律师的姓名信息和执业证编号;其中,对于姓名信息可以采用关键词提取的方式,即在文本信息中先进行“姓名”这一关键词的定位,然后提取“姓名”这一关键词后面相邻的词语作为姓名信息,后面的判断依据为特征符号“:”。执业证编号可以先提取文本信息中的所有数字,然后将与执业证编号长度一致的数字串作为执业证编号。
将这些信息与所述待认证律师的信息进行比对,比对一致则提取执业证上的律师照片。此时,需要待认证律师打开其所在终端的摄像头对所述待认证律师进行人脸图像采集,将采集到的人脸图像和律师执业证上的律师照片投入到神经网络模型中进行特征点提取和识别。根据识别结果确定所述待认证律师是否为律师执业证上的律师。其中,神经网络模型通常采用的卷积神经网络模型。
S43、获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息。
具体的,在律师个人信息中有其参加案件的过往信息,由于案件卷宗很大,所以律师在个人信息时仅仅是案件的摘要。这样,首先提取案件摘要中的特征词,比如案件编号、案件发生时间等数字信息,根据这些数字信息,从云端案件数据库中抽取出这些数字信息对应的案件详情。从案件详情中的判决结果部分分析所述通过认证的律师处理该案件的胜诉与否。将所述通过认证的律师所有的案件信息摘要对应的案件详情进行胜诉分析后,得到所述通过认证律师处理不同案件的胜诉情况。应用聚类算法,如K-Mean聚类,对不同案件的类型关键词进行聚类,如:刑事、民事、行政。或者更详细的将民事分为:商事、婚姻等。根据聚类结果可以得到所述通过认证的律师处理不同类型案件的胜诉率。胜诉率排名前三的案件类型作为所述通过认证的律师参与案件的主要案件类型。
其中,在一个实施例中,所述S43、获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息,包括:
获取通过认证律师的个人信息页面中的参与案件实体信息,根据所述实体信息,从互联网网页中爬取出所述实体信息对应的案件摘要;
从所述案件摘要中提取出关系特征词,根据所述关系特征词在所述案件摘要中的位置,得到所述实体信息对应的类型特征词。
本实施例,通过待匹配律师的个人信息进行有效拆解和分析,从而提升了律师和待处理案件的匹配度。
图3为本申请在一个实施例中的一种基于大数据分析的律师推荐方法中的身份信息认证过程示意图,如图所示,所述S41、获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息,包括:
S411、获取待认证律师的个人信息页面,将所述个人信息页面分割成数个子块,计算所述子块中像素值变化的梯度,若所述梯度大于梯度阈值,则所述子块为文字信息,否则所述子块为图像信息;
具体的,在将待认证律师的个人信息页面划分为文本信息和图像信息时,可以将待认证律师的个人信息页面进行像素点识别,即遍历所述待认证律师的个人信息页面中的每一个点的像素值。由于图像信息一般对应的是执业证图像,其为彩色图像,而文本信息为二值化的灰度图像,因此通过像素值的方式可以简单有效的将个人信息划分为文本信息和执 业证图片信息。
在进行具体识别时,可以将个人信息页面划分为数个子块,对于文字信息所在的子块由于只有黑和白两种颜色,因此,颜色梯度变化值可以认为是梯度为“1”,而对于执业证图像所在的子块,由于执业证图像是彩色图像是由多种像素值构成的,因此执业证图像的梯度值小于“1”。
S412、对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所有所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值;
具体的,在其中一个实施例中,得到图像信息生成过程中的图像哈希值,可以采用下列步骤:
将所述图像信息进行灰度处理,得到二值化的灰度图像,对所述灰度图像进行保角变换得到直径为R的圆形图像;
将所述圆形图像划分为半径为数个半径为r的子圆,其中r=R/n,n为大于1的自然数,获取任意两个子圆之间的夹角,记为a;
计算每一个所述子圆的灰度值,其中灰度值计算公式为:
Figure PCTCN2020093407-appb-000001
式中,Q n表示第n个子圆的平均灰度值,B(x,y)表示子圆上各点在二维空间的灰度值,N表示子圆包含像素点的数量;
应用Canny算子对所述子圆进行边缘提取,得到所述子圆的边缘图像,计算所述边缘图像中边缘点占所述边缘图像的比例,计算公式为:
Figure PCTCN2020093407-appb-000002
式中,P n表示第n个子圆的边缘图像中边缘点占所述边缘图像的比例,E(x,y)表示边缘图像在二维空间上的灰度值,N表示子圆包含像素点的数量;
以所述子圆的平均灰度值和所述边缘图像中边缘点占所述边缘图像的比例作为参数,建立一哈希值序列C(Q1,P1,Q2,P2,…Qn,Pn),对所述哈希值序列进行霍夫曼树编码后得到所述图像信息生成过程中的图像哈希值。
S413、根据所述图像哈希值,得到所述图像信息的原始信息,根据所述原始信息,得到所述图像信息对应的律师身份信息。
其中,原始信息中包含有原始参数是指执业证图像发生涂改前的图像参数,即原始执业证图像上的律师照片信息。非律师会用自己的照片替代律师执业证上的原始照片,从而进行欺诈。
本实施例,通过图像识别技术对律师进行身份验证,从而有效防止了律师在资料时的欺诈行为。
在其中一个实施例中,所述S42、遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证,包括:
提取所述文字信息中的执业证编号,根据所述执业证编号,遍历所述律师数据库,得到所述执业证编号对应的所述标准执业证图像;
具体的,提取文字信息中执业证编号,以执业证编号作为查询的条件,从全国律师执业证书查询平台数据库中抽取出所述待认证律师身份信息一致的律师执业证图像。对律师执业证图像进行OCR字符识别,识别出律师执业证上的律师姓名信息,执业情况信息和执业证编号信息。将这些信息与所述待认证律师的信息进行比对,比对一致则提取执业证上的律师照片。此时,需要待认证律师打开其所在终端的摄像头对所述待认证律师进行人脸图像采集,将采集到的人脸图像和律师执业证上的律师照片投入到神经网络模型中进行特 征点提取和识别。根据识别结果确定所述待认证律师是否为律师执业证上的律师。其中,神经网络模型通常采用的卷积神经网络模型。
应用光学文字识别OCR识别出所述标准执业证图像中的律师姓名信息,将所述律师姓名信息与所述文字信息中的姓名信息进行笔画像素值比对,若两者笔画像素值之差在误差阈值以内,则标记所述待认证律师通过认证,否则标记为未通过认证。
具体的,对标准执业证图像进行OCR字符识,识别出标准执业证图像对应的律师姓名、身份证等信息。
本实施例,通过对执业证图像中的字符进行有效识别,从而有效防止了律师进行执业证欺诈,从而保证在进行律师匹配时的准确性。
在一个实施例中,提出了一种基于大数据分析的律师推荐装置,如图4所示,包括如下模块:
收发模块,设置为接收客户端发送的待处理案件的文本信息;
数据处理模块,设置为获对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,通过所述收发模块发送所述匹配结果至所述客户端。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述基于大数据分析的律师推荐方法,包括:
接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于大数据分析的律师推荐方法的步骤。其中,所述存储介质可以为非易失性存储介质或者易失性存储介质
其中,所述基于大数据分析的律师推荐方法,包括:
接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配 矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。

Claims (20)

  1. 一种基于大数据分析的律师推荐方法,其中,包括:
    接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
    将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
    将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
    获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
    将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
  2. 根据权利要求1所述的基于大数据分析的律师推荐方法,其中,所述获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息,包括:
    获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息;
    遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证;
    获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息。
  3. 根据权利要求2所述的基于大数据分析的律师推荐方法,其中,所述获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息,包括:
    获取待认证律师的个人信息页面,将所述个人信息页面分割成数个子块,计算所述子块中像素值变化的梯度,若所述梯度大于梯度阈值,则所述子块为文字信息,否则所述子块为图像信息;
    对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所有所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值;
    根据所述图像哈希值,得到所述图像信息的原始信息,根据所述原始信息,得到所述图像信息对应的律师身份信息。
  4. 根据权利要求2所述的基于大数据分析的律师推荐方法,其中,所述遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证,包括:
    提取所述文字信息中的执业证编号,根据所述执业证编号,遍历所述律师数据库,得到所述执业证编号对应的所述标准执业证图像;
    应用光学文字识别OCR识别出所述标准执业证图像中的律师姓名信息,将所述律师姓名信息与所述文字信息中的姓名信息进行笔画像素值比对,若两者笔画像素值之差在误差阈值以内,则标记所述待认证律师通过认证,否则标记为未通过认证。
  5. 根据权利要求2所述的基于大数据分析的律师推荐方法,其中,所述获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息,包括:
    获取通过认证律师的个人信息页面中的参与案件实体信息,根据所述实体信息,从互联网网页中爬取出所述实体信息对应的案件摘要;
    从所述案件摘要中提取出关系特征词,根据所述关系特征词在所述案件摘要中的位置,得到所述实体信息对应的类型特征词。
  6. 根据权利要求3所述的基于大数据分析的律师推荐方法,其中,所述对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值,包括:
    将所述图像信息进行灰度处理,得到二值化的灰度图像,对所述灰度图像进行保角变换得到直径为R的圆形图像;
    将所述圆形图像划分为半径为数个半径为r的子圆,其中r=R/n,n为大于1的自然数,获取任意两个子圆之间的夹角,记为a;
    计算每一个所述子圆的灰度值,其中灰度值计算公式为:
    Figure PCTCN2020093407-appb-100001
    式中,Q n表示第n个子圆的平均灰度值,B(x,y)表示子圆上各点在二维空间的灰度值,N表示子圆包含像素点的数量;
    应用Canny算子对所述子圆进行边缘提取,得到所述子圆的边缘图像,计算所述边缘图像中边缘点占所述边缘图像的比例,计算公式为:
    Figure PCTCN2020093407-appb-100002
    式中,P n表示第n个子圆的边缘图像中边缘点占所述边缘图像的比例,E(x,y)表示边缘图像在二维空间上的灰度值,N表示子圆包含像素点的数量;
    以所述子圆的平均灰度值和所述边缘图像中边缘点占所述边缘图像的比例作为参数,建立一哈希值序列C(Q1,P1,Q2,P2,…Qn,Pn),对所述哈希值序列进行霍夫曼树编码后得到所述图像信息生成过程中的图像哈希值。
  7. 根据权利要求1述的基于大数据分析的律师推荐方法,其中,所述获取所述目标词语的词向量,按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵,包括:
    获取各所述目标词语的词向量对应的标量值,将各所述标量值分别作为所述目标向量矩阵中的目标矩阵元素;
    按照所述目标词语在所述当前文本的排列顺序,将各个所述目标矩阵元素依次进行排列,得到所述目标向量矩阵。
  8. 一种基于大数据分析的律师推荐装置,其中,包括以下模块:
    收发模块,设置为接收客户端发送的待处理案件的文本信息;
    数据处理模块,设置为获对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,通过所述收发模块发送所述匹配结果至所述客户端。
  9. 一种计算机设备,其中,所述设备包括:
    至少一个处理器、存储器和收发器;
    其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行一种基于大数据分析的律师推荐的方法,其中所述基于大数据分析的律师推荐的方法,包括:
    接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
    将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
    将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
    获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
    将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
  10. 根据权利要求9所述的计算机设备,其中,所述获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息,包括:
    获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息;
    遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证;
    获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息。
  11. 根据权利要求10所述的计算机设备,其中,所述获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息,包括:
    获取待认证律师的个人信息页面,将所述个人信息页面分割成数个子块,计算所述子块中像素值变化的梯度,若所述梯度大于梯度阈值,则所述子块为文字信息,否则所述子块为图像信息;
    对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所有所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值;
    根据所述图像哈希值,得到所述图像信息的原始信息,根据所述原始信息,得到所述图像信息对应的律师身份信息。
  12. 根据权利要求10所述的计算机设备,其中,所述遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证,包括:
    提取所述文字信息中的执业证编号,根据所述执业证编号,遍历所述律师数据库,得到所述执业证编号对应的所述标准执业证图像;
    应用光学文字识别OCR识别出所述标准执业证图像中的律师姓名信息,将所述律师姓名信息与所述文字信息中的姓名信息进行笔画像素值比对,若两者笔画像素值之差在误差阈值以内,则标记所述待认证律师通过认证,否则标记为未通过认证。
  13. 根据权利要求10所述的计算机设备,其中,所述获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息,包括:
    获取通过认证律师的个人信息页面中的参与案件实体信息,根据所述实体信息,从互联网网页中爬取出所述实体信息对应的案件摘要;
    从所述案件摘要中提取出关系特征词,根据所述关系特征词在所述案件摘要中的位置,得到所述实体信息对应的类型特征词。
  14. 根据权利要求11所述的计算机设备,其中,所述对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值,包括:
    将所述图像信息进行灰度处理,得到二值化的灰度图像,对所述灰度图像进行保角变换得到直径为R的圆形图像;
    将所述圆形图像划分为半径为数个半径为r的子圆,其中r=R/n,n为大于1的自然数,获取任意两个子圆之间的夹角,记为a;
    计算每一个所述子圆的灰度值,其中灰度值计算公式为:
    Figure PCTCN2020093407-appb-100003
    式中,Q n表示第n个子圆的平均灰度值,B(x,y)表示子圆上各点在二维空间的灰度值,N表示子圆包含像素点的数量;
    应用Canny算子对所述子圆进行边缘提取,得到所述子圆的边缘图像,计算所述边缘图像中边缘点占所述边缘图像的比例,计算公式为:
    Figure PCTCN2020093407-appb-100004
    式中,P n表示第n个子圆的边缘图像中边缘点占所述边缘图像的比例,E(x,y)表示边缘图像在二维空间上的灰度值,N表示子圆包含像素点的数量;
    以所述子圆的平均灰度值和所述边缘图像中边缘点占所述边缘图像的比例作为参数,建立一哈希值序列C(Q1,P1,Q2,P2,…Qn,Pn),对所述哈希值序列进行霍夫曼树编码后得到所述图像信息生成过程中的图像哈希值。
  15. 根据权利要求9所述的计算机设备,其中,所述获取所述目标词语的词向量,按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵,包括:
    获取各所述目标词语的词向量对应的标量值,将各所述标量值分别作为所述目标向量矩阵中的目标矩阵元素;
    按照所述目标词语在所述当前文本的排列顺序,将各个所述目标矩阵元素依次进行排列,得到所述目标向量矩阵。
  16. 一种计算机存储介质,其中,其包括指令,当其在计算机上运行时,使得计算机执行一种基于大数据分析的律师推荐的方法,所述方法包括:
    接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
    将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
    将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
    获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
    将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
  17. 根据权利要求16所述的计算机存储介质,其中,所述获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息,包括:
    获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息;
    遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证;
    获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息。
  18. 根据权利要求17所述的计算机存储介质,其中,所述获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息,包括:
    获取待认证律师的个人信息页面,将所述个人信息页面分割成数个子块,计算所述子 块中像素值变化的梯度,若所述梯度大于梯度阈值,则所述子块为文字信息,否则所述子块为图像信息;
    对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所有所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值;
    根据所述图像哈希值,得到所述图像信息的原始信息,根据所述原始信息,得到所述图像信息对应的律师身份信息。
  19. 根据权利要求17所述的计算机存储介质,其中,所述遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证,包括:
    提取所述文字信息中的执业证编号,根据所述执业证编号,遍历所述律师数据库,得到所述执业证编号对应的所述标准执业证图像;
    应用光学文字识别OCR识别出所述标准执业证图像中的律师姓名信息,将所述律师姓名信息与所述文字信息中的姓名信息进行笔画像素值比对,若两者笔画像素值之差在误差阈值以内,则标记所述待认证律师通过认证,否则标记为未通过认证。
  20. 根据权利要求17所述的基于大数据分析的律师推荐方法,其中,所述获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息,包括:
    获取通过认证律师的个人信息页面中的参与案件实体信息,根据所述实体信息,从互联网网页中爬取出所述实体信息对应的案件摘要;
    从所述案件摘要中提取出关系特征词,根据所述关系特征词在所述案件摘要中的位置,得到所述实体信息对应的类型特征词。
PCT/CN2020/093407 2019-07-23 2020-05-29 基于大数据分析的律师推荐方法及相关设备 WO2021012793A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910667374.1 2019-07-23
CN201910667374.1A CN110502694B (zh) 2019-07-23 2019-07-23 基于大数据分析的律师推荐方法及相关设备

Publications (1)

Publication Number Publication Date
WO2021012793A1 true WO2021012793A1 (zh) 2021-01-28

Family

ID=68587698

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/093407 WO2021012793A1 (zh) 2019-07-23 2020-05-29 基于大数据分析的律师推荐方法及相关设备

Country Status (2)

Country Link
CN (1) CN110502694B (zh)
WO (1) WO2021012793A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035456A (zh) * 2024-04-11 2024-05-14 江西微博科技有限公司 基于大数据的电子材料数据共享管理系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502694B (zh) * 2019-07-23 2023-07-21 平安科技(深圳)有限公司 基于大数据分析的律师推荐方法及相关设备
CN110727875B (zh) * 2019-12-17 2020-05-08 杭州实在智能科技有限公司 一种法律案件代理的智能分发方法与系统
CN111428497A (zh) * 2020-03-31 2020-07-17 卓尔智联(武汉)研究院有限公司 一种自动抽取出资信息的方法、装置及设备
CN111553574A (zh) * 2020-04-16 2020-08-18 上海诚收信息科技有限公司 案件分配方法及其装置、电子设备和计算机可读存储介质
CN112069230B (zh) * 2020-09-07 2023-10-27 中国平安财产保险股份有限公司 数据分析方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017104922A1 (ko) * 2015-12-16 2017-06-22 에스케이플래닛 주식회사 추천 컨텐츠 제공 방법 및 이를 위한 장치
CN107563912A (zh) * 2017-08-29 2018-01-09 广东蔚海数问大数据科技有限公司 一种律师推荐方法及系统
WO2018131814A1 (ko) * 2017-01-11 2018-07-19 주식회사 투엔 빅 데이터 분석을 통한 배송인 추천방법
CN109409645A (zh) * 2018-09-07 2019-03-01 平安科技(深圳)有限公司 电子装置、律师推荐的方法及存储介质
CN110020974A (zh) * 2019-03-06 2019-07-16 平安科技(深圳)有限公司 律师推荐方法、装置、介质及电子设备
CN110502694A (zh) * 2019-07-23 2019-11-26 平安科技(深圳)有限公司 基于大数据分析的律师推荐方法及相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269110B (zh) * 2016-12-30 2021-10-26 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
US10733380B2 (en) * 2017-05-15 2020-08-04 Thomson Reuters Enterprise Center Gmbh Neural paraphrase generator
CN109299262B (zh) * 2018-10-09 2022-04-15 中山大学 一种融合多粒度信息的文本蕴含关系识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017104922A1 (ko) * 2015-12-16 2017-06-22 에스케이플래닛 주식회사 추천 컨텐츠 제공 방법 및 이를 위한 장치
WO2018131814A1 (ko) * 2017-01-11 2018-07-19 주식회사 투엔 빅 데이터 분석을 통한 배송인 추천방법
CN107563912A (zh) * 2017-08-29 2018-01-09 广东蔚海数问大数据科技有限公司 一种律师推荐方法及系统
CN109409645A (zh) * 2018-09-07 2019-03-01 平安科技(深圳)有限公司 电子装置、律师推荐的方法及存储介质
CN110020974A (zh) * 2019-03-06 2019-07-16 平安科技(深圳)有限公司 律师推荐方法、装置、介质及电子设备
CN110502694A (zh) * 2019-07-23 2019-11-26 平安科技(深圳)有限公司 基于大数据分析的律师推荐方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035456A (zh) * 2024-04-11 2024-05-14 江西微博科技有限公司 基于大数据的电子材料数据共享管理系统

Also Published As

Publication number Publication date
CN110502694A (zh) 2019-11-26
CN110502694B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
WO2021012793A1 (zh) 基于大数据分析的律师推荐方法及相关设备
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
WO2019119505A1 (zh) 人脸识别的方法和装置、计算机装置及存储介质
Luo et al. Large margin multi-modal multi-task feature extraction for image classification
Jin et al. Predicting aesthetic score distribution through cumulative jensen-shannon divergence
Yu et al. Learning to rank using user clicks and visual features for image retrieval
US11080910B2 (en) Method and device for displaying explanation of reference numeral in patent drawing image using artificial intelligence technology based machine learning
Zhang et al. Probabilistic graphlet transfer for photo cropping
CN104008174B (zh) 一种海量图像检索的隐私保护索引生成方法
US9218364B1 (en) Monitoring an any-image labeling engine
WO2019218473A1 (zh) 一种字段匹配方法、装置、终端设备及介质
WO2017016240A1 (zh) 一种钞票冠字号识别方法
JP2014232533A (ja) Ocr出力検証システム及び方法
CN113076927B (zh) 基于多源域迁移的指静脉识别方法及系统
CN110781460A (zh) 版权认证方法、装置、设备、系统及计算机可读存储介质
WO2022134580A1 (zh) 证件信息的获取方法及装置、存储介质、计算机设备
KR20120087214A (ko) 소셜 네트워킹 서비스 사용자를 위한 친구 추천 방법, 이를 위한 기록 매체 및 이를 이용하는 소셜 네트워킹 서비스 및 서버
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
Wahlberg et al. Large scale continuous dating of medieval scribes using a combined image and language model
Bakić et al. Inria IMEDIA2's participation at ImageCLEF 2012 plant identification task
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
CN115908955B (zh) 基于梯度蒸馏的少样本学习的鸟类分类系统、方法与装置
CN116383470A (zh) 一种具有隐私保护的图像搜索方法
CN111401434A (zh) 一种基于无监督特征学习的图像分类方法
Li et al. Locally-enriched cross-reconstruction for few-shot fine-grained image classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20844455

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20844455

Country of ref document: EP

Kind code of ref document: A1