WO2020253353A1 - 预设用户的资源获取资质生成方法及相关设备 - Google Patents

预设用户的资源获取资质生成方法及相关设备 Download PDF

Info

Publication number
WO2020253353A1
WO2020253353A1 PCT/CN2020/085847 CN2020085847W WO2020253353A1 WO 2020253353 A1 WO2020253353 A1 WO 2020253353A1 CN 2020085847 W CN2020085847 W CN 2020085847W WO 2020253353 A1 WO2020253353 A1 WO 2020253353A1
Authority
WO
WIPO (PCT)
Prior art keywords
reference text
word
target
current type
weight value
Prior art date
Application number
PCT/CN2020/085847
Other languages
English (en)
French (fr)
Inventor
李锴
Original Assignee
深圳壹账通智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳壹账通智能科技有限公司 filed Critical 深圳壹账通智能科技有限公司
Publication of WO2020253353A1 publication Critical patent/WO2020253353A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Definitions

  • This application relates to the field of big data analysis, and in particular to a method for generating a preset user's resource acquisition qualification and related equipment.
  • the lending agency reviews the loan materials provided by the lender to obtain a pre-loan
  • the survey report is used to determine whether the lender’s loan qualifications are qualified; however, the inventor found that the traditional pre-loan survey report requires manual review, which is time-consuming and labor-intensive.
  • the materials provided by the lender are too subjective and difficult to reflect the overall actual operation of the lender Status, for example, some merchants may use some unconventional methods to “disguise” their current “official” corporate information when they have problems, resulting in low efficiency and accuracy in reviewing merchant loan qualifications by lending institutions.
  • a method, device, device, and computer storage medium for generating a resource acquisition qualification of a preset user are provided.
  • a method for generating a preset user's resource acquisition qualification includes the following steps:
  • Respectively traverse different types of reference text collections perform semantic analysis on each reference text in the current type reference text collection traversed, and obtain the public opinion index of the corporate information type corresponding to the current type reference text collection according to the semantic analysis result ;
  • the current qualifications of the preset users are generated according to the public opinion indexes of different types of enterprise information.
  • a device for generating a resource acquisition qualification of a preset user comprising:
  • the query module is used to query the official resource acquisition qualification of the preset user
  • the obtaining module is used to obtain the reference texts related to the preset user and different types of corporate information from the network information source when the official resource obtaining qualifications are in a normal state, to obtain different types of reference text collections;
  • the semantic analysis module is used to respectively traverse different types of reference text collections, perform semantic analysis on each reference text in the current type reference text collection traversed, and obtain the corresponding reference text collection of the current type according to the semantic analysis result Public opinion index of corporate information type;
  • the generating module is configured to generate the resource according to the public opinion index of different enterprise information types to obtain the current qualification of the preset user after traversing the different types of reference text collections.
  • a device for generating a resource acquisition qualification of a preset user comprising: a memory, a processor, and a resource acquisition qualification generating program of a preset user stored on the memory and running on the processor, and The steps of the preset user's resource acquisition qualification generation program are configured to implement the following methods:
  • Respectively traverse different types of reference text collections perform semantic analysis on each reference text in the current type reference text collection traversed, and obtain the public opinion index of the corporate information type corresponding to the current type reference text collection according to the semantic analysis result ;
  • the current qualifications of the preset users are generated according to the public opinion indexes of different types of enterprise information.
  • a computer storage medium storing a resource acquisition qualification generation program of a preset user, and the resource acquisition qualification generation program of the preset user is configured to implement the steps of the following method:
  • Respectively traverse different types of reference text collections perform semantic analysis on each reference text in the current type reference text collection traversed, and obtain the public opinion index of the corporate information type corresponding to the current type reference text collection according to the semantic analysis result ;
  • the current qualifications of the preset users are generated according to the public opinion indexes of different types of enterprise information.
  • FIG. 1 is a schematic structural diagram of a device for pre-setting user resource acquisition qualification generation in a hardware operating environment involved in a solution of an embodiment of the application;
  • FIG. 2 is a schematic flowchart of an embodiment of a method for generating a resource acquisition qualification of a preset user according to this application;
  • FIG. 3 is a schematic flowchart of a second embodiment of a method for generating a resource acquisition qualification of a preset user according to this application;
  • FIG. 4 is a schematic flowchart of a third embodiment of a method for generating a resource acquisition qualification of a preset user according to this application;
  • Fig. 5 is a structural block diagram of a device for generating a resource acquisition qualification of a preset user according to this application.
  • FIG. 1 is a schematic structural diagram of a device for generating a resource acquisition qualification of a preset user of a hardware operating environment involved in a solution of an embodiment of the application.
  • the device may include a processor 1001, such as a CPU, a communication bus 1002, a user interface 1003, a network interface 1004, and a memory 1005.
  • the communication bus 1002 is used to implement connection and communication between these components.
  • the user interface 1003 may include a display screen (Display) and an input unit such as a keyboard (Keyboard), and the optional user interface 1003 may also include a standard wired interface and a wireless interface.
  • the network interface 1004 may optionally include a standard wired interface and a wireless interface (such as a WI-FI interface).
  • the memory 1005 may be a high-speed RAM memory, or a non-volatile memory (non-volatile memory), such as a magnetic disk memory.
  • the memory 1005 may also be a storage device independent of the foregoing processor 1001.
  • the device for generating the resource acquisition qualification of the preset user may be a computer host or a smart phone used by a staff member of a lending institution.
  • the memory 1005 which is a computer storage medium, may include an operating system, a network communication module, a user receiving module, and a preset user resource acquisition qualification generating program.
  • the resource acquisition qualification generation device of the preset user of the present application calls the resource acquisition qualification generation program of the preset user stored in the memory 1005 through the processor 1001, and executes the resource acquisition qualification generation program of the preset user Steps to generate method.
  • FIG. 2 is a schematic flowchart of a first embodiment of a method for generating a resource acquisition qualification of a preset user according to the present application.
  • the method for generating the resource acquisition qualification of the preset user includes the following steps:
  • Step S10 query the official resource acquisition qualification of the preset user
  • the execution subject of this embodiment is the above-mentioned device for pre-setting the user's resource acquisition qualification, and the device is loaded with a pre-set user's resource acquisition qualification generating program.
  • the loan qualification of the merchant is used as the resource acquisition qualification.
  • the resource acquisition qualification generation program of the preset user can be understood as a kind of client, and the first query method of "querying the official resource acquisition qualification of the preset user" is: the server corresponding to the client can Connect with the target database to realize the synchronization update of all preset user information with the State Administration for Industry and Commerce.
  • the client can also directly connect with the corresponding target database.
  • the target database may be a database under the system of the State Administration for Industry and Commerce.
  • the second query method of “inquiring the official resource acquisition qualification of the preset user” is that the device will receive the resource acquisition qualification data transmitted by the preset user, and the device will acquire the resources uploaded by the preset user The qualification is stored in the target database.
  • this embodiment takes the above-mentioned first query method as an example for description, that is, when the device detects that it is in communication with the target database, it queries the official loan qualification of the merchant from the target database.
  • the staff of the lending institution can directly query the loan merchant’s corporate information registered with the State Administration for Industry and Commerce through the client, as well as the official loan qualification status (such as whether the corporate legal person and the enterprise itself have violated the law, such as whether there are criminal cases, Administrative cases, untrustworthy records, etc.).
  • Enterprise information is divided into at least three types: including basic enterprise information (type A), judicial information (type B), and business information (type C).
  • the basic information of an enterprise includes enterprise industrial and commercial information.
  • the enterprise industrial and commercial information includes the establishment time, operating period, operating status, registered capital, and main business of the enterprise.
  • Enterprise judicial information includes enterprise business license information, legal person's employment information in the enterprise, senior management information, major change information, enterprise judicial litigation information, enterprise operation information, enterprise foreign investment relations and concentration information in the industry where the investment enterprise is located.
  • Enterprise operation information includes enterprise business license information, legal person's employment information in the enterprise, senior management information, information on major changes, and the company's foreign investment relationship.
  • Step S20 When the official resource acquisition qualification is in a normal state, obtain reference texts related to the preset user and different types of enterprise information from the network information source to obtain different types of reference text sets.
  • the device finds that the official loan qualification of the merchant is normal from the target database, it does not mean that the merchant’s loan qualification must be okay.
  • the results of official loan qualifications are normal, use crawler technology to obtain reference texts related to different types of corporate information of the merchant from network information sources, and obtain a collection of different types of reference texts to compare the loan qualifications of the merchants. For further verification.
  • the network information source in this embodiment may be a webpage, a forum, a Weibo, or WeChat, etc.
  • these web crawling tools can belong to different search engines, professional forum websites, Weibo websites, WeChat official accounts, etc.; in this embodiment, Python scripts can be used as crawling tools, which can more conveniently and quickly obtain information from network sources. Get the reference text related to the corresponding enterprise information type.
  • third type B corporate judicial information
  • Step S30 traverse different types of reference text collections respectively, perform semantic analysis on each reference text in the current type reference text collection traversed, and obtain the enterprise information type corresponding to the current type reference text collection according to the semantic analysis result The public opinion index.
  • the first type of text collection A, the second type of text collection B, and the third type of text collection C will be traversed separately, and the reference texts in different types of text collections will be semantically analyzed. For example, it can be traversed to a certain type.
  • the keywords in each reference text are extracted and analyzed, and some representative words are found from the text to indicate the content of the text. This can greatly reduce the size of the text without significantly losing the content information that the text tends to.
  • Step S40 After traversing the different types of reference text collections, generate the current qualifications of the preset users according to the public opinion indexes of different types of enterprise information.
  • a total of at least three types of corporate information types of public opinion indexes will be obtained, that is, the basic corporate information (corresponding collection The public opinion index of a), the public opinion index of corporate judicial information (corresponding to set b), and the public opinion index of corporate business information (corresponding to set c).
  • This solution can accumulate these three public opinion indexes, and add the accumulated value to a preset The public opinion index is compared. If it is greater than the preset public opinion index, the lender is deemed to have credible lending strength, otherwise the lender will not lend to the lender; wherein the preset public opinion index can be determined by the staff of the lending institution Set by yourself according to expert recommendations.
  • the official resource acquisition qualification of the preset user is first inquired; when the official qualification is in a normal state, reference texts corresponding to different enterprise information types of the preset user are obtained from the network information source, and different types of reference texts are obtained Collection; respectively traverse different types of reference text collections, perform semantic analysis on each reference text in the current type reference text collection traversed, and obtain the public opinion index of the enterprise information type corresponding to the current type reference text collection according to the semantic analysis results ; After traversing different types of reference text collections, the current qualifications of the preset users are generated according to the public opinion index of different types of corporate information, thereby enabling the resource supply organization to review the efficiency and accuracy of the resource acquisition users’ resource acquisition qualifications Be improved.
  • FIG. 3 is a schematic flow diagram of the second embodiment of a method for generating a resource acquisition qualification of a preset user in this application; based on the first embodiment of the above-mentioned method for generating a resource acquisition qualification of a preset user, this application is proposed A second embodiment of a method for generating a resource acquisition qualification of a preset user.
  • step S30 specifically includes:
  • Step S301 traverse different types of reference text collections respectively, and perform word segmentation processing on each reference text in the current type reference text collection traversed, so that each reference text in the current type reference text collection has multiple Characteristic words of different parts of speech.
  • the method of performing word segmentation processing on each reference text in the current type reference text set traversed so that each reference text in the current type reference text set has multiple feature words with different parts of speech further includes : Determine each sentence in the reference text, convert the text in each sentence into a sequence of Chinese character numbers according to the character frequency; and according to the position of the character in the word, convert the text in each sentence into a corresponding tag sequence;
  • the Chinese character number sequence is input sentence by sentence into the word vector conversion layer of the attention model to output a word vector matrix;
  • the gradient descent method mini-batch method to block the word vector matrix, and input the block processing result into the attention model to obtain a predicted label sequence, where the attention model includes an encoding layer and a decoding layer Layer; compare the predicted tag sequence with the tag sequence of the preset text corpus in the attention model, synthesize the final segmented sentence (ie target sentence) according to the meaning of each tag, separated by spaces ,
  • the words in the sentence after the final word segmentation are feature words, and the part-of-speech tagging operation is performed on each feature word, so that each reference text in the current type reference text set has multiple feature words with different parts of speech; this embodiment
  • the word segmentation result can be obtained more quickly and accurately on the longer news text. Compared with the prior art, the word segmentation processing in this embodiment is more efficient.
  • Step S302 Analyze the multiple feature words in the current type reference text set, and determine the target feature word belonging to the target preset word category from the multiple feature words.
  • the target preset word category is a vocabulary category that can reflect the positive and negative information of the preset user; the developer of the resource acquisition qualification generation program of the preset user in this embodiment will be able to reflect the positive and negative information of the company in advance
  • the nouns, verbs, and adjectives of the company are classified into different target preset word categories, and the classified nouns, verbs and adjectives that can reflect the positive and negative information of the company are used as target characteristic words, and the target characteristic words and the
  • the mapping relationship of the target preset word category is saved in the vocabulary; at the same time, when step S302 is executed, the characteristic words obtained in step S302 are analyzed, and the part of speech of the characteristic words obtained in step S301 is determined, and then the characteristic The word is matched with the pre-stored feature words in the vocabulary.
  • the feature word can be successfully matched with the pre-stored words in the vocabulary, it means that the feature word belongs to the vocabulary that can reflect the positive and negative information of the preset user. Confirm the matching Which target preset word category the pre-stored word belongs to, then the feature word is the target feature word of the confirmed target preset word category.
  • Step S303 Calculate the weight value of the target feature word in the current type reference text set.
  • the weight value of step S303 is the value of the importance of the target feature word relative to the preset user that can reflect the positive and negative information of the preset user. It is different from the general proportion and reflects more than a certain The percentage of a factor or indicator emphasizes the relative importance of the factor or indicator, and tends to contribute to or importance. The higher the weight value of the target feature word in the current type reference text collection, the more the target feature word can reflect the public opinion of the enterprise.
  • the weight value of the target feature word in the current type reference text collection (set a) can be determined by calculating the inverse document frequency of the target feature word in the current type reference text collection (set a) .
  • Inverse document frequency is a commonly used weighting technique for information retrieval and information exploration. If certain specified words or phrases appear frequently in an article, but these specified words or phrases rarely appear in other articles, then It is believed that this word or phrase has good classification ability and is suitable for classification.
  • step S50 is then executed to process set b and set c in the same way.
  • Step S304 Calculate the public opinion index of the enterprise information type corresponding to the current type reference text set according to the weight value of the target feature word.
  • the known target feature word must be a vocabulary that can reflect the positive and negative information of a preset user’s corporate information type. If the target feature word has a high weight value in the current type reference text set, then the The higher the positive or negative public opinion index of the target feature word representing the preset user-enterprise information type, the higher the public opinion index of a certain corporate information type of the preset user can be calculated according to the weight value of the target feature word.
  • FIG. 4 is a schematic flowchart of a third embodiment of a method for generating a resource acquisition qualification of a preset user in this application; based on the second method embodiment of the above-mentioned method for generating a resource acquisition qualification of a preset user, this A third embodiment of a method for generating a resource acquisition qualification of a preset user is applied.
  • the target preset word category includes a first preset word category and a second preset word category, the first preset word category is characterized as a vocabulary reflecting positive information, and the second preset word The category is represented as a vocabulary reflecting negative information;
  • the step S302 specifically includes:
  • Step S032 Analyze a plurality of the feature words in the current type reference text set, determine the target feature words belonging to the target preset word category from the plurality of feature words, and obtain the first prediction according to the analysis result. Set the first target feature word of the word category and the second target feature word of the second preset word category;
  • the target preset word category includes a first preset word category and a second preset word category
  • the first preset word category represents a vocabulary reflecting positive information
  • the second preset word category Characterize words that reflect negative information.
  • step S303 includes:
  • Step S033 Calculate the first weight value of the first target feature word in the current type reference text collection; calculate the second weight value of the second target feature word in the current type reference text collection;
  • the first weight value of the first target feature word in the current type reference text set can be calculated by the formula (1), formula (2), and formula (3) of the third embodiment, and The second weight value of the second target feature word in the current type reference text set.
  • step S304 includes:
  • Step S034 The first weight value is compared with the second weight value, and the public opinion index of the enterprise information type corresponding to the current type reference text set is calculated according to the comparison result.
  • multiple risk level intervals of the enterprise information type may be obtained first, wherein the risk level interval may be preset by the program developer, and the program developer may pre-set the target enterprise Set multiple risk level intervals, and each risk level interval represents a negative public opinion level, which can be divided into five types of public opinion risk levels: major negative level, general negative level, neutral level, general positive level, and very positive;
  • the current public opinion index of the target company is obtained based on the target risk level range.
  • the higher the weight value of the first target feature word in the current type reference text collection the more it can reflect the positive public opinion of the company; and the second target feature word in the current type reference text collection
  • the higher the weight value the more it can reflect the negative public opinion of the company; you can set the weight value of the first target feature word*50% minus the weight value of the second target feature word*30% to determine which risk the difference is in
  • the level interval determines the current public opinion index of an enterprise information type of the preset user according to the risk level interval.
  • this application also proposes a device for generating a resource acquisition qualification of a preset user, the device including:
  • the query module 10 is used to query the official resource acquisition qualification of the preset user
  • the obtaining module 20 is configured to obtain reference texts related to the preset user and different types of enterprise information from the network information source when the official resource obtaining qualifications are in a normal state, and obtain different types of reference text collections;
  • the semantic analysis module 30 is configured to respectively traverse different types of reference text collections, perform semantic analysis on each reference text in the current type reference text collection that has been traversed, and obtain the corresponding reference text collection of the current type according to the semantic analysis result Public opinion index of the type of corporate information;
  • the generating module 40 is configured to generate the resources according to the public opinion indexes of different types of enterprise information after traversing the different types of reference text collections to obtain the current qualifications of the preset users.
  • the device for generating a resource acquisition qualification of a preset user in this embodiment may be a computer application program loaded in the device for generating a resource acquisition qualification of a preset user in the above-mentioned embodiment.
  • the device for generating the resource acquisition qualification of the preset user may be a computer host or a smart phone used by the staff of the lending institution.
  • this application also provides a computer storage medium that stores a preset user's resource acquisition qualification generation program, and when the preset user's resource acquisition qualification generation program is executed by a processor, the above The steps of the method for obtaining the resources of the preset user to obtain the qualifications.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

涉及大数据领域,一种预设用户的资源获取资质生成方法及相关设备,对预设用户的官方资源获取资质进行查询(S10);在官方资质为正常状态时,从网络信息源中分别获取预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合(S20);分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取当前类型参考文本集合对应的企业信息类型的舆情指数(S30);在对不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成预设用户的当前资质,进而使得资源供应机构对于资源获取用户的资源获取资质的审核效率和审核准确率得到提高(S40)。

Description

预设用户的资源获取资质生成方法及相关设备
本申请要求于2019年6月19日提交中国专利局,申请号为201910540026.8、发明名称为“预设用户的资源获取资质生成方法及相关设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及大数据分析领域,尤其涉及一种预设用户的资源获取资质生成方法及相关设备。
背景技术
用户获取资源的时候,需要向资源供应机构提交相应的审核材料,以使资源供应机构根据审核材料,生成用户获取资源的资质,如放贷机构对贷款商家提供贷款材料进行审核,得到一份贷前调查报告来确定贷款商家的贷款资质是否合格;然而,发明人发现,传统的贷前调查报告,需要人工进行审核,费时费力,而且,贷款商家提供的材料过于主观,不易反映贷款商家整体实际经营状态,例如有些商家企业自身出了问题时,可能会使用一些非常规手段将自身当前的“官方”企业信息给“伪装”起来,导致放贷机构对于商家贷款资质的审核效率和审核正确率低下。
发明内容
根据本申请公开的各种实施例,提供一种预设用户的资源获取资质生成方法、装置、设备及计算机存储介质。
一种预设用户的资源获取资质生成方法,所述方法包括以下步骤:
对预设用户的官方资源获取资质进行查询;
在所述官方资质为正常状态时,从网络信息源中分别获取所述预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;
分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述预设用户的当前资质。
一种预设用户的资源获取资质生成装置,所述装置包括:
查询模块,用于对预设用户的官方资源获取资质进行查询;
获取模块,用于在所述官方资源获取资质为正常状态时,从网络信息源中分别获取所述预设用户与不同的企业信息类型相关的参考文本,得到不同类型的参考文本集合;
语义分析模块,用于分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
生成模块,用于在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述资源获取预设用户的当前资质。
一种预设用户的资源获取资质生成的设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的预设用户的资源获取资质生成程序,所述预设用户的资源获取资质生成程序配置为实现以下方法的步骤:
对预设用户的官方资源获取资质进行查询;
在所述官方资质为正常状态时,从网络信息源中分别获取所述预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;
分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述预设用户的当前资质。
一种计算机存储介质,所述计算机存储介质存储有预设用户的资源获取资质生成程序,所述预设用户的资源获取资质生成程序配置为实现以下方法的步骤:
对预设用户的官方资源获取资质进行查询;
在所述官方资质为正常状态时,从网络信息源中分别获取所述预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;
分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述预设用户的当前资质。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
图1为本申请实施例方案涉及的硬件运行环境的用于预设用户的资源获取资质生成的设备的结构示意图;
图2为本申请一种预设用户的资源获取资质生成方法一实施例的流程示意图;
图3为本申请一种预设用户的资源获取资质生成方法第二实施例的流程示意图;
图4为本申请一种预设用户的资源获取资质生成方法第三实施例流程示意图;
图5为本申请一种预设用户的资源获取资质生成装置的结构框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
参照图1,图1为本申请实施例方案涉及的硬件运行环境的预设用户的资源获取资质生成的设备的结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对所述设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。所述预设用户的资源获取资质生成的设备可以是放贷机构工作人员使用的电脑主机或者智能手机。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接收模块以及预设用户的资源获取资质生成程序。
在图1所示的设备中,本申请的预设用户的资源获取资质生成装置通过处理器1001调用存储器1005中存储的预设用户的资源获取资质生成程序,并执行预设用户的资源获取资质生成方法的步骤。
参照图2,图2本申请一种预设用户的资源获取资质生成方法第一实施例的流程示意图。
本实施例中,所述预设用户的资源获取资质生成方法包括以下步骤:
步骤S10:对预设用户的官方资源获取资质进行查询;
需要说明的是,本实施例的执行主体是上述用于预设用户的资源获取资质的设备,所述设备装载有预设用户的资源获取资质生成程序。本实施例中,以贷款商家作为所述预设用户为例,以该商家的贷款资质作为所述资源获取资质。
所述预设用户的资源获取资质生成程序可理解为一种客户端,所述“对预设用户的官方资源获取资质进行查询”的第一种查询方式为:所述客户端对应的服务器可以与目标数据库连接,实现所有预设用户信息与国家工商总局的同步更新,当然所述客户端也可以直接与对应目标数据库连接。所述目标数据库可以是国家工商总局的系统下的数据库。所述“对预设用户的官方资源获取资质进行查询”的第二种查询方式为,所述设备会接收预设用户传输的资源获取资质资料,所述设备会将预设用户上传的资源获取资质存入所述目标数据库中。
具体地,本实施例以上述第一种查询方式为例进行说明,即所述设备在检测到与目标数据库处于通讯状态时,从所述目标数据库中查询商家的官方贷款资质。
放贷机构的工作人员通过客户端可以直接查询贷款商家的在国家工商总局登记的企业信息,以及官方显示的贷款资质状态(例如企业法人和企业本身是否存在违反法律的行为,例如是否存在刑事案件、行政案件、失信记录等)。
企业信息至少分为三种类型:包括企业基本信息(第一类型A)、企业司法信息(第二类型B)、企业经营信息(第三类型C)。
例如,企业基本信息包括企业工商信息、其中,企业工商信息包括企业成立时间、经营期限、经营状态、注册资本和主营业务等等。
企业司法信息包括企业营业执照信息、法人在企业任职信息、高管任职信息、重大变更事项信息、企业司法诉讼信息、企业经营信息、企业对外投资关系及投资企业所在行业中集中度信息。
企业经营信息包括企业营业执照信息、法人在企业任职信息、高管任职信息、重大变更事项信息、企业对外投资关系。
步骤S20:在所述官方资源获取资质为正常状态时,从网络信息源中分别获取所述预设用户与不同的企业信息类型相关的参考文本,得到不同类型的参考文本集合。
可理解的是,如果所述设备从所述目标数据库中查询到所述商家的官方贷款资质显示正常,并不意味着所述商家的贷款资质就一定没有问题,因此在查询到所述商家的官方贷款资质的结果为正常状态时,利用爬虫技术从网络信息源中分别获取所述商家与不同的企业信息类型相关的参考文本,得到不同类型的参考文本集合,以对所述商家的贷款资质作进一步核实。
本实施例的网络信息源可以是网页、论坛、微博、或微信等。可选地,这些网络爬虫工具可以属于不同的搜索引擎、专业论坛网站、微博网站、微信公众号等等;本实施例可通过Python脚本作为爬虫工具,能够更加方便快捷地从网络信息源中获取与相应企业信息类型的相关的参考文本。
例如,如果是针对企业经营信息(第三类型C)相关的参考文本,则可以从58同城、BOOS直聘等招聘网站、或者某些论坛贴吧中获取相关的文本信息,判断该企业的经营状态,如果购物网站或者论坛贴吧中经常有该企业的产品质量不好,或者招聘网站上经常会出现员工反映该企业经常拖欠员工拖欠工资的情况,则可以在一定程度上说明该企业经营方面有一定的问题,效益不景气。
又或者如果是针对企业司法信息(第三类型B)相关的参考文本,能够在网上搜索到多起该企业的老总触犯了某条法律,或者该企业涉嫌违规操作的相关新闻,则证明该企业存在一定的信用问题或者缺乏安全性保障。
步骤S30:分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数。
可理解的是,例如一共有三种类型的参考文本集合,即企业基本信息对应的第一类型文本集合A、企业司法信息对应的第二类型文本集合B、企业经 营信息对应的第三类型文本集合C。
本实施例会分别对第一类型文本集合A、第二类型文本集合B和第三类型文本集合C进行遍历,对不同类型文本集合中的参考文本进行语义分析,例如,可以在遍历到某一类型的文本集合时,对每个参考文本中的关键词的进行提取分析,从文本中找到一些具有代表性的词语来表示文本所倾向的内容。这可以极大地压缩文本规模,同时不会明显地丢失文本所倾向的内容信息。最后根据类型文本集合中每个文本的语义分析结果来确定该类型文本集合的语义分析结果,最后根据该类型文本集合的语义分析结果来获取所述当前类型参考文本集合对应的企业信息类型的舆情指数。
步骤S40:在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述预设用户的当前资质。
具体地,在分别对第一类型文本集合a、第二类型文本集合b和第三类型文本集合c遍历完毕之后,会总共得到至少三种企业信息类型的舆情指数,即企业基本信息(对应集合a)的舆情指数,企业司法信息(对应集合b)的舆情指数、企业经营信息(对应集合c)的舆情指数,本方案可以将这三种舆情指数累加,将累加后的值和一个预设种舆情指数进行比较,如果大于预设种舆情指数,则认定该贷款商家具有可信的贷款实力,否则不给该贷款商家放贷;其中,所述预设种舆情指数可以由放贷机构的工作人员根据专家建议自行设置。
本实施例首先对预设用户的官方资源获取资质进行查询;在官方资质为正常状态时,从网络信息源中分别获取预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取当前类型参考文本集合对应的企业信息类型的舆情指数;在对不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成预设用户的当前资质,进而使得资源供应机构对于资源获取用户的资源获取资质的审核效率和审核准确率得到提高。
进一步地,参照图3,图3本申请一种预设用户的资源获取资质生成方法第二实施例的流程示意图;基于上述预设用户的资源获取资质生成方法的第一实施例,提出本申请一种预设用户的资源获取资质生成方法第二实施例。
本实施例中,所述步骤S30具体包括:
步骤S301:分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词。
可理解的是,假设遍历到的当前类型参考文本集合为第一类型文本集合A,对于第一类型文本集合A(当前类型参考文本集合)中,总共获得的参考文本有m(k=1、2、3、4……m)个,本实施例首先分别对集合A中的每个参考文本进行分词处理;在对集合A中第m个参考文本进行分词处理时,获得当前处理的(第m个)新闻样本对应的具有词性标注的特征词集合{Tm}。… 继续遍历集合B和集合C,执行步骤S301按照相同的方法对集合B和集合C进行处理。
其中,所述对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词的方法,进一步包括:确定所述参考文本中的各个句子,将各个句子中的文字按照字频高低转为汉字数字序列;并按照字在词中的位置,将各个句子中的文字转化为对应的标签序列;将所述汉字数字序列按句输入到注意力模型(Attention Model)的字向量转化层中,以输出字向量矩阵;
采用梯度下降法mini-batch方式对所述字向量矩阵进行分块处理,将分块处理结果输入到所述注意力模型中,得到预测标签序列,其中,所述注意力模型包括编码层和解码层;将所述预测标签序列与所述注意力模型中的预设文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子(即目标语句),按空格分隔开,最终分词后的句子中的词语即为特征词,并对各个特征词进行词性标注操作,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词;本实施例能够更加快速准确地对篇幅较长的新闻文本进行分词得到分词结果,相对于现有技术来说,本实施例的分词处理更加高效。
步骤S302:对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词。
可理解的是,所述目标预设词类别为能够反应预设用户正负面信息的词汇类别;本实施例的预设用户的资源获取资质生成程序的开发人员会预先将能够反应企业正负面信息的名词、动词和形容词归类到不同的目标预设词类别中,并将归类后的能够反应企业正负面信息的名词、动词以及形容词作为目标特征词、以及所述目标特征词与所述目标预设词类别的映射关系保存到词汇库中;同时,在执行步骤S302时,会对步骤S302中得到的特征词进行分析,确定步骤S301中得到的特征词的词性后,再将该特征词与词汇库中预先存储的特征词进行匹配,如果该特征词能够与词汇库中的预存词语成功匹配,则说明该特征词属于能够反映预设用户的正负面信息的词汇,确认匹配出的预存词语属于哪个目标预设词类别,那么该特征词即为确认出的目标预设词类别的目标特征词。
步骤S303:计算所述目标特征词在所述当前类型参考文本集合中的权重值。
可理解的是,步骤S303的权重值为该目标特征词相对于预设用户来说能够所反映该预设用户正负面信息的重要程度值,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。该目标特征词在所述当前类型参考文本集合中的权重值越高,说明该目标特征词越能反映该企业舆情。
在具体实现中,可通过计算所述目标特征词在所述当前类型参考文本集合(集合a)中的逆文档频率来确定该目标特征词在当前类型参考文本集合中 (集合a)的权重值。逆文档频率是一种用于资讯检索与资讯探勘的常用加权术,如果某些指定词或短语在一篇文章中出现的频率高,但是这些指定词或短语在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。也就是说,本实施例中,如果某些指定目标特征词在其所属的当前参考文本文章中出现的频率高,但是在所述当前类型参考文本集合中的其他参考文本中很少出现,则说明该指定目标特征词的逆文档频率较高,该指定目标特征词具有很好的类别区分能力。基于逆文档频率可以更加准确地计算该目标特征词在所述当前类型参考文本集合中的权重值。…同理,在集合a的数据处理之后,然后执行步骤S50按照相同的方法对集合b和集合c进行处理。
步骤S304:根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数。
可理解的是,已知目标特征词肯定是一个能够反应预设用户的一企业信息类型的正负面信息的词汇,该目标特征词在所述当前类型参考文本集合中的权重值高,则该目标特征词表征该预设用户一企业信息类型的正面或者负面舆情指数越高,进而能够根据所述目标特征词的权重值测算所述预设用户的某一企业信息类型的舆情指数。
进一步地,参照图4,图4本申请一种预设用户的资源获取资质生成方法第三实施例的流程示意图;基于上述预设用户的资源获取资质生成方法的第二方法实施例,提出本申请一种预设用户的资源获取资质生成方法第三实施例。
本实施例中,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征为反映正面信息的词汇,所述第二预设词类别表征为反映负面信息的词汇;
所述步骤S302,具体包括:
步骤S032:对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词,根据分析结果获取属于第一预设词类别的第一目标特征词、以及属于第二预设词类别的第二目标特征词;
可理解的是,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征反映正面信息的词汇,所述第二预设词类别表征反映负面信息的词汇。
相应地,所述步骤S303,包括:
步骤S033:计算所述第一目标特征词在所述当前类型参考文本集合中的第一权重值;计算所述第二目标特征词在所述当前类型参考文本集合中的第二权重值;
在具体实现中,可通过上述第三实施例的公式(一)、公式(二)以及公式(三)计算第一目标特征词在所述当前类型参考文本集合中的第一权重值,以及所述第二目标特征词在所述当前类型参考文本集合中的第二权重值。
相应地,所述步骤S304,包括:
步骤S034:将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数。
在具体实现中,获取所述企业信息类型的多个风险级别区间;
根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
基于目标风险级别区间获取所述目标企业的当前舆情指数。
其中,所述步骤S304在具体实现中,可以首先获取所述企业信息类型的多个风险级别区间,其中所述风险级别区间可用是程序开发人员预先设置,程序开发人员可预先为所述目标企业的设置多个风险级别区间,每个风险级别区间表征一种负面舆情级别,可分为重大负面级别、一般负面级别、中性级别、一般正面级别、非常正面五类舆情风险级别;
然后根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
最后基于目标风险级别区间获取所述目标企业的当前舆情指数。
例如,本实施例的第一目标特征词在所述当前类型参考文本集合中的权重值越高,越能反映该企业正面舆情;而第二目标特征词在所述当前类型参考文本集合中的权重值越高,越能反映该企业负面舆情;可以设置第一目标特征词的权重值*50%减去所述第二目标特征词的权重值*30%,判断得到的差值在哪个风险级别区间,根据风险级别区间确定所述预设用户的一企业信息类型的当前舆情指数。通过将两个代表不同预设用户舆情的权重值进行比较,能够准确地测算出所资源获取预设用户对应的企业信息类型的舆情指数。
此外,参照图5,本申请还提出一种预设用户的资源获取资质生成装置,所述装置包括:
查询模块10,用于对预设用户的官方资源获取资质进行查询;
获取模块20,用于在所述官方资源获取资质为正常状态时,从网络信息源中分别获取所述预设用户与不同的企业信息类型相关的参考文本,得到不同类型的参考文本集合;
语义分析模块30,用于分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
生成模块40,用于在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述资源获取预设用户的当前资质。
可理解的是,本实施的预设用户的资源获取资质生成装置可以是一种计算机应用程序,该计算机应用程序装载在上述实施例的预设用户的资源获取资质生成设备中,所述用于预设用户的资源获取资质生成的设备可以是放贷机构工作人员使用的电脑主机或者智能手机。本申请预设用户的资源获取资质生成装置的具体实现方式可参照上述预设用户的资源获取资质生成方法实施例,此处不再赘述。
此外,本申请还提供一种计算机存储介质,所述计算机存储介质上存储有预设用户的资源获取资质生成程序,所述预设用户的资源获取资质生成程序被处理器执行时实现如上所述的预设用户的资源获取资质生成方法步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (21)

  1. 一种预设用户的资源获取资质生成方法,所述方法包括:
    对预设用户的官方资源获取资质进行查询;
    在所述官方资质为正常状态时,从网络信息源中分别获取所述预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;
    分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
    在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述预设用户的当前资质。
  2. 如权利要求1所述的方法,其中,所述分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
    分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词;
    对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;
    计算所述目标特征词在所述当前类型参考文本集合中的权重值;
    根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数;
    其中,所述对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词,包括:确定所述参考文本中的各个句子,将各个句子中的文字按照字频高低转为汉字数字序列;并按照字在词中的位置,将各个句子中的文字转化为对应的标签序列;将所述汉字数字序列按句输入到注意力模型的字向量转化层中,以输出字向量矩阵;
    采用梯度下降法对所述字向量矩阵进行分块处理,将分块处理结果输入到所述注意力模型中,得到预测标签序列;将所述预测标签序列与所述注意力模型中的预设文本语料的标签序列进行比对,按每个标签的含义合成目标语句,其中,所述目标语句中的词语即为特征词,并对各个特征词进行词性标注操作,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词。
  3. 如权利要求2所述的方法,其中,所述计算所述目标特征词在所述当前类型参考文本集合中的权重值的步骤,包括:
    计算所述目标特征词在对应的目标参考文本中的词频,所述目标参考文 本为包含所述目标特征词的参考文本;
    计算所述目标特征词在所述当前类型参考文本集合中的逆文档频率;
    根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在所述当前类型参考文本集合中的权重值。
  4. 如权利要求3所述的方法,其中,所述计算所述目标特征词在对应的目标参考文本中的词频的步骤,包括:
    通过以下公式(一)计算所述目标特征词在对应的目标参考文本中的词频,
    Figure PCTCN2020085847-appb-100001
    其中,tf i表示目标特征词T i在所述目标参考文本中的词频,n i表示词语T i在所述目标参考文本中的频次,n k为所述目标参考文本中第k个特征词的频次;
    所述计算所述目标特征词在所述参考文本集合中的逆文档频率的步骤,包括:
    通过以下公式(二)计算所述目标特征词在所述当前类型参考文本集合中的逆文档频率,
    Figure PCTCN2020085847-appb-100002
    其中,|D|表示所述当前类型参考文本集合中的参考文本的总数量;|d:t i∈d|表示所述当前类型参考文本集合中包括所述目标特征词T i的参考文本的总数量;idf i表示所述目标特征词T i在所述当前类型参考文本集合中的逆文档频率;
    所述根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在参考文本集合中的权重值,包括:
    通话以下公式(三)计算所述目标特征词在所述当前类型参考文本集合中的权重值,
    (tf/idf) i=tf i×idf i    公式(三)
    其中,(tf/idf) i表示目标特征词T i在所述当前类型参考文本集合中的权重值。
  5. 如权利要求4所述的方法,其中,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征为反映正面信息的词汇,所述第二预设词类别表征为反映负面信息的词汇;
    所述对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词的步骤,包括:
    对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所 述特征词中确定属于目标预设词类别的目标特征词,根据分析结果获取属于第一预设词类别的第一目标特征词、以及属于第二预设词类别的第二目标特征词;
    所述计算所述目标特征词在所述当前类型参考文本集合中的权重值的步骤,包括:
    计算所述第一目标特征词在所述当前类型参考文本集合中的第一权重值;
    计算所述第二目标特征词在所述当前类型参考文本集合中的第二权重值;
    所述根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
    将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数。
  6. 如权利要求5所述的方法,其中,所述将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
    获取所述企业信息类型的多个风险级别区间;
    根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
    基于目标风险级别区间获取所述目标企业的当前舆情指数。
  7. 如权利要求1所述的方法,其中,所述对商家的官方资源获取资质进行查询的步骤,具体包括:
    在检测到与目标数据库处于通讯状态时,从所述目标数据库中查询商家的官方资源获取资质。
  8. 一种预设用户的资源获取资质生成设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的预设用户的资源获取资质生成程序,所述预设用户的资源获取资质生成程序配置为实现如下步骤:
    对预设用户的官方资源获取资质进行查询;
    在所述官方资质为正常状态时,从网络信息源中分别获取所述预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;
    分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
    在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述预设用户的当前资质。
  9. 如权利要求8所述的设备,其中,所述分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
    分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词;
    对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;
    计算所述目标特征词在所述当前类型参考文本集合中的权重值;
    根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数;
    其中,所述对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词,包括:确定所述参考文本中的各个句子,将各个句子中的文字按照字频高低转为汉字数字序列;并按照字在词中的位置,将各个句子中的文字转化为对应的标签序列;将所述汉字数字序列按句输入到注意力模型的字向量转化层中,以输出字向量矩阵;
    采用梯度下降法对所述字向量矩阵进行分块处理,将分块处理结果输入到所述注意力模型中,得到预测标签序列;将所述预测标签序列与所述注意力模型中的预设文本语料的标签序列进行比对,按每个标签的含义合成目标语句,其中,所述目标语句中的词语即为特征词,并对各个特征词进行词性标注操作,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词。
  10. 如权利要求9所述的设备,其中,所述计算所述目标特征词在所述当前类型参考文本集合中的权重值的步骤,包括:
    计算所述目标特征词在对应的目标参考文本中的词频,所述目标参考文本为包含所述目标特征词的参考文本;
    计算所述目标特征词在所述当前类型参考文本集合中的逆文档频率;
    根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在所述当前类型参考文本集合中的权重值。
  11. 如权利要求10所述的设备,其中,所述计算所述目标特征词在对应的目标参考文本中的词频的步骤,包括:
    通过以下公式(一)计算所述目标特征词在对应的目标参考文本中的词频,
    Figure PCTCN2020085847-appb-100003
    其中,tf i表示目标特征词T i在所述目标参考文本中的词频,n i表示词语T i在所述目标参考文本中的频次,n k为所述目标参考文本中第k个特征词的频次;
    所述计算所述目标特征词在所述参考文本集合中的逆文档频率的步骤,包括:
    通过以下公式(二)计算所述目标特征词在所述当前类型参考文本集合中的逆文档频率,
    Figure PCTCN2020085847-appb-100004
    其中,|D|表示所述当前类型参考文本集合中的参考文本的总数量;|d:t i∈d|表示所述当前类型参考文本集合中包括所述目标特征词T i的参考文本的总数量;idf i表示所述目标特征词T i在所述当前类型参考文本集合中的逆文档频率;
    所述根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在参考文本集合中的权重值,包括:
    通话以下公式(三)计算所述目标特征词在所述当前类型参考文本集合中的权重值,
    (tf/idf) i=tf i×idf i    公式(三)
    其中,(tf/idf) i表示目标特征词T i在所述当前类型参考文本集合中的权重值。
  12. 如权利要求11所述的设备,其中,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征为反映正面信息的词汇,所述第二预设词类别表征为反映负面信息的词汇;
    所述对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词的步骤,包括:
    对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词,根据分析结果获取属于第一预设词类别的第一目标特征词、以及属于第二预设词类别的第二目标特征词;
    所述计算所述目标特征词在所述当前类型参考文本集合中的权重值的步骤,包括:
    计算所述第一目标特征词在所述当前类型参考文本集合中的第一权重值;
    计算所述第二目标特征词在所述当前类型参考文本集合中的第二权重值;
    所述根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
    将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数。
  13. 如权利要求12所述的设备,其中,所述将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
    获取所述企业信息类型的多个风险级别区间;
    根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
    基于目标风险级别区间获取所述目标企业的当前舆情指数。
  14. 如权利要求8所述的设备,其中,所述对商家的官方资源获取资质进行查询的步骤,具体包括:
    在检测到与目标数据库处于通讯状态时,从所述目标数据库中查询商家的官方资源获取资质。
  15. 一种计算机存储介质,所述计算机存储介质存储有预设用户的资源获取资质生成程序,所述预设用户的资源获取资质生成程序配置为实现如下步骤:
    对预设用户的官方资源获取资质进行查询;
    在所述官方资质为正常状态时,从网络信息源中分别获取所述预设用户对应不同的企业信息类型的参考文本,得到不同类型的参考文本集合;
    分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数;
    在对所述不同类型的参考文本集合遍历完毕之后,根据不同的企业信息类型的舆情指数生成所述预设用户的当前资质。
  16. 如权利要求15所述的计算机存储介质,其中,所述分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行语义分析,根据语义分析结果获取所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
    分别对不同类型的参考文本集合进行遍历,对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词;
    对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词;
    计算所述目标特征词在所述当前类型参考文本集合中的权重值;
    根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数;
    其中,所述对遍历到的当前类型参考文本集合中的每个参考文本进行分词处理,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词,包括:确定所述参考文本中的各个句子,将各个句子中的文字按照字频高低转为汉字数字序列;并按照字在词中的位置,将各个句子中的文字转化为对应的标签序列;将所述汉字数字序列按句输入到注意力模型的字向量转化层中,以输出字向量矩阵;
    采用梯度下降法对所述字向量矩阵进行分块处理,将分块处理结果输入到所述注意力模型中,得到预测标签序列;将所述预测标签序列与所述注意 力模型中的预设文本语料的标签序列进行比对,按每个标签的含义合成目标语句,其中,所述目标语句中的词语即为特征词,并对各个特征词进行词性标注操作,使得所述当前类型参考文本集合中的每个参考文本具有多个不同词性的特征词。
  17. 如权利要求16所述的计算机存储介质,其中,所述计算所述目标特征词在所述当前类型参考文本集合中的权重值的步骤,包括:
    计算所述目标特征词在对应的目标参考文本中的词频,所述目标参考文本为包含所述目标特征词的参考文本;
    计算所述目标特征词在所述当前类型参考文本集合中的逆文档频率;
    根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在所述当前类型参考文本集合中的权重值。
  18. 如权利要求17所述的计算机存储介质,其中,所述计算所述目标特征词在对应的目标参考文本中的词频的步骤,包括:
    通过以下公式(一)计算所述目标特征词在对应的目标参考文本中的词频,
    Figure PCTCN2020085847-appb-100005
    其中,tf i表示目标特征词T i在所述目标参考文本中的词频,n i表示词语T i在所述目标参考文本中的频次,n k为所述目标参考文本中第k个特征词的频次;
    所述计算所述目标特征词在所述参考文本集合中的逆文档频率的步骤,包括:
    通过以下公式(二)计算所述目标特征词在所述当前类型参考文本集合中的逆文档频率,
    Figure PCTCN2020085847-appb-100006
    其中,|D|表示所述当前类型参考文本集合中的参考文本的总数量;|d:t i∈d|表示所述当前类型参考文本集合中包括所述目标特征词T i的参考文本的总数量;idf i表示所述目标特征词T i在所述当前类型参考文本集合中的逆文档频率;
    所述根据所述目标特征词的词频以及所述目标特征词的逆文档频率计算所述目标特征词在参考文本集合中的权重值,包括:
    通话以下公式(三)计算所述目标特征词在所述当前类型参考文本集合中的权重值,
    (tf/idf) i=tf i×idf i    公式(三)
    其中,(tf/idf) i表示目标特征词T i在所述当前类型参考文本集合中的权重 值。
  19. 如权利要求18所述的计算机存储介质,其中,所述目标预设词类别包括第一预设词类别和第二预设词类别,所述第一预设词类别表征为反映正面信息的词汇,所述第二预设词类别表征为反映负面信息的词汇;
    所述对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词的步骤,包括:
    对所述当前类型参考文本集合中的多个所述特征词进行分析,从多个所述特征词中确定属于目标预设词类别的目标特征词,根据分析结果获取属于第一预设词类别的第一目标特征词、以及属于第二预设词类别的第二目标特征词;
    所述计算所述目标特征词在所述当前类型参考文本集合中的权重值的步骤,包括:
    计算所述第一目标特征词在所述当前类型参考文本集合中的第一权重值;
    计算所述第二目标特征词在所述当前类型参考文本集合中的第二权重值;
    所述根据所述目标特征词的权重值测算所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
    将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数。
  20. 如权利要求19所述的计算机存储介质,其中,所述将所述第一权重值与所述第二权重值进行比较,根据比较结果测算所述当前类型参考文本集合对应的企业信息类型的舆情指数的步骤,包括:
    获取所述企业信息类型的多个风险级别区间;
    根据所述第一权重值与所述第二权重值之间的差值,从所述多个风险级别区间中获取对应的目标风险级别区间;
    基于目标风险级别区间获取所述目标企业的当前舆情指数。
  21. 如权利要求15所述的计算机存储介质,其中,所述对商家的官方资源获取资质进行查询的步骤,具体包括:
    在检测到与目标数据库处于通讯状态时,从所述目标数据库中查询商家的官方资源获取资质。
PCT/CN2020/085847 2019-06-19 2020-04-21 预设用户的资源获取资质生成方法及相关设备 WO2020253353A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910540026.8A CN110377809A (zh) 2019-06-19 2019-06-19 预设用户的资源获取资质生成方法及相关设备
CN201910540026.8 2019-06-19

Publications (1)

Publication Number Publication Date
WO2020253353A1 true WO2020253353A1 (zh) 2020-12-24

Family

ID=68250598

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/085847 WO2020253353A1 (zh) 2019-06-19 2020-04-21 预设用户的资源获取资质生成方法及相关设备

Country Status (2)

Country Link
CN (1) CN110377809A (zh)
WO (1) WO2020253353A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554411A (zh) * 2021-06-28 2021-10-26 北京来也网络科技有限公司 结合rpa和ai的企业资质申报的处理方法及装置
CN114299520A (zh) * 2021-12-29 2022-04-08 福建亿力电力科技有限责任公司 一种基于双模型融合的供应商资质审核方法和审核装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377809A (zh) * 2019-06-19 2019-10-25 深圳壹账通智能科技有限公司 预设用户的资源获取资质生成方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
CN107463616A (zh) * 2017-07-03 2017-12-12 上海凡响网络科技有限公司 一种企业信息分析方法及系统
CN107688594A (zh) * 2017-05-05 2018-02-13 平安科技(深圳)有限公司 基于社交信息的风险事件的识别系统及方法
WO2019024496A1 (zh) * 2017-08-04 2019-02-07 平安科技(深圳)有限公司 企业推荐方法及应用服务器
CN110377809A (zh) * 2019-06-19 2019-10-25 深圳壹账通智能科技有限公司 预设用户的资源获取资质生成方法及相关设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688594A (zh) * 2017-05-05 2018-02-13 平安科技(深圳)有限公司 基于社交信息的风险事件的识别系统及方法
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
CN107463616A (zh) * 2017-07-03 2017-12-12 上海凡响网络科技有限公司 一种企业信息分析方法及系统
WO2019024496A1 (zh) * 2017-08-04 2019-02-07 平安科技(深圳)有限公司 企业推荐方法及应用服务器
CN110377809A (zh) * 2019-06-19 2019-10-25 深圳壹账通智能科技有限公司 预设用户的资源获取资质生成方法及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554411A (zh) * 2021-06-28 2021-10-26 北京来也网络科技有限公司 结合rpa和ai的企业资质申报的处理方法及装置
CN114299520A (zh) * 2021-12-29 2022-04-08 福建亿力电力科技有限责任公司 一种基于双模型融合的供应商资质审核方法和审核装置

Also Published As

Publication number Publication date
CN110377809A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
US20210224693A1 (en) Systems and Methods for Predictive Coding
US20170235820A1 (en) System and engine for seeded clustering of news events
US8103678B1 (en) System and method for establishing relevance of objects in an enterprise system
US20130218644A1 (en) Determination of expertise authority
US20200250212A1 (en) Methods and Systems for Searching, Reviewing and Organizing Data Using Hierarchical Agglomerative Clustering
CN111651552B (zh) 结构化信息确定方法、装置和电子设备
US11775504B2 (en) Computer estimations based on statistical tree structures
WO2020253353A1 (zh) 预设用户的资源获取资质生成方法及相关设备
CN113590945B (zh) 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
CA2956627A1 (en) System and engine for seeded clustering of news events
CN115630144B (zh) 一种文档搜索方法、装置及相关设备
Zheng et al. Algorithm for recommending answer providers in community-based question answering
CN115374354A (zh) 基于机器学习的科技服务推荐方法、装置、设备及介质
CN116109373A (zh) 金融产品的推荐方法、装置、电子设备和介质
CN110532229B (zh) 证据文件检索方法、装置、计算机设备和存储介质
CN118396786A (zh) 合同文档审核方法和装置、电子设备及计算机可读存储介质
CN111126073B (zh) 语义检索方法和装置
Liang et al. Detecting novel business blogs
US9069858B1 (en) Systems and methods for identifying entity mentions referencing a same real-world entity
CN115062110A (zh) 文本处理方法、装置、电子设备和介质
CN113672703A (zh) 一种用户信息的更新方法、装置、设备及存储介质
CN113095078A (zh) 关联资产确定方法、装置和电子设备
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质
US10824681B2 (en) Enterprise resource textual analysis
CN113177116B (zh) 信息展示方法及装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20826085

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20826085

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 29/03/2022)

122 Ep: pct application non-entry in european phase

Ref document number: 20826085

Country of ref document: EP

Kind code of ref document: A1