WO2015123950A1 - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
WO2015123950A1
WO2015123950A1 PCT/CN2014/080799 CN2014080799W WO2015123950A1 WO 2015123950 A1 WO2015123950 A1 WO 2015123950A1 CN 2014080799 W CN2014080799 W CN 2014080799W WO 2015123950 A1 WO2015123950 A1 WO 2015123950A1
Authority
WO
WIPO (PCT)
Prior art keywords
entity
name
knowledge base
attributes
information
Prior art date
Application number
PCT/CN2014/080799
Other languages
English (en)
French (fr)
Inventor
张�杰
张轶博
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2015123950A1 publication Critical patent/WO2015123950A1/zh
Priority to US14/988,959 priority Critical patent/US20160117405A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/235Update request formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences

Definitions

  • the present invention relates to the field of information processing technologies, and in particular, to an information processing method and apparatus. Background technique
  • Social media also known as social media, refers to websites that allow people to write, share, evaluate, discuss, and communicate with each other, such as Facebook, Weibo, and so on.
  • social media has gradually evolved into a popular platform for public opinion. More and more organizations and public figures use social media to publish or disseminate information. Therefore, social media has become an important way for users to obtain information.
  • an existing solution is to use a keyword (word) input by a user on social media to display a list of information related to the input keyword (word) to the user, after which the user can Select the information you need from the list of messages.
  • the information in the information list searched after inputting keywords (words) by using the prior art tends to be more, and the user needs to select the information that he needs from the multiple pieces of information in the information list, thereby making the user It's not very convenient to get the information you need.
  • the present invention provides an information processing method and apparatus for facilitating users to obtain information that they need.
  • the embodiment of the present invention adopts the following technical solutions:
  • the present invention provides an information processing method, including:
  • search condition input by a user, where the search condition includes a name of the entity
  • a target triplet including a name of the entity according to a name of the entity, the target triplet further including an attribute of the entity and an attribute of the attribute Value
  • a name of the entity, an attribute of the entity, and an attribute value of the attribute are displayed.
  • the foregoing before selecting a target triplet including a name of the entity from a pre-created knowledge base according to a name of the entity, the method also includes:
  • the knowledge base is created using information published on social media.
  • the creating the knowledge base by using the information posted on the social media specifically includes:
  • the knowledge base is created using the triplet containing the entity's name, attributes, and attribute values.
  • the generating a triplet including the name, the attribute, and the attribute value of the entity includes: using a mode extractor The name, attribute, and attribute value of the entity are set into a preset template, and a triplet containing the name, attribute, and attribute value of the entity is generated according to the template.
  • the method further includes:
  • the triple containing the name, attributes, and attribute values of the entity is verified using a pre-defined pattern specification.
  • the method further includes:
  • the updating the knowledge base in real time specifically includes: Get real-time information published on social media;
  • the knowledge base is updated by using a new triplet composed of the entity name, the attribute, and the attribute value in the information;
  • the new triplet composed of the entity name, the attribute, and the attribute value in the information is stored in the knowledge base to update the knowledge base.
  • the search condition further includes an attribute of the entity,
  • the name of the entity, the target triplet including the name of the entity is selected from the pre-created knowledge base, and the target triplet further includes the attribute of the entity and the attribute values of the attribute include:
  • a target triplet including a name of the entity and an attribute of the entity according to a name of the entity and an attribute of the entity, the target triplet further including the attribute Property value.
  • the present invention provides an information processing apparatus, including:
  • An obtaining unit configured to acquire a search condition input by a user, where the search condition includes a name of the entity
  • a selection unit configured to be connected to the acquiring unit, configured to select, according to the name of the entity, a target triplet including a name of the entity from a pre-created knowledge base, where the target triplet further includes the entity Attributes and attribute values of the attributes;
  • a display unit connected to the selection unit, for displaying a name of the entity, an attribute of the entity, and an attribute value of the attribute.
  • the device further includes:
  • a knowledge base creation unit is coupled to the selection unit for creating the knowledge base using information published on social media.
  • the knowledge base creating unit includes:
  • a subunit is created, coupled to the generating subunit, for creating the knowledge base by using a triplet generated by the generating subunit including a name, an attribute, and an attribute value of the entity.
  • the generating subunit is specifically configured to:
  • the schema extractor is used to set the name, attribute, and attribute value of the entity into a preset template, and a triplet containing the name, attribute, and attribute value of the entity is generated according to the template.
  • the knowledge base creating unit further includes:
  • a parity subunit is coupled to the generation subunit and the creation subunit for performing verification using a triple of pre-attribute values.
  • the knowledge base creating unit further includes:
  • the updating subunit includes:
  • a determining module configured to be connected to the acquiring module, configured to determine whether an existing entity name in the knowledge base exists in the information acquired by the acquiring module;
  • An update module configured to be connected to the determining module, configured to use the entity name, the attribute, and the attribute value in the information when the determining module determines that the existing entity name in the knowledge base exists in the information
  • the new triplet updates the knowledge base; when the determining module determines that the entity name not included in the knowledge base exists in the information, the new name of the entity name, the attribute, and the attribute value in the information is composed
  • a triple is stored in the knowledge base to update the knowledge base.
  • the search condition acquired by the acquiring unit further includes the entity Attributes
  • the selecting unit is specifically configured to:
  • a target triplet including a name of the entity and an attribute of the entity according to a name of the entity and an attribute of the entity, the target triplet further including the attribute Property value.
  • the information processing method and device provided by the embodiment of the present invention acquires a target triplet related to the search condition from a pre-created knowledge base according to the search condition, and then displays the target three Tuple information. Since the information of the target triplet is displayed to the user according to the search condition input by the user, the prior art displays the list containing the plurality of pieces of information according to the search condition input by the user, so compared with the prior art.
  • the information processing method and apparatus provided by the embodiments of the present invention can avoid the defects that the user needs to select from a plurality of pieces of information when acquiring the information that is needed by the user, thereby facilitating the user to obtain the information that is needed by the user.
  • FIG. 1 is a flowchart of an information processing method according to an embodiment of the present invention.
  • FIG. 2 is a flowchart of an information processing method according to Embodiment 2 of the present invention
  • 3 is a schematic diagram of information posted by a user on a social media website
  • step 21 is a flowchart of specific steps of step 21 in the embodiment of the present invention.
  • FIG. 5 is a schematic diagram of an information processing process in Embodiment 2 of the present invention.
  • FIG. 6 is a structural diagram of an information processing apparatus according to a third embodiment of the present invention.
  • Figure ⁇ is a schematic diagram of an information processing apparatus according to a third embodiment of the present invention.
  • FIG. 8 is another schematic diagram of an information processing apparatus according to Embodiment 3 of the present invention.
  • FIG. 9 is a schematic structural diagram of an information processing device according to Embodiment 4 of the present invention.
  • the first embodiment of the present invention provides an information processing method, including:
  • Step 1 Obtain a search condition input by the user, where the search condition includes the name of the entity.
  • the search condition may be a search keyword, a keyword or a question statement input by the user on the user query interface of the social media in order to obtain the information that the user needs, for example, in the XX network.
  • the search condition often contains an entity, and the entity has many features, such as the name, attribute, and attribute value of the entity.
  • entity is objects that exist objectively and can be distinguished from each other. They can be specific people, things, things, or abstract concepts or connections. Among them, an entity can be identified by the name of the entity. The nature of an entity or the relationship between that entity and other entities can be referred to as an attribute of an entity. The attribute value is the quality or quantity that exactly represents an entity attribute.
  • an entity in the search condition is referred to as a target entity.
  • the search The condition includes the information of the target entity, such as the name, attribute, and attribute value of the target entity.
  • the search condition may include only one of a name, an attribute, and an attribute value of the target entity; in most cases, the search condition may only include the target entity name. For example, if the user wants to obtain information about the entity "Yao Ming", then the search condition may only contain the name of the entity "Yao Ming".
  • the search condition usually includes a combination of any two of the name, the attribute, and the attribute value of the target entity, that is, only Include the name and attribute of the target entity, or only the name and attribute value of the target entity, or only the attributes and attribute values of the target entity, and the remaining names, attributes, and attribute values of the target entity
  • the next one is the information that the user needs to obtain. For example, if the search condition is "How tall is Yao Ming?", then the search condition includes only the name of the target entity "Yao Ming" and the attribute "height" of the target entity, and the attribute value of the target entity is The information the user needs to obtain.
  • Step 12 Select, according to the name of the entity, a target triplet including a name of the entity from a pre-created knowledge base, where the target triplet further includes an attribute of the entity and an attribute value of the attribute .
  • the pre-created knowledge base stores a plurality of triples including the name, the attribute, and the attribute value of the entity, where the "attribute” may be "attribute name” or "relationship name”.
  • the form of the triple can be (entity, attribute name, attribute value), for example (Yao Ming, height, 2.26 meters), (Xiangshan, number of people, not much) Etc.
  • the form of the triple can be (entity, relationship name, attribute value), for example (Xie Weifeng, father, Xie Xian).
  • the target triplet includes information related to the target entity in the search condition Entity name, attribute, and attribute value.
  • the search condition input by the user is "What is the height of Yao Ming?".
  • the target entity in the search condition is identified.
  • the result of the recognition is: the target entity name is "Yao Ming", and the target entity's attribute is "height"; then the target entity name "Yao Ming” and the target entity are selected from the knowledge base.
  • the attribute "height" is related to the triple, which is the triple containing "Yao Ming" and "Height". If the triad associated with "Yao Ming" and "Height" in the knowledge base is (Yao Ming, height, 2. 26 meters), then the triad (Yao Ming, height, 2. 26 meters) is the target three here. Tuple.
  • the identification of the target entity may be implemented by using a method for identifying a named entity in the prior art.
  • Step 13 Display a name of the entity, an attribute of the entity, and an attribute value of the attribute.
  • the step is specifically: displaying the target triplet; or displaying a name of an entity corresponding to the search condition according to the search condition; or displaying and speaking according to the search condition Searching for an attribute of the entity corresponding to the condition; or displaying an attribute value of the entity corresponding to the search condition according to the search condition.
  • the search condition is "How tall is Yao Ming?"
  • the target triplet selected from the pre-created knowledge base is "Yao Ming's height?” (Yao Ming, height, 2. 26 m)
  • the target triad (Yao Ming, height, 2. 26 m) can be displayed to the user.
  • "What is the height of Yao Ming?” It can be known that the information required by the user is only the attribute value in the target triple (Yao Ming, height, 2.26 meters), ie 2.26 meters. It can only display 2.26 meters to the user.
  • Another example is if the user enters "Whose father is Xie Xian?". If the target triplet selected from the pre-created knowledge base related to the search condition "Who's father is Xie Xian?" is (Xie Yufeng, father, Xie Xian), the target triad can be displayed to the user (Xie Weifeng, father, Xie Xian). Or, according to the search criteria "Who's father is Xie Xian?" You can know that the information the user needs is only the target triplet.
  • the information processing method provided by the first embodiment of the present invention is used for obtaining
  • the search condition input by the user selects a target triplet related to the search condition from the pre-created knowledge base according to the search condition, and then displays the information of the target triplet. Since the information of the target triplet is displayed to the user according to the search condition input by the user, the prior art displays the list containing the plurality of pieces of information according to the search condition input by the user, so compared with the prior art.
  • the information processing method provided by the embodiment of the present invention can avoid the defect that the user needs to select from a plurality of pieces of information when acquiring the information that is needed by the user, thereby facilitating the user to obtain the information that is needed by the user.
  • the information processing method of the present invention will be described in more detail in the second embodiment of the present invention. As shown in FIG. 2, the information processing method provided in Embodiment 2 of the present invention includes:
  • Step 21 Create a knowledge base using information published on social media.
  • the information published on the social media refers to information published by the user on the website of the social media, such as the information shown in the screenshot of FIG.
  • this step specifically includes:
  • Step 211 Extract the names, attributes, and attribute values of the entities in the information published on the social media.
  • the information published on the social media may be obtained through a crawler or an API (Application Programming Interface), and the schema extractor in advance offline training obtains the entity name, attributes, and attributes in the information. value. It should be noted that the names, attributes, and attribute values of the entities described in this step are obtained online.
  • the specific implementation manner of obtaining the name, attribute, and attribute value of the entity by using the mode extractor is as follows: First, an existing tagged corpus on the network or an existing structured knowledge base (such as Baidu Encyclopedia) Infox), as a training material of the pattern extractor, obtains a plurality of triples from the training materials, and then returns the triples to the corpus of natural language text as training data. A statistical machine learning algorithm (such as CRF (Conditional Random Fields)) is then used to train a separate attribute pattern classifier for each attribute from the training data. Finally, the mode extractor can utilize the attribute pattern classifier from the information published on the social media. Extract the name, attributes, and attribute values of the entity.
  • an existing tagged corpus on the network or an existing structured knowledge base such as Baidu Encyclopedia) Infox
  • Step 212 Generate a triple containing the name, attribute, and attribute value of the entity.
  • the schema extractor may be used to set the name, attribute, and attribute value of the entity to a preset template, and generate a triplet containing the entity's name, attribute, and attribute value according to the template.
  • the name, the attribute, and the natural language text corresponding to the attribute value may be found in the corpus in advance, thereby generating a corresponding attribute template for each entity.
  • Each entity can have multiple attribute templates.
  • the attribute templates are (person name, height, number), (name of attraction, number of people, number), and the like.
  • the attribute template is the preset template here.
  • Steps 21 1 and 212 will be described below by way of example.
  • the message published on social media is “Yao Ming, who is 2.26 meters tall. Born in Shanghai, China on September 12, 1980, he was born in Wujiang District, Jiangsu City, Jiangsu province, and graduated from Shanghai Jiaotong University.”
  • the name of the entity is only “Yao Ming”
  • the attributes of the entity are “height”, “date of birth”, “place of birth”, “ancestral home”, “graduation school”, and the attribute values corresponding to these attributes are respectively " 2. 26 meters “, “September 12, 1980”, “Shanghai, China”, “Wujiang District, Suzhou, Jiangsu”, “Shanghai Jiaotong University”.
  • the schema extractor can be used to load the entity name attribute and attribute value into the preset template. Since the attributes of the entity in this example and the attribute values corresponding to each attribute are multiple, there are multiple preset templates that need to be used.
  • the preset template described in this example can be (personal name, height, number), (personal name, date of birth, date), (personal name, place of birth, place name), (personal name, ancestral home, place name), (personal name, graduation) School, school name).
  • a triple containing the name, attribute, and attribute value of the entity is generated (Yao Ming, height, 2. 26). M), (Yao Ming, date of birth, September 12, 1980), (Yao Ming, birthplace, Shanghai, China), (Yao Ming, ancestral home, Wujiang District, Suzhou, Jiangsu), (Yao Ming, graduate school, Shanghai Jiaotong University).
  • multiple triples can be obtained using information published on social media. Although there is only one name for the entity in this example, it is not difficult to imagine that in practice, there may be more than one name for the entity published on the social media. In this case, the corresponding three can be generated for each entity. Tuple.
  • Step 213 Verify the triplet containing the name, attribute, and attribute value of the entity by using a schema spec if ica t ion.
  • the verifying the triplet by using the pre-established mode specification mainly uses the mode specification to verify whether the information of the triplet generated in step 212 is logical, or is correct, only The verified triples can be stored in the knowledge base.
  • the triplet generated in step 212 is (Yao Ming, height, 2.26 cm) generated by using the information published on the social media, the result is verified by using the mode specification, and the result is not for this triplet. Logical, which is an incorrect triple, so you don't need to store the triple in the created knowledge base.
  • the name, the attribute and the expression of the attribute value can be disambiguated, that is, when The entity name obtained from the information published on a social media is A, the attribute is B, the attribute value is C, and the entity name obtained from another piece of information published on social media is Al, the attribute is Bl, and the attribute value is For C1, and A and A1 refer to the same entity, B and B1 refer to the same attribute, and C and C1 refer to the same attribute value, the triplet generated according to the two pieces of information can be stored. For (A, B, C).
  • Step 214 Create the knowledge base by using a triplet that includes the name, the attribute, and the attribute value of the entity.
  • the verified triplet in step 21 3 may be stored, for example, stored in an internal memory or a hard disk, thereby completing the creation of the knowledge base.
  • step 121 and step 212 it is generated (Yao Ming, height, 2.26 meters), (Yao Ming, date of birth, September 12, 1980), (Yao Ming, birthplace, Shanghai, China) ) (Yao Ming, ancestral home, Wujiang District, Suzhou, Jiangsu province), (Yao Ming, graduate school, Shanghai Jiaotong University)
  • the five ternary groups were verified using the model specification. After the verification, the five triples can be stored in the memory to create the knowledge base.
  • the triplet in the knowledge base may also be classified according to the category of the entity, for example, the ternary component in the knowledge base may be a character, an animal, a plant, a commodity, etc. according to the category of the entity. category. The above five triads belong to the category of characters.
  • Step 22 Update the knowledge base in real time.
  • the step is specifically: obtaining the posted information from the social media according to a preset time interval, and determining whether the existing entity name in the knowledge base exists in the information. If the entity name existing in the knowledge base exists in the information, the knowledge base is updated by using a new triplet composed of the entity name, the attribute, and the attribute value in the information; if the information exists The entity name not included in the knowledge base stores a new triplet composed of the entity name, the attribute, and the attribute value in the information into the knowledge base to update the knowledge base.
  • the preset time interval may be set according to a specific situation, and the purpose is to acquire information published on social media in real time. For example, the preset time interval can be set to 1 second.
  • the triples generated using the information published on social media are (Andy Lau, concert, 9 Q field), and have been stored in the knowledge base, and the real-time acquisition is sent on social media.
  • the information of the cloth is: "Andy Lau will open the 100th concert in "
  • the triad generated by this information is (Andy Lau, concert, 100 games), and it can be seen that the information exists in the knowledge base.
  • Some entities have the name "Andy Lau”, so the triad (Andy Lau, concert, 100 games) can be stored in the knowledge base, and the original triad (Andy Lau, concert, 90 games) is deleted. Update the knowledge base.
  • the knowledge base is updated by using a new triplet composed of an entity name, an attribute, and an attribute value in the information.
  • a new triplet composed of an entity name, an attribute, and an attribute value in the information.
  • the first case is:
  • the name of the entity in the original triple in the knowledge base is the same as the name of the triple (hereinafter referred to as the new triple) extracted from the information published on the social media in real time.
  • the original ternary The entity attribute in the group is the same as the attribute of the new triple.
  • the original triple and the new triple have only the attribute values of the entity.
  • the new triple can be stored in the knowledge base instead of the original triple. To update the knowledge base. If used (Andy Lau, concert, 100 games) instead (Andy Lau, concert, 90 games) is stored in the knowledge base.
  • the second case is: although the existing entity name in the knowledge base may exist in the information, the original triplet is different from the entity attribute in the new triplet.
  • a new triple consisting of an entity name, an attribute, and an attribute value updates the knowledge base as: storing the new triplet in the knowledge base.
  • the information generated by the triad is also (Andy Lau, Birthplace, Hong Kong), although the original triple is the same as the entity name in the new triple, but because of the attributes and knowledge base of the triple The properties of the triples are different, so it is also necessary to store the triples in the knowledge base to update the knowledge base.
  • Step 23 Obtain the search condition input by the user.
  • the information of the entity that needs to be searched is obtained from the search condition, and the information of the entity may be the name of the entity, or the name of the entity and the attribute of the entity.
  • step 1 1 refers to the description in step 1 1 of the embodiment of the present invention, and details are not described herein again.
  • Step 24 Select a target triplet related to the search condition from the knowledge base.
  • the selecting a target triplet related to the search condition from the knowledge base may be: selecting, according to the name of the entity, a target triplet including a name of the entity from a pre-created knowledge base.
  • the target triplet also includes attributes of the entity and attribute values of the attributes.
  • the selecting a target triplet related to the search condition from the knowledge base may also be: selecting, according to the name of the entity and an attribute of the entity, a name including the entity from a pre-created knowledge base. And the entity attribute target triplet, the target triplet further including an attribute value of the attribute.
  • step 21 if the search condition input by the user in step 23 is "Where is Yao Ming's birth place?", when the target triplet is selected in the knowledge base, Whether or not the target triples have been selected can be classified according to whether the triples in the knowledge base have been classified.
  • the classification of the triples in the knowledge base may be selected first, and the search conditions are first selected. In this category of entities related to the entity, select the target triplet (Yao Ming, birthplace, Shanghai, China) from the character category.
  • the entity name, attribute or attribute value in the search condition may be used in the knowledge base.
  • a target triplet associated with the search criteria is selected. For example, taking the above example as an example, According to the search condition, the name of the entity "Yao Ming" and the attribute "birthplace”, when the target triplet is selected in the knowledge base, selects from the plurality of triples of the knowledge base to contain '4 trillion The "three-tuple” of Ming and "place of birth” is used as the target triad, namely (Yao Ming, birthplace, Shanghai, China).
  • Step 25 Display information of the target triplet.
  • step 13 of the embodiment of the present invention For details, refer to the description in step 13 of the embodiment of the present invention, and details are not described herein again.
  • the user can be displayed (Yao Ming, birthplace, Shanghai, China), or only Shanghai, China.
  • Fig. 5 schematically shows the information processing procedure of steps 21 - 25.
  • the information processing method in the second embodiment of the present invention is mainly divided into four parts, which are respectively shown in the virtual line frames 1-4.
  • the dashed box 1 is the first part, showing the process of getting information from social media. That is, the crawler is used to obtain information on the social media, wherein the information mainly includes two parts, one is a user's information published on social media (Content), and the other part is a user's query on the social media. Search criteria entered on the interface ( Search criteria ).
  • the dotted box 1 is the second part, showing how the pattern extractor extracts the triples from the information published on the social media, that is, the existing knowledge triples are obtained from the Corpus. These triples are then returned to the corpus of natural language text for Pattern Learner, and each attribute is trained with a separate attribute pattern classifier ( Attribute patterns ).
  • the pattern extractor (Extractor ) uses attribute pattern classification. Attribute patterns extract triples (not shown) from information published on social media.
  • the dashed box 3 is the third part, showing the process of patterning the triples extracted by the mode extractor, that is, using the pre-defined schema specification (Schema Specif Icat ion) to perform pattern insurance on the triplet. (Schema checker ), through the triad of school insurance, is stored in the knowledge base (KB), thus completing the creation of the knowledge base (KB).
  • the dashed box 4 is the fourth part, showing the process of obtaining the information the user needs by using the created knowledge base and the search criteria obtained in the first part.
  • entity identification Ent ty recognizer
  • KB knowledge base
  • entity identification Ent ty recognizer
  • the information of the triples corresponding to the entity is displayed to the user, so that the user obtains the information that he needs.
  • the entity identification Ent ty recognizer
  • the search condition further includes an attribute of the entity
  • the target triplet including the name of the entity is selected from the pre-created knowledge base according to the name of the entity
  • the target triplet further includes an attribute of the entity and an attribute value of the attribute, including: the name of the entity and the attribute of the entity, and selecting, from a pre-created knowledge base, the entity that includes the entity a name and the entity attribute target triplet, the target triplet further including an attribute value of the attribute; displaying a name of the entity, an attribute of the entity, and an attribute value of the attribute.
  • the information processing method provided by the second embodiment of the present invention when the user obtains the information he needs from the information published on the social media, after inputting the search condition, the information of the target triplet can be displayed.
  • the information processing method provided by the second embodiment of the present invention can prevent the user from obtaining the information that is needed by the user, according to the search condition input by the user. It also needs to select more troublesome defects from multiple pieces of information, so that users can get the information they need.
  • the generated triplet can also be verified.
  • the verified triplet can be stored in the knowledge base, thereby ensuring the correctness of the triplet in the knowledge base, thereby ensuring the correctness of the information displayed to the user's triplet, so that the user Get the right information.
  • the created knowledge base can be made more concise and space-saving.
  • the information processing method provided by the second embodiment of the present invention can not only make the user more convenient when acquiring the required information, but also can conveniently obtain the user by updating the knowledge base in real time. To the latest information. Adding new triples to the knowledge base can enrich the content in the knowledge base. As shown in FIG.
  • the third embodiment of the present invention provides an information processing apparatus, including: an obtaining unit 31, configured to acquire a search condition input by a user, where the search condition includes a name of an entity; a selecting unit 32, and the The obtaining unit 31 is configured to select, from a pre-created knowledge base, a target triplet including a name of the entity, where the target triplet further includes an attribute of the entity and an attribute value of the attribute; 33, connected to the selecting unit 32, for displaying a name of the entity, an attribute of the entity, and an attribute value of the attribute.
  • the search condition acquired by the acquiring unit 31 further includes an attribute of the entity.
  • the selecting unit 32 is specifically configured to: pre-create according to the name of the entity and the attribute of the entity.
  • a target triplet containing a name of the entity and an attribute of the entity is selected in the knowledge base, the target triplet further including an attribute value of the attribute.
  • the display unit 33 is specifically configured to: display the target triplet; or display the name of the target entity corresponding to the search condition according to the search condition; or display and display according to the search condition An attribute of the target entity corresponding to the search condition; or displaying an attribute value of the target entity corresponding to the search condition according to the search condition.
  • the search condition input by the user is acquired by the obtaining unit, and the selecting unit selects the target related to the search condition from the pre-created knowledge base according to the search condition.
  • the triplet after which the display unit displays the information of the target triplet. Since the information of the target triplet is displayed to the user according to the search condition input by the user, the prior art displays the list of the plurality of pieces of information according to the search condition input by the user, so compared with the prior art.
  • the information processing method and apparatus provided by the embodiments of the present invention can avoid the defects that the user needs to select from a plurality of pieces of information when acquiring the information that is needed by the user, thereby facilitating the user to obtain the information that is needed by the user.
  • the apparatus further includes: a knowledge base creating unit 34, and the selecting Unit 32 is coupled for creating the knowledge base using information published on social media.
  • the knowledge base creating unit 34 specifically includes: an obtaining subunit 341, configured to acquire a name, an attribute, and an attribute value of an entity in information published on the social media; and a generating subunit 342,
  • the obtaining subunit 341 is connected to generate a triplet including the name, the attribute, and the attribute value of the entity acquired by the obtaining subunit 341.
  • the creating subunit 343 is connected to the generating subunit 342 for utilizing The triplet generated by the generating sub-unit 342 containing the name, attributes, and attribute values of the entity creates the knowledge base.
  • the generating sub-unit 342 is specifically configured to: use a mode extractor to set a name, an attribute, and an attribute value of the entity into a preset template, and generate a name, an attribute, and an attribute including the entity according to the template.
  • the triple of values is specifically configured to: use a mode extractor to set a name, an attribute, and an attribute value of the entity into a preset template, and generate a name, an attribute, and an attribute including the entity according to the template. The triple of values.
  • the knowledge base creating unit 34 further includes: a check subunit 344, which is connected to the generating subunit 342 and the creating subunit 343, for using a pre-defined mode specification The triplet generated by the generating sub-unit 342 containing the name, attribute, and attribute value of the entity is checked.
  • the triplet generated by the generating subunit is verified by the check subunit, and the correctness of the triplet in the knowledge base can be ensured. , in turn, to ensure the correctness of the information displayed to the user's triplet, so that the user obtains the correct information.
  • the knowledge base creating unit 34 further includes: an update subunit 345, connected to the creating subunit 343, for updating the knowledge base created by the creating subunit 343 in real time.
  • the update sub-unit 345 includes: an obtaining module, configured to acquire information published on the social media in real time; and a determining module, configured to be connected to the acquiring module, configured to determine whether the information acquired by the acquiring module exists Existing entity name in the knowledge base; update module, and the judgment a module connection, configured to: when the determining module determines that an existing entity name in the knowledge base exists in the information, use a new triplet update composed of an entity name, an attribute, and an attribute value in the information The knowledge base; when the determining module determines that the entity name not included in the knowledge base exists in the information, storing a new triplet composed of the entity name, the attribute, and the attribute value in the information to the The knowledge base is updated to update the knowledge base.
  • the information processing apparatus provided in the third embodiment of the present invention can not only make the user obtain the required information more conveniently, but also update the knowledge base in real time through the update subunit, so that the user can obtain the latest information. .
  • FIG. 9 is a schematic structural diagram of an information processing device according to Embodiment 4 of the present invention.
  • the remote control device of this embodiment includes: at least one processor 901, a memory 902, a communication interface 903, and a bus.
  • the processor 901, the memory 9Q2, and the communication interface 9Q3 are connected by a bus and complete communication with each other.
  • the bus may be an Industrial Standard Architecture (ISA) bus, a Peripheral Component Interconnect (PCI) bus, or an extended industry standard architecture (Extended Indus try Standard). Archi tecture, referred to as EISA) bus.
  • the bus can be divided into an address bus, a data bus, a control bus, and the like. For ease of representation, only one thick line is shown in Figure 9, but it does not mean that there is only one bus or one type of bus. among them:
  • Memory 902 is for storing executable program code, the program code including computer operating instructions.
  • Memory 902 may include high speed RAM memory and may also include non-volatile memory, such as at least one disk memory.
  • processor 901 runs a program corresponding to the executable program code by reading executable program code stored in ear store 902 for:
  • search condition input by a user, where the search condition includes a name of the entity
  • Target triplet Select the name containing the entity from the pre-created knowledge base according to the name of the entity a target triplet, the target triplet further including an attribute of the entity and an attribute value of the attribute;
  • a name of the entity, an attribute of the entity, and an attribute value of the attribute are displayed.
  • the processor 901 may be a central processing unit (CPU), or an application specific integrated circuit (ASIC), or one or more configured to implement the embodiments of the present invention. integrated circuit.
  • CPU central processing unit
  • ASIC application specific integrated circuit
  • the foregoing processor 901 may be used to perform other processes in the foregoing method embodiments, and details are not described herein again.
  • the communication interface 903 is mainly used to implement communication between the traffic source determining device of the present embodiment and other devices or devices.
  • the storage medium may be a magnetic disk, an optical disk, a read-only memory (ROM), or a random access memory (RAM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息处理方法及装置,涉及通信技术领域,为方便用户获取自己需要的信息而发明。所述方法包括:获取用户输入的搜索条件,所述搜索条件包括实体的名称;根据所述实体的名称,从预先创建的知识库中选取包含所述实体的名称的目标三元组,所述目标三元组还包括所述实体的属性以及所述属性的属性值;显示所述实体的名称、所述实体的属性以及所述属性的属性值。本发明可用于信息处理技术中。

Description

一种信息处理方法及装置 技术领域
本发明涉及信息处理技术领域, 尤其涉及一种信息处理方法及装置。 背景技术
社交媒体(Soc ia l Media) , 也称为社会化媒体, 是指允许人们撰写、 分 享、 评价、 讨论、 相互沟通的网站, 如: 脸书 (Facebook )、 微博等。 当今社 会, 社交媒体逐渐演变成为大众化的舆论平台, 越来越多机构及公众人物都 通过社交媒体来发布或传播信息。 因此, 社交媒体已经成为了用户获取信息 的重要途径。
但是, 社交媒体中的信息规模巨大, 如何从社交媒体的海量信息中获取 对用户有用的信息成为需要解决的一个问题。 针对该问题, 现有的一种解决 方案是利用用户在社交媒体上输入的关键词 (字)进行检索, 向用户显示一 组与输入的关键词 (字)相关的信息列表, 之后用户就可以从该信息列表中 选择自己需要的信息。
但是由于社交媒体信息量巨大, 利用现有技术输入关键词 (字)后搜索 到的信息列表中的信息往往较多, 用户需要从信息列表的多条信息中选取自 己需要的信息, 因而使得用户获取自己需要的信息时不是非常方便。
发明内容
有鉴于此, 本发明提供一种信息处理方法及装置, 以方便用户获取自己 需要的信息。
为达到上述目的, 本发明实施例采用如下技术方案:
第一方面, 本发明提供了一种信息处理方法, 包括:
获取用户输入的搜索条件, 所述搜索条件包括实体的名称;
根据所述实体的名称, 从预先创建的知识库中选取包含所述实体的名称 的目标三元组, 所述目标三元组还包括所述实体的属性以及所述属性的属性 值;
显示所述实体的名称、 所述实体的属性以及所述属性的属性值。
结合第一方面, 在第一方面的第一种可能实现方式中, 所述根据所述实 体的名称, 从预先创建的知识库中选取包含所述实体的名称的目标三元组之 前, 所述方法还包括:
利用在社交媒体上发布的信息创建所述知识库。
结合第一方面的第一种可能实现方式, 在第一方面的第二种可能实现方 式中, 所述利用在社交媒体上发布的信息创建所述知识库具体包括:
获取在社交媒体上发布的信息中的实体的名称、 属性以及属性值; 生成包含所述实体的名称、 属性以及属性值的三元组;
利用所述包含所述实体的名称、 属性以及属性值的三元组创建所述知识 库。
结合第一方面的第二种可能实现方式, 在第一方面的第三种可能实现方 式中, 所述生成包含所述实体的名称、 属性以及属性值的三元组具体包括: 利用模式抽取器将所述实体的名称、 属性以及属性值设置到预设的模板 中, 根据所述模板生成包含所述实体的名称、 属性以及属性值的三元组。
结合第一方面的第二种可能实现方式或第一方面的第三种可能的实现方 式, 在第一方面的第四种可能实现方式中, 所述利用所述包含所述实体的名 称、 属性以及属性值的三元组创建所述知识库之前, 所述方法还包括:
利用预先制定的模式规范对所述包含所述实体的名称、 属性以及属性值 的三元组进行校验。
结合第一方面的第一种至第四种任一种可能实现方式, 在第一方面的第 五种可能实现方式中, 所述方法还包括:
实时更新所述知识库。
结合第一方面的第五种可能实现方式, 在第一方面的第六种可能实现方 式中, 所述实时更新所述知识库具体包括: 实时获取在社交媒体上发布的信息;
判断所述信息中是否存在所述知识库中的已有的实体名称;
若所述信息中存在所述知识库中已有的实体名称, 则利用所述信息中的 实体名称、 属性以及属性值组成的新的三元组更新所述知识库;
若所述信息中存在所述知识库中没有的实体名称, 则将所述信息中的实 体名称、 属性以及属性值组成的新的三元组存储到所述知识库中以更新所述 知识库。
结合第一方面以及第一方面的第一至第六种任一种可能实现方式, 在第 一方面的第七种可能实现方式中, 所述搜索条件还包括所述实体的属性, 所述根据所述实体的名称, 从预先创建的知识库中选取包含实体的名称 的目标三元组, 所述目标三元组还包括所述实体的属性以及所述属性的属性 值包括:
根据所述实体的名称和所述实体的属性, 从预先创建的知识库中选取包 含所述实体的名称和所述实体的属性的目标三元组, 所述目标三元组还包括 所述属性的属性值。
第二方面, 本发明提供了一种信息处理装置, 包括:
获取单元, 用于获取用户输入的搜索条件, 所述搜索条件包括实体的名 称;
选取单元, 与所述获取单元连接, 用于根据所述实体的名称, 从预先创 建的知识库中选取包含所述实体的名称的目标三元组, 所述目标三元组还包 括所述实体的属性以及所述属性的属性值;
显示单元, 与所述选取单元连接, 用于显示所述实体的名称、 所述实体 的属性以及所述属性的属性值。
在第二方面的第一种可能实现方式中, 所述装置还包括:
知识库创建单元, 与所述选取单元连接, 用于利用在社交媒体上发布的 信息创建所述知识库。 结合第二方面的第一种可能实现方式, 在第二方面的第二种可能实现方 式中, 所述知识库创建单元包括:
获取子单元, 用于获取在社交媒体上发布的信息中的实体的名称、 属性 以及属性值;
生成子单元, 与所述获取子单元连接, 用于生成包含所述获取子单元获 取的所述实体的名称、 属性以及属性值的三元组;
创建子单元, 与所述生成子单元连接, 用于利用所述生成子单元生成的 包含所述实体的名称、 属性以及属性值的三元组创建所述知识库。
结合第二方面的第二种可能实现方式, 在第二方面的第三种可能实现方 式中, 所述生成子单元具体用于:
利用模式抽取器将所述实体的名称、 属性以及属性值设置到预设的模板 中, 根据所述模板生成包含所述实体的名称、 属性以及属性值的三元组。
结合第二方面的第二种或第二方面的第三种可能的实现方式, 在第二方 面的第四种可能实现方式中, 所述知识库创建单元还包括:
校验子单元, 与所述生成子单元以及所述创建子单元连接, 用于利用预 属性值的三元组进行校验。
结合第二方面的第一种至第四种任一种可能实现方式, 在第二方面的第 五种可能实现方式中, 所述知识库创建单元还包括:
更新子单元, 与所述创建子单元连接, 用于实时更新所述创建子单元创 建的所述知识库。
结合第二方面的第五种可能实现方式, 在第二方面的第六种可能实现方 式中, 所述更新子单元包括:
获取模块, 用于实时获取在社交媒体上发布的信息;
判断模块, 与所述获取模块连接, 用于判断所述获取模块获取的信息中 是否存在所述知识库中的已有的实体名称; 更新模块, 与所述判断模块连接, 用于在所述判断模块确定所述信息中 存在所述知识库中已有的实体名称时, 利用所述信息中的实体名称、 属性以 及属性值组成的新的三元组更新所述知识库; 在所述判断模块确定所述信息 中存在所述知识库中没有的实体名称时, 将所述信息中的实体名称、 属性以 及属性值组成的新的三元组存储到所述知识库中以更新所述知识库。
结合第二方面以及第二方面的第一至第六种任一可能实现方式, 在第二 方面的第七种可能实现方式中, 所述获取单元获取的所述搜索条件还包括所 述实体的属性,
所述选取单元具体用于:
根据所述实体的名称和所述实体的属性, 从预先创建的知识库中选取包 含所述实体的名称和所述实体的属性的目标三元组, 所述目标三元组还包括 所述属性的属性值。
本发明实施例提供的信息处理方法及装置, 通过获取用户输入的搜索条 件, 根据该检索条件从预先创建的知识库中选取与所述搜索条件相关的目标 三元组, 之后显示所述目标三元组的信息。 由于根据用户输入的检索条件, 显示给用户的是目标三元组的信息, 而现有技术中根据用户输入的检索条件 向用户显示的是包含多条信息的列表, 因此与现有技术相比, 本发明实施例 提供的信息处理方法及装置能够避免用户在获取自己需要的信息时还需要从 多条信息中选取而比较麻烦的缺陷, 从而方便用户获取自己需要的信息。 附图说明
为了更清楚地说明本发明实施例的技术方案, 下面将对实施例描述中所 需要使用的附图作一简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的 前提下, 还可以根据这些附图获得其他的附图。
图 1为本发明实施例一信息处理方法的流程图;
图 2为本发明实施例二信息处理方法的流程图; 图 3为用户在社交媒体的网站上发布的信息的示意图;
图 4为本发明实施例一步骤 21的具体步骤的流程图;
图 5为本发明实施例二中信息处理过程的示意图;
图 6为本发明实施例三信息处理装置的结构图;
图 Ί为本发明实施例三信息处理装置的一个示意图;
图 8为本发明实施例三信息处理装置的另一个示意图;
图 9为本发明实施例四的信息处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行 清楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而 不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
为了方便用户从在社交媒体上发布的信息中获取自己需要的信息,如图 1 所示, 本发明实施例一提供了一种信息处理方法, 包括:
步骤 1 1、 获取用户输入的搜索条件, 所述搜索条件包括实体的名称。 其中, 所述搜索条件可以为用户为了获取自己需要的信息而在社交媒体 的用户查询界面上输入的查找关键字、 关键词或者提问语句等, 例如在 XX网
(某个社交媒体网站)上输入的提问语句 "姚明的身高是多少? "、 "刘德华 祖籍是哪里? " 等; 又例如输入的关键词 "姚明 身高" 或者 "刘德华祖籍" 等。
所述搜索条件中往往包含实体, 而实体又有许多特征, 如实体的名称、 属性、 属性值等。 在此, 对 "实体" 的概念做一简单介绍。 实体为客观存在 并可相互区别的事物, 可以是具体的人、 事、 物, 也可以是抽象的概念或联 系等。 其中, 可以用实体的名称来标识一个实体。 实体的性质或者该实体与 其他实体之间的关系都可称为实体的属性。 属性值为确切表达一个实体属性 的质或量。 在本实施例中, 将所述搜索条件中的实体称为目标实体。 所述搜 索条件中包含目标实体的信息, 如目标实体的名称、 属性、 属性值。 例如, 前面例子中的 "姚明"、 "刘德华" 即为目标实体的名称, "身高"、 "祖籍" 即 为目标实体的属性。若已知姚明的身高为 2. 26米,则 "2. 26米"即为属性 "身 高" 的属性值。
其中, 所述搜索条件可以只包含所述目标实体的名称、 属性以及属性值 中的一个; 大多数情况下, 所述搜索条件可只包含所述目标实体名称。 例如, 若用户想要获取实体 "姚明" 的信息, 那么所述搜索条件可以只包含实体的 名称 "姚明"。
另外, 由于用户经常通过输入提问语句来获取某个问题的答案, 因此, 在这种情况下, 所述搜索条件通常包含所述目标实体的名称、 属性以及属性 值任意两者的组合, 即只包含所述目标实体的名称和属性, 或者只包含所述 目标实体的名称和属性值, 或者只包含所述目标实体的属性和属性值, 而目 标实体的名称、 属性以及属性值三者中剩下的一者即为用户需要获取的信息。 例如, 若所述搜索条件为 "姚明的身高是多少? ", 那么该搜索条件中就只包 含目标实体的名称 "姚明" 以及目标实体的属性 "身高", 所述目标实体的属 性值则为用户需要获取的信息。
步骤 12、 根据所述实体的名称, 从预先创建的知识库中选取包含所述实 体的名称的目标三元组, 所述目标三元组还包括所述实体的属性以及所述属 性的属性值。
其中, 所述预先创建的知识库中存储的是包含实体的名称、 属性以及属 性值的多个三元组, 其中所述 "属性" 可以为 "属性名" 或 "关系名"。 当所 "属性" 为 "属性名" 时, 所述三元组的形式可以为 (实体, 属性名, 属性 值), 例如(姚明, 身高, 2. 26米)、 (香山, 人数, 不多)等; 当所述 "属性" 为 "关系名" 时, 所述三元组的形式可以为 (实体, 关系名, 属性值), 例如 (谢霆锋, 父亲, 谢贤)等。
其中, 所述目标三元组包括与所述搜索条件中的目标实体的信息相关的 实体名称、 属性以及属性值。
以步骤 11中的例子为例,用户输入的搜索条件为"姚明的身高是多少? "。 首先对该搜索条件中的目标实体进行识别, 识别的结果是: 目标实体名称为 "姚明", 目标实体的属性为 "身高"; 之后从知识库中选取与目标实体名称 "姚明" 以及目标实体的属性 "身高" 相关的三元组, 即包含 "姚明"、 "身 高" 的三元组。 若知识库中与 "姚明"、 "身高" 相关的三元组为 (姚明, 身 高, 2. 26 米), 则三元组(姚明, 身高, 2. 26 米) 即为在此的目标三元组。 其中, 所述目标实体的识别可利用现有技术中的命名实体识别的方法实现。
步骤 13、显示所述实体的名称、所述实体的属性以及所述属性的属性值。 其中, 在实际应用中, 此步骤具体为: 显示所述目标三元组; 或者根据 所述搜索条件, 显示与所述搜索条件对应的实体的名称; 或者根据所述搜索 条件, 显示与所述搜索条件对应的实体的属性; 或者根据所述搜索条件, 显 示与所述搜索条件对应的实体的属性值。
例如, 若所述搜索条件为 "姚明的身高是多少? ", 若从预先创建的知识 库中选取的与搜索条件 "姚明的身高是多少? " 相关的目标三元组为 (姚明, 身高, 2. 26米), 则可以向用户显示目标三元组(姚明, 身高, 2. 26米)。 或 者, 根据搜索条件 "姚明的身高是多少? " 可以知道, 用户需要的信息仅为 目标三元组(姚明, 身高, 2. 26米) 中的属性值, 即 2. 26米, 此时也可只向 用户显示 2. 26米。
又如, 若用户输入 "谁的父亲是谢贤? "。 若从预先创建的知识库中选取 的与搜索条件 "谁的父亲是谢贤? " 相关的目标三元组为 (谢霆锋, 父亲, 谢贤), 则可以向用户显示目标三元组(谢霆锋, 父亲, 谢贤)。 或者, 根据 搜索条件 "谁的父亲是谢贤? " 可以知道, 用户需要的信息仅为目标三元组
(谢霆锋, 父亲, 谢贤) 中的实体名, 即 "谢霆锋", 此时也可只向用户显示
"谢霆锋,,。
由上可以看出, 利用本发明实施例一提供的信息处理方法, 通过获取用 户输入的搜索条件, 根据该搜索条件从预先创建的知识库中选取与所述搜索 条件相关的目标三元组, 之后显示所述目标三元组的信息。 由于根据用户输 入的检索条件, 显示给用户的是目标三元组的信息, 而现有技术中根据用户 输入的检索条件向用户显示的是包含多条信息的列表, 因此与现有技术相比, 本发明实施例提供的信息处理方法能够避免用户在获取自己需要的信息时还 需要从多条信息中选取而比较麻烦的缺陷, 从而方便用户获取自己需要的信 息。
下面将对本发明的信息处理方法在本发明实施例二中进行更详细地描 述。 如图 2所述, 本发明实施例二提供的信息处理方法包括:
步骤 21、 利用在社交媒体上发布的信息创建知识库。
其中, 所述在社交媒体上发布的信息指用户在社交媒体的网站上发布的 信息, 例如如图 3的截图中所示的信息。
在实际应用中, 如图 4所示, 此步骤具体包括:
步骤 211、抽取在社交媒体上发布的信息中的实体的名称、属性以及属性 值。
其中, 可通过爬虫或 API ( Appl i ca t ion Programming Interface , 应用 编程接口 )获取在社交媒体上发布的信息, 再利预先离线训练的模式抽取器 获得所述信息中的实体名称、 属性以及属性值。 需要指出, 此步骤中所述实 体的名称、 属性以及属性值是在线获取的。
在实际应用中, 利用所述模式抽取器获取所述实体的名称、 属性以及属 性值的具体实施方式如下: 先将网络上已有的标注语料或已有的结构化知识 库(如百度百科的 infox )作为所述模式抽取器的训练材料, 从这些训练材料 中获取多个三元组, 再将这些三元组回标到自然语言文本的语料库中当作训 练数据。之后使用统计机器学习的算法(如 CRF ( Condi t iona l Random Fields , 条件随机场))从训练数据中为每个属性训练单独的属性模式分类器。 最后, 所述模式抽取器就可利用所述属性模式分类器从在社交媒体上发布的信息中 抽取出实体的名称、 属性以及属性值。
步骤 212、 生成包含所述实体的名称、 属性以及属性值的三元组。
在实际应用中, 可利用模式抽取器将所述实体的名称、 属性以及属性值 设置到预设的模板中, 根据所述模板生成包含所述实体的名称、 属性以及属 性值的三元组。
其中, 可预先通过统计学习的方法, 在语料库中找到各个实体的名称、 属性以及属性值对应的自然语言文本, 从而为每个实体生成对应的属性摸板。 每个实体可有多个属性摸板。 所述属性模板如(人名, 身高, 数字)、 (景点 名, 人数, 数字)等。 其中, 所述属性模板即为在此的预设模板。 步骤 21 1 中获取了实体的名称、 属性以及属性值后, 模式抽取器可将在线获取的所述 实体的名称、 属性以及属性值加载到所述预设模板中, 从而生成包含所述实 体的名称、 属性以及属性值的三元组。
下面举例对步骤 21 1和步骤 212进行说明。 例如, 社交媒体上发布的信 息为 "姚明, 身高 2. 26米, 1980年 9月 12 日生于中国上海, 祖籍为江苏苏 州市吴江区, 毕业于上海交通大学。"。
首先, 利用离线训练的模式抽取器抽取实体的名称、 属性和属性值。 在 本例中, 实体的名称只有 "姚明", 实体的属性有 "身高"、 "出生日期"、 "出 生地"、 "祖籍"、 "毕业学校", 与这些属性对应的属性值分别为 " 2. 26 米"、 " 1980年 9月 12 日"、 "中国上海"、 "江苏苏州市吴江区"、 "上海交通大学"。 此时, 可利用模式抽取器将实体名称属性、 属性值加载到预设模板中。 由于 本例中实体的属性以及各属性对应的属性值为多个, 因此需要用到的预设模 板也就有多个。 本例中所述预设模板可以为 (人名, 身高, 数字)、 (人名, 出生日期, 日期)、 (人名, 出生地, 地点名)、 (人名, 祖籍, 地点名)、 (人 名, 毕业学校, 学校名)。 当利用属性抽取器将实体的名称、 属性以及属性值 设置到预设的模板中后就生成了包含所述实体的名称、 属性以及属性值的三 元组, 即 (姚明, 身高, 2. 26米)、 (姚明, 出生日期, 1980年 9月 12 日)、 (姚明, 出生地, 中国上海)、 (姚明, 祖籍, 江苏苏州市吴江区)、 (姚明, 毕业学校, 上海交通大学)。
从本例中可以看出, 利用在社交媒体上发布的信息可以得到多个三元组。 虽然在本例中的实体的名称只有一个, 但是不难想象, 在实际应用中, 社交 媒体上发布的实体的名称也可以有多个, 此时可为每个实体都生成与之对应 的三元组。
步骤 213、 利用预先制定的模式规范( schema spec if ica t ion )对所述包 含所述实体的名称、 属性以及属性值的三元组进行校验。
其中, 利用所述预先制定的模式规范对所述三元组进行校验主要是利用 所述模式规范来检验步骤 212 中生成的三元组的信息是否符合逻辑, 或者是 否是正确的, 只有通过校验的三元组才能存储在所述知识库中。
例如,若利用在社交媒体上发布的信息在步骤 212中生成的三元组为(姚 明, 身高, 2. 26厘米), 则利用所述模式规范进行校验后, 结果为此三元组不 符合逻辑, 是不正确的三元组, 因此不需要将该三元组存储在创建的知识库 中。
同时, 由于在社交媒体上发布的信息中相同的实体名称、 相同的属性以 及相同的属性值可能有不同的表达方式, 例如, 实体名称 "王治郅"、 "大郅" 指的都是 "王治郅", 属性 "身高" "身长" "高度" "高" 指的都是 "身高", 属性值 "184cm" "1. 84米,, "6英尺" 指的都是 "1. 84米,, , 因此, 在利用预 先制定的模式规范 (schema spec if ica t ion )进行对三元组进行校险时, 还 可对实体的名称、 属性以及属性值的表达方式进行 "消歧" 处理, 即当从在 一条社交媒体上发布的信息中获取的实体名称为 A、 属性为 B、 属性值为 C , 从另外一条在社交媒体上发布的信息中获取的实体名称为 Al、 属性为 Bl、 属 性值为 C1 , 且 A与 A1指的是相同的实体、 B与 B1指的是相同的属性、 C与 C1指的是相同的属性值时,可以将根据这两条信息生成的三元组都存储为(A, B, C )。 例如, 若利用在一条社交媒体上发布的信息生成的三元组为 (王治郅, 身高, 2. 14米), 利用在另外一条社交媒体上发布的信息生成的三元组为(大 郅, 高, 214cm ), 则可将这两条三元组都存储为 (王治郅, 身高, 2. 14米)。
步骤 214、 利用通过校验的包含所述实体的名称、属性以及属性值的三元 组创建所述知识库。
其中, 可以将步骤 21 3 中通过校验的三元组进行存储, 例如可存储在内 存或硬盘中, 从而完成所述知识库的创建。
例如, 以步骤 121和步骤 212 中的例子为例, 在生成了 (姚明, 身高, 2. 26米)、 (姚明, 出生日期, 1980年 9月 12 日)、 (姚明, 出生地, 中国上 海)、 (姚明, 祖籍, 江苏苏州市吴江区)、 (姚明, 毕业学校, 上海交通大学) 这五个三元组后, 再利用所述模式规范对这五个三元组进行校验, 通过校验 后就可以将这五个三元组存储在内存中, 从而创建所述知识库。
在具体应用中, 还可根据实体的类别对所述知识库中的三元组进行分类, 例如可根据实体的类别将知识库中的三元组分为人物、 动物、 植物、 商品等 多个类别。 以上的五个三元组都属于人物这一类别。
步骤 22、 实时更新所述知识库。
此步骤具体为: 按照预设的时间间隔从社交媒体上获取发布的信息, 并 判断所述信息中是否存在所述知识库中的已有的实体名称。 若所述信息中存 在所述知识库中已有的实体名称, 则利用所述信息中的实体名称、 属性以及 属性值组成的新的三元组更新所述知识库; 若所述信息中存在所述知识库中 没有的实体名称, 则将所述信息中的实体名称、 属性以及属性值组成的新的 三元组存储到所述知识库中以更新所述知识库。 其中, 所述预设的时间间隔 可以根据具体情况进行设定, 目的是实时获取在社交媒体上发布的信息。 例 如, 所述预设的时间间隔可以设定为 1秒。
例如, 假设利用在社交媒体上发布的信息生成的三元组为 (刘德华, 演 唱会, 9 Q场), 并且已经存储在所述知识库中, 而实时获取的在社交媒体上发 布的信息为: "刘德华将在……开第 100 场演唱会", 利用该信息生成的三元 组为 (刘德华, 演唱会, 100场), 并且可以看出该信息中存在知识库中已有 的实体名称 "刘德华", 因此可将三元组(刘德华, 演唱会, 100场)存储在 所述知识库中, 并且将原来的三元组(刘德华, 演唱会, 90场)删除, 从而 更新所述知识库。
若在知识库中存储的三元组为(刘德华, 演唱会, 90场), 且只有这一个 三元组, 而实时获取的在社交媒体上发布的信息为: "刘德华将在 ... ...开第
100场演唱会。 ... ...姚明 ... ...2011年 ... ...退役"。 可以看出, 该信息中的实体 名称为 "刘德华"和 "姚明", 利用该信息生成的三元组为(刘德华, 演唱会, 100场)和(姚明, 退役, 201 1年), 该信息中存在知识库中已有的实体名称
"刘德华", 还存在知识库中没有的实体名称 "姚明", 因此可用 (刘德华, 演唱会, 100场)更新知识库中已有的三元组(刘德华, 演唱会, 90场), 并 且将(姚明, 退役, 2011年)也存储在所述知识库中, 以更新所述知识库。
需要注意的是, 所述若所述信息中存在所述知识库中已有的实体名称, 则利用所述信息中的实体名称、 属性以及属性值组成的新的三元组更新所述 知识库主要有两种情况。
情况一为: 知识库中原来的三元组中的实体名称与从实时获取的在社交 媒体上发布的信息抽取出的三元组 (以下简称新三元组) 的名称相同, 原来 的三元组中的实体属性与新三元组的属性相同, 原来的三元组与新三元组只 有实体的属性值不同, 此时可将新三元组代替原来的三元组存储在知识库中 以更新所述知识库。 如用 (刘德华, 演唱会, 100场)代替(刘德华, 演唱会, 90场)存储在所述知识库中。
情况二为: 虽然所述信息中可能存在所述知识库中已有的实体名称, 但 是原来的三元组与新三元组中的实体属性不同, 此时, 所述利用所述信息中 的实体名称、 属性以及属性值组成的新的三元组更新所述知识库为: 将所述 新三元组存储在所述知识库中。 例如, 若上面的例子中利用在社交媒体上实 时发布的信息生成的三元组中还有(刘德华, 出生地, 香港), 虽然原来的三 元组与新三元组中的实体名称相同, 但是由于该三元组的属性与知识库中的 三元组的属性不同, 因此也需要将该三元组存储在所述知识库中, 从而更新 所述知识库。
步骤 23、 获取用户输入的搜索条件。
其中, 从所述搜索条件中获取需要搜索的实体的信息, 所述实体的信息 可以是实体的名称, 也可以是实体的名称和实体的属性。
此步骤可参照本发明实施例一步骤 1 1中的描述, 在此不再赘述。
步骤 24、 从所述知识库中选取与所述搜索条件相关的目标三元组。
其中, 从所述知识库中选取与所述搜索条件相关的目标三元组可以是根 据所述实体的名称, 从预先创建的知识库中选取包含所述实体的名称的目标 三元组, 所述目标三元组还包括所述实体的属性以及所述属性的属性值。
其中, 从所述知识库中选取与所述搜索条件相关的目标三元组也可以是 根据所述实体的名称和所述实体的属性, 从预先创建的知识库中选取包含所 述实体的名称和所述实体属性目标三元组, 所述目标三元组还包括所述属性 的属性值。
其中, 在实际应用中, 以步骤 21 中的例子为例, 若步骤 23 中用户输入 的搜索条件为 "姚明的出生地是哪里? ", 则在知识库中选取所述目标三元组 时, 可 ^据是否已对知识库中的三元组进行分类来确定如何选取目标三元组。
若在创建知识库时已经将所述知识库中的三元组分为人物、 动物、 植物、 商品等多个类别, 此时可根据知识库中对三元组的分类, 首先选取与搜索条 件中的实体相关的人物这一类别, 再从人物类别下选取(姚明, 出生地, 中 国上海)这个目标三元组。
若创建知识库时未对所述知识库中的三元组进行分类, 则选取所述目标 三元组时, 可以在所述知识库中根据所述搜索条件中的实体名称、 属性或属 性值选取与所述搜索条件相关的目标三元组。 例如, 以上面的例子为例, 才艮 据所述搜索条件可知, 实体的名称 "姚明" 以及属性 "出生地", 在所述知识 库中选取目标三元组时, 从所述知识库的多个三元组中选取包含 '4兆明" 以 及 "出生地" 的三元组作为所述目标三元组, 即(姚明, 出生地, 中国上海)。
步骤 25、 显示所述目标三元组的信息。
此步骤具体可参照本发明实施例一步骤 13中的描述, 在此不再赘述。 例如, 以步骤 24中的例子为例, 根据用户输入的搜索条件, 可向用户显 示 (姚明, 出生地, 中国上海), 或者也可只显示中国上海。
图 5示意性地示出了步骤 21-步骤 25的信息处理过程。 如图 5所示, 在 具体应用中, 本发明实施例二的信息处理方法主要分为四个部分, 分别为虚 线框 1-4中所示。
虚线框 1 为第一部分, 示出了从社交媒体上获取信息的过程。 即利用爬 虫 (crawler )获取社交媒体 ( Social media )上的信息, 其中所述信息主要 包括两部分, 一部分为用户在社交媒体上发布的信息 (Content ), 另外一部 分为用户在社交媒体的用户查询界面上输入的搜索条件 ( Search criteria )。
虚线框 1 为第二部分, 示出了模式抽取器如何从社交媒体上发布的信息 ( Content ) 中抽取三元组的过程, 即先从语料库(Corpus ) 中获取已有的知 识三元组, 再将这些三元组回标到自然语言文本的语料库中进行属性模式学 习 (Pattern Learner ), 为每个属性训练单独的属性模式分类器( Attribute patterns ), 模式抽取器 (Extractor ) 利用属性模式分类器 (Attribute patterns )从社交媒体上发布的信息( Content )中抽取三元组(图中未示出)。
虚线框 3 为第三部分, 示出了对模式抽取器抽取出的三元组进行模式校 的过程, 即利用预先制定的模式规范(Schema Specif icat ion)对所述三元 组进行模式校险 ( Schema checker ), 通过校险的三元组之后被存储到知识库 (KB) 中, 从而完成知识库(KB) 的创建。
虚线框 4 为第四部分, 示出了利用创建好的知识库以及第一部分中获取 的搜索条件 ( search criteria )获取用户需要的信息的过程。 即首先根据搜 索条件 ( search cr i ter ia ), 对搜索条件中的信息进行实体识别 (Ent i ty recognizer ),若知识库(KB ) 中存在在搜索条件中的目标实体, 则从知识库 中选取与目标实体对应的三元组的信息显示给用户, 从而使得用户获取自己 需要的信息。 其中, 所述实体识别 (Ent i ty recognizer )可利用现有技术中 的命名实体识别的方法实现。
在本发明的另一个实施例例中, 所述搜索条件还包括所述实体的属性, 所述根据所述实体的名称, 从预先创建的知识库中选取包含实体的名称的目 标三元组, 所述目标三元组还包括所述实体的属性以及所述属性的属性值包 括: 所述 居所述实体的名称和所述实体的属性, 从预先创建的知识库中选 取包含所述实体的名称和所述实体属性目标三元组, 所述目标三元组还包括 所述属性的属性值; 显示所述实体的名称、 所述实体的属性以及所述属性的 属性值。
由上可以看出, 利用本发明实施例二提供的信息处理方法, 用户在从社 交媒体上发布的信息中获取自己需要的信息时, 在输入搜索条件之后, 可以 显示目标三元组的信息, 而现有技术中根据用户输入的检索条件显示给用户 的是包含多条信息的列表, 因此与现有技术相比, 本发明实施例二提供的信 息处理方法能够避免用户在获取自己需要的信息时还需要从多条信息中选取 而比较麻烦的缺陷, 从而方便用户获取自己需要的信息。
并且, 利用本发明实施例二提供的信息处理方法, 在利用所述包含所述 实体的名称、 属性以及属性值的三元组创建所述知识库之前, 还可以对生成 的三元组进行校验, 通过校验的三元组才能存储在所述知识库中, 从而保证 所述知识库中的三元组的正确性, 进而保证显示给用户的三元组的信息的正 确性, 使得用户获取正确的信息。 同时, 通过利用模式规范对三元组进行消 歧, 可以使创建的知识库更加简洁, 节省空间。
此外, 利用本发明实施例二提供的信息处理方法, 不仅可以使用户获取 需要的信息时更加方便, 而且通过实时更新所述知识库, 可以方便用户获取 到最新的信息。 通过对知识库添加新的三元组可以使知识库中的内容更丰富。 如图 6 所示, 本发明实施例三提供了一种信息处理装置, 包括: 获取单 元 31 , 用于获取用户输入的搜索条件, 所述搜索条件包括实体的名称; 选取 单元 32 , 与所述获取单元 31连接, 用于从预先创建的知识库中选取包含所述 实体的名称的目标三元组, 所述目标三元组还包括所述实体的属性以及所述 属性的属性值; 显示单元 33 , 与所述选取单元 32连接,, 用于显示所述实体 的名称、 所述实体的属性以及所述属性的属性值。
其中, 所述获取单元 31获取的所述搜索条件还包括所述实体的属性, 此 时, 所述选取单元 32具体用于: ^据所述实体的名称和所述实体的属性, 从 预先创建的知识库中选取包含所述实体的名称和所述实体的属性的目标三元 组, 所述目标三元组还包括所述属性的属性值。
其中, 所述显示单元 33具体用于: 显示所述目标三元组; 或者 居所述 搜索条件, 显示与所述搜索条件对应的所述目标实体的名称; 或者根据所述 搜索条件, 显示与所述搜索条件对应的所述目标实体的属性; 或者根据所述 搜索条件, 显示与所述搜索条件对应的所述目标实体的属性值。
其中, 所述装置的工作原理可参照前述方法实施例中的描述, 在此不再 赘述。
由上可以看出, 利用本发明实施例三提供的信息处理装置, 通过获取单 元获取用户输入的搜索条件, 选取单元根据该检索条件从预先创建的知识库 中选取与所述搜索条件相关的目标三元组, 之后显示单元显示所述目标三元 组的信息。 由于根据用户输入的检索条件, 显示给用户的是目标三元组的信 息, 而现有技术中根据用户输入的检索条件显示给用户的是包含多条信息的 列表, 因此与现有技术相比, 本发明实施例提供的信息处理方法及装置能够 避免用户在获取自己需要的信息时还需要从多条信息中选取而比较麻烦的缺 陷, 从而方便用户获取自己需要的信息。
另外, 如图 7所示, 所述装置还包括: 知识库创建单元 34 , 与所述选取 单元 32连接, 用于利用在社交媒体上发布的信息创建所述知识库。 如图 8所 示, 所述知识库创建单元 34具体包括: 获取子单元 341 , 用于获取在社交媒 体上发布的信息中的实体的名称、 属性以及属性值; 生成子单元 342 , 与所述 获取子单元 341连接, 用于生成包含所述获取子单元 341获取的所述实体的 名称、 属性以及属性值的三元组; 创建子单元 343 , 与所述生成子单元 342连 接, 用于利用所述生成子单元 342 生成的包含所述实体的名称、 属性以及属 性值的三元组创建所述知识库。
其中, 所述生成子单元 342具体用于: 利用模式抽取器将所述实体的名 称、 属性以及属性值设置到预设的模板中, 根据所述模板生成包含所述实体 的名称、 属性以及属性值的三元组。
其中, 如图 8所示, 所述知识库创建单元 34还包括: 校验子单元 344 , 与所述生成子单元 342以及所述创建子单元 343连接, 用于利用预先制定的 模式规范对所述生成子单元 342 生成的包含所述实体的名称、 属性以及属性 值的三元组进行校验。
其中, 所述装置的工作原理可参照前述方法实施例中的描述, 在此不再 赘述。
由上可以看出, 利用本发明实施例三提供的信息处理装置, 利用校验子 单元对生成子单元生成的三元组进行校验, 可以保证所述知识库中的三元组 的正确性, 进而保证显示给用户的三元组的信息的正确性, 使得用户获取正 确的信息。
此外, 如图 8所示, 所述知识库创建单元 34还包括: 更新子单元 345 , 与所述创建子单元 343连接, 用于实时更新所述创建子单元 343创建的所述 知识库。
其中, 所述更新子单元 345 包括: 获取模块, 用于实时获取在社交媒体 上发布的信息; 判断模块, 与所述获取模块连接, 用于判断所述获取模块获 取的信息中是否存在所述知识库中的已有的实体名称; 更新模块, 与所述判 断模块连接, 用于在所述判断模块确定所述信息中存在所述知识库中已有的 实体名称时, 利用所述信息中的实体名称、 属性以及属性值组成的新的三元 组更新所述知识库; 在所述判断模块确定所述信息中存在所述知识库中没有 的实体名称时, 将所述信息中的实体名称、 属性以及属性值组成的新的三元 组存储到所述知识库中以更新所述知识库。
其中, 所述装置的工作原理可参照前述方法实施例中的描述, 在此不再 赘述。
由上可以看出, 利用本发明实施例三提供的信息处理装置, 不仅可以使 用户获取需要的信息时更加方便, 而且通过更新子单元实时更新所述知识库, 可以方便用户获取到最新的信息。
图 9为本发明实施例四提供的信息处理设备的结构示意图。 如图 9所示, 本实施例的遥控设备包括: 至少一个处理器 901、 存储器 902、 通信接口 903 和总线。 处理器 901、存储器 9Q2和通信接口 9Q3通过总线连接并完成相互间 的通信。 所述总线可以是工业标准体系结构 ( Indus t ry Standard Archi tecture , 简称为 ISA ) 总线、 夕卜部设备互连 ( Per iphera l Component , 简称为 PCI ) 总线或扩展工业标准体系结构 (Extended Indus try Standard Archi tecture , 简称为 EISA ) 总线等。 所述总线可以分为地址总线、 数据总 线、 控制总线等。 为便于表示, 图 9 中仅用一条粗线表示, 但并不表示仅有 一 ^总线或一种类型的总线。 其中:
存储器 902用于存储可执行程序代码, 该程序代码包括计算机操作指令。 存储器 902 可能包含高速 RAM 存储器, 也可能还包括非易失性存储器 ( non-vola t i le memory ), 例如至少一个磁盘存储器。
在一个实施例中, 处理器 901通过读耳 储器 902 中存储的可执行程序 代码来运行与所述可执行程序代码对应的程序, 以用于:
获取用户输入的搜索条件, 所述搜索条件包括实体的名称;
根据所述实体的名称, 从预先创建的知识库中选取包含所述实体的名称 的目标三元组, 所述目标三元组还包括所述实体的属性以及所述属性的属性 值;
显示所述实体的名称、 所述实体的属性以及所述属性的属性值。
处理器 901可能是一个中央处理器(Central Processing Unit, 简称为 CPU), 或者是特定集成电路( Application Specific Integrated Circuit, 简称为 ASIC), 或者是被配置成实施本发明实施例的一个或多个集成电路。
需说明的是, 上述处理器 901 除了具有上述功能之外, 还可用于执行上 述方法实施例中的其他流程, 在此不再赘述。
通信接口 903 主要用于实现本实施例的流量来源确定设备与其他设备或 装置之间的通信。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流 程, 是可以通过计算机程序来指令相关的硬件来完成, 所述的程序可存储于 一计算机可读取存储介质中, 该程序在执行时, 可包括如上述各方法的实施 例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体( Read-Only Memory, ROM )或随机存储记忆体 ( Random Access Memory, RAM )等。
以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限 于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易 想到变化或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发明的保护 范围应以所述权利要求的保护范围为准。

Claims

权利要求书
1、 一种信息处理方法, 其特征在于, 包括:
获取用户输入的搜索条件, 所述搜索条件包括实体的名称;
根据所述实体的名称, 从预先创建的知识库中选取包含所述实体的名称的 目标三元组, 所述目标三元组还包括所述实体的属性以及所述属性的属性值; 显示所述实体的名称、 所述实体的属性以及所述属性的属性值。
2、 根据权利要求 1所述的信息处理方法, 其特征在于, 所述根据所述实体 的名称, 从预先创建的知识库中选取包含所述实体的名称的目标三元组之前, 所述方法还包括:
利用在社交媒体上发布的信息创建所述知识库。
3、 根据权利要求 2所述的信息处理方法, 其特征在于, 所述利用在社交媒 体上发布的信息创建所述知识库具体包括:
抽取在社交媒体上发布的信息中的实体的名称、 属性以及属性值; 生成包含所述实体的名称、 属性以及属性值的三元组;
利用所述包含所述实体的名称、 属性以及属性值的三元组创建所述知识库。
4、 根据权利要求 3所述的信息处理方法, 其特征在于, 所述生成包含所述 实体的名称、 属性以及属性值的三元组具体包括:
利用模式抽取器将所述实体的名称、 属性以及属性值设置到预设的模板中 , 根据所述模板生成包含所述实体的名称、 属性以及属性值的三元组。
5、 根据权利要求 3或 4所述的信息处理方法, 其特征在于, 所述利用所述 包含所述实体的名称、 属性以及属性值的三元组创建所述知识库之前, 所述方 法还包括:
利用预先制定的模式规范对所述包含所述实体的名称、 属性以及属性值的 三元组进行校 。
6、 根据权利要求 2-5任一所述的信息处理方法, 其特征在于, 所述方法还 包括: 实时更新所述知识库。
7、 根据权利要求 6所述的信息处理方法, 其特征在于, 所述实时更新所述 知识库具体包括:
按照预设的时间间隔从社交媒体上获取发布的信息;
判断所述信息中是否存在所述知识库中的已有的实体名称;
若所述信息中存在所述知识库中已有的实体名称, 则利用所述信息中的实 体名称、 属性以及属性值组成的新的三元组更新所述知识库;
若所述信息中存在所述知识库中没有的实体名称, 则将所述信息中的实体 名称、 属性以及属性值组成的新的三元组存储到所述知识库中以更新所述知识 库。
8、 根据权利要求 1-7任一所述的信息处理方法, 其特征在于, 所述搜索条 件还包括所述实体的属性,
所述根据所述实体的名称, 从预先创建的知识库中选取包含所述实体的名 称的目标三元组, 所述目标三元组还包括所述实体的属性以及所述属性的属性 值包括:
根据所述实体的名称和所述实体的属性, 从预先创建的知识库中选取包含 所述实体的名称和所述实体的属性的目标三元组, 所述目标三元组还包括所述 属性的属性值。
9、 一种信息处理装置, 其特征在于, 包括:
获取单元, 用于获取用户输入的搜索条件, 所述搜索条件包括实体的名称; 选取单元, 与所述获取单元连接, 用于根据所述实体的名称, 从预先创建 的知识库中选取包含所述实体的名称的目标三元组, 所述目标三元组还包括所 述实体的属性以及所述属性的属性值;
显示单元, 与所述选取单元连接, 用于显示所述实体的名称、 所述实体的 属性以及所述属性的属性值。
10、 根据权利要求 9所述的信息处理装置, 其特征在于, 所述装置还包括: 知识库创建单元, 与所述选取单元连接, 用于利用在社交媒体上发布的信 息创建所述知识库。
11、 根据权利要求 10所述的信息处理装置, 其特征在于, 所述知识库创建 单元包括:
抽取子单元, 用于抽取在社交媒体上发布的信息中的实体的名称、 属性以 及属性值;
生成子单元, 与所述抽取子单元连接, 用于生成包含所述抽取子单元抽取 的所述实体的名称、 属性以及属性值的三元组;
创建子单元, 与所述生成子单元连接, 用于利用所述生成子单元生成的包 含所述实体的名称、 属性以及属性值的三元组创建所述知识库。
12、 根据权利要求 11所述的信息处理装置, 其特征在于, 所述生成子单元 具体用于:
利用模式抽取器将所述实体的名称、 属性以及属性值设置到预设的模板中 , 根据所述模板生成包含所述实体的名称、 属性以及属性值的三元组。
13、 根据权利要求 11或 12所述的信息处理装置, 其特征在于, 所述知识 库创建单元还包括:
校验子单元, 与所述生成子单元以及所述创建子单元连接, 用于利用预先 值的三元组进行校验。
14、 根据权利要求 10-13任一所述的信息处理装置, 其特征在于, 所述知 识库创建单元还包括:
更新子单元, 与所述创建子单元连接, 用于实时更新所述创建子单元创建 的所述知识库。
15、 根据权利要求 14所述的信息处理装置, 其特征在于, 所述更新子单元 包括:
获耳 莫块, 用于按照预设的时间间隔从社交媒体上获取发布的信息; 判断模块, 与所述获取模块连接, 用于判断所述获取模块获取的信息中是 否存在所述知识库中的已有的实体名称;
更新模块, 与所述判断模块连接, 用于在所述判断模块确定所述信息中存 在所述知识库中已有的实体名称时, 利用所述信息中的实体名称、 属性以及属 性值组成的新的三元组更新所述知识库; 在所述判断模块确定所述信息中存在 所述知识库中没有的实体名称时, 将所述信息中的实体名称、 属性以及属性值 组成的新的三元组存储到所述知识库中以更新所述知识库。
16、 根据权利要求 9-15任一所述的信息处理装置, 其特征在于, 所述获取 单元获取的所述搜索条件还包括所述实体的属性,
所述选取单元具体用于:
根据所述实体的名称和所述实体的属性, 从预先创建的知识库中选取包含 所述实体的名称和所述实体的属性的目标三元组, 所述目标三元组还包括所述 属性的属性值。
PCT/CN2014/080799 2014-02-24 2014-06-26 一种信息处理方法及装置 WO2015123950A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/988,959 US20160117405A1 (en) 2014-02-24 2016-01-06 Information Processing Method and Apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410063323.5 2014-02-24
CN201410063323.5A CN104866498A (zh) 2014-02-24 2014-02-24 一种信息处理方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/988,959 Continuation US20160117405A1 (en) 2014-02-24 2016-01-06 Information Processing Method and Apparatus

Publications (1)

Publication Number Publication Date
WO2015123950A1 true WO2015123950A1 (zh) 2015-08-27

Family

ID=53877595

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/080799 WO2015123950A1 (zh) 2014-02-24 2014-06-26 一种信息处理方法及装置

Country Status (3)

Country Link
US (1) US20160117405A1 (zh)
CN (1) CN104866498A (zh)
WO (1) WO2015123950A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488160A (zh) * 2015-11-30 2016-04-13 北大方正集团有限公司 一种图片挂接方法及装置、知识图谱的制作方法
CN105677931B (zh) * 2016-04-07 2018-06-19 北京百度网讯科技有限公司 信息搜索方法和装置
CN106055618B (zh) * 2016-05-26 2020-02-07 优品财富管理有限公司 一种基于网络爬虫与结构化存储的数据处理方法
CN106874380B (zh) * 2017-01-06 2020-01-14 北京航空航天大学 知识库三元组检验的方法与装置
US10719500B2 (en) 2017-03-17 2020-07-21 International Business Machines Corporation Method for capturing evolving data
CN106951539A (zh) * 2017-03-23 2017-07-14 苏州大学 一种信息真伪验证方法及系统
CN107679055B (zh) * 2017-06-25 2021-04-27 平安科技(深圳)有限公司 信息检索方法、服务器及可读存储介质
CN107633060B (zh) * 2017-09-20 2020-05-26 联想(北京)有限公司 一种信息处理方法及电子设备
CN107908637B (zh) * 2017-09-26 2021-02-12 北京百度网讯科技有限公司 一种基于知识库的实体更新方法及系统
CN109902149B (zh) 2019-02-21 2021-08-13 北京百度网讯科技有限公司 查询处理方法和装置、计算机可读介质
CN110399374A (zh) * 2019-07-05 2019-11-01 东软集团股份有限公司 数据检索方法、装置、存储介质及电子设备
CN110765342A (zh) * 2019-09-12 2020-02-07 竹间智能科技(上海)有限公司 信息查询方法及装置、存储介质、智能终端
CN112668332A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种三元组抽取方法、装置、设备及存储介质
CN111177409A (zh) * 2019-12-27 2020-05-19 北京明略软件系统有限公司 一种实现数据处理的方法、装置、计算机存储介质及终端
CN111259131B (zh) * 2020-01-09 2023-05-05 杭州网易再顾科技有限公司 信息处理方法、介质、装置和计算设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006082410A1 (en) * 2005-02-03 2006-08-10 British Telecommunications Public Limited Company Method and system for categorized presentation of search results
CN1823334A (zh) * 2003-05-14 2006-08-23 塞利布罗斯有限公司 搜索引擎方法及装置
CN102722542A (zh) * 2012-05-23 2012-10-10 无锡成电科大科技发展有限公司 一种资源描述框架图模式匹配方法
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1823334A (zh) * 2003-05-14 2006-08-23 塞利布罗斯有限公司 搜索引擎方法及装置
WO2006082410A1 (en) * 2005-02-03 2006-08-10 British Telecommunications Public Limited Company Method and system for categorized presentation of search results
CN102722542A (zh) * 2012-05-23 2012-10-10 无锡成电科大科技发展有限公司 一种资源描述框架图模式匹配方法
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置

Also Published As

Publication number Publication date
CN104866498A (zh) 2015-08-26
US20160117405A1 (en) 2016-04-28

Similar Documents

Publication Publication Date Title
WO2015123950A1 (zh) 一种信息处理方法及装置
US11599714B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
JP7127106B2 (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
CA3089037C (en) Detecting duplicated questions using reverse gradient adversarial domain adaptation
US20190377788A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
WO2017092380A1 (zh) 用于人机对话的方法、神经网络系统和用户设备
US10565401B2 (en) Sorting and displaying documents according to sentiment level in an online community
WO2015010566A1 (zh) 综合信息精准搜索方法
US20170371868A1 (en) Optimizing machine translations for user engagement
JP2011134334A (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
US20180102062A1 (en) Learning Map Methods and Systems
WO2016062099A1 (zh) 搜索方法及搜索装置
WO2021139257A1 (zh) 标注数据的选择方法、装置、计算机设备和存储介质
TWI673617B (zh) 使用者背景資訊的收集方法及裝置
US10496751B2 (en) Avoiding sentiment model overfitting in a machine language model
KR20180126589A (ko) 정보 검색 방법 및 장치
US20150262264A1 (en) Confidence in online reviews
CN113392197B (zh) 问答推理方法、装置、存储介质及电子设备
JP6230725B2 (ja) 因果関係分析装置、及び因果関係分析方法
EP4123474A1 (en) Method for acquiring structured question-answering model, question-answering method and corresponding apparatus
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN111291086A (zh) 一种课程内容搜索方法、系统、设备及存储介质
JP2022088540A (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14883168

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14883168

Country of ref document: EP

Kind code of ref document: A1