WO2019080910A1

WO2019080910A1 - 一种信息处理系统及其实现信息处理的方法

Info

Publication number: WO2019080910A1
Application number: PCT/CN2018/111962
Authority: WO
Inventors: 陆艳; 黄震江; 高洪; 刘勇
Original assignee: 中兴通讯股份有限公司
Priority date: 2017-10-25
Filing date: 2018-10-25
Publication date: 2019-05-02
Also published as: CN107992513A; CN107992513B

Abstract

本申请公开了一种信息处理系统及其实现信息处理的方法，包括：采集来自社交网络和社交平台中至少一种的基于用户标识(ID)的数据；对采集到的数据进行处理以形成基于用户ID的数据信息并存储；获取用户提出的问题，根据存储的基于用户ID的数据信息，对获得的用户提出的问题进行预处理，得到针对该用户提出的问题的答案。

Description

一种信息处理系统及其实现信息处理的方法

本申请要求在2017年10月25日提交中国专利局、申请号为201711010979.0的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及但不限于计算机技术，例如涉及一种信息处理系统及其实现信息处理的方法。

背景技术

目前，智能问答系统在接收到用户问题后，通过对用户问题进行格式标准化、语义分析、问题检索、相似度计算等处理后，从智能问答数据库中得到匹配或推荐的答案并返回给用户。其中，智能问答数据库的数据来源是通过人工添加、用户提问以及网络学习这几种渠道获取的。这里，通过网络学习是指广义的网络环境，并不包含与用户个人相关的社交网络环境中的语料数据。由此可见，智能问答数据库中的语料范围很宽泛，而针对用户本身的个性化、定制化的内容却很少，和用户生活的圈子也基本没有关联，因此，对于不同用户提出的同样的问题，智能问答系统就会给出同一个标准答案。这样的答案虽然从一问一答的角度来看是正确的，但是对于提出问题的用户来讲是不够具体的、不贴近用户需求的，这样，智能问答系统最终返回给用户的答案很大程度上并不是该用户最想获得的信息，也就是说，目前的智能问答系统不能很好地针对用户提供推荐信息。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请提供一种信息处理系统及其实现信息处理的方法，可以提供针对用户的推荐信息。

本申请提供了一种信息处理系统，包括：数据采集单元、学习单元、第一存储单元、收发单元，以及信息处理单元；其中，所述数据采集单元，设置为采集与用户标识ID相关联的信息；所述学习单元，设置为对采集到的信息进行处理以形成基于用户ID的数据信息并存储在所述第一存储单元中；所述收发单元，设置为接收用户提出的问题；将得到的针对所述用户提出的问题的答案返回给该用户；所述信息处理单元，设置为根据所述第一存储单元中存储的所述基于用户ID的数据信息，对获得的用户提出的问题进行预处理，得到针对所述用户提出的问题的答案。

在一实施例中，所述与用户标识ID相关联的信息来自社交网络和社交平台中至少一种；所述社交网络至少为一个，所述社交平台至少为一个。

本申请还提供了一种实现信息处理的方法，包括：采集与用户标识ID相关联的信息；对采集到的信息进行处理以形成基于用户ID的数据信息并存储；获取用户提出的问题，根据存储的所述基于用户ID的数据信息，对获得的用户提出的问题进行预处理，得到针对该用户提出的问题的答案。

在一实施例中，所述与用户标识ID相关联的信息来自于社交网络和社交平台中至少一种；社交网络的数目为至少一个，社交平台的数目为至少一个。

在一实施例中，所述对采集到的信息进行处理以形成所述基于用户ID的数据信息包括：根据所述采集到的信息生成临时文件；每生成一个所述临时文件时，对所述临时文件进行标注，并将标注后的临时文件信息保存在临时元素表中。

在一实施例中，所述方法还包括：定时读取所述已有语料信息；比较所述临时元素表中的数据和读取的所述已有语料信息，存储读取的所述已有语料信息中不存在的临时元素。

在一实施例中，所述方法还包括：将所述用户提出的问题进行预处理之后得到待处理答案，根据得到的所述待处理答案的相关信息与所述与用户标识ID相关联的信息进行相似度比较，将相似度最高的答案作为所述针对用户提出的问题的答案。本申请又提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述任一项实现信息处理的方法。

本申请再提供了一种实现信息处理的装置，包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序，所述计算机程序配置为执行包括以下步骤的方法：采集与用户标识ID相关联的信息；对采集到的信息进行处理以形成基于用户ID的数据信息并存储；获取用户提出的问题，根据存储的所述基于用户ID的数据信息，对获得的用户提出的问题进行预处理，得到针对该用户提出的问题的答案。

本申请还提供了一种信息处理装置，生成模块、标注模块、临时元素表；其中，生成模块，设置为根据采集到的数据生成临时文件；标注模块，，设置为在所述生成模块每生成一个临时文件时，对所述临时文件进行标注，将标注后的临时文件信息保存在临时元素表中。

在一实施例中，所述学习单元还包括：获取模块、比对模块；其中，所述获取模块，设置为定时从第一存储单元中读取语料信息；所述比对模块，设置为将临时元素表中的数据和所述获取模块获得的语料信息进行比较，将第一存储单元中不存在的临时元素存储到第二存储单元中。

本申请又提供了一种实现信息处理的方法，包括：根据采集到的信息生成临时文件；每生成一个所述临时文件时，对所述临时文件进行标注并将标注后的临时文件信息保存在临时元素表中。

在一实施例中，所述方法还包括：定时读取已有语料信息；比较所述临时元素表中的数据和读取的所述已有语料信息，存储读取的所述已有语料信息中不存在的临时元素。

本申请一实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机程序设置为执行上述任一项实现信息处理的方法。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请信息处理系统的组成结构示意图；

图2为本申请信息处理系统中学习单元的组成结构示意图；

图3为本申请实现信息处理的方法的流程图；

图4为本申请第一实施例中的组网架构示意图；

图5为本申请第一实施例中实现信息处理的流程示意图；

图6为本申请第二实施例中的组网架构示意图；

图7为本申请第二实施例中实现信息处理的流程示意图；

图8为本申请第三实施例中的组网架构示意图；

图9为本申请第三实施例中实现信息处理的流程示意图；

图10为本申请第四实施例中的组网架构示意图；

图11为本申请第四实施例中实现信息处理的流程示意图。

具体实施方式

下文中将结合附图对本申请的实施例进行详细说明。

以一个用户希望智能问答系统推荐附近好吃的餐馆为例，比如：当用户通过用户界面向智能问答系统提出“推荐个附近好吃的餐馆”的问题时，智能问答系统可以根据用户当前所在位置推荐附近的餐馆。再如：当用户提出“符合我口味的餐馆推荐下”的问题时，智能问答系统可以根据用户当前所在位置推荐附近的餐馆，推荐的餐馆通常是按照点评从高到低的顺序给出的，由于智能问答系统并不知道用户个人喜好的口味，因此，只能按照预先设置好的规则如按照评分高低推荐附近的餐馆，而推荐不出符合用户口味的餐馆。又如：当用户提出“从我家怎么去南京南站”的问题时，用户是想知道从自己家到南京南站的路径，但是智能问答系统只能根据用户当前所在位置给出用户当前所在位置到南京南站的路径。

一般用户自己圈子里的朋友口味相近的可能性会大很多，而且熟识的朋友也会对该用户的工作和生活区域更为了解，如果用户和亲朋好友在社交网络和社交平台中至少一种中讨论过这些话题、共享过位置信息、或者朋友发布过相关的内容，如果基于智能推荐引擎的问答系统能结合这些语料再给出建议和回复，答案会更接近用户想要的答案。对于提出问题的用户来讲是够具体的、更贴近用户需求的，从而能够更好地提供针对用户的推荐信息。

本文中，社交网络强调的是一个公开的网络环境，社交网络中的成员之间的关系是单向的，包括关注与被关注。社交网络中的每个成员发布的信息陌生人都可以看到，粉丝可以设置为被动接收关注对象新发布的内容。常见的社交网络如微博或推特(Twitter)等。社交平台强调的是一个较为封闭的网络环境，社交平台的成员之间的关系是双向的，成员之间一旦加为好友，双方发布的信息相互都可以看到。常见的社交平台如微信或脸书(facebook)等。

图1为本申请信息处理系统的组成结构示意图，如图1所示，信息处理系统至少包括：数据采集单元、学习单元、第一存储单元、收发单元，以及信息处理单元。

本申请信息处理系统中的数据采集单元，设置为采集与用户身份标识(IDentity，ID)相关联的信息，例如来自社交网络和社交平台中至少一种的信息。

本申请信息处理系统中的数据采集单元可以通过第三方社交网络和社交平台中至少一种开放的接口采集来自社交网络和社交平台中至少一种的基于用户标识(ID)的数据。数据包括但不限于：用户登记的个人信息，本人原创的朋友圈信息、帖子、图片、音频、视频以及转发的帖子中的任意组合，用户好友或关注人或粉丝原创的朋友圈信息、帖子、图片、音频、视频以及转发的帖子中的任意组合，用户本人或好友或关注人或粉丝加入的群组、社区、关注的公众号中存在的帖子、图片、音频以及视频中的任意组合。

本申请中与用户ID相关联的数据可以分为两类：静态数据和动态数据。其中，静态数据包括但不限于：用户的性别、职业、工作城市，以及毕业学校等。动态数据包括但不限于：在某个时间回答了一个问题、给一个回答点赞、发表了一篇文章、在某一回答页面停了多久，以及评论用了多久等；更深层次的动态数据还可以包括：用户发表的文章、言论等基于内容的，以及能表达用户思想的数据。

相关技术中提供的语料数据库中并没有涉及与用户ID有关的数据，本申请实施例中对基于用户ID的数据进行了采集，可以分析出用户自身的信息及想法，从而可以为后续给出符合用户个人需求的答案提供依据。

本申请中的社交网络可以是至少一个对本发明信息处理系统开放了接口的社交网络，本申请中的社交平台可以是至少一个对本发明信息处理系统开放了接口的社交平台；本申请中的社交网络可以是本申请信息处理系统通过网络爬虫或搜索方式获取到的来自社交网络和社交平台中至少一种的信息，本申请中的社交平台可以是本申请信息处理系统通过网络爬虫或搜索方式获取到的来自社交平台中的信息。

本申请信息处理系统与社交网络之间，信息处理系统与社交平台之间，以及信息处理系统与社交网络和社交平台之间可以通过接口IF1交互以获得与用户ID有关的数据。

本申请信息处理系统中的学习单元，设置为对采集到的信息进行处理以形成基于用户ID的数据信息，并转换为信息处理系统要求的格式，存储在第一存储单元中。

在一实施例中，对采集到的信息进行处理可以包括但不限于：关键词提取、领域分类、相似度计算，以及归一化等机器学习算法处理，形成基于用户ID的数据信息。

图2为本申请信息处理系统中学习单元的组成结构示意图，如图2所示，至少包括：生成模块、标注模块，以及临时元素表。

生成模块，设置为根据来自数据采集单元的数据生成临时文件。

在一实施例中，可以按照预先设置的规则生成临时文件。

数据采集单元是通过接口采集数据的，返回的响应消息中会包含如用户名、发表时间，以及发表内容等信息，将这些信息形成文件，需要制定生成文件名的规则。比如“用户名+时间戳”，文件内容每行发表一条内容，回车表示另起一行，或者也可用各种标点符号分隔等规则，这些规则都是生成临时文件前设置好的。

标注模块，设置为在所述生成模块每生成一个临时文件时，对临时文件进行标注，将标注后的临时文件信息保存在临时元素表中。

需要说明的是，临时文件被标注后则形成如词、短语，以及句子之类的元素的临时文件信息，临时元素表中存储的标注后的临时文件指的是这些元素。

在一实施例中，可以采用数据自动标注工具如采用根据历史语料标注记录训练得到的模型，并结合人工审核的方式对临时文本进行标注。其中，数据自动标注工具主要设置为对各类数据，如文本、图片、视频实现自动化标注，具体实现并不用于限定本申请的保护范围。自动标注工具的准确率由相关数据训练集的完整度和算法模型共同决定。

在一实施例中，本申请信息处理系统中学习单元还包括：获取模块，以及比对模块。

获取模块，设置为定时从本申请信息处理系统已有数据库，如第二存储单元中读取各种语料信息，例如经常问到的问题(Frequently Asked Questions，FAQ)、寒暄语、等价句等。

比对模块，设置为将临时元素表中的数据和获取模块获得的已有数据库中的语料信息进行比较，将已有数据库中不存在的临时元素通过管理门户存储到第一存储单元中。

这里，管理人员可以通过管理门户是对临时元素进行审核，审核通过后的临时元素会写入第一存储单元中。

本申请信息处理系统中的收发单元，设置为通过如客户端/万维网(World Wide Web，WEB)网页/短信/彩信/互动式语音应答(Interactive Voice Response，IVR)方式等接收用户提出的问题；将得到的针对用户提出的问题的答案返回给该用户。

在一实施例中，可以接入各种第三方应用(Application，APP)或微信或网站中，也可以和运营商的短信/彩信/语音中心对接，以获取用户提出的问题。

本申请信息处理系统中信息处理单元与第一存储单元之间可以通过接口IF2获取与用户提出的问题对应的答案。

本申请信息处理系统中的信息处理单元，设置为根据第一存储单元中存储的基于用户ID的数据信息，对获得的用户提出的问题进行敏感词过滤、标准化等预处理，得到针对该用户提出的问题的答案。

在一实施例中，信息处理单元还设置为：根据得到的答案的相关信息，例如内容、来源渠道、权限、权重进行相似度比较，得到得分最高且满足本申请信息处理系统预先设置的阈值的答案作为所述针对用户提出的问题的答案。这里强调的是，在相似度的计算过程中考虑到了来源渠道、权限、权重等因素，而如何实现相似度的计算可以采用多种相关技术中的方法来实现，并不用于限定本申请的保护范围。

在一实施例中，本申请信息处理系统还包括同步单元，设置为将需要同步的用户提出的问题同步到第一存储单元中，再由信息处理单元调用和社交网络和社交平台至少一种的接口，发布到社交网络和社交平台中至少一种上。如果用户选择将对本申请信息处理系统提出的问题同时发布到社交网络和社交平台中至少一种上，那么，如果本申请信息处理系统对提出的问题没有给出最满意的答案，用户也可能获得社交网络和社交平台中至少一种中亲朋好友给出的方案。在一实施例中，社交网络和社交平台中至少一种中亲朋好友给出的方案同样可以被本申请信息处理系统学习到并存储在第一存储单元中，为后续的答案查询提供补充和完善。

这样，用户的社交圈子里的人就可以给出针对发布出去的问题的建议和回答。后续这些答案将再次被数据采集单元采集并被学习单元学习到。

本申请信息处理系统中同步单元与第一存储单元之间可以通过接口IF3同步用户提出的问题。

例如，如果用户通过用户界面向本申请提供的信息处理系统提出的问题包括：推荐一个附近好吃的餐馆或者推荐一个符合我口味的餐馆。本申请信息处理系统根据该用户在社交网络发表过的帖子或在社交平台和亲朋好友交流过的个人口味的信息，分析出该用户喜欢粤菜，那么，本申请信息处理系统会再结合用户当前的位置信息，给出距离该用户最近且得分较高的粤菜餐馆。再如，如果用户通过用户界面向本申请提供的信息处理系统提出的问题包括：从我家怎么去南京南站。本申请信息处理系统会根据用户在社交网络中早上或晚上等休息时间发表过的位置信息的帖子或在社交平台和亲朋好友交流过的家庭住址、小区信息等，给出从该用户家到南京南站的路径地图。

在一实施例中，本申请信息处理系统还包括：管理单元，设置为配置定时任务，按照定时任务定时触发数据采集单元对来自社交网络和社交平台中至少一种的数据进行采集。在一实施例中，系统管理员可以通过管理门户配置所述定时任务。

管理单元，除了可以管理通用问答数据库里的语料，还设置为：对第一存储单元中存储的基于用户ID的数据信息进行管理和维护，比如进行以下至少之一的管理和维护：设置基于用户ID的数据信息的权重，设置用户查询基于用户ID的数据信息时的权限，以及保证用户的隐私安全。在一实施例中，系统管理员可以通过管理门户对基于用户ID的数据信息进行管理和维护。

管理单元还设置为：对第一存储单元中的基于用户ID的数据信息进行增删改查操作。在一实施例中，系统管理员可以通过管理门户对基于用户ID的数据信息进行增删改查操作。在一实施例中，系统管理员还可以通过管理门户对不同类型的基于用户ID的数据信息进行权限设置，规定不同的基于用户ID的数据信息的访问权限，如公开、好友可见或只能自己查看等。在一实施例中，还可以对来源不同、类型不同的基于用户ID的数据信息设置权重。这样，在本申请信息处理系统检索答案以及进行相似度计算时，可以结合权重对多个答案进行排序，从而获得得分最高且满足本申请信息处理系统预先设置的阈值的答案。

在一实施例中，本申请信息处理系统还包括：第二存储单元，设置为存储已有语料信息。

信息处理单元，设置为结合第一存储单元中存储的基于用户ID的数据信息和第二存储单元中存储的已有语料信息，对获得的用户提出的问题进行敏感词过滤、标准化等预处理，得到针对该用户提出的问题的答案。

需要说明的是，第二存储单元和第一存储单元在实现上可以是同一个数据库。

图3为本申请实现信息处理的方法的流程图，如图3所示，包括步骤300至步骤302。

在步骤300中，采集与用户标识ID相关联的信息，例如来自社交网络和社交平台中至少一种的基于用户标识(ID)的数据。

本步骤中，采集可以通过第一数据请求消息和第一数据响应消息获取与用户ID有关的数据，其中，第一数据请求消息包括但不限于表1所示的以下字段：

表1

其中，第一数据响应消息包括但不限于表2所示的以下字段：

表2

表2中第一数据响应消息中的发布的数据内容(content)字段中包括如表3所示的以下参数：

表3

第一数据响应消息中的发布的数据内容(content)字段中的地理位置参数中包括如表4所示的以下参数：

表4

在步骤301中，对采集到的数据进行处理以形成基于用户ID的数据信息并存储。

在一实施例中，本步骤中可以通过机器学习算法的处理并转换为预先要求的格式后形成基于用户ID的数据信息，再存储得到的基于用户ID的数据信息。

在一实施例中，机器学习算法可以包括但不限于：关键词提取、领域分类、相似度计算，以及归一化等机器学习算法处理，形成基于用户ID的数据信息。

在一实施例中，本步骤中存储的基于用户ID的数据信息如语料存储在图1所示的第一存储单元中，包括如表5所示的字段：

表5

在一实施例中，步骤301包括：按照预先设置的规则将采集到的数据生成临时文件；在每生成一个临时文件时，对该临时文件进行标注，并将标注后的临时文件信息保存在临时元素表中。

需要说明的是，临时文件被标注后，则形成如词、短语以及句子等元素的临时文件信息，临时元素表中存储的标注后的临时文件指的是这些元素。

数据采集单元是通过接口采集数据的，返回的响应消息中会包含如用户名、发表时间、发表内容等信息，将这些信息形成文件，需要制定生成文件名的规则。比如“用户名+时间戳”，文件内容每行发表一条内容，回车表示另起一行，或者也可用各种标点符号分隔等规则，这些规则都是生成临时文件前设置好的。

在一实施例中，可以采用数据自动标注工具如采用根据历史语料标注记录训练得到的模型，并结合人工审核的方式对临时文本进行标注。其中，数据自动标注工具主要设置为对各类数据，如文本、图片以及视频实现自动化标注，具体实现并不用于限定本申请的保护范围。自动标注工具的准确率由相关数据训练集的完整度和算法模型共同决定。

在一实施例中，还包括：定时从已有数据库如图1中所示的第二存储单元中读取如FAQ、寒暄语以及等价句等各种语料信息；将临时元素表中的数据和获取模块获得的已有数据库中的语料信息进行比较，存储已有数据库中不存在的临时元素。

在步骤302中，获取用户提出的问题，根据存储的基于用户ID的数据信息，对获得的用户提出的问题进行预处理，得到针对该用户提出的问题的答案。

在一实施例中，可以通过如客户端/万维网(WEB)网页/短信/彩信/互动式语音应答(Interactive Voice Response，IVR)方式等接收用户提出的问题。

可以通过第二数据请求消息和第二数据响应消息获取与用户提出的问题对应的答案，其中，第二数据请求消息包括但不限于表6所示的以下字段：

表6

其中，第二数据响应消息包括但不限于表7所示的以下字段：

表7

表7中第二数据响应消息中的发布的答案列表(answerList)字段中包括如表8所示的以下参数：

表8

在一实施例中，本步骤中的对获得的用户提出的问题进行预处理包括但不限于：对获得的用户提出的问题进行敏感词过滤、标准化等预处理。

本步骤还包括：将所述用户提出的问题进行预处理之后得到待处理答案，根据得到的待处理答案的相关信息如内容、来源渠道、权限以及权重进行相似度比较，得到得分最高且满足预先设置的阈值的答案，并作为返回提出问题的用户的答案。这里强调的是，在相似度的计算过程中考虑到了来源渠道、权限以及权重等因素，而如何实现相似度的计算可以采用多种相关技术中的方法来实现，并不用于限定本申请的保护范围。

本申请图3所示的方法还包括：同步需要同步的用户提出的问题，并发布到社交网络和社交平台中至少一种上。

在一实施例中，社交网络和社交平台中至少一种中亲朋好友针对同步的问题给出的方案同样可以被学习到并存储在如图1所示的第一存储单元中，为后续的答案查询提供了补充和完善。

可以通过第三数据请求消息和第三数据响应消息同步用户提出的问题，其中，第三数据请求消息包括但不限于表9所示的以下字段：

表9

其中，第三数据响应消息包括但不限于表10所示的以下字段：

表10

本申请图3所示的方法还包括：配置定时任务，按照定时任务定时触发对来自社交网络和社交平台中至少一种的数据的采集。在一实施例中，系统管理员可以通过管理门户配置所述定时任务。

在一实施例中，还包括：对存储的基于用户ID的数据信息进行管理和维护。比如可进行以下至少之一的管理和维护：设置基于用户ID的数据信息的权重，设置用户查询基于用户ID的数据信息时的权限，以及保证用户的隐私安全。在一实施例中，系统管理员可以通过管理门户对基于用户ID的数据信息进行管理和维护。

在一实施例中，还包括：对存储的基于用户ID的数据信息进行增删改查操作。比如，系统管理员可以通过管理门户对基于用户ID的数据信息进行增删改查操作。在一实施例中，系统管理员还可以通过管理门户对不同类型的基于用户ID的数据信息进行权限设置，规定不同的基于用户ID的数据信息的访问权限，如公开、好友可见或只能自己查看等。在一实施例中，还可以对来源不同、类型不同的基于用户ID的数据信息设置权重。这样，在本申请信息处理系统检索答案以及进行相似度计算时，可以结合权重对多个答案进行排序，从而获得得分最高且满足本申请信息处理系统预先设置的阈值的答案。

本申请图3所示的方法还包括：结合存储的基于用户ID的数据信息和存储的已有语料信息，对获得的用户提出的问题进行如敏感词过滤、标准化等预处理，得到针对该用户提出的问题的答案。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行本申请任一项实现信息处理的方法。

本申请还提供了一种实现信息处理的装置，包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序：采集与用户标识ID相关联的信息如来自社交网络和社交平台中至少一种的基于用户标识(ID)的信息；对采集到的信息进行处理以形成基于用户ID的数据信息并存储；获取用户提出的问题，根据存储的基于用户ID的数据信息，对获得的用户提出的问题进行预处理，得到针对该用户提出的问题的答案。

下面结合实施例对本申请实施例进行详细描述。

第一实施例中，假设信息处理系统为独立于社交网络的语料管理和智能问答系统，语料从某社交网络通过开放的接口获取。

图4为本申请第一实施例中的组网架构示意图，如图4所示，其中的语料管理模块至少包括图1中的管理单元、数据采集单元，学习单元以及第一存储单元；其中的逻辑处理模块至少包括图1中的收发单元以及信息处理单元。图5为本申请第一实施例中实现信息处理的流程示意图，如图5所示，包括步骤500至步骤515。

在步骤500中，语料管理模块根据管理员配置的定时任务，定期调用社交网络开放的接口，向社交网络发起获取用户语料请求。

通过用户语料请求以获取用户个人信息、用户本人/关注人/粉丝发布的内容，以及评论内容等，作为系统的语料素材。

在步骤501～步骤502中，语料管理模块调用语料查询接口IF1，从社交网络查询用户数据。

本实施例中，语料管理模块向社交网络发送如表11所示的第一数据请求消息：

表11

社交网络在收到表11所示的第一数据请求消息后，会向语料管理模块返回如表12所示格式的第一数据响应消息：

表12

表12中的发布的数据内容参数的内容如表13所示：

表13

表13中地理位置的内容如表14所示：

表14

在步骤503中，语料管理模块按一定格式将获得的语料素材写入社交语料临时文件，每完成一个临时文件便自动进行语料标注，标注后的数据写入临时元素表。

这样，管理员已设置的定时任务会从已有语料库中读取语料，与临时元素表中的语料进行比对，如果是已有语料库中不存在的新语料，则写入本申请的第一存储单元即社交语料数据库中。

按照管理员预先设置的新语料测试规则，满足规则且分数达标的新语料会自动保存到社交语料数据库中，或者由管理员审核后存入数据库中。保存的数据中携带语料的渠道、权限、权重以及生成时间等属性。所有关联在同一个用户ID下的社交语料组成该用户的个人语料数据集。这里，新语料测试规则可以包括但不限于：如选择新词作为关键词，每个新词选择100条用户问句，测试新词加入后对问答准确率的影响。如果准确率满足要求的得分，就将新词加入社交语料数据库中等。

如表11～表14所示的数据，语料管理模块分析出的地理位置关键词是“广州市”、“越秀区”、“北园酒家”，以及“走过这么多地方，最爱的还是家乡的早茶和肠粉”中的关键词“早茶”和“肠粉”，这样，可以联想和推理出关键词“粤菜”、“餐馆”，这里，联想和推到的实现可以通过在系统中预先设置实体词和上位词的包含关系来实现，即实体词属于上位词的子类，这样可以根据实体词如本实施例中的早茶、肠粉查出它们的父类即上位词为粤菜或餐馆。本实施例中，假设比对后发现已有语料库中该用户不存在这些关键词，并且这些新增关键词符合管理员设置的新语料测试规则，因此，将这些关键词写入社交语料数据库，同时标注关键词属性，比如：渠道为“微博”，权限为“公开”，权重为“70％”，生成时间为“20170603000125”，其中权重可以由管理员根据经验、历史测试数据等人工设置。

在步骤504～步骤506中，用户打开本申请提供的信息处理系统的交互网页如问答页面，用户可以使用本申请信息处理系统已对接的几种社交网络的个人账号登录，从而根据用户ID获取该用户的用户个人信息和语料数据；也可以让用户通过问答页面注册账号并绑定几种和本申请信息处理系统已对接的社交网络的个人账号。

在步骤507中，用户在问答页面提出问题。

本实施例中，假设用户不登录问答页面的情况下只能搜索通用渠道的语料即已有的数据信息即本申请中的第二存储单元，用户在登陆后，可以由用户或系统管理员指定搜索范围，比如搜索范围是通用渠道的语料库、或是指定某几个社交网络的语料库、或是全部渠道的语料库等。

上文举例中，比如用户登录后输入问题为：符合我口味的餐馆推荐下？并且指定搜索范围为：通用渠道的语料库+微博渠道的语料库。

在步骤508中，问答页面向逻辑处理模块发起查询答案请求。

在步骤509中，逻辑处理模块对问题进行标准化处理去除特殊符号、过滤掉敏感词等预处理。

这里，特殊符号通常指各种标点符号，敏感词指政治、涉黄、赌博以及毒品这类词语。敏感词通常指一些涉及黄赌毒的词。

在步骤510～步骤511中，逻辑处理模块对“符合我口味的餐馆推荐下”这个问题，调用自身与语料模块的接口IF2，向语料模块发起查询答案请求；经过等价句查询、同义词替换及查询关键词、查询FAQ等处理后，假设本实施例中查询到若干个答案：

本地值得推荐的川菜餐馆有aaa，bbb，ccc...

本地值得推荐的苏菜餐馆有eee，fff，ggg...

本地值得推荐的湘菜餐馆有hhh，iii，jjj...

本地值得推荐的粤菜餐馆有xxx，yyy，zzz...

在步骤512中，语料模块将查询到的若个个问题答案返回给逻辑模块。

在步骤513中，逻辑处理模块对得到的所有待处理答案进行相似度计算，并结合查询到的渠道、权限、权重等参数，假设得出得分最高的答案为“本地值得推荐的粤菜餐馆有xxx，yyy，zzz...”。

在步骤514中，逻辑处理模块将答案“本地值得推荐的粤菜餐馆有xxx，yyy，zzz...”返回给问答页面。

在步骤515中，问答页面将结果展示给用户。

在一实施例中，所述方法还包括：根据经过所述预处理之后的所述用户提出的问题的相关信息与所述与用户标识ID相关联的信息进行相似度比较，得到相似度最高的问题并针对所述相似度最高的问题查询答案，将所述相似度最高的问题的答案作为所述针对用户提出的问题的答案。其中，逻辑处理模块和语料模块的功能可参考步骤510至步骤513中的描述进行适应性调整，不再赘述。

第二实施例中，假设问答页面集成在某社交平台中，语料从社交平台接口获取。

图6为本申请第二实施例中的组网架构示意图，如图6所示，其中的语料管理模块至少包括图1中的管理单元、数据采集单元和学习单元、第一存储单元；其中的逻辑处理模块至少包括图1中的收发单元、信息处理单元。图7为本申请第二实施例中实现信息处理的流程示意图，如图7所示，包括步骤700至步骤717。

在步骤700中，语料管理模块定期从社交平台数据库同步用户数据。

本步骤中，通过社交平台的内部接口，根据用户ID可以获得该用户的用户个人信息，以及该用户本人和好友中至少之一发布的内容、评论的内容，或者聊天内容等，作为语料素材。

在步骤701～步骤702中，语料管理模块根据机器学习算法对获取的语料素材进行自学习，并根据管理员预先设置的规则自动触发语料测试，得分答标的语料自动保存到语料管理模块中，或者由管理员审核后保存到语料管理模块中。保存的数据中携带有语料的渠道属性。

在步骤703～步骤707中，用户登录社交平台。

大致包括：用户登录到社交平台的门户中，门户到数据库中查询用户信息，对用户鉴权，然后在登录响应中返回鉴权结果给用户。

在步骤708中，用户一键登录集成在社交平台中的问答页面，并通过问答页面提出问题。

在步骤709中，问答页面将向逻辑处理模块发起查询答案请求。

在步骤710中，逻辑处理模块对问题进行标准化处理、敏感词过滤等预处理。

在步骤711中，逻辑处理模块通过接口IF2向语料管理模块发起查询答案请求。

在步骤712～步骤713中，语料管理模块查询数据库获得问题答案。

在步骤714中，语料管理模块通过接口IF2将查询结果返回给逻辑处理模块。

在步骤715中，逻辑处理模块对查询到的所有待处理答案进行相似度计算，并结合查询到的渠道、权限、权重等参数，综合得到得分最高的答案。

在步骤716中，逻辑处理模块将结果返回给问答页面。

在步骤717中，问答页面将结果展示给用户。

在一实施例中，所述方法还包括：根据经过所述预处理之后的所述用户提出的问题的相关信息与所述与用户标识ID相关联的信息进行相似度比较，得到相似度最高的问题并针对所述相似度最高的问题查询答案，将所述相似度最高的问题的答案作为所述针对用户提出的问题的答案。其中，逻辑处理模块和语料模块的功能可参考步骤711至步骤715中的描述进行适应性调整，不再赘述。

第三实施例中，假设用户所提出的问题被同步到社交网络，答案被本申请信息处理系统再次学习。

图8为本申请第三实施例中的组网架构示意图，如图8所示，其中的语料管理模块至少包括图1中的管理单元、数据采集单元和学习单元、第一存储单元；其中的逻辑处理模块至少包括图1中的收发单元、信息处理单元。图9为本申请第三实施例中实现信息处理的流程示意图，如图9所示，包括步骤900至步骤924。

在步骤900中，用户打开本申请信息处理系统的问答网页，可以让用户用本申请信息处理系统已对接的几种社交网络的个人账号登录，从而根据用户ID获取该用户的用户个人信息和语料数据。

也可以让用户在本申请信息处理系统中注册账号，并绑定几种和本申请信息处理系统已对接的社交网络的个人账号。

在步骤901中，问答页面鉴权账户信息。

在步骤902中，问答页面通过登录响应将登录结果返回给用户。

在步骤903中，用户通过问答页面提出问题，问答页面根据用户已关联账号的情况，可以在问答页面下方给出多选列表，用户可以采用如勾选的方式确定是否将问题同步到社交网络。

如果用户未登录本申请信息处理系统或未关联社交网络账号的用户页面，则不会显示多选列表。

在步骤904中，问答页面保存用户需要同步的问题的同步选项。

在步骤905中，问答页面向逻辑处理模块发起查询答案请求。

在步骤906中，逻辑处理模块对问题进行标准化处理、敏感词过滤等预处理。

在步骤907中，逻辑处理模块调用接口IF2向语料管理模块发起查询答案请求。

在步骤908中，语料管理模块从语料数据库中查询问题的答案。

在步骤909中，语料管理模块将查询到的问题的答案(列表)携带在查询答案响应返回给逻辑处理模块。

在步骤910中，逻辑处理模块对查询到的所有待处理答案进行相似度计算，并结合查询到的渠道、权限、权重等，综合得到得分最高的答案。

在步骤911中，逻辑处理模块将结果携带在查询答案响应返回给问答页面。

在步骤912中，问答页面将结果展示给用户。

在步骤913中，如果用户选择的是同时发布问题到社交网络，那么，本申请信息处理系统将用户想要发布的问题发布到社交网络上；问答页面同步问题给逻辑处理模块。

在步骤914中，逻辑处理模块调用接口IF3，将问题同步给语料管理模块。

在步骤915中，语料管理模块通过社交网络开放的第三方接口向社交网络发起问题发布请求。

在步骤916中，社交网络将发布出用户提出的问题。

在步骤917中，社交网络通过问题发布响应向语料管理模块返回发布结果。

在步骤918～步骤919中，语料管理模块将问题同步响应返回给逻辑处理模块，最终返回给问答页面。

在步骤920中，用户的朋友看到发布的问题后，可以给出评论或私信。

这样，用户同时能得到本申请信息处理系统给出的答案，也能收到自己社交圈子里好友或粉丝给出的评论。

在步骤921中，本申请信息处理系统的语料管理模块定期调用社交网络开放的第三方接口，同步用户语料，同时也能获得这些评论内容，作为语料素材。

在步骤922中，社交网络查询用户数据。

在步骤923中，社交网络将用户数据返回给语料管理模块。

在步骤924中，语料管理模块根据机器学习算法重新学习这部分内容，并保存到语料数据库中。

如此按照第三实施例的循环，用户个人的语料数据集就能不断地得到修正。这样，当用户再次提出类似或相关的问题时，本申请信息处理系统就有更丰富的语料作为参考，给出更贴近用户需求、准确率更高的答案。

在一实施例中，所述方法还包括：根据经过所述预处理之后的所述用户提出的问题的相关信息与所述与用户标识ID相关联的信息进行相似度比较，得到相似度最高的问题并针对所述相似度最高的问题查询答案，将所述相似度最高的问题的答案作为所述针对用户提出的问题的答案。其中，逻辑处理模块和语料模块的功能可参考步骤907至步骤910中的描述进行适应性调整，不再赘述。

第四实施例，假设语料管理模块应用在本申请信息处理系统中。

图10为本申请第四实施例中的组网架构示意图，如图10所示，其中的语料管理模块至少包括图1中的管理单元、数据采集单元和学习单元、第一存储单元；其中的逻辑处理模块至少包括图1中的收发单元、信息处理单元。图11为本申请第四实施例中实现信息处理的流程示意图，如图11所示，包括步骤1100至步骤1113。

在步骤1100中，用户的朋友和用户互动，评论用户发布在社交网络上的帖子。

在步骤1101中，语料管理模块定期向社交网络发出用户数据查询请求，以获取用户发表的文字，同时获取到这些评论内容，作为语料素材。

在步骤1102～步骤1103中，社交网络将朋友对用户文字的评论内容返回给语料管理模块。

在步骤1104中，语料管理模块根据机器学习算法学习这些数据，分析出每个用户的关键词、问题和相应答案等新增语料，并将语料的属性如权限、权重等保存到语料数据库中。

在步骤1105中，用户打开某对接了本申请信息处理系统的门户网站，并通过本申请信息处理系统已对接的几种社交网络的个人账号登录，从而根据用户ID获取该用户的用户个人信息和语料数据。

用户也可以通过门户网站注册新账号并绑定几种和本申请信息处理系统已对接的社交网络的个人账号。

在步骤1106中，门户网站调用本申请信息处理系统的相关接口查询数据库对用户进行鉴权。

在步骤1107中，如果鉴权失败，门户向用户返回登录失败响应；如果鉴权成功，门户向本申请信息处理系统中的逻辑处理模块发起查询用户热点词汇请求。

在步骤1108中，逻辑处理模块向语料管理模块发起查询用户热点词汇请求。

在步骤1109中，语料管理模块查询语料数据库，综合打分后按照预先设置的规则将排名靠前的关键词作为用户热点词汇列表。

在步骤1110中，语料管理模块通过查询用户热点词汇响应向逻辑处理模块返回用户热点词汇列表。

在步骤1111中，逻辑处理模块根据业务需要综合处理后得到推荐内容列表。

这里，业务需要综合处理主要是指结合推荐网站自己的业务特点，比如购物网站，可能会筛选上一步获取的热点词汇中和日常生活、商品、购物相关的热词等。再如，如果是App下载网站，可能会筛选游戏、娱乐相关的热词等。

在步骤1112中，逻辑处理模块将推荐内容列表返回给门户。

在步骤1113中，门户返回登录成功响应并向用户展示推荐内容。

Claims

一种信息处理系统，包括：数据采集单元、学习单元、第一存储单元、收发单元，以及信息处理单元；其中，

所述数据采集单元，设置为采集与用户标识ID相关联的信息；

所述学习单元，设置为对采集到的信息进行处理以形成基于用户ID的数据信息并存储在所述第一存储单元中；

所述收发单元，设置为接收用户提出的问题；将得到的针对所述用户提出的问题的答案返回给该用户；

所述信息处理单元，设置为根据所述第一存储单元中存储的所述基于用户ID的数据信息，对获得的用户提出的问题进行预处理，得到针对所述用户提出的问题的答案。
根据权利要求1所述的信息处理系统，其中，所述与用户标识ID相关联的信息来自社交网络和社交平台中至少一种；

所述社交网络的数目为至少一个，所述社交平台的数目为至少一个。
根据权利要求2所述的信息处理系统，还包括：

同步单元，设置为将需要同步的所述用户提出的问题同步到所述第一存储单元中；调用所述信息处理系统与所述社交网络和所述社交平台中至少一种的接口，将所述用户提出的问题发布到所述社交网络和所述社交平台中至少一种上。
根据权利要求2所述的信息处理系统，还包括：管理单元，设置为配置定时任务，按照所述定时任务定时触发所述数据采集单元，以便对来自所述社交网络和社交平台中至少一种的数据进行采集。
根据权利要求4所述的信息处理系统，所述管理单元还设置为：对所述第一存储单元中存储的所述基于用户ID的数据信息进行管理和维护。
根据权利要求4所述的信息处理系统，所述管理单元还设置为：对所述第一存储单元中的所述基于用户ID的数据信息进行增删改查操作。
根据权利要求4所述的信息处理系统，所述管理单元还设置为：对不同类型的所述基于用户ID的数据信息进行权限设置。
根据权利要求1～4任一项所述的信息处理系统，还包括：

第二存储单元，设置为存储已有语料信息；

所述信息处理单元，设置为结合所述第一存储单元中存储的所述基于用户 ID的数据信息和所述第二存储单元中存储的所述已有语料信息，对获得的所述用户提出的问题进行预处理，得到针对所述用户提出的问题的答案。
根据权利要求8所述的信息处理系统，其中，所述学习单元包括：生成模块、标注模块、临时元素表；其中，

所述生成模块，设置为根据来自所述数据采集单元的数据生成临时文件；

所述标注模块，设置为在所述生成模块每生成一个所述临时文件时，对所述临时文件进行标注，将标注后的临时文件信息保存在所述临时元素表中。
根据权利要求9所述的信息处理系统，所述学习单元还包括：获取模块、比对模块；其中，

所述获取模块，设置为定时从所述第二存储单元中读取所述已有语料信息；

所述比对模块，设置为将所述临时元素表中的数据和所述获取模块获得的语料信息进行比较，将所述第二存储单元中不存在的临时元素存储到所述第一存储单元中。
根据权利要求1～4任一项所述的信息处理系统，所述信息处理单元还设置为：将所述用户提出的问题进行预处理之后得到待处理答案，根据得到的所述待处理答案的相关信息与所述与用户标识ID相关联的信息进行相似度比较，将相似度最高的答案作为所述针对用户提出的问题的答案。
根据权利要求1～4任一项所述的信息处理系统，所述信息处理单元还设置为：根据经过所述预处理之后的所述用户提出的问题的相关信息与所述与用户标识ID相关联的信息进行相似度比较，得到相似度最高的问题并针对所述相似度最高的问题查询答案，将所述相似度最高的问题的答案作为所述针对用户提出的问题的答案。
一种实现信息处理的方法，包括：

采集与用户标识ID相关联的信息；

对采集到的信息进行处理以形成基于用户ID的数据信息并存储；

获取用户提出的问题，根据存储的所述基于用户ID的数据信息，对获得的用户提出的问题进行预处理，得到针对该用户提出的问题的答案。
根据权利要求13所述的方法，其中，所述与用户标识ID相关联的信息来自社交网络和社交平台中至少一种；

所述社交网络的数目为至少一个，所述社交平台的数目为至少一个。
根据权利要求14所述的方法，所述方法还包括：

同步需要同步的所述用户提出的问题并存储；

将同步后的所述用户提出的问题发布到所述社交网络和社交平台中至少一种上。
根据权利要求14所述的方法，所述方法还包括：

配置定时任务，按照所述定时任务定时触发所述采集。
根据权利要求16所述的方法，所述方法还包括：对存储的所述基于用户ID的数据信息进行管理和维护。
根据权利要求16所述的方法，所述方法还包括：对存储的所述基于用户ID的数据信息进行增删改查操作。
根据权利要求16所述的方法，所述方法还包括：对不同类型的所述基于用户ID的数据信息进行权限设置。
根据权利要求13～16任一项所述的方法，还包括：

存储已有语料信息；

结合存储的所述基于用户ID的数据信息和存储的所述已有语料信息，对获得的所述用户提出的问题进行预处理，得到针对所述用户提出的问题的答案。
根据权利要求20所述的方法，其中，所述对采集到的信息进行处理以形成所述基于用户ID的数据信息包括：

根据所述采集到的信息生成临时文件；

每生成一个所述临时文件时，对所述临时文件进行标注，并将标注后的临时文件信息保存在临时元素表中。
根据权利要求21所述的方法，所述方法还包括：

定时读取所述已有语料信息；

比较所述临时元素表中的数据和读取的所述已有语料信息，存储读取的所述已有语料信息中不存在的临时元素。
根据权利要求13～16任一项所述的方法，所述方法还包括：将所述用户提出的问题进行预处理之后得到待处理答案，根据得到的所述待处理答案的相关信息与所述与用户标识ID相关联的信息进行相似度比较，将相似度最高的答案作为所述针对用户提出的问题的答案。
根据权利要求13～16任一项所述的方法，所述方法还包括：根据经过所述预处理之后的所述用户提出的问题的相关信息与所述与用户标识ID相关联的信息进行相似度比较，得到相似度最高的问题并针对所述相似度最高的问题查询答案，将所述相似度最高的问题的答案作为所述针对用户提出的问题的答案。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行权利要求13～24任一项所述的实现信息处理的方法。
一种实现信息处理的装置，包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序，所述计算机程序配置为执行包括以下步骤的方法：

采集与用户标识ID相关联的信息；对采集到的信息进行处理以形成基于用户ID的数据信息并存储；获取用户提出的问题，根据存储的所述基于用户ID的数据信息，对获得的用户提出的问题进行预处理，得到针对该用户提出的问题的答案。
一种信息处理装置，生成模块、标注模块、临时元素表；其中，

生成模块，设置为根据采集到的数据生成临时文件；

标注模块，设置为在所述生成模块每生成一个所述临时文件时，对所述临时文件进行标注，将标注后的临时文件信息保存在临时元素表中。
根据权利要求27所述的信息处理系统，所述学习单元还包括：获取模块、比对模块；其中，

所述获取模块，设置为定时从第一存储单元中读取语料信息；

比对模块，设置为将临时元素表中的数据和所述获取模块获得的语料信息进行比较，将第一存储单元中不存在的临时元素存储到第二存储单元中。
一种实现信息处理的方法，包括：根据采集到的信息生成临时文件；

每生成一个所述临时文件时，对所述临时文件进行标注并将标注后的临时文件信息保存在临时元素表中。
根据权利要求29所述的方法，所述方法还包括：

定时读取已有语料信息；

比较所述临时元素表中的数据和读取的所述已有语料信息，存储读取的所述已有语料信息中不存在的临时元素。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行权利要求29或30所述的实现信息处理的方法。