WO2017024553A1

WO2017024553A1 - 一种信息情感分析方法和系统

Info

Publication number: WO2017024553A1
Application number: PCT/CN2015/086751
Authority: WO
Inventors: 易峥; 夏炜
Original assignee: 浙江核新同花顺网络信息股份有限公司
Priority date: 2015-08-12
Filing date: 2015-08-12
Publication date: 2017-02-16
Also published as: US20210049197A1; US20230020599A1; US10831808B2; US20180239815A1; US10437871B2; US11481422B2; US11868386B2; US20240104127A1; US20190377748A1

Abstract

一种基于歧义分析的信息情感分析方法，包括利用歧义分析模型以及情感分析模型对信息进行歧义分析（702）与情感分析（703）。另一方面涉及训练所述歧义分析模型以及情感分析模型的方法，包括采集信息（801），构建词库与信息库（802），利用词库对信息进行歧义分析以及情感分析，采集语料（803），训练模型（804）等。同时，还涉及一种信息情感分析系统，包括输入输出模块（103）、采集模块（101）、处理模块（102）以及数据库（104）。

Description

一种信息情感分析方法和系统

技术领域

本发明属于自然语言处理领域，涉及信息采集、信息处理、机器学习，特别是涉及一种基于语言模型的情感分析方法。

背景技术

随着互联网的不断普及，人们越来越习惯于使用互联网获取信息。然而由于互联网覆盖范围的不断扩大与信息的不断增加，当人们试图使用互联网获取某种信息时，搜索得到的结果往往比较混杂，同一个词汇在不同的词汇搭配下可能产生不同的语义，而有时人们搜索时只是想要获得与某个词汇的某一个特定语义相关的信息，所以人们希望能够在获取信息时可以得到针对某特定语义进行歧义过滤后的信息结果。同时，有时人们往往希望能够快速得到关于某种信息的有感情倾向性的分类结果，从而帮助他们快速做出判断或者了解某种信息。

发明总结

本发明的一个方面涉及一种基于歧义分析的信息情感分析方法，方法包括利用歧义分析模型以及情感分析模型对信息进行歧义分析与情感分析。本发明另一方面涉及训练所述歧义分析模型以及情感分析模型的方法，包括采集信息，构建词库，利用词库对信息进行歧义分析以及情感分析，采集语料，训练模型等。同时，本发明的另一个方面涉及一种信息情感分析系统，包括输入输出模块、采集模块、处理模块以及数据库。

在一些实施例中，本说明书披露的技术方案能够采集信息，生成信息库，筛选出信息库中的非歧义信息，并对非歧义信息进行情感分析。

在一些实施例中，本说明书披露的技术方案包含一个歧义分析模型，能够运用一定算法对采集到的信息进行歧义与非歧义分析，生成非歧义信息集合。在一些实施例中，本说明书披露的技术方案进一步包含一个情感分析模型，能够运用一定算法对信息进行情感分析。所述信息可以来自所述非歧义信息集合，也可以来自所述信息库。

在一些实施例中，本说明书披露的技术方案进一步包含一种训练歧义分析模型的方法。所述训练歧义分析模型的方法包括：提取信息，运用一定打分规则对所述信息进行打分，根据打分结果生成模型训练语料，利用所述模型训练语料训练所述歧义分析模型。

在一些实施例中，本说明书披露的技术方案进一步包含一种训练情感分析模型的方法。所述训练情感分析模型的方法包括：提取信息，运用一定匹配规则对所述信息进行匹配，根据匹配结果生成模型训练语料，利用所述模型训练语料训练所述情感分析模型。

附图描述

为了更清楚地说明本发明的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本发明应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构和操作。

图1：一种信息情感分类系统模块示意图；

图2：采集模块示意图；

图3：处理模块示意图；

图4：输入输出模块示意图；

图5：数据库示意图；

图6：系统用户交互流程示意图；

图7：信息情感分类系统流程示意图；

图8：模型训练流程示意图；

图9：使用情景示意图；

图10：采集流程实施例示意图；

图11：系统应用于金融产品领域系统实施例流程示意图；

图12：系统应用于金融产品领域歧义分析实施例流程示意图；

图13：歧义分析实施例流程图；

图14：歧义分析实施例详细流程图；

图15：歧义分析模型训练实施例流程图；

图16：系统应用于金融产品领域情感分析实施例流程示意图；

图17：情感分析实施例流程图；

图18：情感分析实施例详细流程图；

图19：情感分析器训练实施例流程图；

图20：用户交互界面实施例示意图。

发明内容

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书涉及的信息处理方法与系统，能够采集信息，构建词库，并利用词库对信息进行歧义分析及情感分析。在一些实施例中，本说明书涉及一种信息情感分析系统，包括输入输出模块、采集模块、处理模块以及数据库。

本发明的不同实施例可适用于多种领域，包括但不限于：金融及其衍生物投资(包括但不限于股票、债券、黄金、纸黄金、白银、外汇、贵金属、期货、货币基金等)、科技(包括但不限于数学、物理、化学及化学工程、生物及生物工程、电子工程、通信系统、互联网、物联网等)、政治(包括但不限于政治人物、政治事件、国家)、新闻(从区域而言，包括但不限于地区新闻、国内新闻、国际新闻；从新闻主体而言，包括但不限于政治新闻、科技新闻、经济新闻、生活新闻、气象新闻等)等。以上对适用领域的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解一种基于歧义分析的信息情感分析方法和系统的基本原理后，可能在不背离这一原理的情况下，对实施上述方法和系统的应用领域形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

本发明可以适用于不同类型的数据库，包括但不限于层次式数据库、网络式数据库和关系式数据库。显然，对于本领域的专业人员来说，在了解一种基于歧义分析的信息情感分析方法和系统的基本原理后，可能在不背离这一原理的情况下，对实施上述方法和系统的应用领域形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图1展示的是一种系统的示意图，这个系统可用于信息情感分析。这个系统可以包含但不限于一个或多个采集模块101、一个或多个处理模块102、一个或多个输入输出模块103、一个或多个数据库104。上述模块中的部分或全部可以与网络105连接。上述模块可以是集中式的也可以是分布式的、可以是本地的也可以是远程的。在某些实施例中这些模块是独立的；某些实施例中，部分或全部模块也可以整合为一个整体模块共同作用。

采集模块101以各种方式获取所需要的信息。获取信息的方式可以是直接的(例如直接从网络105获取信息)也可以是间接的(例如通过其他模块的采集单元获取信息)。获取信息的方式可以是集中式的(例如通过某一种渠道获取)也可以是分布式的(例如通过多种渠道获取)。获取信息的方式可以是本地的(例如从本地的具有存储功能的模块或单元获取等)也可以是远程的(例如通过搜索引擎爬取获取等)。获取信息的方式可以是有线(例如通过电缆或光缆等)也可以是无线的(例如通过无线电或光信号等)。获取信息的方式可以是人工的也可以是自动的。获取信息的方式可以是基于现有算法的，也可以是用户自定义的算法。获取信息的方式可以是上述任何方式的类似方法，或上述任何方式的组合。上述所需要的信息的来源可以是网络105(城域网、广域网、局域网等)，新闻、报纸、媒体，也可以是处理模块102(一个或多个)、输入输出模块103(一个或多个)、数据库104(一个或多个)等的一种或多种。例如，采集模块101可以从处理模块102中间处理过程中产生的全部信息或部分信息中提取所需要的信息；采集模块101可以通过用户输入的一些词汇、短语、句子、上传的图片、音频、视频等信息中采集所需信息；采集模块101也可以从数据库104中提取所需信息。采集模块101还可以将采集到的全部信息或部分信息输送到处理模块102、数据库104、输入输出模块103等中的一个或多个。上述所需要的信息可以包括但不限于行业特定名称词汇、与特定名称词汇强相关的词汇、包含上述词汇的信息以及包含情感信息的词汇等中的一种或多种。上述行业可以包含但不限于体育、娱乐、经济、政治、文化等中的一种或多种。上述特定名称词汇可以包括但不限于特定行业的专有名词、全称、简称、代码、同义词、缩略词等中的一种或多种。上述与特定名称词汇强相关的词汇可以包括但不限于与上述特定名称词汇有关的名词、动词、形容词、短句、短语搭配、该特定领域特定词汇的行业词汇、近义词、反义词、常见搭配词、组成部分名词、派生词、复合词等中的一种或多种。包含上述词汇的信息可以包括但不限于词典、新闻、有关公司的研究报告、公告、产品手册、以及相关网站网页等中的一种或多种。上述情感词汇的类别可以包括但不限于正面、负面、中性等中的一种或多种。信息的形式可以包括但不限于文字的、图片的、音频的、视频的等中的一种或多种。上述所需要的信息使用语言可以包括但不限于中文、英文、日文、韩文、法文、德文等中的一种或多种。以上对所需要的信息的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解所需要的信息的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

处理模块102可与网络105进行双向通信。处理模块102可与采集模块101进行双向通信。处理模块102可与数据库104进行双向通信。处理模块102可与输入输出模块103进行双向通信。处理模块102可直接从网络105采集需要的信息，也可以接收由采集模块101传输的信息，所述信息包含但不限于特定名称词汇、与特定名称词汇强相关的词汇、包含上述词汇的信息以及包含情感信息的词汇等中的一种或多种。处理模块102也可以向网络105发送信息。所述信息可以包含但不限于经过处理模块102处理的信息，以及未经处理模块102处理的信息等。所述经过处理模块102处理的信息可以包含但不限于通过应用特定的分类规则完成分类的信息。处理模块102在完成信息处理之后，可以将经过处理的信息依照特定的存储方法存储在数据库104中。同样地，处理模块102也可将由采集模块101或网络105传输来未经处理的信息存入数据库104中。所述存储方法可以包含但不限于顺序存储方法、链接存储方法、索引存储方法以及散列存储方法等中的一种或多种。所述未经处理的信息可以包含但不限于未经分类的词汇、短语、语句、段落等中的一种或多种。所述经过处理的信息可以包含但不限于经过分类的词汇、短语、语句、段落等中的一种或多种。处理模块102也可发送信息给输入输出模块103。所述信息可以包含但不限于经过处理的信息，以及未经处理的信息等。处理模块102也可接收输入输出模块103发送的数据或指令，并通过解析接收到的数据或指令做出相应的行为。

输入输出模块103可以将系统内部信息与外周设备进行交换并接收外部信息。输入输出模块103可以通过网络105连接外周设备，或者直接连接外周设备。输入输出模块103可以接收用户输入的信息。所述用户输入的信息可以来自网络105，也可以来自外周设备，也可以来自与系统相通信的第三方。输入输出模块103可以将生成的输出结果推送给外周设备，可用于展示给用户。所述外周设备可以包含但不限于鼠标、键盘、触控板、轨迹球、语音识别设备、图型图像识别设备、显示设备、移动电话、PC、Macintosh、平板电脑等中的一种或多种。用户输入的形式可以包括但不限于数字、字符、符号、文字、声音、图形图像、视频等中的一种或多种。输出方式可以包括但不限于将通过特定的分类规则完成分类的信息进行分类输出。输入输出模块103能够与采集模块101传递或交换信息。输入输出模块103可以接收采集模块101传递的信息。输入输出模块103可以将通过外周设备接收到的用户输入信息传递给采集模块101。输入输出模块103可以将采集模块101采集到的信息进行输出，可以将信息通过外周设备展示给用户。输入输出模块103能够与处理模块102传递或交换信息。输入输出模块103可以将接收到的信息传输给处理模块102进行处理。输入输出模块103可以将接收到的处理模块102传递的信息进行输出，可以将信息通过外周设备展示给用户。输入输出模块103能够与数据库104传递信息。输入输出模块103可以将接收到的数据库104传递的信息进行输出，可以将信息通过外周设备展示给用户。输入输出模块103可以将接收到的输入信息传递给数据库104。

数据库104或系统内其他存储设备具有信息存储功能。数据库104或系统内其他存储设备能够将信息数字化后再以利用电、磁或光学等方式的存储设备加以存储。数据库104或系统内其他存储设备用来存放各种信息例如程序和数据等。数据库104或系统内其他存储设备可以是利用电能方式存储信息的设备，例如各种存储器、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)等。数据库104或系统内其他存储设备可以是利用磁能方式存储信息的设备，例如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、优盘等。数据库104或系统内其他存储设备可以是利用光学方式存储信息的设备，例如CD或DVD等。数据库104或系统内其他存储设备可以是利用磁光方式存储信息的设备，例如磁光盘等。数据库104或系统内其他存储设备的存取方式可以是随机存储、串行访问存储、只读存储等。数据库104或系统内其他存储设备可以是非永久记忆存储器，也可以是永久记忆存储器。数据库104或系统内其他存储设备可以是本地的，也可以是远程的，也可以是云服务器上的。数据库104能够对其内部信息进行分类、排序、筛选等处理操作。数据库104或系统内其他存储设备可以与采集模块101传递或交换信息。数据库104或系统内其他存储设备可以接收采集模块101采集的信息，将其存储在数据库104或系统内其他存储设备上。根据收到的指令，数据库104或系统内其他存储设备里的信息可以被提取，传递给采集模块101。上述指令可以是直接来自于采集模块101；也可以是来自于其他模块，如输入输出模块103、处理模块102等。上述指令可以来自于数据库104或系统内其他存储设备，例如定时指示数据库104或系统内其他存储设备向采集模块101发送信息等。数据库104或系统内其他存储设备可以与处理模块102传递或交换信息，可以接收处理模块102传递的信息，将其存储。在到指令，数据库104或系统内其他存储设备里的信息可以被提取，传递给处理模块102。上述指令可以是直接来自于采集模块101；也可以是来自于其他模块，如输入输出模块103、采集模块101等。上述指令可以来自于数据库104或系统内其他存储设备，例如定时指示数据库104或系统内其他存储设备向处理模块102发送信息等。数据库104或系统内其他存储设备能够与输入输出模块103传递和交换信息，可以接收输入输出模块103传递的信息，将其存储在数据库104或系统内其他存储设备。根据收到的信息，数据库104或系统内其他存储设备里的信息可以被提取，传递给输入输出模块103。上述指令可以是直接来自于输入输出模块103；也可以是来自于其他模块，如采集模块101、处理模块102。上述指令可以来自于数据库104或系统内其他存储设备，例如定时指示数据库104或系统内其他存储设备向输入输出模块103发送信息等。

系统中各个模块之间，模块和外周设备之间的连接，以及系统与云服务器之间的连接都可以通过有线连接或无线连接。其中有线连接可以包括但不限于使用金属电缆、光学电缆或者金属和光学的混合电缆等中的一种或多种，例如：同轴电缆、通信电缆、软性电缆、螺旋电缆、非金属护皮电缆、金属护皮电缆、多芯电缆、双绞线电缆、带状电缆、屏蔽电缆、电信电缆、双股电缆、平行双芯导线、和双绞线等。以上描述的例子仅作为方便说明之用，有线连接的媒介还可以是其它类型，例如，其它电信号或光信号等的传输载体。无线连接可以包括但不限于无线电通信、自由空间光通信、声通信、和电磁感应等中的一种或多种。其中所述无线电通信包括但不限于IEEE802.11系列标准、IEEE802.15系列标准(例如蓝牙技术和紫蜂(ZigBee)技术等)、第一代移动通信技术、第二代移动通信技术(例如FDMA、TDMA、SDMA、CDMA、和SSMA等)、通用分组无线服务技术、第三代移动通信技术(例如CDMA2000、WCDMA、TD-SCDMA、和WiMAX等)、第四代移动通信技术(例如TD-LTE和FDD-LTE等)、卫星通信(例如GPS技术等)和其它运行在ISM频段(例如2.4GHz等)的技术等。所述自由空间光通信可以包括但不限于可见光、红外线讯号等中的一种或多种。所述声通信可以包括但不限于声波、超声波讯号等中的一种或多种。所述电磁感应包括但不限于近场通信技术等。以上描述的例子仅作为方便说明之用，无线连接的媒介还可以是其它类型，例如，Z-wave技术、蓝牙低功耗(BLE)技术、433MHz通信协议频段、其它收费的民用无线电频段和军用无线电频段等。

系统中各个模块之间，模块和外周设备之间的连接，以及系统与存储设备或云服务器之间的连接并不局限于以上所列举的技术。上述的连接方式在该系统中可以单一使用，也可以多种连接方式结合使用，在不同连接方式结合使用的过程中，需要配合相应的网关设备达到信息交互。各个模块也可以集成在一起，通过同一个设备或电子元件上实现一个以上模块的功能。外周设备也可以集成在一个或多个模块的实施设备或电子元件上，而单个或多个模块亦可以集成在单个或多个外周设备或电子元件上。另外，模块间信息传输的方式可以是直接的也可以是间接的、可以是有线的也可以是无线的，可以是顺序进行的也可以是同时进行的，可以是周期的也可以是非周期的等。以上对模块间信息传输方式的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解模块间信息传输方式的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图2展示的是采集模块101的示意图。采集模块101可以包含但不限于一个或多个采集单元201、一个或多个处理单元202、一个或多个存储单元203等。上述单元可以是集中式的也可以是分布式的、可以是本地的也可以是远程的。在某些实施例中这些单元是独立的，在一些实施例中，这些单元可以是独立的，在其他实施例中，部分单元也可以整合为一个整体单元共同作用。

采集模块101可以通过采集单元201采集信息。采集到的全部或部分信息可以存储到存储单元203中，还可以存储到数据库104中。所述采集到的全部或部分信息可以传递给处理单元202进行处理。处理结果可以存储到存储单元203中。对于所述信息的处理可以包含但不限于提取信息中的一些关键词汇，对信息的价值进行评估(例如，可以估计采集到的信息与用户所需要的信息的关联程度)等。处理单元202处理的信息可以是来自于采集单元201，也可以是来自于存储单元203，还可以来自于其他模块或系统内具有存储功能的设备(例如，数据库104等)。存储单元203中的信息可以进一步交付给数据库104进行存储，也可以传递给处理模块102进行处理，还可以传递到输入输出模块103进行输出。不同单元模块之间信息传递的方式可以是有线的也可以是无线的，可以是直接的也可以是间接的，可以是同时进行的也可以是顺序进行的，可以是周期的也可以是非周期的等。

图3展示的是处理模块102的示意图。处理模块102可以包含但不限于一个或多个歧义分析模块301、一个或多个情感分析模块306以及一个或多个存储模块315。在一些实施例中，这些模块可以是独立的，在其他实施例中，部分模块也可以整合为一个整体单元共同作用。

歧义分析模块301可以获取信息，对信息进行处理，生成用于训练歧义分析模型312的歧义或非歧义语料。歧义分析模块301可以包含但不限于一个或多个采集单元302、一个或多个匹配单元303、一个或多个处理单元304、一个或多个语料采集单元305以及一个或多个歧义分析模型312。歧义分析模块301的采集单元302以各种方式获取所需要的信息。歧义分析模块301的采集单元302也可直接从网络105获取需要的信息。获取信息的方式可以是集中式的也可以是分布式的、可以是本地的也可以是远程的、可以是有线的也可以是无线的，可以是人工的也可以是自动的、也可以是上述多种方式相结合的。需要注意的是，以上对获取信息的方式的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解获取信息的基本原理后，可能在不背离这一原理的情况下，对获取信息的具体方式与步骤进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

处理模块102中的采集单元302可以采集信息。所述信息可以是数据库104中已构建的关键词词典502、歧义列表504、相关词词典503(见图5)以及信息库511中存储的内容等。根据所述采集到的信息，歧义分析模块301的匹配单元303可以对信息库511中的信息进行匹配。处理模块102可以向数据库104发送关键词请求以及词典请求。数据库104收到请求后，将请求的关键词词典502、相关词词典503和歧义列表504发送给处理模块102。处理模块102中的匹配单元303依照特定算法对所述关键词进行匹配。所述特定算法可以包括但不限于前缀搜索、后缀搜索、子串搜索等中的一种或多种。处理单元304对匹配结果进行打分，用以量化信息的歧义程度。此打分结果可以在后续歧义分析过程中作为衡量语句是否歧义的初步标准。该打分涉及的因素可以包含但不限于特定词汇长度、相关词汇的词汇长度、整体消息的长度、不同特定词汇在信息中所占权重、不同相关词汇在信息中所占权重、相关词汇的数量与特定词汇的数量等中的一种或多种。以上对所匹配单元303与处理单元304的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。语料采集单元305可以配置为采集要素集合。所述要素集合可以包含但不限于关键词、周围词汇、相对位置信息以及歧义或非歧义的句子形成的要素，所述要素集合可以被存入语料采集单元305中。在一些实施例中，所述要素集合可以用于训练歧义分析模型312。显然，对于本领域的专业人员来说，在了解匹配单元与处理单元的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

上文所述歧义打分结果是对信息歧义程度的量化。在一些实施例中，可以对这个分数设定几个阈值。这些阈值可以初步划分出强歧义的语句和明显非歧义的语句，从而对待分类信息初步进行歧义和非歧义分类。在一些实施例中，当用歧义打分结果无法直接判断某词汇或信息是否为歧义语句时，该词汇或信息可以进入一个进一步审核步骤。审核步骤可以包括但不限于人工审核、模型自动审核或二者结合的方式。在审核步骤中，涉及到的因素可以包括但不限于特定词汇长度、相关词汇的词汇长度、整体消息的长度、不同特定词汇在信息中所占权重、不同相关词汇在信息中所占权重、相关词汇与特定词汇的数量等，从而得到信息的歧义非歧义分类结果。

在一些实施例中，信息的分类结果可以用于对审核步骤中使用的模型进行训练，其中模型的分类算法可以包括但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵等。以上对歧义分析模块301的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解歧义分析的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

歧义分析模块301可以包含但不限于一个或多个歧义分析模型312。经过一定时间的训练，歧义分析模型312可以判定新闻中关于具体名称的描述是否有歧义。判定完成之后，输出非歧义语句集合。所述非歧义语句集合可进行存储，存储位置可以包含但不限于存储模块315、数据库104或系统其它具有存储功能的设备等中的一种或多种。所述非歧义语句集合可以交付给其它模块(例如情感分析模块306)进行处理。歧义分析模型312也可以在人工或机器的辅助下完成歧义判断。

所述情感分析模块306可以包含但不限于一个或多个采集单元307、一个或多个匹配单元308、一个或多个处理单元309、一个或多个语料采集单元310以及一个或多个情感分析器311。所述单元可以是集中式的也可以是分布式的、可以是本地的也可以是远程的。在一些实施例中，上述单元可以是独立的。在一些实施例中，部分单元也可以整合为一个整体单元共同作用。情感分析模块306可以对歧义分析模块301所得到的非歧义信息进行情感分类。所述情感类别可以包括但不限于正面、负面、中性等。在一些实施例中，采集模块101可以通过信息采集等方法，构建包含情感词汇搭配的一个或多个情感词汇搭配库507(见图5)。所述情感词汇搭配库507被存储在数据库104中。情感分析模块306中的采集单元307可以采集信息。所述采集到的信息可以包含但不限于数据库104中的情感词汇搭配库507以及信息库511中存储的内容等。根据所述信息，情感分析模块306的匹配单元308对歧义分析模块301输出的非歧义信息进行匹配，匹配方法可以包含但不限于正则表达式等。处理单元309可以计算搭配的准确率，并将准确率大于预定阈值的搭配判定为强情感搭配(例如，急剧增长可以视为强情感搭配)。处理单元309可以给没有包含强情感搭配的句子打分，并根据对应情感类型的分数判断所述句子的情感类型。所述强情感搭配被存入语料采集单元310中。语料采集单元310的功能可以包含但不限于采集有情感搭配、无情感搭配以及情感句子等要素集合。

情感分类方法主要分为两类：基于词典和基于机器学习。基于词典的方法中，可以事先定义一个标注了词的情感极性的词典，句子或者文章的正负面情感极性通过在其中出现的正面或者负面情感词汇的数量、权值等预设属性特征，以一定的计算方法进行衡量。基于机器学习的方法可以把情感分类的问题归类为文本分类的问题，可以采用在文本分类中常用的分类方法(包括但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵等)，通过对标注好情感极性的文本的训练学习，得到分类器，对新的文本进行情感分类。在一些实施例中，词典与机器学习的方法可以相结合对句子或文章进行情感分类。

情感分析模块306可以包含但不限于一个或多个情感分析器311。经过一定时间的训练，情感分析器311可以直接判定新闻中非歧义语句的情感类型。判定完成之后，得到经过情感分类的语句集合。所述经过情感分类的语句集合可进行存储，存储位置可以包含但不限于存储模块315、数据库104或系统其它具有存储功能的设备等中的一种或多种。情感分析器311也可以在人工或机器的辅助下完成情感分析。

图4展示的是输入输出模块103的示意图。输入输出模块103可以包括但不限于一个或多个接口单元401、一个或多个识别单元402、一个或多个存储单元403以及一个或多个扩展单元404。上述单元可以是集中式的也可以是分布式的、可以是本地的也可以是远程的。在一些实施例中这些单元是独立的。在一些实施例中，部分单元也可以整合为一个整体单元共同作用。

输入输出模块103的接口单元401可以配置为接收输入信息以及输出系统生成的结果。所述信息可以传递给采集模块101。所述信息可以传递给处理模块102进行包含但不限于歧义分析或情感分析等处理。所述信息可以进行存储。存储位置可以是存储单元403、数据库104以及系统其它具有存储功能的设备等中的一种或多种。所述输出结果可以是按照一定规则分好类的信息，如正面信息、负面信息、中性信息等。所述输出结果可以通过外周设备显示给用户。

识别单元402可以配置为识别已进行情感分析的信息中的情感标签，进而指导接口单元401依据情感标签对信息进行分类展示。

存储单元403可以配置为对信息进行存储，存储的信息可以是来自于接口单元401、识别单元402。存储的信息可以是来自于其他模块，如采集模块101、处理模块102、数据库104等中的一种或多种。

输入输出单元103的扩展单元404可以配置为根据用户的需求，提供一种功能扩展的机制，帮助系统完成功能扩展。所述扩展的功能可以包括但不限于订阅功能，信息分享功能，智能学习、更新功能等中的一种或多种。扩展单元404可以将用户输入的关键词信息、用户自定义的信息推送周期、信息推送方式、信息分享的对象、信息分享的内容、系统更新周期等信息存入数据库104中的用户数据库513(见图5)。

基于本发明的一些实施例，系统的输入输出模块103的扩展单元404可配置为提供订阅功能。用户可以选择订阅包含特定关键词的信息，扩展单元404可以根据用户订阅，通过各种方式将经过情感分析的信息推送给用户。扩展单元404包括但不限于为用户提供推送信息，也可以推荐关注兴趣相似的用户，还可以推荐信息的评论，并且提供信息有无帮助的评分等。扩展单元404推送的方式可以包含但不限于移动客户端软件、电子邮件、短信、RSS门户网站、在线单用户聚合器、搜索引擎、浏览器、即时通讯软件、社交网络等。扩展单元404推送周期可以是系统设定的，也可以是用户自定义的，可以是定期的也可以是不定期的，可以是实时的也可以是延时的。定期推送周期可以包括但不限于几个小时、几天、几周、几个月、几个季度、几年等中的一种或多种。不定期推送周期可以包括但不限于不同国家的工作日、节假日或者早、中、晚等中的一种或多种。扩展单元404推送的信息内容形式可以包括但不限于文字、语音、图片、动画、视频等中的一种或多种。扩展单元404推送的信息内容可以包括但不限于用户已浏览的信息内容更新，可以是用户关注的信息，也可以是系统根据用户记录推荐的信息，还可以是同类信息关注的热度情况等中的一种或多种。以上对扩展单元404的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解扩展单元404的基本原理后，可能在不背离这一原理的情况下，对实施扩展单元404的具体方式与步骤、以及扩展单元404所能实现的功能进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

基于本发明的一些实施例，系统的输入输出模块103的扩展单元404可以配置为提供智能学习功能。扩展单元404可以智能学习、分析并记忆用户的使用习惯，包括但不限于常用领域、检索高频关键词、较关注的情感类别等。例如，在一些实施例中，扩展单元404可以自动记忆，或根据用户标注记忆，用户常点击的某跨国公司的子公司，在用户输入该公司名称后优先展示该子公司相关信息。再例如，在一些实施例中，扩展单元404可以学习用户在不同时段所关注的不同情感类别或领域的信息，与扩展单元404配合在特定时段进行信息推送。以上对扩展单元404及其所实现功能的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解扩展单元404及其所实现功能的基本原理后，可能在不背离这一原理的情况下，对实施扩展单元404及其所实现功能的具体方式与步骤进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

基于本发明的一些实施例，系统的输入输出模块103的扩展单元404可以配置为提供信息分享功能。信息分享是用户通过各种方式把感兴趣的信息分享给朋友。信息分享是用户可使用的发布信息方式，分享到指定的地方，选择哪些人可以看到该信息等。信息分享的内容可以是单条信息也可以是多条信息，可以是部分选取内容的信息也可以是页面整体内容的信息，可以是信息内容分享也可以是信息评论分享，可以是信息的关注度分享也可以是信息的帮助评分分享等。信息分享的方式可以包括但不限于短信、彩信、电子邮件、QQ、MSN、微信、微博、豆瓣、Twitter、Facebook、Instagram、人人、即时通讯软件工具等中的一种或多种。信息分享接收对象可以包括但不限于单个朋友、多个朋友、朋友圈、公共社交圈、论坛、其他用户等中的一个或多个。信息分享的内容格式可以包括但不限于文字、图片、语音、动画、视频、网页链接等中的一种或多种。以上对信息分享模块及其所实现功能的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解信息分享模块及其所实现功能的基本原理后，可能在不背离这一原理的情况下，对实施信息分享模块及其所实现功能的具体方式与步骤进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图5展示的是数据库104中所包含或用到的单元的示意图。数据库104包括但不限于一个或多个关键词词库501、一个或多个情感词词库505、一个或多个信息库511、一个或多个语料库508、一个或多个语义知识库512、一个或多个用户数据库513等。关键词词库501可以包括但不限于一个或多个关键词词典502、一个或多个相关词词典503、一个或多个歧义列表504等。以上对于词典的描述只是为了方便说明，并不具有限定作用。关键词词典502可以配置为存储包括但不限于特定名称词汇。上述特定名称词汇包括但不限于特定领域的专有名词、全称、简称、代码、同义词、缩略词等。关键词词典502中的特定名称词汇可以来自于采集模块101，也可以来自于处理模块102。相关词词典503可以配置为存储包括但不限于特定名称词汇的相关词汇。所述相关词汇可以包括但不限于与上述特定名称词汇有关的专有名词、名词、动词、形容词、短语搭配、短句、该领域特定词汇的行业词汇、近义词、反义词、常见搭配词、组成部分名词、派生词、复合词等。歧义列表504可以配置为存储包括但不限于经过人工、模型或两者相结合方式审核后可能具有歧义的特定名称词汇。情感词词库505可以包括但不限于一个或多个情感词汇库506以及一个或多个情感词汇搭配库507等。情感词汇库506可以配置为存储包含但不限于情感词汇。所述情感词汇指包含情感信息的词汇。如，佳、优、增、好、增长、盈、涨、补涨、赚、涨停、飙升盈利、减少、降、锐减、补跌、下降、亏损、赔、亏、跌停、减持、降低等词汇。所述情感词汇可以包括但不限于表达情感的名词、动词、形容词等。情感词汇库506中信息的来源可以包括但不限于互联网开源词典、专业词典等。情感词汇搭配库507可以配置为存储包含但不限于情感词汇搭配。所述情感词汇搭配可以包括但不限于与情感词汇库506中情感词汇进行搭配的短语搭配、短句、近义词、反义词、常见搭配词、组成部分名词、派生词、复合词等。情感词汇搭配库507中信息的来源可以包括但不限于互联网开源词典、专业词典、新闻、有关公司的研究报告、公告、产品手册及相关网站等资讯。

情感词汇搭配库507可以是固定的词库，也可以是不断更新扩充的。情感词汇搭配库507的扩充方法包含但不限于PMI算法等。语料库508可以包括但不限于歧义语料库509以及情感语料库510等。歧义语料库509可以配置为存储包含但不限于歧义语料。所述歧义语料可以包含但不限于已进行歧义/非歧义标注的词汇、短语搭配、语句等。情感语料库510可以配置为存储包含但不限于情感语料。所述情感语料可以包含但不限于已进行情感类别标注的词汇、短语搭配、语句等。

歧义语料库509中的语料的来源可以包含但不限于歧义分析模块301中的语料采集单元305，情感语料库510中的语料的来源可以包含但不限于情感分析模块306的语料采集单元310。歧义语料库509及情感语料库510的来源可以包括但不限于互联网开源词典、专业词典、新闻、有关公司的研究报告、公告、产品手册及相关网站等资讯等。

信息库511可以配置为存储包含但不限于包含关键词的信息。信息库511中的信息可以是已经过歧义分析或情感分析的，也可以是未经过歧义分析或情感分析的。所述信息的来源可以是采集模块101。

语义知识库512可以配置为存储包含但不限于基于概念的词汇、短语、句子以及段落等。通过检索语义知识库512，词汇、短语、句子及段落的情感类型可以被识别出来。语义知识库512特别是能识别不包含情感词汇的短语、句子、段落等。

用户数据库513可以配置为存储包含但不限于与用户相关的信息。所述与用户相关的信息可以包含但不限于用户的个人信息、用户的历史检索信息、用户的自定义设置信息等。所述用户的个人信息可以包含但不限于用户的登录账号、登录密码，用户登录系统的周期、时间的信息等。所述用户的历史检索信息可以包含但不限于用户的历史检索关键词以及根据用户的检索关键词得到的检索信息结果等。所述用户的自定义设置信息可以包含但不限于用户对于订阅信息的设置、用户对于信息分享的设置、用户对于智能学习、用户对于系统更新的设置等中的一种或多种。所述用户对于订阅信息的设置可以包含但不限于用户需要订阅的信息的关键词、用户设置的信息推送周期、推送格式、推送位置等中的一种或多种。所述用户对于信息分享的设置可以包含但不限于信息分享对象、信息分享格式、信息分享的周期等。所述用户对于智能学习的设置可以包含但不限于智能学习周期等。所述用户对于系统更新的设置可以包含但不限于更新周期等。

以上对于数据库的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解数据库的基本原理后，可能在不背离这一原理的情况下，数据库进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

在本发明的一些实施例中，系统可以包含用户交互界面。用户交互界面能够直接或通过外周设备接收用户输入，或将一种或多种情感类别的信息展示给用户。用户交互界面所接受的用户输入，能够存储在存储单元403中，再传递给其他模块，如采集模块101、处理模块102、数据库104；也能够直接传递给上述其他模块。用户交互界面所输出的信息，可以来自于存储单元403。用户交互界面所输出的信息可以直接来自于识别单元402，或者其他模块，如采集模块101、处理模块102、数据库104等。用户交互界面可以是图形用户交互界面(Graphical user interface)，也可以是直接操作界面(Direct manipulation interface)、基于网络的用户界面(Web-based user interfaces or web user interface(WUI))、触摸屏(Touchscreen)、命令行界面(Command line interface)、触摸用户界面(Touch user interface)、硬件接口(Hardware interface)、注视用户界面(Attentive user interface)、成批接口(Batch interface)、会话接口代理(Conversational Interface Agent)、基于交叉的接口(Crossing-based interface)、手势接口(Gesture interface)、智能用户界面(Intelligent user interface)、运动跟踪接口(Motion tracking interface)、多屏幕接口(Multi-screen interface)、无命令行用户界面(Non-command user interface)、面向对象的用户界面(Object-oriented user interface)、反射性的用户界面(Reflexive user interface)、检索界面(Search interface)、有形用户界面(Tangible User Interface)、基于任务的界面(Task-Focused Interface)、基于文本的用户界面(Text-based user interface)、语音用户界面(Voice user interface)、自然语言界面(Natural-language interface)、零输入接口(Zero-Input interface)、缩放用户界面(Zooming user interface)等。用户交互界面能够对信息进行分类展示，不同情感类别的信息可以显示在一个页面，也可以在不同页面显示，显示形式可以包括但不限于文字、图片、音频、录像、动画、广播等。不同显示形式下，表示情感类别的语句可以采用一种或多种高亮的形式进行展示，如，文字形式的信息高亮采用一种或多种不同于信息主体文字的颜色。所述颜色可以包括但不限于红色、蓝色、黄色、粉色、橙色、绿色、紫色等。表示情感类别的语句可以采用一种或多种不同于信息主体文字的字体。所述字体可以包括但不限于宋体、仿宋、楷体、斜体、黑体、Times New Roman、Calibri等。表示情感类别的语句可以采用一种或多种不同于信息主体文字的字符尺寸。所述尺寸可以包括但不限于二号、三号、四号、小四、五号、小五等。表示情感类别的语句可以采用下划线。所述下划线可以包括但不限于直线、虚线等。图片形式的信息高亮形式可以采用一种或多种不同形状的框架包括但不限于圆形、方形、矩形、菱形、椭圆形等。图片形式的信息高亮形式可以采用一种或多种颜色的框架。所述框架的颜色可以包括但不限于红色、蓝色、黄色、粉色、橙色、绿色、紫色等。音频、广播形式的信息高亮形式采用一种或多种音量。

用户交互界面可以向用户展示一种领域或多种领域经情感分析后的信息。所述领域可以包括但不限于金融及其衍生物投资(包括但不限于股票、债券、黄金、纸黄金、白银、外汇、贵金属、期货、货币基金等)、科技(包括但不限于数学、物理、化学及化学工程、生物及生物工程、电子工程、通信系统、互联网、物联网等)、政治(包括但不限于政治人物、政治事件、国家)、新闻(从区域而言，包括但不限于地区新闻、国内新闻、国际新闻；从新闻主体而言，包括但不限于政治新闻、科技新闻、经济新闻、生活新闻、气象新闻等)等。此外，用户可以在用户交互界面添加关注的领域作为快捷查看方式，进而快速查看关注的一种或多种领域的情感分析后的信息。用户交互界面可以为用户提供收藏夹，用户可以将一种或多种信息置于收藏夹内，方便下一次的使用，收藏信息的形式可以是网络链接、文字、图片、音频、录像、动画、广播，也可以是任意几种的组合。组合的形式可以是按规律重复的、也可以是无规律分布的。用户交互界面可以采用默认的用户界面，也可以采用自定义界面，用户可以按照自己的习惯、喜好设计用户界面，包括但不限于设定界面的颜色、界面的尺寸、界面的布局、界面的风格等。

以上对用户交互界面的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解用户交互界面的基本原理后，可能在不背离这一原理的情况下，对实施用户交互界面的具体方式与步骤进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。例如，用户交互界面向用户展示信息的情感类别情况包括但不限于整体信息情感类别情况，一种子类信息情感类别情况或多种子类信息情感类别情况；向用户展示信息的情感分析走势，包括但不限于整体的信息的情感类别走势、一种子类信息的情感类别走势、多种子类信息的情感类别走势；向用户展示推送的订阅的信息：向用户发出提醒，提醒形式可以包括但不限于文字、声音、图像、视频、震动、动态弹出框等。弹出框的形状可以包含但不限于圆形、方形、矩形、菱形、椭圆形等。用户依照提醒选择需要查看的根据正负面情感分析的订阅信息。

在一些实施例中，系统可以进一步包含一个更新模块，能够对数据库104中的词库与信息库进行更新，和/或能够对歧义分析模型312、情感分析器311的相关算法参数进行更新。更新模块可以以各种方式获取所需要的信息。获取信息的方式可以是集中式的也可以是分布式的、可以是本地的也可以是远程的、可以是有线的也可以是无线的，可以是人工的也可以是自动的、也可以是多种方式相结合的。以上对获取信息的方式的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解获取信息的基本原理后，可能在不背离这一原理的情况下，对获取信息的具体方式与步骤进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内

所需要的信息内容可以包含但不限于由特定名称词汇、特定名称词汇的相关词汇、包含这些词汇的信息、用于歧义分析或情感分析的算法参数等。上述特定名称词汇可以包括但不限于特定领域的专有名词、全称、简称、代码、同义词、缩略词等。上述特定名称词汇的相关词汇可以包括但不限于与上述特定名称词汇有关的专有名词、名词、动词、形容词、短语搭配、短句、该领域特定词汇的行业词汇、近义词、反义词、常见搭配词、组成部分名词、派生词、复合词等。包含上述词汇的信息可以包括但不限于词典、新闻、有关公司的研究报告、公告、产品手册、以及相关网站网页等。用于歧义分析或情感分析的算法参数可以包括但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵等分类算法等。

在一些实施例中，更新模块可以利用采集到的上述信息添加至数据库104获得更新过的数据库104。更新模块可以利用更新过数据库104中的信息训练算法模型。此外，更新模块可以利用采集到用于歧义分析或情感分析的算法参数直接更新算法模型。以上对更新模块及采集单元、更新模块的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解更新模块及采集单元、更新模块基本原理后，可能在不背离这一原理的情况下，对更新模块及采集单元、更新模块的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

更新的周期可以定期的或不定期的。更新模块进行定期更新，可以是系统设定的也可以是用户自定义的。定期更新的周期可以包括但不限于几个小时、几天、几周、几个月、几个季度、几年等。信息更新模块进行不定期更新，可以是系统设定的也可以是用户自定义的。不定期更新可以包括但不限于在不同国家的工作日、节假日或者早、中、晚等进行更新。更新模块的信息来源可以包括但不限于词典、新闻媒体、有关公司的研究报告、公告、产品手册、微博、微信、社交网站、论坛、出版商以及相关网站网页等。更新的内容可以是已有的内容，也可以是新的内容。例如，在一些实施例中，系统可以定期查看财经网站等新闻媒体。若包含已有信息如股票名称等，同时出现了新的与该股票名称相关的内容，更新模块针对新内容进行更新。若该股票名称发生变更，信息更新模块可以进行更新。若该股票名称有其他可替代名称，信息更新模块可以进行更新。以上对更新模块及更新周期、更新内容的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解更新模块及更新周期、更新内容基本原理后，可能在不背离这一原理的情况下，对更新模块及更新周期、更新内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

更新模块对歧义分析模块301或情感分析模块306中的算法模型进行更新可以是直接更新的，也可以是随更新的信息而更新的，也可以是累积一定量的更新信息后更新的。

歧义分析模块301中的歧义分析模型312的更新可以是经过人工审核的也可以是系统自动审核的，也可以是二者结合的。上述的歧义分析模型312可以包括但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵等。例如，系统定期查看财经网站等新闻媒体，若包含已有信息，如股票名称等，同时出现了与该股票名称相关的重要信息，信息更新模块可以对信息库511进行更新。歧义分析模块301可以对该信息进行歧义判断，若为歧义信息，该歧义信息可以进入歧义搭配提取步骤，从中提取出歧义搭配，并人工审核该信息是否确为强歧义搭配，审核通过后，该搭配将进入信息更新模块，用来更新歧义分析模型312。

以上对更新歧义分析模块301和歧义分析模型312的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解更新歧义分析模块301和歧义分析模型312的基本原理后，可能在不背离这一原理的情况下，对更新歧义分析模块301和歧义分析模型312进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

情感分析模块306中的情感分析器311的更新可以是经过人工审核的也可以是系统自动审核的，也可以是二者结合的。上述情感分析器311可以包含但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵等。例如，系统定期查看财经网站等新闻媒体，通过正负面情感分析流程后获得的强正负面搭配，进一步更新情感词汇搭配集合，该更新后的搭配集合将进入信息更新模块，用来更新情感分析模块的模型。

以上对更新情感分析模块306和情感分析器311的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解更新情感分析模块306和情感分析器311的基本原理后，可能在不背离这一原理的情况下，对更新情感分析模块306和情感分析器311进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图6展示的是系统用户交互的一个流程示意图。需要说明的是，下面描述中的流程仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些描述将本发明应用于其它类似情景。系统首先获取用户输入(步骤601)。所述步骤可由输入输出模块103完成。其中输入方式包括但不限于键盘输入、定点装置输入(如指点杆输入、鼠标输入、触控板输入、轨迹球输入)、语音识别设备输入、图形图像识别设备输入等；输入形式包括但不限于数字、字符、符号、文字、声音、图形图像、视频等。系统可以将用户输入存储(步骤604)。系统可以将用户输入存储在输入输出模块103 的存储单元403，也可以将用户输入存储在其他模块的存储单元(如处理模块的存储模块315、数据库104等)。在一些实施例中，存储是必须的。在另一些实施例中，存储是可选的或者不必须的。用户输入的存储可以是永久的，也可以是暂时的；可以是全部存储，也可以是部分存储。在某些实施例中，系统可以利用存储的用户输入获取用户习惯，进行智能学习，提示候选词等。获取用户输入后，系统将根据用户输入检索信息(步骤602)，然后根据检索到的信息生成输出结果(步骤603)。系统还可以将用户输入的信息直接生成输出结果(步骤603)。所述步骤603可以通过输入输出模块103完成。系统还可以将生成的输出结果通过外周设备展示给用户，也可以不展示。在一些实施例中，展示是必须的；在另一些实施例中，展示是可选的或者不必须的。系统可以根据用户输入检索数据库104中的信息，也可以根据用户输入检索其他模块存储单元的信息(如处理模块的存储模块315等)，也可以根据用户输入通过网络105检索信息。上述信息可以被存储(步骤604)。可以存储在输入输出模块103的存储单元403，也可以存储在其他模块的存储单元(如处理模块的存储模块315、数据库104等)。存储可以是永久的，也可以是暂时的。可以是全部存储，也可以是部分存储。在一些实施例中，存储是必须的。在一些实施例中，存储是可选的或者不必须的。所存储的信息可以进一步分析，如进行歧义分析或情感分析，也可以不进行分析。在获取相关信息后，系统可以生成输出结果(步骤603)。所述步骤603可由输入输出模块103完成。系统还可以将生成的输出结果通过外周设备展示给用户。展示可以是实时的，也可以是延时的。展示可以是定期的，也可以是不定期的。在一些实施例中，用户输入中包含周期性指令(如订阅某种信息的指令)，系统可以识别这些指令，并根据用户指令定时或不定时将符合用户输入条件的信息推送或展示给用户。

以上对系统用户交互流程的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解输入输出流程的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图7展示的是一种信息情感分类方法系统流程图。系统首先采集信息(步骤701)。所述步骤可由采集模块101完成。上述信息包括但不限于词典、新闻、有关公司的研究报告、公告、产品手册、以及相关网站网页等。上述信息所属行业包含但不限于体育、娱乐、经济、政治、文化等。上信息的形式包括但不限于文字的、图片的、音频的、视频的等。上述信息使用语言包括但不限于中文、英文、日文、韩文、法文、德文等。上述信息的来源可以是网络105，也可以是数据库104等模块。根据采集到的信息，系统可以分析信息是否歧义，得到歧义分析结果(步骤702)。所述步骤702可以由处理模块102中的歧义分析模块301完成。上述信息可以是采集到的全部信息，也可以是采集到的部分信息。上述分析歧义可以是人工进行的，也可以是歧义分析模型自动判断的，也可以是二者结合起来进行的。上述歧义分析模型包括但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵、等。系统可以分析步骤702得到的歧义分析结果的情感类别，得到包含情感类别的信息(步骤703)。所述步骤703可由处理模块102中的情感分析模块306完成。在一些实施例中，在进行情感分析时，可以只对非歧义的信息进行情感分析，也可以对歧义的信息也进行情感分析。系统还可以省略步骤702，将采集到的信息不经过歧义分析而直接进行情感分析(执行步骤701和步骤703)。上述情感分析可以是人工进行的，也可以是情感分析模型自动判断的，也可以是二者结合起来进行的。上述情感分析模型包括但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵等。上述情感分析可将信息分为包含但不限于正面信息、负面信息和中性信息等。另外，在某些实施例中，歧义分析及情感分类的顺序可以被调换，即先对采集到的信息进行情感分类，再对情感分析后的信息进行歧义分析(执行步骤701、703、702)。上述每个步骤的中间处理结果以及最终处理结果可依照特定的存储方式进行存储(步骤704)。其中，上述存储方法包含但不限于顺序存储方法、链接存储方法、索引存储方法以及散列存储方法等。存储的位置可以是存储模块315、可以是存储单元203，也可以是数据库104等。

以上对基于歧义分析的信息情感分类方法的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解该基于歧义分析的信息情感分类方法的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图8展示的是系统训练模型的流程图。系统通过具有采集功能的模块采集信息(步骤801)。其中，上述具有采集功能的模块可以是采集模块101，也可以是歧义分析模块301中的采集单元302，还可以是情感分析模块306的采集单元307等。上述信息的来源可以是存储模块315，也可以是数据库104，还可以是网络105。上述信息包括但不限于行业特定名称词汇、与特定名称词汇强相关的词汇、包含上述词汇的信息以及包含情感信息的词汇等。上述行业包含但不限于体育、娱乐、经济、政治、文化等。上述特定名称词汇包括但不限于特定领域的专有名词、全称、简称、代码、同义词、缩略词。上述与特定名称词汇强相关的词汇包括但不限于与上述特定名称词汇有关的名词、动词、形容词、短句、短语搭配、该领域特定词汇的行业词汇、近义词、反义词、常见搭配词、组成部分名词、派生词、复合词等。包含上述词汇的信息包括但不限于词典、新闻、有关公司的研究报告、公告、产品手册、以及相关网站网页。上述情感词汇的类别包括但不限于正面、负面、中性等。信息的形式包括但不限于文字的、图片的、音频的、视频的等。上述信息使用语言包括但不限于中文、英文、日文、韩文、法文、德文等。

系统在步骤802构建词库与信息库。步骤802可由处理单元102完成。其中，上述词库包含但不限于关键词词库501和情感词词库505。关键词词库501包含但不限于由特定名称词汇组成的关键词词典502、一个或多个与特定名称词汇相关的词汇组成的相关词词典503以及一个或多个审核关键词词典502得到的歧义列表504。上述情感词词库505 包含但不限于一个或多个情感词汇库506以及一个或多个情感词汇搭配库507。上述信息库中的信息包含关键词词典502中的特定名称词汇。根据步骤802的结果，系统可以通过歧义分析模块301的语料采集单元305和情感分析模块306的语料采集单元310采集语料(步骤803)，步骤803可以由处理单元102来完成。采集语料的方式包含但不限于对采集到的信息进行匹配打分等处理过程。采集到的语料可用来训练模型(步骤804)，上述模型包含但不限于歧义分析模型312和情感分析器311，歧义分析模型312包含但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵等。情感分析器311包含但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵等。另外，系统还可以对采集到的信息直接经人工审核作为歧义语料或情感语料(步骤801，步骤803)，还可以对采集到的信息直接经人工审核来训练模型(步骤801，步骤804)，而不经过步骤802和步骤803的过程。对于上述每个步骤的中间处理结果或最终处理结果可进行存储(步骤805)。其中，上述存储方法包含但不限于顺序存储方法、链接存储方法、索引存储方法以及散列存储方法等。存储的位置可以是存储模块315、可以是存储单元203，也可以是数据库104等。

以上对系统训练模型的流程图描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解该基于系统训练模型的流程图的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

实施例

图9是使用场景示意图。902为信息情感分类系统，所述系统通过网络903与用户901通信。信息情感分类系统902可以是一个服务器，也可以是一个服务器群组，其分布方式可以是集中式的，也可以是分布式的。网络903可以是有线的，也可以是无线的；可以是局域网，也可以是广域网。

在本发明的一种使用示例中，用户901通过输入输出模块103(详见图1)键入对象名称，如：股票名称、期货名称、债券名称等。所述对象名称经由网络903被传输至信息情感分类系统902，并被信息情感分类系统902解析。所述对象名称经信息情感分类系统902解析后被识别。识别完成后，系统的处理模块102(详见图1)将开始搜索数据库104(详见图1)，从而获取包含对象名称的文章集合。所述文章集合中的每篇文章针对所述对象名称有不同的情感类型，系统的处理模块102将依照所述情感类型将所述文章集合中的文章进行分类，如：正面文章以及每一篇正面文章的正面指数、负面新闻以及每一篇负面文章的负面指数、中性新闻等。完成分类后，经过分类的文章集合被传输给输入输出模块103，向用户901展示。

在本发明的另一种使用示例中，用户901键入对象名称，如：股票名称、期货名称、债券名称等。所述键入对象名称的操作可由输入输出模块103完成(详见图1)。所述对象名称经由网络903被传输至信息情感分类系统902，并被信息情感分类系统902解析。所述对象名称经信息情感分类系统902解析后被识别。识别完成后，系统采集包含用户输入的信息，所述采集包含用户输入的信息可由采集模块101完成，交由处理模块102(详见图1)进行歧义分析，筛选出非歧义信息，进行情感分析。系统也可以首先判断用户输入是否包含歧义信息，若不包含歧义信息，可直接进行情感分析。情感分类如：正面文章以及每一篇正面文章的正面指数、负面新闻以及每一篇负面文章的负面指数、中性新闻等。完成分类后，经过分类的文章集合被传输给输入输出模块103，向用户901展示。

在本发明的另一种使用示例中，用户901通过输入输出模块103(详见图1)键入两个对象名称，如：股票名称、期货名称、债券名称等。信息情感分类系统902解析并识别所述对象名称，之后将返回经过情感分类的包含对象名称的文章集合。所述文章集合将通过输入输出模块103展示给用户901。除了能获取文章的情感类型外，用户901还可以获取例如，两个对象名称就同一情感类型拥有的文章数量，两个对象名称在一周内拥有正面文章数量的比较，两个对象名称在一个月内拥有正面文章数量的比较，两篇文章在一年内拥有负面文章数量的比较。通过以上数据的帮助，用户901得以做出有效的决策。

以上的描述仅仅是本发明的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。比如：用户可以输入两个以上对象名称，返回结果将包含多个对象名称的数据比对。

图10展示的是系统采集流程的一个实施例的示意图。需要说明的是，下面描述中的流程仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些描述将本发明应用于其它类似情景。步骤1001为采集信息，所述步骤可由采集模块101的采集单元201完成。信息来源可以是本地的，例如存储在采集模块101的存储单元203中的信息，或存储在数据库104中的信息；也可以是来自网络105的，例如开放互联网或者局域网。信息内容包括但不限于现有词典、新闻、有关公司的研究报告、公告、产品手册及相关网站等资讯。采集单元201采集到的信息可以直接存储入采集模块101的存储单元203，也能够存储入数据库104的信息库511中(步骤1007)。采集单元201采集到的信息也可以交给处理单元202处理。在步骤1005中，特定词汇被从信息中提取出来，所述步骤可由处理单元202完成。在步骤1002中，情感词汇被从信息中提取出来，所述步骤可由处理单元202完成。在步骤1003中，情感词汇搭配被从信息中提取出来，所述步骤可由处理单元202完成。所述特定词汇包括关键词，包括但不限于特定领域的专有名词、全称、简称、代码、同义词、缩略词；以及与关键词相关的强相关词，包括但不限于与上述关键词有关的专有名词、名词、动词、形容词、短语搭配、短句、该领域特定词汇的行业词汇、近义词、反义词、常见搭配词、组成部分名词、派生词、复合词等。上述提取可以是同时进行的；也可以是分步进行的。提取所采用的算法包括但不限于PMI算法、对数似然比算法等。上述提取步骤可以是同时进行的，也可以是分步进行的，可以以任意可能的顺序进行组合。此处对所描述的步骤可以在适当的情况下以任何合适的顺序，或同时实现。例如，在一个实施例中，可以首先提取特定词汇(步骤1005)，之后提取情感词汇(步骤1002)，提取情感词汇搭配(步骤1003)；步骤1002与步骤1003可以是同时进行的，也可以是先后进行的；可以先进行步骤1002，再进行步骤1003，也可以先进行步骤1003再进行步骤1002。此外，在不偏离此处所描述的采集流程的主题的精神和范围的情况下，可以从任何一个方法中删除各单独的步骤。上文所描述的任何示例的各方面可以与所描述的其他示例中的任何示例的各方面相结合，以构成进一步的示例，而不会丢失寻求的效果。显然，对于本领域的专业人员来说，在了解采集模块的基本原理后，可能在不背离这一原理的情况下，对采集流程进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

处理单元202提取所得的特定词汇可以存入数据库104的关键词词库501(步骤1006)，情感词汇与情感词汇搭配可以存入数据库104的情感词词库505(步骤1004)。此处对采集流程所描述的步骤可以在适当的情况下以任何合适的顺序，或同时实现。另外，在不偏离此处所描述的采集流程的主题的精神和范围的情况下，可以从任何一个方法中删除各单独的步骤。上文所描述的任何示例的各方面可以与所描述的其他示例中的任何示例的各方面相结合，以构成进一步的示例，而不会丢失寻求的效果。显然，对于本领域的专业人员来说，在了解采集模块的基本原理后，可能在不背离这一原理的情况下，对采集流程进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图11是系统应用于股票新闻领域的一个实施例。系统采集日常新闻以及互联网开放词典、专业词典等(步骤1101，步骤1102)，构建金融产品词汇源、金融产品相关词源以及情感词汇词库(步骤1103，步骤1104，步骤1108)，步骤1101、步骤1103、步骤1104、步骤1108 可由采集模块101完成。系统还可将采集到的信息进行存储。存储的位置可以是数据库104，也可以是其他具有存储功能的单元或模块(例如存储单元203等)。接着，系统在步骤1111获取歧义列表。之后，系统对采集到的相关股票新闻进行歧义分析(步骤1106)，步骤1106可由处理模块102中的歧义分析模块301完成，筛选出非歧义股票信息进入处理模块102的情感分析模块306进行情感分类(步骤1107)。其中，处理模块102中对新闻网站信息的歧义分析，可以是由系统自动完成的，也可以是由人工审核完成的(步骤1110)，也可以是两者相结合完成的。系统得到非歧义股票信息后，将调取情感词汇词库(步骤1108)，用情感词汇库对非歧义股票信息进行情感分析(步骤1107)，对股票新闻的情感类别进行标记。步骤1108和步骤1107可由处理模块102中的情感分析模块306完成。处理模块情感分析模块对非歧义股票信息的判断，可以是系统自动完成的，也可以是由人工审核完成的(步骤1110)，也可以是两者相结合完成的。标记了情感类别的股票新闻将被生成，并根据其情感标签分类展示给用户。

同时，采集模块101还可以通过定期采集日常新闻，从中提取股票词汇以及股票相关词汇，扩充股票词汇源以及股票相关词源。采集模块101还可以从日常新闻中采集包含股票信息的语句，对处理模块歧义分析模块301以及处理模块情感分析模块306的算法模型进行训练更新，这种训练更新可以是在人工审核监督下进行的，也可以是系统自发完成的，也可以是两者相结合完成的。

以上将系统应用在股票新闻领域的描述仅仅是本发明的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，将系统应用于其他领域，或将系统在股票新闻领域应用的形式和细节进行的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。

图12展示的是歧义分析的一个实施例。在该实施例中，采集单元302收集股票名称词汇、股票强相关词汇、歧义股票名称词汇和新闻网站新闻(步骤1201、步骤1202和步骤1203)等信息，信息的来源可以是网络105，可以是存储模块315，也可以是直接检索数据库104等。系统在步骤1217获取歧义列表。步骤1217可以由歧义分析模块301完成。歧义分析模块301的匹配单元303和处理单元304根据股票名称词汇、股票强相关词汇和歧义股票名称词汇对股票新闻进行打分(步骤1204)，根据打分结果可以将新闻分为非歧义新闻、强歧义新闻和其他新闻(步骤1205、步骤1207和步骤1206)。其中，非歧义新闻可以直接进入情感分析模块306进行处理(步骤1212)；强歧义新闻可以通过歧义分析模块301语料采集单元305的提取其中的歧义搭配，即歧义词与相关词汇组成的搭配组合(步骤1213、步骤1214)，进而经人工审核(步骤1215)得到强歧义搭配(1216)；强歧义搭配可以用来训练歧义分析模型312(步骤1211)，也可以用来直接判断信息是否具有歧义；包含有强歧义的信息是歧义信息。通过打分结果得到的非歧义新闻、强歧义新闻和其他新闻可以通过语料采集单元305收集包含股票的句子(步骤1208、步骤1209)，经人工审核，上述包含股票的句子被标注为歧义或非歧义(步骤1210)，从而用来训练歧义分析模型312(1211)。上述歧义分析模型包含但不限于最大熵模型。

以上对歧义分析的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解歧义分析的基本原理后，可能在不背离这一原理的情况下，对实施歧义分析的具体方式与步骤进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图13展示的是歧义分析的一个实施例。需要说明的是，下面描述中的流程仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些描述将本发明应用于其它类似情景。在进行歧义分析时，首先获取信息(步骤1301)。信息的获取可以是通过采集模块101，也是可以是通过其他具有信息采集功能的单元或模块(例如，歧义分析模块301中的收集单元302等)，也可以是存储模块(如数据库104，其他模块的存储单元等)。上述信息包括但不限于词典、新闻、有关公司的研究报告、公告、产品手册、以及相关网站网页等。上述信息所属行业包含但不限于体育、娱乐、经济、政治、文化等。上信息的形式包括但不限于文字的、图片的、音频的、视频的等。上述信息使用语言包括但不限于中文、英文、日文、韩文、法文、德文等。上述信息可以直接来自于网络105，也可以是对数据库104中信息库511中的信息的提取等。

信息经过采集之后可通过歧义分析模型312进行分析(步骤1302)。其中，上述歧义分析模型包含但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵等。通过歧义分析的信息就可以标注为包含但不限于歧义信息或非歧义信息(步骤1303)。另外，系统也可以对获取的信息直接进行人工标注(步骤1301，步骤1303)，而无需经过歧义分析模型的分析。以上流程中的中间处理结果和最终处理结果可进行储存(步骤1304)。其中，上述存储方法包含但不限于顺序存储方法、链接存储方法、索引存储方法以及散列存储方法等。储存的位置可以是存储模块315、可以是存储单元203，也可以是数据库104等。

图14展示的是歧义分析的另一个实施例，即有人工监督的情况下的歧义分析流程实施例。需要说明的是，下面描述中的流程仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些描述将本发明应用于其它类似情景。在进行歧义处理时，系统提取数据库104中的关键词词库和信息库(步骤1401、步骤1402)，步骤1401和步骤1402可由采集单元302完成。上述关键词词库包含但不限于一个或多个关键词词典502，一个或多个相关词词典503和一个或多个歧义列表504。上述关键词词典502是由特定名称词汇组成的词典，上述特定名称词汇包括但不限于特定领域的专有名词、全称、简称、代码、同义词、缩略词。上述相关词词典503可以是由与特定名称词汇相关的词汇组成的词典，其中与特定名称词汇相关的词汇可以包含但不限于，例如，行业词汇、高管姓名、主营产品名称、名词、动词、形容词、短语搭配、短句、领域特定词汇的行业词汇、近义词、反义词、常见搭配词、组成部分名词、派生词、复合词等类似的词汇，或者上述词汇的任意组合；上述歧义列表可以是由人工审核由关键词词典得到的；上述的信息库可以是包含特定名称词汇的信息。上述特定名称词汇所属行业可以包含但不限于，例如，体育、娱乐、经济、政治、文化等。包含上述信息库中的信息可以包括但不限于，例如，词典、新闻、有关公司的研究报告、公告、产品手册、以及相关网站网页等类似的信息，或者上述信息的任意组合。

步骤1403将关键词词库与信息库进行匹配，匹配方法包含但不限于正则表达式、双数组词典匹配等，步骤1403可由匹配单元303完成。在步骤1404中，系统对匹配结果进行处理分析，得到分析结果Score。步骤1404可由处理单元304完成。在一些实施例中，score可以用以下公式计算，

Score(news，stock)＝Σ±(wetght_i×count_i)/doc_len (001)

其中，news表示所述的某个信息，stock表示信息中涉及的某一个特定名称词汇，i表示stock的第i个名称词汇、强相关词或歧义名称词汇，weight表示该名称词汇、强相关词汇或歧义名称词汇的权重，count表示词i出现的次数，doc_len表示所述信息的文本长度。

然而，存在以下可能的情况，信息中仅能匹配特定名称词汇，未出现特定名称词汇强相关词。此时，根据特定名称词汇是否出现在歧义列表(即是否有歧义)给出固定分值：

匹配的特定名称词汇有歧义，Score(news，stock)＝α；

匹配的特定名称词汇无歧义，Score(news，stock)＝β；

同时，将α、β设为阈值(步骤1405)。这两个阈值可以是固定的，也可以根据具体的情况做出一定的调整。比如，用户可以自定义这两个阈值以调整系统的敏感度。在收集信息的量非常大的情况下，用户可以通过增大β或者减小α来提高系统敏感度以确保歧义判定的准确率。相反地，在收集信息的量非常小的情况下，用户可以通过减小β或者增大α来降低系统的敏感度以确保信息的完备性。

如果步骤1404中得到的分析结果大于或等于β(步骤1405)，则将该信息标记为非歧义信息(步骤1409)；如果步骤1404中得到的分析结果小于或等于α(步骤1406)，则将该新闻标记为歧义信息(步骤1408)；如果步骤1404中得到的分析结果在α和β之间，则可以经过人工审核或模型审核的方法将该新闻标记为歧义信息或非歧义信息(步骤1408、步骤1409)。上述模型包含但不限于决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、K-近邻、遗传算法、最大熵等。上述标记方法可以是人工的，也可以是系统自动标记的，也可以是二者结合起来标记的。

在步骤1403中，可以用关键词词库中全部或部分信息与包含股票名称的新闻进行匹配，例如可以只采用相关词词典与新闻进行匹配，还可以将相关词词典与歧义列表组合起来与新闻进行匹配。另外，该流程中的有些步骤可以是顺序进行的，也可以是同步进行的，如步骤1401和步骤1402。另外，该流程中的有些步骤也不是必须的，例如对于一个新闻可以直接进行人工审核是否歧义而跳过其它中间环节。

以上对人工监督下的歧义分析流程实施例的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解人工监督下的歧义分析的基本原理后，可能在不背离这一原理的情况下，对实施歧义分析的具体方式与步骤进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图15展示的是训练歧义分析模型的一个实施例。需要说明的是，下面描述中的流程仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些描述将本发明应用于其它类似情景。在进行歧义处理时，系统提取数据库104中的关键词词库和信息库(步骤1501、步骤1502)。步骤1501和步骤1502可由采集单元302完成。上述关键词词库包含但不限于一个或多个关键词词典502，一个或多个相关词词典503和一个或多个歧义列表504。上述关键词词典502可以由特定名称词汇组成的词典。上述特定名称词汇可以包括但不限于，例如，特定领域的专有名词、全称、简称、代码、同义词、缩略词等类似名称词汇，或者上述名称词汇的任意组合。上述相关词词典503可以由与特定名称词汇相关的词汇组成的词典。与特定名称词汇相关的词汇可以包含但不限于，例如，行业词汇、高管姓名、主营产品名称、名词、动词、形容词、短语搭配、短句、领域特定词汇的行业词汇、近义词、反义词、常见搭配词、组成部分名词、派生词、复合词等。上述歧义列表可以是由人工审核由关键词词典得到的。上述的信息库可以包含特定名称词汇的信息。上述特定名称词汇所属行业可以包含但不限于，例如，体育、娱乐、经济、政治、文化等。包含上述信息库中的信息可以包括但不限于词典、新闻、有关公司的研究报告、公告、产品手册、以及相关网站网页等类似信息，或者上述信息的任意组合。步骤1503将关键词词库与信息库进行匹配，匹配方法包含但不限于正则表达式、双数组词典匹配等，所述匹配可由匹配单元303完成。系统对匹配结果进行分析处理，得到分析结果Score。步骤1504可由处理单元304完成。在一些实施例中，score可以由下面的公式计算，

Score(news，stock)＝Σ±(wetght_i×count_i)/doc_len (002)

其中，news表示某个信息，stock表示新闻中涉及的某一个特定名称词汇，i表示stock的第i个名称词汇、强相关词或歧义名称词汇，weight表示该名称词汇、强相关词汇或歧义名称词汇的权重，count表示词i出现的次数，doc_len表示所述信息的文本长度。

匹配的特定名称词汇有歧义，Score(news，stock)＝α；

匹配的特定名称词汇非歧义，Score(news，stock)＝β；

同时，将α、β设为阈值(步骤1505)。得分大于或等于β语句集合将被标记为非歧义语句集合，得分小于或等于α的语句集合将被标记为歧义语句集合。这两个阈值可以是固定的，也可以根据具体的情况做出一定的调整。比如，用户可以自定义这两个阈值以调整系统的敏感度。在收集信息的量非常大的情况下，用户可以通过增大β或者减小α来提高系统敏感度以确保歧义判定的准确率。相反地，在收集信息的量非常小的情况下，用户可以通过减小β或者增大α来降低系统的敏感度以确保信息的完备性。

模型训练语料收集：

(1)如果步骤1504中得到的分析结果大于β(步骤1505)，则将该信息标记为非歧义信息(步骤1509)。上述标记方法可以是人工的，也可以是系统自动标记的，也可以是二者结合起来标记的。在步骤1510中，系统对语料进行收集。步骤1510可由语料采集单元305完成。其中收集的语料可以是整个的非歧义信息，也可以是从该信息中提取的包含特定名称词汇的句子，也可以是其中的一些非歧义搭配。

(2)如果步骤1504中得到的分析结果小于α(步骤1506)，则将该信息标记为歧义信息(步骤1508)，上述标记方法可以是人工的，也可以是系统自动标记的，也可以是二者结合起来标记的。语料采集单元305可对语料进行收集(步骤1510)。其中收集的语料可以是整个的歧义信息，也可以是从该信息中提取的包含特定名称词汇的句子，也可以是其中的一些歧义搭配。

(3)如果步骤1504中得到的分析结果在α和β之间，则可以经过人工审核将信息标记为歧义信息或非歧义信息(步骤1507、步骤1508、步骤1509)。上述标记方法可以是人工的，也可以是系统自动标记的，也可以是二者结合起来标记的。在步骤1510中，系统对语料进行收集。步骤1510可由语料收集单元305完成。其中收集的语料可以是整个的歧义信息，也可以是从该信息中提取的包含特定名称词汇的句子，也可以是其中的一些歧义搭配和非歧义搭配。

在步骤1503中，可以用关键词词库中全部或部分信息与包含股票名称的新闻进行匹配，例如可以只采用相关词词典与新闻进行匹配，还可以将相关词词典与歧义列表组合起来与新闻进行匹配。另外，该流程中的有些步骤可以是顺序进行的，也可以是同步进行的。如步骤1501和步骤1502，可以是同时进行的，也可以是顺序进行的。另外，该流程中的有些步骤也不是必须的，例如对于一个新闻可以直接进行人工审核是否歧义而跳过其它中间环节。

根据上述(1)，(2)，(3)所获得的已标注为歧义、非歧义两个类别的信息中包含特定名称词汇的句子，将每个句子进行分词，从而获得一组由特定名称词汇、周围词汇以及相对位置信息形成的要素。将这些要素按照指定的格式形成要素集合，据此训练歧义分析模型Model(步骤1511)：

此歧义分析模型Model可以在歧义分析模块中自动判断某新闻中关于某股票名称的歧义性。

以上对训练歧义辨别模型的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解训练歧义辨别模型的基本原理后，可能在不背离这一原理的情况下，对实施训练歧义辨别模型的具体方式与步骤进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图16为情感分析模块的一个实施例。系统收集情感种子词汇(步骤1601)。所述情感种子词汇可以包含但不限于正面情感词汇以及负面情感词汇，例如，佳、优、增、好、增长、盈、涨、补涨、赚、涨停、飙升盈利、减少、降、锐减、补跌、下降、亏损、赔、亏、跌停、减持、降低等词汇。同时，系统通过访问各个财经网站，搜集股票相关的新闻(步骤1602)。通过将所述情感种子词汇与所述股票相关新闻作处理，建立情感词汇搭配以及维持情感词汇搭配的扩充(步骤1603)。所述情感词汇搭配的扩充可以通过定期访问各大财经网站、提取股票相关新闻来完成。情感词汇与情感词汇搭配扩充完成之后，系统将得到情感词汇搭配集合(步骤1604)。另一方面，系统通过人工或自动审核股票相关新闻，将相关性较低以及有歧义的句子滤除，从而得到非歧义股票句子集合(步骤1605)。系统将非歧义股票句子集合与情感词汇搭配集合进行匹配从而识别出非歧义股票句子集合的情感类型。匹配完成之后将得到正负面句子集合(步骤1606)。所述正负面句子集合可以被人工审核。经过人工审核后的句子将被标记为正面、负面以及中性等三个情感类型(步骤1607)。经过人工审核被标记为中性的句子集合将被送入情感分析器进行情感类别识别训练(步骤1608)。所属情感分析器可采用的算法包括但不限于最大熵模型、支持向量机算法、朴素贝叶斯等。情感分析器完成训练之后将可以判定经人工审核后被标记为中性的句子(步骤1611)。经人工审核被情感类型被标记为正面或负面的句子被送入正负面搭配打分引擎作进一步情感类型识别(步骤1609)。所述正负面搭配打分引擎将对非歧义股票句子集合及情感词汇搭配集合的匹配程度进行量化，并依据量化结果给出相应的分数。分数值高表明所述股票句子或股票句子集合中包含一个或多个强情感词汇搭配，可以直接判定该句子或集合的情感类型为正面或负面(步骤1610)。分数值低表明所述股票句子或股票句子集合中不包含强情感词汇搭配，因此分数值低的句子将被送入情感分析器进行情感类型的判定(步骤1611)。

以上的描述仅仅是本发明的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。

图17为判定情感类型的一个示例。系统在步骤1701获取信息，所述信息可以是经过歧义分析之后的非歧义信息以及歧义信息，可以是经过情感分类但还未标记情感类型的信息，还可以是未经任何处理的初始信息。所述信息在被获取之后可以被存储到，例如数据库104中(步骤1704)。所述经过情感分类但未标记情感类型的信息将被直接标记情感类别(步骤1703)。所述非歧义信息以及歧义信息将被送入情感分析器器进行情感分类。情感分析器收到所述信息之后将其存入数据库104中。所属情感分析器可采用的算法包括但不限于最大熵模型、支持向量机算法、朴素贝叶斯等。情感分析器首先判断所述歧义信息及非歧义信息是否包含强情感搭配，如果包含强情感搭配，则所述信息的情感类型可以直接被判定(步骤1702)，然后根据判定的结果被标记为相应的情感类别(步骤1703)。对于不包含强情感搭配的信息，所述情感分析器中的打分引擎将对所述信息包含的情感类型进行打分，最终依据打分结果判定所述信息的情感类型。完成情感类型判定之后，将对所述信息的情感类型进行标记(1703)，标记完成之后，将所述信息存入数据库104中。

需要注意的是，上述示例只是为了便于理解发明，不应被视为是本发明唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。

图18描述的是情感分类方法的一个实施例。系统获取非歧义语句集合G(步骤1801)。步骤1801可由情感分析模块306的采集单元307通过访问存储模块315来完成。同时，系统获取情感词汇搭配集合Ω(步骤1802)。步骤1802可由情感分析模块306的处理单元309通过访问数据库104中的情感词汇搭配库507来完成。系统将所获取的非歧义语句集合G与情感词汇搭配集合Ω进行匹配(步骤1803)。步骤1803可由情感分析模块306的匹配单元308完成。步骤1803是一个逻辑判断，如果非歧义语句集合G与情感词汇搭配集合Ω匹配，则得到包含情感搭配的句子集合H(步骤1806)，反之，则得到不包含情感搭配的句子H’(步骤1805)。系统将集合H与强正负情感词汇搭配集合F匹配(步骤1807)，所述强正负情感词汇搭配集合F包括但不限于经人工审核情感匹配准确率大于特定阈值的词汇集合(例如：准确率在90％以上)。步骤1807可由匹配单元308完成。步骤1808对匹配结果进行逻辑判断，将集合H分为包含强正负搭配的句子(步骤1809)以及不包含强正负情感搭配的句子(步骤1810)。情感分析模块306的情感分析器311将对不包含强正负情感搭配的句子进行情感分类(步骤1811)，所述情感分析器311可采用的算法包含但不限于最大熵模型、支持向量机模型、朴素贝叶斯、决策树等算法。完成分类后，系统得到正负情感的所有句子M’(步骤1812)。步骤1813将判断M’中是否所有句子都属于一种情感，如果所有句子都属于一种情感，系统将所述新闻标记为相应的正负情感类型(步骤1815)。步骤1815可由处理单元309完成。如果M’中的句子包含两种或两种以上的情感，则情感分析模块306的处理单元309将按照一定算法比较M’中的正负情感类别得分(步骤1814)，然后将M’标记为得分高的情感类别(步骤1815)。所述算法需满足以下条件；第一，强搭配的正负面程度可以人为定义，正负面程度是得分的一个要素。第二，强搭配和股票的距离是得分要考虑的另外的因素。第三，如果最终的正负面判定是用模型判定的，其得分要小于任何强规则的得分。第四，标题出现的正负面搭配得分要高于其他地方(如新闻内容)正负面搭配的得分。在对包含情感搭配的句子集合H完成分类之后，将对所述句子集合进行情感类型的标记(步骤1815)，向用户展示完成分类的相关新闻。对于不包含情感搭配的句子H’，系统将其标记为中性新闻(步骤1817)，然后将完成情感标记的新闻作为中性新闻展示给用户。需要注意的是，在将句子标记为中性之后，系统也可以通过检索语义知识库512，来对已经被标记为中性的句子集合进行第二次情感判断(步骤1818)。步骤1818可由情感分析模块306完成。所述语义知识库512可识别自然语言中不包含情感词汇但是有情感表述的句子、短语或段落。例如:今天我和丈夫申请了离婚，他想从我身边拿走孩子的监护权。这句话没有任何情感词汇，所以通过普通的情感分析方法将无法识别句子的情感类别。但是通过检索语义知识库512，此句的情感类别将被识别。在通过语义知识库512完成第二次情感判断之后，系统将所述句子标记为相应的情感类型(步骤1815)。完成情感分类后，系统可以提供新闻作为一个整体的情感类型的展示方法，还可以提供同一篇新闻对涉及的多个同类或多个不同类金融产品中某一个或多个金融产品的情感类型的展示方法。

此处所描述的方法的步骤可以在适当的情况下以任何合适的顺序，或同时实现。另外，在不偏离此处所描述的主题的精神和范围的情况下，可以从任何一个方法中删除各单独的步骤。上文所描述的任何示例的各方面可以与所描述的其他示例中的任何示例的各方面相结合，以构成进一步的示例，而不会丢失寻求的效果。

图19描述的是训练情感分析器的一个实施例。首先，系统收集并构建种子情感词汇词典，所述收集及构建可由采集模块101完成；其来源包括但不限于文献(图书、报纸、期刊、专利文献、学位论文、公文等)、学术报告、市场报告、新闻、评论、网络词典、该领域现有词典、有关公司的研究报告、公告、产品手册及相关网站等；获取信息的方式可以是集中式的也可以是分布式的、可以是本地的也可以是远程的、可以是有线的也可以是无线的，可以是人工的也可以是自动的、也可以是多种方式相结合的。

在种子情感词汇词典的基础上，系统进一步收集信息扩充情感词汇词典及情感词汇搭配，所述进一步收集信息可由采集模块101的采集单元201来完成；其来源包括但不限于文献(图书、报纸、期刊、专利文献、学位论文、公文等)、学术报告、市场报告、新闻、评论、网络词典、该领域现有词典、有关公司的研究报告、公告、产品手册及相关网站等；获取信息的方式可以是集中式的也可以是分布式的、可以是本地的也可以是远程的、可以是有线的也可以是无线的，可以是人工的也可以是自动的、也可以是多种方式相结合的；采用的算法包括但不限于PMI算法、对数似然比算法、卡方检验、夹角余弦、戴斯系数和类F1measure等。

经过收集信息，获得情感词汇搭配集合Ω(步骤1901)，以及获取非歧义语句(步骤1902)。需要注意的是，情感词汇搭配集合Ω的获得，可以是如本实施例所述分步的，也可以是一步完成的。

情感分析模块306将情感词汇搭配集合Ω与非歧义句子集合匹配(步骤1903)，匹配得到的句子集合记为情感语句集合H(步骤1904)。匹配可以是人工的，也可以是自动的，可以采用的算法包括但不限于正则表达式。

人工审核情感语句集合H，将句子集合中的句子标记为正面、负面、中性三种情感类别(步骤1905)。审核完成后，经过人工情感分类的句子集合将被存入语料采集单元310中(步骤1909)。系统自动统计情感语句集合H中每个情感词汇搭配所匹配到的句子的正面、负面、中性三种情感类别的数据，得到该情感词汇搭配的情感分类准确率R(步骤1906)。在一些实施例中，情感分类准确率可以由如下公式计算：

[根据细则26改正24.09.2016]　

该情感词汇搭配的负面、中性情感分类准确率R2、R3以此类推。

将该情感词汇搭配三种情感分类的准确率R与预设阈值(在本实施例中阈值设置为90％)比较(步骤1907)，若某一情感类别准确率大于90％，则判定该情感词汇搭配为强情感搭配。例如，若情感语句集合H中某情感词汇搭配的正面情感分类准确率R1＞90％，直接判定该情感词汇搭配为强正面情感词汇搭配。收集所有强情感词汇搭配，得到强情感词汇搭配集合F(步骤1908)。所述强情感词汇搭配集合F将被存入语料采集单元310中(步骤1909)。强情感词汇搭配集合F定义如下：

在语料收集单元完成语料收集后，所述语料收集单元中的要素集合将用来训练情感分析器。所述语料收集可以是实时的，也可以是周期性的。

将集合H标记为正面、负面、中性三种情感类别的情感语句(步骤1905),也可作为语料训练情感分析器(步骤1910)。所述情感分析器可以采用的算法模型Model’是一种监督学习(Supervised Learning)算法，包括但不限于最大熵(Maximum Entropy Model)、朴素贝叶斯(NaiveBayes)、支持向量机(Support Vector Machine)、非负矩阵三分解(Non-negative Matrix Tri-factorization)、遗传算法(Genetic Algorithm)、K最近邻(k-Nearest Neighbor).在监督算法模型中的特征采用但不限于：词汇出现次数、词汇的词性、词汇相对位置、词汇间的依赖特征、词汇的抽象特征(如用无监督学习获得的词向量)。情感分析器算法模型Model’可以表示为：

[根据细则26改正24.09.2016]　
　

图20描述的是分类展示的一个实施例。图20描述的是一个用于分类展示的用户交互界面，该用户交互界面可以在外周设备上展示，所述外周设备包括但不限于移动设备、手机、笔记本电脑、平板电脑、可穿戴设备、智能家电、智能交通工具、智能仪器设备。在本实施例中，分类展示在图形界面展示，依照正面、负面、中性三种情感类别将用户检索关键词涉及的相关信息依次列出。

以上的描述仅仅是本发明分类展示模块的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。

Claims

一种系统，包括：

一种计算机可读的存储媒介，所述存储媒介存储可执行模块，包括：

采集模块，所述采集模块能够采集信息，构建第一词库、第二词库与至少一个信息库；

处理模块，所述处理模块能够对信息进行歧义分析，对歧义分析后的信息进行情感分析，并进行语料采集；

一个数据库，所述数据库能够存储所述词库与所述信息库；

一个处理器，所述处理器能够执行所述可执行模块。
根据权利要求1所述的系统，进一步包括一个更新模块，所述更新模块能够扩充所述第一词库、所述第二词库与所述至少一个信息库。
根据权利要求1所述的系统，所述采集模块能够进一步审核第一词库中词汇的歧义性，构建一个歧义列表。
根据权利要求1所述的系统，所述处理模块包括一个歧义分析模块，配置为对信息进行歧义分析。
根据权利要求4所述的系统，所述歧义分析模块包括一个匹配单元和一个处理单元。
根据权利要求1所述的系统，所述处理模块包括一个歧义分析模型。
根据权利要求6所述的系统，所述歧义分析模型包括最大熵算法训练模型。
根据权利要求1所述的系统，所述处理模块包括一个情感分析模块，配置为对信息进行情感分析。
根据权利要求8所述的系统，所述情感分析模块包括一个匹配单元和一个处理单元。
根据权利要求1所述的系统，所述处理模块进一步包括一个情感分析器。
根据权利要求10所述的系统，所述情感分析器包括最大熵算法训练模型、SVM模型中的一种。
一种方法，包括：

获取用户输入；

根据用户输入查询数据库，提取包含用户输入信息的已标记情感类别的非歧义信息；

将所述标记过情感类别的非歧义信息依据情感类别分类。
根据权利要求12所述的方法，所述非歧义信息由以下步骤标记：

提取第一个词库以及信息库；

用所述第一个词库对所述信息库中的信息进行匹配、打分；

根据分数识别出一组歧义信息以及一组非歧义信息。
根据权利要求12所述的方法，所述非歧义信息可以由一个歧义分析模型标记。
根据权利要求14所述的方法，所述歧义分析模型包括最大熵算法训练模型。
根据权利要求12所述的方法，所述情感类别由以下步骤标记：

提取第二个词库以及信息库；

用所述第二个词库对所述信息库中的信息进行匹配，得到一组情感语句集合；

审核所述一组情感语句集合中语句的情感类别并标记；
根据权利要求12所述的方法，所述情感类别可以由一个情感分析器标记。
根据权利要求17所述的方法，所述情感分析器包括最大熵算法训练模型、SVM模型中的一种。
一种方法，包括：

采集信息，构建和/或扩充第一个词库以及信息库；

用所述第一个词库对所述信息库中的信息进行匹配、打分；

根据分数识别出一组歧义信息以及一组非歧义信息；

采集所述一组歧义信息以及一组非歧义信息中的语料；

利用语料训练歧义分析模型。
根据权利要求19所述的方法，所述歧义分析模型包括最大熵算法训练模型。
根据权利要求19所述的方法，所述第一词库进一步包括一个歧义列表。
根据权利要求19所述的方法，所述训练信息歧义分析模型的方法进一步包括人工审核信息是否具有歧义。
一种方法，包括：

采集信息，构建和/或扩充第二个词库以及信息库；

用所述第二个词库对所述信息库中的信息进行匹配，得到一组情感语句集合；

审核所述一组情感语句集合中语句的情感类别并标记；

计算上述情感语句集合中每个情感搭配的准确率；

采集所述一组情感语句集合中的语料；

利用语料训练情感分析模型。
根据权利要求23所述的方法，所述情感分析器包括最大熵算法训练模型、SVM模型中的一种。
根据权利要求23所述的方法，所述方法进一步包括人工审核信息情感类别。