WO2024037483A1

WO2024037483A1 - 文本处理方法、装置、设备及介质

Info

Publication number: WO2024037483A1
Application number: PCT/CN2023/112841
Authority: WO
Inventors: 王兆麟; 丁冠源; 回姝; 王兆麒; 郭富琦; 黄嘉桐; 郑彤; 张文娟
Original assignee: 中国第一汽车股份有限公司
Priority date: 2022-08-16
Filing date: 2023-08-14
Publication date: 2024-02-22
Also published as: CN115309867A

Abstract

本申请公开了一种文本处理方法、装置、设备及介质。该方法包括：将评论文本拆分为至少两条目标语句；根据所述至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及所述至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素；根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值；根据重要性量化值、所述目标高频语句要素所属的主题类型，以及所述目标高频语句要素的词频，对所述评论文本处理的结果进行可视化展示。

Description

文本处理方法、装置、设备及介质

本申请要求在2022年08月16日提交中国专利局、申请号为202210978990.0的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机领域，例如涉及一种文本处理方法、装置、设备及介质。

背景技术

在线评论是以文本的形式表达用户的经验、评价或意见。其往往具有时效性、数量性、非结构化、内容复杂等特点。随着网络评论信息数量的急剧增加，对在线评论进行文本挖掘，不仅可以帮助消费者做出理性的决策，而且可以引导设计师进行设计、生产和版本更新。

因此，如何更好的对评论文本进行文本处理，准确提取出文本中的有效信息并进行可视化，使得相关人员可以有针对性的提高产品质量，是亟待解决的问题。

发明内容

本申请提供了一种文本处理方法、装置、设备及介质，可以实现对评论文本更准确有效的处理，可以提取出更精准的有效信息并进行可视化。

根据本申请的一方面，提供了一种文本处理方法，包括：

将评论文本拆分为至少两条目标语句；所述评论文本为对预设排名车型的汽车的相关性能进行评论的文本；

根据所述至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及所述至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素；其中，每个语句要素包括以下至少之一：名词、短语；

根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值；

根据所述重要性量化值、所述目标高频语句要素所属的主题类型，以及所述目标高频语句要素的词频，对所述评论文本处理的结果进行可视化展示。

根据本申请的另一方面，提供了一种文本处理装置，包括：

拆分模块，设置为将评论文本拆分为至少两条目标语句；所述评论文本为对预设排名车型的汽车的相关性能进行评论的文本；

确定模块，设置为根据所述至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及所述至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素；其中，每个语句要素包括以下至少之一：名词、短语；

计算模块，设置为根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值；

可视化模块，设置为根据所述重要性量化值、所述目标高频语句要素所属的主题类型，以及所述目标高频语句要素的词频，对所述评论文本处理的结果进行可视化展示。

根据本申请的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例所述的文本处理方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本申请任一实施例所述的文本处理方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例一提供的一种文本处理方法流程图；

图2是本申请实施例二提供的一种文本处理方法流程图；

图3是本申请实施例三提供的一种文本处理方法流程图；

图4是本申请实施例四提供的文本处理装置的结构图；

图5是本申请实施例五提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行说明。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“备选”、“目标”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本申请实施例一提供的一种文本处理方法流程图，本实施例适用于对关于汽车相关性能的评论文本进行分析处理的情况，该方法可以由文本处理装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成于具有实现文本处理功能的电子设备中。如图1所示，该方法包括：

S101、将评论文本拆分为至少两条目标语句。

评论文本为对预设排名车型的汽车的相关性能进行评论的文本。目标语句是指评论文本中满足筛选条件的语句。每个评论文本可以包括至少两条目标语句。

可选的，可以利用爬虫工具，在相关汽车评论网站中随机爬取用户评论，例如，可以获取预设数量(如5000条)的对排名前10的车型汽车进行评论的评论文本，即获取评论文本。

可选的，可以直接根据评论文本中的预设标点符号，如问号、句号和感叹号，将评论文本拆分为至少两条目标语句；还可以先将评论文本中除预设标点符号(如问号、句号和感叹号)之外的其他标点符号替换为句号，再根据预设标点符号(如问号、句号和感叹号)，将评论文本拆分为至少两条目标语句；还可以将评论文本直接输入预先训练好的模型，输出拆分后的至少两条目标语句，即将评论文本拆分为至少两条目标语句；还可以利用自然语言处理工具包(Natural Language Toolkit Package，NLTK)中的word_tokenize函数对评论文本进行分句，即将评论文本拆分为至少两条目标语句。

S102、根据至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素。

语句要素为名词和/或短语。短语是指至少两个词语组成的常用短语。一个语句要素可以是一个名词，也可以是一个短语。例如，语句要素可以是“bluetooth(蓝牙)”、“wiper(雨刮器)”、“车窗”以及“车辆后视镜”等。

词频是指语句要素在所有评论文本中出现的次数或频次。相似度是指多个语句要素表征的语义特征之间的语义相似度。目标高频语句要素是指要素满足预设目标筛选条件的语句要素。

可选的，可以先根据每个目标语句中的至少一个语句要素在所有评论文本中出现的词频，确定词频满足预设筛选条件的语句要素，并根据词频满足预设筛选条件的语句要素之间的相似度，对词频满足预设筛选条件的语句要素再次进行筛选，确定目标高频语句要素；还可以将每个目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及多个语句要素之间的相似度输入预先训练好的模型，输出目标高频语句要素。

S103、根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值。

评价等级是对目标高频语句要素的满意程度进行表征的评价等级，例如，用户在对目标高频语句要素进行评价，输出评论文本的同时，还可以对目标高频语句要素的评价等级进行勾选，从而可以获取用户对目标高频语句要素所在评论文本的评价等级。评价等级可以是非常不认可(Strongly Disagree)、不认可(Disagree)、一般(Neither)、非常认可(Strongly Agree)或认可(Agree)。重要性量化值是指可以表征目标高频语句要素信息重要性的量化数值。

可选的，可以针对每个目标高频语句要素，将该目标高频语句要素所在的多个评论文本的评价等级输入预先训练好的模型，输出该目标高频语句要素关联的重要性量化值；也可以针对每个目标高频语句要素，根据预设的规则，对该目标高频语句要素所在的多个评论文本的评价等级进行统计分析，确定该目标高频语句要素关联的重要性量化值，根据每个目标高频语句要素所在评论文本的评价等级，计算每个目标高频语句要素关联的重要性量化值，包括：根据每个目标高频语句要素所在的多个评论文本的评价等级，以及评价等级与评价分值之间的关联关系，确定每个目标高频语句要素在其所属的至少两条目标语句中的评价分值；针对每个目标高频语句要素，计算该目标高频语句要素在其所属的至少两条目标语句中分值的平均值；将平均值作为每个目标高频语句要素关联的重要性量化值。

评价分值是指与评价等级相对应的分值。评价等级与评价分值之间的关联关系为一一对应，在评价等级为非常不认可(Strongly Disagree)的情况下，评价分值可以为1；在评价等级为不认可(Disagree)的情况下，评价分值可以为2；在评价等级为一般(Neither)的情况下，评价分值可以为3；在评价等级为非常认可(Strongly Agree)的情况下，评价分值可以为4；在评价等级为认可(Agree)的情况下，评价分值可以为5。

示例性的，对于目标高频语句要素A，其在评论文本B中出现两次，分别出现在评论文本B中的目标语句C和目标语句D中，在评论文本E中出现一次，出现在目标语句F中，评论文本B的评价等级不认可，即评价分值为2，评论文本E的评价等级为非常认可，即评价分值为4，则目标高频语句要素A在其所属的多个目标语句(即目标语句C、D和F)中分值的平均值为(2+2+4)/3，即目标高频语句要素A的重要性量化值为8/3。

S104、根据重要性量化值、所述目标高频语句要素所属的主题类型，以及所述目标高频语句要素的词频，对所述评论文本处理的结果进行可视化展示。

主题类型是指目标高频语句要素语义所表征的主题方向类型。主题类型可以为感受体验主题、汽车硬件主题、产品展示主题或汽车颜色主题。感受体验主题的语句要素可以是“stability(稳定性)”、“comfort(舒适)”、“controllability(操控性)”等。汽车硬件主题的语句要素例如可以是“door(门)”、“window(窗)”、“microphone(麦克风)”、“display(显示器)”等。产品展示主题的语句要素例如可以是“pressure(压力)”、“traction(牵引)”、“strut(支柱)”等。汽车颜色主题的语句要素例如可以是“white(白色)”、“black(黑色)”等。目标高频语句要素的词频是指目标高频语句要素在所有评论文本中出现的总频次。

可选的，可以根据预设的展示方式，将每个目标高频语句要素的重要性量化值、主题类型，以及词频作为文本处理的结果，进行可视化展示；也可以根据目标高频语句要素的重要性量化值、主题类型，以及词频，先对目标高频语句要素进行筛选，将满足预设筛选条件的目标高频语句要素的重要性量化值、主题类型，以及词频，作为文本处理的结果，进行可视化展示，即根据重要性量化值、每个目标高频语句要素所属的主题类型，以及每个目标高频语句要素的词频，对评论文本处理的结果进行可视化展示。

通过对评论文本进行处理并可视化展示，可以便于相关人员对用户使用感受进行评估，有针对性的提高产品质量，从而提高用户的使用体验、感知产品质量。

本申请实施例，将评论文本拆分为至少两条目标语句，根据所述至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及所述至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素，根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值，根据重要性量化值、目标高频语句要素所属的主题类型，以及目标高频语句要素的词频，对评论文本处理的结果进行可视化展示。通过这样的方式，可以从评论文本中提取出高频语句要素，并基于高频语句要素的相关信息，对评论文本处理结果进行可视化展示，实现了对评论文本更准确有效的处理，可以提取出更精准的有效信息并进行可视化，便于后续对产品质量的提高。

可选的，本申请对评论文本进行拆分处理之前，还可以先对获取的评论文本进行预处理，预处理操作可以包括：将评论文本中的括号及其包含的词语、特殊符号以及预设敏感词删除。

对括号中的句子进行删除操作，是因为括号里的语句往往是对评论信息的解释补充，并没有实际意义，另对特殊符号以及预设敏感词的删除操作，可以便于后续更加准确地识别各目标高频语句要素的主题，提高文本处理的效率。

可选的，在评论文本为英文的情况下，对评论文本的预处理还可以包括：将评论文本中的所有英文字母均修正为小写形式。

实施例二

图2是本申请实施例二提供的一种文本处理方法流程图，如图2所示，该方法包括：

S201、将评论文本拆分为至少两条目标语句。

S202、确定所述每个目标语句中的至少一个语句要素，并统计所述至少一个语句要素在所有评论文本中出现的词频。

可选的，可以根据预设的匹配规则，提取每个目标语句中的名词和/或短语，即确定每个目标语句中的语句要素。

可选的，确定所有评论文本的所有目标语句的语句要素之后，可以针对每个语句要素，统计其在所有评论文本的所有目标语句中出现的次数，作为该语句要素的词频，即统计至少一个语句要素在所有评论文本中出现的词频。

S203、根据每个语句要素的词频与预设词频阈值的大小关系，从所述至少两条目标语句所包括的多个语句要素中确定出多个备选高频语句要素。

预设词频阈值是指预先设定的衡量语句要素词频大小的阈值，例如，预设词频阈值可以是50。备选高频语句要素是指满足与预设词频大小关系的语句要素。

可选的，确定每个语句要素的词频之后，可以将该词频与预设词频阈值进行比较，在语句要素的词频大于预设词频阈值的情况下，确定该语句要素为备选语句要素。

S204、根据多个备选高频语句要素之间的相似度，从多个备选高频语句要素中确定目标高频语句要素。

相似度是指多个备选高频语句要素所表征的语义特征的相似度。目标高频语句要素是指备选高频语句要素中满足预设相似度筛选条件的高频语句要素。

可选的，可以直接将所有备选高频语句要素与其他多个备选高频语句要素之间的相似度输入预先训练好的模型，输出目标高频语句要素；也可以基于预设相似度筛选条件，对备选高频语句要素之间的相似度进行分析，从备选高频语句要素中确定目标高频语句要素，根据备选高频语句要素之间的相似度，从备选高频语句要素中确定目标高频语句要素，包括：确定至少两个备选高频语句要素之间的相似度，在相似度高于预设相似度阈值的情况下，将至少两个备选高频语句要素分为一组；根据每组备选高频语句要素中多个备选高频语句要素在所有评论文本中出现的词频，从每组备选高频语句要素中确定出目标高频语句要素。

预设相似度阈值是指预先设置的衡量备选高频语句要素之间语义相似度程度的阈值。从每组备选高频语句要素中确定出目标高频语句要素的数量为至少一个。

示例性的，备选高频语句要素“pattern(模式)”和备选高频语句要素“style(样式)”的相似度是高于预设相似度阈值的，备选高频语句要素“cloth(布)”和备选高频语句要素“materials(材料)”的相似度是高于预设相似度阈值的。

示例性的，备选高频语句要素A与备选高频语句要素B的相似度为0.4，备选高频语句要素C与备选高频语句要素D的相似度为0.7，相似度阈值为0.5，则可以确定备选高频语句要素C与备选高频语句要素D满足预设相似度筛选条件，将备选高频语句要素C与备选高频语句要素D分为一组，在备选高频语句要素C的词频为50，备选高频语句要素D的词频为70的情况下，可以确定该组备选高频语句要素的目标高频语句要素为备选高频语句要素D。

S205、根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值。

S206、根据所述重要性量化值、所述目标高频语句要素所属的主题类型，以及所述目标高频语句要素的词频，对所述评论文本处理的结果进行可视化展示。

本申请实施例，确定每条目标语句中的语句要素，并统计每个语句要素在所有评论文本中出现的词频，根据每个语句要素的词频与预设词频阈值的大小关系，从每条目标语句中的语句要素中确定出备选高频语句要素，根据备选高频语句要素之间的相似度，从备选高频语句要素中确定目标高频语句要素，最后确定多个目标高频语句要素关联的重要性量化值并进行可视化展示。通过这样的方式，给出了一种从目标语句中确定目标高频语句要素的可实施方式，可以确定出更准确有效的高频语句要素。

可选的，确定多个目标高频语句要素所属的主题类型，包括：利用聚类算法，基于多个目标高频语句要素所在的目标语句之间的语义相似度，对包含目标高频语句要素的目标语句进行聚类处理；根据聚类结果，确定多个目标高频语句要素所属的主题类型。

聚类算法可以是常用的k均值聚类算法(k-means clustering algorithm，k-means)。主题类型包括：感受体验主题、汽车硬件主题、产品展示主题以及汽车颜色主题。

可选的，可以先确定多个目标高频语句要素所在目标语句的语义特征，然后确定多个目标语句之间的语义相似度，利用聚类算法，将目标语句中语义相似的聚为一类，最终将所有目标语句聚集为四类，分别为感受体验主题、汽车硬件主题、产品展示主题以及汽车颜色主题，根据聚类结果，可以分析确定目标高频语句要素所属的主题类型为该目标高频语句要素所属的目标语句的主题类型。

实施例三

图3是本申请实施例三提供的一种文本处理方法流程图，如图3所示，该方法包括：

S301、将评论文本拆分为至少两条目标语句。

S302、根据所述至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及所述至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素。

S303、根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值。

S304、获取待可视化展示的目标主题类型，并从目标高频语句要素中筛选出目标主题类型对应的目标高频语句要素。

目标主题类型是指相关人员指定的需要进行可视化展示的主题类型。目标主题类型可以是感受体验主题、汽车硬件主题、产品展示主题或汽车颜色主题。

可选的，可以获取多个目标高频语句要素所属的主题类型，确定主题类型为目标主题类型的目标高频语句要素，即从目标高频语句要素中筛选出目标主题类型对应的目标高频语句要素。

S305、根据目标主题类型对应的所述至少一个目标高频语句要素的重要性量化值，对所述至少一个目标高频语句要素进行排序，并将所述至少一个目标高频语句要素的词频作为其关联的标签信息。

可选的，可以确定目标主题类型对应的至少一个目标高频语句要素的重要性量化值，并按照重要性量化值的大小，按照从大到小的顺序进行排序，确定目标主题类型对应的至少一个目标高频语句要素的排序序号。并统计目标主题类型对应的至少一个目标高频语句要素在所有评论文本中出现的词频，将每个目标高频语句要素的词频作为其关联的标签信息。

S306、根据排序结果和标签信息，对待可视化展示的目标主题类型对应的文本处理结果进行可视化展示。

排序结果是指包括对目标主题类型对应的至少一个目标高频语句要素进行排序之后，得到的排序序号结果。

可选的，可以根据排序结果中多个目标主题类型对应目标高频语句要素的排序序号，按照序号顺序，可视化展示目标主题类型对应的目标高频语句要素，并将至少一个目标高频语句要素的标签信息以标签的形式也进行可视化展示，即实现对待可视化展示的目标主题类型对应的文本处理结果进行可视化展示。

本申请实施例，获取待可视化展示的目标主题类型，并从目标高频语句要素中筛选出目标主题类型对应的目标高频语句要素，根据目标主题类型对应的目标高频语句要素的重要性量化值，对目标高频语句要素进行排序，并将每个目标高频语句要素的词频作为其关联的标签信息，最后根据排序结果和标签信息，对待可视化展示的目标主题类型对应的文本处理结果进行可视化展示。通过这样的方式，给出了一种对文本处理结果进行可视化展示的可实施方式，可以更好的对文本处理的结果进行展示，便于相关人员的对信息的获取。

可选的，将执行替换操作后的评论文本拆分为至少两条目标语句之后，还包括：对至少两条目标语句进行语义分析，确定每条目标语句的语义是否通顺；在确定所述至少两条目标语句中存在语义不通顺的目标语句的情况下，分析语义不通顺的目标语句所在的评论文本的上下文关系，从语义不通顺的目标语句中确定出存在拼写错误的词语；在确定存在拼写错误的词语属于预设的常见错误形式词语的情况下，根据常见错误形式词语的正确形式，对存在拼写错误的词语进行修正。

可选的，在确定目标语句的语义不通顺的情况下，可以认为该目标语句中可能包含拼写错误的词语，此时可以对目标语句所在的评论文本的上下文关系进行分析，推断出其中存在拼写错误的词语，并将该拼写错误的词语与预存的常见错误形式词语库进行比对，确定预存的常见错误形式词语库中是否存在该拼写错误的词语，在确定预存的常见错误形式词语库中存在该拼写错误的词语，可以将该存在拼写错误的词语修正为其对应的常见错误形式词语的正确形式，即根据常见错误形式词语的正确形式，对存在拼写错误的词语进行修正。在确定预存的常见错误形式词语库中不存在该拼写错误的词语，根据预设拼写纠正器(如FAROO拼写纠正器)，对存在拼写错误的词语进行修正处理。

可选的，也可以直接对目标语句进行分析，确定其是否包含拼写错误词语；在确定目标语句中包含拼写错误词语的情况下，根据预设拼写纠正器(如FAROO拼写纠正器)，对拼写错误词语进行修正处理。

实施例四

图4是本申请实施例四提供的文本处理装置的结构图；本申请实施例所提供的一种文本处理装置可执行本申请任一实施例所提供的文本处理方法，具备执行方法相应的功能模块和效果。

如图4所示，该装置包括：

拆分模块401，设置为将评论文本拆分为至少两条目标语句；所述评论文本为对预设排名车型的汽车的相关性能进行评论的文本；

确定模块402，设置为根据所述至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及所述至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素；其中，每个语句要素包括以下至少之一：名词、短语；

计算模块403，设置为根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值；

可视化模块404，设置为根据所述重要性量化值、所述目标高频语句要素所属的主题类型，以及所述目标高频语句要素的词频，对所述评论文本处理的结果进行可视化展示。

本申请实施例，将评论文本拆分为至少两条目标语句，根据所述至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及所述至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素，根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值，根据重要性量化值、所述目标高频语句要素所属的主题类型，以及所述目标高频语句要素的词频，对所述评论文本处理的结果进行可视化展示。通过这样的方式，可以从评论评论文本中提取出高频语句要素，并基于高频语句要素的相关信息，对评论文本处理结果进行可视化展示，实现了对评论文本更准确有效的处理，可以提取出更精准的有效信息并进行可视化，便于后续对产品质量的提高。

确定模块402可以包括：

第一确定单元，设置为确定所述每个目标语句中至少一个的语句要素，并统计所述至少一个语句要素在所有评论文本中出现的词频；

第二确定单元，设置为根据每个语句要素的词频与预设词频阈值的大小关系，从所述至少两条目标语句所包括的多个语句要素中确定出多个备选高频语句要素；

第三确定单元，设置为根据所述多个备选高频语句要素之间的相似度，从所述多个备选高频语句要素中确定所述目标高频语句要素。

第三确定单元是设置为：

确定至少两个备选高频语句要素之间的相似度，在所述相似度高于预设相似度阈值的情况下，将所述至少两个备选高频语句要素分为一组；

根据每组备选高频语句要素中每个备选高频语句要素在所有评论文本中出现的词频，从每组备选高频语句要素中确定出所述目标高频语句要素。

计算模块403设置为：

根据所述目标高频语句要素所在的评论文本的评价等级，以及评价等级与评价分值之间的关联关系，确定所述目标高频语句要素在其所属的至少一条目标语句中的评价分值；

针对每个目标高频语句要素，计算该目标高频语句要素在其所属的至少一条目标语句中的评价分值的平均值；

将所述平均值作为所述目标高频语句要素关联的重要性量化值。

上述装置还包括：

主题类型确定模块，设置为利用聚类算法，基于所述目标高频语句要素所在的至少一条目标语句之间的语义相似度，对包含所述目标高频语句要素的所述至少一条目标语句进行聚类处理；

根据聚类结果，确定所述目标高频语句要素所属的主题类型；所述主题类型包括以下至少之一：感受体验主题、汽车硬件主题、产品展示主题以及汽车颜色主题。

上述装置还包括：

预处理模块，设置为对所述至少两条目标语句进行语义分析，确定每条目标语句的语义是否通顺；

在确定所述至少两条目标语句中存在语义不通顺的目标语句的情况下，分析所述语义不通顺的目标语句所在的评论文本的上下文关系，从所述语义不通顺的目标语句中确定出存在拼写错误的词语；

在确定所述存在拼写错误的词语属于预设的常见错误形式词语的情况下，根据所述常见错误形式词语的正确形式，对所述存在拼写错误的词语进行修正。

可视化模块404是设置为：

获取待可视化展示的目标主题类型，并从所述目标高频语句要素中筛选出所述目标主题类型对应的至少一个目标高频语句要素；

根据所述目标主题类型对应的所述至少一个目标高频语句要素的重要性量化值，对所述至少一个目标高频语句要素进行排序，并将所述至少一个目标高频语句要素的词频作为其关联的标签信息；

根据排序结果和所述标签信息，对待可视化展示的目标主题类型对应的文本处理结果进行可视化展示。

本申请技术方案中对评论文本及其相关数据信息的获取、存储、使用、处理等均符合国家法律法规的相关规定。

实施例五

图5是本申请实施例五提供的电子设备的结构示意图。图5示出了可以用来实施本申请实施例的电子设备10的结构示意图。电子设备旨在表示多种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示多种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(Read-Only Memory，ROM)12、随机访问存储器(Random Access Memory，RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器ROM12中的计算机程序或者从存储单元18加载到随机访问存储器RAM13中的计算机程序，来执行多种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(Input/Output，I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如多种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或多种电信网络与其他设备交换信息/数据。

处理器11可以是多种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、多种专用的人工智能(Artificial Intelligence，AI)计算芯片、多种运行机器学习模型算法的处理器、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的方法和处理，例如文本处理方法。

在一些实施例中，文本处理方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的文本处理方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本处理方法。

本文中以上描述的系统和技术的多种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application Specific Standard Parts，ASSP)、芯片上系统的系统(System On Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器，(Erasable Programmable Read Only Memory，EPROM)或快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与虚拟专享服务器(Virtual Private Server，VPS)中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的多种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的多个步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。

Claims

一种文本处理方法，包括：

将评论文本拆分为至少两条目标语句；所述评论文本为对预设排名车型的汽车的相关性能进行评论的文本；

根据所述至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及所述至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素；其中，每个语句要素包括以下至少之一：名词、短语；

根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值；

根据所述重要性量化值、所述目标高频语句要素所属的主题类型，以及所述目标高频语句要素的词频，对所述评论文本处理的结果进行可视化展示。
根据权利要求1所述的方法，其中，根据所述至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及所述至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素，包括：

确定所述每个目标语句中的至少一个语句要素，并统计所述至少一个语句要素在所有评论文本中出现的词频；

根据每个语句要素的词频与预设词频阈值的大小关系，从所述至少两条目标语句所包括的多个语句要素中确定出多个备选高频语句要素；

根据所述多个备选高频语句要素之间的相似度，从所述多个备选高频语句要素中确定所述目标高频语句要素。
根据权利要求2所述的方法，其中，根据所述多个备选高频语句要素之间的相似度，从所述多个备选高频语句要素中确定所述目标高频语句要素，包括：

确定至少两个备选高频语句要素之间的相似度，在所述相似度高于预设相似度阈值的情况下，将所述至少两个备选高频语句要素分为一组；

根据每组备选高频语句要素中每个备选高频语句要素在所有评论文本中出现的词频，从每组备选高频语句要素中确定出所述目标高频语句要素。
根据权利要求1所述的方法，其中，根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值，包括：

根据所述目标高频语句要素所在的评论文本的评价等级，以及评价等级与评价分值之间的关联关系，确定所述目标高频语句要素在其所属的至少一条目标语句中的评价分值；

针对每个目标高频语句要素，计算该目标高频语句要素在其所属的至少一条目标语句中的评价分值的平均值；

将所述平均值作为所述目标高频语句要素关联的重要性量化值。
根据权利要求1所述的方法，还包括：确定所述目标高频语句要素所属的主题类型，包括：

利用聚类算法，基于所述目标高频语句要素所在的至少一条目标语句之间的语义相似度，对包含所述目标高频语句要素的所述至少一条目标语句进行聚类处理；

根据聚类结果，确定所述目标高频语句要素所属的主题类型；所述主题类型包括以下至少之一：感受体验主题、汽车硬件主题、产品展示主题以及汽车颜色主题。
根据权利要求1-5中任一项所述的方法，在所述将评论文本拆分为至少两条目标语句之前，还包括：对所述评论文本执行替换操作；

在所述将评论文本拆分为至少两条目标语句之后，还包括：

对所述至少两条目标语句进行语义分析，确定每条目标语句的语义是否通顺；

在确定所述至少两条目标语句中存在语义不通顺的目标语句的情况下，分析所述语义不通顺的目标语句所在的评论文本的上下文关系，从所述语义不通顺的目标语句中确定出存在拼写错误的词语；

在确定所述存在拼写错误的词语属于预设的常见错误形式词语的情况下，根据所述常见错误形式词语的正确形式，对所述存在拼写错误的词语进行修正。
根据权利要求1所述的方法，其中，所述根据所述重要性量化值、所述目标高频语句要素所属的主题类型，以及所述目标高频语句要素的词频，对所述评论文本处理的结果进行可视化展示，包括：

获取待可视化展示的目标主题类型，并从所述目标高频语句要素中筛选出所述目标主题类型对应的至少一个目标高频语句要素；

根据所述目标主题类型对应的所述至少一个目标高频语句要素的重要性量化值，对所述至少一个目标高频语句要素进行排序，并将所述至少一个目标高频语句要素的词频作为其关联的标签信息；

根据排序结果和所述标签信息，对待可视化展示的所述目标主题类型对应的文本处理结果进行可视化展示。
一种文本处理装置，包括：

拆分模块，设置为将评论文本拆分为至少两条目标语句；所述评论文本为对预设排名车型的汽车的相关性能进行评论的文本；

确定模块，设置为根据所述至少两条目标语句中的每条目标语句中的至少一个语句要素在所有评论文本中出现的词频，以及所述至少两条目标语句所包括的多个语句要素之间的相似度，确定目标高频语句要素；其中，每个语句要素包括以下至少之一：名词、短语；

计算模块，设置为根据所述目标高频语句要素所在评论文本的评价等级，计算所述目标高频语句要素关联的重要性量化值；

可视化模块，设置为根据所述重要性量化值、所述目标高频语句要素所属的主题类型，以及所述目标高频语句要素的词频，对所述评论文本处理的结果进行可视化展示。
一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文本处理方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的文本处理方法。