WO2021128704A1 - 一种基于分类效用的开集分类方法 - Google Patents

一种基于分类效用的开集分类方法 Download PDF

Info

Publication number
WO2021128704A1
WO2021128704A1 PCT/CN2020/090292 CN2020090292W WO2021128704A1 WO 2021128704 A1 WO2021128704 A1 WO 2021128704A1 CN 2020090292 W CN2020090292 W CN 2020090292W WO 2021128704 A1 WO2021128704 A1 WO 2021128704A1
Authority
WO
WIPO (PCT)
Prior art keywords
category
classification
data
features
new
Prior art date
Application number
PCT/CN2020/090292
Other languages
English (en)
French (fr)
Inventor
蔡毅
李泽婷
Original Assignee
华南理工大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华南理工大学 filed Critical 华南理工大学
Publication of WO2021128704A1 publication Critical patent/WO2021128704A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Definitions

  • the present invention relates to the field of open set classification, in particular to an open set classification method based on classification utility.
  • An open set classifier should have the following three capabilities: (1) Identify samples that do not belong to the existing categories; (2) Discover new categories in the data in (1); (3) Incrementally learn new categories.
  • the current research on open set classification can only solve one of the three, and cannot solve the open set classification problem systematically.
  • the current techniques for identifying samples that do not belong to existing categories are concentrated in two directions: learning a meta-classifier, learning the characteristics of existing categories, and rejecting data that do not belong to existing categories; reducing decision-making space and reducing open space risks .
  • Traditional clustering methods can discover new categories from unknown categories of data, but the clustering results cannot be guaranteed to be consistent with known existing classification systems. Incremental learning is to learn new knowledge in new information while remembering old knowledge.
  • Classification utility is an index to measure the goodness of classification. The purpose is to maximize the probability that two objects in the same category have the same attribute value, and the probability that objects from different categories have different attribute values.
  • Cognitive psychologists call it the basic level classification. Cognitive psychologists have found that the biggest property of basic hierarchical classification is the largest within-class similarity and the smallest between-class similarity. Therefore, when the classification utility is the largest, the classification result is most in line with human cognition.
  • One of the most important issues in the open set classification problem is to determine when a new category should be introduced.
  • the classification utility is an indicator to measure the excellence of the classification and can be used to judge whether the classification of the new category is good or not, as a kind of whether to introduce a new category. To find the classification results that best match human cognition.
  • the purpose of the present invention is to overcome the shortcomings of the prior art and provide an open set classification method based on classification utility.
  • the invention uses the classification utility in cognitive psychology as an indicator for introducing new categories in the open set classification task, solves the problems of unknown category data recognition and new category introduction in open set classification, and combines incremental learning to learn new categories , Enhance the classifier to deal with the new categories that may appear in the new data.
  • An open set classification method based on classification utility including steps:
  • the preprocessing includes removing non-text parts in the data, word segmentation, removing stop words, and for English corpus, it is also necessary to perform stemming or morphological restoration of English words, and to convert upper and lower case.
  • the present invention has the following beneficial effects:
  • the present invention performs open set classification of the introduced new categories based on the classification utility in cognitive psychology, and provides theoretical support for the introduction of new categories.
  • the present invention guides the introduction of new categories based on the classification utility, and can consider the classification criteria of known categories to introduce new categories. After the new categories are identified, the existing incremental learning methods can be combined to increase the number of recognition categories of the classifier and enhance the performance of the classifier. Processing power.
  • Fig. 1 is a flowchart of an open set classification method based on classification utility in the present invention.
  • Figure 2 is a flow chart of an open set classification method based on classification utility to classify new data in the present invention.
  • This embodiment provides an open set classification method based on classification utility.
  • the flowchart of the method is shown in FIG. 1 and includes the following steps:
  • a text classification task is taken as an example.
  • the preprocessing of the data set includes the removal of non-text parts of the data, word segmentation, and removal of stop words.
  • D processed ⁇ (d 1 ,y 1 ),(d 2 ,y 2 ),...,(d i ,y i ),...,(d n ,y n ) ⁇
  • D i represents the i-th text of the original text preprocessing.
  • the feature extractor may adopt a manually constructed feature extractor, an unsupervised feature extractor or a supervised neural network feature extraction part.
  • the text classification task is taken as an example, the supervised neural network feature extraction part is used as the feature extractor, and the data set D processed is used as the training set to train the supervised neural network feature extraction part.
  • the feature extraction process is:
  • the convolutional neural network is used as the classifier, the preprocessed data set D processed is used as the input of the convolutional neural network, and the output is the probability matrix of the data belonging to a known category, expressed as:
  • each row of the matrix represents an original text
  • each column represents a category
  • the i-th row and j-th column of the matrix represent the probability that the i-th text belongs to the j-th category.
  • the last layer of the convolutional neural network is the probability calculation layer, and the output of the penultimate layer is the extracted feature. Therefore, the neural network before the penultimate layer of the convolutional neural network (including the penultimate layer) is used as the feature extractor. After the convolutional neural network is trained, the parameters of the neural network are fixed and the features extracted by the convolutional neural network are stored. Matrix, expressed as:
  • each row of the matrix represents a text
  • each column represents a set of features
  • the i-th row and j-th column of the matrix represent the feature value of the j-th dimension feature of the i-th text.
  • step (3) Use the features of the training set in step (2) as input training features to train a small-sample classifier that can be incrementally learned.
  • the classifier in this embodiment uses an attention attractor network.
  • Discrete features can choose the classification utility of discrete features. Taking one of them as an example, the calculation formula is:
  • I is the number of features
  • K is the number of known categories
  • c k ) represents the probability of the i-th dimension feature in the k-th category
  • P(f i ) represents the occurrence of unclassified data
  • the probability of the i-th dimension feature, P(c k ) represents the probability of the k-th category.
  • the continuous feature can be used for the classification utility of the continuous feature. Taking one of them as an example, the calculation formula is:
  • I is the number of features
  • K is the number of known categories
  • ⁇ ik represents the standard deviation of the i-th dimension feature in the k-th category
  • ⁇ ip represents the standard deviation of the i-th dimension feature of all data before classification
  • P(c k ) represents the probability of the k-th category.
  • the present invention processes continuous features, and because the output of the penultimate layer of the convolutional neural network is a continuous value, this embodiment selects the classification utility for continuous features.
  • each row of the matrix represents a category
  • each column represents a set of features
  • the k-th row and l-th column of the matrix represent the standard deviation of the l-th dimension of the k-th category.
  • n k represents the number of texts in the k-th category
  • n is the number of texts in the data set.
  • step (4) Take the new data feature of step (4) as a category c K+1 alone, and calculate the classification utility in this case, including the steps:
  • each row of the matrix represents a category
  • each column represents a set of features
  • the k-th row and l-th column of the matrix represent the standard deviation of the l-th dimension of the k-th category.
  • a minimum value is used instead, such as 0.001, for the case where the standard deviation is zero.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于分类效用的开集分类方法,包括步骤:输入数据集,并对数据集进行预处理;采用特征提取器将数据转换为特征;采用训练集的特征训练一个可增量学习少样本分类器;对于一条新数据,对其进行预处理后采用特征提取器提取特征;将新数据的特征输入到分类器中,寻找已知类别中分类分数最高的一个类别,并计算分类效用;将新数据单独作为一个类别,采用新数据的特征计算其分类效用;比较已知类别与新类别情况下的分类效用大小,更新分类器;重复提取特征并计算分类效用的步骤,增加分类器处理的类别数据。该方法解决了开集分类中的未知类别数据识别和新类别的引入问题,并结合增量学习来学习新类别,增强分类器。

Description

一种基于分类效用的开集分类方法 技术领域
本发明涉及开集分类领域,尤其涉及一种基于分类效用的开集分类方法。
背景技术
面对现实世界的开集分类是一个极具挑战的任务。在现实世界中,人类期待分类器能够对实时的数据正确地进行分类。由于新数据中可能包含新类别,因此一个在现实世界中的分类器应该能够识别出不属于已知类别的数据,并引入新类别,增量学习新类别。传统闭集分类技术,假设未知数据全部来自于已知类别,将未知的数据分类到现有类别,因此该项技术只能对来自于已知类别的数据进行分类。然而在现实世界中,这样的假设往往是不成立的。随着时间推移,分类体系可能会发生改变,例如新类别的出现。传统分类器对新类别样本数据只能将其归类到已知类别中,不但无法发现新类别,而且造成已知类别的语义偏移。
一个开集分类器,应该具备以下三个方面的能力:(1)识别不属于现有类别的样本;(2)发现(1)中数据中的新类别;(3)增量学习新类别。目前关于开集分类的研究只能解决三者之一,不能系统地解决开集分类问题。其中,目前识别不属于现有类别的样本的技术集中在两个方向:学习一个元分类器,学习现有类别的特征,拒绝不属于现有类别的数据;缩减决策空间,减小开放空间风险。传统的聚类方法可以从未知类别的数据中发现新类别,但是聚类结果不能保证和已知现有分类体系保持一致。增量学习是在学习新信息中的新知识同时记住旧知识,其中最大的挑战是解决灾难性遗忘,即忘却以前学过的知识。目前许多学者提出基于记忆的增量 学习方法,其中包括显式存储训练样本、规范化参数更新、为训练数据建模生成模型,但这些方法假设新增类别拥有足够多的训练样。Ren等人结合元学习,提出了可增量学习少样本类别的增量学习方法,即注意吸引子网络。
分类效用是一种衡量分类优良的指标,目的是最大化同一类别中的两个对象具有相同属性值的概率,以及来自不同类别的对象具有不同属性值的概率。人类在对新事物进行分类时,总是无意识地,自发地将新事物分类到类别层级结构中的某一类别层级中,认知心理学家称之为基本层次分类。认知心理学家发现基本层次分类的最大的性质是类内相似度最大,类间相似度最小。因此当分类效用最大时,分类结果是最符合人类认知的。在开集分类问题最重要的问题之一是判断何时应该引入新类别,分类效用作为一种衡量分类优良的指标,可以用于评判引入新类别的分类好坏,作为一种是否引入新类别的指标,找出最符合人类认知的分类结果。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于分类效用的开集分类方法。本发明利用认知心理学中的分类效用作为开集分类任务中引入新类别的指标,解决了开集分类中的未知类别数据识别和新类别的引入问题,并结合增量学习来学习新类别,增强分类器,来应对新数据中可能出现的新类别。
本发明的目的能够通过以下技术方案实现:
一种基于分类效用的开集分类方法,包括步骤:
输入数据集,并对数据集进行预处理;
采用特征提取器将数据转换为特征;
采用训练集的特征训练一个可增量学习少样本分类器;
对于一条新数据,对其进行预处理后采用特征提取器提取特征;
将新数据的特征输入到分类器中,寻找已知类别中分类分数最高的一个类别,并计算分类效用;
将新数据单独作为一个类别,采用新数据的特征计算其分类效用;
比较已知类别与新类别情况下的分类效用大小,当已知类别的分类效用较大时,将新数据作为已知类别的一个样本;当已知类别的分类效用较大时,将新数据作为一个新类别,并对新类别进行增量学习,更新分类器;
对于新到来的新数据,重复提取特征并计算分类效用的步骤,不断增强分类器,增加分类器处理的类别数据。
具体地,所述预处理包括去除数据中的非文本部分、分词、去除停用词、对于英文语料,还需要对英文单词进行词干提取或词型还原、转换大小写。
本发明相较于现有技术,具有以下的有益效果:
本发明基于认知心理学中的分类效用对引入的新类别进行开集分类,为引入新类别提供了理论支撑。本发明依据分类效用指导新类别的引入,能够考虑已知类别的分类标准引入新类别,在识别出新类别后,能够结合现有增量学习方法,增加分类器识别类别数目,增强分类器的处理能力。
附图说明
图1为本发明中一种基于分类效用的开集分类方法的流程图。
图2为本发明中一种基于分类效用的开集分类方法对新数据进行分类的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例提供了一种基于分类效用的开集分类方法,所述方法的流程图如图1所示,包括以下步骤:
(1)输入数据集,并对数据集进行预处理。
本实施例以文本分类任务为例,数据集由多个原始文本组成,记数据集为D={(rd 1,y 1),(rd 2,y 2),...,(rd i,y i),...,(rd n,y n)},其中,rd i表示第i个原始文本,y i表示第i个原始文本所对应的标签,n为数据集包含的文本数。已知类别记为C known={c 1,c 2,...,c k,...,c K},其中,c k表示第k个类别,K为已知类别的个数,且有
Figure PCTCN2020090292-appb-000001
对于数据集预处理包括去除数据中的非文本部分、分词、去除停用词,对于英文语料,还需要对英文单词进行词干提取或词型还原、转换大小写。记预处理后的数据集为D processed={(d 1,y 1),(d 2,y 2),...,(d i,y i),...,(d n,y n)},其中,d i表示第i个原始文本预处理后的文本。
(2)采用特征提取器将数据转换为特征。
所述特征提取器可以采用人工构建的特征提取器、无监督的特征提取器或有监督的神经网络特征提取部分。
本实施例中以文本分类任务为例,采用有监督的神经网络特征提取部分作为特征提取器,并采用数据集D processed作为训练集对有监督的神经网络特征提取部分进行训练。
在本实施例中,特征提取过程为:
采用卷积神经网络作为分类器,采用预处理后的数据集D processed作为 卷积神经网络的输入,输出为数据属于已知类别的概率矩阵,表示为:
Figure PCTCN2020090292-appb-000002
其中,矩阵的每一行代表一个原始文本,每一列代表一个类别,矩阵的第i行第j列表示第i个文本属于第j个类别的概率。
在本实施例中,卷积神经网络的最后一层为概率计算层,倒数第二层的输出为提取的特征。因此,将卷积神经网络的倒数第二层之前(包括倒数第二层)的神经网络作为特征提取器,卷积神经网络训练完毕后固定神经网络的参数,并存储卷积神经网络提取的特征矩阵,表示为:
Figure PCTCN2020090292-appb-000003
其中,矩阵的每一行代表一个文本,每一列代表一组特征,矩阵的第i行第j列表示第i个文本第j维特征的特征值。
(3)采用步骤(2)中的训练集的特征作为输入训练特征来训练一个可增量学习少样本分类器。
本实施例中的分类器采用注意吸引子网络。
(4)对于一条新数据,记为rd n+1,对新数据进行预处理并采用步骤(2)中的特征提取器对预处理后的数据d n+1进行特征提取,存储该特征,记为F n+1=(f n+1,1,f n+1,2,...,f n+1,L)。
(5)将步骤(4)中新数据的特征F n+1输入到步骤(3)中的分类器中,寻找分类器预测的已知类别中分类分数最高的类别,计算分类效用,包括步骤:
(5-1)选取与新数据的特征相对应的分类效用。
特征可以分为连续型特征和离散型特征,离散型特征可选用适用离散型特征的分类效用,以其中的一种为例,计算公式为:
Figure PCTCN2020090292-appb-000004
其中,I为特征的个数,K为已知类别的个数,P(f i|c k)表示第k个类别出现第i维特征的概率,P(f i)表示未分类前数据出现第i维特征的概率,P(c k)表示第k个类别出现的概率。
连续型特征可选用适用连续型特征的分类效用,以其中的一种为例,计算公式为:
Figure PCTCN2020090292-appb-000005
其中,I为特征的个数,K为已知类别的个数,σ ik表示第k个类别内第i维特征的标准差,σ ip表示未分类前所有数据第i维特征的标准差,P(c k)表示第k个类别出现的概率。
本发明针对连续型特征进行处理,并且由于卷积神经网络的倒数第二层的输出为连续值,因此本实施例选择使用于连续型特征的分类效用。
(5-2)以新数据的特征F n+1作为步骤(3)中的分类器的输入,预测新数据属于已知类别中分类分数最高的类别,将预测结果记为
Figure PCTCN2020090292-appb-000006
其中
Figure PCTCN2020090292-appb-000007
(5-3)将预测结果与已知分类结果D processed进行合并,合并后分类结果记为
Figure PCTCN2020090292-appb-000008
合并新数据的特征F n+1和已知分类数据的特征矩阵F,表示为:
Figure PCTCN2020090292-appb-000009
(5-4)根据合并后的特征矩阵F merged统计n+1个文本中每一维特征的标准差,存储未分类前的标准差向量σ p=(σ 1,p,σ 2,p,...,σ l,p,...,σ L,p)。
(5-5)根据合并后的分类结果D merged,按照类别划分数据,统计F merged中每个类别每一维特征的标准差,标准差矩阵表示为:
Figure PCTCN2020090292-appb-000010
其中,矩阵的每一行代表一个类别,每一列代表一组特征,矩阵的第k行第l列表示第k个类别第l维特征的标准差。
(5-6)使用数据集中每个类别的文本数和数据集总的文本数估计每个类别出现的概率,即
Figure PCTCN2020090292-appb-000011
其中n k表示第k个类别的文本数,n为数据集中的文本数。
(5-7)将步骤5(5-4)至(5-6)得到的p(c k)、σ p、σ代入步骤(5-1)的分类效用计算公式中,得到将新数据分到已知类别的分类效用,记为CU merged
(6)将步骤(4)的新数据特征单独作为一个类别c K+1,并计算该情况下的分类效用,包括步骤:
(6-1)预测新数据属于未知类别c K+1,将预测结果记为
Figure PCTCN2020090292-appb-000012
其中
Figure PCTCN2020090292-appb-000013
(6-2)将预测结果与已知分类结果D processed进行合并,合并后分类结果记为D split={(d 1,y 1),(d 2,y 2),...,(d i,y i),...,(d n,y n),(d n,c K+1)}。
(6-3)根据合并后的分类结果D split,按照类别划分数据,统计F merged中每个类别每一维特征的标准差,标准差矩阵表示为:
Figure PCTCN2020090292-appb-000014
其中,矩阵的每一行代表一个类别,每一列代表一组特征,矩阵的第k行第l列表示第k个类别第l维特征的标准差。
进一步地,由于分类效用中的计算要求标准差不能为零,对于标准差为零的情况用极小值代替,例如0.001。
(6-4)使用数据集中每个类别的文本数和数据集总的文本数估计每个类别出现的概率,即
Figure PCTCN2020090292-appb-000015
其中n k表示第k个类别的文本数,n为数据集中文本数。
(6-5)将步骤(5-4)、(6-3)、(6-4)得到的σ p、σ、p(c k)代入步骤(5-1)的分类效用计算公式中,得到将新数据分到新类别的分类效用,记为CU split。(7)比较步骤(5)和步骤(6)之间的分类效用大小,当CU merged较大,把步骤(4)的新数据当成已知类别C的一个样本,更新数据集
Figure PCTCN2020090292-appb-000016
Figure PCTCN2020090292-appb-000017
更新数据集样本数n=n+1;当CU split较大,把步骤(4)的新数据当成一个新类别,并使用增量学习新类别,更新步骤(3)的分类器,更新数据集为D split={(d 1,y 1),(d 2,y 2),...,(d i,y i),...,(d n,y n),(d n,c K+1)}。
更新数据集样本数n=n+1,更新已知类别C known={c 1,c 2,...,c k,...c K,c K+1},更新已知类别数目K=K+1;
(8)对于新到来的每一条数据,重复步骤(4)到步骤(7),不断增 强分类器,增加分类器处理的类别数量。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

  1. 一种基于分类效用的开集分类方法,其特征在于,包括步骤:
    输入数据集,并对数据集进行预处理;
    采用特征提取器将数据转换为特征;
    采用训练集的特征训练一个可增量学习少样本分类器;
    对于一条新数据,对其进行预处理后采用特征提取器提取特征;
    将新数据的特征输入到分类器中,寻找已知类别中分类分数最高的一个类别,并计算分类效用;
    将新数据单独作为一个类别,采用新数据的特征计算其分类效用;
    比较已知类别与新类别情况下的分类效用大小,当已知类别的分类效用较大时,将新数据作为已知类别的一个样本;当已知类别的分类效用较大时,将新数据作为一个新类别,并对新类别进行增量学习,更新分类器;
    对于新到来的新数据,重复提取特征并计算分类效用的步骤,不断增强分类器,增加分类器处理的类别数据。
  2. 根据权利要求1所述的方法,其特征在于,数据集预处理包括去除数据中的非文本部分、分词、去除停用词,对于英文语料,还需要对英文单词进行词干提取或词型还原、转换大小写。
  3. 根据权利要求1所述的方法,其特征在于,所述特征提取器包括但不限于人工构建的特征提取器、无监督的特征提取器和有监督的神经网络特征提取部分。
  4. 根据权利要求1所述的方法,其特征在于,所述分类器采用注意吸引子网络。
  5. 根据权利要求1所述的方法,其特征在于,所述将新数据的特征输入到分类器中,寻找已知类别中最可能的一个类别,并计算分类效用的步骤中,特征可以分为连续型特征和离散型特征,只针对连续性特征的分类效用,包括:
    选取与新数据的特征相对应的分类效用;
    以新数据的特征作为分类器的输入,预测新数据属于已知类别中最可能的类别;
    将预测结果与已知分类结果进行合并;
    根据合并后的特征矩阵统计n+1个样本中每一维特征的标准差,存储未分类前的标准差向量;
    根据合并后的分类结果,按照类别划分数据,统计合并后特征矩阵中每个类别每一维特征的标准差;
    使用数据集中每个类别的样本数和数据集总的样本数估计每个类别出现的概率;
    将得到的第k个类别出现的概率、未分类前的标准差向量和标准差矩阵代入分类效用计算公式中,得到将新数据分到已知类别的分类效用。
  6. 根据权利要求5所述的方法,其特征在于,连续型特征的分类效用,计算公式为:
    Figure PCTCN2020090292-appb-100001
    其中,I为特征的个数,K为已知类别的个数,σ ik表示第k个类别内第i维特征的标准差,σ ip表示未分类前所有数据第i维特征的标准差,P(σ k)表示第k个类别出现的概率。
  7. 根据权利要求1所述的方法,其特征在于,所述将新数据单独作为一个类别,采用新数据的特征计算其分类效用的步骤中,包括:
    预测新数据属于未知类别;
    将预测结果与已知分类结果进行合并;
    根据合并后的分类结果,按照类别划分数据,统计合并后特征矩阵中每个类别每一维特征的标准差;
    使用数据集中每个类别的样本数和数据集总的样本数估计每个类别出现的概率;
    得到的第k个类别出现的概率、未分类前的标准差向量和标准差矩阵代入分类效用计算公式中,得到将新数据分到新类别的分类效用。
  8. 根据权利要求5或7所述的方法,其特征在于,由于分类效用中的计算要求标准差不能为零,对于标准差为零的情况用极小值代替。
PCT/CN2020/090292 2019-12-25 2020-05-14 一种基于分类效用的开集分类方法 WO2021128704A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911352812.1A CN111191033B (zh) 2019-12-25 2019-12-25 一种基于分类效用的开集分类方法
CN201911352812.1 2019-12-25

Publications (1)

Publication Number Publication Date
WO2021128704A1 true WO2021128704A1 (zh) 2021-07-01

Family

ID=70709427

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/090292 WO2021128704A1 (zh) 2019-12-25 2020-05-14 一种基于分类效用的开集分类方法

Country Status (2)

Country Link
CN (1) CN111191033B (zh)
WO (1) WO2021128704A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645978A (zh) * 2023-06-20 2023-08-25 方心科技股份有限公司 基于超算并行环境的电力故障声类别增量学习系统及方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000809B (zh) * 2020-09-29 2024-05-17 迪爱斯信息技术股份有限公司 一种文本类别的增量学习方法及装置、可读存储介质
CN112200123B (zh) * 2020-10-24 2022-04-05 中国人民解放军国防科技大学 联合稠密连接网络和样本分布的高光谱开放集分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
CN109416691A (zh) * 2016-06-30 2019-03-01 微软技术许可有限责任公司 消息归组和相关性
CN109614484A (zh) * 2018-11-09 2019-04-12 华南理工大学 一种基于分类效用的文本聚类方法及其系统
US10467547B1 (en) * 2015-11-08 2019-11-05 Amazon Technologies, Inc. Normalizing text attributes for machine learning models

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506799B (zh) * 2017-09-01 2020-04-24 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467547B1 (en) * 2015-11-08 2019-11-05 Amazon Technologies, Inc. Normalizing text attributes for machine learning models
CN109416691A (zh) * 2016-06-30 2019-03-01 微软技术许可有限责任公司 消息归组和相关性
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
CN109614484A (zh) * 2018-11-09 2019-04-12 华南理工大学 一种基于分类效用的文本聚类方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XU JIAYAN: "Research on Non-parametric Clustering Algorithm Based on Category Utility and Its Improvement", MASTER THESIS, TIANJIN POLYTECHNIC UNIVERSITY, CN, 1 January 2017 (2017-01-01), CN, XP055824189, ISSN: 1674-0246 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645978A (zh) * 2023-06-20 2023-08-25 方心科技股份有限公司 基于超算并行环境的电力故障声类别增量学习系统及方法
CN116645978B (zh) * 2023-06-20 2024-02-02 方心科技股份有限公司 基于超算并行环境的电力故障声类别增量学习系统及方法

Also Published As

Publication number Publication date
CN111191033B (zh) 2023-04-25
CN111191033A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
Chen et al. Research on text sentiment analysis based on CNNs and SVM
WO2021128704A1 (zh) 一种基于分类效用的开集分类方法
Dekhtyar et al. Re data challenge: Requirements identification with word2vec and tensorflow
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN109871885B (zh) 一种基于深度学习和植物分类学的植物识别方法
CN112632980A (zh) 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN111414862A (zh) 基于神经网络融合关键点角度变化的表情识别方法
CN107392241A (zh) 一种基于加权列抽样XGBoost的图像目标分类方法
CN109886161A (zh) 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法
CN105930792A (zh) 一种基于视频局部特征字典的人体动作分类方法
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
Li et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
Chen et al. A deep learning method for judicial decision support
CN117076693A (zh) 一种数字人教师多模态大语言模型预训练学科语料库的构建方法
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN111858939A (zh) 一种基于上下文信息和卷积神经网络的文本情感分类方法
Suganya et al. Feature selection for an automated ancient Tamil script classification system using machine learning techniques
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN113987175A (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
CN108763487B (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20908405

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 081122)

122 Ep: pct application non-entry in european phase

Ref document number: 20908405

Country of ref document: EP

Kind code of ref document: A1