WO2018201632A1

WO2018201632A1 - 用于识别眼底图像病变的人工神经网络及系统

Info

Publication number: WO2018201632A1
Application number: PCT/CN2017/095909
Authority: WO
Inventors: 王娟; 夏斌; 白玉婧; 黎晓新; 胡志钢; 赵瑜
Original assignee: 深圳硅基仿生科技有限公司; 深圳硅基智能科技有限公司
Priority date: 2017-05-04
Filing date: 2017-08-04
Publication date: 2018-11-08
Also published as: CN107045720A; CN108771530B; US11666210B2; US11213197B2; CN108771530A; CN107358605B; US20200085290A1; US20220079430A1; CN107358606A; CN107358606B; CN107045720B; CN107358605A

Abstract

一种用于识别眼底图像病变的人工神经网络系统，其包括：预处理模块，其用于对来自于同一个人的目标眼底图像和参考眼底图像分别进行预处理；第一神经网络（12），其用于从所述目标眼底图像产生第一高级特征集；第二神经网络（22），其用于从所述参考眼底图像产生第二高级特征集；特征组合模块（13），其用于将所述第一高级特征集与所述第二高级特征集进行融合而形成特征组合集；以及第三神经网络（14），其用于根据所述特征组合集产生对病变的判断结果。采用了目标眼底图像与参考眼底图像分别独立作为输入信息，因此，能够模拟医生的诊断过程，参考来自同一个人的其他眼底图像来对目标眼底图像进行判断，从而有利于提高对眼底图像病变的判断准确率。

Description

用于识别眼底图像病变的人工神经网络及系统

技术领域

本发明涉及人工神经网络领域，特别涉及一种用于识别眼底图像病变的人工神经网络及系统。

背景技术

人工神经网络(Artificial Neural Network)是一种模拟人脑结构的机器学习模型。随着人工神经网络，特别是深度学习等人工智能技术的发展，人工神经网络在医学影像诊断领域的应用也越来越得到关注。通过这样的人工神经网络，能够根据医学影像自动判断可能出现病变，完成对医学影像的自动筛查。例如，目前深度学习等人工神经网络已经在乳腺癌病理检查、肺癌检测、心血管成像等各个领域得到了广泛的研究。

医学影像通常通过照相机、X射线透射机、CT、OCT或MRI等来获得，其包含了丰富的身体结构或组织的诸多细节，通过识别医学影像中的这些细节，能够帮助医生等进行相关的诊断。以医学影像中的眼底图像为例，在眼底图像中包括丰富的玻璃体、视网膜脉络膜和视网膜脉络膜等的细节，如果眼底发生相关病变，则会在眼底图像中呈现出微血管瘤、出血、硬性渗出等病变。其中，例如糖尿病性视网膜病变作为常见的眼底病变是糖尿病的并发症之一，已成为工作年龄段的成年人致盲的主要原因之一。据估计，在我国，现有糖尿病患者9240万，其5年发病率为43％，致盲率为10％。各种研究表明，糖尿病性视网膜病变的早期诊断和治疗可以有效地减缓甚至改善患者的视力损伤。因此，对糖尿病病人进行定期的眼底疾病筛查具有重要的社会意义。然而，传统的糖尿病性视网膜病变的筛查需要专业的眼科医生依靠肉眼识别眼底图像来作出诊断，工作量大，人力成本高，不利于大规模地推广。同时，眼底筛查要求医生在短期内阅读大量眼底图片，可能会导致由疲劳而产生的诊断准确度下降。因此，由计算机通过人工智能算法实现自动筛查(自动读片)变得极为需要。

目前，已有科研团队进行类似的研究，例如非专利文献1公开了一种利用人工智能进行糖尿病视网膜病变诊断的方法，其利用了著名的深度学习网络结构Inception-v3进行相关研究，并获得良好的准确率，至少实现了可以部分替代眼科专业医生工作的效果。

另外，专利文献2公开了一种基于深度学习的眼底图像处理方法、装置及系统。在专利文献2中，使用了传统的卷积神经网络对图像进行识别和分析，具体而言，其使用了重采样后的眼底图像作为输入，并采用了包括5个卷卷积层和2个全连接层的7层卷积神经网络进行识别。

[参考文献]

非专利文献1：Development And Validation Of A Deep Learning Algorithm For Detection Of Diabetic Retinopathy In Retinal Fundus Photographs,JAMA November 29,2016。

专利文献2：中国专利申请公开号CN106408564A。

发明内容

然而，在上述的现有技术中，尽管使用深度学习方法来自动识别眼底图像进行各种糖尿病视网膜病变，但是这些方法距离临床应用仍有一定距离。例如，在非专利文献1中所描述的方法中，所使用的Inception-v3深度学习网络结构是针对自然图像分类和目标检测的网络结构，要求输入图像的大小为299×299像素，并非针对特定的医学影像。

另外，尽管专利文献2也涉及对眼底图像进行处理，但是其目的仅是识别区域图像特征，而非对眼底疾病作出诊断，因此，专利文献2所使用的眼底图像处理方法离临床水平仍有相当距离。

本发明鉴于上述现有技术的不足，其目的在于提供了一种能够提高眼底图像病变判断准确率的用于识别眼底图像病变的人工神经网络及系统。

为此，本发明的一方面提供了一种用于识别眼底图像病变的人工神经网络，其包括：预处理模块，其用于对来自于同一个人的目标眼底图像和参考眼底图像分别进行预处理；第一神经网络，其用于从所述目标眼底图像产生第一高级特征集；第二神经网络，其用于从所述参考眼底图像产生第二高级特征集；特征组合模块，其用于将所述第一高级特征集与所述第二高级特征集进行融合而形成特征组合集；以及第三神经网络，其用于根据所述特征组合集产生对病变的判断结果。

在本发明的一方面中，由于采用了目标眼底图像与参考眼底图像分别独立作为输入信息，因此，能够模拟医生的诊断过程，参考来自同一个人的其他眼底图像对目标图像进行判断，从而有利于提高对眼底图像病变的判断准确率。

另外，在本发明的一方面所涉及的人工神经网络中，所述目标眼底图像与参考眼底图像可以相同。在这种情况下，即使使用一幅眼底图像，也能够获得有效的病变判断结果。

另外，在本发明的一方面所涉及的人工神经网络中，所述第一神经网络与所述第二神经网络可以相同。在这种情况下，能够控制神经网络的参数数量，提高神经网络的训练效率，并且有利于抑制过拟合(overfitting)。

另外，在本发明的一方面所涉及的人工神经网络中，可选地，所述预处理模块包括：用于检测所述目标眼底图像和所述参考眼底图像的规定眼底区域的区域检测单元；用于对所述目标眼底图像和所述参考眼底图像进行剪裁和尺寸调整的调整单元；以及对所述目标眼底图像和所述参考眼底图像进行归一化的归一化单元。由此，能够对目标眼底图像和参考眼底图像进行有效的预处理，提高后续各个神经网络对图像特征的提取的准确度，从而改善对眼底图像病变的判断效果。

另外，在本发明的一方面所涉及的人工神经网络中，可选地，所述第三神经网络根据所述特征组合集和患者信息来产生对病变的判断结果。由此，能够更加接近医生实际诊断过程，从而能够提高判断的准确率。进一步地，所述第三神经网络可以包括全连接层，并且所述患者信息作为所述全连接层的输入。

另外，在本发明的一方面所涉及的人工神经网络中，可选地，所述患者信息包括年龄、性别、视力和既往病史当中的至少一种。另外，所述患者信息还可以包括体重。在这种情况下，能够进一步地模拟医生的诊断过程，提高对病变判断的准确度。

另外，在本发明的一方面所涉及的人工神经网络中，可选地，所述第一神经网络和所述第二神经网络为卷积神经网络。在这种情况下，由于卷积神经网络兼具权值共享和局部感受野的优点，因此，能够极大地减小参数的训练，提高处理速度和节约硬件开销。

另外，本发明的另一方面提供了一种用于识别医学影像病变的人工神经网络，其包括：预处理模块，其用于对来自于同一个人的目标医学图像和参考医学图像分别进行预处理；第一神经网络，其用于从所述目标医学图像产生第一高级特征集；第二神经网络，其用于从所述参考医学图像产生第二高级特征集；特征组合模块，其用于将所述第一高级特征集与所述第二高级特征集进行融合而形成特征组合集；以及第三神经网络，其用于从所述特征序列产生对病变的判断结果。

在本发明的另一方面中，由于采用了目标医学图像与参考医学图像分别独立作为输入信息，因此，能够模拟医生的诊断过程，参考来自同个一个的其他医学图像对目标图像进行判断，从而有利于提高对医学图像病变的判断准确率。

在本发明的另一方面所涉及的人工神经网络中，可选地，所述目标医学影像与参考医学影像相同。在这种情况下，即使只获取同一个人的一幅眼底图像，也能够有效训练神经网络，并改善对病变的判断效果。

此外，本发明的又一方面提供了一种人工神经网络系统，包括：多个以上所述的人工神经网络；以及判断器，对从多个上述人工神经网络分别输出的结果进行综合并输出最终判断结果。

再者，本发明的其他方面还提供了一种用于识别眼底图像病变的方法，其包括：对包括目标眼底图像和参考眼底图像的眼底图像对分别进行预处理；利用深度学习识别所述目标眼底图像和所述参考眼底图像，以获取所述目标眼底图像的特征和所述参考眼底图像的特征；将所述目标眼底图像的特征和所述参考眼底图像的特征进行组合形成特征序列；利用深度学习识别所述特征序列，以获得所述眼底图像病变的判断结果。由此，能够模拟医生的诊断过程，参考来自同一个人的其他眼底图像对目标图像进行判断，从而有利于提高对眼底图像病变的判断准确率。

另外，在本发明的其他方面所涉及用于识别眼底图像病变的方法中，可选地，所述预处理包括区域识别、图像剪裁、尺寸调整和归一化处理。

另外，在本发明的其他方面所涉及用于识别眼底图像病变的方法中，可选地，所述预处理还包括在训练时对所述眼底图像对进行数据扩增。

根据本发明，能够提供一种提高眼底病变筛查准确率的用于识别眼底图像病变的人工神经网络及系统、以及用于识别眼底图像病变的方法。

附图说明

图1示出了本发明的第1实施方式所涉及的眼底图像的病变状态的示意图，其中，图1(a)示出了正常状态的眼底图像的示例图，图1(b)示出了异常眼底的眼底图像的示例图。

图2示出了本发明的第1实施方式所涉及的具有眼底病变的眼底图像的示例图，其中，图2(a)示出了糖尿病视网膜病变的眼底图像的示例图，图2(b)示出了高血压眼底病变的眼底图像的示例图。

图3示出了本发明的第1实施方式所涉及的用于识别眼底图像病变的人工神经网络的示意图。

图4示出了本发明的第1实施方式所涉及的人工神经网络眼底图像的预处理模块的框图。

图5示出了图4的预处理模块的变形例的示意图。

图6示出了本发明的第1实施方式所涉及的人工神经网络的网络结构示例的示意图。

图7示出了图6中的人工神经网络中所采用的卷积核的示例的示意图。

图8是本发明的第1实施方式所涉及的人工神经网络系统的框图。

图9示出了本发明的第1实施方式所涉及的人工神经网络识别眼底图像病变的方法的流程图。

图10示出了本发明的第2实施方式所涉及的人工神经网络的框图。

图11示出了本发明的第2实施方式所涉及的第三神经网络的示例图。

图12示出了本发明的第2实施方式所涉及的人工神经网络的预处理模块的框图。

具体实施方式

以下，参考附图，详细地说明本发明的优选实施方式。在下面的说明中，对于相同的部件赋予相同的符号，省略重复的说明。另外，附图只是示意性的图，部件相互之间的尺寸的比例或者部件的形状等可以与实际的不同。

需要说明的是，本发明中的术语“包括”和“具有”以及它们的任何变形，例如所包括或所具有的一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可以包括或具有没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，在本发明的下面描述中涉及的小标题等并不是为了限制本发明的内容或范围，其仅仅是作为阅读的提示作用。这样的小标题既不能理解为用于分割文章的内容，也不应将小标题下的内容仅仅限制在小标题的范围内。

本发明涉及能够提高眼底病变筛查准确率的用于识别眼底图像病变的人工神经网络及系统。尽管在现有技术中已经存在采用深度神经网络例如卷积神经网络来处理眼底图像的例子(参见上述非专利文献1和专利文献2)，然而如上面所述，Inception-v3是针对自然图像分类和目标检测的网络结构，并非针对特定医学影像，因此对于眼底图像临床筛查例如糖尿病性视网膜病变的筛查等在准确率上仍有很大改善的空间。另外，上述专利文献2所采用的眼底图像处理方法离临床水平也有相当距离。

相对而言，在本发明中，采用了目标眼底图像与参考眼底图像(以下有时也将“目标眼底图像和参考眼底图像”称为“眼底图像对”)分别独立作为输入信息，也即对于“目标眼底图像”的眼底病变的识别，同时参考了来自于同一个人的“参考眼底图像”，因此能够准确且全面地评价眼底病变的状况。这里，“目标眼底图像”是指需要诊断是否存在病变或者存在什么病变的眼底图像；而“参考眼底图像”是指与“目标眼底图像”同样来自于同一个人的眼底图像，在本发明中同时使用目标眼底图像和参考眼底图像可以模拟医生的实际诊断过程，从而可以提高眼底病变判断的准确度。

[第1实施方式]

图1示出了本实施方式所涉及的眼底图像的病变状态的示意图，其中，图1(a)示出了正常状态的眼底图像的示例图，图1(b)示出了异常眼底的眼底图像的示例图。图2示出了本实施方式所涉及的具有眼底病变的眼底图像的示例图，其中，图2(a)示出了糖尿病视网膜病变的眼底图像的示例图，图2(b)示出了高血压眼底病变的眼底图像的示例图。

在本实施方式中，通过让本实施方式所涉及的人工神经网络及系统学习无病变的眼底图像(参见图1(a))和有病变的眼底图像(参见图1(b))，从而使人工神经网络及系统获得能够判断是否有病变的眼底图像的能力。另外，在本实施方式中，也可以让人工神经网络及系统进一步学习判断是哪种病变并进行分级。常见的眼底病变有糖尿病视网膜病变(参见图2(a))、高血压及动脉硬化性眼底病变(参见图2(b))、年龄相关性黄斑变性眼底病变、视网膜静脉阻塞眼底病变、视网膜动脉阻塞眼底病变、高度近视眼底病变，甚至心血管病等相关的眼底病变等。本实施方式所涉及的人工神经网络及系统特别适用于眼底的糖尿病视网膜病变。

如上所述，本实施方式所涉及的人工神经网络及系统可以实现无病和有病的两种判断的待分类类别，也可以实现无病和具体病变类型的待分类类别。另外，本实施方式所涉及的人工神经网络及系统的待分类类别也可以根据具体情况进行调整。

在一些示例中，当这样的人工神经网络或系统达到眼底医生的判别水平或准确率(包括敏感性和特异性)达到相关的诊断标准时，便能够用来辅助或替代医生的部分工作。本实施方式所涉及的人工神经网络及系统能够大量节约医生眼底筛查的时间(读片时间)，有利于使眼底筛查能够得到推广和应用，从而推动医疗卫生特别是基层医疗卫生的发展。

另外，本发明所涉及的人工神经网络及系统也可以容易地推广到识别除眼底图像病变之外的其他医学影像病变，这里医学影像病变例如可以是针对身体或组织所进行的X光照片、超声图像、CT图像、OCT图像、MRI图像、荧光造影图像等。

图3示出了本实施方式所涉及的用于识别眼底图像病变的人工神经网络10A的示意图。例如，如图3所示，本实施方式所涉及的人工神经网络10A可以用于识别眼底图像病变，特别地，人工神经网络10A可以利用深度学习方法来识别眼底图像病变。

众所周知，深度学习是机器学习的一种，其基于对数据进行表征学习。在深度学习中，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。通过利用深度学习方法，能够提高病变识别的准确率。

在本实施方式中，病变识别的准确率可以通过敏感性和特异性来体现。具体而言，在筛查结果中，包括真阴性、真阳性、假阴性和假阳性四种。真阴性是指眼底图像正常，筛查报告也是正常；真阳性是指眼底图像存在病变，筛查报告显示出了病变；假阴性是眼底图像存在病变，但是筛查报告正常；假阳性是指眼底图像正常，但是筛查报告错误地显示有病变。于是，敏感性和特异性分别定义如下：

一般而言，敏感性和特异性越高，则认为病变识别的准确率越高。在一些筛查标准中，例如敏感性为80％以上和特异性为90％则已经认为是比较合理的筛查模式。相对而言，对于本实施方式所涉及的人工神经网络及系统，其敏感性可以达到85％以上，特异性可以达到90％以上。

在本实施方式中，眼底图像病变可以包括但不限于例如糖尿病视网膜病变、年龄相关性黄斑变性眼底病变、视网膜静脉阻塞眼底病变等，尤其适用于糖尿病视网膜病变。

另外，在本实施方式中，对于眼底图像病变的判断可以通过评级处理。在一些示例中，可以采用首次评级和二次评级。例如，由人工神经网络10A及其系统提供的筛查报告可以作为首次评级，然后，医生基于该筛查报告进行二次评级。由此，能够更加准确和可靠地获得病变的筛查结果。

在本实施方式中，人工神经网络10A中所采用的神经网络结构没有特别限制。在一些示例中，本实施方式所涉及的人工神经网络10A可以使用深度神经网络，例如第一神经网络12和第二神经网络22可以采用深度神经网络的结构。在这种情况下，可以针对特定医学影像(例如眼底图像)提取出抽象的图像特征，从而有助于对病变的判断。

如图3所示，本实施方式所涉及的人工神经网络10A可以包括预处理模块、第一神经网络12、第二神经网络22、特征组合模块13、以及第三神经网络14。这里，预处理模块可以具体包括第一预处理模块11和第二预处理模块21。

在本实施方式中，预处理模块(第一预处理模块11和第二预处理模块21)可以用于对来自于同一个人的目标眼底图像和参考眼底图像(眼底图像对)分别进行预处理。也即，预处理模块11可以对目标眼底图像进行预处理，预处理模块21可以对参考眼底图像进行预处理。另外，在本实施方式中，预处理模块11和预处理模块21可以在形成在同一模块中，也可以独立形成为模块。

如上所述，在本实施方式中，使用了来自于同一个人的目标眼底图像和参考眼底图像来作为诊断的输入，也即，目标眼底图像作为第一输入，参考眼底图像作为第二输入(参见图3)。如上所述，在本实施方式中，对于目标图像眼底病变的诊断，不仅使用了目标眼底图像本身，还使用了参考眼底图像作为诊断参考，该过程模拟了医生在实际诊断中会同时比较和参考多幅眼底图像进行诊断的实际情况，因此能够提高对眼底图像病变的判断准确度。

此外，在本实施方式所涉及的人工神经网络10A中，本发明人等还考虑了以下事实：1)来自于相同眼睛的不同图像(目标眼底图像和参考眼底图像)应该有相同的诊断结果；2)从统计上看，来自同一个人(患者)的左右眼睛的眼底病变相似。因此，在对目标眼底图像进行诊断时，使用来自该患者的其他眼底图像作为辅助可以提高诊断准确度。

另外，在人工神经网络10A的训练或者测试过程中，在一些示例中，可以使用来自于同一个人的单眼(左眼或右眼)两幅眼底图像，在这种情况下，可以将这两幅眼底图像中的任意一幅作为目标眼底图像，另一幅作为参考眼底图像。在另外一些示例中，也可以使用来自于同一个人分别属于双眼的两幅眼底图像。同样地，在这种情况下，可以将这两幅眼底图像中的任意一幅作为目标眼底图像，另一幅作为参考眼底图像。

另外，在本实施方式所涉及的人工神经网络10A中，在一些示例中，目标眼底图像与参考眼底图像可以相同(即第一输入与第二输入可以相同)。在这种情况下，即使本实施方式所涉及的人工神经网络10A在训练或测试过程中仅使用来自患者的一幅眼底图像，此时，可以将这一幅眼底图像分别作为目标眼底图像和参考眼底图像，由此也能够获得有效的病变判断结果。

另外，在本实施方式中，还可以使用四幅眼底图像即包括两幅来自于左眼的眼底图像以及两幅来自于右眼的眼底图像。在这种情况下，可以将这四幅眼底图像中的任意一幅作为目标眼底图像，剩下的三幅作为参考眼底图像。

此外，在一些示例中，在眼底图像的采集过程中可以获取多幅眼底图像。在这种情况下，可以将这多幅眼底图像中的任意一幅作为目标眼底图像，剩下的眼底图像作为参考眼底图像。在另一些示例中，进一步地，可以使用来自于相等数量的来自于左右两眼的眼底图像。

另外，本实施方式所使用的眼底图像(包括目标眼底图像或参考眼底图像)没有特别限制，可以是彩色图像(例如RGB图像)，也可以是灰度图像。

在本实施方式中，将由目标眼底图像和参考眼底图像构成的眼底图像对作为输入(第一输入和第二输入)。在这种情况下，由于目标眼底图像和参考眼底图像(眼底图像对)为近似或相同的图像，因此，通过让目标眼底图像和参考眼底图像各自经过第一神经网络和第二神经网络(即，目标眼底图像作为第一输入经过第一神经网络，参考眼底图像作为第二输入经过第二神经网络，参见图3)以分别提取眼底图像的特征，由此能够提高人工神经网络后续的筛查能力。

另外，在本实施方式所涉及的人工神经网络10A中，目标眼底图像与参考眼底图像可以分别属于不同眼睛的眼底图像。在这种情况下，有利于提高训练后的人工神经网络10A更加接近于真实的诊断情形。

(预处理模块)

图4示出了本实施方式所涉及的人工神经网络10A的预处理模块的框图。

如上所述，预处理模块(包括第一预处理模块11和第二预处理模块21)可以用于对来自于同一个人的目标眼底图像和参考眼底图像(眼底图像对)分别进行预处理。具体而言，第一预处理模块11和第二预处理模块21可以对眼底图像进行眼底区域检测、图像剪裁、尺寸调整、归一化等预处理。也即，第一预处理模块11可以对目标眼底图像进行眼底区域检测、图像剪裁、尺寸调整、归一化等；第二预处理模块21可以对参考眼底图像进行眼底区域检测、图像剪裁、尺寸调整、归一化等。

在本实施方式中，由于第一预处理模块11和第二预处理模块21可以设置成相同的模块，因此，以下仅针对第一预处理模块11进行详细描述，第二预处理模块12的结构可以与第一预处理模块11完全相同。

如图4所示，人工神经网络10A的第一预处理模块11主要包括区域检测单元111、调整单元112和归一化单元113。

在第一预处理模块11中，区域检测单元111可以从各类眼底图像中检测出眼底区域。在本实施方式中，所要检测的眼底区域例如可以是以视盘为中心的眼底区域，或者是包含视盘且以黄斑中心的眼底区域等。在本实施方式中，无论以视盘为中心的区域或者包含视盘且以黄斑为中心的区域等均能够有效地呈现眼底病变。在一些例子中，区域检测单元111可以通过例如采样阈值法、霍夫(Hough)变换来探测眼底图像中的特定区域，以供后续人工神经网络的使用。例如，参考图1(a)和图1(b)所示的眼底图像等，眼底图像中最亮的圆圈便是视盘(optic disk)，最黑的那块是黄斑(macula)或视网膜中央凹(fovea)，还有从视盘引出的血管。

此外，如图4所示，调整单元112可以用于对眼底图像(目标眼底图像)进行剪裁和尺寸调整。由于人眼大小的不同和所使用的眼底相机设备的不同，所获得的眼底图像在分辨率、眼底区域尺寸等方面上均可能存在差异。因此，有必要对这些眼底图像进行调整。例如通过调整单元112，可以对眼底图像按照特定规格进行剪裁，在一些示例中，通过剪裁可以获得例如方形的眼底图像。另外，本实施方式的眼底图像也不限于方形，例如也可以为矩形、圆形、椭圆形等。另外，在调整单元112还可以针对眼底图像进行其他处理例如区分眼底图像上眼底区域与患者信息区域(例如有些眼底图像上可能包括姓名、医保号码等)，调整由不同眼底相机设备使用不同算法处理后的眼底图像，实现眼底背景一致化等问题。

另外，在一些示例中，通过调整单元112，能够将眼底图像的尺寸调整至规定的尺寸(例如像素尺寸)例如256×256、512×512、1024×1024等。然而，本实施方式不限于此，根据特定需要，眼底图像的尺寸也可以是任意其他规格的大小(像素大小)例如128×128、768×768、2048×2048等。

尽管本实施方式没有限定眼底图像的尺寸，但是出于能够更加准确地识别眼底图像的更多细节的方面考虑，本实施方式的眼底图像的图像尺寸优选大于或等于512×512。如上所述，在专利文献1中所涉及的深度学习框架Inception-v3中，使用了仅299×299的图像，但是由于许多眼底病症(例如糖尿病性视网膜早期病变的特征)在这样的像素级层面上的表现可能不明显，在这种情况下，可能会导致在后续下采样过程中(特别是大比例下采样时)丢失重要图像细节信息例如丢失低等级的眼底病变(例如1级糖尿病性视网膜病变)信息。基于此，在专利文献1中，1级糖尿病性视网膜病变被当作健康眼处理，如此可能会导致眼底图像病变诊断不充分，临床效果欠佳。相对而言，在本实施方式中，通过如上所述限定眼底图像的尺寸，从而能够有效地抑制眼底图像细节信息的丢失，提高对眼底病变的判断准确度。

另外，在第一预处理模块11中，归一化单元113可以用于对眼底图像(目标眼底图像)进行归一化。由于不同人种间眼底的差异和眼底成像设备或条件的不同，眼底图像可能存在很大差异，因此，有必要针对图像进行归一化处理。

在本实施方式中，归一化单元113的归一化方式没有特别限定，例如可以采用零均值(zero mean)、单位标准方差(unit standard deviation)等进行。另外，在一些示例中，也可以归一化在[0,1]的范围内。通过归一化，能够可以克服不同眼底图像的差异性，提高人工神经网络的性能。

图5示出了本实施方式所涉及的预处理模块11的变形例的示意图。如图5所示，第一预处理模块11还可以具有扩增单元110。扩增单元110可以设置在区域检测单元111之前，但本实施方式不限于此。

在本实施方式中，扩增单元110可以用于在神经网络的训练阶段对眼底图像进行数据扩增。通过扩增单元110，可以对所获得的眼底图像(目标眼底图像)进行数据扩增以扩大眼底图像的样本量，从而有助于克服过拟合问题，提高人工神经网络的性能。另外，需要说明的是，扩增单元110一般限于在稍后描述的神经网络的训练阶段时对数据样本进行扩增，在神经网络的测试阶段时可以不使用扩增单元110。

另外，扩增单元110所采用的扩增方式没有特别限制，例如在一些示例中，可以通过对眼底图像进行各种图像变换来进行样本扩增。这样的图像变换方式可以包括对称变换、倒立变换、旋转变换、像素平移等，还可以包括对图像的对比度、亮度、颜色、锐度等进行调整。

以上，已经描述了第一预处理模块11的构成和功能，同样地，第二预处理模块21也可以具有与第一预处理模块11完全相同的构成和功能。在这种情况下，参考眼底图像作为第二输入经过第二预处理模块21也能够得到有效的预处理，以满足后续人工神经网络(第二神经网络和第三神经网络)对参考眼底图像的处理。

如上所述，通过第一预处理模块11和第二预处理模块21，能够分别对目标眼底图像和参考眼底图像进行有效的预处理，从而有助于后续各个神经网络对眼底图像中的进一步处理(例如特征提取等)。

(第一/第二神经网络)

在本实施方式中，第一神经网络12可以用于从经过预处理后的目标眼底图像产生第一高级特征集。同样地，第二神经网络22可以用于从经过预处理后的参考眼底图像产生第二高级特征集。其中，第一神经网络和第二神经网络可以通过例如组合多层低级特征(像素级特征)，实现了对目标眼底图像和参考眼底图像的抽象描述。这里，高级特征仅指示经过人工神经网络的处理后相对于原始图像的初级特征(例如像素级的特征)而言，并非为了精确描述特征的高级性，但一般而言，经过神经网络处理，随着神经网络越往深层次会呈现出越高层次和越抽象的趋势。另外，特征集一般是指包括了两个或两个以上的特征，在本发明中有时也可以称为“特征矩阵”。另外，在一些特殊的情况下，特征集也可以仅有1个特征例如中间结果，这时“特征集”可以仅特指单个“特征”。

另外，在本实施方式中，第一神经网络12和第二神经网络22均可以采用卷积神经网络(Convolutional Neural Network，CNN)。由于卷积神经网络具有局部感受野和权值共享等优点，能够极大地减小参数的训练，因此能够提高处理速度和节约硬件开销。另外，卷积神经网络能够更加有效的处理图像的识别。

图6示出了本发明的第1实施方式所涉及的人工神经网络的网络结构示例的示意图。图7示出了图6中的人工神经网络中所采用的卷积核的示例的示意图。

在一些示例中，可以使用卷积神经网络分别作为第一神经网络12和第二神经网络22。例如可以令第一神经网络12和第二神经网络的网络结构分别为图6和图7所示的神经网络结构(简化表示)：

-C1-S1-C2-S2-C3-S3-C4-

这里，C(包括C1、C2、C3和C4)表示卷积层，S(包括S1、S2和S3)表示池化(pooling)层(有时也称为“下采样层”)。在一些示例中，除了C1层使用5×5的卷积核外，其他卷积层均可以使用3×3的卷积核。在这种情况下，对于规定尺寸例如256×256、512×512的医学图像(眼底图像)，可以大大抑制了训练参数的增加，提高训练效率。

另外，在上述卷积神经网络中，池化(pooling)的方式可以使用最大池化(max-pooling)、平均池化(mean-pooling)、随机池化(stochastic-pooling)等。通过池化操作，一方面可以降低特征维度，提高运算效率，另外，也可以使神经网络提取更加抽象的高层特征，以提高对眼底病变的判断准确度。

另外，在在上述卷积神经网络中，也可以根据情况对应地增加卷积层和池化层的层数。在这种情况下，也可以使神经网络提取更加抽象的高层特征，以进一步提高对眼底病变的判断准确度。

另外，在本实施方式所涉及的人工神经网络10A中，第一神经网络12与第二神经网络22可以完全相同。具体而言，第一神经网络12的网络结构与第二神经网络22的网络结构可以完全相同。在这种情况下，能够减少人工神经网络的参数数目，有利于抑制神经网络的过拟合。

另外，第一神经网络12和第二神经网络22所采用的卷积神经网络结构不限于此，也可以采用其他卷积神经网络结构，只要能够确保从原始的眼底图像(目标眼底图像和参考眼底图像)提取出高级特征即可。此外，注意到，本实施方式所涉及的第一神经网络12和第二神经网络22主要用于特征提取，并非直接输出病变的判断结果。

(特征组合模块)

在本实施方式中，如图3所示，特征组合模块13可以用于将由第一神经网络12产生的第一高级特征集与由第二神经网络22产生的第二高级特征集进行融合而形成特征组合集。这里，本实施方式的“特征集”可以指“特征序列”、“特征矢量”、“特征值的集合”等，其意义应该以最广泛的方式理解。

在一些示例中，特征组合模块13可以将第一高级特征集和第二高级特征集组合成一维特征矢量(特征组合集)。另外，在另一些示例中，特征组合模块13也可以计算第一高级特征集与第二高级特征集的差异来获得特征组合集。另外，在另一些示例中，特征组合模块13还可以计算第一高级特征集和第二高级特征集的均值来获得特征组合集。此外，在另一些示例中，特征组合模块13可以对第一高级特征集和第二高级特征集进行线性或非线性变换来获得特征组合集等。

在本实施方式中，通过特征组合模块13，能够使从第一神经网络12产生的特征与从第二神经网络22产生的特征进行融合，便于后续第三神经网络14的处理。

(第三神经网络)

在本实施方式中，第三神经网络14可以用于根据特征融合的结果(特征组合集)产生对病变的判断结果。如图3所示，第三神经网络14可以基于特征组合模块13所获得的结果，对所输入的目标眼底图像形成判断结果。也即，第三神经网络14根据特征组合集产生对病变的判断结果。

在本实施方式中，第三神经网络14的输出维度与待分类类别(例如病变类型)一致。也即，例如待分类类别为无病和有病两种类别时，第三神经网络14的输出维度可以为2；如果待分类类别为无病和具体病症(例如5种)时，第三神经网络14的输出维度可以为6。另外，第三神经网络14的输出维度可以根据实际情况调整。

在一些示例中，第三神经网络14的输出可以是0到1之间的值(百分比)，这些值可以解释为目标眼底图像被分为某个类别(病变类型)的概率。此时，第三神经网络14的输出之和为1(概率和)。

在本实施方式中，第三神经网络14的输出概率用来实现最终诊断。在一些示例中，当某个类别的概率最高时，则判断该眼底具有对应的类别病变。例如，在所有待分类类别中，如果无病变的概率最高，则该目标眼底图像被判断为无病变。如果糖尿病视网膜病变的概率最高，则该目标眼底图像被判断为糖尿病视网膜病变。

另外，第三神经网络14的网络结构没有特别限制。在一些示例中，第三神经网络14可以使用卷积层、全连接层和其他辅助层(例如批归一化层(batch normalization)、池化层(pooling)等)的各种组合来实现。例如，在一些情况下，第三神经网络14的输出层可以使用单层的卷积层、两层全连接层和输出层(softmax层)。另外，在另一些情况下，第三神经网络14的输出层也可以使用两层卷积层、两层池化层、三层全连接层和输出层(例如softmax层)。

如上所述，在本实施方式中，由于采用了目标眼底图像与参考眼底图像分别独立作为输入信息，因此，能够有利于第一神经网络从目标眼底图像提取出高级特征，有利于第二神经网络从参考眼底图像提取出高级特征。而且，通过将从第一神经网络和第二神经网络分别获得的高级特征组合后，继续通过第三神经网络来获得对病变的判断结果，由此能够显著地提高对眼底图像病变的诊断性能。

(训练和测试)

在本实施方式中，第一神经网络12、第二神经网络22和第三神经网络14可以一起训练，以获得最优的神经网络结构。例如在使用卷积神经网络作为第一神经网络12和第二神经网络22的情况下，在训练上述神经网络时，可以使用训练集的眼底图像对(包括目标眼底图像和参考眼底图像)对卷积神经网络进行训练。

此外，上面描述了本实施方式所涉及的第一神经网络12、第二神经网络22和第三神经网络14可以同时一起训练，但本实施方式不限于此，例如也可以通过训练自编码(auto-encoder)网络的方式先训练第一神经网络12和第二神经网络22，然后再与第三神经网络14一起训练。

另外，在本实施方式中，对于眼底图像而言，在人工神经网络10A的训练或者测试过程中，可以使用来自于同一个人的单眼两幅眼底图像，也可以使用来自于同一个人分别属于双眼的两幅眼底图像。

另外，在人工神经网络10A的训练或者测试过程中，还可以使用四幅眼底图像包括两幅来自于左眼的眼底图像以及两幅来自于右眼的眼底图像。在这种情况下，能够与眼底图像病变判断的真实诊断情况更加匹配。顺便提一下，目前国际上比较推行的眼底图像病变判断的金标准是采用七幅不同眼底区域且视角30度的眼底图像。然而，本发明人等在长期的实践发现，例如采用四幅双眼45度且规定区域的眼底图像也能达到相当的病变判断效果。

此外，本实施方式不限于此，还可以使用更多幅来自于同一个人双眼的眼底图像，更加优选地使用来自于相等数量的来自于左右两眼的眼底图像。

在本实施方式所涉及的人工神经网络10A的训练过程中，选择来自合作医院且去除患者信息的例如5-20万幅眼底图像作为训练集(training set)，例如5000-20000幅眼底图像作为测试集(testing set)。在训练或测试过程中，眼底图像经过预处理后尺寸例如统一为512×512或1024×1024像素的RGB彩色眼底图像。

在训练过程中使用随机梯度下降法进行参数调节，由此获得最终的训练结果。然后，将训练后的人工神经网络10A对测试集中的眼底图像进行识别，获得平均识别准确率例如高达90％以上。由此可见，本实施方式所涉及的人工神经网络10A能够在兼顾眼底临床情况下获得改善的病变判断准确率。

(识别病变的流程)

图8示出了本实施方式所涉及的人工神经网络10A识别眼底图像病变的方法的流程图。以下，参考图8，详细地描述本实施方式所涉及的人工神经网络10A识别眼底图像病变的方法。

在本实施方式所涉及的用于识别眼底图像病变的方法中，首先，对包括目标眼底图像和参考眼底图像的眼底图像对分别进行预处理(步骤S100)，以获得满足规定条件的眼底图像。

在步骤S100中，例如可以对眼底图像进行区域检测、图像剪裁、尺寸调整和归一化处理等。另外，在步骤S100中，还可以在神经网络训练时对眼底图像对(包括目标眼底图像和参考眼底图像)进行数据扩增，以提高训练的数据样本量，从而提高对眼底病变判断的准确率。在一些示例中，目标眼底图像与参考眼底图像可以为相同的图像。

接着，在步骤S100之后，可以利用深度学习方法对目标眼底图像和参考眼底图像分别进行操作，以获取目标眼底图像的特征和参考眼底图像的特征(步骤S200)。在步骤S200中，可以通过例如卷积神经网络来获得目标眼底图像的高级特征和参考眼底图像的高级特征。由于卷积神经网络有利于具有局部感受野和权值共享的优点，并且有利于提取眼底图像的高级特征，因此能够提高运算效率，节约硬件开销。

在步骤S200之后，可以将目标眼底图像的特征和参考眼底图像的特征进行融合而形成特征组合集(步骤S300)。如上所述，形成特征组合集有利于目标眼底图像的特征和参考眼底图像的特征的综合，以便于后续的分类和判断。

最后，再利用深度学习方法识别特征组合集，以获得对眼底图像病变的判断结果(步骤S400)。在步骤S400中，可以采用例如平均操作器(Average Operator)、最大值操作器(Maximum Operator)、逻辑回归(Logistic Regression)、随机森林(Random Forest)、支持向量机(SVM)等来获得对眼底病变的判断结果。

(人工神经网络系统)

图9是本发明的第1实施方式所涉及的人工神经网络系统1的框图。

在本实施方式中，如图8所示，可以通过组合人工神经网络N1、人工神经网络N2、人工神经网络N3、……、人工神经网络Nk等多个(k个，k≥2)人工神经网络Ni(1≤i≤k)和判断器40构成人工神经网络系统1。也即，人工神经网络系统1可以包括多个人工神经网络(上述的人工神经网络N1、人工神经网络N2、……、人工神经网络Nk)和判断器40。上述人工神经网络(人工神经网络N1、人工神经网络N2、人工神经网络N3、……、人工神经网络Nk)可以采用人工神经网络10A。

在本实施方式中，人工神经网络Ni(1≤i≤k)的输入可以是来自于同一个人同一只眼睛所对应的不同目标眼底图像和参考眼底图像(眼底图像对)。

另外，在一些示例中，人工神经网络Ni(1≤i≤N)均可以采用上述的人工神经网络10A。具体而言，人工神经网络Ni(1≤i≤N)可以采用使用来自于相同眼底图像对的不同人工神经网络10A。

在本实施方式中，判断器40可以对从上述多个人工神经网络Ni(1≤i≤k)的输出结果进行综合并输出最终判断结果。也即，上述多个人工神经网络(上述的人工神经网络N1、人工神经网络N2、……、人工神经网络Nk)的输出与判断器40连接，判断器40通过对输出结果的综合来输出最终判断结果。

在一些示例中，判断器40可以输出是否存在有病的判断结果。在另一些示例中，判断器40可以输出是否存在有病且进一步判断如果有病则是属于哪种类型的眼底病变的判断结果。

在一些示例中，判断器40可以通过输出概率来确定判断结果。另外，在一些示例中，判断器40的方法可以采用各种线性或非线性分类器例如逻辑回归(Logistic Regression)、随机森林(Random Forest)、支持向量机(SVM)、Adaboost等。在一些示例中，判断器40也可以采用一些简单的数值操作，例如平均操作器(Average Operator)、最大值操作器(Maximum Operator)等。

[第2实施方式]

图10示出了本发明的第2实施方式所涉及的人工神经网络10B的框图。图11示出了本发明的第2实施方式所涉及的第三神经网络14的示例图。图12示出了本发明的第2实施方式所涉及的人工神经网络10B的第三预处理模块31的框图。

本实施方式涉及人工神经网络10B与第1实施方式所涉及的人工神经网络10A的不同点在于：人工神经网络10B包括第三预处理模块31；第三神经网络14可以根据上述特征组合集和患者信息来产生对病变的判断结果(参见图10)。本实施方式所涉及的人工神经网络10B同样能够提高眼底病变筛查准确率(包括敏感性和特异性)。

关于特征组合集已经在第1实施方式中进行了详细的描述，因此在本实施方式中不再赘述。在本实施方式中，特征组合模块13所得到的特征组合集输入到第三神经网络14，进一步地，第三神经网络14根据该特征组合集以及患者信息来产生对病变的判断结果。

另外，在一些示例中，患者信息可以包括患者视力、年龄、性别和既往病史当中的至少一种以上。另外，患者信息还可以包括体重等。根据本发明人等在多年的眼科实践中发现，患者的视力、年龄、性别、既往病史和体重等均与眼底病变有密切的关系，也即，患者的视力、年龄、性别和既往病史等因素也是眼底病变诊断的重要参考因素。

另外，人工神经网络10B可以包括第三预处理模块31，通过第三预处理模块31可以对患者信息进行预处理。第三预处理模块31可以包括特征归一化单元311，通过特征归一化单元311，例如能够将患者信息所包括的值归一化到[0,1]区间，从而避免患者信息对后续神经网络处理可能产生的不利影响。

在本实施方式中，通过在人工神经网络10B中添加患者信息作为第三输入提供给第三神经网络14A，以提高人工神经网络10B的病变识别能力。在第三神经网络14中，除了特征组合模块13所输出的特征作为第三神经网络14的输入之外，还将患者信息作为特征输出到第三神经网络14。由此，第三神经网络14能够根据特征组合集和患者信息来产生对病变的判断结果

另外，第三神经网络14的网络结构没有特别限制。在一些示例中，第三神经网络14可以使用卷积层、全连接层和其他辅助层(例如批归一化层(batch normalization)、池化层(pooling)等)的各种组合来实现。例如，在一些情况下，第三神经网络14的输出层可以使用单层的卷积层、两层全连接层和输出层(例如softmax层)。另外，在另一些情况下，第三神经网络14的输出层也可以使用两层卷积层、两层池化层、三层全连接层和输出层例如softmax层(参见图11)。

另外，在本实施方式中，第三神经网络14可以包括全连接层，并且患者信息作为全连接层的输入。具体而言，例如当第三神经网络14使用卷积层、池化层和全连接层作为神经网络结构时，患者信息可以作为全连接层的输入(参见图11)。在本实施方式中，当第三神经网络14具有全连接层患者信息既可以作为其第一个全连接层的输入，也可以作为其他任何一个全连接层的输入。在这种情况下，人工神经网络10B同时结合眼底图片信息(特征组合信息)和患者信息进行诊断，更加接近于医生的实际临床诊断过程，从而能够提高识别眼底图像病变的准确率。

需要说明的是，对于前述的各个方法示例，为了简单描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。

在上述实施方式或示例中，对各个实施方式或示例的描述都各有侧重，某个实施方式或示例中没有详细描述的部分，可以参见其他实施方式或示例的相关描述。

另外，本发明所涉及的方法步骤可以根据实际需要进行顺序调整、合并和删减。本发明所涉及的装置中的单元或子单元可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解上述实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

虽然以上结合附图和实施例对本发明进行了具体说明，但是可以理解，上述说明不以任何形式限制本发明。本领域技术人员在不偏离本发明的实质精神和范围的情况下可以根据需要对本发明进行变形和变化，这些变形和变化均落入本发明的范围内。

Claims

一种用于识别眼底图像病变的人工神经网络，其特征在于：

包括：

预处理模块，其用于对来自于同一个人的目标眼底图像和参考眼底图像分别进行预处理；

第一神经网络，其用于从所述目标眼底图像产生第一高级特征集；

第二神经网络，其用于从所述参考眼底图像产生第二高级特征集；

特征组合模块，其用于将所述第一高级特征集与所述第二高级特征集进行融合而形成特征组合集；以及

第三神经网络，其用于根据所述特征组合集产生对病变的判断结果。
根据权利要求1所述的人工神经网络，其特征在于：

所述目标眼底图像与所述参考眼底图像相同。
根据权利要求1所述的人工神经网络，其特征在于：

所述目标眼底图像与所述参考眼底图像分别属于不同眼睛的眼底图像。
根据权利要求1所述的人工神经网络，其特征在于：

所述第一神经网络与所述第二神经网络相同。
根据权利要求1所述的人工神经网络，其特征在于：

所述预处理模块包括：用于检测所述目标眼底图像和所述参考眼底图像的规定眼底区域的区域检测单元；用于对所述目标眼底图像和所述参考眼底图像进行剪裁和尺寸调整的调整单元；以及对所述目标眼底图像和所述参考眼底图像进行归一化的归一化单元。
根据权利要求1所述的人工神经网络，其特征在于：

所述第三神经网络根据所述特征组合集和患者信息来产生对病变的判断结果。
根据权利要求6所述的人工神经网络，其特征在于：

所述患者信息包括年龄、性别、视力和既往病史当中的至少一种。
根据权利要求1所述的人工神经网络，其特征在于：

所述第一神经网络和所述第二神经网络均为卷积神经网络。
一种用于识别医学影像病变的人工神经网络，其特征在于：

包括：

预处理模块，其用于对来自于同一个人的目标医学图像和参考医学图像分别进行预处理；

第一神经网络，其用于从所述目标医学图像产生第一高级特征集；

第二神经网络，其用于从所述参考医学图像产生第二高级特征集；

特征组合模块，其用于将所述第一高级特征集与所述第二高级特征集进行融合而形成特征组合集；以及

第三神经网络，其用于从所述特征序列产生对病变的判断结果。
根据权利要求9所述的人工神经网络，其特征在于：

所述目标医学影像与所述参考医学影像相同。
一种人工神经网络系统，其特征在于：

包括：

多个权利要求1～10中的任一项所述的人工神经网络；以及

判断器，对从多个所述人工神经网络分别输出的结果进行综合并输出最终判断结果。