WO2021208677A1 - 眼袋检测方法以及装置 - Google Patents

眼袋检测方法以及装置 Download PDF

Info

Publication number
WO2021208677A1
WO2021208677A1 PCT/CN2021/082284 CN2021082284W WO2021208677A1 WO 2021208677 A1 WO2021208677 A1 WO 2021208677A1 CN 2021082284 W CN2021082284 W CN 2021082284W WO 2021208677 A1 WO2021208677 A1 WO 2021208677A1
Authority
WO
WIPO (PCT)
Prior art keywords
eye
detection
bag
eye bag
eyes
Prior art date
Application number
PCT/CN2021/082284
Other languages
English (en)
French (fr)
Inventor
周一丹
卢曰万
秦晓冉
陈维汉
董辰
郜文美
Original Assignee
华为技术有限公司
中国科学院自动化研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司, 中国科学院自动化研究所 filed Critical 华为技术有限公司
Priority to EP21789400.5A priority Critical patent/EP4131063A4/en
Priority to US17/918,518 priority patent/US20230162529A1/en
Publication of WO2021208677A1 publication Critical patent/WO2021208677A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/60Rotation of a whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Geometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种眼袋检测方法以及装置,涉及人脸识别技术领域,其中,该方法包括获取待检测图像,所述待检测图像包括眼袋感兴趣ROI区域,通过预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息,当所述眼袋检测得分处于预设得分范围时,基于所述眼袋检测得分和所述眼袋位置检测信息,对所述待检测图像进行标记,得到眼袋标记信息。本申请提供的技术方案能够精准地识别眼袋的位置和得分,显著提高了识别眼袋的准确性。

Description

眼袋检测方法以及装置
本申请要求于2020年4月14日提交国家知识产权局、申请号为202010288955.7、申请名称为“眼袋检测方法以及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人脸识别技术领域,尤其涉及一种眼袋检测方法以及装置。
背景技术
人脸识别技术已经被广泛应用至摄影、安防、教育和金融等多个领域,且随着人脸识别技术应用的不断深入,所识别的精细程度也越来越受到关注,其中,眼袋是一项重要的识别内容。调研显示,约有65%的用户希望对眼袋进行识别。
现有技术,通常是对待检测图像进行人脸关键点检测,得到眼部关键点,然后根据该眼部关键点确定一个预设区域来作为眼袋区域。
但由于现有技术实际上并没有对眼袋进行识别,其根据眼部关键点所确定的预设区域(即眼袋区域)的形状大小,与眼睛的形状大小密切相关,而真实眼袋的形状大小与眼睛的形状大小并没有特定的关联关系,因此,现有技术所确定的眼袋区域,与实际的眼袋区域差别很大,准确率低。
发明内容
有鉴于此,本申请提供一种眼袋检测方法以及装置,能够提高识别眼袋的准确率。
为了实现上述目的,第一方面,本申请实施例提供了一种眼袋检测方法,包括:
获取待检测图像,所述待检测图像包括眼袋感兴趣(region of interest,ROI)区域;
通过预设卷积神经网络(Convolutional Neural Networks,CNN)模型,对所述眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息;
当所述眼袋检测得分处于预设得分范围时,基于所述眼袋检测得分和所述眼袋位置检测信息,对所述待检测图像进行标记,得到眼袋标记信息。
在本申请实施例中,可以获取包括眼袋ROI区域的待检测图像,然后通过预设卷积神经网络模型直接对该眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息,当眼袋检测得分处于预设得分范围,即确定存在眼袋时,可以通过眼袋检测得分和眼袋位置检测信息对待检测图像进行标记,从而得到针对眼袋进行检测的眼袋标记信息。由于这里的眼袋检测得分和眼袋位置检测信息,是直接从眼袋ROI区域识别得到的,而不是根据眼睛的大小和形状设置的,因此能够显著提高对眼袋进行检测的准确性。
可选地,在所述通过预设卷积神经网络模型,对所述眼袋ROI区域进行检测之前,还包括:
对所述待检测图像进行人脸关键点检测,得到眼部关键点;
基于所述眼部关键点,从所述待检测图像中确定所述眼袋ROI区域。
可选地,所述基于所述眼部关键点,从所述待检测图像中确定所述眼袋ROI区域,包括:
基于所述眼部关键点,确定眼部中心点;
以所述眼部中心点为基准点,从所述待检测图像中,获取预设尺寸和预设形状的区域作为所述眼袋 ROI区域。
可选地,所述眼部中心点处于所述眼袋ROI区域内的上半部分,并处于所述眼袋ROI区域内的宽1/2、高1/4处。
可选地,还包括:
通过所述预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
当所述卧蚕检测分类结果为有时,基于所述卧蚕检测分类结果和所述卧蚕位置检测信息,对所述待检测图像中的卧蚕进行标记,得到卧蚕标记信息。
可选地,所述眼袋位置检测信息包括眼袋关键点,所述基于所述眼袋检测得分和所述眼袋位置检测信息,对所述待检测图像中的眼袋进行标记,包括:
基于所述眼袋关键点进行插值拟合,得到眼袋闭合区域;
基于所述眼袋检测得分和所述眼袋闭合区域,对所述待检测图像中的眼袋进行标记。
可选地,所述眼袋位置检测信息包括眼袋分割掩膜,所述基于所述眼袋检测得分和所述眼袋位置检测信息,对所述待检测图像中的眼袋进行标记,包括:
基于所述眼袋检测得分和所述眼袋分割掩膜,对所述待检测图像中的眼袋进行标记。
可选地,所述卧蚕位置检测信息包括卧蚕关键点,所述基于所述卧蚕检测分类结果和所述卧蚕位置检测信息,对所述待检测图像中的卧蚕进行标记,包括:
基于所述卧蚕关键点进行插值拟合,得到卧蚕闭合区域;
基于所述卧蚕检测分类结果和所述卧蚕闭合区域,对所述待检测图像中的卧蚕进行标记。
可选地,所述卧蚕位置检测信息包括卧蚕分割掩膜,所述基于所述卧蚕检测分类结果和所述卧蚕位置检测信息,对所述待检测图像中的卧蚕进行标记,包括:
基于所述卧蚕检测分类结果和所述卧蚕分割掩膜,对所述待检测图像中的卧蚕进行标记。
可选地,所述预设卷积神经网络模型包括多个卷积层,其中,除第一个卷积层外的其他卷积层中,包括至少一个深度可分离卷积层。
可选地,所述预设卷积神经网络模型于多个样本图像训练得到,所述样本图像携带眼袋标注得分和眼袋位置标注信息。
可选地,所述样本图像还携带卧蚕标注得分和卧蚕位置标注信息。
可选地,所述眼袋ROI区域包括左眼袋ROI区域和右眼袋ROI区域,在所述通过预设卷积神经网络模型,对所述眼袋ROI区域进行检测之前,还包括:
基于所述左眼袋ROI区域和所述右眼袋ROI区域,对所述待检测图像进行分割,得到左眼袋ROI区域图像和右眼袋ROI区域图像;
将所述右眼袋ROI区域图像沿左右方向进行镜像处理;
将所述左眼袋ROI区域图像和镜像处理后的所述右眼袋ROI区域图像,输入至所述预设卷积神经网络模型。
可选地,所述对所述待检测图像中的眼袋进行标记,包括:
对所述左眼袋ROI区域图像和镜像处理后的所述右眼袋ROI区域图像进行标记;
将标记后的所述右眼袋ROI区域图像,再次沿左右方向进行镜像处理。
第二方面,本申请实施例提供一种卷积神经网络模型的训练方法,包括:
获取多个样本图像,所述样本图像包括眼袋ROI区域,且所述样本图像携带眼袋标注得分和眼袋 位置标注信息;
通过卷积神经网络模型,对所述眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息;
基于所述样本图像的所述眼袋检测得分、所述眼袋位置检测信息、所述眼袋标注得分和所述眼袋位置标注信息,确定所述卷积神经网络模型的模型参数。
可选地,所述样本图像还携带卧蚕标注分类结果和卧蚕位置标注信息,还包括:
通过所述卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
所述基于所述样本图像的所述眼袋检测得分、所述眼袋位置检测信息、所述眼袋标注得分和所述眼袋位置标注信息,确定所述卷积神经网络模型的模型参数,包括:
基于所述样本图像的所述眼袋检测得分、所述眼袋位置检测信息、所述眼袋标注得分、所述眼袋位置标注信息、所述卧蚕标注分类结果、所述卧蚕位置标注信息、所述卧蚕检测分类结果和所述卧蚕位置检测信息,确定所述卷积神经网络模型的模型参数。
第三方面,本申请实施例提供一种眼袋检测装置,包括:
获取模块,用于获取待检测图像,所述待检测图像包括眼袋ROI区域;
检测模块,与用于通过预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息;
标记模块,用于当所述眼袋检测得分处于预设得分范围时,基于所述眼袋检测得分和所述眼袋位置检测信息,对所述待检测图像进行中的眼袋标记,得到眼袋标记信息。
可选地,还包括确定模块;
所述检测模块还用于对所述待检测图像进行人脸关键点检测,得到眼部关键点;
所述确定模块,用于基于所述眼部关键点,从所述待检测图像中确定所述眼袋ROI区域。
可选地,所述确定模块还用于:
基于所述眼部关键点,确定眼部中心点;
以所述眼部中心点为基准点,从所述待检测图像中,获取预设尺寸和预设形状的区域作为所述眼袋ROI区域。
可选地,所述眼部中心点处于所述眼袋ROI区域内的上半部分,并处于所述眼袋ROI区域内的宽1/2、高1/4处。
可选地,所述检测模块还用于通过所述预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
所述标记模块还用于当所述卧蚕检测分类结果为有时,基于所述卧蚕检测分类结果和所述卧蚕位置检测信息,对所述待检测图像进行中的卧蚕标记,得到卧蚕标记信息。
可选地,所述眼袋位置检测信息包括眼袋关键点,所述标记模块还用于:
基于所述眼袋关键点进行插值拟合,得到眼袋闭合区域;
基于所述眼袋检测得分和所述眼袋闭合区域,对所述待检测图像中的眼袋进行标记。
可选地,所述眼袋位置检测信息包括眼袋分割掩膜,所述标记模块还用于:
基于所述眼袋检测得分和所述眼袋分割掩膜,对所述待检测图像中的眼袋进行标记。
可选地,所述卧蚕位置检测信息包括卧蚕关键点,所述标记模块还用于:
基于所述卧蚕关键点进行插值拟合,得到卧蚕闭合区域;
基于所述卧蚕检测分类结果和所述卧蚕闭合区域,对所述待检测图像中的卧蚕进行标记。
可选地,所述卧蚕位置检测信息包括卧蚕分割掩膜,所述标记模块还用于:
基于所述卧蚕检测分类结果和所述卧蚕分割掩膜,对所述待检测图像中的卧蚕进行标记。
可选地,所述预设卷积神经网络模型包括多个卷积层,其中,除第一个卷积层外的其他卷积层中,包括至少一个深度可分离卷积层。
可选地,所述预设卷积神经网络模型于多个样本图像训练得到,所述样本图像携带眼袋标注得分和眼袋位置标注信息。
可选地,所述样本图像还携带卧蚕标注得分和卧蚕位置标注信息。
可选地,所述眼袋ROI区域包括左眼袋ROI区域和右眼袋ROI区域,还包括:
分割模块,用于基于所述左眼袋ROI区域和所述右眼袋ROI区域,对所述待检测图像进行分割,得到左眼袋ROI区域图像和右眼袋ROI区域图像;
镜像模块,用于将所述右眼袋ROI区域图像沿左右方向进行镜像处理;
输入模块,用于将所述左眼袋ROI区域图像和镜像处理后的所述右眼袋ROI区域图像,输入至所述预设卷积神经网络模型。
可选地,所述标记模块还用于:
对所述左眼袋ROI区域图像和镜像处理后的所述右眼袋ROI区域图像进行标记;
将标记后的所述右眼袋ROI区域图像,再次沿左右方向进行镜像处理。
第四方面,本申请实施例提供一种卷积神经网络模型的训练装置,包括:
获取模块,用于获取多个样本图像,所述样本图像包括眼袋ROI区域,且所述样本图像携带眼袋标注得分和眼袋位置标注信息;
检测模块,用于通过卷积神经网络模型,对所述眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息;
确定模块,用于基于所述样本图像的所述眼袋检测得分、所述眼袋位置检测信息、所述眼袋标注得分和所述眼袋位置标注信息,确定所述卷积神经网络模型的模型参数。
可选地,所述样本图像还携带卧蚕标注分类结果和卧蚕位置标注信息;
所述检测模块还用于通过所述卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
所述确定模块还用于基于所述样本图像的所述眼袋检测得分、所述眼袋位置检测信息、所述眼袋标注得分、所述眼袋位置标注信息、所述卧蚕标注分类结果、所述卧蚕位置标注信息、所述卧蚕检测分类结果和所述卧蚕位置检测信息,确定所述卷积神经网络模型的模型参数。
第五方面,本申请实施例提供一种卧蚕检测方法,包括:
获取待检测图像,所述待检测图像包括眼袋ROI区域;
通过预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
当所述卧蚕检测分类结果为有时,基于所述卧蚕检测分类结果和所述卧蚕位置检测信息,对所述待检测图像中的卧蚕进行标记,得到卧蚕标记信息。
在本申请实施例中,可以获取包括眼袋ROI区域的待检测图像,然后通过预设卷积神经网络模型直接对该眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息,当确定存在卧蚕(即卧蚕检测分类结果为有)时,可以通过卧蚕检测分类结果和卧蚕位置检测信息对待检测图像进行标记,从而得到针对卧蚕进行检测的卧蚕标记信息。由于这里的卧蚕检测分类结果和卧蚕位置检测信息,是直 接从眼袋ROI区域识别得到的,而不是根据眼睛的大小和形状设置的,因此能够显著提高对卧蚕进行检测的准确性。
第六方面,本申请实施例提供了一种卷积神经网络模型的训练方法,包括:
获取多个样本图像,所述样本图像包括眼袋ROI区域,且所述样本图像携带卧蚕标注分类结果和卧蚕位置标注信息;
通过卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
基于所述样本图像的所述卧蚕标注分类结果、所述卧蚕位置标注信息、所述卧蚕检测分类结果和所述卧蚕位置检测信息,确定所述卷积神经网络模型的模型参数。
第七方面,本申请实施例还提供了一种卧蚕检测装置,包括:
获取模块,用于获取待检测图像,所述待检测图像包括眼袋ROI区域;
检测模块,用于通过预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
标记模块,用于当所述卧蚕检测分类结果为有时,基于所述卧蚕检测分类结果和所述卧蚕位置检测信息,对所述待检测图像中的卧蚕进行标记,得到卧蚕标记信息。
第八方面,本申请实施例提供了一种卷积神经网络模型的训练装置,包括:
获取模块,用于获取多个样本图像,所述样本图像包括眼袋ROI区域,且所述样本图像携带卧蚕标注分类结果和卧蚕位置标注信息;
检测模块,用于通过卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
确定模块,用于基于所述样本图像的所述卧蚕标注分类结果、所述卧蚕位置标注信息、所述卧蚕检测分类结果和所述卧蚕位置检测信息,确定所述卷积神经网络模型的模型参数。
第九方面,本申请实施例提供一种终端,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在调用计算机程序时执行上述第一方面、第二方面、第五方面或第六方面所述的方法。
第十方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面或第二方面所述的方法。
第十一方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在终端上运行时,使得终端执行上述第一方面、第二方面、第五方面或第六方面所述的方法。
可以理解的是,上述第二方面至第十一方面的有益效果可以参见上述第一方面或第五方面中的相关描述,在此不再赘述。
附图说明
图1为现有技术所提供的一种人脸识别示意图;
图2为本申请实施例所提供的一种卷积神经网络模型的结构示意图;
图3为本申请实施例所提供的一种眼袋检测方法的流程图;
图4为本申请实施例所提供的一种眼袋ROI区域示意图;
图5为本申请实施例所提供的一种眼袋关键点的位置示意图;
图6为本申请实施例所提供的一种卧蚕关键点的位置示意图;
图7为本申请实施例所提供的另一种眼袋检测方法的流程图;
图8为本申请实施例所提供的一种眼袋闭合区域示意图;
图9为本申请实施例所提供的一种卧蚕闭合区域示意图;
图10为本申请实施例提供的一种眼袋检测装置的结构示意图;
图11为本申请实施例提供的一种卷积神经网络模型的训练装置的结构示意图;
图12为本申请实施例提供的一种卧蚕检测装置的结构示意图;
图13为本申请实施例提供的另一种卷积神经网络模型的训练装置的结构示意图;
图14为本申请实施例所提供的一种终端的结构示意图;
图15为本申请实施例所提供一种终端的软件结构框图;
图16为本申请实施例所提供的另一种终端的结构示意图;
图17为本申请实施例所提供的一种服务器的结构示意图。
具体实施方式
为了便于理解本申请施例中的技术方案,下面首先对本申请实施例的应用场景予以介绍。
眼袋是指下眼睑皮肤下垂、臃肿,呈袋状。眼袋根据病因可分为原发性和继发性两大类,其中,继发性眼袋是眶内脂肪堆积过多和睑支持结构变薄弱共同作用的结果,通常可能由不恰当的按摩、熬夜、年龄增长等因素所导致,其形状大小和眼睛的形状大小并无直接关联。虽然不会影响用户的身体健康,但一方面会影响外貌美观,另一方面也会反映一些健康问题,比如疲劳等亚健康问题。同时,眼袋也是一种重要的面部特征。
鉴于上述原因,在人脸识别技术领域中,眼袋识别的重要性也越来越高。比如,在在拍摄图像的过程中,可以通过眼袋来辅助进行面部检测和定位;在美颜应用中,可以通过识别并修复眼袋(调整颜色和滤波),或者,对卧蚕和眼袋进行区分,从而达到美颜效果;在皮肤检测应用中,可以通过识别眼袋来确定用户的皮肤健康程度并给出相应的保养建议;在年龄模拟或者面部模拟应用中,可以通过识别眼袋,调整眼袋的松弛程度、颜色、大小等参数,来模拟生成用户在不同年龄段的面部图像。
请参照图1,为现有技术所提供的一种人脸识别示意图。现有技术是过人脸关键点检测从待检测图像中识别得到人脸关键点(如图1中点1-68),然后确定其中的眼部关键点(如图1中的关键点37-42以及关键点43-48),确定一个预设大小的区域作为眼袋区域(如图1中虚线所包围的区域)。眼部关键点的分布与眼睛的大小和形状是密切相关的,但眼袋实际的形状大小和眼睛的形状大小并无直接关联,因此,按照现有技术所确定的眼袋区域,与实际眼袋区域(如图1中实线所包围的阴影区域)差别很大,比如在图1中,通过现有技术所确定的眼袋区域,远大于实际眼袋区域,且形状也与实际眼袋区域的形状有很大差别,准确性低下。
为解决这一技术问题,本申请提供了一种眼袋检测方法。在本申请实施例中,可以获取包括眼袋ROI区域的待检测图像,然后通过预设卷积神经网络模型直接对该眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息。当眼袋检测得分处于预设得分范围,即确定存在眼袋时,可以通过眼袋检测得分和眼袋位置检测信息对待检测图像进行标记,从而得到针对眼袋进行检测的眼袋标记信息。由于这里的眼袋检测得分和眼袋位置检测信息,是直接从眼袋ROI区域识别得到的,而不是根据眼睛的大小和形状设置的,因此能够显著提高对眼袋进行检测的准确性。
在对本申请实施例进行详细解释之前,先对卷积神经网络予以介绍。
CNN是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。CNN具有表征学习(representation learning)能力以及特征组合能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),被广泛应用于计算机视觉以及自然语言处理等多个领域中。
卷积神经网络可以包括输入层、卷积层(convolution layer)、激励层、池化层(pooling layer)和全连接层(Fully Connected layer)。
输入层可以用于接收所输入的待检测图像。
其中,在将待检测图像输入至输入层之前,可以对该待检测图像进行预处理,包括尺寸缩放、将像素归一化至同样的数值范围(比如[0,1])。
卷积层可以用于对来自输入层的数据进行特征提取。卷积层可以包括滤波器,每个特征图中又可以包括多个权重,这些权重也是卷积神经网络模型中需要训练的模型参数。在通过卷积层对输入的图像进行特征提取时,可以通过滤波器对该图像进行卷积运算,从而得到特征图,该特征即能够说明该图像的特征。通过多个依次连接的卷积层,即可以提取出更深层次的特征图。
激励层可以用于将卷积层的输出结果进行非线性映射。
池化层可以设置在卷积层后面,用于对特征图进行压缩,一方面简化网络计算的复杂程度,另一方面提取主要特征。池化层可以包括平均池化层(Average Pooling)或最大池化层(Max Pooling)。
全连接层可以设置在卷积神经网络的末端,用于根据前面各层最终所提取的特征进行连接,并得到分类或检测结果。
请参照图2,为本申请实施例所提供的一种卷积神经网络模型的结构示意图。该卷积神经网络模型可以包括依次连接的输入层100、特征提取子网络200和特征组合检测子网络300。特征提取子网络200可以包括依次连接的多个卷积层210以及1个池化层220,其中,为了减少参数量和计算量,从而减小模型大小,便于嵌入移动端应用,该多个卷积层210中的第二层之后的卷积层210可以为深度可分离卷积层。池化层220可以为平均池化层。特征组合检测子网络300可以包括至少一组深度可分离卷积层和全连接层310,其中,特征组合检测子网络300中的深度可分离卷积层,可以用于进一步针对具体一项任务进行特征学习;每组深度可分离卷积层和全连接层310依次连接在池化层220之后,用于确定一项任务进行分类结果,比如前述中的眼袋检测得分或者眼袋位置检测信息。
其中,输入层100所输入图像(即待检测图像或者样本图像)的大小和卷积层210中各滤波器的大小可以事先确定,比如,输入层100所输入图像可以为112*112*3,滤波器的大小可以为3*3。
需要说明的是,当特征组合检测子网络300仅包括一组深度可分离卷积层和全连接层310时,该卷积神经网络模型为单任务学习网络;当该特征组合检测子网络300包括多组深度可分离卷积层和全连接层310时,该卷积神经网络模型为多任务学习网络。其中,多任务学习网络可以共享基础的特征提取子网络200,从而能够减少计算量;而单任务学习网络可以便于针对某一项具体的任务进行特征学习,总体而言,所提取的参数量增大,从而显著提高检测结果的准确程度。
在本申请实施例中,可以通过两个单任务学习网络分别来得到眼袋检测得分(卧蚕检测分类结果)和眼袋位置检测信息(卧蚕位置检测信息),也可以通过一个单目标多任务学习网络同时来得到眼袋检测得分(卧蚕检测分类结果)和眼袋位置检测信息(卧蚕位置检测信息),从而单独实现对眼袋或卧蚕的识别。或者,在另一些实施例中,可以通过一个多目标多任务学习网络,同时来得到眼袋检测得分、眼袋位置检测信息、卧蚕检测分类结果和卧蚕检测位置信。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
请参照图3,为本申请实施例所提供的一种眼袋检测方法的流程图。需要说明的是,该方法并不以图3以及以下所述的具体顺序为限制,应当理解,在其它实施例中,该方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
S301,构建数据集。
为了本申请实施例中的卷积神经网络模型进行训练,从而得到能够进行眼袋检测的预设卷积神经网络模型,可以先构建数据集。
在构建数据集时,可以获取多个样本图像,且各样本图像均可以包括眼袋ROI区域,然后对样本图像中的眼袋进行标注,包括眼袋标注得分和眼袋位置标注信息。当然,由于眼袋ROI区域与卧蚕相同,因此该眼袋ROI区域也可以用于对卧蚕进行检测,当还对卧蚕进行检测时,也可以对样本图像中的卧蚕进行标注,包括卧蚕标注分类结果和卧蚕位置标注信息。或者,也可以单独对样本图像中的卧蚕进行标注,从而仅对卧蚕进行检测。当标注完成时,可以将数据集分为两部分,其中一部分作为训练集,另一部分作为测试集。
需要说明的是,这里的样本图像可以是仅包括眼袋ROI区域的图像,当然也可以是还包括其他信息的图像。比如,样本图像可以包括整张人脸,那么,可以先通过人脸关键点检测,得到识别结果如图1所示,然后再根据眼睛关键点,对该样本图像进行分割,得到眼袋ROI区域。
其中,眼袋ROI区域为机器对图像中的眼袋或卧蚕进行识别时所感兴趣的区域。在对该样本图像进行分割得到眼袋ROI区域时,可以基于眼部关键点,确定眼部中心点,然后以眼部中心点为基准点,从样本图像中,获取预设尺寸和预设形状的区域作为眼袋ROI区域。
需要说明的是,预设尺寸和预设形状可以通过事先确定得到。可选地,眼袋ROI区域可以为一个矩形区域,其中,眼部中心点可以处于该区宽1/2、高1/4处。以如图1所示的人脸为例,根据左眼关键点37-42确定左眼中心点,根据右眼关键点43-48确定右眼中心点,然后分别根据左眼中心点和右眼中心点,对人脸图像进行分割,得到矩形的左眼袋ROI区域和右眼袋ROI区域,如图4所示。
由于图像的细节会受到终端类型以及光源的影响,这些细节会影响对眼袋检测的准确性。采用某一终端类型拍摄的图像作为样本图像训练得到的卷积网络神经模型,可能难以对另一终端类型所拍摄的图像中的眼袋进行准确检测;采用在某一光源下拍摄的图像作为样本图像训练得到的卷积网络神经模型,可能难以对在另一光源下拍摄的图像中的眼袋进行准确检测。因此,为了提高卷积网络神经模型的鲁棒性,确保本申请实施例所提供的眼袋检测方法在不同环境中,都能够稳定可靠地对眼袋进行检测,在获取多个样本图像时,可以获取来自多种终端类型在多种光源环境下拍摄的图像,作为样本图像。
例如,可以获取来自多个厂商的手机,分别在4000K(色温)100Lux(亮度)、4000K 300Lux、白光、黄光等环境下所拍摄的图像作为样本图像。
眼袋标注得分、眼袋位置标注信息、卧蚕标注分类结果和卧蚕位置标注信息,可以通过标注得到。其中,眼袋标注得分可以说明标注的眼袋严重程度;眼袋位置标注信息可以说明标注的眼袋位置,该眼袋位置标注信息可以包括标注的眼袋关键点或眼袋分割掩膜;卧蚕标注分类结果可以包括有或无;卧蚕位置标注信息可以包括标注的卧蚕位置,该卧蚕位置标注信息可以包括标注的卧蚕关键点或卧蚕分割掩膜。其中,当通过眼袋分割掩膜或卧蚕分割掩膜,对眼袋或卧蚕位置进行标注时,卷积神经网络可以为图像语义分割网络。
以眼袋标注得分和眼袋位置标注信息为例,在对样本图像进行标注时,为了准确区分眼袋的严重程度、减少主观因素对眼袋感受差异的影响,可以先由相关技术人员(比如眼科医生)确定建立眼袋评判标准和眼袋得分图谱(包括眼袋得分区间和预设得分范围),该预设得分范围可以用于指示有眼袋时的眼袋得分。比如眼袋等分区间可以[65-95],预设得分范围可以为小于得分阈值85,分数越小眼袋越严重。当眼袋得分小于85时就可以认为是有眼袋,当眼袋得分大于或等于85时可以认为是没有眼袋。之后,可以根据眼袋得分图谱、眼袋纹路深度、凸起程度、面积大小、松弛程度等多个维度来评分,从而 得到眼袋标注得分和眼袋位置标注信息。其中,左右眼可以采用相同的标注顺序,且为了减少标注噪声,可以通过至少三人来对关键点进行标注,然后取平均值作为最终标注。
需要说明的是,眼袋得分可以左右眼袋得分的平均分,且在本申请实施例中,对眼袋得分采用的是正向得分,即得分越高,用户眼袋区域的皮肤健康状况越好,但可以理解的是,在另一些实施例中,也可以采用负向得分,即眼袋得分越低,用户眼袋区域的皮肤健康状况越好。
另外,若眼袋位置标注信息包括眼袋关键点或者卧蚕位置标注信息包括卧蚕关键点,即通过关键点的方式对眼袋或卧蚕位置进行标注,可以事先确定眼袋关键点或卧蚕关键点标注的位置及个数。
例如,请参照图5和图6,分别为本申请实施例所提供的一种眼袋关键点的位置示意图和卧蚕关键点的位置示意图。在图5中,眼袋关键点包括5个关键点,关键点1和2分别在左右眼角处,关键点4和5处于眼袋中间区域,关键点3处于眼袋底端。在图6中,卧蚕关键点包括2个关键点,分别处于卧蚕的中部区域。
S302,基于数据集构建卷积网络神经模型。
可以从训练集中获取多个样本图像,其中,样本图像包括眼袋ROI区域,且样本图像携带眼袋标注得分和眼袋位置标注信息,通过卷积神经网络模型,对该眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息,然后将各样本图像的眼袋检测得分和眼袋位置检测信息,与眼袋标注得分和眼袋位置标注信息进行比较,根据比较结果对卷积神经网络模型的模型参数(比如前述中各滤波器中的权重)进行更新,直至该卷积神经网络模型收敛或者达到预设训练次数时,确定得到该卷积神经网络模型的模型参数。
可选地,如果该卷积神经网络还用于对卧蚕进行检测,则可以通过卷积神经网络模型,对眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息,并按照相似的方式,基于各样本图像的眼袋检测得分、眼袋位置检测信息、眼袋标注得分、眼袋位置标注信息、卧蚕标注分类结果、卧蚕位置标注信息、卧蚕检测分类结果和卧蚕位置检测信息,确定卷积神经网络模型的模型参数。
其中,眼袋检测得分可以说明检测的眼袋严重程度;眼袋位置检测信息可以说明检测的眼袋位置;卧蚕检测分类结果可以包括有或无;卧蚕位置检测信息可以说明检测的卧蚕位置。
可选地,在训练结束时,为了对该卷积神经网络模型准确性进行测试,还可以从测试集中获取多个样本图像,通过该卷积神经网络模型对该样本图像进行识别,然后根据识别结果的准确程度(比如眼袋检测得分与眼袋标注得分的差值大小、眼袋位置检测信息与眼袋位置标注信息的差异大小),确定是否继续对该卷积神经网络模型进行训练。
S303,基于卷积神经网络模型进行眼袋检测。
当对卷积神经网络模型训练完成时,即可以通过所训练的卷积神经网络模型对实际的待检测图像进行眼袋检测。
在上述内容中,已经结合图3对本申请实施例所提供的眼袋检测方法进行了概括地介绍,即包括S301构建数据集、S302基于数据集构建卷积网络神经模型以及S303基于卷积神经网络模型进行眼袋检测等三个步骤。这三个步骤可以由一个或多个的设备执行,比如,可以通过终端(相机或手机)执行S301来采集数据集,并传输至服务器进行存储;通过服务器来执行S302,以基于所采集的数据集训练得到卷积神经网络模型;通过终端从服务器获取训练好的卷积神经网络模型,并执行步骤303来实现对眼袋的检测。在下述内容中,将对S303中基于卷积神经网络模型的眼袋检测方法进行详细的解释。
请参照图7,为本申请实施例所提供的一种眼袋检测方法的流程图。需要说明的是,该方法并不以图7以及以下所述的具体顺序为限制,应当理解,在其它实施例中,该方法其中部分步骤的顺序可以根 据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
S701,获取待检测图像。
其中,可以通过调用摄像头拍摄得到待检测图像,或者,可以调用摄像头并从取景框获取图像作为待检测图像,比如在增强现实(Augmented Reality,AR)场景中,或者,可以存储器中获取图像作为待检测图像,或者,可以从其他设备获取图像作为待检测图像。当然,在实际应用中,也可以通过其他方式来获取待检测图像,本申请实施例对此获取待检测图像的方式不做具体限定。
S702,对待检测图像进行人脸关键点检测,得到眼部关键点。
这里对人脸关键点进行检测的目的,是得到眼部关键点从而便于后续确定眼袋ROI区域,因此,在进行人间关键点检测时,可以检测所有的人脸关键点,或者也可以仅检测眼部关键点,如图1或4中的关键点37-42和关键点43-48。
S703,基于眼部关键点,从待检测图像中确定眼袋ROI区域。
其中,可以基于待检测图像中的眼部关键点,确定眼部中心点,然后以眼部中心点为基准点,从待检测图像中获取预设尺寸和预设形状的区域作为眼袋ROI区域。
需要说明的是,根据待检测图像眼部关键点确定眼部中心点的方式、以眼部中心点从待检测图像中获取眼袋ROI区域的方式,可以分别与前述S301中根据样本图像眼部关键点确定眼部中心点的方式、以眼部中心点从样本图像中获取眼袋ROI区域的方式相同,此处不再一一赘述。
还需要说明的是,当从待检测图像中确定眼袋ROI区域时,可以将该眼袋ROI区域从该待检测图像中剪贴出来,得到眼袋ROI区域图像,然后将该眼袋ROI区域图像输入预设卷积神经网络模型,当然,可以在待检测图像中对该眼袋ROI区域进行标记,并将标记后的待检测图像输入至预设卷积神经网络模型。
可选地,由于人的眼睛是左右对称的,那么眼袋ROI区域也是左右对称的,而眼袋ROI区域包括左眼袋ROI区域和右眼袋ROI区域,因此,为了便于预设卷积神经网络模型进行识别,可以基于左眼袋ROI区域和右眼袋ROI区域,对待检测图像进行分割,得到左眼袋ROI区域图像和右眼袋ROI区域图像。将右眼袋ROI区域图像沿左右方向进行镜像处理,将左眼袋ROI区域图像和镜像处理后的右眼袋ROI区域图像,输入至预设卷积神经网络模型。
当然,如果待检测图像就是仅包括眼袋ROI区域的图像,则可以不必执行上述S702-S703,即S701之后可以直接执行S704和S708中的至少一个,从而单独对眼袋或卧蚕进行检测,或者同时对眼袋和卧蚕进行检测。
S704,通过预设卷积神经网络模型,对眼袋ROI区域进行眼袋检测,得到眼袋检测得分和眼袋位置检测信息。
其中,当预设卷积神经网络模型是单任务学习网络时,可以通过两个卷积神经网络模型(可以分别记为第一和第二卷积神经网络模型)分别对眼袋ROI区域进行检测,从而得到眼袋检测得分和眼袋位置检测信息;当预设卷积神经网络模型是单目标多任务学习网络时,可以通过一个卷积神经网络模型(可以记为第三卷积神经网络模型),对眼袋ROI区域进行眼袋检测,从而得到眼袋检测得分和眼袋位置检测信息;当预设卷积神经网络模型是多目标多任务学习网络时,可以通过一个卷积神经网络模型,对眼袋ROI区域进行眼袋检测和卧蚕检测,从而得到卧蚕检测分类结果和卧蚕位置检测信息。也即是,S704和S708可以通过同一个卷积神经网络模型来执行,也可以通过多个卷积神经网络模型来执行,且该两个步骤之间没有先后次序的限制。
S705,眼袋检测得分是否处于预设得分范围,若是则执行S706,否则执行S707。
可以将眼袋检测得分与预设得分范围进行比较,以确定眼袋检测得分是否处于该预设得分范围。以预设得分范围为小于某一得分阈值为例,如果眼袋检测得分大于或等于得分阈值,则可以用户眼袋区域的皮肤健康状况良好,没有眼袋。而如果眼袋检测得分小于该得分阈值,即眼袋检测得分处于预设得分范围,则可能用户眼袋区域的皮肤健康状况比较差,存在眼袋。
S706,基于眼袋检测得分和眼袋位置检测信息对待检测图像中的眼袋进行标记,得到眼袋标记信息。
当确定有眼袋时,一方面可以基于眼袋位置检测信息对待检测图像中的眼袋进行标记,从而使准确直观地向用户展示眼袋的位置信息,另一方面可以基于眼袋检测得分对待检测图像中的眼袋进行标记,从而精确地向用户展示当前眼袋的严重状况,以便于用户及时进行护理和调整作息规律等。
眼袋标记信息用于当存在眼袋时,向用户展示对该眼袋检测的得分以及位置。
由前述可知,眼袋位置检测信息可能会包括眼袋关键点或者眼袋分割掩膜。因此,这里对待检测图像中的眼袋进行标记的方式,也相应的可以分为两种情况:
在一种标记方式中,当眼袋位置检测信息包括眼袋关键点时,可以基于眼袋关键点进行插值拟合,得到眼袋闭合区域,基于眼袋检测得分和眼袋闭合区域,对待检测图像中的眼袋进行标记。
插值是在离散数据的基础上补差连续函数,使得到的连续曲线可以通过全部给定的离散数据点。拟合是把给定点通过光滑曲线连接起来。在图像处理领域,插值拟合可以同于根据给定的多个像素点,确定由该多个像素点围城的闭合区域。那么在本申请实施例中,眼袋关键点就是在眼袋轮廓的关键点,对这些眼袋关键点进行插值拟合处理,就可以得到眼袋闭合区域。
需要说明的是,在对眼袋关键点进行插值拟合处理时,可以选择任意的差值拟合方法,本申请实施例对此差值拟合方法不作具体限定。
例如,对如图5所示的眼袋关键点进行插值拟合处理,即可得到眼袋闭合区域,如图8所示。
需要说明的是,为了便于理解眼袋关键点与眼袋闭合区域之间的关系,在图8中,仍然保留了眼袋关键点,在实际应用中,当通过眼袋闭合区域对待检测图像进行标记时,可以删除眼袋关键点。
在另一种标记方式中,由于眼袋分割掩膜已经准确地覆盖了眼袋所在的区域,因此当眼袋位置检测信息包括眼袋分割掩膜时,可以直接基于眼袋检测得分和眼袋分割掩膜,对待检测图像中的眼袋进行标记。
可选地,由前述可知,在对右眼袋ROI区域图像进行检测之前,对右眼袋ROI区域图像沿左右方向进行了镜像处理,那么在检测完成并对待检测图像进行标记时,为了便于用户查看检测结果,可以对左眼袋ROI区域图像和镜像处理后的右眼袋ROI区域图像进行标记,并对将标记后的右眼袋ROI区域图像,再次沿左右方向进行镜像处理,从而还原右眼袋ROI区域图像。
需要说明的是,可以同时将眼袋检测得分和眼袋闭合区域标记在同一个待检测图像中,也可以将待检测图像进行复制,得到两个相同的待检测图像,然后分别眼袋检测得分和眼袋闭合区域标记在一个待检测图像中。
还需要说明的是,这里基于眼袋检测得分或者眼袋位置检测信息对待检测图像中的眼袋进行标记,得到眼袋标记信息的操作,可以是将眼袋检测得分或者眼袋位置检测信息直接添加在待检测图像中,包括以像素的形式添加在待检测图像中(即直接在待检测图像中生成文字信息)或者以属性信息的形式添加在待检测图像的属性信息中;也可以是单独存储眼袋检测得分和眼袋位置检测信息,并建立眼袋检测得分与待检测图像之间的关联关系以及眼袋位置检测信息与待检测图像之间的关联关系。
其中,待检测图像的属性信息,可以用于说明待检测图像的拍摄参数等属性信息。比如,可以包括 可交换图像文件格式(Exchangeable image file format,EXif)。
S707,界面显示眼袋检测结果。
界面可以包括终端的显示屏幕或显示器中的界面。终端在按照上述方法进行眼袋检测并得到检测结果时,可以在该终端的显示屏幕显示该检测结果,当然,也可以将检测结果发送给其他显示器(比如智能电视)进行显示。本申请实施例对此显示眼袋检测结果的方式不进行具体限定。
当眼袋检测得分处于预设得分范围阈值(即有眼袋)时,所显示的眼袋检测结果可以包括待检测图像,用户可以通过直接从待检测图像中查看眼袋检测得分和眼袋位置检测信息;或者,可以从待检测图像的属性信息中查看眼袋检测得分和眼袋位置检测信息;或者,可以从眼袋检测得分与待检测图像之间的关联关系以及眼袋位置检测信息与待检测图像之间的关联关系中,获取眼袋检测得分和眼袋位置检测信息。
需要说明的是,在进行显示时,可以将待检测图像、眼袋检测得分和眼袋位置检测信息显示在同一显示区域,可以分别显示在不同的显示区域,比如可以在一个显示区域显示标记后的待检测图像(该待检测图像中包括以像素形式标记的眼袋位置检测信息),并在另一显示区域单独显示眼袋检测得分,本申请实施例对此显示区域的设置方式不做具体限定。
还需要说明的是,当显示眼袋标记信息时,还可以向用户提供个性化的护理建议,比如提醒用户注意休息,采用消除或淡化眼袋的护理用品等。
当眼袋检测得分不处于该预设得分范围时,眼袋检测结果可以包括出眼袋检测得分。当然,也可以按照与有眼袋时相似的方式,通过眼袋检测得分对待检测图像进行标记,并按照与有眼袋时相似的方式进行显示。
S708,通过预设卷积神经网络模型,对眼袋ROI区域进行卧蚕检测,得到卧蚕检测分类结果和卧蚕位置检测信息。
需要说明的是,通过预设卷积神经网络模型对眼袋ROI区域进行卧蚕检测的方式,可以与通过预设卷积神经网络模型对眼袋ROI区域进行眼袋检测的方式相似,此处不再一一赘述。
比如,可以通过两个卷积神经网络模型(可以分别记为第四和第五卷积神经网络模型)分别对眼袋ROI区域进行检测,从而得到卧蚕检测分类结果和卧蚕位置检测信息;当预设卷积神经网络模型是单目标多任务学习网络时,可以通过一个卷积神经网络模型(可以记为第六卷积神经网络模型),对眼袋ROI区域进行检测,从而得到卧蚕检测分类结果和卧蚕位置检测信息。
其中,卧蚕检测结果可以通过1或0表示,1表示有卧蚕,而0则表示无卧蚕。
S709,是否有卧蚕,如果是则执行S710,否则执行S711。
可以根据卧蚕检测结果来确定是否有卧蚕。
S710,基于卧蚕检测分类结果和卧蚕位置检测信息,对待检测图像中的卧蚕进行标记,得到卧蚕标记信息。
与基于眼袋检测得分和眼袋位置检测信息,对待检测图像进行标记的方式相似,也可以通过下述两种方式来对待检测图像进行标记:
在一种标记方式中,当卧蚕位置检测信息包括卧蚕关键点时,可以基于卧蚕关键点进行插值拟合,得到卧蚕闭合区域,基于卧蚕检测分类结果和卧蚕闭合区域,对待检测图像中的卧蚕进行标记。
例如,对如图6所示的卧蚕关键点进行插值拟合处理,即可得到卧蚕闭合区域,如图9所示。同样的,为了便于理解卧蚕关键点与卧蚕闭合区域之间的关系,在图9中,仍然保留了卧蚕关键点,在实际应用中,当通过卧蚕闭合区域对待检测图像进行标记时,可以删除卧蚕关键点。
在另一种标记方式中,当卧蚕位置检测信息包括卧蚕分割掩膜时,可以基于卧蚕检测分类结果和卧蚕分割掩膜,对待检测图像中的卧蚕进行标记。
需要说明的是,可以同时将卧蚕检测分类结果和卧蚕闭合区域标记在同一个待检测图像中,也可以将待检测图像进行复制,得到两个相同的待检测图像,然后分别卧蚕检测分类结果和眼袋闭合区域标记在一个待检测图像中。
还需要说明的是,这里基于卧蚕检测分类结果或卧蚕位置检测信息,对待检测图像中的卧蚕进行标记的操作,可以是将卧蚕检测分类结果或卧蚕位置检测信息直接添加在待检测图像中;也可以是单独存储卧蚕检测分类结果和卧蚕位置检测信息,并建立卧蚕检测分类结果与待检测图像之间的关联关系和卧蚕位置检测信息与待检测图像之间的关联关系。
S711,界面显示卧蚕检测结果。
需要说明的是,界面显示卧蚕检测结果的方式,可以与界面显示眼袋检测结果的方式相同,此处不再一一赘述。
当卧蚕检测分类结果为有时,所显示的卧蚕检测结果可以包括待检测图像,用户可以直接从待检测图像中查看卧蚕检测分类结果和卧蚕位置检测信息;或者,可以从待检测图像的属性信息中查看卧蚕检测分类结果和卧蚕位置检测信息;或者,可以从卧蚕检测分类结果与待检测图像之间的关联关系和卧蚕位置检测信息与待检测图像之间的关联关系中,获取卧蚕检测分类结果和卧蚕位置检测信息。
当卧蚕检测分类结果为无时,所显示的卧蚕检测结果可以包括该卧蚕检测分类结果。当然,也可以按照与卧蚕检测分类结果为有时相似的方式,通过该卧蚕检测分类结果对待检测图像进行标记,并按照与卧蚕检测分类结果为有时相似的方式进行显示。
另外,由于可以同时对眼袋和卧蚕进行检测,因此,在另一些实施例中,可以将眼袋检测得分、眼袋闭合区域、卧蚕检测分类结果和卧蚕闭合区域同时标记在一个待检测图像中,标记后的待检测图像既可以作为眼袋标记信息,又可以作为卧蚕标记信息,相应的,S707和S711可以合并为一个步骤。
在本申请实施例中,可以获取包括眼袋ROI区域的待检测图像,然后通过预设卷积神经网络模型直接对该眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息,当眼袋检测得分处于预设得分范围,即确定存在眼袋时,可以通过眼袋检测得分和眼袋位置检测信息对待检测图像进行标记,从而得到针对眼袋进行检测的眼袋标记信息。由于这里的眼袋检测得分和眼袋位置检测信息,是直接从眼袋ROI区域识别得到的,而不是根据眼睛的大小和形状设置的,因此能够显著提高对眼袋进行检测的准确性。
在实际测试中,使用不同机型,在4000K 100Lux,4000K 300Lux、白光和黄光等4种光源环境下,检测的卧蚕闭合区域与实际的(或标注的)卧蚕闭合区域面积交并比(Intersection over Union,IOU)达到72.54%,检测的眼袋闭合区域与实际的(或标注的)眼袋闭合区域面积IOU达到77%,单环境眼袋得分的相关系数达到88%,多环境相关系数达到87.6%,单环境下得分的标准差最低可到1.44,多环境下标准差为1.66。一般对于标准差单环境下小于2,多环境下小于3,就认为满足要求,因此本申请实施例所提供的眼袋检测方法的实验结果远远超出要求。
其中,IOU是对象类别分割问题的标准性能度量,在本申请实施例中,该数值越大,则说明检测的卧蚕闭合区域(或眼袋检测区域),越贴近实际的卧蚕闭合区域(或眼袋检测区域),即检测的准确性越高;眼袋得分的相关系数为眼袋检测得分与眼袋标注得分之间的相关系数,相关系数越高则对眼袋进行检测准确性也越高。
基于同一发明构思,作为对上述方法的实现,本申请实施例提供了一种眼袋检测装置、一种卧蚕检测装置以及一种卷积神经网络模型的训练装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
图10为本申请实施例提供的一种眼袋检测装置1000的结构示意图,如图10所示,本实施例提供的眼袋检测装置1000包括:
获取模块1001,用于获取待检测图像,该待检测图像包括眼袋ROI区域;
检测模块1002,与用于通过预设卷积神经网络模型,对该眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息;
标记模块1003,用于当该眼袋检测得分处于预设得分范围时,基于该眼袋检测得分和该眼袋位置检测信息,对该待检测图像中的眼袋进行标记,得到眼袋标记信息。
可选地,还包括确定模块;
检测模块还用于对该待检测图像进行人脸关键点检测,得到眼部关键点;
确定模块,用于基于该眼部关键点,从该待检测图像中确定该眼袋ROI区域。
可选地,该确定模块还用于:
基于该眼部关键点,确定眼部中心点;
以该眼部中心点为基准点,从该待检测图像中,获取预设尺寸和形状的区域作为该眼袋ROI区域。
可选地,该眼部中心点处于该眼袋ROI区域内的上半部分,并处于该眼袋ROI区域内的宽1/2、高1/4处。
可选地,检测模块还用于通过该预设卷积神经网络模型,对该眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
标记模块还用于当该卧蚕检测分类结果为有时,基于该卧蚕检测分类结果和该卧蚕位置检测信息,对该待检测图像中的卧蚕进行标记,得到卧蚕标记信息。
可选地,该眼袋位置检测信息包括眼袋关键点,标记模块还用于:
基于该眼袋关键点进行插值拟合,得到眼袋闭合区域;
基于该眼袋检测得分和该眼袋闭合区域,对该待检测图像中的眼袋进行标记。
可选地,该眼袋位置检测信息包括眼袋分割掩膜,标记模块还用于:
基于该眼袋检测得分和该眼袋分割掩膜,对该待检测图像中的眼袋进行标记。
可选地,该卧蚕位置检测信息包括卧蚕关键点,标记模块还用于:
基于该卧蚕关键点进行插值拟合,得到卧蚕闭合区域;
基于该卧蚕检测分类结果和该卧蚕闭合区域,对该待检测图像中的卧蚕进行标记。
可选地,该卧蚕位置检测信息包括卧蚕分割掩膜,标记模块还用于:
基于该卧蚕检测分类结果和该卧蚕分割掩膜,对该待检测图像中的卧蚕进行标记。
可选地,该预设卷积神经网络模型包括多个卷积层,其中,除第一个卷积层外的其他卷积层中,包括至少一个深度可分离卷积层。
可选地,该预设卷积神经网络模型于多个样本图像训练得到,该样本图像携带眼袋标注得分和眼袋位置标注信息。
可选地,该样本图像还携带卧蚕标注得分和卧蚕位置标注信息。
可选地,该眼袋ROI区域包括左眼袋ROI区域和右眼袋ROI区域,还包括:
分割模块,用于基于该左眼袋ROI区域和该右眼袋ROI区域,对该待检测图像进行分割,得到左眼袋ROI区域图像和右眼袋ROI区域图像;
镜像模块,用于将该右眼袋ROI区域图像沿左右方向进行镜像处理;
输入模块,用于将该左眼袋ROI区域图像和镜像处理后的该右眼袋ROI区域图像,输入至该预设卷积神经网络模型。
可选地,标记模块还用于:
对该左眼袋ROI区域图像和镜像处理后的该右眼袋ROI区域图像进行标记;
将标记后的该右眼袋ROI区域图像,再次沿左右方向进行镜像处理。
本实施例提供的眼袋检测装置可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
图11为本申请实施例提供的一种卷积神经网络模型的训练装置1100的结构示意图,如图11所示,本实施例提供的卷积神经网络模型的训练装置1100包括:
获取模块1101,用于获取多个样本图像,该样本图像包括眼袋ROI区域,且该样本图像携带眼袋标注得分和眼袋位置标注信息;
检测模块1102,用于通过卷积神经网络模型,对该眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息;
确定模块1103,用于基于样本图像的该眼袋检测得分、该眼袋位置检测信息、该眼袋标注得分和该眼袋位置标注信息,确定该卷积神经网络模型的模型参数。
可选地,该样本图像还携带卧蚕标注分类结果和卧蚕位置标注信息;
检测模块还用于通过该卷积神经网络模型,对该眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
确定模块还用于基于样本图像的该眼袋检测得分、该眼袋位置检测信息、该眼袋标注得分、该眼袋位置标注信息、卧蚕标注分类结果、卧蚕位置标注信息、卧蚕检测分类结果和卧蚕位置检测信息,确定该卷积神经网络模型的模型参数。
本实施例提供的卷积神经网络模型的训练装置可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
图12为本申请实施例提供的一种卧蚕检测装置1200的结构示意图,如图12所示,本实施例提供的卧蚕检测装置1200包括:
获取模块1201,用于获取待检测图像,所述待检测图像包括眼袋ROI区域;
检测模块1202,用于通过预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
标记模块1203,用于当所述卧蚕检测分类结果为有时,基于所述卧蚕检测分类结果和所述卧蚕位置检测信息,对所述待检测图像中的卧蚕进行标记,得到卧蚕标记信息。
本实施例提供的卷积神经网络模型的训练装置可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
图13为本申请实施例提供的一种卷积神经网络模型的训练装置1300的结构示意图,如图13所示,本实施例提供的卷积神经网络模型的训练装置1300包括:
获取模块1301,用于获取多个样本图像,所述样本图像包括眼袋ROI区域,且所述样本图像携带卧蚕标注分类结果和卧蚕位置标注信息;
检测模块1302,用于通过卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
确定模块1303,用于基于所述样本图像的所述卧蚕标注分类结果、所述卧蚕位置标注信息、所述卧蚕检测分类结果和所述卧蚕位置检测信息,确定所述卷积神经网络模型的模型参数。
本实施例提供的卷积神经网络模型的训练装置可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参照图14,为本申请所提供的一种终端100的结构示意图。终端100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中,终端100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processing unit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是终端100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。减少了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuit sound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purpose  input/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现终端100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(display serial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现终端100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现终端100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为终端100充电,也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他终端,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端100的结构限定。在本申请另一些实施例中,终端100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为终端供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电 池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
终端100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code division multiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidou navigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
终端100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,终端100可以包括1个或N个显示屏194,N为大于1的正整数。
终端100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,终端100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样,终端100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行终端100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
终端100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中,终端100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动终端平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。终端100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,终端100根据压力传感器180A检测所述触摸操作强度。终端100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定终端100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定终端100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测终端100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消终端100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,终端100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。终端100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当终端100是翻盖机时,终端100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。当终端100静止时可检测出重力的大小及方向。还可以用于识别终端姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。终端100可以通过红外或激光测量距离。在一些实施例中,拍 摄场景,终端100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。终端100通过发光二极管向外发射红外光。终端100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定终端100附近有物体。当检测到不充分的反射光时,终端100可以确定终端100附近没有物体。终端100可以利用接近光传感器180G检测用户手持终端100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。终端100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测终端100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。终端100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,终端100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,终端100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,终端100对电池142加热,以减少低温导致终端100异常关机。在其他一些实施例中,当温度低于又一阈值时,终端100对电池142的输出电压执行升压,以减少低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于终端100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端100可以接收按键输入,产生与终端100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和终端100的接触和分离。终端100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。 SIM卡接口195也可以兼容外部存储卡。终端100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,终端100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端100中,不能和终端100分离。
终端100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明终端100的软件结构。
图15是本申请实施例的终端100的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图15所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图15所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供终端100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,终端振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音 视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
下面结合捕获拍照场景,示例性说明终端100软件以及硬件的工作流程。
当触摸传感器180K接收到触摸操作,相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标,触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,识别该输入事件所对应的控件。以该触摸操作是触摸单击操作,该单击操作所对应的控件为相机应用图标的控件为例,相机应用调用应用框架层的接口,启动相机应用,进而通过调用内核层启动摄像头驱动,通过摄像头193捕获静态图像或视频。
基于同一发明构思,本申请实施例还提供了一种终端。图16为本申请实施例提供的终端1600的结构示意图,如图16所示,本实施例提供的终端1600包括:存储器1610和处理器1620,存储器1610用于存储计算机程序;处理器1620用于在调用计算机程序时执行上述方法实施例所述的方法。
本实施例提供的终端可以执行上述方法实施例来进行眼袋检测和/或卧蚕检测,其实现原理与技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例所述的方法来进行眼袋检测和/或卧蚕检测,也可以进行卷积神经网络模型的训练。
本申请实施例还提供一种计算机程序产品,当计算机程序产品在终端上运行时,使得终端执行时实现上述方法实施例所述的方法来进行眼袋检测和/或卧蚕检测,也可以进行卷积神经网络模型的训练。
基于同一发明构思,本申请实施例还提供了一种服务器。图17为本申请实施例提供的服务器1700的结构示意图,如图17所示,本实施例提供的服务器1700包括:存储器1710和处理器1720,存储器1710用于存储计算机程序;处理器1720用于在调用计算机程序时执行上述方法实施例所述的方法。
本实施例提供的服务器可以执行上述方法实施例来进行卷积神经网络模型的训练,其实现原理与技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例所述的方法来进行卷积神经网络模型的训练。
本申请实施例还提供一种计算机程序产品,当计算机程序产品在服务器上运行时,使得服务器执行时实现上述方法实施例所述的方法来进行卷积神经网络模型的训练。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参 见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (17)

  1. 一种眼袋检测方法,其特征在于,包括:
    获取待检测图像,所述待检测图像包括眼袋感兴趣ROI区域;
    通过预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息;
    当所述眼袋检测得分处于预设得分范围时,基于所述眼袋检测得分和所述眼袋位置检测信息,对所述待检测图像中的眼袋进行标记,得到眼袋标记信息。
  2. 根据权利要求1所述的方法,其特征在于,在所述通过预设卷积神经网络模型,对所述眼袋ROI区域进行检测之前,还包括:
    对所述待检测图像进行人脸关键点检测,得到眼部关键点;
    基于所述眼部关键点,从所述待检测图像中确定所述眼袋ROI区域。
  3. 根据权利要求2所述的方法,其特征在于,所述基于所述眼部关键点,从所述待检测图像中确定所述眼袋ROI区域,包括:
    基于所述眼部关键点,确定眼部中心点;
    以所述眼部中心点为基准点,从所述待检测图像中,获取预设尺寸和预设形状的区域作为所述眼袋ROI区域。
  4. 根据权利要求3所述的方法,其特征在于,所述眼部中心点处于所述眼袋ROI区域内的上半部分,并处于所述眼袋ROI区域内的宽1/2、高1/4处。
  5. 根据权利要求1所述的方法,其特征在于,还包括:
    通过所述预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
    当所述卧蚕检测分类结果为有时,基于所述卧蚕检测分类结果和所述卧蚕位置检测信息,对所述待检测图像中的卧蚕进行标记,得到卧蚕标记信息。
  6. 根据权利要求1所述的方法,其特征在于,所述眼袋位置检测信息包括眼袋关键点,所述基于所述眼袋检测得分和所述眼袋位置检测信息,对所述待检测图像中的眼袋进行标记,包括:
    基于所述眼袋关键点进行插值拟合,得到眼袋闭合区域;
    基于所述眼袋检测得分和所述眼袋闭合区域,对所述待检测图像中的眼袋进行标记。
  7. 根据权利要求1所述的方法,其特征在于,所述眼袋位置检测信息包括眼袋分割掩膜,所述基于所述眼袋检测得分和所述眼袋位置检测信息,对所述待检测图像中的眼袋进行标记,包括:
    基于所述眼袋检测得分和所述眼袋分割掩膜,对所述待检测图像中的眼袋进行标记。
  8. 根据权利要求1-7任一所述的方法,其特征在于,所述预设卷积神经网络模型于多个样本图像训练得到,所述样本图像携带眼袋标注得分和眼袋位置标注信息。
  9. 根据权利要求1-7任一所述的方法,其特征在于,所述预设卷积神经网络模型包括多个卷积层,其中,除第一个卷积层外的其他卷积层中,包括至少一个深度可分离卷积层。
  10. 一种卷积神经网络模型的训练方法,其特征在于,包括:
    获取多个样本图像,所述样本图像包括眼袋ROI区域,且所述样本图像携带眼袋标注得分和眼袋位置标注信息;
    通过卷积神经网络模型,对所述眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息;
    基于所述样本图像的所述眼袋检测得分、所述眼袋位置检测信息、所述眼袋标注得分和所述眼袋位 置标注信息,确定所述卷积神经网络模型的模型参数。
  11. 根据权利要求10所述的方法,其特征在于,所述样本图像还携带卧蚕标注分类结果和卧蚕位置标注信息,还包括:
    通过所述卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
    所述基于所述样本图像的所述眼袋检测得分、所述眼袋位置检测信息、所述眼袋标注得分和所述眼袋位置标注信息,确定所述卷积神经网络模型的模型参数,包括:
    基于所述样本图像的所述眼袋检测得分、所述眼袋位置检测信息、所述眼袋标注得分、所述眼袋位置标注信息、所述卧蚕标注分类结果、所述卧蚕位置标注信息、所述卧蚕检测分类结果和所述卧蚕位置检测信息,确定所述卷积神经网络模型的模型参数。
  12. 一种眼袋检测装置,其特征在于,包括:
    获取模块,用于获取待检测图像,所述待检测图像包括眼袋ROI区域;
    检测模块,与用于通过预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息;
    标记模块,用于当所述眼袋检测得分处于预设得分范围时,基于所述眼袋检测得分和所述眼袋位置检测信息,对所述待检测图像中的眼袋进行标记,得到眼袋标记信息。
  13. 根据权利要求12所述的装置,其特征在于,所述检测模块还用于通过所述预设卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
    所述标记模块还用于当所述卧蚕检测分类结果为有时,基于所述卧蚕检测分类结果和所述卧蚕位置检测信息,对所述待检测图像中的卧蚕进行标记,得到卧蚕标记信息。
  14. 一种卷积神经网络模型的训练装置,其特征在于,包括:
    获取模块,用于获取多个样本图像,所述样本图像包括眼袋ROI区域,且所述样本图像携带眼袋标注得分和眼袋位置标注信息;
    检测模块,用于通过卷积神经网络模型,对所述眼袋ROI区域进行检测,得到眼袋检测得分和眼袋位置检测信息;
    确定模块,用于基于所述样本图像的所述眼袋检测得分、所述眼袋位置检测信息、所述眼袋标注得分和所述眼袋位置标注信息,确定所述卷积神经网络模型的模型参数。
  15. 根据权利要求14所述的装置,其特征在于,所述样本图像还携带卧蚕标注分类结果和卧蚕位置标注信息;
    所述检测模块还用于通过所述卷积神经网络模型,对所述眼袋ROI区域进行检测,得到卧蚕检测分类结果和卧蚕位置检测信息;
    所述确定模块还用于基于所述样本图像的所述眼袋检测得分、所述眼袋位置检测信息、所述眼袋标注得分、所述眼袋位置标注信息、所述卧蚕标注分类结果、所述卧蚕位置标注信息、所述卧蚕检测分类结果和所述卧蚕位置检测信息,确定所述卷积神经网络模型的模型参数。
  16. 一种终端,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在调用所述计算机程序时执行如权利要求1-9任一项所述的方法或如权利要求10-11任一项所述的方法。
  17. 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的方法或如权利要求10-11任一项所述的方法。
PCT/CN2021/082284 2020-04-14 2021-03-23 眼袋检测方法以及装置 WO2021208677A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21789400.5A EP4131063A4 (en) 2020-04-14 2021-03-23 METHOD AND DEVICE FOR DETECTING BAGS UNDER THE EYES
US17/918,518 US20230162529A1 (en) 2020-04-14 2021-03-23 Eye bag detection method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010288955.7 2020-04-14
CN202010288955.7A CN113536834A (zh) 2020-04-14 2020-04-14 眼袋检测方法以及装置

Publications (1)

Publication Number Publication Date
WO2021208677A1 true WO2021208677A1 (zh) 2021-10-21

Family

ID=78084012

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/082284 WO2021208677A1 (zh) 2020-04-14 2021-03-23 眼袋检测方法以及装置

Country Status (4)

Country Link
US (1) US20230162529A1 (zh)
EP (1) EP4131063A4 (zh)
CN (1) CN113536834A (zh)
WO (1) WO2021208677A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230217568A1 (en) * 2022-01-06 2023-07-06 Comcast Cable Communications, Llc Video Display Environmental Lighting
CN115496954B (zh) * 2022-11-03 2023-05-12 中国医学科学院阜外医院 眼底图像分类模型构建方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032067B2 (en) * 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
CN108898546A (zh) * 2018-06-15 2018-11-27 北京小米移动软件有限公司 人脸图像处理方法、装置及设备、可读存储介质
CN109559300A (zh) * 2018-11-19 2019-04-02 上海商汤智能科技有限公司 图像处理方法、电子设备及计算机可读存储介质
CN110060235A (zh) * 2019-03-27 2019-07-26 天津大学 一种基于深度学习的甲状腺结节超声图像分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032067B2 (en) * 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
CN108898546A (zh) * 2018-06-15 2018-11-27 北京小米移动软件有限公司 人脸图像处理方法、装置及设备、可读存储介质
CN109559300A (zh) * 2018-11-19 2019-04-02 上海商汤智能科技有限公司 图像处理方法、电子设备及计算机可读存储介质
CN110060235A (zh) * 2019-03-27 2019-07-26 天津大学 一种基于深度学习的甲状腺结节超声图像分割方法

Also Published As

Publication number Publication date
US20230162529A1 (en) 2023-05-25
CN113536834A (zh) 2021-10-22
EP4131063A4 (en) 2023-09-06
EP4131063A1 (en) 2023-02-08

Similar Documents

Publication Publication Date Title
WO2020211701A1 (zh) 模型训练方法、情绪识别方法及相关装置和设备
WO2020029306A1 (zh) 一种图像拍摄方法及电子设备
WO2021013132A1 (zh) 输入方法及电子设备
WO2021244457A1 (zh) 一种视频生成方法及相关装置
WO2022127787A1 (zh) 一种图像显示的方法及电子设备
WO2021258814A1 (zh) 视频合成方法、装置、电子设备及存储介质
WO2021078001A1 (zh) 一种图像增强方法及装置
CN113364971A (zh) 图像处理方法和装置
WO2021218540A1 (zh) 天线功率调节方法、终端设备及存储介质
WO2020173379A1 (zh) 一种图片分组方法及设备
WO2020077494A1 (zh) 智能拍照方法、系统及相关装置
WO2021208677A1 (zh) 眼袋检测方法以及装置
WO2022012418A1 (zh) 拍照方法及电子设备
CN114327127A (zh) 滑动丢帧检测的方法和装置
WO2021164300A1 (zh) 数据展示方法、终端设备及存储介质
CN113170037A (zh) 一种拍摄长曝光图像的方法和电子设备
CN114242037A (zh) 一种虚拟人物生成方法及其装置
CN113542580A (zh) 去除眼镜光斑的方法、装置及电子设备
CN112150499A (zh) 图像处理方法及相关装置
WO2022007707A1 (zh) 家居设备控制方法、终端设备及计算机可读存储介质
WO2021057626A1 (zh) 图像处理方法、装置、设备及计算机存储介质
CN114283195B (zh) 生成动态图像的方法、电子设备及可读存储介质
CN113407300B (zh) 应用误杀评估方法及相关设备
US20230401897A1 (en) Method for preventing hand gesture misrecognition and electronic device
CN115437601A (zh) 图像排序方法、电子设备、程序产品及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21789400

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021789400

Country of ref document: EP

Effective date: 20221025

NENP Non-entry into the national phase

Ref country code: DE