KR20230085241A - 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법 - Google Patents

인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법 Download PDF

Info

Publication number
KR20230085241A
KR20230085241A KR1020210172619A KR20210172619A KR20230085241A KR 20230085241 A KR20230085241 A KR 20230085241A KR 1020210172619 A KR1020210172619 A KR 1020210172619A KR 20210172619 A KR20210172619 A KR 20210172619A KR 20230085241 A KR20230085241 A KR 20230085241A
Authority
KR
South Korea
Prior art keywords
learning
image
processing unit
expression parameter
visual expression
Prior art date
Application number
KR1020210172619A
Other languages
English (en)
Inventor
임매순
노현희
안나민
김재헌
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to KR1020210172619A priority Critical patent/KR20230085241A/ko
Priority to US18/075,555 priority patent/US20230177396A1/en
Publication of KR20230085241A publication Critical patent/KR20230085241A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4851Prosthesis assessment or monitoring
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61NELECTROTHERAPY; MAGNETOTHERAPY; RADIATION THERAPY; ULTRASOUND THERAPY
    • A61N1/00Electrotherapy; Circuits therefor
    • A61N1/02Details
    • A61N1/04Electrodes
    • A61N1/05Electrodes for implantation or insertion into the body, e.g. heart electrode
    • A61N1/0526Head electrodes
    • A61N1/0543Retinal electrodes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61NELECTROTHERAPY; MAGNETOTHERAPY; RADIATION THERAPY; ULTRASOUND THERAPY
    • A61N1/00Electrotherapy; Circuits therefor
    • A61N1/18Applying electric currents by contact electrodes
    • A61N1/32Applying electric currents by contact electrodes alternating or intermittent currents
    • A61N1/36Applying electric currents by contact electrodes alternating or intermittent currents for stimulation
    • A61N1/36046Applying electric currents by contact electrodes alternating or intermittent currents for stimulation of the eye
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30041Eye; Retina; Ophthalmic

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Computational Linguistics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Surgery (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Transplantation (AREA)
  • Cardiology (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Physiology (AREA)
  • Fuzzy Systems (AREA)
  • Image Analysis (AREA)

Abstract

인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법에서, 상기 자동화 학습시스템은 통신모듈, 데이터베이스, 이미지 처리부, 학습 처리부 및 저장부를 포함한다. 상기 통신모듈은 이미지를 촬영하며 외부와 통신을 수행한다. 상기 데이터베이스는 상기 통신모듈로부터 전달받은 촬영된 이미지들을 저장한다. 상기 이미지 처리부는 상기 저장된 이미지들 중 임의로 선택된 이미지에 대하여, 저해상도 포스핀 이미지로 변환하여, 테스트 이미지를 다양한 해상도로 생성한다. 상기 학습 처리부는 상기 테스트 이미지에 포함된 중요한 특징(feature)을 추출하여, 추출된 특징을 바탕으로 분류기로 대상을 식별하도록 학습하여 학습 모델을 생성한다. 상기 저장부는 상기 학습된 결과를 바탕으로, 주요 테스트 이미지들을 자동으로 선별하여 저장한다.

Description

인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법{ARTIFICIAL VISION EXPRESSION PARAMETER AUTOMATION LEARNING SYSTEM AND METHOD FOR IMPROVING ARTIFICIAL VISION DEVICE}
본 발명은 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법에 관한 것으로, 더욱 상세하게는 망막 질환을 가지는 환자들이 이식 받을 인공 장치의 임상 결과를, 종래 인간 실험을 대체함으로써 인간에 대한 실험보다 적은 시간과 비용으로 예측할 수 있는 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법에 관한 것이다.
시력 저하를 발생시키는 망막변성질환(retinal degeneration) 및 노인성황반변성질환(age-related macular degeneration)은 치료제가 없으며, 현재까지 알려진 바로는 인공망막 장치만이 시력을 향상할 수 있는 유일한 방법으로 알려져 있다. 과거에는 인공망막 장치를 이식한 사람들 대상으로 한 실험(Erickson-Davis et al., 2021, PLOS ONE) 혹은 인공망막 장치의 영상처리 단계에서 필요한 저해상도 이미지 프로세싱을 하는 방법을 비교하여 정상 시력을 가진 사람들 대상으로 한 인지 능력 실험(Chang et al., 2012, J. Neural Eng.)을 하는 것이 전부였다. 인공망막 장치 외에도 Orion 임플란트처럼 피질에 전극을 삽입하여 인공 시각을 구현하는 장치 또한 이식받은 사람들을 대상으로 성능을 측정할 수 있다.
하지만 이처럼 인공시각 장치의 성능을 측정 혹은 예측하기 위해 환자 혹은 정상인 대상으로 매번 정신물리학 실험(psychophysical test)을 하게 된다면, 시간과 비용이 많이 든다는 단점이 있다. 이 경우, 만약 비용을 낮추기 위해 적은 명 수의 피실험자를 모집하여 많은 양의 테스트 데이터에 대해 검사를 진행하게 되면 집중력을 잃을 뿐만 아니라 피실험자들이 기억에 의존하여 문제를 풀 수 있게 되어 본래의 연구 목적인 인지 테스트의 의미를 상실하게 된다. 또한, 한 사람 당 검사할 수 있는 데이터 양에 한계가 있기 때문에, 결국에는 여러 명 수의 피실험자를 모집하게 되어 비용이 증가하여 악순환이 반복된다. 이처럼 인공시각 장치의 성능을 예측하기 위해 매번 사람 실험을 하게 된다면 IRB(기관생명윤리위원회) 승인을 받고 정확하고 수렴하는 결과값을 얻어내기 위해 피실험자들을 오랜 기간 동안 많이 모집해야 하는 시간 및 비용적인 한계가 있다.
또한, 이러한 시간 및 비용적인 한계 외에도 인간 실험을 하게 되면 사람마다 실험에 익숙해지는 정도가 다르다는 점, 사람의 상태(condition)에 따라 인지 테스트를 임할 수 있는 자세가 달라져 인지 능력에 차이를 보인다는 점, 화면에 주어지는 이미지의 크기 및 사람과의 거리를 고정시키고 테스트를 진행해야 한다는 점 등의 어려움이 존재한다.
나아가, 최근 코로나 사태와 같은 전세계적으로 퍼진 감염병 사태가 장기간동안 지속될 때, 거리두기와 같은 국가별 집합 제한 조치 등으로 인해 피실험자들을 모집하기 힘든 한계도 있다.
대한민국 공개특허 제10-2019-0097146호
이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 망막 질환을 가지는 환자들이 이식 받을 인공 장치의 임상 결과를, 종래 인간 실험을 대체함으로써 인간에 대한 실험보다 적은 시간과 비용으로 예측할 수 있는 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법을 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 의한 자동화 학습시스템은 통신모듈, 데이터베이스, 이미지 처리부, 학습 처리부 및 저장부를 포함한다. 상기 통신모듈은 인간 얼굴 이미지를 촬영하며 외부와 통신을 수행한다. 상기 데이터베이스는 상기 통신모듈로부터 전달받은 촬영된 이미지들을 저장한다. 상기 이미지 처리부는 상기 저장된 이미지들 중 임의로 선택된 이미지에 대하여, 저해상도 포스핀 이미지로 변환하여, 테스트 이미지를 다양한 해상도로 생성한다. 상기 학습 처리부는 상기 테스트 이미지에 포함된 중요한 특징(feature)을 추출하여, 추출된 특징을 바탕으로 분류기로 얼굴을 식별하도록 학습하여 학습 모델을 생성한다. 상기 저장부는 상기 학습된 결과를 바탕으로, 주요 테스트 이미지들을 자동으로 선별하여 저장한다.
일 실시예에서, 상대적으로 적은 양의 이미지로 실제 사람에 대한 직접 실험을 수행하는 실험모듈을 더 포함할 수 있다.
일 실시예에서, 상기 학습 처리부는, 상기 실험모듈에서의 직접 실험 결과를 바탕으로, 추가로 학습하여 상기 얼굴 식별에 대한 상기 학습 모델을 개선하고, 상기 저장부는, 상기 개선된 학습 모델에 따른 학습 결과를 바탕으로, 주요 테스트 이미지들을 자동으로 선별하여 저장할 수 있다.
일 실시예에서, 상기 학습 처리부는, 상기 학습 처리부 및 상기 실험모듈에서 처리가 어려운 얼굴 class 데이터를 비교하여, 상기 실험모듈에서의 실험 결과를 바탕으로 상기 학습 모델을 개선할 수 있다.
일 실시예에서, 상기 학습 처리부는, 상기 학습 모델을 개선하는 경우, 데이터 증강을 통해 특정 얼굴 class에 대하여만 추가로 학습하여 상기 학습 모델의 모수를 갱신할 수 있다.
일 실시예에서, 상기 학습 처리부는, 상기 학습 처리부 및 상기 실험모듈의 결과에서의 상관계수를 연산하고, 상기 연산된 상관계수가 높다고 판단되면 추가로 학습하여 상기 실험모듈에서 실험되지 않은 파라미터에 대하여 예측하여 상기 학습 모델을 개선할 수 있다.
일 실시예에서, 상기 통신모듈은, 인공시각 장치에서의 이미지 센서 또는 카메라 장치를 포함하여, 상기 인간 얼굴 이미지를 촬영할 수 있다.
일 실시예에서, 상기 이미지 처리부는, 상기 인간 얼굴 이미지에서 인간의 얼굴 윤곽을 중심으로 정사각형 모양으로 절단하고, 배경을 제거하는 배경 제거부, 상기 배경이 제거된 이미지에서 불균형하게 분포된 이미지의 픽셀값을 고르게 분포시키는 히스토그램 균일화부, 상기 픽셀값이 고르게 분포된 이미지에 대하여 그레이 스케일링(gray scaling)을 수행하는 그레이 스케일링부, 및 상기 그레이 스케일링된 이미지에 대하여 최근접 보간(nearest interpolation)을 수행하는 픽셀화부를 포함할 수 있다.
일 실시예에서, 상기 학습 처리부는, 본 학습을 수행하기 전에 매 학습마다 결과를 제공하여 테스트를 수행하는 트레이닝부를 포함하며, 상기 트레이닝부를 통해, 상기 학습 처리부의 인간 얼굴에 대한 인지능력을 실제 사람의 인지능력과 유사한 수준으로 향상시킬 수 있다.
일 실시예에서, 상기 실험 모듈은, 실제 사람에게, 상기 저해상도 포스핀 이미지와 다음 화면인 고해상도 선택지에서 동일한 이미지를 선택하도록 유도하며, 실제 사람이 상기 선택된 결과에 대한 확인이 있는가의 여부에 대한 정보도 동시에 획득할 수 있다.
일 실시예에서, 상기 실험 모듈에서는, 기 설정된 해상도들 중, 상기 학습 처리부에서의 해상도별 학습 결과와 중복되는 해상도들에 대하여 실제 사람에게 실험을 수행할 수 있다.
일 실시예에서, 상기 학습 처리부는, 레이어(layer) 및 최대 필터 수를 제어하며 저해상도에서의 최적의 학습 모델을 설계할 수 있다.
일 실시예에서, 상기 학습 모델은, CNN(convolutional neural network) 딥러닝 모델일 수 있다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 의한 자동화 학습시스템은 저장된 이미지들에 대하여 인공 시각 표현 파라미터 자동화 학습을 수행하며, 이미지 처리부, 학습 처리부 및 저장부를 포함한다. 상기 이미지 처리부는 상기 저장된 이미지들 중 임의로 선택된 이미지에 대하여, 저해상도 포스핀 이미지로 변환하여, 테스트 이미지를 다양한 해상도로 생성한다. 상기 학습 처리부는 상기 테스트 이미지에 포함된 중요한 특징(feature)을 추출하여, 추출된 특징을 바탕으로 분류기로 얼굴을 식별하도록 학습하여 학습 모델을 생성한다. 상기 저장부는 상기 학습된 결과를 바탕으로, 주요 테스트 이미지들을 자동으로 선별하여 저장한다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 의한 자동화 학습방법은 상기 자동화 학습시스템을 이용하여 해상도 파라미터 자동화 학습을 수행한다.
본 발명의 실시예들에 의하면, 종래 인간 실험만을 수행하여 결과를 도출하던 것을 대신하여 학습을 기반으로 종래의 인간 실험 결과와 비슷한 경향을 보이는 결과를 신속하게 도출해낼 수 있다. 즉, 본 실시예들을 통해 인공시각 장치의 성능 향상을 위해 영상처리단계에서 결정해야 할 중요한 파라미터-픽셀 수(한 장치의 총 전극 개수에 해당)와 그레이스케일 수(인가되는 전류의 크기; 밝기 정도)의 최적의 값을 도출할 수 있다.
또한, 본 실시예들에서는 사람 얼굴의 인지 능력을 파라미터별로 측정하기 위해 한국인 안면 이미지를 이용하였으나, 다른 종류의 데이터(예를 들어, 사물, 동물, 자연 배경)로 인지 테스트뿐만 아니라 확장하여 identification, detection task 등도 수행할 수 있다.
또한, 모델의 성능을 검증하기 위하여 기계 시스템으로 테스트한 다량의 데이터 중 primary test 데이터만 자동적으로 선별하여 정상 시력을 가진 사람들을 대상으로 테스트 할 수 있는데, 이는 인간 인지 실력 결과와 높은 상관관계를 갖도록 만든 학습 기반의 모델을 새로 개발할 때마다 비용이 적게 드는 사람 실험을 추가적으로 할 수 있게 하여 모델 검증을 효율적으로 할 수 있게 한다.
도 1a는 본 발명의 일 실시예에 의한 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템을 도시한 블록도이고, 도 1b는 도 1a의 이미지 처리부를 도시한 블록도이다.
도 2는 도 1의 이미지 처리부에서 저해상도 포스핀 이미지를 생성하는 단계를 도시한 순서도이다.
도 3은 도 1의 이미지 처리부에서 저해상도 포스핀 이미지를 생성하는 샘플 파라미터별 순서도이다.
도 4는 도 1의 학습 처리부에서의 학습과, 도 1의 실험모듈에서의 인간에 대한 실험 상태를 도시한 구성도이다.
도 5는 도 1의 실험모듈에서 인간 인지 실험을 수행하는 상태를 모식화한 구성도이다.
도 6은 도 1의 학습 처리부에서의 학습과, 도 1의 실험모듈에서의 인간에 대한 실험 상태의 공통점과 차이점을 도시한 모식도이다.
도 7은 도 1의 학습 처리부에서의 각 학습 모델별, 고해상도 정확도의 결과를 도시한 그래프이다.
도 8a 및 도 8b는 도 1의 학습 처리부에서의 각 학습 모델에 대하여, 광유전학 자극이 인가된 경우의 파라미터별 정확도의 결과를 도시한 그래프들이다.
도 9a 및 도 9b는 도 1의 학습 처리부에서의 각 학습 모델에 대하여, 전기 자극이 인가된 경우의 파라미터별 정확도의 결과를 도시한 그래프들이다.
도 10은 도 1의 실험모듈에서 수행된 각 세트에 대하여, 광유전학 자극이 인가된 경우의 파라미터별 정확도의 결과를 도시한 이미지이다.
도 11a 내지 도 11f는 도 1의 실험모듈에서 수행된 각 클래스 수에 대하여, 광유전학 자극이 인가된 경우의 파라미터별 정확도 및 관계에 대한 결과를 도시한 이미지들이다.
도 12a 및 도 12b는 도 1의 실험모듈에서 수행된 각 모델별, 각 세트별 및 각 클래스 수별 상관계수를 나타낸 이미지들이다.
도 13은 도 1의 인공 시각 표현 파라미터 자동화 학습시스템에서, 픽셀 수별로 해상도가 증가함에도 특정 얼굴 클래스는 증가 효과가 미미한 것을 나타내는 결과 이미지이다.
도 14a 및 도 14b는 도 1의 인공 시각 표현 파라미터 자동화 학습시스템에서, 같은 클래스 수가 많을 때(도 14a) 및 적을 때(도 14b)의 정확도 비교 결과, 클래스 수가 많을 때가 각 픽셀 해상도에 대하여 노이즈가 높은 것을 나타내는 이미지들이다.
도 15a 내지 도 15d는 도 1의 인공 시각 표현 파라미터 자동화 학습시스템에서, 높은 정확도를 가지는 샘플 모델별로 16 클래스 대비 4 클래스의 정확도가 상관계수가 높다는 결과를 나타내며, 각 인간별로도 픽셀별 정확도를 일차함수로 피팅(fitting)할 수 있을 정도로 클래스 수에 따른 피어슨 상관계수가 높다는 결과를 나타낸 그래프들이다.
도 16a는 도 1의 인공 시각 표현 파라미터 자동화 학습시스템에서, 샘플 모델이 4 클래스로 분류하였을 때 조합(combination) 당 정확도 및 F1-스코어(score)를 도시한 그래프이고, 도 16b는 샘플 모델이 2 클래스로 분류하였을 때 조합(combination) 당 정확도 및 F1-스코어(score)를 도시한 그래프이다.
도 17a 및 도 17b는 도 1의 인공 시각 표현 파라미터 자동화 학습시스템에서, 평균 정확도가 가장 높은 모델의 해상도별 인지 성능을 나타내는 그래프들이다.
도 18은 도 17a 및 도 17b의 부분집합인 인간실험에 사용될 파라미터를 나타내는 그래프이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 실시예들을 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다.
상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함하다" 또는 "이루어진다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다.
도 1a는 본 발명의 일 실시예에 의한 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템을 도시한 블록도이고, 도 1b는 도 1a의 이미지 처리부를 도시한 블록도이다.
우선, 도 1a를 참조하면, 본 실시예에 의한 상기 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템(이하, 자동화 학습시스템이라 함)(100)은 통신모듈(110), 데이터베이스(120), 이미지 처리부(130), 학습 처리부(140), 저장부(150) 및 실험모듈(160)을 포함한다.
상기 통신모듈(110)은 인간 얼굴 이미지를 촬영하여 외부와 통신을 수행한다. 즉, 상기 통신모듈(110)은 인공시각 장치에서의 이미지 센서 또는 카메라 장치를 포함하여, 상기 인간 얼굴 이미지를 촬영하고, 이렇게 촬영된 이미지를 외부와 통신을 수행하여 전송한다.
이 경우, 상기 촬영되는 인간 얼굴 이미지는, 실제 사람이 외부 세계를 시각적으로 접하였을 때 볼 수 있는 것으로, 본 실시예에서는 인간 얼굴 이미지를 그 대상으로 설명하나, 이에 제한되지는 않으며, 물체, 동물, 풍경 등 다양한 이미지를 대상으로 상기 학습 시스템(100)이 구동될 수 있다.
상기 데이터베이스(120)는 상기 통신모듈(110)로부터 전달받은 촬영된 이미지들을 저장한다.
본 실시예의 경우, 사람이 시력 회복을 하였을 때 여러가지 시각적인 자극들 중 가장 보고 싶어 하는 것이 사랑하는 사람들 얼굴(가족 얼굴)이라는 사실과 사회생활을 하면서 가장 많이 접하는 것이 사람 얼굴(Turk et al., 1991, J. Cog. Neurosci.)이라는 점을 고려할 때, 인간 얼굴 이미지를 저장 대상으로 하였다.
도 2는 도 1의 이미지 처리부에서 저해상도 포스핀 이미지를 생성하는 단계를 도시한 순서도이다.
도 1a, 도 1b 및 도 2를 참조하면, 상기 이미지 처리부(130)는 상기 데이터베이스(120)에 저장된 이미지들 중 임의로 선택된 이미지에 대하여, 저해상도 포스핀 이미지로 변환하여, 테스트 이미지를 다양한 해상도로 생성한다.
즉, 상기 이미지 처리부(130)는 인공시각 장치 중 영상 처리 과정을 수행하는 프로세서에 해당되는 것으로, 일반적인 고해상도 이미지(예를 들어, 128PIX_255RGB)를 저해상도로 낮추는 이미지 처리를 수행한다.
구체적으로, 상기 이미지 처리부(130)는 배경 제거부(131), 히스토그램 균일화부(132), 그레이 스케일링부(133) 및 픽셀화부(134)를 포함한다.
즉, 도 2에 도시된 바와 같이, 상기 배경 제거부(131)는 상기 인간 얼굴 이미지에서 인간의 얼굴 윤곽을 중심으로 정사각형 모양으로 절단(crop)하고, 배경을 제거한다.
이와 같이, 인간 얼굴 이미지에서 얼굴을 제외한 배경을 검은색으로 처리하는 것은 인간 얼굴 인식에 초점을 온전히 하고, 이에 방해되는 노이즈인 배경을 최소화하기 위함이다. 이와 달리, 인간 얼굴 인식 목적이 아닌 실시예에 따라서는 상기 배경을 제거하는 단계를 생략할 수도 있다.
상기 히스토그램 균일화부(132)는 상기 배경이 제거된 이미지에서 불균형하게 분포된 이미지의 픽셀값을 고르게 분포시킨다. 이를 통해, 후술되는 그레이 스케일링 이후에도 각 모수별(예를 들어, 2GS)로 픽셀 값의 분포가 균일하게 도출되도록 할 수 있다.
상기 그레이 스케일링부(133)는 상기 픽셀값이 고르게 분포된 이미지에 대하여 그레이 스케일링(gray scaling)을 수행한다. 예를 들어, 상기 그레이 스케일링을 수행하는 경우, 모수가 2GS일 때, 0부터 128미만의 값은 0(검은색)으로 설정하고, 128부터 255이하의 값은 255(흰색)로 설정할 수 있다.
이와 달리, 상기 모수가 2GS가 아닌 다른 값(예를 들어, 4GS, 6GS, 8GS)인 경우라면, n등분을 하여 양 끝 등분에 해당되는 픽셀들은 각각 0, 255로 설정하고, 나머지 등분에 해당되는 픽셀들은 등분의 두 끝점의 중간 지점에 해당되는 픽셀로 설정하여 상기 그레이 스케일링을 수행할 수 있다.
상기 픽셀화부(134)는 상기 그레이 스케일링된 이미지에 대하여 최근접 보간(nearest interpolation)을 수행한다. 즉, 상기 픽셀화부(134)는 상기 그레이 스케일링된 이미지의 그레이 스케일링된 값이 유지되도록 최근접 보간을 수행한다.
이상과 같은 상기 이미지 처리부(130)의 이미지 처리는, 광유전학 자극을 수행한 경우 인공시각 장치로 시각 장애인(blind)에게 보일 저해상도 이미지를 프로세싱하는 것을 의미한다. 물론, 상기 광유전학 자극 외에, 전기 자극을 수행한 경우에도 실질적으로 동일하게 이미지 처리를 수행할 수 있다.
도 3은 도 1의 이미지 처리부에서 저해상도 포스핀 이미지를 생성하는 샘플 파라미터별 순서도이다. 이 경우, 상기 샘플 파라미터는 예를 들어, 16PIX_2GS, 32PIX_4GS 및 64PIX_8GS이다.
또한, 도 3의 맨 마지막 단계에서의 크기 변경(resize) 전에, 전기 자극 포스핀 이미지의 사이즈는 한 개의 포스핀 사이즈를 가지고 있는 픽셀 파라미터(예를 들어, 16PIX, 24PIX, 32PIX, 64PIX, 128PIX) 중 가장 큰 값(예를 들어, 128PIX)에서 해당 픽셀 파라미터를 나누고 5를 곱한 값을 의미한다. 이는 여러 픽셀 파라미터에 대하여 만들어진 저해상도 이미지들의 총 크기(dimension)를 일정하게 하기 위함이다. 즉, 예를 들어 16PIX, 64PIX에 대해서도 똑같은 총 사이즈를 갖도록 한다는 의미이다.
또한, 각 커널마다 커널 한 쪽 면 사이즈의 1/4에 해당하는 값을 표준편차로 가지는 정규분포를 따르도록 한다. 이는 전기 자극을 주었을 시 광유전학과는 다르게 자극이 끝까지 균일하게 퍼지지 않음을 가정하고 이미지를 프로세스 한 것이고(Chen et al., 2009, Vision Research), 임상적으로도 인공망막 장치를 이식한 환자들이 보이는 것을 설명한 것과 유사하다(Erickson-Davis et al., 2021, PLOS ONE).
다시 도 1a를 참조하면, 상기 학습 처리부(140)는 상기 테스트 이미지에 포함된 중요한 특징(feature)을 추출하여, 추출된 특징을 바탕으로 분류기로 얼굴을 식별하도록 학습하여 학습 모델을 생성한다.
즉, 상기 학습 처리부(140)는 인공시각 장치를 이식받은 사람들이 장치를 통해 보이는 영상 및 이미지를, 분류(classification), 식별(identification) 또는 감지(detection)하는 역할을 수행한다.
관련하여, 도 4는 도 1의 학습 처리부에서의 학습과, 도 1의 실험모듈에서의 인간에 대한 실험 상태를 도시한 구성도이다.
도 4를 참조하면, 상기 학습 처리부(140)에서의 학습이 과거 연구에서 흔하게 한 사람을 대상으로 한 실험 방법과 최대한 일치시키도록 상기 학습 처리부(140)를 구성 및 구현하였다.
즉, 상기 학습 처리부(140)는 트레이닝부(미도시)를 포함하는데, 상기 트레이닝부는 본 학습을 수행하기 전에 매 학습마다 결과를 제공하여 테스트를 수행한다. 이러한 상기 트레이닝부를 통해, 본 테스트에서 상기 학습 처리부(140)의 학습 능력을 향상시키게 된다.
일반적으로, 학습을 수행하는 상기 학습 처리부(140)는 연산 능력이 사람의 능력을 훨씬 뛰어넘기 때문에 소위 프리-트레이닝부는 생략되며, 바로 트레이닝부를 통해 테스트를 수행한다.
다만, 사람은 태어날 때부터 대부분의 사람들이 인간 얼굴을 매일 접하면서 생활하기 때문에 안면 인식 장애를 겪고 있지 않는 이상, 얼굴을 인지하는 능력을 기본적으로 갖추고 있다. 따라서, 이러한 인지 능력을 사람과 비슷한 수준으로 만들기 위하여 상기 학습 처리부(140)는 상기 트레이닝부를 포함하여 고해상도 데이터로 테스트를 수행한 후 학습을 시킨다.
이러한 테스트가 수행된 후 상기 학습 처리부(140)는 상기 테스트 이미지에 포함된 중요한 특징(feature)을 추출하여, 추출된 특징을 바탕으로 분류기로 얼굴을 식별하도록 학습하여 학습 모델을 생성한다. 이 경우 상기 생성되는 학습 모델이란, 최종적으로 결정된 모수를 가진 학습 모델로 상기 이미지 처리부(130)에서 생성된 저해상도 이미지들을 분류하는 모델을 의미한다.
상기 저장부(150)는 상기 학습된 결과를 바탕으로, 주요 테스트 이미지들을 자동으로 선별하여 저장한다.
한편, 상기 실험모듈(160)은 사람에 대한 직접 실험을 수행하는 모듈로서, 상대적으로 적은 양의 이미지만을 이용하여 상기 실험을 수행하도록 한다.
즉, 상기 실험모듈(160)에서는, 기 설정된 해상도들 중, 상기 학습 처리부에서의 해상도별 학습 결과와 중복되는 해상도들에 대하여 실제 사람에게 실험을 수행한다.
도 5는 도 1의 실험모듈에서 인간 인지 실험을 수행하는 상태를 모식화한 구성도이다.
즉, 도 5를 참조하면, 종래 단순히 저해상도 테스트 이미지에 대하여 다음 화면인 고해상도 4지 선택지에서 똑같은 사람 얼굴을 선택해야 하는 것과 달리, 본 실시예의 경우, 추가로 자신감 척도를 0과 1로 설정하여, 피실험자가 선택한 답에 대하여 확신이 있으면 1, 확신이 없으면 0을 선택하는 화면도 포함한다.
이는 대중적으로 많이 사용하는 학습은 마지막 단계(딥러닝에서는 마지막 층(layer))에서 항상 (답 선택지 이외에도) 모든 선택지에 대한 값을 매기는 것을 사람 실험에서도 유사하게 적용한 것이다. 즉, 피실험자들이 단순히 처음에 선택한 선택지를 넘어서 확신이 없으면 도 4에서와 같이 선택한 사람 1명을 제외한 나머지 3개의 사람 얼굴 선택지 중에서 어떤 선택지랑 헷갈렸는지 선택하도록 하는 것이다.
이상과 같이, 본 실시예에서의 상기 실험 모듈(160)은 실제 사람에게, 상기 저해상도 포스핀 이미지와 다음 화면인 고해상도 선택지에서 동일한 이미지를 선택하도록 유도하며, 실제 사람이 상기 선택된 결과에 대한 확인이 있는가의 여부에 대한 정보도 동시에 획득함으로써, 후술되는 상기 학습 처리부(140)의 학습 모델의 개선 또는 갱신의 효과를 향상시킬 수 있다.
이하에서는, 상기 학습 처리부(140)를 통한 실제 학습의 결과와, 상기 실험모듈(180)을 통한 실험 상태 등에 대하여 도 6 내지 도 18을 통해 상세히 예시하여 설명한다.
우선, 이상과 같은 상기 학습 처리부(140)에서의 학습과, 상기 실험모듈(160)에서의 실험 상태에 대하여 비교 설명하면 하기와 같다.
도 6은 도 1의 학습 처리부에서의 학습과, 도 1의 실험모듈에서의 인간에 대한 실험 상태의 공통점과 차이점을 도시한 모식도이다.
즉, 도 6을 참조하면, 상기 학습 처리부(140)에서는 학습의 결과를 검증하기 위하여 인간 실험의 수행시 테스트할 해상도 모수들을 자동으로 추출하기 위하여 여러 가지 경우의 수를 나열할 수 있다.
먼저 상기 학습 처리부(140)에서는 가능한 m개의 모델(예를 들어, PCA+LR, CNN+LR)을 만든다. 이는 학습 모델 중 가장 높은 값 혹은 평균값과 인간 실험에서의 피실험자들의 평균값과 비교를 하기 위함이다. 다음으로 가지고 있는 데이터를 s 세트로 나눈다. 본 실시예에서는 각 세트마다 16명의 사람 얼굴이 있고, 어떤 세트는 성별 및 연령대를 랜덤으로 설정하고, 어떤 세트는 성별을 고정시키고 연령대를 랜덤으로 설정하고, 또 다른 세트는 성별과 연령대를 고정시켜 총 14개의 세트(Set1: random, set 2: female, set 3: male, set 4: female 20-30, set 5: female 40-50, set 6: male 20-30, set 7: male 40-50 X 2번)를 만들었다. 이는 사람들은 성별 및 연령대에 따라 성능이 달라질 수 있다는 점을 고려한 것이다. 예를 들어 선택지가 여성 및 남성, 20대-40대로 구성되어 있을 때보다, 여성 30대의 사람들로만 구성되어 있을 때가 더 어려운 선택지가 될 수 있다는 것이다. 마지막으로 한 세트 n명 기준으로 n보다 작은 값의 k명의 데이터를 뽑아내어 클래스 수를 바꾸어 가며 모델 성능을 측정한다. 본 실시예에서는 k를 2와 4로 설정하였으며, 이는 사람 실험 할 때 주로 4지 선택지를 많이 해왔기 때문이고, 2는 가장 기본적인 binary task를 구현한 것이다.
도 7은 도 1의 학습 처리부에서의 각 학습 모델별, 고해상도 정확도의 결과를 도시한 그래프이다.
즉, 도 7은, 도 6에서 제안된 각각의 모델에 대하여 고해상도일 때는 일정 수준 이상(예를 들어, 80% 이상의 정확도)의 인지 성능이 나오는 것을 체크하기 위해서 테스트 한 결과를 도시한 것이다.
도 8a 및 도 8b는 도 1의 학습 처리부에서의 각 학습 모델에 대하여, 광유전학 자극이 인가된 경우의 파라미터별 정확도의 결과를 도시한 그래프들이다. 도 9a 및 도 9b는 도 1의 학습 처리부에서의 각 학습 모델에 대하여, 전기자극이 인가된 경우의 파라미터별 정확도의 결과를 도시한 그래프들이다.
도 8a 내지 도 9b는, 각 모델마다 고해상도 학습을 통해 학습(train)된 모델로 광유전학 자극, 전기 자극을 인가했을 때 생성되는 이미지에 대하여 테스트한 결과이다. 해상도가 좋아지면(pixel 수, gray-scale 수) 과거 연구 Ho et al., 2019, J. Vision에서처럼 사람 얼굴 인지 능력이 높아지는 경향을 확인할 수 있다. 또한, 그레이 스케일(gray-scale) 수보다 픽셀(pixel) 수가 인지 실력에 더 큰 영향을 주는 것을 확인할 수 있다. 이는 전극의 세기를 구별되도록 조절할 수 있는 값이 늘어난다고 해도 사람 얼굴 인지 실력의 향상에 미미한 영향을 미친다는 것을 의미한다.
반면 공간 정보를 담고 있는 픽셀(pixel) 수가 늘어날수록 도 8a 및 도 8b에서와 같이 모든 모델에 대하여 확연히 증가하고 대부분의 모델은 64PIX일 때와 128PIX일 때 별다른 차이가 없다. 즉, 포화상태에 다다르는 것을 확인할 수 있다.
특이한 점은, AlexNet과 VGG은 고해상도일 때 가장 높은 성능을 지니지만, 저해상도 이미지를 테스트할 때에는 다른 모델보다 성능이 떨어진 결과를 보인다. 이는 어떤 모델은 분포가 달라져도(예를 들어, 고해상도에서 저해상도로) 견고하게 유지되지만, AlexNet과 VGG와 같이 층이 좀 더 많아지고, 필터들 수 또한 많아지면(예를 들어, 높은 차원으로 project하게 되면), 픽셀 및 그레이 스케일 수가 학습할 때 사용한 트레이닝 이미지보다 확연히 줄어든 저해상도 이미지로 테스트 할 때 정보 처리를 잘하지 못한다는 점을 확인할 수 있다.
예를 들어, 도 7 내지 도 9b에서의 CNN_SVC 및 CNN_LR의 총 레이어(layer) 수는 6이고, 컨벌루젼(convolution) 블록의 최대 필터 개수는 256인 반면, CNN_AlexNet2_SVC 및 CNN_AlexNet2의 총 레이어(layer) 수는 8, 컨벌루젼(convolution) 블록의 최대 필터 수는 384, CNN_VGGNet2_SVC 및 CNN_AlexNet2의 총 레이어(layer) 수는 11, 컨벌루젼(convolution) 블록의 최대 필터 수는 512이다. 이처럼 레이어(layer) 및 최대 필터 수를 조절해가며 저해상도에서도 높은 성능을 지니는 최적의 CNN, 즉 학습 모델을 설계할 수 있다.
즉, 상기 학습 처리부(140)는 레이어(layer) 및 최대 필터 수를 제어하며 저해상도에서의 최적의 학습 모델을 설계할 수 있다.
또한, 도 9a 및 도 9b에서의 전기 자극보다 도 8a 및 도 8b에서의 광유전학 자극의 결과가 전체적으로 높게 나왔다. 이는 전기자극 포스핀 이미지는 커널마다 가우시안 분포로 되어있는 반면, 광유전학 포스핀 이미지는 픽셀마다 고른 값으로 되어 있기 때문에 전자 이미지에서의 정보가 훨씬 적게 있기 때문이다.
또한, CNN(convolutional neural network) 딥러닝 모델 보다 PCA(principal component analysis) 머신러닝 모델이 덜 견고한 결과를 보여준다. 즉, 전자는 광유전학 자극, 전기 자극 둘 다 비슷한 결과를 보여주지만, 후자는 전기자극의 성능이 광유전학 자극 성능에 못 미치는 결과를 보여준다. 이는 전자는 PCA에서의 원리가 데이터의 공분산행렬에 대한 고유치 및 고유벡터를 통해 데이터를 저차원으로 전사한다는 점에 있어서 광유전학 이미지, 전기자극 이미지 둘 다 저차원으로 전사되었을 때, 비슷한 분포로 나왔을 가능성이 크기 때문에 비슷한 결과값으로 나온 것이다. 반면, CNN은 각각의 이미지에 대하여 컨벌루젼(convolution) 연산을 수행하기 때문에 PCA와는 다르게 각 가우시간 분포로 이루어진 커널이 이미지에 있으면 취약하다는 것을 알 수 있다.
도 10은 도 1의 실험모듈에서 수행된 각 세트에 대하여, 광유전학 자극이 인가된 경우의 파라미터별 정확도의 결과를 도시한 이미지이다. 도 11a 내지 도 11f는 도 1의 실험모듈에서 수행된 각 클래스 수에 대하여, 광유전학 자극이 인가된 경우의 파라미터별 정확도 및 관계에 대한 결과를 도시한 이미지들이다. 도 12a 및 도 12b는 도 1의 실험모듈에서 수행된 각 모델별, 각 세트별 및 각 클래스 수별 상관계수를 나타낸 이미지들이다.
이 경우, 도 12a의 오른쪽은 도 9a 및 도 9b에서의 좌측 부분의 Pearson r을 정리하여 도시한 것이며, 도 12b의 오른쪽은 도 9a 및 도 9b의 우측 부분의 Pearson r을 정리하여 도시한 것이다.
우선, 도 12a 및 도 12b를 참조하면, 각 모델별로 상관계수를 나타내었는데, 대체적으로 모델끼리 어느 정도 상관계수가 존재함을 볼 수 있다(최소 0.3, 최대 0.9). 또한, 똑 같은 feature extractor(예를 들어, PCA)에 대해서 SVC를 사용할 때와 LR을 사용할 때 모든 이미지에 대하여 거의 똑같은 성능을 보였다(예를 들어, PCASVC, PCALR: 0.99). 이 외에도 PCA와 PIXEL끼리, CNN들(예를 들어, CNN_LR, CNN_AlexNet2, CNN_VGGNet2)끼리 이미지별 상관계수가 높게 나왔음을 확인할 수 있다(최소: 0.59, 최대 0.99).
한편, 도 10은 세트별 파라미터별(픽셀 수) 정확도를 나타낸 것으로, 도 10을 통해 확인되는 바와 같이, 특정 세트가 다른 세트보다 확연히 분류를 잘하는 경우는 발견되지 않았다.
또한, 상관계수를 구했을 때에도 도 12a에서와 같이 해상도파라미터(PIX, GS)에 대해서도 세트별로 높은 상관계수를(중앙값: 0.99)보이고, 이미지별로도 해상도 파라미터별보다는 노이즈가 많긴 하지만 그럼에도 높은 상관계수(중앙값: 0.9)를 보임을 확인할 수 있다.
한편, 도 11a 내지 도 11f는 클래스 수별 파라미터별(픽셀 수 및 그레이스케일 수) 정확도 및 관계에 대한 결과를 도시한 것이다.
즉, 도 11a 내지 도 11f를 참조하면, 같은 모델 및 한 세트(set)에 대해서 16 클래스를 분류할 때보다 4 클래스 및 2 클래스를 분류할 때 성능이 당연하게 높게 나온 것을 확인할 수 있다.
다만, 각 해상도별(도 11a, 도 11c 및 도 11e) 및 해상도와 파라미터별(도 11b, 도 11d 및 도 11f) 4 클래스일 때와 2 클래스일 때, 16 클래스일 때와 2 클래스일 때, 16 클래스일 때와 4 클래스일 때 전부 상관계수가 높다는 것을 확인할 수 있다. 여기서 파라미터는 한 사람 얼굴 당 데이터세트 상에서 가지고 있는 얼굴 표정, 각도, 밝기, 액세서리 유무 등을 의미한다.
도 13은 도 1의 인공 시각 표현 파라미터 자동화 학습시스템에서, 픽셀 수별로 해상도가 증가함에도 특정 얼굴 클래스는 증가 효과가 미미한 것을 나타내는 결과 이미지이다.
도 13을 참조하면, 모델의 전체 평균이 낮음에 기여하는 것은 해상도(PIX, GS)가 낮은 것 때문만이 아니라 특정 클래스(도 13에서는 위에서 9번째 푸른색 bar)가 해상도가 낮든, 높든 간에 정확도(hit rate)가 낮게 나온다는 것을 확인할 수 있다.
즉, 전체적으로 모델의 성능을 높이려면 비교적 고해상도(예를 들어, 128PIX)에서 어려운 클래스를 찾고, 해당 클래스에 대해서 데이터 증강을 하여 다시 학습하는 등의 방법을 선택하여 모델이 어려워하는 클래스의 정확도를 높일 수 있는 방법을 적용하는 것이 필요하다.
도 14a 및 도 14b는 도 1의 인공 시각 표현 파라미터 자동화 학습시스템에서, 같은 클래스 수가 많을 때(도 14a) 및 적을 때(도 14b)의 정확도 비교 결과, 클래스 수가 많을 때가 각 픽셀 해상도에 대하여 노이즈가 높은 것을 나타내는 이미지들이다.
도 14a 및 도 14b를 참조하면, 같은 클래스 수가 많을 때(16일 때)와 적을 때(4일 때)의 정확도를 비교했을 때, 전자일 때가 각 픽셀의 해상도에 대하여 후자보다 노이즈가 높다는 것을 시각적으로 확인할 수 있다.
과거 연구 Rajalingham et al., 2018, J. Neurosci.에서 사람과 원숭이한테는 binary task를, 모델은 24개의 클래스를 분류하여 이미지별 성능을 비교하는 연구를 하였는데, 이는 선택지 개수를 다르게 주어졌다는 점에서 모델에게 불리한 조건이라 할 수 있다. 이에 본 실시예에서는, 도 14a 및 도 14b에서와 같이, 16개의 클래스 및 16의 클래스 중 4개를 뽑는 모든 조합을 고려하여 히트맵(heat map)을 도출하였다. 이에, 도 14a에서의 16개 클래스보다 도 14b에서의 4개 클래스의 정확도가 모든 해상도(PIX)에 대해서 높게 나왔다는 것을 확인할 수 있다.
도 15a 내지 도 15d는 도 1의 인공 시각 표현 파라미터 자동화 학습시스템에서, 높은 정확도를 가지는 샘플 모델별로 16 클래스 대비 4 클래스의 정확도가 상관계수가 높다는 결과를 나타내며, 각 인간별로도 픽셀별 정확도를 일차함수로 피팅(fitting)할 수 있을 정도로 클래스 수에 따른 피어슨 상관계수가 높다는 결과를 나타낸 그래프들이다.
앞선 도 14a 및 도 14b의 경우, 특정 모델(CNN_SVC)에 대해서만 정보가 주어져 있지만, 이를 확장하여 다른 모델(PIXEL_SVC, PCASVC, CNN_AlexNet2_SVC)에 대해서도 16 C 16일 때와 16 C 4일 때를 비교한 결과가 도 15a 내지 도 15d에 도시되었다.
즉, 도 15a 내지 도 15d를 참조하면, 특정 얼굴(Face)에 대해서는 해상도(PIX)가 낮든, 높든 간에 평균적으로 좋은 성능이 나오거나(예를 들어, PIXEL_SVC에서 Face 19071131) 낮은 결과를 보인다(예를 들어, PIXEL_SVC에서 Face 19081632).
또한, 전체적으로 여러가지 상관계수를 계산했을 때 모든 모델에 대해서 16 C 16 성능 대비 16 C 4 성능의 상관계수가 높은 편이고(예를 들어, Pearson r은 도 14a 및 도 14b에서 0.7 - 0.91 범위 안에 해당함), y-절편이 평균적으로 양수이다. 다시 말해, 상기 학습 처리부(140)의 학습 처리 능력을 바탕으로 사람 실험에서 자주 쓰이는 선택지 개수(예를 들어, 2 혹은 4)보다 높은 클래스 수(예를 들어, 16)로 모델을 학습시켜도, 각 클래스별로 혹은 전체적으로 선형 매핑(linear mapping)을 통해 모델에서의 낮은 클래스 수일 때의 성능을 예측할 수 있다.
도 16a는 도 1의 인공 시각 표현 파라미터 자동화 학습시스템에서, 샘플 모델이 4 클래스로 분류하였을 때 조합(combination) 당 정확도 및 F1-스코어(score)를 도시한 그래프이고, 도 16b는 샘플 모델이 2 클래스로 분류하였을 때 조합(combination) 당 정확도 및 F1-스코어(score)를 도시한 그래프이다.
즉, 도 16a 및 도 16b를 참조하면, 세 번째 그래프가 F1-스코어를 의미하는데, 이는 첫 번째 그래프인 Precision과 두 번째 그래프인 Recall의 조화 평균을 나타내는 것으로, F1-스코어를 기준으로 정확도가 높은 클래스와 같은 경우에는, 조합(combination)별로 차이가 크지 않다.
즉, 정확도가 높은 클래스(사람 얼굴)는 조합(combination)이 달라도, 성능아 항상 대체적으로 높은 것을 확인할 수 있으며, 정확도가 높지 않은 클래스와 같은 경우에는(도 16a의 F1-스코어 중 10번째 클래스, 및 도 16b의 F1-스코어 중 10번째 클래스), 조합(combination)에 따른 성능 차이가 큰 것을 확인할 수 있다.
이를 통해, 모델이 잘 맞추는 클래스에 대하여는 옆의 선택지 구성과 무관하게 항상 잘 맞추며, 그렇지 않은 클래스에 대하여는 옆의 선택지 구성에 따라 변화(variation)가 큼을 나타내는 것이다.
도 17a 및 도 17b는 도 1의 인공 시각 표현 파라미터 자동화 학습시스템에서, 평균 정확도가 가장 높은 모델의 해상도별 인지 성능을 나타내는 그래프들이다. 도 18은 도 17a 및 도 17b의 부분집합인 인간실험에 사용될 파라미터를 나타내는 그래프이다. 즉, 도 17a 내지 도 18은 소위 박스 플롯(boxplot)으로 도시하였으며, 도 17a는 16 클래스에 대한 그래프이고, 도 17b는 4 클래스에 대한 그래프이다.
일반적으로, 모델의 성능이 어느 정도 사람과 일치하는지를 알아보기 위해 사람 실험을 해야 한다. 그러나, 모든 해상도 파라미터에 대하여 사람 실험을 한다는 것은 시간 및 비용이 많이 소요되는 일이고, 한 피실험자가 한 개의 모델만큼 테스트를 하게 된다면 본 실험의 원래 목적인 '인지'보다 실험을 하는 도중 사람 얼굴을 외워버리는 학습효과(learning effect)가 더해져 '기억력'으로 목적이 바뀌게 된다. 따라서 미리 정해놓은 해상도 파라미터 중, 통계적으로 유의미하도록 다른 해상도만 선택하여 사람 실험할 때 사용한다. 하지만 몇 개(예를 들어, 16PIX_8GS와 32PIX_2GS)는 모델에서 차이가 없게 나오더라도 (결과적으로 유의미하지 않더라도), 사람이 인지할 때도 그러한지 확인하기 위해 포함한다.
결국, 학습 결과의 해상도별로 결과를 확인하여 그 중 부분집합의 해상도만을 고려하여 최소 비용의 사람 실험을 진행하여 모델과 어느 정도 일치하는지 검증하는 것이 필요하다.
이를 위해, 본 실시예에서도, 상기 학습 처리부(140)에서 학습한 결과를 바탕으로, 상기 실험모듈(160)에서 최소의 비용으로, 즉 상대적으로 적은 양의 이미지로 실제 사람에 대한 실험을 수행한다.
그리하여, 이러한 부분집합의 해상도를 고려하기 위해, 도 17a 및 도 17b에서와 같은 평균 정확도가 가장 높은 모델의 해상도별 인지 성능의 결과를 바탕으로, 부분집합을 통해 인간실험에 사용될 파라미터를 도 18에서와 같이 선택할 수 있다.
한편, 이상에서 설명한 바와 같이, 상기 학습 처리부(140)에서의 학습 및 상기 실험모듈(160)에서의 인간을 대상으로 한 실험을 수행하게 되며, 상기 실험모듈(160)에서의 실험 결과는 도 1a에 도시된 바와 같이, 상기 학습 처리부(140)로 피드백된다.
즉, 상기 학습 처리부(140)로 피드백된 상기 실험모듈(160)에서의 실험 결과는, 상기 학습 처리부(140)에서 추가 학습 및 이를 통한 상기 얼굴 식별에 대한 학습 모델의 개선에 사용된다.
나아가, 상기 저장부(150)는, 상기 개선된 학습 모델에 따른 학습 결과를 바탕으로, 주요 테스트 이미지들을 자동으로 선별하여 다시 저장하게 된다.
이러한 피드백을 통한 학습 모델의 개선은 반복해서 수행될 수 있음은 자명하다.
한편, 상기 학습 처리부(140)에서는, 상기 학습 처리부(140) 및 상기 실험모듈(160)에서 처리가 어려운 얼굴 클래스(class) 데이터를 비교하여, 상기 실험모듈(160)에서의 실험 결과를 바탕으로 상기 학습 모델을 개선할 수 있다.
이 경우, 상기 학습 처리부(140)는 상기 학습 모델을 개선하는 경우, 데이터 증강을 통해 특정 얼굴 클래스(class)에 대하여만 추가로 학습하여 상기 학습 모델의 모수를 갱신할 수 있다. 예를 들어, 사람실험에서는 특정 클래스가 높은 정확도로 도출되었으나, 상기 학습 결과에서는 그렇지 않은 경우, 상기 데이터 증강(data augmentation)을 통해 특정 클래스에 대하여만 학습을 추가로 진행하여 모수를 개신할 수 있다.
이와 달리, 상기 학습 처리부(140)에서는, 상기 학습 처리부 및 상기 실험모듈의 결과에서의 상관계수를 연산하고, 상기 연산된 상관계수가 높다고 판단되면 추가로 학습하여 상기 실험모듈에서 실험되지 않은 파라미터에 대하여 예측하여 상기 학습 모델을 개선할 수도 있다. 이 경우, 상기 파라미터는 해상도 파라미터 또는 다른 세트를 의미한다.
예를 들어, 상기 학습 처리부(140)에서는, 16PIX, 24PIX, 32PIX를 다 측정해봤지만, 상기 실험 모듈(160)의 사람실험에서는 시간과 비용 한계상 16PIX, 32PIX만 결과를 가지고 있다면, 16PIX, 32PIX일 때의 학습 처리부의 학습 결과와 사람실험 결과를 추가로 학습하여 사람실험일 때의 24PIX 결과를 예측할 수 있다.
이상과 같은 상기 학습 처리부(140)에서의 추가 학습을 통한 모델 개선을 통해, 보다 정확한 학습 모델을 수립하여, 자동화 학습시스템을 구현할 수 있다.
한편, 상기에서 설명한 자동화 학습시스템(100)을 이용한 인공 시각 표현 파라미터 자동화 학습 방법의 경우, 도 1a에 도시된 바와 같이, 통신모듈(110)에서의 이미지 촬영 및 외부와의 통신 단계, 데이터베이스(120)에서의 촬영된 이미지 저장 단계, 이미지 처리부(130)에서의 선택된 이미지에 대한 저해상도 포스핀 이미지 변환 및 테스트 이미지의 다양한 해상도로의 생성 단계, 학습 처리부(140)에서의 학습 모델 생성 단계, 및 저장부(150)에서의 주요 테스트 이미지들의 선별 저장 단계를 포함한다.
나아가, 상기 실험모듈(160)을 통한 실제 사람에 대한 실험 수행 단계를 더 포함할 수 있으며, 이렇게 실험된 결과는 상기 학습 처리부(140)로 피드백되어, 상기 학습 처리부(140)가 상기 학습 모델을 개선하는 단계를 더 포함할 수 있다.
이 경우, 상기 각각의 단계의 세부적인 내용은 앞서 설명한 바와 같으므로 중복되는 설명은 생략한다.
나아가, 상기 이미지 처리부(130)에서는, 구체적으로, 배경 제거부(131)를 통한 배경 제거단계, 히스토그램 균일화부(132)를 통한 이미지 픽셀값 균일 분포단계, 그레이 스케일링부(133)를 통한 그레이 스케일링 단계, 및 픽셀화부(134)를 통한 최근접 보간 단계가 수행될 수 있으며, 각각의 단계에 대한 세부적인 내용 역시 앞서 설명한 바와 같으므로 중복되는 설명은 생략한다.
상기와 같은 본 발명의 실시예들에 의하면, 종래 인간 실험만을 수행하여 결과를 도출하던 것을 대신하여 학습을 기반으로 종래의 인간 실험 결과와 비슷한 경향을 보이는 결과를 신속하게 도출해낼 수 있다. 즉, 본 실시예들을 통해 인공시각 장치의 성능 향상을 위해 영상처리단계에서 결정해야 할 중요한 파라미터-픽셀 수(한 장치의 총 전극 개수에 해당)와 그레이스케일 수(인가되는 전류의 크기; 밝기 정도)의 최적의 값을 도출할 수 있다.
또한, 본 실시예들에서는 사람 얼굴의 인지 능력을 파라미터별로 측정하기 위해 한국인 안면 이미지를 이용하였으나, 다른 종류의 데이터(예를 들어, 사물, 동물, 자연 배경)로 인지 테스트뿐만 아니라 확장하여 identification, detection task 등도 수행할 수 있다.
또한, 모델의 성능을 검증하기 위하여 기계 시스템으로 테스트한 다량의 데이터 중 primary test 데이터만 자동적으로 선별하여 정상 시력을 가진 사람들을 대상으로 테스트 할 수 있는데, 이는 인간 인지 실력 결과와 높은 상관관계를 갖도록 만든 학습 기반의 모델을 새로 개발할 때마다 비용이 적게 드는 사람 실험을 추가적으로 할 수 있게 하여 모델 검증을 효율적으로 할 수 있게 한다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허 청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100 : 인공 시각 표현 파라미터 자동화 학습시스템
110 : 통신모듈 120 : 데이터베이스
130 : 이미지처리부 140 : 학습처리부
150 : 저장부 160 : 실험모듈

Claims (15)

  1. 이미지를 촬영하며 외부와 통신을 수행하는 통신모듈;
    상기 통신모듈로부터 전달받은 촬영된 이미지들을 저장하는 데이터베이스;
    상기 저장된 이미지들 중 임의로 선택된 이미지에 대하여, 저해상도 포스핀 이미지로 변환하여, 테스트 이미지를 다양한 해상도로 생성하는 이미지 처리부;
    상기 테스트 이미지에 포함된 중요한 특징(feature)을 추출하여, 추출된 특징을 바탕으로 분류기로 대상을 식별하도록 학습하여 학습 모델을 생성하는 학습 처리부; 및
    상기 학습된 결과를 바탕으로, 주요 테스트 이미지들을 자동으로 선별하여 저장하는 저장부를 포함하는 인공 시각 표현 파라미터 자동화 학습시스템.
  2. 제1항에 있어서,
    상대적으로 적은 양의 이미지로 실제 대상에 대한 직접 실험을 수행하는 실험모듈을 더 포함하는 인공 시각 표현 파라미터 자동화 학습시스템.
  3. 제2항에 있어서,
    상기 학습 처리부는, 상기 실험모듈에서의 직접 실험 결과를 바탕으로, 추가로 학습하여 상기 대상 식별에 대한 상기 학습 모델을 개선하고,
    상기 저장부는, 상기 개선된 학습 모델에 따른 학습 결과를 바탕으로, 주요 테스트 이미지들을 자동으로 선별하여 저장하는 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  4. 제3항에 있어서, 상기 학습 처리부는,
    상기 학습 처리부 및 상기 실험모듈에서 처리가 어려운 대상 class 데이터를 비교하여, 상기 실험모듈에서의 실험 결과를 바탕으로 상기 학습 모델을 개선하는 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  5. 제4항에 있어서, 상기 학습 처리부는,
    상기 학습 모델을 개선하는 경우, 데이터 증강을 통해 특정 대상 class에 대하여만 추가로 학습하여 상기 학습 모델의 모수를 갱신하는 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  6. 제3항에 있어서, 상기 학습 처리부는,
    상기 학습 처리부 및 상기 실험모듈의 결과에서의 상관계수를 연산하고,
    상기 연산된 상관계수가 높다고 판단되면 추가로 학습하여 상기 실험모듈에서 실험되지 않은 파라미터에 대하여 예측하여 상기 학습 모델을 개선하는 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  7. 제1항에 있어서, 상기 통신모듈은,
    인공시각 장치에서의 이미지 센서 또는 카메라 장치를 포함하여, 상기 이미지를 촬영하는 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  8. 제1항에 있어서, 상기 이미지 처리부는,
    상기 이미지에서 대상 윤곽을 중심으로 정사각형 모양으로 절단하고, 배경을 제거하는 배경 제거부;
    상기 배경이 제거된 이미지에서 불균형하게 분포된 이미지의 픽셀값을 고르게 분포시키는 히스토그램 균일화부;
    상기 픽셀값이 고르게 분포된 이미지에 대하여 그레이 스케일링(gray scaling)을 수행하는 그레이 스케일링부; 및
    상기 그레이 스케일링된 이미지에 대하여 최근접 보간(nearest interpolation)을 수행하는 픽셀화부를 포함하는 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  9. 제1항에 있어서, 상기 학습 처리부는,
    본 학습을 수행하기 전에 매 학습마다 결과를 제공하여 테스트를 수행하는 트레이닝부를 포함하며,
    상기 트레이닝부를 통해, 상기 학습 처리부의 대상에 대한 인지능력을 실제 사람의 인지능력과 유사한 수준으로 향상시키는 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  10. 제1항에 있어서, 상기 실험 모듈은,
    실제 사람에게, 상기 저해상도 포스핀 이미지와 다음 화면인 고해상도 선택지에서 동일한 이미지를 선택하도록 유도하며,
    실제 사람이 상기 선택된 결과에 대한 확인이 있는가의 여부에 대한 정보도 동시에 획득하는 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  11. 제10항에 있어서, 상기 실험 모듈에서는,
    기 설정된 해상도들 중, 상기 학습 처리부에서의 해상도별 학습 결과와 중복되는 해상도들에 대하여 실제 사람에게 실험을 수행하는 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  12. 제1항에 있어서, 상기 학습 처리부는,
    레이어(layer) 및 최대 필터 수를 제어하며 저해상도에서의 최적의 학습 모델을 설계하는 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  13. 제12항에 있어서, 상기 학습 모델은,
    CNN(convolutional neural network) 딥러닝 모델인 것을 특징으로 하는 인공 시각 표현 파라미터 자동화 학습시스템.
  14. 저장된 이미지들에 대한 인공 시각 표현 파라미터 자동화 학습시스템에서,
    상기 저장된 이미지들 중 임의로 선택된 이미지에 대하여, 저해상도 포스핀 이미지로 변환하여, 테스트 이미지를 다양한 해상도로 생성하는 이미지 처리부;
    상기 테스트 이미지에 포함된 중요한 특징(feature)을 추출하여, 추출된 특징을 바탕으로 분류기로 대상을 식별하도록 학습하여 학습 모델을 생성하는 학습 처리부; 및
    상기 학습된 결과를 바탕으로, 주요 테스트 이미지들을 자동으로 선별하여 저장하는 저장부를 포함하는 인공 시각 표현 파라미터 자동화 학습시스템.
  15. 제1항 내지 제14항 중 어느 한 항의 인공 시각 표현 파라미터 자동화 학습시스템을 이용하여, 인공 시각 표현 파라미터 자동화 학습을 수행하는 자동화 학습방법.
KR1020210172619A 2021-12-06 2021-12-06 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법 KR20230085241A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210172619A KR20230085241A (ko) 2021-12-06 2021-12-06 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법
US18/075,555 US20230177396A1 (en) 2021-12-06 2022-12-06 Artificial vision parameter learning and automating method for improving visual prosthetic systems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210172619A KR20230085241A (ko) 2021-12-06 2021-12-06 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20230085241A true KR20230085241A (ko) 2023-06-14

Family

ID=86607714

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210172619A KR20230085241A (ko) 2021-12-06 2021-12-06 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법

Country Status (2)

Country Link
US (1) US20230177396A1 (ko)
KR (1) KR20230085241A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036250A (zh) * 2023-07-14 2023-11-10 小鲲智能技术(广州)有限公司 一种基于视觉算法的絮体沉降性能判断方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190097146A (ko) 2016-12-14 2019-08-20 이너 코스모스 엘엘씨 뇌 컴퓨터 인터페이스 시스템 및 그 사용 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190097146A (ko) 2016-12-14 2019-08-20 이너 코스모스 엘엘씨 뇌 컴퓨터 인터페이스 시스템 및 그 사용 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036250A (zh) * 2023-07-14 2023-11-10 小鲲智能技术(广州)有限公司 一种基于视觉算法的絮体沉降性能判断方法及装置
CN117036250B (zh) * 2023-07-14 2023-12-26 小鲲智能技术(广州)有限公司 一种基于视觉算法的絮体沉降性能判断方法及装置

Also Published As

Publication number Publication date
US20230177396A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
Hernandez-Matas et al. FIRE: fundus image registration dataset
Doyle et al. Robust detection of textured contact lenses in iris recognition using BSIF
Shan et al. A deep learning method for microaneurysm detection in fundus images
Czajka Pupil dynamics for iris liveness detection
Butler et al. Recognizing famous people
WO2018201632A1 (zh) 用于识别眼底图像病变的人工神经网络及系统
US7321796B2 (en) Method and system for training a visual prosthesis
Fang et al. Robust iris presentation attack detection fusing 2d and 3d information
CN108664843A (zh) 活体对象识别方法、设备和计算机可读存储介质
WO2009158700A1 (en) Assessing biometric sample quality using wavelets and a boosted classifier
WO2010129711A1 (en) Devices, systems, and methods for evaluating vision and diagnosing and compensating impairment of vision
CN111461218B (zh) 糖网病眼底图像的样本数据标注系统
US11263494B2 (en) Classification device, classification method, program, and information recording medium
CN116433644B (zh) 一种基于识别模型的眼部图像动态诊断方法
CN109390053A (zh) 眼底图像处理方法、装置、计算机设备和存储介质
KR20230085241A (ko) 인공 시각 장치 성능 향상을 위한 인공 시각 표현 파라미터 자동화 학습시스템 및 방법
CN113240655A (zh) 一种自动检测眼底图像类型的方法、存储介质及装置
CN117764957A (zh) 基于人工神经网络的青光眼图像特征提取的训练系统
CN111046978A (zh) 一种基于StyleGANs和决策融合的皮肤镜图像识别方法
Jia et al. Unsupervised changes in core object recognition behavior are predicted by neural plasticity in inferior temporal cortex
CN111462093A (zh) 一种基于眼底图像进行疾病分类的方法
Pilania et al. An Optimized Hybrid approach to Detect Cataract
CN110992364B (zh) 视网膜图像识别方法、装置、计算机设备和存储介质
CN110334575B (zh) 眼底照片识别方法、装置、设备及存储介质
Duvvuri et al. Classification of Diabetic Retinopathy Using Image Pre-processing Techniques