KR101976048B1 - 머신 비전용 망막 인코더 - Google Patents

머신 비전용 망막 인코더 Download PDF

Info

Publication number
KR101976048B1
KR101976048B1 KR1020147007453A KR20147007453A KR101976048B1 KR 101976048 B1 KR101976048 B1 KR 101976048B1 KR 1020147007453 A KR1020147007453 A KR 1020147007453A KR 20147007453 A KR20147007453 A KR 20147007453A KR 101976048 B1 KR101976048 B1 KR 101976048B1
Authority
KR
South Korea
Prior art keywords
images
retinal
algorithm
machine vision
encoder
Prior art date
Application number
KR1020147007453A
Other languages
English (en)
Other versions
KR20140050741A (ko
Inventor
쉴라 니렌버그
일리야 보매쉬
Original Assignee
코넬 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코넬 유니버시티 filed Critical 코넬 유니버시티
Publication of KR20140050741A publication Critical patent/KR20140050741A/ko
Application granted granted Critical
Publication of KR101976048B1 publication Critical patent/KR101976048B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/007Transform coding, e.g. discrete cosine transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/62Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding by frequency transforming in three dimensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30041Eye; Retina; Ophthalmic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Discrete Mathematics (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)

Abstract

일련의 원시 이미지에 대응하는 원시 이미지 데이터를 수신하는 단계; 인코딩된 데이터를 생성하기 위해서 인코더로 상기 원시 이미지 데이터를 처리하는 단계 - 상기 인코더는 척추동물 망막의 1 이상의 망막 세포의 입력/출력 변환을 실질적으로 모방하는 입력/출력 변환으로 특성화되어 있음 - ; 및 적어도 부분적으로 상기 인코딩된 데이터를 기반으로 생성된 데이터에 제1 머신 비전 알고리즘을 적용하는 단계를 포함하는 방법이 공개된다.

Description

머신 비전용 망막 인코더{RETINAL ENCODER FOR MACHINE VISION}
<관련 출원들의 교차 참조>
이 출원은 미합중국 예비 출원 No. 61/527493(2011년 8월 25자 출원됨) 및 61/657406(2012년 6월 8일자 출원됨)의 이익을 주장한다. 이들 출원 각각의 내용은 그들 전체가 참조로 통합되어 있다.
이 출원은 또한 미합중국 예비 특허 출원 No. 61/308,681 (2010년 2월 26일자 출원됨), 61/359,188 (2010년 6월 28일자 출원됨), 61/378,793 (2010년 8월 31일자 출원됨), 및 61/382,280 (2010년 9월 13일자 출원됨)에; 미합중국 특허 출원 No. 13/230,488(2011년 9월 12일자 출원됨)에; 그리고 국제 특허 출원 No. PCT/US2011/026526 (2011년 2월 28일자 출원됨) 및 PCT/US2011/049188 (2011년 8월25일자 출원됨)에 관련되어 있다. 이들 출원 각각의 내용은 그들 전체가 참조로 통합되어 있다.
<연방 지원 연구 또는 개발에 관한 진술서>
이 발명은 미국 국립보건원의 국립 안 연구소가 지급 승인한 R01 EY12978에 따라 미합중국 정부 지원으로 이루어졌다. 미합중국 정부는 이 발명에 소정 권리를 가진다.
<분야>
본 공개는 머신 비전(machine vision)에 이용되는 방법 및 장치에 관한 것이다. 특히, 본 공개는 동물 망막의 퍼포먼스를 모방하는 인코더를 이용하여 이미지를 처리하고 처리된 이미지를 머신 비전 응용에 이용하는 방법 및 장치에 관한 것이다.
머신 비전(또는 컴퓨터 비전)은 컴퓨터가 시각 정보를 이용할 수 있게 해주는, 예를 들어, 이미지로부터 정보를 추출하고, 어떤 태스크를 해결하거나 혹은 광의 또는 협의로 장면을 "이해"할 수 있게 해주는 기술에 관한 것이다. 일반적으로, 머신 비전은 이미지 데이터로부터 정보를 추출하는데 관련되어 있다. 이미지 데이터는 단일 이미지, 비디오 시퀀스, 다중 카메라에서 나온 뷰(views) 또는 고차원 데이터(예로, 메디컬 스캐너에서 나온 3차원 이미지)와 같은 다양한 형태를 취할 수 있다.
머신 비전은 생산 라인에서 통과되고 있는 물체들을 세는데 이용되는 산업 시스템과 같은 단순한 태스크로부터, 얼굴 인식과 같은 좀더 복잡한 태스크 및 지각 태스크(예로, 로봇이 복잡한 환경을 내비게이션(navigate)할 수 있게 해주는)까지 수많은 응용을 갖는다. 머신 비전 응용 예의 비-제한 리스트는 프로세스 제어 시스템(예로, 산업 로봇 또는 자율주행차), 이벤트 검출 시스템(예로, 시각적 감시 또는 사람 숫자 세기를 위한), 정보 구성 시스템(이미지들 및 이미지 시퀀스들의 데이터베이스를 색인하기 위한), 객체 또는 환경 모델링 시스템(예로, 산업적인 검사, 메디컬 이미지 분석 또는 지형적 모델링을 위한), 및 상호대화 시스템(예로, 컴퓨터-인간 상호대화를 위한 장치의 입력으로서)을 포함한다.
많은 응용에 있어서, 머신 비전은 고비용 계산 태스크를 포함한다. 단색 디지털 이미지는 수백 만개 이상의 픽셀로 구성되며, 각 픽셀은 색 공간(예로, 친숙한 RGB 색 공간, YCbCr 공간, HSV 공간, 등) 내의 픽셀의 좌표를 정의하는 다중(예로, 8 또는 24) 비트 값과 같은 관련 값을 갖는다. 비디오 스트림은, 예로, 초당 수백 메가비트 이상의 비트 레이트에 해당하는, 초당 수십 프레임의 프레임 레이트로 그러한 이미지들의 시퀀스를 포함한다. 많은 머신 비전 응용은 그러한 이미지들 또는 비디오 스트림들의 빠른 처리를 필요로 한다(예로, 물체의 움직임을 추적해서 그에 대응하기 위해, 물체가 어셈블리 라인을 따라서 움직일 때 물체를 식별하거나 분류하기 위해, 로봇이 실시간으로 그의 환경 등에 대응할 수 있게 하기 위해).
그러한 시간 제약하에 그러한 대용량의 데이터를 처리하는 일은 아주 도전적일 수 있다. 따라서, 당면한 머신 비전 태스크에 가장 중요한 이미지 데이터의 피처들(features)을 보유하면서(또는 좀더 강조하면서) 원시 정보량을 줄이기 위해 이미지 데이터를 처리하기 위한 기법을 찾는 것이 바람직할 것이다. 원시 데이터가 아니라 이와 같이 전-처리(pre-process)된 이미지 데이터가 머신 비전 시스템에 입력될 수 있어, 이 시스템의 처리 부담이 줄어들어 충분히 빠른 대응과 잠재적으로 개선된 성능이 가능해진다.
척추 동물 눈의 망막은 시각적인 자극을 받아서 이 자극을 뇌가 이해할 수 있는 형태로 변환하는 바로 이러한 성질의 이미지 처리를 제공하는 것이 인정되고 있다. 이러한 시스템(수백만 년의 진화를 거쳐서 개발됨)은 포유동물(특히 원숭이 및 인간)의 고차원의 복잡한 시각적 지각에 의해 입증된 바와 같이 현저하게 효율적이고 효과적이다.
망막 동작의 추상적 모델을 기반으로 머신 비전을 위한 이미지 데이터 전-처리 스킴 개발을 위한 수 개의 접근법이 제안되었다. 그러나, 이들 모델은 망막의 실제 퍼포먼스에 대한 대략적인 근사치에 기반을 두고 있다.
이 배경 단원의 부분들은 http://en.wikipedia.org/wiki/Computer_vision에서 구할 수 있는 컴퓨터 비전에 관한 위키피디아 아티클에서 개작되었고 Creative Commons Attribution-ShareAlike License에 따라서 이용된다.
본 공개에 기술된 실시 예들은 망막에 의해 실행되는 동작들의 거의-완벽한 복제를 제공하는 인코더를 이용한다. 위에서 참조로 통합된 국제 특허 출원들(이하, "인공 기관 출원")에 상세히 기술되어 있는 바와 같이, 이 인코더는 매우 효과적인 망막 인공 기관 기관을 개발하는데 이용될 수 있다. 본 공개에서, 인코더는 머신 비전에 적용된다.
전-처리(특히, 차원-축소 단계)로서 이용될 때, 인코더는 머신 비전 알고리즘의 성능을 실질적으로 개선한다. 일부 실시 예들에서, 인코더는 머신 비전 알고리즘이 다른 방법들로는 추출될 수 없는 정보를 포함해서, 광범위한 환경에서 정보를 매우 효과적으로 추출할 수 있게 해준다. 기존의 머신 비전 알고리즘이 부분적으로 효과적인 경우에, 이러한 차원 축소는 강력한 개선제로서 작용할 수 있다. 인코더는 좀더 빠르고 효율적임은 물론이고 좀더 효과적으로 추출이 실행될 수 있게 해 준다(더 고성능).
인공 기관 출원들에 상세히 기술되어 있는 바와 같이, 출원인들은 자극을 받아들인 다음 이 자극을 한 세트의 인코더를 이용하여 한 세트의 코드로 변환하고, 이 코드들을 인터페이스를 이용하여 신호로 변환하며, 이후 복수의 망막 세포를 인터페이스로부터의 신호에 의해 구동되는 고해상도 트랜스듀서를 이용하여 활성화하는 인공 기관 장치를 개발하였다. 복수의 망막 세포의 활성화의 결과로 망막 신경절 세포(retinal ganglion cell)가 광범위의 자극에 반응하며, 이는 동일 자극에 대한 정상 망막의 망막 신경절 세포들의 시간 종속 응답과 거의 유사하다. 출원인들은 그러한 장치들에 이용되는 인코더들을 머신 비전 응용에 이용을 위한 이미지 데이터를 처리하는데 적용할 수 있음을 알아냈다.
정상 망막과 같은, 인공 기관 출원들에 상세히 기술되어 있는 망막 인공 기관은 이미지 프로세서이며, 이는 받아들인 자극으로부터 근본적인 정보를 추출하고 이 정보를 뇌가 이해할 수 있는 활동 전위의 패턴으로 새로 포맷한다. 정상 망막에 의해 생성된 활동 전위의 패턴은 망막의 코드 또는 신경절 세포의 코드라 불리는 것에 있다. 망막 인공 기관은 시각적인 자극을 이와 동일한 코드 또는 그에 가까운 프록시(proxy)로 변환하며, 그 결과 손상되거나 퇴화된 망막이 정상이거나 정상에 가까운 출력을 생성할 수 있다. 망막 인공 기관은 정상 망막과 같은 코드나 그에 가까운 프록시를 이용하기 때문에, 손상되거나 퇴화된 망막 내의 신경절 세포들의 발화 패턴(firing pattern), 즉 그들의 활동 전위의 패턴은 정상 신경절 세포들이 생성한 것들과 동일하거나 실질적으로 유사하다. 이와 같이, 이러한 인공 기관은 망막이 정상 망막과 동일한 시각적 세상에 대한 신호를 뇌에 전송해 줄 수 있게 해준다.
인공 기관 출원에 기술된 바와 같이, 인코더들은 다양한 자극, 예를 들어, 백색 잡음(WN) 및 자연 경관(NS) 영화에 대한 실제 망막 세포들의 입/출력 반응의 연구에서 얻은 데이터를 이용하여 산출된 망막 세포들에 대한 입/출력 모델을 이용한다. 일부 실시 예들에서, 인코더들은 다수의 파라미터로 특성화된 시공간적 변환을 포함하는 선형-비선형 캐스케이드 모델에 기반을 두고 있다. 이들 파라미터는 실제 망막의 경험을 통해 얻은 데이터를 기반으로 최적화되어 있고, 그 결과 넓은 범위의 자극에 대한 실제 세포들의 응답을 거의 모방하는 변환이 이루어진다. 이 결과는 백색 잡음 자극 또는 가우시안 통계를 가진 자극에 대한 것뿐만 아니라 얼굴, 풍경, 사람의 보행, 어린이들의 놀이 등과 같은 자연 이미지(정적 또는 시공간적-변화)에 대한 입/출력 관계를 캡처하는 모델이다. 넓은 범위의 자극에 대한 효과는 인공 기관 출원들과 이하 상세히 논의되는 도 18a-18f에 제시되어 있다.
이러한 접근법은 실험을 통해서 구한 데이터를 이용하기 때문에, 생성된 인코더들은 망막의 하부 처리 스킴들에 대한 세부 추상적인 이해를 필요로 함이 없이 망막 처리를 정확히 시뮬레이트할 수 있다. 예를 들어, 영장류와 사람의 경우 망막 처리는 뇌의 효율적인 처리가 가능해 지도록 패턴 인식 태스크(예로, 얼굴 인식)에 유용한 시각적인 자극의 피처(features)는 강조하고 다른 피처(예로, 리던던트 정보나 잡음)는 비-강조(de-emphasizing)하거나 제거한다고 믿어진다. 아직까지는, 억겁에 걸쳐서 결과 자연 선택으로 발전해온 이러한 처리 스킴의 세부사항에 대한 완전한 추상적인 이해는 없다. 그러나, 이와 같은 추상적인 이해가 부족함에도 불구하고, 여기에 기술된 장치와 기법은 망막 응답을 정확하게 모방함으로써 이러한 처리의 이점을 취할 수 있다.
다른 말로, 여기에 기술된 다양한 실시 예에서, 이 접근법은 데이터-구동(data-driven)이다 ― 즉, 이 접근법은 망막의 입/출력 관계의 데이터-구동 모델을 이용하며 그래서 현실적인 이미지 전-처리를 제공한다. 이는 생물학적 망막과 동일한 유형과 동일한 크기의 차원 축소(dimension reduction)를 성취해서 생물학적 망막과 동일한 많은 장점을 제공하는 전-처리 단계를 다운스트림 머신 비전 알고리즘에 제공한다.
일반적으로, 여기에 기술된 접근법들은 망막의 완전한 또는 거의 완전한 모방을 제공할 수 있기 때문에, 예를 들어, 가우시안-차 유형 필터(difference-of-Gaussians type filter)를 이용하여 이미지 데이터를 필터링하는 이전의 프리-프로세서들과는 다르다는 사실에 유의하자. 유사하게, 이는 백색 잡음 자극 또는 가우시안 통계를 가진 자극뿐만 아니라, 넓은 범위의 자극에도 유효하다는 점에서 다른 선형-비선형 캐스케이드 모델과는 다르다. 이와 같이, 필터링은 훨씬 더 완전하며 이는 현재 머신 비전 알고리즘의 능력을 상당히 향상시킨다. 가장 중요한 점은 필터링이 현재 머신 비전 알고리즘이 보편화, 즉 하나의 세팅(하나의 환경 또는 빛 조건)에서 트레이닝(train)될 수 있고 다른 환경들에도 일반화될 수 있게 해 준다는 것이고, 이는 장기간의 도전이었다(예로, 이하 상세히 기술되는 도 10, 11 및 15 참조).
더욱이, 일부 실시 예들에서, 망막 처리는 넓은 범위의 자극에 대해서 정확히 모델링되기 때문에(예로, WN- 및 NS-생성된 데이터를 이용하는 최적화의 결과로서), 머신 비전 시스템에 대한 전-처리는 넓은 범위의 조건에도 잘 작동한다(망막이 넓은 범위의 조건에 작동하는 방식과 유사함). 유리하게도, 이는 망막 전-처리 기술들이 다양한 조건(예로, 빛 변화, 복잡, 변하는 시각 경관, 많은 상이한 환경, 등) 하에서 강인한 성능을 요하는 머신 비전 응용에 이용될 수 있게 해준다.
일 양태에서, 일련의 원시 이미지에 대응하는 원시 이미지 데이터를 수신하는 단계; 인코딩된 데이터를 생성하기 위해서 인코더로 상기 원시 이미지 데이터를 처리하는 단계 - 상기 인코더는 척추동물 망막의 1 이상의 망막 세포의 입력/출력 변환을 실질적으로 모방하는 입력/출력 변환으로 특성화되어 있음 - ; 및 적어도 부분적으로 상기 인코딩된 데이터를 기반으로 생성된 데이터에 제1 머신 비전 알고리즘을 적용하는 단계를 포함하는 방법이 제시된다.
일부 실시 예들은 상기 인코딩된 데이터를 기반으로 일련의 망막 이미지를 생성하는 단계를 포함한다. 일부 실시 예들은 상기 인코딩된 데이터를 기반으로 상기 망막 이미지들 내의 픽셀 값들을 판정하는 단계를 포함한다. 일부 실시 예들은 상기 인코딩된 데이터를 기반으로 상기 망막 이미지들 내의 픽셀 값들을 판정하는 단계는 망막 세포 응답을 나타내는 인코딩된 데이터를 기반으로 픽셀 세기 또는 색을 판정하는 단계를 포함한다.
일부 실시 예들에서, 망막 세포 응답을 나타내는 데이터는 망막 세포 발화 레이트(firing rate), 망막 세포 출력 펄스 트레인, 및 생성기 전위로 구성되는 리스트에서 적어도 하나를 나타낸다.
일부 실시 예들은 상기 일련의 망막 이미지에 상기 제1 머신 비전 알고리즘을 적용하는 단계를 포함한다.
일부 실시 예들에서, 상기 머신 비전 알고리즘은 물체 인식 알고리즘, 이미지 분류 알고리즘, 얼굴 인식 알고리즘, 광학 문자 인식 알고리즘, 내용-기반 이미지 검색 알고리즘, 포즈 평가 알고리즘, 모션 분석 알고리즘, 자체 운동(egomotion) 판정 알고리즘, 이동 추적 알고리즘, 광학적 흐름 판정 알고리즘, 장면 재구성 알고리즘, 3D 볼륨 인식 알고리즘, 및 내비게이션 알고리즘으로 구성되는 리스트에서 적어도 하나의 선택을 포함한다.
일부 실시 예들에서, 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응 세트의 원시 이미지들에 적용될 때보다 상기 일련의 망막 이미지들에 적용될 때 더 나은 성능을 나타낸다.
일부 실시 예들에서, 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응하는 일련의 원시 이미지들에 적용될 때보다 자연 경관들을 포함하는 일련의 망막 이미지들에 적용될 때 더 나은 성능을 나타낸다.
일부 실시 예들에서, 상기 머신 비전 알고리즘은 일련의 이미지들 내의 사람의 검출 또는 식별을 위한 알고리즘을 포함하고 있고; 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응 세트의 원시 이미지들에 적용될 때보다 사람을 포함하는 일정 범위의 망막 이미지들에 적용될 때 더 나은 검출 또는 식별 정확도를 나타낸다.
일부 실시 예들에서, 사람을 포함하는 상기 일련의 이미지들은 자연 경관 내에 위치한 사람의 이미지들을 포함한다.
일부 실시 예들에서, 사람을 포함하는 상기 일련의 이미지들은 상기 머신 비전 알고리즘을 트레이닝하는데 이용된 자연 경관과는 다른 자연 경관 내에 위치한 사람의 이미지들을 포함한다.
일부 실시 예들에서, 상기 머신 비전 알고리즘은 실제 또는 가상 환경을 통한 내비게이션을 위한 알고리즘을 포함하고, 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응 세트의 원시 이미지들에 적용될 때보다 자연 경관을 포함하는 일련의 망막 이미지들에 적용될 때 더 나은 내비게이션 성능을 나타낸다.
일부 실시 예들에서, 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응 세트의 원시 이미지들에 적용될 때보다 자연 경관을 포함하는 일련의 망막 이미지들에 적용될 때 내비게이션 동안 더 적은 원치 않는 충돌 이벤트를 나타낸다.
일부 실시 예들에서, 상기 일련의 망막 이미지는 상기 머신 비전 알고리즘을 트레이닝하는데 이용되지 않은 환경에 대응한다.
일부 실시 예들은 관심 대상인 1 이상의 망막 이미지를 식별하기 위해서 상기 일련의 망막 이미지에 머신 영상화 알고리즘을 적용하는 단계; 및 관심 대상인 망막 이미지들에 대응하는 관심 대상인 1 이상의 원시 이미지를 식별하는 단계를 포함한다. 일부 실시 예들은 상기 관심 대상인 원시 이미지들을 처리하는 단계를 포함한다. 일부 실시 예들에서, 상기 관심 대상인 원시 이미지들을 처리하는 단계는 상기 관심 대상인 원시 이미지들에 제2 머신 비전 알고리즘을 적용하는 단계를 포함한다. 일부 실시 예들에서, 상기 제1 머신 비전 알고리즘은 망막 이미지 세트에 대해 트레이닝된 알고리즘을 포함하고, 상기 제2 머신 비전 알고리즘은 원시 이미지 세트에 대해 트레이닝된 알고리즘을 포함한다.
일부 실시 예들에서, 상기 제1 머신 비전 알고리즘을 적용하는 단계는 내비게이션 알고리즘을 적용하는 단계를 포함한다. 일부 실시 예들에서, 상기 내비게이션 알고리즘을 적용하는 단계는: 상기 일련의 이미지 내의 복수의 이미지 위치에서의 모션을 나타내는 모션 정보를 판정하기 위해 상기 일련의 망막 이미지를 처리하는 단계; 상기 모션 정보를 기반으로 상기 일련의 이미지 내의 공간 영역들을 분류하는 단계; 및 상기 공간 영역들의 분류를 기반으로 내비게이션 판정을 생성하는 단계를 포함한다. 일부 실시 예들에서, 모션 정보는 상기 일련의 이미지 내의 광학적 흐름을 나타낸다. 일부 실시 예들은 상기 공간 영역들의 분류를 위해 콘볼루션 신경망을 이용하는 단계를 포함한다.
일부 실시 예들은 내비게이션 알고리즘의 결과를 기반으로 로봇 장치의 모션을 제어하는 단계를 포함한다.
일부 실시 예들은 내비게이션 알고리즘의 결과를 기반으로 가상 공간 내의 가상 물체의 모션을 제어하는 단계를 포함한다.
일부 실시 예들은 상기 망막 이미지들을 기반으로 머신 비전 알고리즘을 트레이닝하는 단계를 포함한다. 일부 실시 예들에서, 상기 머신 비전 알고리즘을 트레이닝하는 단계는: (i) 출력을 생성하기 위해서 망막 이미지 세트에 상기 머신 비전 알고리즘을 적용하는 단계; (ii) 상기 출력을 기반으로 상기 머신 비전 알고리즘의 성능을 나타내는 성능 정보를 판정하는 단계; (iii) 상기 성능 정보를 기반으로 상기 버신 비전 알고리즘의 1 이상의 특성을 수정하는 단계를 포함한다. 일부 실시 예들은 선택된 성능 기준에 이를 때까지 단계 (i) 내지 (iii)를 되풀이하여 반복하는 단계를 포함한다.
일부 실시 예들에서, 상기 트레이닝된 머신 비전 알고리즘은 한 세트의 파라미터에 의해 특성화되고, 이들 파라미터는 상기 망막 이미지들에 대응하는 원시 이미지들을 이용하여 상기 머신 비전 알고리즘의 동등한 트레이닝에 의해 구해지는 대응 파라미터와는 다르다.
일부 실시 예들에서, 인코딩된 데이터를 생성하기 위해 인코더로 상기 원시 이미지 데이터를 처리하는 단계는 대응하는 원시 이미지에 비해서 축소된 정보량을 포함하는 인코딩된 데이터를 생성하는 단계를 포함한다. 일부 그러한 실시 예들에서, 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응 세트의 원시 이미지들에 적용될 때보다 상기 일련의 망막 이미지에 적용될 때 더 나은 성능을 나타낸다.
일부 실시 예들에서, 상기 인코딩된 데이터에 포함된 정보량은 대응 원시 이미지 데이터에 비해서, 예를 들어, 1.1 - 1,000의 범위 내 또는 그의 임의 부분 범위 내의 적어도 약 1.5, 2, 3, 4, 5, 6, 7, 8, 9, 10 또는 그 이상의 배로 압축된다.
일부 실시 예들에서, 상기 척추동물은 쥐와 원숭이로 구성되는 리스트에서 선택된 적어도 하나를 포함한다.
일부 실시 예들에서, 상기 망막 세포들은 신경절 세포를 포함한다. 일부 실시 예들에서, 상기 망막 세포들은 적어도 2개의 세포 분류를 포함한다. 일부 실시 예들에서, 상기 적어도 2개의 세포 분류는 ON 세포들 및 OFF 세포들을 포함한다.
일부 실시 예들에서, 상기 인코더는 시공간적으로 변하는 이미지들을 포함해서, 자연 경관 이미지들을 포함하는 일정 범위의 입력에 걸쳐서 척추동물 망막의 1 이상의 망막 세포의 입력/출력 변환을 실질적으로 모방하는 입력/출력 변환에 의해 특성화된다.
일부 실시 예들에서, 인코딩된 데이터를 생성하기 위해서 인코더로 원시 이미지 데이터를 처리하는 단계는 복수의 값 X를 생성하기 위해 상기 원시 이미지 데이터를 처리하는 단계, 상기 복수의 X 값을 망막 내의 망막 세포 m의 대응 응답을 나타내는 복수의 응답 값 λm으로 변환하는 단계, 및 상기 응답 값들을 기반으로 인코딩된 데이터를 생성하는 단계를 포함한다. 일부 실시 예들에서, 상기 응답 값들은 망막 세포 발화 레이트들에 대응한다. 일부 실시 예들에서, 상기 응답 값들은 망막 세포 발화 레이트들의 함수에 대응한다. 일부 실시 예들에서, 상기 응답 값들은 망막 세포 출력 펄스들에 대응한다. 일부 실시 예들에서, 상기 응답 값들은 망막 세포 생성기 전위, 즉 시공간적 필터(들)를 이용한 이미지들의 콘볼루션의 출력에 대응한다.
일부 실시 예들에서, 인코딩된 데이터를 생성하기 위해서 인코더로 원시 이미지 데이터를 처리하는 단계는: 상기 원시 이미지 데이터로부터 이미지들을 수신하고, 각각의 이미지에 대해서, 휘도 또는 콘트라스트를 리스케일(rescale)하여 리스케일된 이미지 스트림을 생성하는 단계; 상기 리스케일된 이미지 스트림으로부터 N개의 리스케일된 이미지들의 세트를 수신하고 이들 N개의 이미지 세트에 시공간적 변환을 적용하여 망막 응답 값 세트를 생성하는 단계 - 이 세트 내의 각 값은 상기 망막 세포들의 각 세포에 대응함 - ; 상기 망막 응답 값들을 기반으로 인코딩된 데이터를 생성하는 단계를 포함한다.
일부 실시 예들에서, 상기 응답 값들은 망막 발화 레이트를 포함한다. 일부 실시 예들에서, N은, 예를 들어, 1-1,000의 범위 또는 그의 임의 부분 범위 내의 적어도 5, 적어도 약 20, 적어도 약 100 또는 그 이상이다.
일부 실시 예들에서, 시공간적 변환을 적용하는 단계는: 1 이상의 시공간적 변환된 이미지를 생성하기 위해서 상기 N개의 리스케일된 이미지를 시공간적 커널(Kernel)로 콘볼루션(convolving)하는 단계; 및 비선형 함수를 상기 시공간적 변환된 이미지에 적용하여 응답 값 세트를 생성하는 단계를 포함한다.
일부 실시 예들에서, 시공간적 변환을 적용하는 단계는: N개의 공간 변환 이미지들을 생성하기 위해 상기 N개의 리스케일된 이미지를 공간 커널로 콘볼루션하는 단계; 시간 변환 출력을 생성하기 위해 시간 커널로 상기 N개의 공간 변환 이미지를 콘볼루션하는 단계; 및 응답 값 세트를 생성하기 위해 비선형 함수를 상기 시간 변환 출력에 적용하는 단계를 포함한다.
일부 실시 예들에서, 상기 인코더는 파라미터 세트에 의해 특성화되고, 상기 파라미터 값들은 상기 망막이 백색 잡음 및 자연 경관 자극에 노출되는 동안 척추동물 망막으로부터 실험적으로 구한 응답 데이터를 이용하여 판정된다.
일부 실시 예들에서, 상기 인코더는 테스트 입력 자극과 이 테스트 입력 자극에 대한 응답으로 상기 인코더에 의해 생성되는 인코딩된 데이터로 재구성된 대응 자극 간의 피어슨의 상관 계수는, 예를 들어, 0.35-1.0의 범위 또는 그의 임의 부분 범위 내의 적어도 약 0.35, 0.65, 적어도 약 0.95 또는 그 이상이 되도록 구성된다. 일부 실시 예들에서, 상기 테스트 입력 자극은 일련의 자연 경관이다.
다른 양태에서, 원시 이미지를 저장하도록 구성된 적어도 하나의 메모리 저장 장치; 및 상기 메모리에 동작 가능하게 연결되고 여기에 기술된 방법들 중 1 이상을 실행하도록 프로그램되어 있는 적어도 하나의 프로세서를 포함하는 장치가 제시된다.
일부 실시 예들에서, 여기에 기술된 방법들 중 1 이상의 방법의 단계들을 실행하기 위한 컴퓨터-판독가능 명령어를 갖고 있는 비일시적 컴퓨터-판독가능 매체가 제시된다.
다른 양태에서, 일련의 이미지에 대응하는 인코딩된 데이터를 저장하는 적어도 하나의 메모리 저장 장치를 포함하는 시스템이 제시되며, 여기서 인코딩된 데이터는 일련의 원시 이미지에 대응하는 원시 이미지 데이터를 수신하고 인코딩된 데이터를 생성하기 위해 상기 원시 이미지 데이터를 인코더로 처리함으로써 생성되었고, 상기 인코더는 척추동물 망막의 1 이상의 망막 세포의 입력/출력 변환을 실질적으로 모방하는 입력/출력 변환에 의해 특성화된다. 일부 실시 예들에서, 상기 적어도 하나의 저장 장치는 상기 인코딩된 데이터와 상기 원시 이미지 데이터 간의 대응을 나타내는 데이터베이스 정보를 저장한다.
일부 실시 예들은 일련의 질의 이미지에 대응하는 질의 이미지 데이터를 수신하고; 척추동물 망막의 1 이상의 망막 세포의 입력/출력 변환을 실질적으로 모방하는 입력/출력 변환에 의해 특성화된 인코더로 상기 질의 이미지 데이터를 처리하여 인코딩된 데이터를 생성하고; 상기 인코딩된 질의 이미지 데이터를 상기 메모리 저장 장치의 상기 인코딩된 데이터와 비교하고; (a) 상기 인코딩된 질의 이미지 데이터와 상기 메모리 저장 장치의 상기 인코딩된 데이터와의 비교를 기반으로, 및 (b) 상기 인코딩된 데이터와 상기 원시 이미지 데이터 간의 대응을 나타내는 상기 데이터베이스 정보를 기반으로, 상기 질의 이미지 데이터와 상기 원시 이미지 데이터 간의 대응을 판정하도록 구성된 프로세서를 포함한다.
다른 양태에서, 일련의 원시 이미지에 대응하는 원시 이미지 데이터를 수신하는 단계; 제1 척추동물 유형으로부터의 제1 척추동물 망막의 1 이상의 망막 세포의 입력/출력 변환을 실질적으로 모방하는 입력/출력 변환에 의해 특성화된 인코더로 상기 원시 이미지 데이터의 적어도 제1 부분을 처리하여 제1 인코딩된 데이터를 생성하는 단계; 및 제1 척추동물 유형과는 다른 제2 척추동물 유형으로부터의 제2 척추동물 망막의 1 이상의 망막 세포의 입력/출력 변환을 실질적으로 모방하는 입력/출력 변환에 의해 특성화된 인코더로 상기 원시 이미지 데이터의 적어도 제2 부분을 처리하여 인코딩된 데이터를 생성하는 단계를 포함하는 방법이 제시된다.
일부 실시 예들은 상기 제1 인코딩된 데이터를 기반으로, 처리를 위한 상기 원시 데이터의 제2 부분을 선택하는 단계를 포함한다.
다양한 실시 예에서, 상기 원시 이미지 데이터는 이미지 검출기로부터 또는 상기 원시 이미지 데이터를 저장하는 메모리로부터 또는 이들의 결합으로부터 거의 실시간으로 수신된다.
다른 양태에서, 원시 이미지 데이터를 저장하도록 구성된 적어도 하나의 메모리 저장 장치; 상기 메모리에 동작적으로 연결되고 여기에 기술된 방법들 중 1 이상을 실행하도록 프로그램되어 있는 적어도 하나의 프로세서를 포함하는 장치가 제시된다.
다른 양태에서, 여기에 기술된 방법들 중 1 이상의 방법의 단계들을 실행하기 위한 컴퓨터-실행가능 명령어를 갖고 있는 비일시적 컴퓨터-판독가능 매체가 제시된다.
다른 양태에서, 일련의 이미지에 대응하는 인코딩된 데이터를 저장하는 적어도 하나의 메모리 저장 장치를 포함하는 시스템이 제시되고, 상기 인코딩된 데이터는: 일련의 원시 이미지에 대응하는 원시 이미지 데이터를 수신하고, 척추동물 망막의 1 이상의 망막 세포의 입력/출력 변환을 실질적으로 모방하는 입력/출력 변환에 의해 특성화되는 인코더로 상기 원시 이미지 데이터를 처리함으로써 생성되었다. 일부 실시 예들에서, 적어도 하나의 저장 장치는 상기 인코딩된 데이터와 상기 원시 이미지 데이터 간의 대응을 나타내는 데이터베이스 정보를 저장한다.
다양한 실시 예들은 위에 기술된 요소들 어떤 것도 단독으로 또는 임의 적합한 조합으로 포함할 수 있다.
도 1은 예시적인 머신 비전 시스템을 보여주는 블록 도이다.
도 2는 인코더 모듈의 동작을 보여주는 흐름도이다.
도 3a는 원시 이미지 스트림(복잡한 환경에서 보행하는 사람)을 망막 이미지 스트림으로 변환하는 것을 보여주고 있다. 패널 A는 카메라에 의해 획득된 원시 이미지 스트림에서 나온 수개의 프레임을 보여주고 있다. 패널 B는 대응하는 망막 이미지 스트림에서 나온 수개의 프레임을 보여주고 있다. 각각이 상이한 세포 어레이(도면에 도시된 OFF 미지트(midget) 세포, ON 미지트 세포, OFF 파라솔 세포, 및 ON 파라솔 세포)를 이용하는 4개의 상이한 망막 이미지 스트림들이 도시되어 있다.
도 3b-3f는 도 3a의 마지막 열에 대응하는 원시 이미지(도 3b) 및 망막 이미지(도 3c-3f)의 확대 도이다.
도 4는 도 1의 머신 비전 시스템의 머신 비전 모듈을 트레이닝하기 위한 트레이닝 시스템을 보여주는 블록 도이다.
도 5는 도 4의 트레이닝 시스템의 동작을 보여주는 흐름도이다.
도 6은 미로(maze)를 통한 로봇의 내비게이션을 제어하는데 이용되는 머신 비전 시스템을 보여주고 있다. 로봇이 여행한 경로는 파선으로 표시되어 있다.
도 7은 내비게이션 태스크를 제어하는데 이용되는 머신 비전 시스템의 일 실시 예에 대한 흐름도이다.
도 8은 내비게이터를 트레이닝하는데 이용되는 원시 이미지 스트림(영화)에서 나온 프레임을 보여주고 있다. 이들 이미지 스트림은 메인 텍스트에 표시되어 있는 바와 같은 시골 환경을 이용하는 가상 환경에서 생성되었다. 상부 패널은 이미지 스트림의 제1 5개의 프레임을 보여주고 있다. 하부 패널은 이미지 스트림의 나머지로부터 선택된 프레임들을 보여주고 있다; 매 30 프레임 중 하나(즉, 초당 1 프레임)가 도시되어 있다.
도 9는 내비게이터를 테스트하는데 이용되는 원시 이미지 스트림(영화)에서 나온 프레임들을 보여주고 있다. 3개의 세트가 도시되어 있다: 도 9a, 시골 환경(내비게이터를 트레이닝하는데 이용된 환경과는 다른 환경)에서 나온 프레임들; 도 9b, 교외 환경; 및 도 9c, 운동장 환경(타이어 장애물 코스). 도 9에 도시된 바와 같이, 이미지 스트림은 가상 환경에서 생성되었고, 각 세트의 상부 패널은 제1 4개의 프레임을 보여주고, 하부 패널은 영화의 나머지로부터 선택된 프레임들(이 경우에는, 매 15 프레임 중 하나(즉, 1/2초마다 1 프레임))을 보여주고 있다.
도 10은 상이한 환경에 일반화를 위한 내비게이터의 성능과 그의 능력을 보여주는 궤도를 보여주고 있다. 텍스트 및 도 7의 흐름도에 도시된 바와 같이, 내비게이터 태스크, 콘볼루션 신경망(CNN)을 학습하는데 이용된 리딩(leading) 알고리즘은 2가지 방식으로 트레이닝되었다: 1) 표준 방법, 즉 원시 시각 환경(원시 이미지 스트림)을 이용함, 및 2) 이 환경을 차원 축소한 후, 즉 인코더를 통해서 처리된 후에 이용함. (이용된 트레이닝 환경은 도 8에 도시된 바와 같이 시골 환경이었다). 이후 내비게이터의 성능은 3개의 새로운 환경: 내비게이터를 트레이닝하는데 이용된 환경과는 다른 시골 환경, 교외 환경, 및 운동장 환경에서 테스트되었다. (각 환경에서 나온 샘플은 도 9에 도시되어 있다.) A. 원시 이미지 스트림에서 나온 환경을 학습했을 때의 내비게이터 성능. 파괴된 궤적과 충돌에 유의. B. 망막 이미지 스트림(인코더에 의해 생성된 이미지 스트림)으로부터 환경을 학습했을 때의 내비게이터 성능. 똑바른 경로 및 장애물 회피에 주목.
도 11은 내비게이터의 고성능의 실증을 더 보여주고 있다; 구체적으로, 이는 고성능이 상이한 환경들(시골 환경에서 교외 환경 나아가 운동장까지)에만 일반화되는 것이 아니라, 이는 또한 환경 내의 상이한 빛 조건들에도 일반화됨을 보여주고 있다. A 내지 F는 해의 상이한 위치들과 그에 따른 운동장 환경의 상이한 그림자 조건들에 대응하고; 빛 조건들은 일출에서 일몰까지, 즉 이 환경의 좌측의 수평선 위의 30도에서 우측의 수평선 위 30도에 걸쳐있다. 옅은 그레이 ( light gray ), 원시 이미지 스트림(도 8에 도시된 바와 같이, 하나의 빛 조건을 이용한 시골 환경에서 나온)에 대해 트레이닝되었을 때의 내비게이터의 성능. 여기에 도시된 바와 같이, 내비게이터의 성능은 새로운 환경에 놓였을 때 낮으며, 이는 빛 조건들에 걸쳐서 참을 유지한다. 각 바(bar)의 높이는 내비게이터가 타이어들 중 한 타이어에 충돌함이 없이 운동장 타이어 코스 내에 성공적으로 머물러 있는 시도 부분(fraction of trials)에 해당한다. 오차 바들(error bars)은 평균 표준 오차(SEM)를 나타낸다. 짙은 그레이( dark gray), 망막 이미지 스트림(동일한 단일 빛 조건을 이용하는 동일한 시골 환경이지만, 이번에는 인코더로 처리되었음)에 대해 트레이닝되었을 때의 내비게이터의 성능. 도시된 바와 같이, 내비게이터의 성능은 높고, 고성능은 빛 조건들에 걸쳐서 유지된다. 그래서, 망막 이미지 스트림에 대한 트레이닝(즉, 인코더에 의해 생성된 차원-축소 이미지에 대한 트레이닝)은 고성능이 새로운 환경과 다수의 빛 조건(일출에서 일몰까지, 위를 참조)에도 일반화되게 해준다.
도 12는 얼굴 인식 태스크를 제어하는데 이용된 머신 비전 시스템의 일 실시 예에 대한 흐름도이다.
도 13은 얼굴 인식 알고리즘(메인 텍스트에 언급된 바와 같은 비올라-존스-스노우)을 트레이닝하는데 이용된 원시 이미지 스트림(영화)에서 나온 프레임들을 보여주고 있다. 이 이미지 스트림은 초당 24 프레임의 레이트로 기록되었고; 여기서는 매 12번째 프레임이 도시되었다(매 1/2 초마다 1 프레임).
도 14는 얼굴 인식 알고리즘의 성능을 테스트하는데 이용된 원시 이미지 스트림(영화)에서 나온 프레임들을 보여주고 있다. 이는 도 13에 도시된 사람과 동일인이지만 헤어스타일 등이 상이하고 다른 환경에 있다는 사실에 유의하자. 메인 텍스트에 나타낸 바와 같이, 얼굴 인식 알고리즘의 목표는, 이 알고리즘이 단지 이 사람의 다른 이미지 스트림에 대해 트레이닝되었을지라도, 새로운 이미지 스트림들을 타겟 사람(target person)에 속하는 것으로 인식하는 것이다. 도 13에 도시된 바와 같이, 이미지 스트림은 초당 24 프레임의 레이트로 기록되었고; 여기서 매 12번째 프레임이 도시되어 있다(1/2 초마다 1 프레임).
도 15는 2개의 방식: 1) 표준 접근법을 이용하는 방식, 즉 원시 이미지 스트림들로 얼굴 인식 알고리즘을 트레이닝하는 방식 및 2) 이 출원에 기술된 접근법을 이용하는 방식(즉, 인코더에 의해 처리된 원시 이미지 스트림들을 이용하는 방식)으로 트레이닝되었을 때의 얼굴 인식 알고리즘의 성능을 보여주고 있다. 양자의 경우에, 얼굴 인식 알고리즘은 많은 이미지 스트림(타겟 얼굴의 4-5 비디오에서 나온 250-280개의 2-프레임 이미지 스트림 및 다른 얼굴들의 100 초과의 비디오에서 나온 2000개의 2-프레임 이미지 스트림)에 대해 트레이닝되었다. 이후 이전에 보지 못한 비디오, 즉 트레이닝 세트에 이용되지 않은 비디오에서 나온 50-800개의 2-프레임 이미지 스트림을 이용하여 성능이 측정되었다. (트레이닝 및 테스팅 세트에서 나온 샘플 프레임들에 대한 도 13 및 14를 참조). 2개의 태스크 세트, 즉 표준 접근법이 매우 약하게 실행되는 테스크와 표준 접근법이 아주 적당하게 실행되는 태스크에 대한 성능이 도시되어 있다. 바의 높이는 얼굴 인식기가 성공적으로 타겟 얼굴을 인식한 시도 부분을 나타낸다. 오차 바들은 평균 표준 오차(SEM)를 나타낸다. 도시된 바와 같이, 태스크가 도전적이었을 때(A), 이 출원에 기술된 접근법은 표준 접근법을 넘어서는 주요한 (4-폴드) 개선을 제공한다. 태스크가 덜 도전적이었을 때, 즉 표준 접근법이 아주 적당하게 실행될 때, 이 출원에 기술된 접근법은 그래도 개선(1.5배)을 제공한다.
도 16은 이미지 처리에 망막 인코더 접근법과 전통적인 접근법을 이용하는 예시적인 하이브리드 이미지 처리 방법의 처리 흐름을 보여주고 있다.
도 17은 망막 인코딩된 데이터를 이용한 디지털 지문채취를 위한 시스템의 블록 도이다.
도 18a-18f는 자연 경관의 영화들을 이용하여 테스트될 때의 망막 인코더 모델들의 성능을 보여주고 있다. 각 그림에서, 종래의 선형-비선형(LN) 모델의 성능은 왼쪽에 도시되어 있고, 이 출원에 기술된 유형의 선형-비선형(LN) 모델의 성능은 오른쪽에 도시되어 있다. 성능은 래스터 플롯(raster plot)과 PSTH(peri-stimulus time histogram)로 도시되어 있다.
도 1은 카메라(102), 인코더 모듈(104), 머신 비전 모듈(106), 및 머신 비전 모듈에 의해 제어되는 시스템(108)을 피처링(featuring)하는 예시적인 머신 비전 시스템(100)을 보여주고 있다. 카메라(102)는 시각 자극을 수신하여 이를 디지털 이미지 데이터, 예로, 디지털 이미지 스트림으로 변환한다. 이러한 디지털 이미지 데이터는 여기서 "원시" 이미지 데이터라 불릴 수 있다. 원시 이미지 데이터가 망막 인코더에 의한 처리 전의 임의 이미지 데이터를 포함할 수 있음은 이해하여야 한다.
인코더 모듈(104)은 이미지 데이터를 수신하고 이 데이터를 여기 및/또는 인공 기관 출원들에 기술된 유형의 1 이상의 망막 인코더를 이용하여 처리한다. "망막 이미지 데이터"라 불리는, 인코더 모듈의 출력은 머신 비전 모듈로 전달되고, 이 모듈은, 예를 들어, 이 방면에 알려져 있고 및/또는 여기에 기술되어 있는 1 이상의 머신 비전 기법을 이용하여 망막 이미지 데이터를 처리한다. 머신 비전 처리를 기반으로, 머신 비전 모듈(106)은 임의 적합한 목적을 위해 이용될 수 있는 출력을 생성한다. 도시된 바와 같이, 이 출력은 1 이상의 시스템(108), 예로, 로봇 시스템을 제어한다. 일부 실시 예들에서, 이미지 처리 및/또는 제어는 실시간이나 거의 실시간으로 실행될 수 있다.
도 1에 도시된 시스템은 단지 예시적인 것이며 다양한 다른 유형의 머신 비전 시스템이 이용될 수 있음은 이해하여야 한다. 예를 들어, 일부 실시 예들에서, 제어 시스템(108)은, 예를 들어, 머신 제어 모듈의 출력이 저장되어, 제어를 위해 이용되기보다는 추가 처리 등을 위해 출력되는 경우에는 없어도 좋다. 일부 실시 예들에서, 카메라(102)는, 예를 들어, 저장된 이미지 데이터의 소스에 의해 대체될 수 있다. 일부 실시 예들에서, 추가 요소들, 예를 들어, 다양한 프로세서 또는 제어기, 사용자 제어, 입력 또는 출력 장치, 등이 포함될 수 있다.
다양한 실시 예들에서, 카메라(102)는 시각 자극을 디지털 형식, 예를 들어, 디지털 이미지 스트림으로 변환할 수 있는 임의 장치일 수 있다. 다양한 실시 예들은 전하 결합 소자(CCD)에 기반을 둔 장치들; 상보 금속-산화물-반도체(CMOS) 센서, 박막 트랜지스터(TFT), 광다이오드 어레이와 같은 활성 픽셀 센서(APS); 및 이들의 결합을 포함할 수 있다.
카메라(102)에 의해 생성된 디지털 이미지들은 각각은, 예를 들어, 0.01-1000 메가픽셀의 범위나 그의 임의 부분 범위 내의 적어도 0.01 메가픽셀, 적어도 0.1 메가픽셀, 적어도 1 메가픽셀, 적어도 2 메가픽셀, 또는 그 이상을 포함할 수 있다. 디지털 이미지 스트림은, 예를 들어, 1-1000 Hz의 범위나 그의 임의 부분 범위 내의 적어도 10 Hz, 적어도 50 Hz, 적어도 100 Hz, 또는 그 이상의 프레임 레이트(즉, 초당 이미지 프레임의 수)로 특성화될 수 있다. 디지털 이미지들은 컬러, 그레이스케일, 블랙 및 화이트, 또는 다른 적합한 유형의 이미지일 수 있다.
일부 실시 예들에서, 카메라는 전하 결합 소자(CCD)에 기반을 두고 있다. 일 실시 예에서, 카메라(102)는 Point Grey Firefly MV 장치(초당 60 프레임으로, 752×480 픽셀, 8비트/픽셀이 가능)(Point Grey Research, Richmond, BC, Canada)이다. 다른 실시 예에서, 카메라(102)는 E-consystems e-CAM50_OMAP_GSTIX이며, 이는 Omnivision OV5642 카메라 모듈(초당 30 프레임으로, 1280×720 픽셀, 8비트/픽셀이 가능함)을 통합하고 있다.
일부 실시 예들에서, 이미지들은 카메라(102)에 의해 획득되어 장치(100)가 바람직하지 않은 지연시간 없이 작동할 수 있게 해주기에 충분한 속도로 인코더 모듈(104)에 전송된다. 이를 성취하기 위해, 일부 실시 예들에서, 고 대역폭 연결이 카메라(102)와 인코더 모듈(104) 사이에 제공된다. 예를 들어, 20 MB/sec보다 큰 데이터 전송은 카메라(102)와 처리 장치 사이의 USB 2.0 인터페이스를 이용하여 성취될 수 있다. 다른 실시 예들에서는, OMAP 3530 프로세서(Texas Instruments, Dallas, TX)의 카메라 이미지 신호 프로세서에 통합된 병렬 인터페이스와 같은 병렬 인터페이스가 카메라와 처리 장치 사이에 이용된다. 다양한 실시 예들에서, 유선 또는 무선 연결을 포함해서 다른 적합한 연결이 이용될 수 있다. 카메라(102)는 IEEE 1394 또는 USB 2.0과 같은 직렬 인터페이스; 병렬 인터페이스; NTSC 또는 PAL과 같은 아날로그 인터페이스; 무선 인터페이스를 포함하지만 이들에 한정되지 않는 고속 데이터 전송 가능한 임의 연결을 이용하여 인코더 모듈(104)과 인터페이스할 수 있다. 일부 실시 예들에서, 카메라는 인코더 모듈과 동일한 보드에 통합될 수 있다.
인코더 모듈(104)은, 예를 들어, 인코더가 이미지를 코드로 변환할 수 있게 하는 일과, 망막 회로의 동작을 모방하는 일을 포함해서, 여기에 기술된 기법을 이용하여 이미지 스트림의 처리를 구현한다. 인코더들에 의해 명시된 변환은 일련의 입력 이미지들에 적용되어, 인코딩된 출력이 생성된다. 예를 들어, 인코딩된 출력은 이미지들이 망막에 의해서 수신된 후 생성되었을 망막 세포들의 발화 레이트(firing rate)를 나타내는 값들의 형태일 수 있다. 출력은 또한, 예를 들어, 망막 세포 "생성기 전위", 즉 망막 모델의 선형 컴포넌트의 출력(선형 필터를 이용한 이미지의 콘볼루션의 출력)을 나타내는 정보일 수 있다. 인코딩된 출력은 망막 세포들에 의해 생성된 "스파이크"의 펄스 트레인을 나타낼 수 있다.
일부 실시 예들에서, 상이한 인코더 세트들은 상이한 유형들의 망막 출력 세포들이 있기 때문에 정상 망막의 처리를 더 잘 모방하는데 이용될 수 있다. 차이는 특정 세포 유형(예로, ON 세포 또는 OFF 세포) 또는 망막 상의 세포 위치(예로, 주변에 대한 중앙 망막 내의 ON 세포)에 해당할 수 있다. 인코더 모듈(104)이 2 이상의 인코더를 갖추고 있을 때, 인코더들은 적어도 1 이상의 연결 메커니즘에 독립적으로 또는 이들 메커니즘을 통해서 병렬로 동작할 수 있다.
도 2는 인코더 모듈(104)의 예시적인 실시 예의 동작을 보여주는 흐름도이다. 단계 201에서, 인코더 모듈(104)은 카메라(102)(또는 어떤 다른 적합한 소스)로부터 일련의 이미지를 수신한다. 선택 단계 202에서, 이들 원시 이미지들은, 예를 들어, 이미지들의 콘트라스트/세기를 다시 스케일하기 위해, 잡음 필터를 이미지들에 적용하기 위해, 이미지들을 잘라 내기(CROP) 위해, 등등을 위해서 전-처리된다.
단계 203에서, 원시 이미지들은 이들 이미지에 대한 망막 세포 반응을 나타내는 정보를 판정하기 위해 처리된다. 예를 들어, 일 실시 예에서, 이미지 필드 내의 다양한 위치에 대해서, 인코더들은 이미지 스트림을 처리하고, 이미지 스트림이 망막에 부딪히는 경우 망막 세포(또는 세포 그룹)에 의해 생성될 발화 레이트(firing rate)에 해당하는 시간 종속 값을 출력한다. 일 실시 예에서, 발화 레이트 출력은 다음과 같이 포맷된다: 주어진 시간 t에 대해서, 출력은 비트 매트릭스이고, 이 비트 매트릭스에서 위치(x,y)의 요소는 위치(x,y)의 망막 세포의 발화 레이트에 대응한다.
일부 실시 예들에서, 인코더들은 발화 레이트 이외의 메트릭을 이용하여 발화 세포의 응답을 나타내는 정보를 생성할 수 있다. 예를 들어, 인코더들의 출력은 세포의 활성화 상태, 세포 내 전위, 위에 언급된 생성기 전위, 등에 대응할 수 있다.
단계 204에서, 단계 203으로부터의 인코딩된 정보는 머신 비전 모듈(106)이 처리하기에 적합한 이미지(여기서는 "망막 이미지"라 칭해지고, 또는 시변(time-varying) 이미지를 참조할 때는 "망막 이미지 스트림" 또는 "망막 이미지 데이터 스트림"이라 칭해짐)를 생성하는데 이용된다. 예를 들어, 인코딩된 정보가 발화 레이트들의 매트릭스로서 출력되는 경우, 위에 기술된 바와 같이, 발화 레이트 망막 이미지가 생성될 수 있고, 여기서 "발화 이미지" 내의 각 픽셀의 세기는 매트릭스 내의 대응 요소의 발화 레이트 값에 의해 결정된다(예로, 도 3 참조). 선형 관계, 비-선형 관계, 다항식 관계, 대수 관계, 등을 포함해서, 발화 레이트와 픽셀 세기와의 임의 적합한 관계가 이용될 수 있다. 발화 레이트와 픽셀 세기간의 전환(conversion)은 룩-업 표의 이용을 포함해서 임의 적합한 기법을 이용하여 구현될 수 있다. 일부 실시 예들에서, 발화 레이트는 세기가 아닌 이미지 특성을 이용하여 망막 이미지에 표현될 수 있다. 예를 들어, 망막 이미지가 색 이미지인 실시 예에서, 각 픽셀의 색 공간 좌표는 발화 레이트에 대응할 수 있다.
선택 단계 205에서, 망막 이미지들이 후-처리된다. 예를 들어, 리스케일링(rescaling), 필터링, 크롭핑(cropping), 스무싱(smoothing), 등을 포함해서 임의 적합한 처리 기법이 이용될 수 있다. 단계 206에서, 망막 이미지들은 머신 비전 모듈(106)에 출력된다.
일부 실시 예들에서, 단계 204 및 단계 205는 생략될 수 있음에 유의하자. 이 경우에, 인코더의 출력은 바로 처리를 위해 머신 비전 알고리즘에 전송될 수 있다. 이 방면에 숙련된 자에게는 명백하듯이, 일부 경우에 이는 전통적인 이미지 데이터로 포맷되지 않은 입력 데이터를 받아들이기 위해 공지된 머신 비전 알고리즘의 수정을 필요로 할 수 있다. 그러나, 많은 실시 예에서, 이는 특정 알고리즘의 핵심 개념의 수정을 필요로 함이 없이 간단한 방식으로 성취될 수 있다.
일부 실시 예들에서, 각 인코더는 시공간적 변환 단계가 뒤따르는 전-처리 단계를 실행한다. 전-처리 단계는 리스케일링 단계이고, 이 단계는 실세계 이미지 I를 시공간적 변환의 연산 범위 내에 있는 양(quantities) X에 매핑(map)하는 처리 장치의 프리프로세서 모듈에서 실행될 수 있다. IX는 시변 양이고, 즉 I(j,t)는 각 위치 j와 시간 t에서의 실제 이미지의 세기를 나타내고, X(j,t)는 전-처리 단계의 대응 출력을 나타낸다는 것에 유의하자. 전-처리 단계는 다음과 같이 매핑할 수 있다: I(j,t)X(j,t)=a+bI (j,t)에 의해서 X(j,t)에 매핑되고, 여기서 a 및 b는 실세계 이미지 세기의 범위를 시공간적 변환의 연산 범위에 매핑하기 위해 선택된 상수이다.
리스케일링은 또한 양 a 및 b를 결정하기 위해 변수 이력(history)을 이용하여 실행될 수 있고, 상이한 조건(예로, 상이한 빛 또는 상이한 콘트라스트)에서 이들 양의 값들을 설정하기 위해 스위치가 이용될 수 있다.
그레이스케일 이미지의 경우, I(j,t)X(j,t)는 각 위치 j와 시간 t에서 하나의 값을 갖는다.
색 이미지의 경우, 동일한 전략이 이용되지만, 이는 각 색 채널, 적색, 녹색 및 청색에 개별적으로 적용된다. 일 실시 예에서, 세기 I(j,t)는 각 위치 j와 시간 t에서 3개의 값(I 1 , I 2 , I 3 )를 가지며, 여기서 3개의 값(I 1 , I 2 , I 3 )은 각각 적색, 녹색 및 청색 세기를 나타낸다. 각 세기 값은 이후 위의 변환에 의해서 그의 대응 X 값(X 1 , X 2 , X 3 )으로 리스케일된다.
일 실시 예에서, 시공간적 변환 단계는 선형-비선형 캐스케이드(Chichilnisky EJ 2001; Simoncelli et al 2004에서 검토됨)를 이용하여 실행되고, 여기서 각 신경절 세포 m에 대한 발화 레이트
Figure 112014027043498-pct00001
은 다음 식에 의해 주어지고:
Figure 112014027043498-pct00002
여기서, *는 시공간적 콘볼루션을 나타내고, L m m번째 세포의 시공간적 커널(kernel)에 대응하는 선형 필터이고, N m m번째 세포의 비선형을 기술하는 함수이고, 이전 장에서와 같이 X는 전-처리 단계의 출력이고, j는 픽셀 위치이고, t는 시간이다. 발화 레이트
Figure 112014027043498-pct00003
는 이후 위에 기술된 바와 같이 발화 레이트 망막 이미지를 생성하는데 이용될 수 있다.
L m 은 공간 함수와 시간 함수의 곱으로서 파라미터로 나타내어진다. 예를 들어, 일 실시 예에서, 공간 함수는 그리드(카메라에서 디지털화된 이미지) 상의 각 픽셀의 가중치(weight)로 구성되지만, 그리드(grid) 상의 직교 기본 함수들의 합과 같은 다른 대안이 이용될 수 있다. 일 실시 예에서, 그리드는 시각 공간의 전체 26 × 26 도(26 by 26 degrees)를 보조하는(subserving) 10 × 10 픽셀 어레이로 구성되지만(여기서 각 픽셀은 시각 공간에서 2.6 × 2.6 도이다), 다른 대안이 이용될 수 있다. 예를 들어, 망막 신경절 세포에 대응하는 시간 공간의 영역은 망막 상의 공간 위치에 따라서 그리고 종(species)에 따라서 변하기 때문에, 전체 어레이 사이즈는 변할 수 있다(예로, 정확히 또는 대략 0.1 × 0.1 도에서 30 × 30 도까지, 이는 10 × 10 픽셀 어레이 내의 각 픽셀에 대한 시각 공간에서 정확히 또는 대략 0.01 × 0.01 도 내지 3 × 3 도에 대응한다. 픽셀 어레이의 각(angle) 범위와 사이즈는 단지 한 특정 실시 예의 예시를 위해 제시되어 있을 뿐이고, 다른 범위의 픽셀 어레이의 도 또는 사이즈가 본 발명에 포함될 수 있다고 이해된다. 임의 선택된 어레이 사이즈의 경우, 어레이 내의 픽셀들의 수도 또한 세포가 나타내는 시각 공간 내의 영역(예로, 정확히 또는 대략 1 × 1 내지 25 × 25 픽셀의 어레이)의 모양에 따라서 변할 수 있다. 유사하게, 시간 함수는 수개의 시간 빈(bin)에서의 가중치들과 다른 시간 빈에서의 대수 시간의 올림 코사인 함수들의 합으로 구성된다(Nirenberg et al. 2010; Pillow JW et al. 2008). 직교 기본 함수들의 합과 같은 다른 대안도 이용될 수 있다.
이 실시 예에서, 시간 샘플들은 1.2 초의 전체 기간 동안 각각 67ms인 18개의 시간 빈에 걸쳐있지만, 다른 대안이 이용될 수 있다. 예를 들어, 상이한 신경절 세포들이 상이한 시간 특성을 지니고 있기 때문에, 빈들로 포괄되는 지속기간과 세포의 동력학(dynamics)을 나타내는데 필요한 빈의 수는 변할 수 있다(예로, 정확히 또는 대략 0.5 내지 2.0 초의 지속기간 및 정확히 또는 대략 5 내지 20의 빈의 수). 시간 특성은 또한 종마다 변할 수 있지만, 이러한 변화는 위의 범위 내에 포함될 것이다.
식 1은 또한 과거 이력(즉, 세포 m에 의해 이미 생성된 스파이크 트레인) 및 다른 신경절 세포들의 출력의 과거 이력에 따라서 인코더의 출력을 수정하는 항들(terms)을 포함하도록 수정될 수 있다(Nirenberg et al. 2010; Pillow JW et al. 2008).
다른 실시 예에서, 선형 필터 L m Q 항들의 합으로서 파라미터로 나타내어지고, 여기서, 항들 각각은 공간 함수와 시간 함수의 곱이다.
Figure 112014027043498-pct00004
여기서,
Figure 112014027043498-pct00005
은 외적(outer product)을 나타내고, Sk 및 Tk는 각각 k번째 공간 함수와 시간 함수를 나타낸다(k의 범위는 1에서 Q까지임).
이 실시 예에서, 개별 공간 함수들은 앞서 기술된 바와 같이, 예를 들어, 그리드 상의 각 픽셀의 가중치로서 또는 그리드 상의 직교 기본 함수들의 합으로서 파라미터로 나타내질 수 있다. 개별 시간 함수들은 또한 앞서와 같이, 예를 들어, 수개의 시간 빈에서의 가중치들과 다른 시간 빈들에서의 대수 시간 내의 올림 코사인 함수들의 합으로서 파라미터로 나타내어질 수 있다. 직교 기본 함수들의 합과 같은 다른 대안이 이용될 수도 있다.
일 실시 예에서, Q는 2이고 L m 은 다음과 같이 쓸 수 있다:
Figure 112014027043498-pct00006
여기서,
Figure 112014027043498-pct00007
는 외적을 나타내고, S 1 T 1 는 제1 쌍의 공간과 시간 함수이고, S 2 T 2 는 제2 쌍의 공간과 시간 함수이다.
L에 대한 양 파리미터 세트들(공간 및 시간)에 대해서, 해상도(픽셀 사이즈, 빈 사이즈)의 선택 및 스팬(span)(픽셀의 수, 시간 빈의 수)은 2개의 인자에 의해 결정될 수 있다: 망막의 코드에 대한 합리적으로 가까운 프록시(proxy)를 구할 필요성, 및 파라미터들이 실제 최적 절차에 의해서 결정될 수 있기에 충분히 적은 파라미터의 수를 유지할 필요성(예로, 인공 기관 출원들에서 상세히 기술된 바와 같은). 예를 들어, 파라미터의 수가 너무 작거나 해상도가 너무 낮으면, 프록시는 충분히 정확하지 않을 것이다. 파라미터의 수가 너무 많으면, 최적화 절차가 오버피팅(overfitting)되어, 최종 변환(식 1)이 일반화되지 않을 것이다. 적당한 세트의 기본 함수의 이용은 파라미터의 수를 줄여서 오버피팅을 피하기 위한 전략, 즉 "차원 축소" 전략이다. 예를 들어, 시간 함수(각 67 ms인 18개의 시간 빈을 커버하는)는 10개의 가중치와 기본 함수들의 합에 의해 파라미터로 나타내어질 수 있다; 인공 기관 출원의 "예 1, 인코더 구축 방법" 및 (Nirenberg et al., 2010; Pillow JW. et al. 2008) 참조.
비선형성 N m 은 큐빅 스플라인(cubic splines)으로서 파라미터로 나타내지지만, 구분적 선형(piecewise linear) 파라미터, 고차 스플라인, 테일러 급수 및 테일러 급수의 몫(quotients)과 같은 다른 파라미터들이 이용될 수 있다. 일 실시 예에서, 비선형성 N m 은 7개의 노트(knot)를 갖는 큐빅 함수로서 파라미터로 나타내어질 수 있다. 노트의 수는 오버피팅이 방지되면서 비선형성의 모양이 정확히 캡처되도록 선택된다(위의 오버피팅 논의 참조). 엔드포인트(endpoint)를 제어하기 위해서는 적어도 2개의 노트가 필요하며, 그래서 노트의 수는 약 2개 내지 적어도 약 12개의 범위에 있을 수 있다. 노트들은 모델들의 선형 필터 출력에 의해 제공된 값들의 범위를 커버할 수 있게 간격을 두고 있다.
시공간적 변환 단계의 경우, 위에 기술된 선형-비선형(LN) 캐스케이드 외에도, 대안 매핑들이 본 발명의 범위 안에 있다. 대안 매핑은 선형-비선형-선형(LNL) 캐스케이드와 같은, 인공 신경망 및 다른 필터 조합을 포함하지만 이들에 한정되지 않는다. 게다가, 시공간적 변환은 이력-종속을 제공하기 위해서 스파이크 생성기 스테이지(이하 참조)로부터의 피드백을 포함할 수 있고 (Pillow JW et al. 2008; Nichols et al. 2010)에서와 같은 신경세포들 간의 상관관계를 포함할 수 있다. 예를 들어, 이는 부가의 필터 함수들을 스파이크 생성기의 출력으로 콘볼루션하고 이 콘볼루션의 결과를 식 1의 비선형성의 인수(argument)에 부가함으로써 구현될 수 있다.
시공간적 변환 단계에 다른 모델들도 이용될 수 있다. 이들 모델의 비-제한 예는 Pillow JW et al. 2008, 동적 이득 제어, 신경망에 기술된 모델, 이산 시간 단계들 - 그의 형식과 계수는 실험 데이터에 의해 결정됨 - 에서 근사치로 계산된 적분, 미분 및 통상의 대수 방정식들의 계들의 솔루션으로 표현된 모델들, 선형 투영(시공간적 커널을 이용한 입력의 콘볼루션) 및 비선형 왜곡(파라미터화된 비선형 함수에 의한 최종 스칼라 신호의 변환)으로 구성되는 일련의 단계 - 이들의 형식과 계수는 실험 데이터에 의해 결정됨 - 의 결과로서 표현된 모델들, 시공간적 커널이 작은 수의 항들의 합이고, 그의 각각은 실험 데이터에 의해 결정되는, 공간 변수의 함수와 시간 변수의 함수와의 곱인 모델들, 이들 공간 및/또는 시간 함수들이 기본 함수 집합 - 기본 함수 집합의 사이즈는 공간 또는 시간 샘플들의 수보다 작으며 가중치는 실험 데이터에 의해 결정됨 - 의 선형 결합으로 표현되는 모델들, 비선형 함수들이 하나의 세그먼트 또는 세그먼트들로 구성되고, 그의 각각은 다항식이고 그의 컷 포인트(cut point) 및/또는 계수는 실험 데이터에 의해 결정되는 모델들, 및 덧셈, 뺄셈, 곱셈, 나눗셈, 루트, 멱, 및 초월 함수(예로, 누승, 사인 및 코사인)와 같은 계산 단계를 통해서 가능한 회귀적으로 상기 모델들의 출력을 결합하는 모델들을 포함한다.
인공 기관 출원들에 기술되어 있는 바와 같이, 위에 기술된 유형의 인코더들은 실제 망막 세포들의 입력/출력 기능을 아주 면밀하게 모방할 수 있다. 거기에 기술되어 있는 바와 같이, 일부 경우들에서, 이는 각 픽셀의 재구성된 망막 이미지의 값과 대응하는 원시 이미지의 값 간의 표준 피어슨 상관계수를 판정함으로써 특성화될 수 있다. 그래서, 1의 상관계수는 오리지널 이미지의 정보 모두가 완벽하게 보유되어 있음을 나타나고, 0의 상관계수는 실제 이미지에 대한 재구성의 닮음이 확률(chance)보다 크지 않음을 나타낸다.
예를 들어, 일부 실시 예들에서, 인코더는 테스트 입력 자극과 이 테스트 입력 자극에 대한 응답으로 인코더에 의해 생성되는 인코딩된 데이터로 재구성된 대응하는 자극 간의 피어슨 상관계수가 적어도 약 0.35, 0.65, 적어도 약 0.05, 또는 그 이상, 예를 들어, 0.35-1.0의 범위 또는 그의 임의 부분 범위에 들도록 구성된다. 일부 실시 예에서, 테스트 입력 자극은 일련의 자연 경관(예로, 시공간적으로 변하는 경관들)을 포함한다.
일부 실시 예들에서, 여기에 기술된 유형의 망막 인코더들은 넓은 범위의 입력, 예를 들어, 공간-시간으로 가변하는 자연 경관에 대한 실제 망막 세포들의 입력/출력 기능을 모방한다. 통상적인 실시 예들에서, 이러한 성능은 종래의 인코더들보다 훨씬 우수하다.
도 18a-18f는 풍경, 사람의 보행, 등을 포함하는 자연 경관의 영화를 이용하여 테스트될 때 다양한 세포들(각각 세포 1-6)에 대한 망막 인코더 모델의 성능을 보여주고 있다. 각각의 그림에서, 종래의 선형-비선형(LN) 모델의 성능은 왼쪽에 도시되어 있고, 이 출원에 기술된 유형의 선형-비선형(LN) 모델의 성능은 오른쪽에 도시되어 있다. 성능은 래스터 플롯과 자극에 대한 시간 히스토그램(peri-stimulus time histogram, PSTH)들을 통해 도시되어 있다. 종래의 (LN) 모델은 단지 백색 잡음 자극에 대한 망막 세포들의 경험 응답을 기반으로 개발되었다. 대조적으로, 이 출원에 기술된 유형의 선형-비선형(LN) 모델은 백색 잡음과 자연 경관 자극에 대한 기록된 세포 응답을 기반으로 개발되었다.
도시된 예들의 경우에, 양 유형의 모델에 대한 입력 테스트 자극은 뉴욕시의 센트럴 파크에서 촬영된 자연 경관의 영화이다. 도시된 바와 같이, 표준 LN 모델은 자연 경관 자극에는 크게 효과적은 아니다: 즉, 백색 잡음 자극을 이용하여 구축되는, 이 모델은 실제 세포의 스파이크 패턴에 거의 부합하는 스파이크 패턴을 생성하지 못한다. 대조적으로, 백색 잡음 및 자연 경관 자극을 이용하여 구축되는, 이 출원에 기술된 LN 모델은 상당히 효과적이다. 이 모델이 생성하는 스파이크 패턴은 거의 실제 세포의 스파이크 패턴에 부합한다. (이들 모델을 테스트하는데 이용된 자연 경관 영화는 임의 모델의 유효성을 검사하기 위해 필요한 것과 같이 모델들을 트레이닝하는데 이용된 자연 경관 모델과는 다르다는 점에 유의하자. 또한 각 그림에서 동일한 실제 세포가 두 유형의 모델에 대한 기초로서 이용되는 점에 유의하자. 마지막으로, 여기에 기술된 유형의 인코더 모델들의 성능은 영화를 포함해서 얼굴들, 사람의 보행, 아이들 놀이, 풍경들, 나무들, 작은 동물들 등의 많은 다른 자극을 이용해 입증되었음에 유의하자 - 이는 인공 기관 출원과 Nirenberg, et al. Retinal prosthetic strategy with the capacity to restore normal vision, PNAS 2012 및 수반된 보충 정보 섹션에 도시되어 있으며 이는 www.pnas/lookup/suppl/doi:10.1073/pans.1207035109/-/DCSupplemental에서 구할 수 있다).
성능에 대해서 동일한 결론들이 PSTH들로부터 도출될 수 있다. 옅은 그레이 트레이스는 실제 세포의 평균 발화 레이트를 보여주며; 짙은 그레이 트레이스는 모델 세포들의 평균 발화 레이트를 보여주고 있다. 표준 LN 모델은 발화 레이트의 많은 피처를 놓치고 있고; 상이한 도 18a-18f 각각은 표준 모델이 놓친 상이한 피처들의 예를 보여주고 있다. 그러나, 이 출원에 기술된 모델은, 발화 레이트들의 피처들을 믿을 만하게 캡처하며 상이한 세포들의 어레이에 대해서도 마찬가지다(많은 다른 예들이 인공 기관 출원에 도시되어 있다).
도 3a는 망막 이미지로의 원시 이미지의 변환을 보여주고 있다. 패널 A는 카메라(102)가 획득한 원시 이미지 스트림의 수개의 프레임을 보여주고 있다. 도시된 바와 같이, 원시 이미지 스트림은 복잡한 환경 속에서 걷고 있는 사람을 포함한다. 패널 B는 대응하는 망막 이미지 프레임들을 보여주고 있고, 여기서 망막 이미지 픽셀 세기들은 인코더 모듈(104)의 인코더들이 생성한 발화 레이트들에 대응한다. 4개의 상이한 망막 이미지 스트림들이 도시되어 있고, 각각은 상이한 세포 어레이(그림에 나타나 있듯이, OFF 미지트 세포, ON 미지트 세포, OFF 파라솔 세포, 및 ON 파라솔 세포)를 이용한다. 도시된 망막 이미지 프레임들은 자연 망막에서의 대응하는 처리 지연 시간(도시된 바와 같이, 대략 80 ms)인 짧은 시간 지연 후에 인코더 모듈(104)에 의해 생성된다는 점에 유의하자.
망막 이미지들에 포함되어 있는 전체 정보량은 원시 이미지들의 전체 정보량보다는 적다는 점에 유의하자. 이러한 정보 축소는 바람직하게 머신 비전의 처리 부하를 줄여줄 수 있다. 더욱이, 인코더들은 망막의 행동을 모방하기 때문에, 일부 머신 비전 응용의 경우에, 망막 이미지들에 포함되어 있는 정보는 머신 비전 태스크에 바로 필요한 핵심적인 피처들을 포함하며, 따라서 머신 비전 모듈(106)의 효율적이고 효과적인 동작이 가능해진다.
도 3b-3f는 도 3a의 마지막 열에 대응하는 원시 이미지(도 3b) 및 망막 이미지(도 3c-3f)의 확대 도이다. 원시 이미지에서, 사람 그림은 비교적 정적이지만 복잡한 환경에서 우에서 좌로 이동하고 있다. 모든 망막 이미지(도 3c-3f)에서, 정적 환경은 도(degree)가 변하도록 비-강조되었지만 이동하는 사람은 강조되었음을 유의하자. 게다가, 양 이미지에서, 모션 방향의 표시를 제공하는 "모션 섀도우" 유형 효과가 사람 그림 뒤에서 뚜렷하다. 따라서, 이미지에 포함된 전체 정보량이 축소되었더라도, 남아있는 것이 중요한 피처들, 즉 이동하는 사람 형상을 강조한다.
이들 효과는 의도적으로 설계된 프로그래밍의 결과가 아님에 유의하자. 즉, 인코더는 움직이는 피처를 식별하도록 의도적으로 프로그램되지 않았다. 대신에 이들 피처의 강조는 인코더가 망막에서 나타나는 자연 처리를 모방한다는 사실의 결과이다. 특정 유형의 강조된 피처들이 본 예(정적 배경과 대조하여 움직이는 사람)에서 뚜렷할지라도, 다른 유형의 입력 이미지들의 경우 망막은 다른 유형의 피처들을 강조한다는 점을 이해하여야 한다. 핵심 개념은, 일반적으로, 임의 주어진 이미지 집합들에 대해서 강조된 피처들은 망막의 수백만 년에 걸친 진화를 기반으로 핵심인 것으로 판정된 것들이라는 점이다. 따라서, 이하 상세히 기술되듯이, 망막 이미지들은 특히 생물학 비전 시스템이 잘 실행되는 머신 비전 응용(예를 들어, 얼굴 인식, 복잡한 배경과 대조한 사람이나 다른 생물 형태의 식별, 복잡한 환경 속에서의 내비게이션, 움직이는 물체의 빠른 추적 및 그에 대한 반응, 등)에 이용될 때 특히 유리하다).
일부 실시 예들에서, 인코더들은 정상 또는 거의-정상 망막에 의해 실행되는 인코딩과 거의 동일한 시간 스케일에서 이미지 데이터를 인코딩한다. 다양한 실시 예에서, 인코더는 허용가능한 처리 지연 시간으로 동작한다. 여기에 이용된 바와 같이, 처리 지연 시간은 카메라(102)에 의해 수신된 시각 자극에서의 이벤트 발생과, 머신 비전 모듈(106)로의 대응 출력 코드(예로, 대응 망막 이미지들)의 전달 간의 시간 양을 나타낸다. 일부 실시 예들에서, 인코딩 모듈은 약 50 ms 미만, 약 20 ms 미만, 약 10 ms 미만, 약 5 ms 미만, 등, 예를 들어, 5-50 ms의 범위 또는 그의 임의 부분 범위 내의 지연 시간을 갖는다.
다시 도 1을 참조하면, 머신 비전 모듈(106)은 인코더 모듈(104)로부터 망막 이미지를 수신하고 이 이미지를 임의 적합한 머신 비전 기술을 이용하여 처리한다. 다수의 그러한 기술이 여기에 언급되어 있을지라도, 이들 예는 제한이 아니며 다른 기술들이 이용될 수 있음을 이해하여야 한다. 예를 들어, 다양한 실시 예에서, D. A. Forsyth, J. Ponce Computer Vision : A Modern Approach, Second edition Prentice Hall, 2011 및/또는 D.H. Ballard, C.M. Brown; Computer Vision, Prentice-Hall Inc New Jersey, 1982 ( http://homepages.inf.ed.ac.uk/rbf/BOOKS/BANDB/bandb.htm에서 온라인으로 구입 가능), R. Szeliski, Computer Vision : Algorithms and Applications, Springer 2010(http://szeliski.org/Book/drafts/SzeliskiBook_20100903_draft.pdf에서 온라인으로 구입 가능); 및 E.R. Davies, Computer and Machine Vision , Fourth Edition: Theory , Algorithms , Practicalities, Elsevier 2012에 기술되어 있는 기술들 중 1 이상이 이용될 수 있다.
다양한 실시 예에서, 머신 비전 모듈(106)은 1 이상의 이용가능한 컴퓨터 비전 알고리즘 또는 소프트웨어 툴, 예를 들어, http://opencv.willowgarage.com/wiki/ 에서 구할 수 있는 OpenCV 소프트웨어 패키지 또는 http://gandalf-library.sourceforge.net/에서 구할 수 있는 Gandalf 컴퓨터 비전 소프트웨어 패키지에 포함되어 있는 것들 중 임의 것을 구현할 수 있다.
머신 비전 모듈(106)은 인식 태스크(예로, 물체 인식, 이미지 분류 얼굴 인식, 광학 캐릭터 인식, 콘텐츠-기반 이미지 검색, 자세 예측, 등), 모션 분석 태스크(예로, 자체 운동 판정, 움직임 추적, 광학적 흐름 판정, 등), 모델링 태스크(예로, 장면 재구성, 3D 볼륨 인식, 등)을 포함하는 임의 적합한 태스크를 실행하는데 망막 이미지를 이용할 수 있다.
일부 실시 예들에서, 머신 비전 모듈(106)은 비전 필드를 도메인들로 나눌 수 있고, 이들은 균등한 또는 균등하지 않은 사이즈를 가질 수 있다. 도메인들은 오버랩될 수 있거나 그렇지 않을 수 있다. 도메인들은 시각 필드의 일정 밴드(예로, 수평축 상의 전체 뷰의 필드 및 수직축 상의 한정된 범위(span))를 커버할 수 있고 또는 전체 뷰의 필드를 커버할 수 있다.
일부 실시 예들에서, 머신 비전 모듈(106)은, 예를 들어, Canny 에지 검출과 같은 일차 에지 검출 기법, 2차 에지 검출 기법, 또는 상 합치(phase congruency) 기반 에지 검출 기법을 포함해서 경계 에지 검출 기법을 망막 이미지에 적용할 수 있다. 에지 검출은 1 이상의 변환, 예를 들어, Hough 변환을 망막 이미지에 적용하는 것을 포함할 수 있다.
일부 실시 예들에서, 머신 비전 모듈(106)은 망막 이미지들의 스트림을 기반으로 광학적 흐름을 계산할 수 있다. 광학적 흐름은 관측자(눈 또는 카메라)와 장면 간의 상대 이동에 의해 발생한 시각 장면 내의 뚜렷한 물체, 표면 및 에지의 이동에 대한 패턴을 나타낼 수 있다. 광학적 흐름은 모션 검출, 물체 세그멘테이션, TTC(time-to-collision) 및 FOE(focus of expansion) 계산 등을 포함해서 임의 수의 응용에 이용될 있다. 광학적 흐름을 계산하는 방법은 위상 상관 방법, 블록-기반 방법, 미분법(예로, Lucas-Kanade, Horn-Schunck, Buxton-Buxton, 및 Black-Jepson 방법), 변분법, 이산 최적화 방법 등을 포함할 수 있다.
일부 실시 예들에서, 머신 비전 모듈(106)은 망막 이미지들을 구획하기 위해(예로, 관심 영역들을 식별하기 위해) 1 이상의 이미지 세그멘테이션 기법을 적용할 수 있다. 예시적인 세그멘테이션 기법은 쓰레쉬홀딩(thresholding), 클러스터링 방법, 압축-기반 방법, 히스토그램-기반 방법, 에지 검출(예로, 위에 기술된 에지 검출 기법을 이용하는), 영역 확장 방법, 분할-합병 방법, 편미분 방정식 기반 방법(예로, 레벨 설정 방법), 그래프 분할 방법, 워터쉐드(watershed) 변환 기반 방법, 모델 기반 세그멘테이션 방법, 멀티-스케일 세그멘테이션, 세미-오토매틱 세그멘테이션, 신경망 기반 세그멘테이션, 등을 포함한다.
다양한 실시 예에서, 머신 비전 모듈(106)은 이 방면에 공지된 임의 컴퓨터 학습 기법을 이용하여 트레이닝될 수 있다. 컴퓨터 학습 기법은 지도 학습(예로, 통계 분류 기법을 포함해서), 자율 학습, 보강 학습, 등을 포함한다. 일부 실시 예들에서, 머신 비전 모듈(106)은 다양한 태스크를 실행할 수 있게 트레이닝될 수 있는 1 이상의 인공 신경망을 포함할 수 있다.
도 4는 머신 비전 시스템(100)의 머신 비전 모듈(106)을 트레이닝하기 위한 에시적인 트레이닝 시스템(400)을 보여주고 있다. 트레이닝 시스템은 원시 트레이닝 이미지(예로, 저장된 이미지의 데이터베이스)의 소스(402), 여기에 기술된 기법들을 이용하여 원시 트레이닝 이미지를 기반으로 망막 이미지를 생성하는 인코더 모듈(404) - 머신 비전 모듈(108)은 이 인코더로부터 망막 이미지를 수신함 - , 및 머신 비전 모듈의 동작을 모니터하고 모니터된 성능을 기반으로 머신 비전 모듈의 동작을 수정하는 제어기(406)를 포함한다.
도 5는 트레이닝 시스템(400)의 동작을 보여주는 흐름도이다. 단계 501에서, 인코더(404)는 소스(402)로부터 트레이닝 이미지를 수신한다. 예를 들어,트레이닝 이미지는 일련의 의학적 종양 이미지일 수 있고, 이들 이미지의 제1 부분은 악성 종양에 해당하고, 트레이닝 이미지의 제2 부분은 양성 종양에 해당한다.
단계 502에서, 인코더는 원시 트레이닝 이미지를 망막 이미지로 변환한다. 단계 503에서, 망막 이미지는 머신 비전 모듈(106)에 출력된다.
단계 504에서, 제어기(406)는 머신 비전 모듈(106)이 이떤 태스크를 실행하기 위해 망막 이미지를 처리할 때 그의 성능을 모니터한다. 의학적 이미지의 경우에, 머신 비전 모듈(106)은 악성 종양 이미지를 양성 종양 이미지로부터 구별하기 위해 이미지 인식 기법을 적용할 수 있다. 제어기는 머신 비전 모듈(106)이 이러한 태스크(예로, 악성 종양을 구별하는데 있어서 오차 레이트를 계산하는 일)를 실행할 때 그의 성능을 모니터한다. 이 성능이 허용가능하면, 처리는 단계 505에서 끝난다. 이 성능이 허용가능하지 않다면(예로, 오차 레이트가 임계 레벨을 넘어서면), 단계 506에서 제어기(406)는 머신 비전 모듈(106)을 조정하고(예로, 1 이상의 파라미터를 수정함으로써, 인공 신경망의 연결들을 변경함으로써, 등등), 처리는 단계 503으로 복귀한다. 따라서, 제어기(406)는 머신 비전 모듈(106)의 성능이 허용가능한 레벨(예로, 오차 레이트가 임계 레벨 미만인)에 도달할 때까지 머신 비전 모듈(106)을 반복적으로 조정한다.
다양한 실시 예에서, 다른 적합한 유형의 트레이닝이 이용될 수 있음을 유의하자. 예를 들어, 성능을 정해진 임계값에 비교하는 것 외에 또는 그의 대안으로, 트레이닝은 수렴 기준(예로, 이 기준에서는 반복마다 성능 증가가 임계 레벨 미만이 될 때까지 반복 트레이닝이 계속됨)을 실시할 수 있다.
다양한 실시 예에서, 머신 비전 모듈(106)은 복잡한 인공 지능 기반 시스템의 이용을 포함해서 임의 적합한 제어 기법을 포함할 수 있다. 그러나, 다수의 응용에 있어서, 머신 비전 모듈(106)은 비교적 간단한 제어 스킴을 실시할 수 있다. 일부 그러한 실시 예들에서, 머신 비전 모듈(106)은 인코더 모듈로부터 수신된 망막 이미지들의 비교적 간단한 모멘트-투-모멘트 분류(moment to moment classification)를 기반으로 1 이상의 시스템(예를 들어, 로봇의 이동 궤도)의 동작 중 일부 또는 모두를 제어한다. 즉, 제어는 복잡한 플래닝뿐만 아니라 시간적 로컬라이즈형 분류에 의존하지 않는다. 유리하게도, 이 방면에 공지된 학습 알고리즘은 이들 유형의 비교적 간단한 분류 태스크의 성능을 받아들일 수 있는 것으로 알려져 잇다.
예를 들어, 도 6을 참조하면, 일 실시 예에서, 머신 비전 시스템(100)은 장애물, 예를 들어, 도시된 것과 같은 미로 특징 환경에서 길을 찾도록 로봇(600)을 제어하는데 이용된다. 머신 비전 시스템의 카메라(102)는 로봇(600)에 장착되어 있고 로봇 전방의 장면을 캡처하는 뷰 필드를 갖고 있다.
카메라(102)로부터의 비디오 스트림은 인코더 모듈(104)에 의해 처리되어 망막 이미지 스트림이 생성된다. 한 경우에, 인코더 모듈은 쥐 망막 신경절 세포의 성능을 모방할 수 있다(예를 들어, 명칭이 "Example set of encoder parameters for a mouse ganglion cell"인 인공 기관 출원의 세부항목에 제시되어 있는 인코더 파라미터에 의해서 특성화된 인코더를 이용하여). 다른 경우에, 인코더 모듈은 원숭이 망막 세포의 성능을 모방할 수 있다(예를 들어, 명칭이 "Example set of encoder parameters for a monkey ganglion cell"인 인공 기관 출원의 세부항목에 제시되어 있는 인코더 파라미터에 의해서 특성화된 인코더를 이용하여).
망막 이미지 스트림은, 예를 들어, 광학적 흐름 기법을 이용하여, 이미지 내의 다양한 위치에서의 모션 속도를 판정하기 위해 처리된다. 일반적으로, 속도가 느린 이미지 내의 위치들 및 도메인들은 로봇(600)으로부터 떨어져 있는 물체들에 대응하고, 한편 속도가 빠른 위치들은 로봇에 가까운 물체들에 대응한다. 장애물로 달려가는 것을 방지하기 위해서, 머신 비전 모듈(106)은 로봇을 이미지 내의 느린 이동 위치들에 대응하는 방향으로 이동하도록 제어한다.
예를 들어, 일 실시 예(도 7에 도시된)에서, 시각 필드(즉, 망막 이미지 데이터 스트림)은 이미지 세그멘테이션 단계 702에 의해서 N=7 균등-크기 영역들로 분할된다. 이 실시 예에서, 이들 영역은 오버랩되지 않으며, 이들은 각각이 수평으로 5.7°에 걸쳐있도록 카메라의 수평 뷰 필드(이는 40°임)를 좌에서 우로 나누고; 수직 방향으로는 이들 영역이 수직으로 13.5°에 걸쳐있도록 내비게이터의 뷰 필드(이는 27°임)의 하부 반에 한정된다. 규칙적인 간격(예로, 매 2초)으로, 분류를 위해 2개의 연속 망막 이미지가 망막 이미지 시퀀스로부터 취해져서 머신 비전 모듈(106)에 전송된다. 각각의 망막 이미지는 N 개의 영역으로 분리되었으므로, 머신 비전 모듈은 N 쌍의 영역을 수신한다. 각 쌍은 콘볼루션 신경망(CNN)(704)을 통해 통과되고, 이 콘볼루션 신경망은 해당 영역 내의 광학적 흐름 속도를 분류한다. 이러한 분류의 출력은 각 영역 i에 대한 속도 라벨 L i 일 수 있고, L i 는 1과 M 사이의 숫자이고, 1은 이 영역의 매우 느린 평균 속도를 나타내고 M은 매우 빠른 평균 속도를 나타낸다. 예를 들어, M은 8일 수 있고, 그러므로 8개의 상이한 속도 분류가 있다.
이 결과는 N개의 분류 어레이(706)이고; 이들을 기반으로, 회전 결정이 회전 결정 모듈(708)에 의해 이루어진다. "타겟 영역"(진행 영역)은 가장 느린 속도 분류, 가장 작은 수 L i 를 갖는 영역으로 선택된다. 가장 느린 속도 분류에 결부된 영역이 다수라면, 회전 결정 모듈(708)은 시스템의 필요한 이용을 기반으로 중앙(회전량을 최소화하기 위해) 또는 어떤 다른 영역에 가장 가까운 영역을 선택할 수 있다. 타겟 영역이 선택되면, 머신 비전 모듈(106)(구체적으로, 머신 비전 모듈(106) 내의 회전 결정 모듈(708))은 내비게이터가 타겟 영역의 중앙에 마주하게 회전을 개시한다.
위의 예는 로봇의 내비게이션을 참조하고 있다. 다양한 실시 예에서, 위의 기법들은 아래의 예에 기술된 바와 같은 가상 세계를 통한 내비게이션을 포함해서 다른 유형의 내비게이션에 이용될 수 있다.
예를 들어, 머신 비전 모듈(106)은 망막 이미지 스트림의 이미지 필드를 수개의 영역 또는 도메인으로 나누고 이들 영역을 속도 카테고리로 분류하고, 가장 낮은 속도 카테고리에 있는 이미지 영역에 대응하는 방향으로 이동하도록 로봇(600)을 제어함으로써 장애물을 식별하여 피할 수 있다. 머신 비전 모듈(106)은 위에 기술되고 이하 예에 기술된 CNN 또는 부스팅(boosting) 알고리즘과 같은 비교적 간단한 트레이닝 알고리즘을 이용하여 이러한 분류 태스크를 실행할 수 있게 트레이닝될 수 있다(예로, the AdaBoost algorithm, Yoav Freund, Robert E. Schapire. "A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting", 1995 참조).
일반적으로, 이들 장치 및 기법은 의학적 이미지 처리(예로, 자동 또는 컴퓨터 지원 메디컬 진단), 로봇 제어 또는 내비게이션, 산업적 처리 모니터링 및 제어, 자동 분류 응용, 모션 추적 기반 인터페이스(예로, 컴퓨터 게임 시스템에 이용되는 것), 등을 포함하는 임의 적합한 응용에 이용될 수 있다. 여기에 기술된 장치와 기법들은 실시간 또는 거의 실시간으로 동작할 수 있어, 예를 들어, 위에 언급한 응용의 실제 자동화가 가능해진다.
예 - 가상 세계 내비게이션
머신 비전에 대한 한 접근법의 효과를 평가하는 일 예로, 내비게이션 태스크가 이용되었으며, 이는 특히 도전적인 과제(공간과 시간 양자의 처리가 요구되는)이다. 이러한 접근법은, 예를 들어, LeCun, Y. et al. (2010) Convolutional Networks and Applications in Vision. Proc. International Symposium on Circuits and Systems (ISCAS'10), pp. 253-256. IEEE; Szarvas, M. et al. (2005) Pedestrian detection with convolutional neural networks. Proc. Intelligent Vehicles Symposium, pp. 224-229. IEEE; Jackel, L. D. et al. (2006) The DARPA LAGR program: Goals, challenges, methodology, and phase I results. Journal of Field Robotics, 23, 945-973 - 이들 각각은 참조로 여기에 전체가 통합되어 있음 - 에 기술된 바와 같이 내비게이션을 위해 공통으로 이용된 수개의 학습 알고리즘의 양태들을 적용하였다. 이들 기법을 이용하여, 콘볼루션 신경망(CNN) - 학습 알고리즘을 이용하여 그의 환경을 학습하는 내비게이터를 구성하였다. CNN은 Theano라 불리는 오픈-소스 수치 처리 및 자동 미분 패키지(http://deeplearning.net/software/theano/를 통해 대중에게 공개되어 있음)를 이용하여 구성되었다.
내비게이터는 그의 트레이닝 환경에 있는 사물들의 속도를 학습하도록 설계되었다. 내비게이터에는 트레이닝 환경이 주어졌고 내비게이터는 시간의 각 순간에 있는 트레이닝 환경을 n 도메인으로 나누는데 이용되었다. 이후 내비게이터는 도메인들 내의 속도를 학습한다. 이 속도는 내비게이션을 위한 유용한 정보를 제공한다. 무언가가 매우 빠르게 움직이고 있다면, 무언가가 환경을 내비게이션하는 가상 물체에 매우 접근해 있다는 것을 의미한다(이는 당신의 망막을 가로질러 빠르게 이동하고 있다). 근접해 있다면, 가상 물체는 무언가에 부딪힐 것이다. 그래서 내비게이터는 이 환경 내의 도메인들을 평가하고 나서 속도가 가장 느린 도메인 쪽으로 이동한다(속도가 가장 느린 것은 가장 멀리 떨어져 있어서 안전하다). 이 예에서, 내비게이터는 특정한 종점으로 나아가지 않고 앞으로 가지만 무언가와 충돌하지 않는다.
좀더 구체적으로 이 예에서, 도 7에 도시된 방법을 이용하여, 내비게이터가 환경을 횡단할 때, 그의 시각 필드는 이미지 세그멘테이션 단계 702에 의해서 7개의 균등-크기 영역들로 나눠진다. 이 실시 예에서, 이들 영역은 오버랩하지 않고, 이들은 각각이 수평으로 5.7°에 걸쳐있도록 카메라의 수평 뷰 필드(이는 40°임)를 좌에서 우로 나누고; 수직 방향으로는 이들 영역이 수직으로 13.5°에 걸쳐있도록 내비게이터의 뷰 필드(이는 27°임)의 하부 반에 한정된다.
각 결정 시점에, 콘볼루션 신경망(CNN)에 기반한 알고리즘은 각 도메인 내의 광학적 흐름 속도를 분류한다(단계 704). 이 분류의 출력은 각 도메인 i
대한 속도 라벨 L i 이고(단계 706), 여기서 L i 는 1과 8 사이의 숫자이고 1은 도메인 내의 매우 느린 평균 속도를 나타내고, 8은 매우 빠른 평균 속도를 나타낸다.
앞서 기술된 바와 같이, 이들 분류를 기반으로, 7개의 도메인 각각 마다, 회전 결정 모듈에 의해 내비게이션 결정이 행해진다(708). "타겟 도메인"(진행 영역)은 가장 느린 속도 분류를 갖는 영역으로 선택된다. 가장 느린 속도 분류에 결부된 도메인이 다수라면, 내비게이터는 중앙에 가장 가까운 것을 선택하고(회전량을 최소화하기 위해서); 아직도 결부된 것이 있다면, 내비게이터는 왼쪽의 도메인을 선택해서 이러한 결부를 끊는다. 타겟 영역이 선택되면, 머신 비전 모듈(106)은 내비게이터가 선택된 영역의 중앙을 마주하도록 회전을 개시한다.
Panda3D라 불리는 오픈-소스 3D 렌더링 프레임워크(http://www.panda3d.org/로 대중에 개방됨)를 이용하여 트레이닝 및 테스팅을 위한 가상 환경이 창출되었다. 트레이닝 세트로부터의 프레임 스트림들은 도 8에 도시되어 있고; 3개의 테스팅 세트로부터의 프레임 스트림들은 도 9a, b, c에 도시되어 있다. 도시된 바와 같이, 트레이닝 세트는 시골 환경이었다. 3개의 트레이닝 세트는 다음과 같았다: 트레이닝 세트에 이용된 것과는 다른 시골 환경, 교외 환경, 및 운동장.
내비게이터의 성능은 2개의 조건에서 비교되었다: 1) 내비게이터가 표준 방식으로, 즉 입력으로서 원시 이미지 스트림을 이용하여 트레이닝되었을 때, 및 2) 내비게이터가 입력으로서 "망막 이미지 스트림"을 이용하여 트레이닝되었을 때, 즉 우리의 인코더를 통해서 처리된 이미지를 사용하였을 때. 이 경우에, 이용된 인코더는 Nirenberg, S. and Pandarinath, C. (2012) A retinal prosthetic with the capacity to restore normal vision. Proc. Natl. Acad., in press; 및 Nirenberg, S. et al. (2011) Retina prosthesis and the Prosthesis Applications - 이들 각각은 참조로 전체가 여기에 통합됨 - 에 기술된 방법들에 따른 원숭이 미지트 및 파라솔 세포들을 이용하여 생성되었다.
도 10a에 도시된 바와 같이, 내비게이터가 원시 이미지 스트림으로 그의 환경을 학습하였을 때, 그의 성능은 낮았고, 많은 충돌이 발생하였고; 트레이닝 세트로 학습된 것은 새로운 환경에 보편적이지 않다. 도 10b에 도시된 바와 같이, 내비게이터가 망막 이미지 스트림으로부터 환경을 학습했을 때, 성능은 극적으로 좋았다: 직진 경로와 충돌이 없음에 주목. 새로운 환경(시골, 교외, 운동장) - 인공 내비게이션 시스템에 매우 문제가 되었던 이슈, 및 일반적인 머신 학습 알고리즘 - 에 대한 보편화가 명료하다.
도 11은 입력으로 망막 이미지 스트림을 이용할 때 내비게이터의 고성능에 대한 논증을 더 보여주고 있다. 구체적으로, 이 도면은 이러한 고성능이 상이한 환경들(시골에서 교외로 그리고 운동장으로)에 보편적일 뿐만 아니라 어떤 환경 내의 상이한 빛 조건들에도 보편적임을 보여주고 있다. A 내지 F는 운동장 환경에서, 해의 상이한 위치들 및 그에 따른 상이한 그림자 조건들에 대응한다; 빛 조건들은 일출에서 일몰까지, 즉 이 환경의 좌측 수평면상의 30도에서 오른쪽 수평면상의 30도에 걸쳐있다. 이 도면에 도시된 바와 같이, 내비게이터가 원시 이미지 스트림으로 트레이닝되었을 때(하나의 빛 조건을 이용해서 시골 환경에서), 그의 성능은 보편적이지 않다; 운동장에서의 그의 성능은 낮고 이는 빛 조건들 전반에서도 그렇다. 도면 내의 각 바의 높이는 내비게이터가 타이어들 중 어느 하나에 충돌함이 없이 운동장 타이어 코스 내에 성공적으로 머문 시도 부분에 대응한다. 오차 바들은 평균 표준 오차(SEM)를 나타낸다. 대조적으로, 내비게이터가 망막 이미지 스트림(동일한 단일 빛 조건을 이용하지만 이번에는 인코더를 통해서 처리된 동일 시골 환경)으로 트레이닝되었을 때는, 그의 성능은 높고, 고성능은 빛 조건들 전방에서 유지된다. 그래서, 망막 이미지 스트림들에 대한 트레이닝(즉, 인코더를 통해서 처리된 이미지들에 대한 트레이닝)은 새로운 환경과 다수의 빛 조건(일출에서 일몰까지, 위를 참조)에 보편적인 고성능으로 이어진다.
인코더들은 실시간으로 동작하며, 이는 처리 기법들이 비-가상 환경에도, 예를 들어, 실세계 환경에서 로봇의 움직임을 제어하는데 쉽게 적용될 수 있음을 나타낸다는 점에 유의하자.
예 - 얼굴 인식
이 예는 머신 비전, 비디오의 얼굴 인식에서 오래 지속해온 문제점에 대한 이 출원에 기술된 접근법의 효과를 평가한다. 얼굴 인식과 보행자 검출을 위해 일반적으로 이용되는 학습 알고리즘[Viola and Jones 2001; Viola, Jones, and Snow 2005 참조]을 이용하여, 비디오 내의 개인의 얼굴을 인식하기 위한 시스템, 즉 이전의 보이지 않는 이미지 스트림을 다른 것 즉 "비-타겟" 얼굴"에 대비해서 "타겟 얼굴"로서 분류할 수 있는 것이 구성되었다. 동일한 접근법이 보행자 검출, 물체 인식, 물체 추적, 온전한 사람 인식, 홍채 검출, 등과 같은(이들에 제한되지는 않음) 많은 다른 목적에 이용될 수 있다. 이 시스템은 Python 프로그래밍 언어 및 NumPy 수치 계산 패키지를 이용하여 구현되었다.
이 접근법의 실시 예가 도 12에 도시되어 있다. 입력 비디오(원시 이미지 스트림)은 망막 인코더(104)를 통과하여 망막 이미지 스트림이 생성된다. 태스크는 얼굴에 초점을 맞추고 있기 때문에, 망막 이미지 스트림은 이후 얼굴-포함 영역을 찾기 위해 크로핑(crop)된다(1202). (크로핑은 인코딩이 실행될 때 에지 효과를 방지하기 위해 인코더가 원시 스트림을 처리한 후에 실행된다.) 이 예에서, 얼굴-포함 영역들은 알려진 얼굴 예의 트레이닝 및 테스팅 세트를 구축하기 위해 수동으로 선택되었다. 다른 실시 예들에서, 얼굴-포함 영역들은 원시 이미지 스트림 또는 Viola-Jones 알고리즘[Viola and Jones, 2001]을 이용하여 처리된 이미지 스트림에서 검출될 수 있다. 크로핑된 비디오는 이후 분류기(1206)를 통하여 제공된다(예로, Viola Jones and Snow, 2005에 있는 것과 같은 Haar 필터의 부스티드 캐스케이드에 기반한 것). 분류기(1206)는 이를 "타겟 얼굴"(이는 타겟 개인의 얼굴임을 의미함) 또는 "비-타겟 얼굴"(이는 다른 개인의 얼굴임을 의미함)로 지정한다.
도 15는 우리의 접근법의 효과의 일례를 보여주고 있다. 이 분석의 경우 비디오 내의 얼굴 데이터 세트는 http://www.cs.tau.ac.il/~wolf/ytfaces/의 것이 이용되었다. 참조 문헌은 Lior Wolf, Tal Hassner and Itay Maoz. Face Recognition in Unconstrained Videos with Matched Background Similarity. IEEE Conf . on Computer Vision and Pattern Recognition ( CVPR ), 2011이 있다.
이러한 데이터 세트를 이용하여, 수개의 얼굴 인식 태스크가 실행되었다. "타겟 얼굴"에 대해 얼굴 인식 알고리즘을 트레이닝하는데 일반적인 절차가 이용되었다. 이 알고리즘에는 사람의 얼굴, 타겟 얼굴을 보여주는 비디오 어레이가 제공되었다. 얼굴을 인식하기 위한 이 알고리즘의 능력은 동일한 사람의 얼굴의 이전에 보지 못한 비디오와 다른 얼굴들 "비-타겟 얼굴들"의 비디오를 제공하여 테스트되었다. 이 알고리즘이 하는 일은 테스트 비디오를 타겟 얼굴들이나 비-타겟 얼굴들로 바르게 분류하는 것이었다.
도 13 및 도 14는 예의 비디오로부터의 이미지들을 보여주고 있다. 도 13은 얼굴 인식 알고리즘을 트레이닝하는데 이용된 비디오로부터의 프레임들을 보여주고 있고, 도 14는 이 알고리즘을 테스트하는데 이용된 비디오로부터의 프레임들을 보여주고 있다. 도시된 바와 같이, 테스트 비디오 내의 사람(도 14)은 트레이닝 비디오 내의 사람(도 13)과 동일하지만, 다른 헤어스타일 등을 하고 있는 다른 환경에 도시되어 있다.
알고리즘의 성능은 2개의 조건: 알고리즘이 표준 방식으로, 즉 얼굴의 원시 이미지 스트림을 이용하여 트레이닝되었을 때, 그리고 알고리즘을 얼굴의 망막 이미지 스트림(즉, 원시 이미지 스트림들이 우리의 인코더를 통해서 처리된 후의 원시 이미지 스트림)을 이용하여 트레이닝되었을 때 테스트되었다. 양자의 경우에, 트레이닝은 짧은(2-프레임) 영화를 이용하여 실행되었다. 트레이닝에 이용된 2-프레임 영화의 숫자는 타겟 얼굴의 경우는 250-800(4-5개의 상이한 비디오들로부터 취해짐) 및 비-타겟 얼굴의 경우 2000(>100 비디오로부터 취해짐)의 범위에 걸쳐있다. 이후 성능이 이전에 보지 못한 비디오, 즉 트레이닝에 이용되지 않은 비디오로부터 취해진 50-800개의 2-프레임 영화를 이용하여 측정되었다.
도 15에 도시된 바와 같이, 인코더의 이용은 성능에 명확한 영향을 주었다. 2개 유형의 태스크에 대한 결과가 도시되어 있다: 첫 번째 것은 표준 접근법이 매우 약하게 실행하는 태스크로서 정의된 매우 도전적인 태스크로 이루어지고; 두 번째 것은 더 쉬운 태스크로 이루어지며, 여기서 표준 접근법은 중간 정도로 실행된다. 도시된 바와 같이, 태스크가 까다로웠을 때(도 15a), 인코더를 포함하는 접근법은 표준 접근법을 넘어서는 주요한(4-폴드) 개선을 제공한다. 태스크가 덜 도전적일 때, 즉 표준 접근법이 중간 정도로 실행될 때, 인코더를 포함하는 접근법은 여전히 실질적인 개선(표준 방법보다 1.5배)을 제공한다.
대안 실시 예에서, 얼굴 검출 단계가 우회되며 대신에, 얼굴들이 비디오의 특정 부분에 존재하든 그렇지 않든 간에 분류기(1206)를 위해 적당한 크기로 크로핑된 비디오들이 입력 비디오로부터 자동 방식으로 생성되도록 태스크가 약간 수정된다. 이후, 이전과 같이 이들 새로 크로핑된 비디오들에 분류가 적용되고 또는 수정된 분류가 실행되고, 여기서 출력 분류는 "타겟 얼굴" 및 "비-타겟 얼굴" 또는 "비-얼굴(non-face)"이다.
대안 실시 예에서, 분석은 N개의 프레임을 이용하여 실행될 수 있고, 여기서 N은 도 15의 분석에 이용된 2-프레임 비디오와는 대조적으로, 프로세서가 처리할 수 있는 만큼의 1, 3 또는 그 이상의 프레임일 수 있다.
게다가, 이들 분류는 그들 스스로, 예를 들어 비디오 내에 개인이 존재함을 사용자에게 알려주는데 이용될 수 있고, 또는 이들은 신호가 발행되기 전에 수개의 긍적적인 검출("타겟 얼굴" 분류들)이 지정된 타임 윈도우에 나타날 때까지 대기함으로써 결합할 수 있다.
머신 비전에 대한 망막 처리의 적용에 대한 다수의 예가 기술되었을지라도, 수많은 다른 응용에 관한 실시 예들이 이용될 수 있음에 유의하자.
일반적으로, 인코더 접근법은 동물들(척추동물)이 잘 실행하는 시각 태스크, 특히 동물 시각 시스템이 기존의 머신 기법보다 잘 실행하는 것으로 알려진 시각 태스크에 유리할 수 있다. 위에 언급한 바와 같이, 인코더 접근법은 원시 이미지 스트림으로부터 전체 정보량을 줄이는(예로, 고속 처리가 가능하도록) 한편 핵심이 되는 피처들은 데이터에 유지하는데 유리한 경우에 특히 효과적일 수 있다. 예를 들어, 위에 언급한 바와 같이, 일부 실시 예들에서, 인코더 접근법은 통상, 예를 들어, 얼굴 인식, 복잡한 배경에서 사람이나 생물체의 식별, 복잡한 환경 속에서의 내비게이션, 움직이는 물체의 빠른 추적 및 움직이는 물체에 대한 반응 등과 같은 특정 유형의 패턴 인식에 이용될 때 특히 유리하다.
생물학적 시스템이 통상 잘 실행되지 않는 특정 응용들의 경우에, 인코더 접근법은 한계를 가질 수 있음에 유의하자. 이는 특히 높은 수준의 상세한 정보 또는 정밀한 측정을 요하는 응용들에 있어서의 경우일 수 있다. 예를 들어, 다시 도 3b-f에 도시된 망막 이미지를 참조하면, 이들 이미지가 인물상의 존재와 그 움직임을 유리하게 강조하지만 망막 이미지들은, 예를 들어, 인간의 절대 크기 또는 다른 신체 치수와 같은 정밀한 생체인증 정보를 판정하는데 유용한 인물상의 예리한 윤곽을 제공하지 못한다는 점에 유의하자. 이러한 유형의 정보를 판정하기 위해서는, 머신 비전 알고리즘을 원시 이미지에 적용하는 것이 더 나을 수 있다.
일부 실시 예들에서, 하이브리드 접근법은 인코더 기반 접근법의 장점을 머신 비전과 원시 이미지 데이터에 적용된 전통적인 접근법에 제공하는데 이용될 수 있다.
예를 들어, 일부 실시 예들에서, 원시 이미지 스트림은 여기에 기술된 망막 인코더 기반 기법들 중 임의 기법을 이용하여 처리될 수 있다. 최종 망막 이미지 데이터는 처리될 수 있고(예로, 망막 이미지를 이용하여 트레이닝된 머신 비전 알고리즘과 같은 머신 비전 알고리즘을 이용하여), 그 결과는 차후 분석에 대응하는 원시 이미지들을 알려주는데 이용될 수 있다(예로, 원시 이미지를 이용하여 트레이닝된 머신 비전 알고리즘과 같은 머신 비전 알고리즘을 이용하여).
도 16은 이러한 유형의 예시적인 처리를 보여주고 있다. 단계 1701 및 1702에서, 여기에 기술된 기법들 중 임의 기법을 이용하여 원시 이미지들이 얻어진 다음 망막 이미지 스트림을 생성하는데 이용된다. 단계 1703에서, 망막 이미지들은, 예를 들어, 머신 비전 알고리즘을 이용하여 분석된다.
단계 1704에서, 망막 이미지들의 분석 결과는 관심 대상인 망막 이미지들(또는 그들의 세그먼트들)를 식별하는데 이용된다. 예를 들어, 사람-인식 태스크에서, 정상 망막이 망막 이미지들을 생성하기 위해 하는 방식으로 이미지에 대한 차원 축소를 실행하는 인코더 접근법은 걸음걸이, 특징 몸짓, 등으로 신체 유형을 빠르게 식별할 수 있게 해준다. 그의 장점들 중 하나는 모션 정보를 빠르게 추출한다는 것이고 이는 특히 이 목적에 유용하다. 그래서, 인코더 접근법은 타겟 개인에 대한 가능한 매치(match)들의 공간을 축소하기 위한(잘못된 신체 유형, 걸음걸이, 몸짓 등을 갖는 후보들을 제외함으로써) 사전 스크린(prescreening) 접근법으로 작용할 수 있다.
단계 1705에서, 식별된 망막 이미지들에 대응하는 원시 이미지들(또는 그의 세그먼트들)이 분석될 수 있다. 예를 들어, 사람 인식-태스크의 경우에, 원시 이미지를 이용하는(차원 축소가 이용되지 않거나 거의 이용되지 않는) 알고리즘은 좀더 상세한 피처 분석을 이용하여(예로, 사람의 정확한 키 또는 다른 신체 치수와 같은 상세한 생체인증 정보를 추출함으로써) 사람을 확실하게 식별하기 위해 이미지들의 서브세트에 적용될 수 있다.
다양한 실시 예에서, 여기에 기술된 방법은, 원시 이미지들에 사전 스크린을 실행한 다음에 망막 인코더 접근법을 이용하여 분석을 함으로써 순서가 뒤바뀔 수 있다. 일부 실시 예들에서, 대안 원시 및 인코더 기반 분석을 다수 회 수행하는 반복 기법이 적용될 수 있다. 다른 실시 예들에서는, 상이한 유형의 처리들이 병렬로 실행될 수 있고 그 결과들은 합성된다. 일반적으로 전통적인 접근법과 인코더 기반 접근법과의 임의 적합한 결합이 이용될 수 있다.
위에 언급한 바와 같이, 다양한 실시 예에서, 망막 처리는 정해진 응용을 위해 핵심 피처들을 유지하면서 원시 이미지 데이터로부터 전체 정보량을 축소하는 동작(망막이 하는 방식과 유사한 식으로 효율을 성취하기 위해)을 한다. 예를 들어, 일부 실시 예들에서, 망막 인코딩된 데이터의 전체 정보량이 축소되더라도, 머신 비전 알고리즘은 대응하는 원시 이미지 데이터에 적용될 때보다 인코딩된 데이터에 적용될 때 더 나은 성능을 발휘할 수 있다. 이 결과는 위에 제시된 예들에서 보여주었으며, 여기서 "압축" 망막 이미지에 적용된 내비게이션 및 얼굴 인식 알고리즘은 원시 이미지들에 적용된 동일한 알고리즘을 훨씬 능가하는 성능을 나타낸다.
다양한 실시 예들에서, 망막 인코딩된 데이터는, 예를 들어, 1-100의 범위 또는 그의 임의 부분 범위 내의 적어도 1.5, 적어도 2, 적어도 3, 적어도 4, 적어도 5 또는 그 이상의 배로 압축될 수 있다. 일부 실시 예들에서, 이러한 압축은 인코더들에 의해 생성된 차원 축소에 대응한다. 예를 들어, 일부 실시 예들에서, 망막 인코더들의 비트 레이트는 양자화될 수 있고, 인코더에 의해 자극으로서 이용된(또한 단위 시간당 비트들에서 측정된) 원시 이미지 데이터의 엔트로피에 비교될 수 있고, 그 비율은 압축비를 결정하는데 이용된다. 예를 들어, 인공 기관 출원들에 기술된 일부 경우들에는, 인코더는 4.9 비트/초의 입력 원시 데이터 비트 레이트에 비해서 2.13 비트/초의 비트 레이트를 갖는 것으로 기술되어 있다. 그래서, 인코더들에 의해 생성된 데이터 압축은 이 예에서는 거의 7-폴드(7-fold) 이었다.
일부 실시 예들에서, 여기에 기술된 처리 기법들은 정보 저장 및 검색 관점에서 적용될 수 있다. 도 17을 참조하면, 시스템(1800)은 프로세서(1802)에 동작적으로 연결된 메모리 저장 장치(1801)(예로, 하드 드라이브 또는 다른 계산 메모리)를 포함한다. 저장 장치(1801)는 여기에 기술된 기법들을 이용하여 원시 이미지 데이터로부터 생성된 망막 이미지 데이터를 저장한다. 위에 상세히 기술된 바와 같이, 일부 실시 예들에서, 망막 이미지 데이터는 특정 핵심 피처들을 유지하면서 원시 데이터에 관련해서 압축될 수 있다. 따라서, 저장된 망막 데이터는, 일부 실시 예들에서, 대응하는 원시 데이터의 표현 또는 "지문"으로서 이용될 수 있다. 일부 실시 예들에서, 저장 장치는 인코딩된 데이터와 원시 이미지 데이터 간의 대응을 나타내는 데이터베이스 정보를 저장한다. 예를 들어, 특정 비디오 클립은 대응하는 망막 이미지 스트림을 생성하는데 이용될 수 있고, 이 망막 이미지 스트림은 원시 비디오 클립으로 그를 식별하는 태그(tag)와 함께 저장 장치(1801)에 저장된다.
일부 실시 예들에서, 프로세서(1802)는 인입 데이터를 저장 장치(1801)에 저장된 데이터에 매칭(match)하는데 이용될 수 있다. 일부 실시 예들에서, 프로세서(1802)는 일련의 질의 이미지에 대응하는 질의 이미지 데이터(예로, 원시 비디오 클립)을 수신할 수 있다. 프로세서(1802)는 이때 망막 인코딩된 질의 데이터를 생성하기 위해 망막 인코더를 이용해 질의 이미지 데이터를 처리할 수 있다. 프로세서는 이후 망막 인코딩된 질의 데이터를 저장 장치(1801)에 저장되어 있는 망막 인코딩된 데이터에 비교할 수 있다. 매치가 발견되면, 프로세서는 저장된 데이터에 관한 태그를 판독하고 질의 데이터 비디오 클립을 매칭되는 저장된 망막 이미지를 생성하는데 이용된 비디오 클립에 연관시키는 정보를 출력할 수 있다. 일부 실시 예들에서, 망막 인코딩된 데이터는 압축되고 및/또는 핵심 피처들이 강화되었기 때문에, 인코딩되어 저장된 데이터와 질의 데이터의 매칭은 대응하는 원시 이미지 클립을 직접 매칭하는 시도보다 더 빠르고 및/또는 더 정확할 수 있다.
이 출원과 인공 기관 출원에 도시된 예들은 쥐와 원숭이 망막에서 구한 데이터로 구축된 인코더를 이용하였다. 그러나, 다양한 실시 예는 고양이, 뱀, 및 토끼 등과 같은(이들에 제한되지는 않음) 다른 종으로부터 구축된 인코더를 이용할 수도 있으며, 이는 인공 기관 출원들에 완전하고 상세히 기술된 절차를 이용하여 구축될 수 있다.
다양한 실시 예에서, 여기에 기술된 기법들의 전체 기능은 머신 비전을 개선하기 위해서 시각 시스템(특히 망막)에 의해 실행된 선-처리(특히 차원 축소)를 이용하는 것이다. 일부 응용들에서, 다른 종의 망막에 의해 실행된 선-처리가 적용될 수 있고; 예를 들어, 새의 망막으로 구축된 인코더들은 특히 비행하는 내비게이터에 특히 효과적일 수 있고; 유사하게, 호랑이와 같이 빠르게 움직이는 동물들에서 구축된 인코더들은 고속 작동이 필요한 내비게이터들에 특히 효과적일 수 있다. 일부 실시 예들에서, 다수의 종에 기반을 둔 인코더들이 이용될 수 있고, 그 결과는 합쳐져서 유익한 시너지를 제공한다(예를 들어, 기본적인 비행 내비게이션 태스크에는 새 기반 인코더가 이용되는 한편 관심 대상 물체를 비행 중에 조우할 때의 물체 인식 태스크에는 원숭이 기반 인코더가 이용된다).
유사하게, 접근법은 외측슬상핵, 상구 또는 시각 피질과 같은 고차 시각 영역들로 구축된 인코더들에 보편적이다. 인공 기관 출원들은 망막 세포들에 대한 인코더의 구성을 기술하고 있고; 수학적인 형식을 포함하는, 다시 완전하고 상세히 기술된 동일 방법은 고차 시각 영역들에 대한 인코더들을 구하는데도 이용될 수 있고, 이는 유사하게 머신 비전 알고리즘을 위한 선-처리 단계로서 작용할 수 있다.
여기에 기술된 본 발명 기법은 망막과 유사한 방식으로 작용하기 때문에 특히 임의 머신 비전 알고리즘을 위한 전단 처리(또는 필터링)로서 이용될 수 있다. 특히, 내비게이션, 물체 및 얼굴 인식, 전경-배경 구별, 포식 동물 검출, 비-식품에 대한 식품 검출과 같은 다수의 시각-유도 활동을 실행할 수 있도록 망막이 뇌가 이용하는 시각 정보를 선-처리하는 것과 같이, "가상 망막"을 함께 형성하는 인코더(들)은 다수의 머신 알고리즘에 대한 시각 정보를 선-처리할 수 있다.
망막이 기본적으로 하는 일은 시각 세상의 엄청난 정보량을 취해서 이를 생물의 생존을 위해 뇌가 필요로 하는 필수적인 것으로 축소하는 것이다. 인코더들이 망막의 입력/출력 관계를 정확하게 모방하기 때문에(그리고 인공 기관 출원에 도시된 바와 같이 기본적으로 임의 시각 입력에 대해 이를 행하므로), 이는 인코더가 동일한 방식으로 시각 세상의 정보를 축소한다는 것을 의미한다. 그래서, 다양한 실시 예에서, 여기에 기술된 기법들은 망막이 뇌에 제공하는 것과 동일하거나 거의 동일한, 즉 동일한 속도, 효율 및 질적 및 양적 필터링을 갖는 머신 비전 알고리즘에 전단 처리를 제공할 수 있다.
이의 필연적인 결과는 인코더들이 또한 머신 비전 알고리즘이 구성되거나 구성될 수 있는 방식에 영향을 준다는 것이다. 현재 알고리즘들은 그들의 입력으로서 원시 이미지를 이용하여 구성되거나 다른 식으로(예로, 가우시안 필터들의 차를 이용하여) 선-처리된 이미지를 이용하여 구성된다. 이미지들이 여기에 기술된 바와 같은 망막 인코더를 통해서 처리될 때, 그 결과는 머신 비전 알고리즘에 대한 새로운 유형의 입력, 즉 이전에는 이용할 수 없었던 입력이다. 일부 실시 예들에서, 이러한 새로운 입력은 특정 분류의 알고리즘들이 새로운 방식에 적응되거나 최적화될 수 있게 해줄 수 있다. 예를 들어, 다양한 머신 비전 알고리즘들은 적어도 부분적으로 트레이닝 이미지 세트 및/또는 주어진 태스크를 완성하는 동안 알고리즘이 처리한 이미지들에 의해서 결정될 수 있는 파라미터 세트에 의해 분류된다. 망막 이미지 데이터가 원시 이미지 대신에 이용될 때, 이 알고리즘의 최종 파라미터는 대응하는 원시 이미지 데이터를 이용하여 구해지는 것과 다를 것이다. 일부 경우들에서, 이는 알고리즘이 주어진 태스크에 개선된 성능을 발휘할 수 있게 해준다.
일부 경우들에서, 머신 비전 알고리즘은 포식 동물의 시각 시스템을 모방하는 이미지를 이용하여 트레이닝되기 때문에, 이 알고리즘은 이 시스템의 성능 품질의 일부를 취할 수 있게 유리하게 적응될 수 있다. 예를 들어, 망막 처리는 이미지들의 특정 양태들의 핵심을 강조하기 때문에, 망막 인코딩된 데이터로 트레이닝된 머신 비전 알고리즘은 이들의 이미지 양태에 좀더 민첩하게 되도록 "학습"할 수 있다.
위의 예들은 머신 비전 알고리즘의 2개의 예 즉, 내비게이터와 얼굴 인식기를 보여주고 있고, 양자의 경우에, 이를 알고리즘은 망막 처리된 입력에 적용되었을 때 그들의 구조를 변경하였다. 이들 두 알고리즘은 가중치 파라미터 집합으로 특성화된 알고리즘을 학습하였고, 이들 파라미터는 이미지들이 원시 이미지 데이터에 적용되었을 때에 비교해서 알고리즘이 망막 이미지 데이터에 적용되었을 때에 서로 달랐다. 망막 처리된 경우(원시 이미지 경우에 관련해서)의 알고리즘의 개선된 성능은 가중치 파라미터의 변화에 대부분 또는 완전히 기인하였다. 이러한 개선된 성능은 트레이닝에 이용된 환경과 조건과는 다른 환경과 조건에서 내비게이션 및 인식 태스크에 보편적이었음에 유의하자. 이는, 일부 실시 예들에서, 망막 이미지 데이터를 이용하여 트레이닝 머신 비전 알고리즘의 구조가 근본적으로 이익이 되는 방식으로 변하며 트레이닝 환경과 조건을 넘어서 일반화된다는 증거이다. 유사하게, 새로운 알고리즘 구조 즉, 현재 알고리즘에 관한 새로운 가중치 또는 파라미터뿐만 아니라 여기에 기술된 새로운 입력 데이터를 좀더 직접적으로 매치 또는 이용하는 새로운 알고리즘은 이러한 새로운 입력 데이터를 이용할 수 있게 개발될 수 있다.
본 방법과 장치들은 어떤 유형의 이미지 데이터도 처리할 수 있다. 예를 들어, 이미지 데이터는 가시광에 응답해서 생성될 수 있지만 전자기 스펙트럼에 걸쳐있는 적외선, 자외선 또는 다른 파장과 같은 다른 유형의 전자기 방사선에 의해서도 생성될 수 있다. 일부 실시 예들에서, 이미지 데이터는 인공 또는 가상 이미지 데이터(예로, 가상 환경의 모델을 기반으로 생성된)일 수 있다. 일부 실시 예들 에서, 인공 이미지 데이터는, 예를 들어, 메디컬 영상화 데이터(자기 공명 영상 데이터, 컴퓨터 보조 단층 촬영 데이터, 지진 영상화 데이터, 등)을 포함해서 임의 유형의 적합한 데이터의 시각화에 관련될 수 있다.
이미지 데이터는 단일 이미지일 수 있고 또는 복수의 이미지일 수 있고; 게다가, 이들 이미지는 정적이거나 시공간적으로 변할 수 있다. 다이어그램과 같은 단순한 이미지 또는 자연 경관과 같은 비교적 복잡한 자극이 이용될 수 있다. 게다가, 이미지들은 그레이스케일 또는 컬러 또는 그레이와 컬러의 조합일 수 있다. 일 실시 예에서, 자극은 배색 잡음("WN") 및/또는 자연 경관의 영화와 같은 자연 자극("NS") 또는 이들의 조합일 수 있다.
본 발명의 범위는 구체적으로 위에 여기에 도시되고 기술된 것에 의해 한정되지 않는다. 이 방면에 숙련된 자들은 묘사된 예의 재료, 구성, 구조 및 차원에 대한 적합한 대안이 있음을 인식하고 있다. 특허 및 다른 공보를 포함해서 수많은 참조문헌이 본 발명의 설명에 인용되고 논의되었으며 참조문헌 리스트에 첨부되어 있다. 그러한 참조문헌의 인용과 논의는 단지 본 발명의 설명을 명료하게 하기 위해 제공된 것이지 참조문헌을 여기에 기술된 본 발명에 대한 종래 기술로서 인정한다는 것이 아니다. 이 명세서에 인용되고 논의된 모든 참조문헌은 여기에 그들의 전체가 참조로 통합되어 있다.
다양한 신규의 실시 예들이 여기에 기술되고 예시되었을지라도, 이 방면에 통상의 지식을 가진자들은 여기에 기술된 기능을 실행할 수 있고 및/또는 여기에 기술된 결과 및/또는 장점들 중 1 이상을 얻기 위한 다양한 다른 수단 및/또는 구조를 쉽게 예상할 수 있을 것이며, 그러한 변경 및/또는 수정 각각은 여기에 기술된 신규 실시 예들의 범위 내에 속한다. 일반적으로, 이 방면에 숙련된 자들은 여기에 기술된 모든 파라미터, 차원, 재료 및 구성이 예시적인 것을 의미하며 실제 파라미터, 차원, 재료 및/또는 구성은 신규의 가르침(들)이 이용되는 특정한 응용 또는 응용들에 의존한다는 것을 쉽게 이해할 것이다. 이 방면에 숙련된 자들은 단지 평범한 실험을 통해서 여기에 기술된 특정 신규 실시 예들에 대한 많은 균등물을 인식하거나 확인할 수 있다. 그러므로, 앞서 언급한 실시 예들은 단지 예로서 제시된 것이며 첨부된 청구항들 및 이들에 대한 균등물의 범위 내에서, 신규의 실시 예들이 구체적으로 기술되고 청구된 것과는 다른 식으로 실행될 수 있음을 이해하여야 한다. 본 공개의 신규의 실시 예들은 여기에 기술된 각각의 개별 피처, 시스템, 아티클, 재료, 키트, 및/또는 방법에 관한 것이다. 게다가, 2 이상의 그러한 피처, 시스템, 아티클, 재료, 키트 및/또는 방법의 임의 조합은, 그러한 피처, 시스템, 아티클, 재료, 키트, 및/또는 방법이 상호 일치하지 않더라도, 본 공개의 신규 범위 내에 포함된다. 위에 기술된 실시 예들은 다수의 방식 중 어느 방식으로도 구현될 수 있다. 예를 들어, 이들 실시 예는 하드웨어, 소프트웨어 또는 이들의 결합으로 구현될 수 있다. 소프트웨어로 구현되었을 때, 소프트웨어 코드는 단일 컴퓨터에 제공되든 다수 컴퓨터에 배포되든, 임의 적합한 프로세서 또는 프로세서의 군으로 실행될 수 있다.
더욱이, 컴퓨터는 랙-장착 컴퓨터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 또는 태블릿 컴퓨터와 같은 다수의 형태 중 임의 형태로 구현될 수 있음을 이해하여야 한다. 게다가, 컴퓨터는 일반적으로는 컴퓨터로서 간주하지 않지만 개인 휴대 정보 단말기(PDA), 스마트폰 또는 임의 다른 적합한 휴대 또는 고정 전자 장치를 포함하는 적합한 처리 능력을 갖춘 장치에 임베디드될 수 있다.
또한, 컴퓨터는 1 이상의 입력 및 출력 장치를 가질 수 있다. 이들 장치는 특히 사용자 인터페이스를 제공하는데 이용될 수 있다. 사용자 인터페이스를 제공하는데 이용될 수 있는 출력 장치의 예는 출력의 시각 표현을 위한 프린터 또는 표시 스크린 및 출력의 가청 표현을 위한 스피커 또는 다른 사운드 생성 장치를 포함한다. 사용자 인터페이스를 위해 이용될 수 있는 입력 장치의 예는 키보드, 및 마우스, 터치 패드 및 디지털화 태블릿과 같은 포인팅 장치를 포함한다. 다른 예로서, 컴퓨터는 음성 인식을 통해서 또는 다른 적합한 포맷으로 입력 정보를 수신할 수 있다.
그러한 컴퓨터들은 기업망과 같은 근거리 통신망 또는 원거리 통신망, 및 지능망(IN) 또는 인터넷을 포함해서 임의 적합한 형태의 1 이상의 망에 의해 상호연결될 수 있다. 그러한 망들은 임의 적합한 기술에 기반을 둘 수 있고 임의 적합한 프로토콜에 따라서 동작할 수 있고 무선 망, 유선 망 또는 광섬유 망을 포함할 수 있다.
적어도 여기에 기술된 기능의 일부를 구현하는데 이용된 컴퓨터는 메모리, 1 이상의 처리 유닛(또한 여기서는 간단히 "프로세서"라 칭함), 1 이상의 통신 인터페이스, 1 이상의 표시 유닛, 및 1 이상의 사용자 입력 장치를 포함할 수 있다. 메모리는 임의 컴퓨터-판독가능 매체를 포함할 수 있고, 여기에 기술된 다양한 기능을 구현하기 위한 컴퓨터 명령어(또한 여기서는 "프로세서-실행가능 명령어"라 칭하기도 함)를 저장할 수 있다. 처리 유닛(들)은 이들 명령어를 실행하는데 이용될 수 있다. 통신 인터페이스(들)는 유선 또는 무선 망, 버스, 또는 다른 통신 수단에 연결될 수 있고, 그러므로 컴퓨터가 다른 장치들과 송수신할 수 있게 해준다. 표시 유닛(들)은, 예를 들어, 사용자가 명령어들의 실행에 연관되는 다양한 정보를 볼 수 있게 제공될 수 있다. 사용자 입력 장치(들)는, 예를 들어, 사용자가 수동 조정을 하고, 선택을 하고 데이터 또는 다양한 다른 정보를 입력하고, 및/또는 임의 다양한 방식으로 명령어들의 실행 동안 프로세서와 상호작용할 수 있게 제공될 수 있다.
여기에 개괄된 다양한 방법 및 처리는 다양한 운영 시스템 또는 플랫폼 중 임의 하나를 이용하는 1 이상의 프로세서로 실행되는 소프트웨어로서 코딩될 수 있다. 게다가, 그러한 소프트웨어는 임의 다수의 프로그래밍 언어 및/또는 프로그래밍 또는 스크립팅 툴을 이용하여 기록될 수 있고, 또한 프레임워크 또는 가상 머신에서 실행되는 실행가능 머신 언어 코드 또는 중간 코드로서 컴파일될 수 있다.
이에 관해서, 다양한 신규의 개념은, 1 이상의 컴퓨터 또는 다른 프로세서들에서 실행될 때, 위에 논의된 본 발명의 다양한 실시 예를 구현하는 방법들을 실행하는 1 이상의 프로그램으로 인코딩된 컴퓨터 판독가능 저장 매체(또는 다중 컴퓨터 판독가능 저장 매체)(예를 들어, 컴퓨터 메모리, 1 이상의 플로피 디스크, 컴팩 디스크, 광 디스크, 자기 테이프, 플래시 메모리, 필드 프로그래머블 게이트 어레이 또는 다른 반도체 장치 내의 회로 구성, 또는 다른 비일시적 매체 또는 유형의 컴퓨터 저장 매체)로서 구체화될 수 있다. 컴퓨터 판독가능 매체 또는 매체들은 이송 가능할 수 있고, 따라서 그곳에 저장된 프로그램 또는 프로그램들이 위에 논의된 바와 같은 본 발명의 다양한 양태를 구현하기 위해 1 이상의 상이한 컴퓨터 또는 다른 프로세서들에 로딩될 수 있다.
용어 "프로그램" 또는 "소프트웨어"는 위에 논의된 바와 같은 실시 예들의 다양한 양태들을 구현하기 위해 컴퓨터 또는 다른 프로세서를 프로그램하는데 이용될 수 있는 임의 유형의 컴퓨터 코드 또는 컴퓨터-판독가능 명령어의 집합을 나타내기 위한 일반적인 의미로 여기에 이용되고 있다. 게다가, 일 양태에 따르면, 실행될 때 본 발명의 방법들을 실행하는 1 이상의 컴퓨터 프로그램들은 단일 컴퓨터 또는 프로세서에 상주할 필요는 없지만 본 발명의 다양한 양태를 구현하기 위해 다수의 상이한 컴퓨터 또는 프로세서들에 모듈러 방식으로 배포될 수 있다.
컴퓨터-실행가능 명령어들은 1 이상의 컴퓨터 또는 다른 장치들에 의해 실행되는 프로그램 모듈과 같은 많은 형태에 있을 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 실행하거나 특정한 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 통상, 프로그램 모듈들의 기능은 필요에 따라서 다양한 실시 예들에 결합하거나 분산될 수 있다.
또한, 데이터 구조는 임의 적합한 형태로 컴퓨터-판독가능 매체에 저장될 수 있다. 설명의 간명함을 위해, 데이터 구조는 데이터 구조 내의 위치를 통해서 관련되는 필드를 갖도록 도시될 수 있다. 그러한 관계는 마찬가지로 필드들 간의 관계를 운반하는 컴퓨터-판독가능 매치 내의 위치를 갖는 필드들에 저장소를 배정함으로써 성취될 수 있다. 그러나, 포인터의 이용을 통해서 데이터 요소간의 관계를 설정하는 태그 또는 다른 메커니즘을 포함해서 임의 적합한 메커니즘이 데이터 구조의 필드들 내의 정보 간의 관계를 설정하는데 이용될 수 있다.
또한, 다양한 신규의 개념들이 1 이상의 방법으로서 구체화될 수 있고, 그의 예는 제시되어 있다. 이 방법의 일부로서 실행되는 액션(act)들은 임의 적합한 방식으로 순서가 정해질 수 있다. 따라서, 실시 예들은 액션들이 예시된 것과는 다른 순서로 실행되게 구성될 수 있고, 이는 예시적인 실시 예들에서 순차 액션으로 도시되어 있을지라도 어떤 액션들을 동시에 실행하는 것을 포함할 수 있다.
여기에 이용된 바와 같은, 자연 경관은, 예를 들어, Geisler WS Visual perception and the statistical of properties of natural scenes. Annu. Rev. Psychol. 59:167-92 (2008)에 기술되어 있는 바와 같은 자연 경관의 이미지를 나타내는 것으로 이해되어야 한다. 일부 실시 예들에서, 자연 경관들은 임의 적합한 이미지, 예를 들어, 일반적으로 역 주파수 자승 법칙(inverse frequency squared law)을 따르는 공간 및/또는 시간 주파수 전력 스펙트럼에 의해 특성화된 이미지로 대체될 수 있다. 일부 실시 예들에서, 예를 들어, 짧은 비디오 클립이 이용되는 경우, 복잡한 이미지의 스펙트럼은 역 자승 법칙에서 약간 벗어날 수 있다. 예를 들어, 일부 실시 예들에서, 복잡한 이미지는 1/f^x 형식의 공간 또는 시간 전력 스펙트럼을 가질 수 있고, 여기서 f는 주파수이고 x는, 예를 들어, 1-3의 범위 내 또는 그의 임의 부분 범위(예로, 1.5-2.5, 1.75-2.25, 1.9-2.1, 등) 내에 있다.
백색 잡음 이미지는 근본적으로 평탄한 공간 주파수 전력 스펙트럼을 갖는 잡음 이미지를 나타낸다.
여기에 이용된 바와 같은 용어 "빛"과 관련 용어(예로, "광학", "시각")은, 예를 들어, 자외선 및 적외선을 포함해서 시각 스펙트럼의 안팎의 전자기선을 포함하는 것으로 이해되어야 한다.
여기서 명세서와 청구항들에 이용된 부정관사는, 다른 식으로 명확히 표시하지 않는 한, "적어도 하나"를 의미하는 것으로 이해되어야 한다.
여기서 명세서와 청구항들에 이용된 구 "또는"은 결합해 있는 즉, 일부 경우들에서 결합해서 존재하는 요소들과 다른 경우들에서 분리 식으로 존재하는 요소들의 "어느 하나 또는 둘 다"를 의미하는 것으로 이해되어야 한다. "또는"으로 열거된 다수의 요소들은 동일한 식으로 즉, 그렇게 결합해 있는 요소들 중 "1 이상"으로 이해되어야 한다. 구체적으로 확인된 이들 요소에 관련 또는 비 관련되든 간에, "또는" 절에 의해 구체적으로 확인된 요소들이 아닌 다른 요소들이 선택적으로 제공될 수 있다. 그래서, 비-한정 예로서, "A 또는 B"에 대한 참조는 "포함하는"과 같은 개방형 언어와 연관해서 이용될 때는, 일 실시 예에서는, 단지 A(선택적으로 B 이외의 요소들을 포함하는)를; 다른 실시 예에서는 단지 B(선택적으로 A 이외의 요소들을 포함하는)를; 또 다른 실시 예에서는 A와 B 모두(선택적으로 다른 요소들도 포함하는)를, 등등을 나타낼 수 있다.
명세서와 청구항들에 이용된 바와 같은, "또는"은 위에 정의된 "또는"과 동일한 의미를 갖는 것으로 이해되어야 한다. 예를 들어, 리스트 안에 있는 아이템들을 분리할 때, "또는" 또는 "또는"은 포괄적인 것으로, 즉 적어도 하나의 포함뿐만 아니라 다수의 또는 리스트의 요소들 중 2 이상과, 선택적으로 추가의 열거되지 않은 요소들을 포함하는 것으로 해석되어야 한다. "중 단지 하나" 또는 "중 정확히 하나" 또는 청구항에 이용될 때 "로 구성되는"과 같이 그와 반대를 명확히 나타내는 용어들은 다수의 또는 리스트의 요소들 중 정확히 하나의 요소를 포함하는 것을 나타낼 것이다. 일반적으로, 여기서 이용되는 용어 "또는"은 "어느 하나", "중 하나", "중 단지 하나", 또는 "중 정확히 하나"와 같은 배타적인 용어가 선행될 때는 배타적 선택(즉, "둘이 아닌 하나 또는 다른 하나)를 나타내는 것으로 해석되어야 한다. "기본적으로 ~로 구성되는"은 청구항들에 이용될 때, 특허법의 분야에서 이용되는 일반적인 의미를 지닌다.
위의 명세서는 물론이고 청구항들에서, "포함하는", "구비하는", "지니고 있는", "갖고 있는", "함유하는", "수반하는", "보유하는", "로 구성되는" 등과 같은 모든 이행 구는 개방형 즉, 제한이 아니라 포함한다는 것을 의미하는 것으로 이해되어야 한다. 단지 이행 구 "로 구성되는" 및 "기본적으로 ~로 구성되는"은 미합중국 특허 심사 절차, 섹션 2111.03 매뉴얼에 제시되어 있듯이 각각 폐쇄형 또는 준-폐쇄형 이행 구이다.
여기에 정의되고 이용된 모든 정의는 사전적 정의, 참조로 통합된 서류에 있는 정의, 및/또는 정의된 용어의 일반적인 의미를 지배하는 것으로 이해되어야 한다.
여기에 기술된 것의 다양한 수정 및 다른 구현은 본 발명의 사상 및 범위를 벗어남이 없이 이 방면에서 보통의 지식을 가진 자들에게 떠오를 것이다. 본 발명의 특정 실시 예들이 도시되고 기술되었더라도, 변경 및 수정이 본 발명의 사상 및 범위를 벗어나지 않고도 행해질 수 있음은 이 방면에 숙련된 자들에게는 자명하다. 앞서의 설명과 첨부 도면에 제시된 것은 제한적인 의미가 아니라 예시적인 의미로 제시된 것이다.
참고문헌
Ahuja A, Dorn J, Caspi A, McMahon M, Dagnelie G, Dacruz L, Stanga P, Humayun M, Greenberg R (2010) Blind subjects implanted with the Argus II retinal prosthesis are able to improve performance in a spatial-motor task. Br J Ophthalmol.
Arenkiel et al., In vivo light-induced activation of neural circuitry in transgenic mice expressing channelrhodopsin-2. Neuron (2007) 54(2): 205-18.
Ausubel et al., Current Protocols in Molecular Biology , John Wiley & Sons, New York, 1989
Bach, M et al (2008) Visual evoked potential-based acuity assessment in normal vision, artificially degraded vision, and in patients. Br J Ophthalmol 92:396-403
Barnstable et al., Thy-1 antigen: a ganglion cell specific marker in rodent retina. Neuroscience (1984) 11(4): 847-55.
Bi A, Cui J, Ma Y-P, Olshevskaya E, Pu M, Dizhoor AM, Pan Z-H (2006) Ectopic expression of a microbial-type rhodopsin restores visual responses in mice with photoreceptor degeneration. Neuron 50:23-33.
Bomash I, Roudi Y, Nirenberg S. (2010) A virtual retina that works on a broad array of stimuli including natural scenes: A tool to simplify the problem of population coding. Society for Neuroscience . Program No. 891.5.
Bookstein R et al (1990) Promoter deletion and loss of retinoblastoma gene expression in human prostate carcinoma. Proc. Nati. Acad. Sci. USA 87 (19):7762-7766
Busskamp V, et al (2010) Genetic reactivation of cone photoreceptors restores visual responses in retinitis pigmentosa. Science 329:413-417.
Cai et al. (2010) Gene delivery to mitotic and postmitotic photoreceptors via compacted DNA nanoparticles results in improved phenotype in a mouse model of retinitis pigmentosa. FASEB J. 24: 1178-1191.
Campagnola L, Wang H, Zylka MJ. (2008) Fiber-coupled light-emitting diode for localized photostimulation of neurons expressing channelrhodopsin-2. Journal of Neuroscience Methods. 169:27-33.
Cardin JA, et al (2010) Targeted optogenetic stimulation and recording of neurons in vivo using cell-type-specific expression of Channelrhodopsin-2. Nat Protoc 5(2): 247-54.
Chader GJ, Weiland J, Humayun MS (2009) Artificial vision: needs, functioning, and testing of a retinal electronic prosthesis. Prog Brain Res 175:317-332.
Chiappa, K. (1997) Evoked Responses in Clinical Medicine, Third Edition, Lippincott-Raven Chichilnisky EJ. (2001) A simple white noise analysis of neuronal light responses. Network 12(2): 199-213
Chopdar A, Chakravarthy U, Verma D (2003) Age related macular degeneration. BMJ 326:485-488.
Cover T and Thomas J. (2006) Elements of Information Theory, 2nd Edition. Hoboken, NJ: Wiley
Dann JF, Buhl EH. (1987) Retinal ganglion cells projecting to the accessory optic system in the rat. J Comp Neurol 262(1): 141-58.
Dedek K, et al (2008) Ganglion cell adaptability: does the coupling of horizontal cells play a role? PLoS One. 3(3):e1714.
Douglas RM et al (2005) Independent visual threshold measurements in the two eyes of freely moving rats and mice using a virtual-reality optokinetic system. Vis Neurosci. 22(5):677-84.
Duda RO, Hart PE (2001) Pattern Classification (2nd Edition) Wiley, NY,
Enroth-Cugell et al., (1966) The contrast sensitivity of retinal ganglion cells of the cat. J Physiol 187(3): 517--52.
European Patent Application No. 19891976
Famulare M, Fairhall A. (2010) Feature selection in simple neurons: how coding depends on spiking dynamics. Neural Comput 22(3): 581-98
Field et al., (2007) Information processing in the primate retina: circuitry and coding. Annu Rev Neurosci 30: 1--30.
Fitzgerald et al. (1994) Retinal signal transmission in Duchenne muscular dystrophy. J Clin Invest 93: 2425-30.
Foley JM, Legge GE (1981) Contrast detection and near-threshold discrimination in human vision. Vision Res. 21(7):1041-53.
Fried S, Werblin F, McMahon MJ (2006) US Pat. 2006/0129207 Mimicking neural coding in retinal ganglion cells with short pulse electrical stimulation. In: (US, ed).
Friedman DS, O'Colmain BJ, Munoz B, Tomany SC, McCarty C, de Jong PTVM, Nemesure B, Mitchell P, Kempen J, Eye Diseases Prevalence Research Group (2004) Prevalence of age-related macular degeneration in the United States. Arch Ophthalmol 122:564-572.
Geisler WS (200). Visual perception and the statistical properties of natural scenes. Annu. Rev. Psychol. 59:167-92 (2008)
Gerding H, Benner FP, Taneri S (2007) Experimental implantation of epiretinal retina implants (EPI-RET) with an IOL-type receiver unit. J Neural Eng 4:S38-49.
Giolli RA, Blanks RHI, Lui F. (2005) The accessory optic system: basic organization with an update on connectivity, neurochemistry, and function. Prog Brain Res 151: 407-40.
Golan L, Reutsky I, Farah N & Shoham S. (2009) Design and characteristics of holographic neural photo-stimulation systems, Journal of Neural Engineering 6 066004, (2009)
Graham-Rowe D (2009) A Brighter Future for Retinal Implants. In: Technology Review, http://www.technologyreview.com/biomedicine/23539/. Boston, MA: MIT.
Greenberg KP, et al. (2011). Differential Targeting of Optical Neuromodulators to Ganglion Cell Soma and Dendrites Allows Dynamic Control of Center-Surround Antagonism. Neuron 69, 713-720.
Grinstead CM and Snell JL (1997) Introduction to Probability. American Mathematical Society; 2nd Revised edition
Grossman N, Poher V, Grubb MS, Kennedy GT, Nikolic K, McGovern B, Palmini RB,
Gong Z, Drakakis EM, Neil, MAA, Dawson MD, Burrone J, Degenaar P. (2010) Multi-site optical excitation using ChR2 and micro-LED array. J. Neural Eng, 7(1):1-13.
Han et al, (2009), Millisecond-Timescale Optical Control of Neural Dynamics in the Nonhuman Primate Brain, Neuron 62, 191-198.
Hand DJ. (1981) Discrimination and classification. Wiley Series in Probability and Mathematical Statistics.
Huberman AD, Manu M, Koch SM, Susman MW, Lutz AB, Ullian EM, Baccus SA, Barres BA (2008) Architecture and activity-mediated refinement of axonal projections from a mosaic of genetically identified retinal ganglion cells. Neuron. 2008 Aug 14;59(3):425-38.
Huberman AD, Wei W, Elstrott J, Stafford BK, Feller MB, Barres BA (2009) Genetic Identification of an On-Off Direction-Selective Retinal Ganglion Cell Subtype Reveals a Layer-Specific Subcortical Map of Posterior Motion. Neuron. 62(3):327-334.
Ivanova E, Pan Z-H (2009) Evaluation of the adeno-associated virus mediated long-term expression of channelrhodopsin-2 in the mouse retina. Molecular Vision 15:1680-1689
Izhikevich EM (2007) Dynamical systems in neuroscience: the geometry of excitability and bursting. Cambridge, MA: MIT Press
Izhikevich EM (2010) Hybrid spiking models. Review. Phil. Trans. R. Soc. A (2010) 368, 5061-5070
Jacobs AL et al (2009), Ruling out and ruling in neural codes. Proc Natl Acad Sci U S A. 106(14):5936-41.
Jeffreys, Harold (1961). The Theory of Probability. The Oxford University Press.
Kass RE, Ventura V, Brown EN. (2005) Statistical issues in the analysis of neuronal data. J Neurophysiol 94(1): 8-25.
Kawasaki et al., Variability of the relative afferent pupillary defect. Am J Ophthalmol (1995). 120: 622-633.
Kay MA, Glorioso JC, Naldini L. (2001) Viral vectors for gene therapy: the art of turning infectious agents into vehicles of therapeutics. Nat Med. 7(1):33-40. Review.
Kelly S, Shire D, Chen J, Doyle P, Gingerich M, Drohan W, Theogarajan L, Cogan S, Wyatt J, Rizzo JI (2009) Realization of a 15-channel, hermetically-encased wireless subretinal prosthesis for the blind. In, pp 200--203.
Kibbel S, Harscher A, Wrobel W-G, Zrenner E, Rothermel A (2009) Design and Performance of an improved active subretinal chip. In: World Congress on Medical Physics and Biomedical Engineering, September 7 - 12, 2009, Munich, Germany (Kim SI, Suh TS, Dossel O, Schlegel WC, eds), pp 192-195: Springer Berlin Heidelberg.
Koilkonda RD, Hauswirth WW, Guy J. (2009) Efficient expression of self-complementary AAV in ganglion cells of the ex vivo primate retina. Mol Vis. 15:2796-802.
Kuffler SW. (1953) Discharge patterns and functional organization of mammalian retina. J Neurophysiol 16(1): 37-68.
Lagali PS, Balya D, Awatramani GB, Munch TA, Kim DS, Busskamp V, Cepko CL, Roska B (2008) Light-activated channels targeted to ON bipolar cells restore visual function in retinal degeneration. Nat Neurosci 11:667-675.
Lesica NA et al. (2007) Adaptation to stimulus contrast and correlations during natural visual stimulation. Neuron 55(3): 479-491.
Lettvin et al., (1959) What the frog's eye tells the frog's brain. Proceedings of the Institute of Radio Engineers 47(11): 1940-51.
Liao et al. (2007) In vivo gene delivery in the retina using polyethylenimine. BioTechniques 2007, 42:285-288.
Loewenstein JI, Montezuma SR, Rizzo JF, III (2004) Outer Retinal Degeneration: An Electronic Retinal Prosthesis as a Treatment Strategy. Arch Ophthalmol 122:587-596.
Maguire et al. Safety and efficacy of gene transfer for Leber's congenital amaurosis. N Engl J Med (2008) 358: 2240-2248.
Mancuso et al., (2009) Gene therapy for red-green colour blindness in adult primates. Nature 461(7265): 784-7.
Martin et al. 2002. Gene delivery to the eye using adeno-associated viral vectors. Methods 28:267-275.
McGowan MH et al (1998) Characterization of the Mouse Aldose Reductase Gene and Promoter in a Lens Epithelial Cell Line. Mol Vis 1998; 4:2
McLaughlin SK, Collis P, Hermonat PL, Muzyczka N. (1988) Adeno-associated virus general transduction vectors: analysis of proviral structures. J Virol. 62(6):1963-73.
Meytlis M, Bomash I, Pillow JW, Nirenberg S. (2009) Assessing the importance of correlated firing using large populations of neurons. Society for Neuroscience . Program No. 165.3.
Morgans CW, et al (2009) TRPM1 is required for the depolarizing light response in retinal ON-bipolar cells. ProcNatlAcadSci U S A 106(45): 19174-8.
Nanduri D, Humayun M, Greenberg R, McMahon M, Weiland J (2008) Retinal prosthesis phosphene shape analysis. In: 30th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, pp 1785--1788. Vancouver, BC.
Nichols Z, Meytlis M, Nirenberg S. (2010) Correlations play a negligible role in coding white noise and natural scene stimuli in complete retinal populations. Submitted.
Nirenberg S (2000) Photoablation of cells expressing beta-galactosidase. Methods Mol Biol . 135:475-80
Nirenberg S and Cepko, C (1993). Targeted ablation of diverse cell classes in the nervous system in vivo. J Neurosci. 13(8):3238-51.
Nirenberg S and Latham PE. (1998) Population coding in the retina. Curr. Opin . Neurobiol . 8(4):488-493
Nirenberg S and Meister M. (1997). The light response of retinal ganglion cells is truncated by a displaced amacrine circuit. Neuron 18:637-650
Nirenberg S et al (2001) Retinal ganglion cells act largely as independent encoders. Nature 411(6838):698-701.
Nirenberg S et al. (2010) Heterogeneous response dynamics in retinal ganglion cells: the interplay of predictive coding and adaptation. J Neurophysiol 103(6): 3184-94
Norcia, AM, and Tyler, CW (1985) Spatial frequency sweep VEP: visual acuity during the first year of life. Vision Res. 25(10):1399-408
Norcia, AM, et al (1989). Measurement of spatial contrast sensitivity with the swept contrast VEP. Vision Res. 1989;29(5):627-37.
Okuyama et al. (1993). Binocular infrared optometer for measuring accommodation in both eyes simultaneously in natural-viewing conditions Applied Optics, Vol. 32. No 22, p. 4147
Pandarinath et al (2010a) A novel mechanism for switching a neural system from one state to another. Front ComputNeurosci. 31;4:2.
Pandarinath et al (2010b) Symmetry breakdown in the ON and OFF pathways of the retina at night: functional implications. J Neurosci 30(30): 10006-14.
Paninski L, Pillow J, Lewi J. (2007) Statistical models for neural encoding, decoding, and optimal stimulus design. Prog Brain Res. 165:493-507.
Paninski L. (2004) Maximum likelihood estimation of cascade point-process neural encoding models. Network 15(4): 243-62
Panzeri S, et al (2007) Correcting for the sampling bias problem in spike train information measures. J Neurophysiol. 98(3):1064-72. Review.
Pelli DG, Robson JG, & Wilkins AJ (1988) The design of a new letter chart for measuring contrast sensitivity. Clinical Vision Sciences 2, 187-199
Perry VH, Silveira LC. (1988) Functional lamination in the ganglion cell layer of the macaque's retina. Neuroscience. 25(1):217-23.
Petrs-Silva et al., (2009) High-efficiency transduction of the mouse retina by tyrosine-mutant AAV serotype vectors. MolTher 17(3): 463-71.
Petersen-Jones et al., (2009) AAV retinal transduction in a large animal model species: comparison of a self-complementary AAV2/5 with a single-stranded AAV2/5 vector. Mol Vis 15: 1835-42.
Pillow JW, Shlens J, Paninski L, Sher A, Litke AM, Chichilnisky EJ, Simoncelli EP. (2008) Spatio-temporal correlations and visual signalling in a complete neuronal population. Nature 454(7207): 995-9
Prusky GT, et al (2004) Rapid quantification of adult and developing mouse spatial vision using a virtual optomotor system. Invest Ophthalmol Vis Sci. 45(12):4611-6.
Published PCT Application WO1996013598
Published PCT application WO1998048027
Published PCT Application WO2000015822
Published PCT application WO2001094605
Published PCT application WO2002082904
Published PCT application WO2003047525
Published PCT application WO2003080648
Published PCT application WO2003093479
Published PCT application WO2003104413
Published PCT application WO2005080573
Published PCT application WO2007127428
Published PCT application WO2010011404
Pun L (1969), Introduction to Optimization Practice , ISBN 471-70233-1
Purpura K, Tranchina D, Kaplan E, Shapley RM. (1990) Light adaptation in the primate retina: analysis of changes in gain and dynamics of monkey retinal ganglion cells. Vis Neurosci 4(1): 75--93.
Rolls ET, Baylis GC, Leonard CM. Role of low and high spatial frequencies in the face-selective responses of neurons in the cortex in the superior temporal sulcus in the monkey. Vision Res. 1985;25(8):1021-35.
Sambrook et al, "Molecular Cloning. A Laboratory Manual" 2d ed., Cold Spring Harbor Laboratory, New York (1989)
Sauer B. (1987) Functional expression of the cre-lox site-specific recombination system in the yeast Saccharomyces cerevisiae. Mol Cell Biol. 7(6):2087-96.
Shapley RM, Victor JD. (1981) How the contrast gain control modifies the frequency responses of cat retinal ganglion cells. J Physiol. 318:161-79.
Sharpee TO et al. (2008) On the Importance of Static Nonlinearity in Estimating Spatiotemporal Neural Filters With Natural Stimuli. J Neurophysiol 99(5): 2496-509
Sheridan C (2011) Gene Therapy finds its niche Nature Biotechnology 29(2):121-128
Siegert S, Scherf BG, Punta KD, Didkovsky N, Heintz N, Roska B (2009). Genetic address book  for retinal cell types. Nature Neuroscience. 12:1197-1204.
Simoncelli et al. (2004) Characterization of neural responses with stochastic stimuli. The cognitive neurosciences: 327-38
Simonelli et al. (2010)  Gene Therapy for Leber's Congenital Amaurosis is Safe and Effective Through 1.5 Years After Vector Administration, Molecular Therapy 18 3, 643-650.
Sinclair JR,et al (2004) .Selective ablation of a class of amacrine cells alters spatial processing in the retina. J Neurosci. 24(6):1459-67.
Sjostrand et al. (1999). Morphometric study of the displacement of retinal ganglion cells subserving cones within the human fovea. Graefe's Arch Clin Exp Ophthalmol 237:1014-1023.
Soucy ER et al. (1998) A novel signaling pathway from rod photoreceptors to ganglion cells in mammalian retina. Neuron 21:481-493
Stone et al., (1993) Response properties of ganglion cells in the isolated mouse retina. Vis Neurosci 10(1): 31-9.
Strong SP, et al (1998) On the application of information theory to neural spike trains. Pac SympBiocomput. 621-32.
Thyagarajan S, van Wyk M, Lehmann K, Lowel S, Feng G, Wassle H (2010) Visual function in mice with photoreceptor degeneration and transgenic expression of channelrhodopsin 2 in ganglion cells. J Neurosci 30:8745-8758.
Tomita H, Sugano E, Isago H, Hiroi T, Wang Z, Ohta E, Tamai M (2010) Channelrhodopsin-2 gene transduced into retinal ganglion cells restores functional vision in genetically blind rats. Exp Eye Res 90:429-436.
Troy JB, Bohnsack DL, Chen J, Guo X, Passaglia CL. (2005) Spatiotemporal integration of light by the cat X-cell center under photopic and scotopic conditions. Vis Neurosci 22(4): 493--500.
Troy JB, Bohnsack DL, Diller LC. (1999) Spatial properties of the cat X-cell receptive field as a function of mean light level. Vis Neurosci 16(6): 1089--104.
Turchinovich et al. (2010) Non-viral siRNA delivery into the mouse retina in vivo. BMC Ophthalmology 10:25.
U.S. Patent 7149586
U.S. Patent 5,856,152
U.S. Patent 5,871,982
U.S. Patent 6533798
U.S. Patent Publication 20080221653
U.S. Patent Publication 20080249588
U.S. Patent Publication 20090088399
U.S. Patent Publication 20090326623,
U.S. Patent Publication 20100272688
U.S. Patent Publication Nos. 20070261127
Ueda et al, (1997) The mGluR6 5' upstream transgene sequence directs a cell-specific and developmentally regulated expression in retinal rod and ON-type cone bipolar cells. J Neurosci . 17(9):3014-23.
van Adel et al. (2003) Delivery of ciliaryneurotrophic factor via lentiviral-mediated transfer protects axotomized retinal ganglion cells for an extended period of time. Hum . Gene Ther .14:103-115.
Victor JD, Shapley RM. (1979) The nonlinear pathway of Y ganglion cells in the cat retina. J Gen Physiol. 74(6):671-89.
Victor JD. (1987) The dynamics of the cat retinal X cell centre. The Journal of Physiology 386(1): 219.
Volgyi B, Deans MR, Paul DL, Bloomfield SA (2004) Convergence and Segregation of the Multiple Rod Pathways in Mammalian Retina. J Neurosci 24(49):11182-11192.
Walther W, Stein U. (2000) Viral vectors for gene transfer: a review of their use in the treatment of human diseases. Drugs. 60(2):249-71. Review.
Wassle H. (2004) Parallel processing in the mammalian retina. Nat Rev Neurosci 5(10): 747-57.
Wells et al. (2005) Optical stimulation of neural tissue in vivo. Optics Letters 30(5):504-506,
Winter JO, Cogan SF, Rizzo JFI (2007) Retinal prostheses: current challenges and future outlook. J BiomaterSciPolym Ed 18:1031-1055.
Wright AF. (1997) Gene therapy for the eye. Br J Ophthalmol 81(8): 620-623 Review.
Yonehara K, Ishikane H, Sakuta H, Shintani T, Nakamura-Yonehara K, et al. (2009) Identification of Retinal Ganglion Cells and Their Projections Involved in Central Transmission of Information about Upward and Downward Image Motion. PLoS ONE 4(1): e4320.
Yonehara K, Shintani T, Suzuki R, Sakuta H, Takeuchi Y, et al. (2008) Expression of SPIG1 Reveals Development of a Retinal Ganglion Cell Subtype Projecting to the Medial Terminal Nucleus in the Mouse. PLoS ONE 3(2): e1533.
Zhang Y, Ivanova E, Bi A, Pan Z-H (2009) Ectopic expression of multiple microbial rhodopsins restores ON and OFF light responses in retinas with photoreceptor degeneration. J Neurosci 29:9186-9196.
Zrenner E, et al (2009) Subretinal Microelectrode Arrays Allow Blind Retinitis Pigmentosa Patients to Recognize Letters and Combine them to Words. BMEI '09. 2nd International Conference on Biomedical Engineering and Informatics. Issue Date: 17-19 Oct. 2009. ISBN: 978-1-4244-4132-7. Pages 1 - 4.
Ballard DH et al. (1982) Computer Vision, Prentice-Hall Inc New Jersey, 1982
Chichilnisky EJ. (2001) A simple white noise analysis of neuronal light responses. Network 12(2): 199-213
Forsyth DA et al. (2003) Computer Vision : A Modern Approach , Prentice Hall, Nirenberg S et al. (2010) Heterogeneous response dynamics in retinal ganglion cells: the interplay of predictive coding and adaptation. J Neurophysiol 103(6): 3184-94.
Freund Y et al. (1995) A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting Journal of Computer and System Sciences 55, 119-139
Pillow JW, Shlens J, Paninski L, Sher A, Litke AM, Chichilnisky EJ, Simoncelli EP. (2008) Spatio-temporal correlations and visual signalling in a complete neuronal population. Nature 454(7207): 995-9
Simonelli et al. (2010)  Gene Therapy for Leber's Congenital Amaurosis is Safe and Effective Through 1.5 Years After Vector Administration, Molecular Therapy 18 3, 643-650
Nichols Z, Meytlis M, Nirenberg S. (2010) Correlations play a negligible role in coding white noise and natural scene stimuli in complete retinal populations. Submitted.
Nirenberg S et al. (2010) Heterogeneous response dynamics in retinal ganglion cells: the interplay of predictive coding and adaptation. J Neurophysiol 103(6): 3184-94

Claims (41)

  1. 방법으로서,
    일련의 이미지에 대응하는 이미지 데이터를 수신하는 단계;
    인코딩된 데이터를 생성하기 위해서 인코더로 상기 이미지 데이터를 처리하는 단계 - 상기 인코더는 척추동물 망막의 입력/출력 변환을 실질적으로 모방하는 입력/출력 변환으로 특성화되어 있고, 상기 이미지 데이터를 처리하는 단계는:
    망막 출력 세포 응답 값들을 생성하기 위해 상기 이미지 데이터에 시공간적 변환을 적용하는 단계 - 상기 시공간적 변환을 적용하는 단계는 실험 데이터로부터 직접 결정된 가중치들의 세트를 포함하는 단일 스테이지 시공간적 변환을 적용하는 단계를 포함하고, 상기 실험 데이터는 자연 경관들을 포함하는 자극을 이용하여 생성됨 - ; 및
    상기 망막 출력 세포 응답 값들을 기반으로 상기 인코딩된 데이터를 생성하는 단계를 포함함 - ; 및
    적어도 부분적으로 상기 인코딩된 데이터를 기반으로 생성된 데이터에 제1 머신 비전 알고리즘을 적용하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 인코딩된 데이터를 기반으로 일련의 망막 이미지들을 생성하는 단계를 더 포함하는 방법.
  3. 제2항에 있어서, 상기 인코딩된 데이터를 기반으로 상기 망막 이미지들 내의 픽셀 값들을 판정하는 단계를 포함하는 방법.
  4. 제3항에 있어서, 상기 인코딩된 데이터를 기반으로 상기 망막 이미지들 내의 픽셀 값들을 판정하는 단계는 망막 세포 응답을 나타내는 인코딩된 데이터를 기반으로 픽셀 세기 또는 색을 판정하는 단계를 포함하는 방법.
  5. 제4항에 있어서, 망막 세포 응답을 나타내는 데이터는 망막 세포 발화 레이트(firing rate), 망막 세포 출력 펄스 트레인, 및 생성기 전위로 구성되는 리스트에서 적어도 하나를 나타내는 방법.
  6. 제2항에 있어서,
    상기 일련의 망막 이미지에 상기 제1 머신 비전 알고리즘을 적용하는 단계를 더 포함하는 방법.
  7. 제6항에 있어서, 상기 머신 비전 알고리즘은 물체 인식 알고리즘, 이미지 분류 알고리즘, 얼굴 인식 알고리즘, 광학 문자 인식 알고리즘, 내용-기반 이미지 검색 알고리즘, 포즈 평가 알고리즘, 모션 분석 알고리즘, 자체 운동 판정 알고리즘, 이동 추적 알고리즘, 광학적 흐름 판정 알고리즘, 장면 재구성 알고리즘, 3D 볼륨 인식 알고리즘, 및 내비게이션 알고리즘으로 구성되는 리스트에서 적어도 하나의 선택을 포함하는 방법.
  8. 제1항에 있어서, 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응 세트의 이미지들에 적용될 때보다 상기 일련의 망막 이미지들에 적용될 때 더 나은 성능을 나타내는 방법.
  9. 제8항에 있어서, 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응하는 일련의 이미지들에 적용될 때보다 자연 경관들을 포함하는 일련의 망막 이미지들에 적용될 때 더 나은 성능을 나타내는 방법.
  10. 제8항에 있어서, 상기 머신 비전 알고리즘은 일련의 이미지들 내의 사람의 검출 또는 식별을 위한 알고리즘을 포함하고 있고; 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응 세트의 이미지들에 적용될 때보다 사람을 포함하는 일정 범위의 망막 이미지들에 적용될 때 더 나은 검출 또는 식별 정확도를 나타내는 방법.
  11. 제10항에 있어서, 사람을 포함하는 상기 일련의 이미지들은 자연 경관 내에 위치한 사람의 이미지들을 포함하는 방법.
  12. 제11항에 있어서, 사람을 포함하는 상기 일련의 이미지들은 상기 머신 비전 알고리즘을 트레이닝(train)하는데 이용된 자연 경관과는 다른 자연 경관 내에 위치한 사람의 이미지들을 포함하는 방법.
  13. 제8항에 있어서, 상기 머신 비전 알고리즘은 실제 또는 가상 환경을 통한 내비게이션을 위한 알고리즘을 포함하고, 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응 세트의 이미지들에 적용될 때보다 자연 경관을 포함하는 일련의 망막 이미지들에 적용될 때 더 나은 내비게이션 성능을 나타내는 방법.
  14. 제13항에 있어서, 상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응 세트의 이미지들에 적용될 때보다 자연 경관을 포함하는 일련의 망막 이미지들에 적용될 때 내비게이션 동안 더 적은 원치 않는 충돌 이벤트를 나타내는 방법.
  15. 제14항에 있어서, 상기 일련의 망막 이미지는 상기 머신 비전 알고리즘을 트레이닝하는데 이용되지 않은 환경에 대응하는 방법.
  16. 제1항에 있어서,
    관심 대상인 1 이상의 망막 이미지를 식별하기 위해서 상기 일련의 망막 이미지에 머신 영상화 알고리즘을 적용하는 단계; 및
    상기 관심 대상인 망막 이미지들에 대응하는 관심 대상인 1 이상의 이미지를 식별하는 단계를 더 포함하는 방법.
  17. 제16항에 있어서, 상기 관심 대상인 이미지들을 처리하는 단계를 더 포함하는 방법.
  18. 제17항에 있어서, 상기 관심 대상인 이미지들을 처리하는 단계는 상기 관심 대상인 이미지들에 제2 머신 비전 알고리즘을 적용하는 단계를 포함하는 방법.
  19. 제18항에 있어서,
    상기 제1 머신 비전 알고리즘은 망막 이미지 세트에 대해 트레이닝된 알고리즘을 포함하고,
    상기 제2 머신 비전 알고리즘은 이미지 세트에 대해 트레이닝된 알고리즘을 포함하는 방법.
  20. 제1항에 있어서, 상기 제1 머신 비전 알고리즘을 적용하는 단계는 내비게이션 알고리즘을 적용하는 단계를 포함하는 방법.
  21. 제20항에 있어서, 상기 내비게이션 알고리즘을 적용하는 단계는:
    상기 일련의 이미지 내의 복수의 이미지 위치에서의 모션을 나타내는 모션 정보를 판정하기 위해 상기 일련의 망막 이미지를 처리하는 단계;
    상기 모션 정보를 기반으로 상기 일련의 이미지 내의 공간 영역들을 분류하는 단계; 및
    상기 공간 영역들의 분류를 기반으로 내비게이션 판정을 생성하는 단계를 포함하는 방법.
  22. 제21항에 있어서, 모션 정보는 상기 일련의 이미지 내의 광학적 흐름을 나타내는 방법.
  23. 제21항에 있어서,
    상기 공간 영역들의 분류를 위해 콘볼루션 신경망을 이용하는 단계를 포함하는 방법.
  24. 제21항에 있어서, 내비게이션 알고리즘의 결과를 기반으로 로봇 장치의 모션을 제어하는 단계를 더 포함하는 방법.
  25. 제18항에 있어서, 내비게이션 알고리즘의 결과를 기반으로 가상 공간 내의 가상 물체의 모션을 제어하는 단계를 더 포함하는 방법.
  26. 제24항에 있어서, 상기 내비게이션 알고리즘은 가상 공간을 나타내는 이미지 데이터를 기반으로 트레이닝된 방법.
  27. 제2항에 있어서, 상기 망막 이미지들을 기반으로 머신 비전 알고리즘을 트레이닝하는 단계를 더 포함하는 방법.
  28. 제27항에 있어서, 상기 머신 비전 알고리즘을 트레이닝하는 단계는:
    (i) 출력을 생성하기 위해서 망막 이미지 세트에 상기 머신 비전 알고리즘을 적용하는 단계;
    (ii) 상기 출력을 기반으로 상기 머신 비전 알고리즘의 성능을 나타내는 성능 정보를 판정하는 단계;
    (iii) 상기 성능 정보를 기반으로 상기 머신 비전 알고리즘의 1 이상의 특성을 수정하는 단계를 포함하는 방법.
  29. 제28항에 있어서, 선택된 성능 기준에 이를 때까지 단계 (i) 내지 (iii)를 되풀이하여 반복하는 단계를 더 포함하는 방법.
  30. 제27항에 있어서, 상기 트레이닝된 머신 비전 알고리즘은 한 세트의 파라미터에 의해 특성화되고, 이들 파라미터는 상기 망막 이미지들에 대응하는 이미지들을 이용하여 상기 머신 비전 알고리즘의 동등한 트레이닝에 의해 구해지는 대응 파라미터와는 다른 방법.
  31. 제6항에 있어서,
    인코딩된 데이터를 생성하기 위해 인코더로 상기 이미지 데이터를 처리하는 단계는 대응하는 이미지에 비해서 축소된 정보량을 포함하는 인코딩된 데이터를 생성하는 단계를 포함하고;
    상기 머신 비전 알고리즘은 상기 인코더를 이용하여 처리되지 않은 대응 세트의 이미지들에 적용될 때보다 상기 일련의 망막 이미지에 적용될 때 더 나은 성능을 나타내는 방법.
  32. 제31항에 있어서, 상기 인코딩된 데이터에 포함된 정보량은 상기 대응 이미지 데이터에 비해서 적어도 2배로 압축되는 방법.
  33. 제31항에 있어서, 상기 인코딩된 데이터에 포함된 정보량은 상기 대응 이미지 데이터에 비해서 적어도 5배로 압축되는 방법.
  34. 제31항에 있어서, 상기 인코딩된 데이터에 포함된 정보량은 상기 대응 이미지 데이터에 비해서 적어도 10배로 압축되는 방법.
  35. 제1항에 있어서, 상기 척추동물은 쥐와 원숭이로 구성되는 리스트에서 선택된 적어도 하나를 포함하는, 방법.
  36. 제1항에 있어서, 상기 망막 세포들은 신경절 세포들을 포함하는 방법.
  37. 제1항에 있어서, 상기 망막 세포들은 적어도 2개의 세포 분류를 포함하는 방법.
  38. 제37항에 있어서, 상기 적어도 2개의 세포 분류는 ON 세포들 및 OFF 세포들을 포함하는 방법.
  39. 제1항에 있어서, 상기 인코더는 시공간적으로 변하는 이미지들을 포함해서, 자연 경관 이미지들을 포함하는 일정 범위의 입력에 걸쳐서 척추동물 망막의 1 이상의 망막 세포의 입력/출력 변환을 실질적으로 모방하는 입력/출력 변환에 의해 특성화되는 방법.
  40. 장치로서,
    이미지를 저장하도록 구성된 적어도 하나의 메모리 저장 장치; 및
    상기 메모리에 동작 가능하게 연결되고 제1항의 방법을 실행하도록 프로그램되어 있는 적어도 하나의 프로세서를 포함하는 장치.
  41. 제1항의 방법의 단계들을 구현하기 위한 컴퓨터-판독가능 명령어를 갖고 있는 비일시적 컴퓨터-판독가능 매체.
KR1020147007453A 2011-08-25 2012-08-24 머신 비전용 망막 인코더 KR101976048B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161527493P 2011-08-25 2011-08-25
US61/527,493 2011-08-25
US201261657406P 2012-06-08 2012-06-08
US61/657,406 2012-06-08
PCT/US2012/052348 WO2013029008A1 (en) 2011-08-25 2012-08-24 Retinal encoder for machine vision

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020197012590A Division KR102111000B1 (ko) 2011-08-25 2012-08-24 머신 비전용 망막 인코더

Publications (2)

Publication Number Publication Date
KR20140050741A KR20140050741A (ko) 2014-04-29
KR101976048B1 true KR101976048B1 (ko) 2019-05-09

Family

ID=47746908

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020147007453A KR101976048B1 (ko) 2011-08-25 2012-08-24 머신 비전용 망막 인코더
KR1020197012590A KR102111000B1 (ko) 2011-08-25 2012-08-24 머신 비전용 망막 인코더

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020197012590A KR102111000B1 (ko) 2011-08-25 2012-08-24 머신 비전용 망막 인코더

Country Status (9)

Country Link
US (4) US9547804B2 (ko)
EP (1) EP2748765B1 (ko)
JP (1) JP6117206B2 (ko)
KR (2) KR101976048B1 (ko)
CN (1) CN103890781B (ko)
CA (1) CA2883091C (ko)
HK (1) HK1199768A1 (ko)
IL (1) IL231063A (ko)
WO (1) WO2013029008A1 (ko)

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2539015B1 (en) 2010-02-26 2015-12-30 Cornell University Retina prosthesis
US9302103B1 (en) 2010-09-10 2016-04-05 Cornell University Neurological prosthesis
WO2012078636A1 (en) 2010-12-07 2012-06-14 University Of Iowa Research Foundation Optimal, user-friendly, object background separation
CA2883091C (en) 2011-08-25 2020-02-25 Cornell University Retinal encoder for machine vision
US20130139259A1 (en) 2011-11-30 2013-05-30 Elwha Llc Deceptive indicia profile generation from communications interactions
US9832510B2 (en) 2011-11-30 2017-11-28 Elwha, Llc Deceptive indicia profile generation from communications interactions
US9378366B2 (en) 2011-11-30 2016-06-28 Elwha Llc Deceptive indicia notification in a communications interaction
US10250939B2 (en) * 2011-11-30 2019-04-02 Elwha Llc Masking of deceptive indicia in a communications interaction
CN107257403A (zh) 2012-04-09 2017-10-17 英特尔公司 使用交互化身的通信
US9195903B2 (en) * 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
KR101549178B1 (ko) * 2014-07-31 2015-09-02 고려대학교 산학협력단 홀로그램 생성 장치 및 방법
FR3025344B1 (fr) * 2014-08-28 2017-11-24 Commissariat Energie Atomique Reseau de neurones convolutionnels
US10147024B2 (en) * 2014-09-16 2018-12-04 Qualcomm Incorporated Interfacing an event based system with a frame based processing system
US10366506B2 (en) * 2014-11-07 2019-07-30 Lamina Systems, Inc. Hyperacuity system and methods for real time and analog detection and kinematic state tracking
EP3234867A4 (en) * 2014-12-17 2018-08-15 Nokia Technologies Oy Object detection with neural network
US9830728B2 (en) 2014-12-23 2017-11-28 Intel Corporation Augmented facial animation
US10048749B2 (en) 2015-01-09 2018-08-14 Microsoft Technology Licensing, Llc Gaze detection offset for gaze tracking models
US9864430B2 (en) 2015-01-09 2018-01-09 Microsoft Technology Licensing, Llc Gaze tracking via eye gaze model
US9524450B2 (en) * 2015-03-04 2016-12-20 Accenture Global Services Limited Digital image processing using convolutional neural networks
US10115194B2 (en) * 2015-04-06 2018-10-30 IDx, LLC Systems and methods for feature detection in retinal images
JP7016522B2 (ja) * 2015-04-20 2022-02-07 コーネル ユニヴァーシティー 次元データ低減を有するマシンビジョン
CN104811627A (zh) * 2015-05-21 2015-07-29 广东欧珀移动通信有限公司 拍摄预览方法及装置
NL2015087B1 (en) 2015-06-05 2016-09-09 Univ Amsterdam Deep receptive field networks.
US9844881B2 (en) * 2015-06-22 2017-12-19 GM Global Technology Operations LLC Robotic device including machine vision
BE1023147B1 (nl) * 2015-07-03 2016-12-01 Cnh Industrial Belgium Nv Controller voor een werkvoertuig
CN105227828B (zh) * 2015-08-25 2017-03-15 努比亚技术有限公司 拍摄装置和方法
US9904874B2 (en) * 2015-11-05 2018-02-27 Microsoft Technology Licensing, Llc Hardware-efficient deep convolutional neural networks
WO2017101094A1 (en) 2015-12-18 2017-06-22 Intel Corporation Avatar animation system
US9846808B2 (en) * 2015-12-31 2017-12-19 Adaptive Computation, Llc Image integration search based on human visual pathway model
KR102444604B1 (ko) * 2016-02-02 2022-09-21 에스케이하이닉스 주식회사 데이터 저장 장치 및 그것의 동작 방법
JP6609505B2 (ja) * 2016-04-06 2019-11-20 Kddi株式会社 画像合成装置及びプログラム
CN107305635A (zh) * 2016-04-15 2017-10-31 株式会社理光 对象识别方法、对象识别装置和分类器训练方法
US9984314B2 (en) * 2016-05-06 2018-05-29 Microsoft Technology Licensing, Llc Dynamic classifier selection based on class skew
RU2665273C2 (ru) * 2016-06-03 2018-08-28 Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" Обучаемые визуальные маркеры и способ их продуцирования
KR102631381B1 (ko) * 2016-11-07 2024-01-31 삼성전자주식회사 컨볼루션 신경망 처리 방법 및 장치
US11423548B2 (en) 2017-01-06 2022-08-23 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
US20180247161A1 (en) * 2017-01-23 2018-08-30 Intaimate LLC System, method and apparatus for machine learning-assisted image screening for disallowed content
US10191539B2 (en) * 2017-03-20 2019-01-29 Intel Corporation User aware odometry correction technology
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
CN107067407B (zh) * 2017-04-11 2020-01-31 广西科技大学 基于非经典感受野和线性非线性调制的轮廓检测方法
CN116957055A (zh) * 2017-06-05 2023-10-27 渊慧科技有限公司 使用多模态输入选择动作
US10726307B2 (en) 2017-06-30 2020-07-28 Ai Systems Co., Ltd. Real-time identification of moving objects in video images
CN107609463B (zh) * 2017-07-20 2021-11-23 百度在线网络技术(北京)有限公司 活体检测方法、装置、设备及存储介质
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US10384346B2 (en) * 2017-09-08 2019-08-20 Niantic, Inc. Collision detection, estimation, and avoidance
GB2570433A (en) * 2017-09-25 2019-07-31 Nissan Motor Mfg Uk Ltd Machine vision system
US11126914B2 (en) * 2017-10-11 2021-09-21 General Electric Company Image generation using machine learning
WO2019108166A1 (en) 2017-11-28 2019-06-06 Hewlett-Packard Development Company, L.P. Digital image analysis and processing for viewing by color-blind
WO2019108170A1 (en) * 2017-11-29 2019-06-06 Intel Corporation Methods and apparatus to convert images for computer-vision systems
JP6985121B2 (ja) 2017-12-06 2021-12-22 国立大学法人 東京大学 物体間関係認識装置、学習済みモデル、認識方法及びプログラム
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
CN108520532B (zh) * 2018-04-03 2020-12-22 北京京东尚科信息技术有限公司 识别视频中物体运动方向的方法及装置
CA3100495A1 (en) 2018-05-16 2019-11-21 Benevis Informatics, Llc Systems and methods for review of computer-aided detection of pathology in images
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
CN109118460B (zh) * 2018-06-27 2020-08-11 河海大学 一种分光偏振光谱信息同步处理方法及系统
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US10579924B1 (en) * 2018-09-17 2020-03-03 StradVision, Inc. Learning method, learning device with multi-feeding layers and testing method, testing device using the same
CN109299689B (zh) * 2018-09-21 2024-03-08 石家庄铁道大学 基于机器视觉的环形生产线模台自动化识别装置及其识别方法
WO2020072427A1 (en) * 2018-10-01 2020-04-09 Cornell University Kits and methods for performing optical dynamic clamp on excitable cells
CN115512173A (zh) 2018-10-11 2022-12-23 特斯拉公司 用于使用增广数据训练机器模型的系统和方法
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11601644B2 (en) * 2018-12-11 2023-03-07 Google Llc Image and video coding using machine learning prediction coding models
CN109660297B (zh) * 2018-12-19 2020-04-28 中国矿业大学 一种基于机器学习的物理层可见光通信方法
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11062460B2 (en) * 2019-02-13 2021-07-13 Adobe Inc. Representation learning using joint semantic vectors
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US11631266B2 (en) 2019-04-02 2023-04-18 Wilco Source Inc Automated document intake and processing system
CN110119785B (zh) * 2019-05-17 2020-12-01 电子科技大学 一种基于多层spiking卷积神经网络的图像分类方法
US11417096B2 (en) * 2019-05-21 2022-08-16 Vimeo.Com, Inc. Video format classification and metadata injection using machine learning
CN110598698B (zh) * 2019-08-29 2022-02-15 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和系统
CN111008550A (zh) * 2019-09-06 2020-04-14 上海芯灵科技有限公司 基于Multiple loss损失函数的指静脉验证身份的识别方法
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US11301977B2 (en) * 2020-04-10 2022-04-12 General Electric Company Systems and methods for automatic defect recognition
TWI791979B (zh) * 2020-04-28 2023-02-11 長庚醫療財團法人林口長庚紀念醫院 三維醫學影像的建立方法
CN111844025B (zh) * 2020-07-02 2024-04-16 上海发那科机器人有限公司 一种涂胶机器人视觉数据的记录装置及记录方法
EP4228266A1 (en) 2020-10-08 2023-08-16 Riken Image processing device, image processing method, and non-transitory computer readable medium whereon image processing program is stored
CN112451857A (zh) * 2020-12-10 2021-03-09 深圳先进技术研究院 视网膜神经节细胞激活状态的判别方法、存储介质和设备
CN113269235B (zh) * 2021-05-10 2022-12-27 青岛理工大学 一种基于无监督学习的装配体变化检测方法及设备
CN114257817B (zh) * 2022-03-01 2022-09-02 浙江智慧视频安防创新中心有限公司 一种多任务数字视网膜特征流的编码方法及解码方法
CN114449280B (zh) * 2022-03-30 2022-10-04 浙江智慧视频安防创新中心有限公司 一种视频编解码方法、装置及设备

Family Cites Families (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0357212B1 (en) * 1988-08-23 1998-04-29 John G. Sutherland Artificial neural device and corresponding method
US5103306A (en) * 1990-03-28 1992-04-07 Transitions Research Corporation Digital image compression employing a resolution gradient
JP2809954B2 (ja) 1992-03-25 1998-10-15 三菱電機株式会社 画像感知および処理のための装置および方法
ATE208514T1 (de) * 1993-08-26 2001-11-15 Univ California Neuronales netzwerk-topographische sensorische organe und verfahren
US5856152A (en) 1994-10-28 1999-01-05 The Trustees Of The University Of Pennsylvania Hybrid adenovirus-AAV vector and methods of use therefor
US5974159A (en) 1996-03-29 1999-10-26 Sarnoff Corporation Method and apparatus for assessing the visibility of differences between two image sequences
US5836996A (en) 1996-12-30 1998-11-17 Doorish; John F. Artificial retina
DE19707046A1 (de) * 1997-02-21 1998-08-27 Rolf Prof Dr Ing Eckmiller Lernfähiger "Active Vision" Implant Encoder
EP1666089A3 (de) 1997-02-21 2006-06-14 Intelligent Aquisition, LLC Lernfähiger sensomotorischer Encoder für Neuroprothesen
EP0977880A2 (en) 1997-04-21 2000-02-09 University Of Florida Materials and methods for treatment of retinal diseases
US6458157B1 (en) * 1997-08-04 2002-10-01 Suaning Gregg Joergen Retinal stimulator
US6971066B2 (en) * 1997-08-18 2005-11-29 National Instruments Corporation System and method for deploying a graphical program on an image acquisition device
AU775245B2 (en) 1998-09-17 2004-07-22 Catholic University Nijmegen Methods for treatment of degenerative retinal diseases
US6165192A (en) 1999-01-05 2000-12-26 Second Sight, Llc Method and apparatus for intraocular retinal tack inserter
EP1864690A3 (en) 1999-03-24 2008-01-02 Second Sight Medical Products, Inc. Logarithmic light intensifier for use with photoreceptorbased implanted retinal prosthetics and those prosthetics
WO2000056393A1 (en) 1999-03-24 2000-09-28 Second Sight, Llc Retinal color prosthesis for color sight restoration
US7186560B2 (en) 1999-09-21 2007-03-06 Rutgers, The State University Of New Jersey High level expression of immunogenic proteins in the plastids of higher plants
US8019428B2 (en) 2000-05-26 2011-09-13 Second Sight Medical Products, Inc. Video processing methods for improving visual acuity and/or perceived image resolution
WO2001094605A2 (en) 2000-06-09 2001-12-13 University Of Florida Research Foundation, Inc. Recombinant aav vectors for gene therapy of obesity
US6970745B2 (en) 2000-08-09 2005-11-29 The United States Of America As Represented By The Secretary Of The Navy Microelectronic stimulator array for stimulating nerve tissue
US6647297B2 (en) 2000-08-09 2003-11-11 The United States Of America As Represented By The Secretary Of The Navy Permanent retinal implant device
US7149586B2 (en) 2002-03-28 2006-12-12 Second Sight Medical Products, Inc. Variable pitch electrode array
EP1381276A4 (en) 2001-04-13 2005-02-02 Univ Pennsylvania METHOD FOR TREATMENT OR DEVELOPMENT SLUDGE DEGRADATION
WO2002085452A1 (en) 2001-04-24 2002-10-31 Neurodan A/S Functional electrical therapy system (fets)
EP1383577A2 (en) 2001-05-03 2004-01-28 Universite Catholique De Louvain Vision rehabilitation method and device
US6801655B2 (en) * 2001-05-10 2004-10-05 The United States Of America As Represented By The Secretary Of The Navy Spatial image processor
US9143706B2 (en) 2001-06-06 2015-09-22 Andrew Zador Imaging system utilizing spatial image oscillation
US6675164B2 (en) 2001-06-08 2004-01-06 The Regents Of The University Of California Parallel object-oriented data mining system
US7209788B2 (en) 2001-10-29 2007-04-24 Duke University Closed loop brain machine interface
US20030105409A1 (en) 2001-11-14 2003-06-05 Donoghue John Philip Neurological signal decoding
US20030129164A1 (en) 2001-12-03 2003-07-10 Flannery John G. Expression of glial-derived neurotrophic factor for treatment of diseases of the eye
WO2003080648A2 (en) 2002-03-20 2003-10-02 University Of Florida Research Foundation, Inc. Raav vector compositions and methods for the treatment of choroidal neovascularization
US7203356B2 (en) 2002-04-11 2007-04-10 Canesta, Inc. Subject segmentation and tracking using 3D sensing technology for video compression in multimedia applications
US20060127358A1 (en) 2002-05-01 2006-06-15 Nicholas Muzyczka Raav expression systems and methods for enhancing transduction of mammalian neural cells
AU2003274397A1 (en) 2002-06-05 2003-12-22 University Of Florida Production of pseudotyped recombinant aav virions
US20060251621A1 (en) 2002-09-27 2006-11-09 Campochiaro Peter A Ocular gene therapy
KR100506533B1 (ko) * 2003-01-11 2005-08-05 삼성전자주식회사 이동로봇 및 그에 따른 자율주행 시스템 및 방법
US7311723B2 (en) 2003-07-11 2007-12-25 University Of Washington Scanning laser device and methods of use
ITMI20031449A1 (it) 2003-07-15 2005-01-16 St Microelectronics Srl Metodo per classificare una immagine digitale
EP1727591B1 (en) 2004-02-05 2009-04-29 Motorika Ltd. Neuromuscular stimulation
WO2005080573A1 (en) 2004-02-20 2005-09-01 Universite De Montreal Recombinant viral vectors to promote neuronal cell survival and uses thereof
US7751585B2 (en) 2004-06-28 2010-07-06 Microsoft Corporation System and method for encoding high density geometric symbol set
CN1770177A (zh) 2004-06-28 2006-05-10 微软公司 编码高密度几何符号集的系统和方法
DE602005014485D1 (de) 2004-07-13 2009-06-25 Koninkl Philips Electronics Nv Verfahren zur räumlichen und snr-bildkomprimierung
US8103352B2 (en) 2004-12-03 2012-01-24 Second Sight Medical Products, Inc. Mimicking neural coding in retinal ganglion cells with short pulse electrical stimulation
US8520944B2 (en) * 2004-12-24 2013-08-27 Mario Cimbalista, JR. Method for improving visualization of infrared images
EP1858586B1 (en) 2005-02-16 2016-05-11 Second Sight Medical Products, Inc. Fitting of brightness in a visual prosthesis
US8906360B2 (en) 2005-07-22 2014-12-09 The Board Of Trustees Of The Leland Stanford Junior University Light-activated cation channel and uses thereof
US20070050046A1 (en) 2005-07-25 2007-03-01 Georgopoulos Apostolos P Methods for generating a signal indicative of an intended movement
US8956396B1 (en) 2005-10-24 2015-02-17 Lockheed Martin Corporation Eye-tracking visual prosthetic and method
US20070198066A1 (en) 2005-11-03 2007-08-23 Greenberg Robert J Method and apparatus for visual neural stimulation
JP4572175B2 (ja) 2006-04-25 2010-10-27 日本電信電話株式会社 非定常映像検出装置,非定常映像検出方法及びその方法を実装したプログラム
WO2007127428A2 (en) 2006-04-28 2007-11-08 University Of Florida Research Foundation, Inc. Double-stranded/self-complementary vectors with a truncated cba promoter and methods of gene delivery
CN101484005A (zh) 2006-05-04 2009-07-15 韦恩州立大学 通过向体内递送视紫红质核酸恢复视觉响应
US8197539B2 (en) 2006-05-05 2012-06-12 University Of Southern California Intraocular camera for retinal prostheses
US8311634B2 (en) 2006-06-16 2012-11-13 Second Sight Medical Products Inc. Apparatus and method for electrical stimulation of human retina
GB0612242D0 (en) 2006-06-21 2006-08-02 Imp Innovations Ltd Retinal prosthetic devices
EP1891976A1 (en) 2006-08-23 2008-02-27 Novartis Forschungsstiftung, Zweigniederlassung Friedrich Miescher Institute for Biomedical Research Use of light sensitive genes
WO2008109862A2 (en) 2007-03-08 2008-09-12 Second Sight Medical Products, Inc. Flexible circuit electrode array
CN100481123C (zh) 2007-03-08 2009-04-22 上海交通大学 采用时空滤波器的视网膜编码器实现方法
US9799098B2 (en) * 2007-04-24 2017-10-24 Massachusetts Institute Of Technology Method and apparatus for image processing
EP1995685A3 (en) 2007-05-21 2012-08-01 Biotronik CRM Patent AG Medical device for monitoring biological signal
US20090105786A1 (en) 2007-10-22 2009-04-23 University Of Washington Method and device for strengthening synaptic connections
US8195303B2 (en) 2007-11-07 2012-06-05 Second Sight Medical Products, Inc. Video processing unit for a visual prosthetic apparatus
US8195302B2 (en) 2007-11-07 2012-06-05 Second Sight Medical Products, Inc. Video processing unit for a visual prosthetic apparatus
US8562658B2 (en) 2007-12-06 2013-10-22 Technion Research & Development Foundation Limited Method and system for optical stimulation of neurons
CN100586403C (zh) 2008-03-06 2010-02-03 上海交通大学 视觉假体图像处理装置及方法
EP2262410B1 (en) 2008-04-08 2015-05-27 National University of Singapore Retinal image analysis systems and method
EP2315833B8 (en) 2008-05-20 2015-05-27 Eos Neuroscience, Inc. Vectors for delivery of light-sensitive proteins and methods of use
US20100016732A1 (en) 2008-07-17 2010-01-21 Lockheed Martin Corporation Apparatus and method for neural-signal capture to drive neuroprostheses or control bodily function
EP2320830A4 (en) * 2008-08-07 2012-02-01 Massachusetts Inst Technology CODING FOR SEA PROSTHESES
CN101336856B (zh) 2008-08-08 2010-06-02 西安电子科技大学 辅助视觉系统的信息获取与传递方法
CN101393789A (zh) 2008-11-04 2009-03-25 江苏圣安电缆有限公司 交联聚乙烯绝缘电力电缆内气体的排除方法
US8179452B2 (en) 2008-12-31 2012-05-15 Lg Electronics Inc. Method and apparatus for generating compressed file, and terminal comprising the apparatus
US8108147B1 (en) * 2009-02-06 2012-01-31 The United States Of America As Represented By The Secretary Of The Navy Apparatus and method for automatic omni-directional visual motion-based collision avoidance
US8744588B2 (en) 2009-05-07 2014-06-03 Hani Midani Method and system for connecting an impaired nervous system to a muscle or a group of muscles based on template matching and intelligent end points
EP2539015B1 (en) 2010-02-26 2015-12-30 Cornell University Retina prosthesis
US20110213266A1 (en) 2010-03-01 2011-09-01 Williams Justin C Closed Loop Neural Activity Triggered Rehabilitation Device And Method
US9311593B2 (en) * 2010-03-26 2016-04-12 Brain Corporation Apparatus and methods for polychronous encoding and multiplexing in neuronal prosthetic devices
US8315305B2 (en) * 2010-03-26 2012-11-20 Brain Corporation Systems and methods for invariant pulse latency coding
US20110307079A1 (en) 2010-04-29 2011-12-15 Board Of Trustees Of Michigan State University, The Multiscale intra-cortical neural interface system
US8527056B2 (en) 2010-04-30 2013-09-03 Second Sight Medical Products, Inc. Encoding of size and brightness of percepts in a visual prosthesis
BR112013004964A2 (pt) 2010-08-31 2017-05-23 Univ Cornell aparelho protético para recuperar ou melhorar a visão de um indivíduo em necessidade do mesmo
US9302103B1 (en) 2010-09-10 2016-04-05 Cornell University Neurological prosthesis
CA2854258A1 (en) 2010-11-11 2012-05-18 IINN, Inc. Motor nerve root stimulation
CA2883091C (en) * 2011-08-25 2020-02-25 Cornell University Retinal encoder for machine vision
EP2793998A4 (en) * 2011-12-20 2015-06-03 Univ Johns Hopkins CONTROLLING AND MINIMIZING ARTEFACT IN A SAFE DC STIMULATOR FOR NEURAL PROSTHESIS
CZ304893B6 (cs) 2012-06-20 2015-01-07 Miloslav Hering Kolečková brusle
US9773155B2 (en) 2014-10-14 2017-09-26 Microsoft Technology Licensing, Llc Depth from time of flight camera

Also Published As

Publication number Publication date
HK1199768A1 (en) 2015-07-17
US10303970B2 (en) 2019-05-28
US9547804B2 (en) 2017-01-17
CA2883091A1 (en) 2013-02-28
CA2883091C (en) 2020-02-25
KR20190051076A (ko) 2019-05-14
CN103890781B (zh) 2017-11-21
WO2013029008A1 (en) 2013-02-28
CN103890781A (zh) 2014-06-25
EP2748765A4 (en) 2016-06-22
KR20140050741A (ko) 2014-04-29
US20200401837A1 (en) 2020-12-24
US20170255837A1 (en) 2017-09-07
KR102111000B1 (ko) 2020-05-14
JP6117206B2 (ja) 2017-04-19
US10769483B2 (en) 2020-09-08
EP2748765B1 (en) 2022-12-14
JP2014524630A (ja) 2014-09-22
US20140355861A1 (en) 2014-12-04
IL231063A0 (en) 2014-03-31
US11640681B2 (en) 2023-05-02
US20190279021A1 (en) 2019-09-12
EP2748765A1 (en) 2014-07-02
IL231063A (en) 2016-10-31

Similar Documents

Publication Publication Date Title
KR101976048B1 (ko) 머신 비전용 망막 인코더
CN109345538B (zh) 一种基于卷积神经网络的视网膜血管分割方法
CN107624061B (zh) 具有维度数据缩减的机器视觉
WO2018182846A1 (en) Systems and methods for improved image textures
Trang et al. Mango diseases identification by a deep residual network with contrast enhancement and transfer learning
Küçükoğlu et al. Optimization of neuroprosthetic vision via end-to-end deep reinforcement learning
Liang et al. The impact of encoding–decoding schemes and weight normalization in spiking neural networks
Tasdizen et al. Improving the robustness of convolutional networks to appearance variability in biomedical images
Reichert et al. A hierarchical generative model of recurrent object-based attention in the visual cortex
Goel et al. Gray level enhancement to emphasize less dynamic region within image using genetic algorithm
WO2022093475A1 (en) Human characteristic normalization with an autoencoder
Zheng et al. Fruit tree disease recognition based on convolutional neural networks
Noor et al. Multilevel thresholding of gel electrophoresis images using firefly algorithm
Sri et al. Gender prediction based on morphometry of eyes using deep learning models
Rueckauer et al. Optimization of Neuroprosthetic Vision via End-to-end Deep Reinforcement Learning
Keil From neuronal models to neuronal dynamics and image processing
Nejatian et al. Implementation real-time gender recognition based on facial features using a hybrid neural network Imperialist Competitive Algorithm
Xu et al. Recognition Effects of Deep Convolutional Neural Network on Smudged Handwritten Digits
Dhilipan et al. Pattern recognition using Spiking Neural Netwoks with temporal encoding and learning
Khan et al. Surrogate Gradient-Based Medical Image Classification Using Spike Neural Network
Ji et al. Vision at A Glance: Interplay between Fine and Coarse Information Processing Pathways
Ruiz-Serra et al. Learning scene representations for human-assistive displays using self-attention networks
Elnabawy et al. PVGAN: a generative adversarial network for object simplification in prosthetic vision
BESHA INTELLIGENT FACIAL EXPRESSIONS RECOGNITION SYSTEM
Hu et al. A bio-inspired model for color image segmentation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant