KR20170078516A - 신경망 기반 영상 신호 처리를 수행하는 방법 및 장치 - Google Patents

신경망 기반 영상 신호 처리를 수행하는 방법 및 장치 Download PDF

Info

Publication number
KR20170078516A
KR20170078516A KR1020160140280A KR20160140280A KR20170078516A KR 20170078516 A KR20170078516 A KR 20170078516A KR 1020160140280 A KR1020160140280 A KR 1020160140280A KR 20160140280 A KR20160140280 A KR 20160140280A KR 20170078516 A KR20170078516 A KR 20170078516A
Authority
KR
South Korea
Prior art keywords
neural network
image
images
signal processing
output
Prior art date
Application number
KR1020160140280A
Other languages
English (en)
Other versions
KR102630035B1 (ko
Inventor
치앙 장
쩡핑 지
이빙 미쉘 왕
일리아 오브시안니코브
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20170078516A publication Critical patent/KR20170078516A/ko
Application granted granted Critical
Publication of KR102630035B1 publication Critical patent/KR102630035B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

본 발명은 신경망(Neural Network) 및 어댑터를 포함하는 영상 신호 처리(Image Signal Processing) 시스템을 제공한다. 신경망은 원시(Raw) 데이터 영상들의 집합 및 그 원시 데이터 영상들과 연관되는 목표 화질의 출력 영상들의 집합을 입력함으로써 트레이닝(Training)된다. 어댑터는 신경망을 위해 입력 영상 데이터를 수신하고 처리된 출력을 제공한다. 이 처리된 출력은, 적어도 하나의 화질 속성과 관련하여 입력 영상 데이터로부터 조절된, 처리된 영상 데이터를 포함한다. 본 발명은 영상 신호 처리 신경망의 효율적인 학습(Learning)/트레이닝(Training)은 물론, 최적화된 영상 출력을 가능하게 한다.

Description

신경망 기반 영상 신호 처리를 수행하는 방법 및 장치 {METHOD AND APPARATUS PERFORMING NEURAL NETWORK BASED IMAGE SIGNAL PROCESSING}
본 발명은 신경망(Neural Network)에 관한 것으로, 좀 더 구체적으로는 영상 신호 처리(Image Signal Processing)를 수행하기 위해 신경망을 이용하기 위한 기법들에 관한 것이다.
이미지 센서(Image Sensor)들의 광범위한 유용성은 제조자들이 많은 장치에 영상 촬영 기능(Imaging Capability)들을 포함시키게 해 왔다. 예를 들면, 디지털 카메라를 포함하지 않는 휴대 전화를 찾는 것이 어려워졌다. 이미지 센서들의 제조 비용이 많이 감소했고 영상 촬영을 위한 기술이 많이 개선되었지만, 영상 신호 처리는 도전 과제로 남아 있다.
영상 신호 처리는 특정 이미지 센서를 위해 구성되는 전용 구성 요소들을 필요로 한다. 특수화된 영상 신호 처리기의 개발에는 큰 비용이 들 수 있다. 예로서, 영상들을 처리하기 위해 상당한 양의 컴퓨터 코드(Computer Code)가 기록되어야 한다. 이러한 코드를 기록하는 것은 영상 처리를 설계하고 조절(Tuning)하기 위한 많은 전문 지식을 요구한다. 나아가, 이러한 코드는 개별 센서들에 적합하게 맞추어져야 하고, 특정 사용자를 위해 커스터마이즈(Customize)될 필요가 있을 수 있다. 더 복잡한 문제로서, 이러한 코드는 제조 과정에서 발생할 수 있는 이미지 센서들의 그룹의 제조상 변동성(Variability)을 반영하지 않는다.
제조 비용 및 복잡도의 증가 외에도, 영상 신호 처리 전용의 특정 칩셋(Chipset)은 상대적으로 유연하지 못하고(Inflexible) 모든 환경에 잘 맞지는 않을 수 있다. 따라서, 영상 촬영 장치에 포함되는 영상 신호 처리 기능이 더 많아질수록, 그 장치 내에서 요구되는 관련 비용 및 공간이 더 커진다.
영상 신호 처리를 더 효율적으로 제공하기 위한 향상된 기법들이 필요하다. 이 기법들은 다목적(Multipurpose) 프로세서 및 메모리와 같은 보통의 자원(Resource)들을 활용해야 한다. 가급적이면, 이 기법들은 매우 유연하여 쉽게 향상될 수 있어야 한다.
본 발명의 실시 예들은 영상 신호 처리를 수행하기 위해 신경망을 이용하기 위한 기법들을 제공한다. 본 발명의 실시 예에 따른 영상 신호 처리 신경망은 많은 전자 장치 내에서 흔히 발견되는 다목적 구성 요소들을 활용하여 구현될 수 있다.
본 발명의 일 실시 예는 신경망 및 어댑터를 포함하는 영상 신호 처리 시스템을 제공할 수 있다. 신경망은 원시(Raw) 데이터 영상들의 집합 및 그 원시 데이터 영상들과 연관되는 목표 화질의 출력 영상들의 집합을 입력함으로써 트레이닝(Training)될 수 있다. 어댑터는 신경망을 위해 입력 영상 데이터를 수신하고 처리된 출력을 제공할 수 있다. 처리된 출력은, 적어도 하나의 화질 속성과 관련하여 입력 영상 데이터로부터 조절된, 처리된 영상 데이터를 포함할 수 있다.
본 발명의 일 실시 예에서, 신경망은 컨볼루션 신경망(Convolutional Neural Network)을 포함할 수 있다. 신경망은 백 프로퍼게이션(Back Propagation) 기법에 의해 트레이닝될 수 있다. 신경망은 모바일 영상 촬영 장치(Mobile Imaging Device)로 다운로드되도록 구성될 수 있다.
적어도 하나의 화질 속성은 영상 크기, 가로 세로 비율(Aspect Ratio), 밝기, 세기, 비트 심도(Bit Depth), 백색 값(White Value), 다이나믹 레인지(Dynamic Range), 그레이 레벨(Gray Level), 윤곽 조절(Contouring), 스무딩(Smoothing), 스페클(Speckle), 색 공간 값(Color Space Value)들, 인터리빙(Interleaving), 보정(Correction), 감마 보정(Gamma Correction), 에지 인핸스먼트(Edge Enhancement), 콘트라스트 인핸스먼트(Contrast Enhancement), 샤프니스(Sharpness) 및 디모자이싱(Demosaicing)을 포함할 수 있다.
본 발명의 다른 실시 예는 영상 신호 처리 시스템을 제공하기 위한 방법을 제공할 수 있다. 이 방법은 영상 처리를 위한 신경망을 구성하는 단계, 원시 데이터 영상들의 집합 및 그 목표 화질의 출력 영상들의 집합을 이용하여 신경망을 트레이닝하는 단계, 및 입력 영상 데이터를 수신하고 처리된 출력 데이터를 제공하도록 트레이닝된 신경망을 구성하는 단계를 포함할 수 있다. 원시 데이터 영상들의 각 영상은 목표 화질의 출력 영상들의 집합의 영상과 연관될 수 있다. 처리된 출력 데이터는, 적어도 하나의 화질 속성과 관련하여 입력 영상 데이터로부터 조절된, 처리된 영상 데이터를 포함할 수 있다.
본 발명의 다른 실시 예에 따른 방법은 백 프로퍼게이션에 의해 신경망을 트레이닝하는 단계를 더 포함할 수 있다. 본 발명의 다른 실시 예에 따른 방법은 영상 촬영 장치를 이용하여 원시 데이터 영상들의 집합을 수집하는 단계를 더 포함할 수 있다. 본 발명의 다른 실시 예에 따른 방법은 목표 화질의 출력 영상들의 집합으로서 이용될 처리된 영상 데이터의 집합을 제공하기 위해 원시 데이터 영상들의 집합을 처리하는 단계를 더 포함할 수 있다. 본 발명의 다른 실시 예에 따른 방법은 기준 영상 촬영 장치를 이용하여 목표 화질의 출력 영상들의 집합을 수집하는 단계를 더 포함할 수 있다. 본 발명의 다른 실시 예에 따른 방법은 목표 화질의 출력 영상들의 적어도 일부와 함께 속성 참조 데이터(Attribute Reference Data)를 포함시키는 단계를 더 포함할 수 있다. 본 발명의 다른 실시 예에 따른 방법은 원시 데이터 영상들에 기존의 영상 신호 처리 시스템을 적용함으로써 목표 화질의 출력 영상들의 집합을 수집하는 단계를 더 포함할 수 있다. 본 발명의 다른 실시 예에 따른 방법에서, 트레이닝하는 단계는 원격 시스템 상에서 수행될 수 있고, 트레이닝된 신경망을 구성하는 단계는 신경망을 영상 촬영 장치로 다운로드하는 단계를 포함할 수 있다.
본 발명의 또 다른 실시 예는 이미지 센서, 메모리, 프로세서, 및 영상 신호 처리 시스템을 포함하는 영상 촬영 장치를 제공할 수 있다. 이미지 센서는 입력 영상 데이터를 생성할 수 있다. 메모리는 기계적으로 실행되는 명령어(Machine-executable Instruction)들을 저장할 수 있다. 프로세서는 메모리에 저장된 명령어들을 실행할 수 있다. 영상 신호 처리 시스템은 프로세서에 의해 실행되는 명령어들에 기초하여 동작하도록 구성될 수 있다. 명령어들은 원시 데이터 영상들의 집합 및 그 원시 데이터 영상들과 연관되는 목표 화질의 출력 영상들의 집합을 입력함으로써 트레이닝되는 신경망을 포함할 수 있다. 신경망은 이미지 센서로부터 입력 영상 데이터를 수신하고 처리된 출력을 제공하기 위한 어댑터를 포함할 수 있다. 처리된 출력은, 적어도 하나의 화질 속성과 관련하여 입력 영상 데이터로부터 조절된, 처리된 영상 데이터를 포함할 수 있다.
본 발명의 또 다른 실시 예에서, 영상 촬영 장치는 스마트폰, 태블릿 컴퓨터, 카메라, 및 의료 영상 촬영 장치 중 하나를 포함할 수 있다. 영상 신호 처리 시스템은 기존의 영상 신호 처리 시스템을 보완하거나 대체하도록 제공될 수 있다. 영상 촬영 장치는 영상 촬영 장치와 원격 시스템 사이에서 연산 작업(Computing Task)들을 분산(Distribute)시키기 위해 원격 시스템과 통신하도록 구성될 수 있다. 영상 촬영 장치는 범용 영상 촬영, 의료 영상 촬영, 보안 영상 촬영, 및 생산 영상 촬영 중 하나를 위해 구성될 수 있다. 신경망을 위한 트레이닝은 백 프로퍼게이션에 의해 수행될 수 있다.
본 발명의 또 다른 실시 예의 영상 촬영 장치는 영상 신호 처리 시스템을 갱신하도록 재구성될 수 있다. 이 재구성은 원격 시스템과의 통신을 통해 자동으로, 예컨대 영상 촬영 장치의 지리(Geography)에 따라, 이루어질 수 있다. 이 재구성은 고객의 선택(Preference)에 따라 원격 시스템과의 통신에 의해 이루어질 수 있다.
본 발명의 실시 예에 따른 영상 신호 처리 신경망은 영상 신호 처리를 수행하는 데에 효과적이고 우수한 기법일 수 있다. 따라서, 본 발명의 실시 예들은 영상 신호 처리 신경망의 효율적인 학습(Learning)/트레이닝(Training)은 물론, 최적화된 영상 출력을 가능하게 할 수 있다.
첨부된 도면들과 함께 다루어지는 이해 설명으로부터 본 발명의 특징들 및 이점들이 명확해질 것이다.
도 1은 이 명세서에서 개시되는 신경망들의 실시 예들을 구현하기에 적합한 컴퓨팅(Computing) 자원들을 보여주는 블록도이다.
도 2는 신경망의 일반적인 양상(Generalized Aspect)들을 보여주는 개념도이다.
도 3은 영상 신호 처리를 위한 신경망을 구현한 양상들을 보여주는 개념도이다.
도 4는 영상 신호 처리를 위한 신경망을 구현한 양상들을 보여주는 다른 개념도이다.
도 5는 영상 신호 처리를 수행하기 위해 신경망을 트레이닝(Training)하기 위한 예시적인 과정의 양상들을 보여주는 흐름도이다.
도 6은 영상 신호 처리를 위한 신경망의 예시를 보여주는 개념도이다.
도 7a 내지 도 7d(함께 도 7로도 언급됨)는 그림 영상들의 집합으로서, 각각 입력 영상, 참조(Reference) 영상, 본 발명의 실시 예의 영상 신호 처리기의 출력, 및 영상 신호 처리를 위해 구성된 신경망의 출력을 보여준다.
도 8a 내지 도 8d(함께 도 8로도 언급됨)는 그림 영상들의 다른 집합으로서, 각각 입력 영상, 참조 영상, 본 발명의 실시 예의 영상 신호 처리기의 출력, 및 영상 신호 처리를 위해 구성된 신경망의 출력을 보여준다.
도 9a 내지 도 9b(함께 도 9로도 언급됨)는 도 8의 그림 영상들의 집합의 확대된 일부 영역을 보여주는 것으로서, 각각 본 발명의 실시 예의 영상 신호 처리기의 출력, 및 영상 신호 처리를 위해 구성된 신경망의 출력을 보여준다.
이 명세서에서 개시되는 것은 영상 신호 처리(Image Signal Processing)를 수행하기 위해 신경망(Neural Network)을 이용하기 위한 기법들이다. 이 기법들은 많은 전자 장치 내에서 흔히 발견되는 CPU(Central Processing Unit), 메모리, 통신 기능들, 및 그 외 다른 구성 요소들과 같은 다목적(Multipurpose) 구성 요소들을 활용한 고 품질의 영상 신호 처리를 위해 제공될 수 있다. 예로서, 이 기법들은 휴대용 전화기, 또는 로우 엔드(Low End)의 소비자 지향(Consumer-oriented) 디지털 카메라 내에서 흔히 발견되는 다목적 구성 요소들을 활용할 수 있다.
개괄적으로, 본 발명의 실시 예들은 영상 신호 처리를 수행하기 위해 신경망을 활용할 수 있다. 실시 예들은 신경망의 효율적인 학습(Learning) 및 영상들의 출력의 최적화를 위해 제공될 수 있다.
이 명세서의 교시에 따라 트레이닝(Training)되는 신경망들은 영상 신호 처리와 관련되는 계산적으로 복잡한 다양한 작업(Task)을 위해 이용될 수 있다. 예로서, 신경망은 객체 인식을 위해 이용되는 영상들을 처리하기 위해 이용될 수 있다. 객체 인식은 영상들에 포함되는 객체들 및 특징들을 식별하기 위해 영상들의 분석을 필요로 하는 안면 인식, 손 글씨 분석, 의료 영상 분석, 및 그 외 다른 작업들, 및 다양한 유사 작업을 위해 제공될 수 있다. 처리된 영상들은 환경 감시, 생산 및 제조 제어, 의료 진단 지원, 및 그 외 다른 다양한 유사 과정과 같은 다양한 작업을 위해 이용될 수 있다.
이 명세서의 교시를 위한 몇몇 맥락(Context)을 제공하기 위해, 몇몇 양상이 소개될 것이다.
이 명세서에서, "신경망"이라는 용어는 적응적인(Adaptive) 환경에 도움이 되고 기계 학습(Machine Learning)에 유용한 통계 학습 알고리즘들을 구현하는 소프트웨어를 나타낼 수 있다. 신경망은 "뉴런(Neuron)들", "처리 요소들", "유닛들", 또는 그 외 다른 유사 용어들로 알려진 복수의 인공 노드(Artificial Node)를 포함할 수 있다. 복수의 인공 노드는 생물학적인 신경망을 모사(Mimic)하는 네트워크를 형성하기 위해 함께 연결될 수 있다.
몇몇 관련된 분야에서, 신경망은 적응적인 가중치(Adaptive Weight)들(예컨대, 학습 알고리즘에 의해 조절(Tuning)되는 수치 파라미터들)의 집합들을 포함할 수 있고, 그것의 입력들에 대한 비선형 함수(Non-linear Function)들을 근사화(Approximating)할 수 있다. 적응적인 가중치들은 개념적으로 뉴런들 사이의 연결 강도(Connection Strength)들과 관련될 수 있고, 이는 트레이닝 및 예측 동안 활성화될 수 있다.
몇몇 관련된 분야에서, 신경망은 비선형의 분산된(Distributed) 병렬 로컬(Local) 처리 및 적응(Adaptation)의 원칙 상에서 동작할 수 있다. 몇몇 관련된 분야에서, 첫 번째 계층은 "입력 계층"으로 불릴 수 있고, 이 계층 내의 뉴런들은 입력 뉴런들로 불릴 수 있다. "출력 계층"은 출력 뉴런들을 포함할 수 있다. 중간 계층들은 "숨겨진(Hidden) 계층들"로 불릴 수 있는데, 이는 이 계층들의 뉴런들이 입력 뉴런들도 아니고 출력 뉴런들도 아니기 때문이다. 뉴런들은 특성 검출기, 변화도(Gradient)들, 및 그 외 다른 구성 요소들을 포함할 수 있다.
몇몇 관련된 분야에서, "컨볼루션(Convolution)"은 두 개의 함수 f 및 g에 대한 수학 연산일 수 있고, 원래의 함수들 중 하나의 수정된 버전으로 볼 수 있는 세 번째 함수를 생성할 수 있다. 이 세 번째 함수는 원래의 함수들 중 하나가 변환된 양에 관한 함수로서, 두 개의 함수 사이에 중첩되는 영역과 관련될 수 있다.
몇몇 관련된 분야에서, "컨볼루션 신경망(Convolutional Neural Network)"이라는 용어는 개별 뉴런들이 가시적인 필드의 중첩 영역들에 대응하도록 올려진(Tiled) 신경망의 유형을 나타낼 수 있다. 컨볼루션 신경망은 로컬 수용 필드(Local Receptive Field)들, 공유된(Shared) 가중치들, 및 화상을 처리하기 위한 풀링(Pooling)을 채용할 것이다.
로컬 수용 필드들은 입력 픽셀들을 숨겨진 뉴런들의 계층으로 연결한 것들로서 여겨질 수 있다. 예로서, 첫 번째 숨겨진 계층의 각 뉴런은 입력 영상의 작고 로컬화된(Localized) 영역에 대응할 수 있다. 숨겨진 뉴런에 대응하는 입력 영상의 영역은 그 숨겨진 뉴런을 위한 "로컬 수용 필드"로 불릴 수 있다. 첫 번째 숨겨진 계층의 숨겨진 뉴런들 각각은 다른 숨겨진 뉴런들과 동일한 가중치들 및 바이어스(Bias)를 이용할 수 있고, 따라서 "공유된 가중치들"을 가질 수 있다. 이는 첫 번째 숨겨진 계층의 모든 뉴런들이 단지 상이한 위치들에서 정확히 동일한 특징을 검출할 수 있음을 의미할 수 있다.
입력 계층으로부터의 결과 맵(Resulting Map)은 "특징 맵(Feature Map)"으로 언급될 수 있고, 특징 맵을 정의하는 가중치들은 "공유된 가중치들"로 언급될 수 있다. "풀링 계층들"은 컨볼루션 계층들의 바로 다음에 이용될 수 있다. 풀링 계층들은 컨볼루션 계층으로부터의 출력에 포함되는 정보를 단순화시킬 수 있다. 즉, 풀링 계층은 컨볼루션 계층으로부터 출력되는 각 특징 맵을 가져올 수 있고, 요약된 특징 맵을 준비할 수 있다. 풀링을 위한 하나의 절차는 "맥스 풀링(Max-pooling)"으로 알려져 있다. 맥스 풀링에서, 풀링 유닛은 단순히 (특징 맵으로부터 출력되는) 입력 영역의 최대 활성화(Maixmum Activation)를 출력할 수 있다.
심층(Deep) 컨볼루션 신경망은 정규화(Normalization) 계층, (입력을 공간적으로 다운 샘플링(Down-sampling)하는) 풀링 계층, 및/또는 그 외 다른 유형들의 계층들과 엮이는(Interlaced) 컨볼루션 계층들을, 가장 상단의 완전히 연결된(Fully Connected) 계층들 및 비용 계층들(예컨대, 로지스틱 회귀법(Logistic Regression))과 함께 적층(Stack)한 것으로 설명될 수 있다. 각 컨볼루션 계층은 필터(Filter)들(예컨대, RGB 영상을 입력으로서 취하고 응답을 제공하는 첫 번째 계층의 필터)의 집합에 의해 파라미터화(Parameterize)될 수 있다. 심층 컨볼루션 신경망의 능력은 깊게 적층된 계층들로부터 오는데, 이는 단순한 특징들(예컨대, 원시의(Raw) RGB 영상 데이터)을 이용하여 시작되고 깊게 적층된 계층들을 통해 점점 더 복잡한 특징을 학습하여, 이어지는 계층들이 상위 레벨의 시맨틱(High Level Semantic)을 식별하기 위해 이용될 수 있다.
이 명세서에서, "필터" 또는 "커널(Kernel)"이라는 용어는 연결 가중치들의 계층을 나타낼 수 있다. 영상을 필터로의 입력으로서 이용할 때, 이 입력은 2차원의 작은 영상 조각(Patch)을 포함할 수 있고, 그 뒤 출력은 단일 단위일 수 있다. 필터가 반복하여 적용되기 때문에, 결과적인 연결은 일련의 중첩하는 수용 필드들처럼 보일 수 있다.
이 명세서에서, "특징 검출기"라는 용어는 데이터 입력의 변형(Transformation)을 학습하고 신경망에 의해 이용될 수 있는 표현(Representation)을 제공하는 기법들의 집합을 나타낼 수 있다.
이 명세서에서, "서브 샘플링(Sub-sampling)" 또는 "다운 샘플링"이라는 용어는 신호의 전반적인 크기를 감소시키는 것을 나타낼 수 있다. 2차원의 필터 출력들의 경우, 영상 처리를 위해 이용되는 것처럼, 서브 샘플링 역시 필터들의 위치 불변성(Position Invariance)을 증가시키는 것으로 이해될 수 있다. "맥스 풀링"으로 언급되는 한 기법은 각 그리드(Grid)에서의 최대 값을 축소된 매트릭스에서의 값으로서 가져오는 것을 수반할 수 있다. 의미상, 이는 컨볼루션 계층에 의해 답변되는 질문을 "이 필터가 바로 여기에 얼마나 잘 적용될 것인가"에서 "이 필터가 이 영역에 얼마나 잘 적용될 것인가"로 바꾸는 것에 대응할 수 있다. 컨볼루션 계층들 사이에 이러한 맥스 풀링 계층을 적용함으로써, 특징 추상성(Feature Abstractness)의 증가에 따라 공간적인 추상성(Spatial Abstractness)이 증가할 수 있다.
이 명세서에서, "영상" 또는 "이미지"라는 용어는 디지털화(Digitize)된 영상 데이터의 2차원 어레이(Array)를 나타낼 수 있으나, 이는 단지 예시적인 것이고 한정적인 것이 아니다. 이 명세서에서, 서버로 제공되는 영상들은 원격 입력 장치(예컨대, 모바일 장치에 포함되는 카메라)와 같은 다른 장치에 의해 수집될 수 있고, 중간 툴(Tool)(예컨대, 소프트웨어 클라이언트)에 의한 트레이닝을 위해 준비될 수 있고, 예로서, 클라이언트에 의해 제공되는 영상들의 형태를 모사하도록 구성될 수 있다. 클라이언트에 의해 수집되는 영상들은 디지털화된 형태로 (예로서, 모바일 장치의 카메라와 같은 장치로부터) 제공될 수 있다.
예시적인 실시 예들에서, 트레이닝 영상들의 차원(Dimension)들 및 픽셀들의 개수와 같은 양상(Aspect)들은 생성 영상들의 차원들 및 픽셀들의 개수와 같을 수 있다. 나아가, 단지 트레이닝 영상들을 클라이언트의 동작 동안 수집되는 다른 영상들과 구별하려는 목적을 위해, 신경망을 트레이닝하기 위해 이용되는 영상들은 "트레이닝 영상들"로 불릴 수 있다. 주어진 신경망에 의한 이어지는 분석을 위해 영상 촬영 장치에 의해 수집되는 영상들은 "생성 영상들" 및 그 외 다른 유사한 별개 용어들로 불릴 수 있다.
이 명세서에서, "생성"이라는 용어는 입력 데이터를 분석하기 위해 신경망을 이용하는 것을 나타낼 수 있다. 대조적으로, "트레이닝"은 생성을 위해 신경망을 성장시키는 것과 관련되는 시퀀스(Sequence)들을 나타낼 수 있다.
이 명세서에서, "객체" 또는 "특징"은 영상에 나타나거나 영상 내에 포함될 수 있다. 예로서, 자동차(객체)는 풍경(객체들의 모음)의 사진(영상) 내에 나타날 수 있다. 특징의 예로서, 영상 내의 선(Line), 곡선(Curve), 세기(Intensity), 색(Color), 및 그 외 다른 특정 속성들을 들 수 있다. 몇몇 실시 예에서, 객체와 특징이라는 용어들은 서로 교체될 수 있고 동일 또는 유사한 의미를 가질 수 있다.
이 명세서에서, "서버"라는 용어는 뛰어난 연산 자원(Computational Resource)들을 갖는 컴퓨팅 자원을 나타낼 수 있다. 예시적인 자원들은, 이 명세서에서 설명되는 작업들을 수행하기 위해 중요한 것들로서, 상당한 양의 메모리, 처리 기능들, 데이터 스토리지(Storage) 등을 포함할 수 있다. 예시적인 실시 예들에서, 서버는 평범한 서버(예컨대, 블레이드 서버(Blade Server)), 메인프레임(Mainframe), 개인용 컴퓨터들의 네트워크, 또는 단순히 개인용 컴퓨터를 포함할 수 있다. 서버는 모바일 장치처럼 입력을 위해 이용되는 다른 장치로부터 원격에 위치할 수 있다. 입력 장치의 한 예로서, 스마트폰을 들 수 있다.
이 명세서에서, "모바일 장치"라는 용어는 이동식 이용을 위해 구성되는 컴퓨팅 자원을 나타낼 수 있다. 종종, 모바일 장치로서 구성되는 장치는 축소된 수준의 연산 자원들을 가질 것이다. 따라서, 모바일 장치들의 다양한 실시 예는 연산 기능들을 보충하기 위해 서버와의 통신을 유지할 수 있다. 모바일 장치들의 예들로서, 스마트폰, 태블릿 컴퓨터, 및/또는 특수화된 장치를 들 수 있다.
이 명세서에서, "영상 촬영 장치"라는 용어는 축소된 수준의 연산 자원들을 가질 수 있는 이미지 센서를 포함하는 장치를 나타낼 수 있다. 예시적인 자원들은, 이 명세서에서 설명되는 작업들을 수행하기 위해 중요한 것들로서, 최소한의 양의 메모리, 처리 기능들, 데이터 스토리지 등을 포함할 수 있다. 몇몇 실시 예에서, 영상 촬영 장치는 신경망으로 입력되는 입력 영상들의 모음을 위해 제공되는 영상 촬영 기능들을 포함할 수 있다. 몇몇 실시 예에서, 영상 촬영 장치는 모바일 장치 상에서의 이용을 위해 구성될 수 있고, 원격 서버 상에서 동작하는 더 뛰어나고 돋보이는 자원들과 통신할 수 있다.
이 명세서에서, "프로그램", "소프트웨어", "어플리케이션(Application)", "애드 인(Add-in)", 및 그 외 다른 유사 용어들은 비 일시적으로 기계적으로 읽을 수 있는 매체(Non-transitory Machine-readable Media) 상에 저장되는 기계적으로 실행 가능한 명령어(Machine-executable Instruction)들을 나타낼 수 있다. 기계적으로 실행 가능한 명령어들은 컴퓨팅 자원들 및 적절한 것으로 보이는 어떠한 관련 구성 요소들의 제어를 통한 방법의 실행을 제공할 수 있다.
이 명세서에서, "비디오", "영화", 및 그 외 다른 유사 용어들은 일련의 영상들을 나타낼 수 있다.
이 명세서에서, "보통의" 또는 "평범한"이라는 용어가 영상 신호 처리기를 소개하기 위해 이용되는 경우, 영상 신호 처리를 위해 프로그램되거나 그 외 다른 방식으로 구성되는 전용 GPU(Dedicated Graphics Processing Unit) 또는 칩셋(Chipset)을 나타낼 수 있다.
이 명세서에서, "영상 신호 처리"라는 용어는 출력 영상의 가시적인 외관을 개선하기 위해 원시 영상 데이터의 양상들을 조절하는 것을 나타낼 수 있다. 영상 신호 처리 동안, 다양한 화질 속성들이 조정될 수 있다. 예로서, 조절될 수 있는 화질 속성들은 디지털 영상의 영상 크기, 가로 세로 비율(Aspect Ratio), 밝기, 세기, 비트 심도(Bit Depth), 백색 값(White Value)들, 다이나믹 레인지(Dynamic Range), 그레이 레벨(Gray Level)들, 윤곽 조절(Contouring), 스무딩(Smoothing), 스페클(Speckle)(예컨대, 의료 영상에서 발견될 수 있음), 색 공간 값(Color Space Value)들, 인터리빙(Interleaving), 보정(Correction), 감마 보정(Gamma Correction), 에지 인핸스먼트(Edge Enhancement), 콘트라스트 인핸스먼트(Contrast Enhancement), 샤프니스(Sharpness), 디모자이싱(Demosaicing), 및 그 외 적절한 것으로 보이는 다른 속성들을 포함할 수 있다. 디모자이싱("디베이어링(Debayering)"으로도 불림) 알고리즘은 색 필터 어레이(Color Filter Array)로 덮인 이미지 센서로부터 출력되는 불완전한 색 샘플들로부터 완전 색(Full Color) 영상을 재구성하기 위해 이용되는 디지털 영상 처리이고, 색 필터 어레이 보간(Interpolation) 또는 색 재구성(Reconstruction)으로도 알려져 있다.
예시적인 실시 예들에서, 이 명세서에서 설명되는 방법들 및 장치는 신경망을 트레이닝하는 데에 유용할 수 있다. 신경망은 참조(Reference) 영상 데이터의 집합을 이용하여 트레이닝함으로써 구성될 수 있다. 그러나, 예시적인 실시 예들은 단지 이 명세서의 교시를 설명하기 위한 예시적인 것이고 한정적인 것이 아니다. 따라서, 설명되는 방법들 및 장치는 신경망의 이용을 수반하는 다른 응용에 대해서도 동등하게 잘 이용될 수 있다.
이제 도 1을 참조하면, 컴퓨팅 시스템(100)의 예시적이고 한정적이지 않은 실시 예의 양상들이 나타나 있다. 이 예에서, 컴퓨팅 시스템(100)은 서버(130)를 포함할 수 있다. 서버(130)는 하나 이상의 CPU들(프로세서들)(101a, 101b, 101c 등; 함께 프로세서(들)(101)로도 언급됨)을 포함할 수 있다. 프로세서들(101)은 시스템 버스(113)를 통해 RAM(Random Access Memory)(140; "시스템 메모리" 또는 단순히 "메모리"로도 언급됨) 및 그 외 다른 다양한 구성 요소들에 연결될 수 있다. 컴퓨팅 시스템(100)은 시스템 버스(113)에 연결되는 ROM(Read-only Memory)(141)을 포함할 수 있다. ROM(141)은 내장형 운영 체제(Built-in Operating System)를 포함할 수 있고, 이는 컴퓨팅 시스템(100)의 어떤 기본적인 기능들을 제어할 수 있다.
도 1은 시스템 버스(113)에 연결되는 입출력 어댑터(107) 및 통신 어댑터(106)를 더 보여준다. 입출력 어댑터(107)는 PATA(Parallel Advanced Technology Attachment; IDE(Integrated Drive Electronics) 또는 EIDE(Enhanced IDE)로도 불림), SATA(Serial ATA), SCSI(Small Computer System Interface), SAS(Serial Attached SCSI), Fibre Channel, 또는 그 외 다른 적절한 것으로 보이는 어떠한 유형의 인터페이스이든 포함할 수 있다. 입출력 어댑터(107)는 하드디스크(103) 및/또는 장기 스토리지 유닛(Long-term Storage Unit)(105)(예컨대, 테이프(Tape) 드라이버) 또는 그 외 다른 어떤 유사 구성 요소(예컨대, 광학 드라이브)와의 통신을 제공할 수 있다. 입출력 어댑터(107), 하드디스크(103), 및 장기 스토리지 유닛(105)(및 그 외 다른 포함될 수 있는 유사 구성 요소들)은 이 명세서에서 함께 대용량 스토리지(104)로 불릴 수 있다.
통신 어댑터(106)는 서버(130)가 다른 시스템들과 통신할 수 있게 하는 외부 네트워크(150)를 시스템 버스(113)와 상호 연결해줄 수 있다. 통신 어댑터(106)는 유선 및 무선 통신 규약들 중 적어도 하나를 지원해줄 수 있다. 예로서, 통신 어댑터(106)는 유선 이더넷(Ethernet), Wi-Fi(예컨대, 802.11 규약들), UMTS(Universal Mobile Telecommunication System), Dial-up, Active-sync, 및/또는 셀 통신(예컨대, GSM(Global System for Mobile Communications), GPRS(General Packet Radio Service), EDGE(Enhanced Data GSM Environment), CDMA(Code Division Multiple Access), TDMA(Time Division Multiple Access), 3G(Third Generation), 4G(Fourth Generation) 등을 이용하는 프로토콜들)과 같은 규약들을 지원할 수 있다. 예로서, 통신 어댑터(106)는 네트워크(150)와 통신할 수 있고, (직접적으로 또는 간접적으로) 인터넷(121)과 통신할 수 있다.
서버(130)는 적절한 파워 서플라이(Power Supply)(120)에 의해 전력을 공급받을 수 있다. 몇몇 실시 예에서, 파워 서플라이(120)는 교류 입력을 수신하고 그 교류 입력을 직류 출력의 적절한 형태로 변환하기 위한 적어도 하나의 변환기(Transformer)를 포함할 수 있다. 다른 실시 예들에서, 파워 서플라이(120)는 적어도 하나의 배터리를 포함할 수 있다. 파워 서플라이(120)는 다양한 형태의 입력 전력을 수신하고 제어하기 위한 적절한 회로를 포함할 수 있다.
입출력 장치들이 유저 인터페이스 어댑터(108)를 통해 시스템 버스(113)에 연결되어 있는 것으로 나타나 있다. 키보드(109), 지시 장치(110; 예컨대, 마우스), 및 스피커(111)가 포함되어, 유저 인터페이스 어댑터(108)를 통해 시스템 버스(113)에 상호 연결될 수 있다. 그 외 다른 유저 인터페이스 구성 요소들이 적절해 보이도록 포함될 수 있다.
디스플레이 어댑터(112)는 디스플레이 장치(136)를 시스템 버스(113)에 연결시킬 수 있다. 디스플레이 어댑터(112) 및/또는 디스플레이 장치(136)는 그래픽 집약적인 어플리케이션들의 성능을 향상시키기 위한 그래픽스(Graphics) 어댑터, 비디오 컨트롤러, 용량성 디스플레이(예컨대, 터치스크린) 등과 같은 다양한 구성 요소로 구성될 수 있다. 디스플레이 장치(136)는 유저 인터페이스를 표시하기 위해 이용될 수 있다.
몇몇 실시 예에서, 어댑터들(106, 107, 108, 112)은 중간 버스 브릿지(Intermediate Bus Bridge)(미도시)를 통해 시스템 버스(113)로 연결되는 하나 이상의 입출력 버스들에 연결될 수 있다. 하드디스크 컨트롤러들, 네트워크 어댑터들, 및 그래픽스 어댑터들처럼 주변 장치들을 연결하기 위한 적절한 입출력 버스들이 PCI(Peripheral Component Interconnect) 버스와 같은 보통의 규약들을 채용할 수 있다.
컴퓨팅 시스템(100)은 기계적으로 읽을 수 있는 명령어들을 비 일시적으로 기계적으로 읽을 수 있는 매체(예컨대, ROM(141), RAM(140), 및/또는 대용량 스토리지(104))에 저장할 수 있다. 기계적으로 읽을 수 있는 명령어들(이 명세서에서, "소프트웨어", "어플리케이션", "클라이언트", "프로세스", "플러그 인(Plug-in)", 및 그 외 다른 유사 용어들로 언급될 수도 있음)은 뒤에서 상세히 설명될 기능을 제공할 수 있다.
컴퓨팅 시스템(100)은 추가 구성 요소들을 포함할 수 있다. 추가 구성 요소들은 그 외 다른 기능들도 제공할 수 있다. 예로서, 컴퓨팅 시스템(100)은 외부 통신 시스템(151)을 활용하거나 그것에 의존할 수 있다. 단순화를 위해, 이 명세서에서, 외부 통신 시스템(151)은 "시스템 오퍼레이터(151)"로도 불린다.
덧붙여, 컴퓨팅 시스템(100)은 적어도 하나의 영상 촬영 장치(180)를 포함할 수 있다. 이 명세서에서 설명되는 적어도 하나의 영상 촬영 장치(180)는 모바일 장치(180)로도 불릴 수 있다. 예로서, 적어도 하나의 영상 촬영 장치(180)는 스마트폰(182)과 같은 장치를 포함할 수 있다. 예시적인 실시 예들의 스마트폰(182)은 애플 사의 아이폰, 구글 사의 안드로이드 플랫폼 상에서 동작하는 장치들, 및 마이크로소프트 사에 의해 제공되는 윈도우즈 환경에서 동작하는 장치들을 포함할 수 있다. 다른 실시 예들의 영상 촬영 장치(180)는 카메라(181)를 포함할 수 있다.
예시적인 실시 예들에서, 적어도 하나의 영상 촬영 장치(180)는 서버(130)의 것들과 유사한 구성 요소들을 포함할 수 있다. 예로서, 적어도 하나의 영상 촬영 장치(180)는 적어도 하나의 CPU를 포함할 수 있다. 이 CPU는 내부 시스템 버스를 통해 다른 구성 요소들과 연결되거나 통신할 수 있다. 영상 촬영 장치(180) 내의 다른 구성 요소들의 예로서, 파워 서플라이, 메모리, 소프트웨어, 유저 제어, 디스플레이, 전방 안면 센서(Front Facing Sensor) 및/또는 후방 안면 센서(Rear Facing Sensor), 램프(Lamp), 및 통신 인터페이스를 들 수 있다.
CPU는 ARM 또는 그 외 다른 프로세서일 수 있다. 파워 서플라이는 배터리 또는 직류원(예컨대, 평범한 교류원에 연결되는 변환기)을 포함할 수 있다. 유저 제어는 홈 버튼(Home Button) 및 ON/OFF 스위치를 포함할 수 있다. 디스플레이는 LCD(Liquid Crystal Display), LED(Light Emitting Diode) 디스플레이, OLED(Organic LED) 디스플레이, AMOLED(Active Matrix OLED) 디스플레이, IPS(In-plane Switching) 디스플레이, 및 그 외 다른 기술들 중 적어도 하나를 포함할 수 있다. 램프는 LED일 수 있다.
통신 인터페이스는 유선 인터페이스 및/또는 무선 인터페이스를 포함할 수 있다. 무선 인터페이스는 무선 서비스 프로세서(Wireless Service Processor)를 포함할 수 있다. 예시적인 무선 인터페이스들은 셀룰러(Cellular) 통신, Bluetooth, Wi-Fi, NFC(Near Field Communication), ZigBee, 또는 그 외 다른 기술과 같은 규약을 활용할 수 있다. 무선 통신 인터페이스 너머로 제공되는 통신 서비스들은 Wi-Fi, Bluetooth, 이더넷, DSL(Digital Subscriber Line), LTE(Long Term Evolution), PCS(Personal Communications Service), 2G(Second Generation), 3G, 4G, LAN(Local Area Network), CDMA, TDMA, GSM, WDM(Wavelength Division Multiplexing), 및 WLAN(Wireless LAN)을 포함할 수 있다.
통신 인터페이스는 청각 채널(Auditory Channel)을 포함할 수 있다. 즉, 통신 인터페이스는 음성 커맨드들을 수신하기 위한 마이크(Microphone)를 포함할 수 있고, 스피커를 더 포함할 수 있다. 몇몇 실시 예에서, 스피커는 바코드(Barcode)가 읽힐 때 청각 신호를 제공할 수 있다. 통신 인터페이스는 상태 조명 또는 그 외 다른 시각적인 지시기(Indicator)들을 더 포함할 수 있다.
통신 인터페이스는, 다른 것들 중에서도, 음성 통신은 물론 데이터 통신도 제공할 수 있다. 데이터 통신은 소프트웨어 및 데이터(예컨대, 적어도 하나의 영상, 분석 결과들, 및 그 외 다른 이러한 유형의 데이터)의 통신을 제공하기 위해 이용될 수 있다. 통신 인터페이스를 통한 통신은 양 방향 또는 단일 방향으로 수행될 수 있다.
영상 촬영 장치(180)는 환경 센서들과 같은 추가 구성 요소들을 포함할 수 있다. 환경 센서들의 예들로서, 방향(Orientation) 정보를 제공하기 위한 가속도계(Accelerometer), 및 위치 정보를 제공하기 위한 GPS(Global Positioning System) 센서를 들 수 있다. 영상 촬영 장치(180)는 주변 인터페이스 및 통신 포트들 또한 포함할 수 있다.
서버(130)의 몇몇 실시 예에서, 서버(130)에 저장되는 기계적으로 읽을 수 있는 명령어들은 다른 구성 요소들과 통신하기 위해 구성되는 드라이버들을 포함할 수 있다. 예로서, 드라이버들은 서버(130)가 영상 촬영 장치(180)의 카메라 및/또는 환경 센서들과 통신할 수 있게 할 수 있다.
비 일시적으로 기계적으로 읽을 수 있는 매체 상에 저장되는 기계적으로 읽을 수 있는 명령어들 중 몇몇은 운영 체제를 포함할 수 있다. 적절한 운영 체제의 예로서, 마이크로소프트 사로부터 제공되는 윈도우즈를 들 수 있다. 이 명세서에서 제공되는 소프트웨어는, 예로서, SQL(Structured Query Language) 언어로 개발될 수 있는데, 이는 관계 데이터베이스(Relational Database)를 관리하기 위해 여러 벤더(Vendor)에 걸쳐 이용되는 쿼리 언어이다. 소프트웨어의 양상들은 다른 소프트웨어로 구현될 수 있다. 예로서, 유저 인터페이스들은 XML(Extensible Markup Language), HTML(Hypertext Markup Language) 등으로 제공될 수 있다.
컴퓨팅 시스템(100)은 앞서 설명된 구성 요소들 및 그 외 다른 구성 요소들을 적절하게 포함하거나 배제할 수 있다. 예로서, 라우터(Router)들, 브릿지들, 방화벽(Firewall)들, 스위치들, 다른 서버들, 미들웨어(Middleware) 등과 같은 다른 구성 요소들이 이용 가능할 수 있다. 몇몇 구성 요소는 소프트웨어 및/또는 하드웨어로 구현될 수 있다. 몇몇 실시 예에서, "서버"라는 용어는 다른 기능들도 수행할 수 있는 하드웨어 상에서 실행되는 소프트웨어 엔진을 나타낼 수 있다.
컴퓨팅 시스템(100)은 복수의 컴퓨터를 포함할 수 있다. 예로서, 컴퓨팅 시스템(100)에서, 적어도 하나의 컴퓨터가 상당한 양의 스토리지, 메모리, 프로세서들, 대용량 스토리지 등을 포함할 수 있다. 영상 촬영 장치(180)와 같은 다른 장치들은 축소된 수준의 구성 요소들을 포함할 수 있다. 적어도 하나의 컴퓨터는 주된 목적으로서 이동성(Mobility)을 갖도록 설계될 수 있다. 예로서, 메모리는 물리적으로 컴팩트(Compact)하다는 메모리 자체 특성에 기인하여, 하드디스크를 대체할 수 있다. 다른 실시 예들의 영상 촬영 장치(180)는 태블릿 컴퓨터, 스캐너, 및 여러 특수화된 장치 중 어느 것이든 포함할 수 있다. 특수화된 장치들의 제한적이지 않은 예로서, 기계 시야(Machine Vision)를 위해 설계된 어플리케이션 특정 장치(Application-specific Device)를 들 수 있다.
컴퓨팅 시스템(100)의 특정 컴퓨터는 목적 지향적(Purpose-oriented)일 수 있다. 예로서, 컴퓨팅 기반 시설은 주로 파일 서버로서 하나의 컴퓨터를 이용할 수 있고(예컨대, 컴퓨팅 기반 시설 내의 효율적인 데이터 저장을 위한 데이터 스토리지 장치), 입력 장치들로서 복수의 컴퓨터를 이용할 수 있고(예컨대, 컴퓨팅 기반 시설과의 인터페이싱을 위해 사용자들에 의해 원격에서 동작하는 모바일 기지국들), 콘솔(Console)로서 하나의 컴퓨터를 이용할 수 있다(예컨대, 컴퓨팅 기반 시설을 관리하기 위한 전용 시스템).
이 명세서에서 설명되는 몇몇 기능은 적절하게 하드웨어(예컨대, 앞서 설명된 구성 요소들) 또는 소프트웨어로 구현될 수 있음이 이해될 것이다. 따라서, 어떤 방식 또는 다른 방식으로 구현될 수 있음이 설명된 것에서, 이러한 구현들은 단지 설명된 기법들에 대해 예시적인 것이고 한정적인 것이 아니다. 요약하면, 컴퓨팅 시스템(100) 및 이 컴퓨팅 시스템(100)을 활용하는 시스템들에 관하여 앞서 설명된 내용은 단지 이 명세서의 교시를 위한 환경을 제공하는 것이고, 한정적인 것으로 이해되어서는 안 되며, 컴퓨팅 시스템(100)의 양상들을 예시적으로 보여주는 것이다.
컴퓨팅 시스템(100)은 사용자들이 신경망 시스템들을 트레이닝시키고 동작시킬 수 있게 하는 소프트웨어 솔루션을 구현할 수 있다. 컴퓨팅 시스템(100)은 다양한 목적(예컨대, 통신, 메시지 전달, 그래픽스 편집, 통계 분석, 및 그 외 다른 목적들)을 위한 제3자 소프트웨어 시스템들을 구현할 수 있다.
도 2는 특징 검출기들의 개발 및/또는 객체들의 식별에 관한 의사 결정(Decision Making)에 유용한 컨볼루션 신경망(200)의 기본적인 양상들을 보여주기 위한 개념도이다.
컨볼루션 신경망(200)은 서버(130)의 대용량 스토리지(104) 및/또는 적어도 하나의 모바일 장치(180)의 데이터 스토리지에 저장되는 소프트웨어와 같은 소프트웨어로서 제공될 수 있다. 컨볼루션 신경망(200)은 적절해 보이는 어떤 어플리케이션을 이용하여 개발될 수 있다. 컨볼루션 신경망(200)을 코딩(Coding)하는 데에 적합한 한 어플리케이션은 파이썬(Python)인데, 이는 파이썬 소프트웨어 재단에 의해 이용 가능한 오픈 소스 소프트웨어이다. 컴퓨터 프로그래밍 및 코딩의 양상들이 알려져 있기 때문에, 컨볼루션 신경망(200)을 어셈블링(Assembling)하는 방법은 이 명세서에서 대체로 논의되지 않을 것이다. 그보다, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(이하, 통상의 기술자)가 이해할 수 있는 기능 중심의 용어들을 이용하여, 컨볼루션 신경망(200)의 양상들이 제시될 것이다.
이 예시적인 실시 예에서, 몇몇 맥락을 제공하기 위해, 컨볼루션 신경망(200)은 입력 특징 맵(209), 컨볼루션 출력 계층(214), 및 풀링 계층(216)을 포함할 수 있다. 이 예에서, 입력 특징 맵(209)은 3차원의 입력 부피를 포함할 수 있다. 입력 특징 맵(209)은 N×N×D의 공간(예컨대, 입력 특징 맵(209)과 관련되는 몇몇 숨겨진 계층)에 의해 특징지어질 수 있다(N은 입력의 높이 및 너비를 나타내고, D는 입력의 깊이를 나타냄).
복수의 필터(211)는 입력 특징 맵(209)을 필터링하기 위해 이용될 수 있다. 각 필터(211)는 k×k×D의 공간에 의해 특징지어질 수 있다(k는 각 필터(211)의 높이 및 너비를 나타냄). 이 예에서, 입력 특징 맵(209)과 각 필터(211)의 높이 및 너비는 동일할 수 있고, 따라서 이 구성 요소들은 정사각형 모양의 평면을 가질 수 있다. 그러나, 이는 단지 단순화를 위한 것이고, 입력 특징 맵(209) 및/또는 필터(211)는 직사각형 모양의 평면을 가질 수도 있다(따라서, 이 구성 요소들의 너비는 높이와 상이할 수도 있다).
컨볼루션 신경망(200)의 동작에서, 각 필터(211)는 입력 특징 맵(209)을 가로지르는 방식처럼 슬라이딩 윈도우(Sliding Window)에서 시프트(Shift)할 수 있다. 시프트하는 양은 "스트라이드 길이(Stride Length)" 또는 단순히 "스트라이드" s라고 불릴 수 있다. 각 시프트 동안, 주어진 필터(211)에 속하는 각 가중치는 입력 부피의 중첩 영역으로부터의 모든 쌍(Pair-wise) 입력 요소와 곱해지고 더해져서, 컨볼루션(212)이 제공될 수 있다.
컨볼루션(212) 이후, 3차원의 컨볼루션된(Convolved) 출력을 가로질러 2차원의 윈도우를 슬라이딩시키고 그 윈도우 상의 최대(또는 평군) 값(215)을 선택함으로써, 감겨진 출력을 서브 샘플링하기 위해, 선택적인 풀링 계층(216)이 이용될 수 있다. 이 예에서, 선택적인 풀링 계층(216)은 파라미터들 p 및 s에 의해 정의될 수 있다(p×p는 풀링 연산을 위한 영역을 정의하고, s는 필터(211)에 대한 스트라이드를 나타냄).
이제 도 3 및 도 4를 참조하면, 영상 신호 처리 신경망(300)의 예시의 양상들이 나타나 있다.
도 3은 영상 신호 처리 신경망(300)의 개념도를 제공한다. 이 예에서, 영상 신호 처리 신경망(300)은 입력 영상 데이터(301)를 수신할 수 있고, 처리된 출력(302)을 제공할 수 있다. 이 예에서, 입력 영상 데이터(301)는 베이어 패턴(Bayer Pattern)을 포함할 수 있다. 처리된 출력(302)은 트레이닝된 영상 신호 처리 신경망(300)에 의해 제공될 수 있다. 영상 신호 처리 신경망(300)은 복수의 처리 필터(311)를 포함할 수 있다.
도 4에 나타낸 것처럼, 영상 신호 처리 신경망(300)은 영상 신호 처리의 부분집합(Subset)의 대체(Replacement)를 제공할 수 있다. 이 예에서, 색 보정(401), 감마 보정(402), 에지 인핸스먼트(403), 및 콘트라스트 인핸스먼트(404)를 포함하여, 영상 신호 처리의 나머지 단계들(400)이 유지될 수 있다.
이제 도 5를 참조하면, 영상 신호 처리의 트레이닝(500)을 위한 예시적인 실시 예의 양상들이 나타나 있다.
예시적인 실시 예에서, 특정 영상 촬영 장치(180)가 복수의 영상을 수집하기 위해 이용될 수 있다. 복수의 영상은 원시 데이터 영상(501)으로서 제공될 수 있다. 각 원시 데이터 영상(501)은 동일한 영상을 표시하는, 원하는 화질의 출력 영상(510)과 연관될 수 있다. 원하는 화질의 출력 영상(510)은 참조 영상(511) 및 평범하게 처리된 영상(512) 중 하나일 수 있다. 이 명세서에서, 원하는 화질은 "목표 화질"로도 불릴 수 있다.
원하는 화질의 출력 영상(510)은 신경망의 트레이닝에 이용될 수 있다. 한편, 도 3 및 도 4의 처리된 출력(302)은 "생성" 영상(즉, 트레이닝된 신경망의 생성물)으로 불릴 수 있다.
참조 영상(511)은 알려진 영상 촬영 장치를 이용하여 촬영될 수 있다. 참조 영상(511)은, 예로서, 최신식 카메라와 같은 기준 장치를 이용하여 촬영함으로써 얻어질 수 있다. 몇몇 실시 예에서, 각 참조 영상(511)은 속성 참조 데이터를 추가로 포함할 수 있다. 몇몇 실시 예에서, 속성 참조 데이터가 신경망의 트레이닝에 이용될 수 있다.
평범하게 처리된 영상(512)은 기준 영상 처리 기법을 이용하여 원시 데이터 영상(501)들을 처리함으로써(예컨대, 원시 데이터에 대해 기존의 영상 신호 처리 기법을 적용함으로써) 처리될 수 있다. 종합적으로, 원하는 화질의 출력 영상(510)들의 집합과 연관되는 원시 데이터 영상(501)들의 집합이 트레이닝 데이터로서 이용될 수 있고, 영상 데이터베이스(520)로 로드(Load)될 수 있다. 영상 데이터베이스(520)에 저장되는 트레이닝 데이터는 그 뒤 신경망 트레이닝(525)을 위해 이용될 수 있다. 신경망 트레이닝(525)은 다양한 트레이닝 알고리즘을 이용하여 달성될 수 있다. 예로서, 도 3 및 도 4의 영상 신호 처리 신경망(300)의 트레이닝을 위해 백 프로퍼게이션(Back Propagation)이 이용될 수 있다.
이 방법의 효능을 입증하기 위해, 컨볼루션 신경망이 트레이닝되어 영상 생성을 위해 이용되었다. 트레이닝 데이터는 공개된 데이터 집합(마이크로소프트 리서치의 디모자이크 데이터 집합)으로부터 선택되었다. 3개의 카메라 모형으로부터의 영상들 및 대응하는 RGB 영상들이 이용되었다. 노이즈가 섞인 영상들 및 노이즈가 없는 영상들 모두가 이용되었다. 각 영상으로부터 32×32 크기의 조각들이 (중첩 없이) 추출되어 입력 및 출력이 형성되었다. 약 10,000쌍의 영상들이 트레이닝을 위해 이용되었고, 약 5,000쌍의 영상들이 테스트를 위해 이용되었다. 이 명세서에서 설명되는 기법들의 검증을 위해 이용되는 신경망의 구성이 도 6에 나타나 있다.
도 6에는, 다중 스케일(Multi-scale) 영상 신호 처리 신경망(600)의 양상들이 나타나 있다. 다중 스케일 영상 신호 처리 신경망(600)은 상이한 주파수 대역들을 분리하기 위해 3개의 스케일로 구성될 수 있다. 3×3 크기의 여러 필터가 이용되었다. 비용 함수(Cost Function)로서 평균 제곱 오차 함수(Mean-square-error Function)가 이용되었다.
검증에서, 노이즈가 섞인 파나소닉 데이터 집합에 대해 PSNR(Peak Signal to Noise Ratio) 및 SSIM(Structural Similarity Index Measure)이 계산되었다. PSNR은 36.0234인 것으로 판별되었고, SSIM은 0.8958인 것으로 판별되었다. 반면, 최신 방법("Joint Demosaicing and Denoising via Learned Nonparametric Random Fields")은 36.9137의 PSNR 및 0.8904의 SSIM을 기록하였고, AHD(Adaptive Homogeneity-directed Demosaicing)는 34.3756의 PSNR 및 0.8593의 SSIM을 제공하였다. 따라서, 검증은 영상 신호 처리를 위한 신경망의 사용이 영상 신호 처리를 수행하는 데에 효과적이고 대부분의 경우에 우수한 기법임을 보여주었다.
도 7 및 도 8에서는, 그림 영상들의 비교들이 제공된다. 도 7a 및 도 8a 각각은 원시 데이터 영상(501)으로서의 입력 영상 데이터(301)를 보여준다. 도 7b 및 도 8b 각각은 참조 영상(511)을 보여준다. 도 7c 및 도 8c 각각은 평범하게 처리된 영상(512)을 보여준다. 도 7d 및 도 8d 각각은 처리된 출력(302)을 보여준다.
이제 도 9를 참조하면, 도 8의 영상들 중 두 개의 근접 영상들이 나타나 있다. 도 9a에는, 평범하게 처리된 영상(512)의 일부분이 나타나 있다. 도 9b에는, 도 9a와 연관되는 처리된 출력(302)의 일부분이 나타나 있다. 다른 것들 중에서도, 도 9b에 나타난 영상이 더 선명하고 덜 이상함을 볼 수 있다.
영상 신호 처리 신경망의 측면들을 소개하기 위해, 몇몇 추가의 특징 및 실시 예가 제공될 것이다.
유익하게도, 영상 신호 처리 신경망은 언제든 원할 때 갱신될 수 있다. 예로서, 영상 촬영 장치(180)가 새로운 카메라 렌즈와 같은 새로운 하드웨어를 이용하여 재구성되는 경우, 향상된 광학 환경을 지원하기 위해 영상 신호 처리 신경망을 재 트레이닝(Re-training)시키는 것이 적절할 수 있다. 몇몇 실시 예에서, 이러한 갱신은 영상 촬영 장치(180)의 "재 트레이닝" 또는 "보정(Calibration)"으로 불릴 수 있다. 이 갱신은, 필요한 경우, 더 작은 집합의 트레이닝 데이터를 포함할 수 있다. 다른 것들 중에서도, 다양한 성능 척도(Performance Measure)가 추적(Track)될 수 있다. 특정 성능 척도가 빈약한 성능을 나타내는 경우, 완전한 재 트레이닝이 추천될 수 있다.
몇몇 실시 예에서, 영상 촬영 장치(180)는 트레이닝을 수행하기 위해 서버(130)와 같은 원격 시스템과 통신할 수 있고, 그 뒤 영상 신호 처리 신경망의 준비된 양상들이 영상 촬영 장치(180)로 다운로드될 수 있다. 따라서, 몇몇 실시 예에서, 영상 신호 처리 신경망이 영상 촬영 장치(180) 상의 자원들을 이용하여 로컬로(Locally) 동작하는 동안, 원격 자원들을 활용하여 영상 신호 처리 신경망을 트레이닝하는 것이 가능할 수 있다. 분산 컴퓨팅에 관한 다른 모델들이 채용될 수 있다.
위에서 설명된 것과 같이, 영상 신호 처리 신경망은 기계적으로 읽을 수 있는 매체 상에 저장되는 기계적으로 실행 가능한 명령어들로서 제공될 수 있고, 이 명세서에서 설명되는 기법들의 실행을 위해 구성될 수 있다. 영상 신호 처리 신경망은 그래픽스 처리 칩셋과 같은 평범한 영상 신호 처리 구성 요소를 보완하거나 대체할 수 있다.
영상 신호 처리 신경망은 원격 시스템(예컨대, 서버)과의 통신을 통해 재구성될 수 있다. 이 재구성은, 예로서, 제품의 지리(Geography)에 따라 자동으로 이루어질 수 있다. 이 재구성은 고객의 선택(Preference)에 따라 이루어질 수 있다.
예로서, 몇몇 실시 예에서, 영상 신호 처리 신경망은 평범한 영상 촬영 장치(180)에서 이용될 수 있는데, 여기서 영상 촬영 장치(180)의 출력은 영상 신호 처리 신경망을 위한 입력 영상 데이터(301)(예컨대, 원시 데이터 영상(501))으로서 이용될 수 있다. 몇몇 다른 실시 예에서, 평범한 영상 촬영 장치(180)로 로드된 소프트웨어는 기존의 그래픽스 처리 칩셋의 동작을 끄고 영상 신호 처리 신경망을 설치하여 영상 신호 처리 작업들을 수행할 수 있다.
영상 신호 처리 신경망은 목적 지향적일 수 있다. 예로서, 영상 신호 처리 신경망은 특정 목적(예컨대, 의료 영상 촬영)의 전용으로 만들어진 시스템을 포함할 수 있다. 좀 더 구체적으로, 다만 단지 예시로서, 영상 신호 처리 신경망은 초음파 영상 촬영, CT(Computerized Tomography) 스캔 영상 촬영, MRI(Medical Resonance Imaging), 엑스레이 영상 촬영, 감마선 카메라로부터의 출력, 및 그 외 다른 부류들의 의료 영상 촬영과 관련되는 영상들을 처리하는 것의 전용으로 만들어질 수 있다.
유사하게, 영상 신호 처리 신경망은 그 외 다른 목적들의 전용으로 만들어질 수 있다. 예로서, 영상 신호 처리 신경망은 안면 인식과 같은 보안 작업들의 전용으로 만들어질 수 있다. 영상 신호 처리 신경망은 기계 시야와 같은 제작 지향(Production-oriented) 작업들의 전용으로 만들어질 수 있다. 기계 시야는, 다른 것들 중에서도, 우편물 분류(즉, 손 글씨 분석) 및 그 외 다른 작업들을 위해 요구될 수 있다.
이 명세서의 교시의 양상들을 제공하기 위해, 그 외 다른 다양한 구성 요소가 포함되고 요구될 수 있다. 예로서, 이 명세서의 교시의 범위(Scope) 내에 있는 추가의 실시 예들을 제공하기 위해, 추가의 자재(Material)들, 자재들의 조합들, 및/또는 자재들의 생략이 이용될 수 있다.
본 발명 또는 그것의 실시 예(들)의 요소들을 소개할 때, "하나", "한", 및 "그"와 같은 수식어들은 하나 이상의 요소들이 있을 수 있음을 의미하도록 의도되었다. 유사하게, 어떤 요소를 소개하기 위해 이용되었을 때, "다른"과 같은 수식어는 하나 이상의 요소들을 의미하도록 의도되었다. "포함" 및 "갖다(가지다)"와 같은 용어들은 나열된 요소들 외에 추가의 요소들이 있을 수 있도록 포괄적인 것으로 의도되었다. "예(예시)"라는 용어는 여러 가능한 예 중 하나를 나타내도록 의도되었고, 반드시 최상의 또는 최선의 실시 예를 나타내는 것으로 해석되어서는 안 된다. 그러나, 몇몇 경우, 예시적인 실시 예는 실제로 최상의 또는 최선의 실시 예를 대표할 수도 있다.
본 발명이 예시적인 실시 예들을 참조하여 설명되었으나, 통상의 기술자는 본 발명의 범위에서 벗어나지 않고도 다양한 변경이 이루어질 수 있고 균등물들이 그것의 요소들을 대체할 수 있음을 이해할 것이다. 나아가, 통상의 기술자는 본 발명의 필수적인 범위를 벗어나지 않고도 본 발명의 교시에 특정 도구, 상황, 또는 자재를 적용하기 위한 많은 수정이 가능함을 이해할 것이다. 따라서, 본 발명은 본 발명을 구현하기 위해 고려된 최선의 모드(Best Mode)로서 개시된 특정 실시 예로 한정되지 않는 것으로 의도되고, 본 발명은 첨부되는 청구항들의 범위 내에 속하는 모든 실시 예를 포함할 것이다.
100 : 컴퓨팅 시스템 101a, 101b, 101c : CPU(프로세서)
103 : 하드디스크 104 : 대용량 스토리지
105 : 장기 스토리지 유닛 106 : 통신 어댑터
107 : 입출력 어댑터 108 : 유저 인터페이스 어댑터
109 : 키보드 110 : 마우스
111 : 스피커 112 : 디스플레이 어댑터
113 : 시스템 버스 120 : 파워 서플라이
121 : 인터넷 130 : 서버
136 : 디스플레이 장치 140 : RAM
141 : ROM 150 : 네트워크
151 : 외부 통신 시스템 180 : 영상 촬영 장치
181 : 카메라 182 : 스마트폰
200 : 컨볼루션 신경망 209 : 입력 특징 맵
211 : 필터 212 : 컨볼루션
214 : 컨볼루션 출력 계층 215 : 최대 값 또는 평균 값
216 : 풀링 계층
300 : 영상 신호 처리 신경망 301 : 입력 영상 데이터
302 : 처리된 출력 311 : 처리 필터
400 : 영상 신호 처리 단계 401 : 색 보정
402 : 감마 보정 403 : 에지 인핸스먼트
404 : 콘트라스트 인핸스먼트
500 : 영상 신호 처리 트레이닝 501 : 원시 데이터 영상
510 : 원하는 화질의 출력 영상 511 : 참조 영상
512 : 평범하게 처리된 영상 520 : 영상 데이터베이스
525 : 신경망 트레이닝
600 : 다중 스케일 영상 신호 처리 신경망

Claims (20)

  1. 원시(Raw) 데이터 영상들의 집합 및 상기 원시 데이터 영상들과 연관되는 목표 화질의 출력 영상들의 집합을 입력함으로써 트레이닝(Training)되는 신경망(Neural Network); 및
    상기 신경망을 위해 입력 영상 데이터를 수신하고 처리된 출력을 제공하기 위한 어댑터를 포함하되,
    상기 처리된 출력은, 적어도 하나의 화질 속성과 관련하여 상기 입력 영상 데이터로부터 조절된, 처리된 영상 데이터를 포함하는 영상 신호 처리(Image Signal Processing) 시스템.
  2. 제 1 항에 있어서,
    상기 신경망은 컨볼루션 신경망(Convolutional Neural Network)을 포함하는 영상 신호 처리 시스템.
  3. 제 1 항에 있어서,
    상기 신경망은 백 프로퍼게이션(Back Propagation) 기법에 의해 트레이닝되는 영상 신호 처리 시스템.
  4. 제 1 항에 있어서,
    상기 신경망은 모바일 영상 촬영 장치(Mobile Imaging Device)로 다운로드되도록 구성되는 영상 신호 처리 시스템.
  5. 제 1 항에 있어서,
    상기 적어도 하나의 화질 속성은 영상 크기, 가로 세로 비율(Aspect Ratio), 밝기, 세기, 비트 심도(Bit Depth), 백색 값(White Value), 다이나믹 레인지(Dynamic Range), 그레이 레벨(Gray Level), 윤곽 조절(Contouring), 스무딩(Smoothing), 스페클(Speckle), 색 공간 값(Color Space Value)들, 인터리빙(Interleaving), 보정(Correction), 감마 보정(Gamma Correction), 에지 인핸스먼트(Edge Enhancement), 콘트라스트 인핸스먼트(Contrast Enhancement), 샤프니스(Sharpness) 및 디모자이싱(Demosaicing)을 포함하는 영상 신호 처리 시스템.
  6. 영상 신호 처리(Image Signal Processing) 시스템을 제공하기 위한 방법에 있어서,
    영상 처리를 위한 신경망(Neural Network)을 구성하는 단계;
    원시(Raw) 데이터 영상들의 집합 및 목표 화질의 출력 영상들의 집합을 이용하여 상기 신경망을 트레이닝(Training)하는 단계; 및
    입력 영상 데이터를 수신하고 처리된 출력 데이터를 제공하도록 상기 트레이닝된 신경망을 구성하는 단계를 포함하되,
    상기 원시 데이터 영상들의 각 영상은 상기 목표 화질의 출력 영상들의 상기 집합의 영상과 연관되고,
    상기 처리된 출력 데이터는, 적어도 하나의 화질 속성과 관련하여 상기 입력 영상 데이터로부터 조절된, 처리된 영상 데이터를 포함하는 방법.
  7. 제 6 항에 있어서,
    백 프로퍼게이션(Back Propagation)에 의해 상기 신경망을 트레이닝하는 단계를 더 포함하는 방법.
  8. 제 6 항에 있어서,
    영상 촬영 장치(Imaging Device)를 이용하여 상기 원시 데이터 영상들의 상기 집합을 수집하는 단계를 더 포함하는 방법.
  9. 제 8 항에 있어서,
    상기 목표 화질의 출력 영상들의 상기 집합으로서 이용될 처리된 영상 데이터의 집합을 제공하기 위해 상기 원시 데이터 영상들의 상기 집합을 처리하는 단계를 더 포함하는 방법.
  10. 제 6 항에 있어서,
    기준 영상 촬영 장치를 이용하여 상기 목표 화질의 출력 영상들의 상기 집합을 수집하는 단계를 더 포함하는 방법.
  11. 제 10 항에 있어서,
    상기 목표 화질의 출력 영상들의 적어도 일부와 함께 속성 참조 데이터(Attribute Reference Data)를 포함시키는 단계를 더 포함하는 방법.
  12. 제 6 항에 있어서,
    상기 원시 데이터 영상들에 기존의 영상 신호 처리 시스템을 적용함으로써 상기 목표 화질의 출력 영상들의 상기 집합을 수집하는 단계를 더 포함하는 방법.
  13. 제 6 항에 있어서,
    상기 트레이닝하는 단계는 원격 시스템 상에서 수행되고,
    상기 트레이닝된 신경망을 구성하는 단계는 상기 신경망을 영상 촬영 장치로 다운로드하는 단계를 포함하는 방법.
  14. 제 6 항에 있어서,
    상기 적어도 하나의 화질 속성은 영상 크기, 가로 세로 비율(Aspect Ratio), 밝기, 세기, 비트 심도(Bit Depth), 백색 값(White Value), 다이나믹 레인지(Dynamic Range), 그레이 레벨(Gray Level), 윤곽 조절(Contouring), 스무딩(Smoothing), 스페클(Speckle), 색 공간 값(Color Space Value)들, 인터리빙(Interleaving), 보정(Correction), 감마 보정(Gamma Correction), 에지 인핸스먼트(Edge Enhancement), 콘트라스트 인핸스먼트(Contrast Enhancement), 샤프니스(Sharpness) 및 디모자이싱(Demosaicing)을 포함하는 방법.
  15. 입력 영상 데이터를 생성하기 위한 이미지 센서;
    기계적으로 실행되는 명령어(Machine-executable Instruction)들을 저장하기 위한 메모리;
    상기 명령어들을 실행하기 위한 프로세서; 및
    상기 실행되는 명령어들에 기초하여 동작하도록 구성되는 영상 신호 처리(Image Signal Processing) 시스템을 포함하되,
    상기 명령어들은 원시(Raw) 데이터 영상들의 집합 및 상기 원시 데이터 영상들과 연관되는 목표 화질의 출력 영상들의 집합을 입력함으로써 트레이닝(Training)되는 신경망(Neural Network)을 포함하고,
    상기 신경망은 상기 이미지 센서로부터 상기 입력 영상 데이터를 수신하고 처리된 출력을 제공하기 위한 어댑터를 포함하고,
    상기 처리된 출력은, 적어도 하나의 화질 속성과 관련하여 상기 입력 영상 데이터로부터 조절된, 처리된 영상 데이터를 포함하는 영상 촬영 장치(Imaging Device).
  16. 제 15 항에 있어서,
    상기 영상 촬영 장치는 스마트폰, 태블릿 컴퓨터, 카메라, 및 의료 영상 촬영 장치 중 하나를 포함하는 영상 촬영 장치.
  17. 제 15 항에 있어서,
    상기 영상 신호 처리 시스템은 기존의 영상 신호 처리 시스템을 보완하거나 상기 기존의 영상 신호 처리 시스템을 대체하도록 제공되는 영상 촬영 장치.
  18. 제 15 항에 있어서,
    상기 영상 촬영 장치는 상기 영상 촬영 장치와 원격 시스템 사이에서 연산 작업(Computing Task)들을 분산(Distribute)시키기 위해 상기 원격 시스템과 통신하도록 구성되는 영상 촬영 장치.
  19. 제 15 항에 있어서,
    상기 영상 촬영 장치는 범용 영상 촬영, 의료 영상 촬영, 보안 영상 촬영, 및 생산 영상 촬영 중 하나를 위해 구성되는 영상 촬영 장치.
  20. 제 15 항에 있어서,
    상기 신경망을 위한 상기 트레이닝은 백 프로퍼게이션(Back Propagation)에 의해 수행되는 영상 촬영 장치.
KR1020160140280A 2015-12-29 2016-10-26 신경망 기반 영상 신호 처리를 수행하는 방법 및 장치 KR102630035B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562272653P 2015-12-29 2015-12-29
US62/272,653 2015-12-29
US15/075,076 2016-03-18
US15/075,076 US10460231B2 (en) 2015-12-29 2016-03-18 Method and apparatus of neural network based image signal processor

Publications (2)

Publication Number Publication Date
KR20170078516A true KR20170078516A (ko) 2017-07-07
KR102630035B1 KR102630035B1 (ko) 2024-01-29

Family

ID=59088047

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160140280A KR102630035B1 (ko) 2015-12-29 2016-10-26 신경망 기반 영상 신호 처리를 수행하는 방법 및 장치

Country Status (3)

Country Link
US (1) US10460231B2 (ko)
KR (1) KR102630035B1 (ko)
CN (1) CN106934426A (ko)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019074316A1 (ko) * 2017-10-12 2019-04-18 주식회사 웰시스템코리아 이미지 및 영상의 등록, 검색, 재생을 모바일 디바이스 및 서버에서 분할하여 수행하는 컨벌루션 인공신경망 기반 인식 시스템
KR20190042455A (ko) * 2017-10-15 2019-04-24 알레시오 주식회사 신호 변환 시스템 및 신호 변환 방법
KR20190069893A (ko) * 2017-12-12 2019-06-20 한국과학기술원 내용 기반 영상 크기 조절 장치 및 방법
WO2019135621A1 (ko) * 2018-01-04 2019-07-11 삼성전자 주식회사 영상 재생 장치 및 그의 제어 방법
WO2019168332A1 (ko) * 2018-02-27 2019-09-06 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
KR20190117234A (ko) * 2018-04-06 2019-10-16 연세대학교 산학협력단 인공신경망을 이용한 자기 공명 영상의 영상 프로토콜 선택 장치와 방법 및 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR20200012416A (ko) * 2018-07-27 2020-02-05 가천대학교 산학협력단 딥 러닝 기반 이미지 처리장치, 이미지 처리방법 및 컴퓨터-판독가능 매체 및 딥 러닝 기반 이미지 센싱장치
WO2020085781A1 (ko) * 2018-10-23 2020-04-30 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
WO2020175734A1 (ko) * 2019-02-26 2020-09-03 주식회사 틸투원 컨볼루션 뉴럴 네트워크 모델을 이용한 이미지의 원색 복원 장치 및 방법
WO2020204610A1 (ko) * 2019-04-02 2020-10-08 네이버웹툰 주식회사 딥러닝 기반 컬러링 방법, 시스템 및 프로그램
KR20210112992A (ko) * 2020-03-06 2021-09-15 주식회사 테스트웍스 다각형 기반의 객체 인식 성능 보정 장치 및 방법
US11166014B2 (en) 2017-12-14 2021-11-02 Electronics And Telecommunications Research Institute Image encoding and decoding method and device using prediction network
KR20210144013A (ko) * 2020-05-21 2021-11-30 한국과학기술연구원 딥러닝을 이용한 자성 파라미터 값 추정 방법 및 장치
WO2022092555A1 (ko) * 2020-10-27 2022-05-05 삼성전자 주식회사 노이즈 저감 처리된 이미지 데이터를 생성하는 방법 및 이를 수행하는 전자 장치
WO2022092742A1 (ko) * 2020-10-27 2022-05-05 삼성전자 주식회사 피사체가 촬영된 영상을 생성하는 디바이스 및 방법
US11694083B2 (en) 2017-10-15 2023-07-04 Alethio Co. Signal translation system and signal translation method

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109791688B (zh) * 2016-06-17 2021-06-01 华为技术有限公司 曝光相关的亮度变换
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
US10733505B2 (en) * 2016-11-10 2020-08-04 Google Llc Performing kernel striding in hardware
US11832969B2 (en) * 2016-12-22 2023-12-05 The Johns Hopkins University Machine learning approach to beamforming
US10198401B2 (en) * 2016-12-30 2019-02-05 Intel Corporation Max pooling in a matrix processing architecture
US10592776B2 (en) * 2017-02-08 2020-03-17 Adobe Inc. Generating multimodal image edits for a digital image
WO2019015120A1 (zh) * 2017-07-17 2019-01-24 华为技术有限公司 一种图像处理的方法及终端
CN108513672A (zh) * 2017-07-27 2018-09-07 深圳市大疆创新科技有限公司 增强图像对比度的方法、设备及存储介质
JP7072049B2 (ja) 2017-08-15 2022-05-19 シーメンス ヘルスケア ゲゼルシヤフト ミツト ベシユレンクテル ハフツング コンボリューショナル・ニューラルを用いた、ホログラフィック顕微鏡で取得した細胞画像の品質の識別方法
CN107481278B (zh) * 2017-08-21 2019-06-28 北京大学深圳研究生院 基于混合框架的图像位深度扩展方法及装置
US10991078B2 (en) * 2017-09-15 2021-04-27 Saudi Arabian Oil Company Inferring petrophysical properties of hydrocarbon reservoirs using a neural network
US11263782B2 (en) 2017-10-11 2022-03-01 Qualcomm Incorporated Image signal processor for processing images
US10643306B2 (en) 2017-10-11 2020-05-05 Qualcomm Incoporated Image signal processor for processing images
KR101916347B1 (ko) * 2017-10-13 2018-11-08 주식회사 수아랩 딥러닝 기반 이미지 비교 장치, 방법 및 컴퓨터 판독가능매체에 저장된 컴퓨터 프로그램
US10607135B2 (en) 2017-10-19 2020-03-31 General Electric Company Training an auto-encoder on a single class
US10460440B2 (en) * 2017-10-24 2019-10-29 General Electric Company Deep convolutional neural network with self-transfer learning
US20200321130A1 (en) * 2017-11-13 2020-10-08 The Trustees Of Columbia University In The City Of New York System, method and computer-accessible medium for determining breast cancer risk
US10579908B2 (en) * 2017-12-15 2020-03-03 Google Llc Machine-learning based technique for fast image enhancement
JP7242185B2 (ja) * 2018-01-10 2023-03-20 キヤノン株式会社 画像処理方法、画像処理装置、画像処理プログラム、および、記憶媒体
US11429807B2 (en) 2018-01-12 2022-08-30 Microsoft Technology Licensing, Llc Automated collection of machine learning training data
US11481571B2 (en) * 2018-01-12 2022-10-25 Microsoft Technology Licensing, Llc Automated localized machine learning training
WO2019181137A1 (ja) * 2018-03-23 2019-09-26 ソニー株式会社 情報処理装置および情報処理方法
CN112887511A (zh) * 2018-03-27 2021-06-01 华为技术有限公司 智能视频处理装置
US11049606B2 (en) * 2018-04-25 2021-06-29 Sota Precision Optics, Inc. Dental imaging system utilizing artificial intelligence
US10769261B2 (en) * 2018-05-09 2020-09-08 Futurewei Technologies, Inc. User image verification
EP3567544B1 (en) * 2018-05-11 2023-06-28 Siemens Healthcare GmbH Method of creating an image chain
KR20190136431A (ko) * 2018-05-30 2019-12-10 삼성전자주식회사 뉴럴 네트워크 시스템, 이를 포함하는 어플리케이션 프로세서 및 뉴럴 네트워크 시스템의 동작방법
CN110557579B (zh) * 2018-05-31 2021-11-02 杭州海康威视数字技术股份有限公司 一种图像处理方法、装置及设备、可读介质
US11215999B2 (en) * 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US20210232871A1 (en) * 2018-07-05 2021-07-29 Optimum Semiconductor Technologies Inc. Object detection using multiple sensors and reduced complexity neural networks
WO2020028116A1 (en) * 2018-07-30 2020-02-06 Optimum Semiconductor Technologies Inc. Object detection using multiple neural networks trained for different image fields
US10719737B2 (en) 2018-08-23 2020-07-21 Denso International America, Inc. Image classification system for resizing images to maintain aspect ratio information
EP3867810A1 (en) * 2018-10-15 2021-08-25 Flir Commercial Systems, Inc. Deep learning inference systems and methods for imaging systems
US10977548B2 (en) 2018-12-05 2021-04-13 Bank Of America Corporation Generation of capsule neural networks for enhancing image processing platforms
CN109636754B (zh) * 2018-12-11 2022-05-31 山西大学 基于生成对抗网络的极低照度图像增强方法
US10904637B2 (en) * 2018-12-17 2021-01-26 Qualcomm Incorporated Embedded rendering engine for media data
WO2020124374A1 (zh) * 2018-12-18 2020-06-25 深圳市大疆创新科技有限公司 图像处理方法、终端设备及存储介质
EP3900328A4 (en) * 2018-12-20 2022-09-21 Warner Bros. Entertainment Inc. PROFILE-BASED CONTENT GENERATION WITH STANDARD DYNAMIC RANGE AND HIGH DYNAMIC RANGE
CN109671036B (zh) * 2018-12-26 2023-07-14 上海联影医疗科技股份有限公司 一种图像校正方法、装置、计算机设备及存储介质
CN113383225A (zh) * 2018-12-26 2021-09-10 加利福尼亚大学董事会 使用深度学习将二维荧光波传播到表面上的系统和方法
CN109871871B (zh) * 2019-01-16 2021-08-27 南方科技大学 基于光学神经网络结构的图像识别方法、装置及电子设备
US10785419B2 (en) * 2019-01-25 2020-09-22 Pixart Imaging Inc. Light sensor chip, image processing device and operating method thereof
CN113273180B (zh) * 2019-02-27 2023-03-24 华为技术有限公司 图像处理装置和方法
CN110046143B (zh) * 2019-03-04 2023-03-28 国网辽宁省电力有限公司信息通信分公司 一种一体化数据平台的整体架构优化系统及优化方法
JP7269778B2 (ja) * 2019-04-04 2023-05-09 富士フイルムヘルスケア株式会社 超音波撮像装置、および、画像処理装置
US11037968B2 (en) * 2019-04-05 2021-06-15 Waymo Llc Image sensor architecture
CN113168673A (zh) * 2019-04-22 2021-07-23 华为技术有限公司 图像处理方法、装置和电子设备
CN110059892A (zh) * 2019-04-29 2019-07-26 贾原琪 一种多物理量监控以进行工业生产优化的方法
US11100612B2 (en) * 2019-05-07 2021-08-24 Fei Company Acquisition strategy for neural network based image restoration
CN112102423A (zh) * 2019-06-17 2020-12-18 通用电气精准医疗有限责任公司 医学成像方法及系统
KR20210004229A (ko) 2019-07-03 2021-01-13 삼성전자주식회사 뉴럴 네트워크 프로세서를 구비하는 이미지 프로세싱 장치 및 이의 동작 방법
CN112309377A (zh) * 2019-07-18 2021-02-02 Tcl集团股份有限公司 一种智能洗浴控制方法、设备及存储介质
CN110534071B (zh) * 2019-07-19 2020-09-18 南京巨鲨显示科技有限公司 一种基于神经网络的显示器颜色校准系统及方法
US20210065051A1 (en) * 2019-09-04 2021-03-04 Advanced Micro Devices, Inc. Method and apparatus for predicting kernel tuning parameters
KR20210050684A (ko) 2019-10-29 2021-05-10 에스케이하이닉스 주식회사 이미지 처리 시스템
KR20210059466A (ko) 2019-11-15 2021-05-25 삼성전자주식회사 영상 제공 장치 및 이에 의한 영상 제공 방법, 및 디스플레이 장치 및 이에 의한 디스플레이 방법
KR20210067783A (ko) * 2019-11-29 2021-06-08 삼성전자주식회사 전자 장치, 그 제어 방법 및 시스템
US11082622B2 (en) 2019-12-13 2021-08-03 Nuro, Inc. Systems and methods for dynamically switching image signal processor configurations
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
EP4070268A4 (en) * 2020-01-23 2023-01-25 Baidu.com Times Technology (Beijing) Co., Ltd. DEEP RESIDUAL NETWORK FOR COLORED FILTER NETWORK IMAGE DENOISE
US20210239828A1 (en) * 2020-02-03 2021-08-05 Veev Group, Inc. System, method and computer program product for improved radar-based object recognition
CN110996131B (zh) * 2020-03-02 2020-11-10 腾讯科技(深圳)有限公司 视频编码方法、装置、计算机设备及存储介质
US20230267583A1 (en) * 2020-05-08 2023-08-24 Lets Enhance Inc Image enhancement
US11620476B2 (en) * 2020-05-14 2023-04-04 Micron Technology, Inc. Methods and apparatus for performing analytics on image data
CN113705553B (zh) * 2020-05-20 2024-01-26 深圳清华大学研究院 视觉任务执行方法、装置、电子设备、存储介质及系统
WO2022005336A1 (en) * 2020-06-29 2022-01-06 Autonomous Non-Profit Organization For Higher Education «Skolkovo Institute Of Science And Technology» Noise-resilient vasculature localization method with regularized segmentation
US11354781B2 (en) 2020-07-20 2022-06-07 Samsung Electronics Co., Ltd. Single-image detail and contrast enhancement
RU2764395C1 (ru) * 2020-11-23 2022-01-17 Самсунг Электроникс Ко., Лтд. Способ и устройство для совместного выполнения дебайеризации и устранения шумов изображения с помощью нейронной сети
US11922609B2 (en) * 2021-03-17 2024-03-05 Huawei Technologies Co., Ltd. End to end differentiable machine vision systems, methods, and media
CN113301221B (zh) * 2021-03-19 2022-09-09 西安电子科技大学 一种深度网络相机图像处理方法及终端
CN113658043A (zh) * 2021-07-28 2021-11-16 上海智砹芯半导体科技有限公司 图像处理方法、装置、电子设备和可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548697A (en) * 1994-12-30 1996-08-20 Panasonic Technologies, Inc. Non-linear color corrector having a neural network and using fuzzy membership values to correct color and a method thereof
US20050281455A1 (en) * 2004-06-17 2005-12-22 Chun-Chia Huang System of using neural network to distinguish text and picture in images and method thereof

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660437B2 (en) * 1992-05-05 2010-02-09 Automotive Technologies International, Inc. Neural network systems for vehicles
US5376963A (en) * 1993-03-31 1994-12-27 Panasonic Technologies, Inc. Neural network video image processor
US7103524B1 (en) * 2001-08-28 2006-09-05 Cadence Design Systems, Inc. Method and apparatus for creating an extraction model using Bayesian inference implemented with the Hybrid Monte Carlo method
US8422767B2 (en) 2007-04-23 2013-04-16 Gabor Ligeti Method and apparatus for transforming signal data
WO2008133951A2 (en) 2007-04-24 2008-11-06 Massachusetts Institute Of Technology Method and apparatus for image processing
US8010471B2 (en) * 2007-07-13 2011-08-30 Microsoft Corporation Multiple-instance pruning for learning efficient cascade detectors
US7890443B2 (en) * 2007-07-13 2011-02-15 Microsoft Corporation Learning classifiers using combined boosting and weight trimming
US8559671B2 (en) * 2008-12-18 2013-10-15 The Regents Of The University Of California Training-free generic object detection in 2-D and 3-D using locally adaptive regression kernels
US20120262610A1 (en) 2009-12-23 2012-10-18 Nokia Corporation Pixel Information Reproduction Using Neural Networks
US8953888B2 (en) * 2011-02-10 2015-02-10 Microsoft Corporation Detecting and localizing multiple objects in images using probabilistic inference
US9087390B2 (en) * 2011-09-16 2015-07-21 Adobe Systems Incorporated High-quality upscaling of an image sequence
CN102902956B (zh) * 2012-09-10 2016-04-13 中国人民解放军理工大学气象学院 一种地基可见光云图识别处理方法
US9165369B1 (en) * 2013-03-14 2015-10-20 Hrl Laboratories, Llc Multi-object detection and recognition using exclusive non-maximum suppression (eNMS) and classification in cluttered scenes
US9147255B1 (en) * 2013-03-14 2015-09-29 Hrl Laboratories, Llc Rapid object detection by combining structural information from image segmentation with bio-inspired attentional mechanisms
US9373057B1 (en) * 2013-11-01 2016-06-21 Google Inc. Training a neural network to detect objects in images
US8965112B1 (en) 2013-12-09 2015-02-24 Google Inc. Sequence transcription with deep neural networks
IL231862A (en) * 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
CN104361328B (zh) * 2014-11-21 2018-11-02 重庆中科云丛科技有限公司 一种基于自适应多列深度模型的人脸图像正规化方法
CN104966097B (zh) * 2015-06-12 2019-01-18 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法
US20170046613A1 (en) * 2015-08-10 2017-02-16 Facebook, Inc. Systems and methods for content classification and detection using convolutional neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548697A (en) * 1994-12-30 1996-08-20 Panasonic Technologies, Inc. Non-linear color corrector having a neural network and using fuzzy membership values to correct color and a method thereof
US20050281455A1 (en) * 2004-06-17 2005-12-22 Chun-Chia Huang System of using neural network to distinguish text and picture in images and method thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Viren Jain et al., "Natural Image Denoising with Convolutional Networks", Advances in Neural Information Processing Systems 21, (2008)* *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019074316A1 (ko) * 2017-10-12 2019-04-18 주식회사 웰시스템코리아 이미지 및 영상의 등록, 검색, 재생을 모바일 디바이스 및 서버에서 분할하여 수행하는 컨벌루션 인공신경망 기반 인식 시스템
KR20190042455A (ko) * 2017-10-15 2019-04-24 알레시오 주식회사 신호 변환 시스템 및 신호 변환 방법
US11694083B2 (en) 2017-10-15 2023-07-04 Alethio Co. Signal translation system and signal translation method
KR20190069893A (ko) * 2017-12-12 2019-06-20 한국과학기술원 내용 기반 영상 크기 조절 장치 및 방법
US11166014B2 (en) 2017-12-14 2021-11-02 Electronics And Telecommunications Research Institute Image encoding and decoding method and device using prediction network
WO2019135621A1 (ko) * 2018-01-04 2019-07-11 삼성전자 주식회사 영상 재생 장치 및 그의 제어 방법
US11457273B2 (en) 2018-01-04 2022-09-27 Samsung Electronics Co., Ltd. Video playback device and control method thereof
US11831948B2 (en) 2018-01-04 2023-11-28 Samsung Electronics Co., Ltd. Video playback device and control method thereof
WO2019168332A1 (ko) * 2018-02-27 2019-09-06 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
KR20190117234A (ko) * 2018-04-06 2019-10-16 연세대학교 산학협력단 인공신경망을 이용한 자기 공명 영상의 영상 프로토콜 선택 장치와 방법 및 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR20200012416A (ko) * 2018-07-27 2020-02-05 가천대학교 산학협력단 딥 러닝 기반 이미지 처리장치, 이미지 처리방법 및 컴퓨터-판독가능 매체 및 딥 러닝 기반 이미지 센싱장치
KR20200045740A (ko) * 2018-10-23 2020-05-06 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
US11849250B2 (en) 2018-10-23 2023-12-19 Lg Electronics Inc. Signal processing device and video display device comprising same
WO2020085781A1 (ko) * 2018-10-23 2020-04-30 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
US11616930B2 (en) 2018-10-23 2023-03-28 Lg Electronics Inc. Signal processing device and video display device comprising same
WO2020175734A1 (ko) * 2019-02-26 2020-09-03 주식회사 틸투원 컨볼루션 뉴럴 네트워크 모델을 이용한 이미지의 원색 복원 장치 및 방법
WO2020204610A1 (ko) * 2019-04-02 2020-10-08 네이버웹툰 주식회사 딥러닝 기반 컬러링 방법, 시스템 및 프로그램
US11816145B2 (en) 2019-04-02 2023-11-14 Naver Webtoon Ltd. Method, system and computer program for coloring based on deep learning
KR20210112992A (ko) * 2020-03-06 2021-09-15 주식회사 테스트웍스 다각형 기반의 객체 인식 성능 보정 장치 및 방법
KR20210144013A (ko) * 2020-05-21 2021-11-30 한국과학기술연구원 딥러닝을 이용한 자성 파라미터 값 추정 방법 및 장치
WO2022092742A1 (ko) * 2020-10-27 2022-05-05 삼성전자 주식회사 피사체가 촬영된 영상을 생성하는 디바이스 및 방법
WO2022092555A1 (ko) * 2020-10-27 2022-05-05 삼성전자 주식회사 노이즈 저감 처리된 이미지 데이터를 생성하는 방법 및 이를 수행하는 전자 장치

Also Published As

Publication number Publication date
CN106934426A (zh) 2017-07-07
KR102630035B1 (ko) 2024-01-29
US10460231B2 (en) 2019-10-29
US20170185871A1 (en) 2017-06-29

Similar Documents

Publication Publication Date Title
KR102630035B1 (ko) 신경망 기반 영상 신호 처리를 수행하는 방법 및 장치
KR20170000767A (ko) 신경망, 신경망 학습 방법 및 이미지 신호 처리 튜닝 시스템
US10438112B2 (en) Method and apparatus of learning neural network via hierarchical ensemble learning
US20230385640A1 (en) Misuse index for explainable artificial intelligence in computing environments
CN110570426B (zh) 使用深度学习的图像联合配准和分割
CN114787832A (zh) 联邦机器学习的方法和服务器
KR101593315B1 (ko) 행동 인식을 위한 방법, 장치 및 컴퓨터 프로그램 제품
CN108289161A (zh) 电子设备及其图像捕捉方法
CN103838568B (zh) 用于生成超分辨图像的方法、装置和计算机程序产品
CN108509892B (zh) 用于生成近红外图像的方法和装置
US10290107B1 (en) Transform domain regression convolutional neural network for image segmentation
CN106295682A (zh) 一种判断图片质量因子的方法、装置和计算设备
US20190281211A1 (en) Adaptive System for Autonomous Machine Learning and Control in Wearable Augmented Reality and Virtual Reality Visual Aids
CN113190757A (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
CN112419326B (zh) 图像分割数据处理方法、装置、设备及存储介质
WO2023202285A1 (zh) 图像处理方法、装置、计算机设备及存储介质
WO2020250236A1 (en) Understanding deep learning models
CN113191479A (zh) 联合学习的方法、系统、节点及存储介质
US11497455B2 (en) Personalized monitoring of injury rehabilitation through mobile device imaging
Chen et al. A novel face super resolution approach for noisy images using contour feature and standard deviation prior
Chen et al. Face super resolution based on parent patch prior for VLQ scenarios
JP2021089493A (ja) 情報処理装置およびその学習方法
CN111553375A (zh) 使用变换以验证计算机视觉质量
US11615604B2 (en) Method and apparatus for measuring endolymphatic hydrops ratio of inner ear organ using artificial neural network
Lin et al. Reinforcement learning-based image exposure reconstruction for homography estimation

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant