KR102516366B1 - 특징 데이터 획득 방법 및 장치 - Google Patents

특징 데이터 획득 방법 및 장치 Download PDF

Info

Publication number
KR102516366B1
KR102516366B1 KR1020180061961A KR20180061961A KR102516366B1 KR 102516366 B1 KR102516366 B1 KR 102516366B1 KR 1020180061961 A KR1020180061961 A KR 1020180061961A KR 20180061961 A KR20180061961 A KR 20180061961A KR 102516366 B1 KR102516366 B1 KR 102516366B1
Authority
KR
South Korea
Prior art keywords
bit
images
image
binary
low
Prior art date
Application number
KR1020180061961A
Other languages
English (en)
Other versions
KR20190140527A (ko
Inventor
최창규
곽영준
이서형
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180061961A priority Critical patent/KR102516366B1/ko
Priority to US16/406,088 priority patent/US11189015B2/en
Publication of KR20190140527A publication Critical patent/KR20190140527A/ko
Priority to US17/507,872 priority patent/US11636575B2/en
Priority to US18/127,891 priority patent/US11893497B2/en
Application granted granted Critical
Publication of KR102516366B1 publication Critical patent/KR102516366B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

특징 데이터 획득 방법 및 장치가 개시된다. 특징 데이터 획득 방법은 입력 영상을 수신하는 단계, 입력 영상의 픽셀 값에 기초하여 입력 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상을 획득하는 단계와 뉴럴 네트워크를 이용하여 하나 이상의 로우 비트 영상으로부터 입력 영상에 대응하는 특징 데이터를 획득하는 단계를 포함할 수 있다.

Description

특징 데이터 획득 방법 및 장치{METHOD AND APPARATUIS FOR ACQUARING FEATURE DATA}
아래의 설명은 뉴럴 네트워크를 이용하여 특징 데이터를 획득하는 기술에 관한 것이다.
영상에서 여러 특징(또는 특징 값)들을 얻기 위한 다양한 영상 분석 기술들이 존재한다. 영상의 특징은 영상 내에서 원하는 특정 객체의 위치를 찾는데 이용되거나 또는 영상들 간의 유사성을 판단하는데 이용될 수 있다. 영상의 특징은, 예를 들어 SIFT(Scale Invariant Feature Transform), HOG(Histogram of Oriented Gradient), LBP(Local Binary Pattern), MCT(Modified Census Transform), 에지 검출(edge detection) 등과 같은 특징 검출 알고리즘을 통해 추출될 수 있다.
일 실시예에 따른 특징 데이터 획득 방법은, 입력 영상을 수신하는 단계; 상기 입력 영상의 픽셀 값에 기초하여 상기 입력 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상을 획득하는 단계; 및 뉴럴 네트워크를 이용하여 상기 하나 이상의 로우 비트 영상으로부터 상기 입력 영상에 대응하는 특징 데이터를 획득하는 단계를 포함할 수 있다.
상기 하나 이상의 로우 비트 영상을 획득하는 단계는, 상기 입력 영상의 픽셀 값에 기초하여 하나 이상의 바이너리 영상을 획득하는 단계를 포함하고, 상기 하나 이상의 바이너리 영상은 상기 뉴럴 네트워크에 입력될 수 있다.
상기 하나 이상의 로우 비트 영상을 획득하는 단계는, 상기 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값을 비트 값 레벨에 따라 분리하는 것에 의해 상기 하나 이상의 바이너리 영상을 획득하는 단계를 포함할 수 있다.
상기 하나 이상의 로우 비트 영상을 획득하는 단계는, 상기 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트부터 최하위 비트까지 각 비트 값 레벨에 대응하는 바이너리 영상들을 획득하는 단계를 포함할 수 있다.
상기 바이너리 영상들은, 상기 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트에 대응하는 이진 비트 값을 나타내는 바이너리 영상 및 상기 최상위 비트의 하위 비트에 대응하는 이진 비트 값을 나타내는 적어도 하나의 바이너리 영상을 포함할 수 있다.
상기 하나 이상의 로우 비트 영상을 획득하는 단계는, 상기 입력 영상이 컬러 영상인 경우, 상기 컬러 영상을 각 컬러 채널별로 분리하여 복수의 컬러 채널 영상들을 획득하는 단계; 및 상기 컬러 채널 영상들 각각의 픽셀 값에 기초하여 컬러 채널 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상을 획득하는 단계를 포함할 수 있다.
상기 하나 이상의 로우 비트 영상을 획득하는 단계는, 상기 입력 영상에 에지 필터를 적용하는 것에 의해 상기 하나 이상의 로우 비트 영상을 획득하는 단계를 포함할 수 있다.
상기 하나 이상의 로우 비트 영상을 획득하는 단계는, 상기 입력 영상에 상기 입력 영상의 픽셀당 비트 수에 대응하는 서로 다른 에지 필터들을 각각 적용하는 것에 의해 로우 비트 영상들을 획득하는 단계를 포함할 수 있다.
상기 뉴럴 네트워크에서 상기 하나 이상의 로우 비트 영상 각각에 영상 필터가 적용되어 상기 하나 이상의 로우 비트 영상 각각에 대응하는 특징 맵이 생성되고, 상기 특징 맵에 기초하여 상기 특징 데이터가 결정되고, 상기 영상 필터의 계수는, 바이너리, 바이폴라 및 터너리 중 어느 하나의 데이터 타입을 가질 수 있다.
일 실시예에 따른 특징 데이터 획득 장치는, 입력 영상으로부터 특징 데이터를 추출하는 프로세서를 포함하고, 상기 프로세서는, 입력 영상을 수신하고, 상기 입력 영상의 픽셀 값에 기초하여 상기 입력 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상을 생성하고, 뉴럴 네트워크를 이용하여 상기 하나 이상의 로우 비트 영상으로부터 상기 입력 영상에 대응하는 특징 데이터를 생성할 수 있다.
상기 프로세서는, 상기 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값을 비트 값 레벨에 따라 분리하는 것에 의해 상기 하나 이상의 바이너리 영상을 생성하고, 상기 하나 이상의 바이너리 영상은 상기 뉴럴 네트워크에 입력될 수 있다.
도 1은 일 실시예에 따른 특징 데이터를 획득하는 전체적인 과정을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 특징 데이터 획득 방법의 동작을 설명하기 위한 흐름도이다.
도 3 및 도 4는 일 실시예에 따른 로우 비트 영상을 획득하는 일례를 설명하기 위한 도면들이다.
도 5는 다른 실시예에 따른 로우 비트 영상을 획득하는 일례를 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 컬러 영상으로부터 로우 비트 영상을 획득하는 일례를 설명하기 위한 도면이다.
도 7 내지 도 11은 일 실시예에 따른 뉴럴 네트워크에서의 계산 과정에 대한 서로 다른 예들을 설명하기 위한 도면들이다.
도 12는 일 실시예에 따른 특징 데이터 획득 장치의 구성을 도시하는 도면이다.
도 13은 일 실시예에 따른 컴퓨팅 장치의 구성을 도시하는 도면이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 또한, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 달리 명시되지 않는 한 일반적으로 "하나 이상의"를 의미하는 것으로 해석되어야 한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시예에 따른 특징 데이터를 획득하는 전체적인 과정을 설명하기 위한 도면이다.
도 1을 참조하면, 일 실시예에 따른 특징 데이터 획득 장치는 그레이 영상 또는 컬러 영상 등과 같은 입력 영상(110)으로부터 특징 데이터를 획득한다. 특징 데이터는 입력 영상(110)의 픽셀 값에 기반하여 획득된 영상 특징을 나타내고, 객체 인식 또는 객체 인증 등에서 이용될 수 있다. 특징 데이터 획득 장치는 입력 영상(110)으로부터 특징 데이터를 획득(또는 추출)하는 장치로서, 프로세서를 포함하는 다양한 컴퓨팅 장치에 해당될 수 있다.
특징 데이터 획득 장치는 뉴럴 네트워크(130)를 이용하여 입력 영상(110)으로부터 특징 데이터를 획득한다. 뉴럴 네트워크(130)는 입력된 데이터에 기초하여 내부 파라미터들(예, 노드들의 가중치)에 의해 계산된 값을 출력한다. 뉴럴 네트워크(130)의 내부 파라미터들은 학습(training) 과정을 통해 결정될 수 있는데, 학습 과정에서는 뉴럴 네트워크(130)에 특정한 학습 데이터(training data)가 입력되었을 때, 뉴럴 네트워크(130)가 해당 학습 데이터에 대응하는 목적 값(desired value)을 출력하도록 뉴럴 네트워크(130)의 내부 파라미터들을 조정하는 과정이 수행된다. 이러한 과정이 많은 학습 데이터들에 대해 수행됨에 따라 뉴럴 네트워크(130)가 점차 바람직한 출력 값을 출력하도록 내부 파라미터들이 조정될 수 있다.
일 실시예에서, 뉴럴 네트워크(130)는 뉴럴 네트워크 레어어들과 전처리를 수행하는 하나 이상의 컨볼루셔널 레이어(convolutional layer)를 포함하는 컨볼루션 뉴럴 네트워크(convolutional neural network, 130)일 수 있다. 컨볼루셔널 레이어는 컨볼루션 연산을 통해 컨볼루셔널 레이어에 전달된 데이터로부터 특징들을 추출한다. 뉴럴 네트워크 레이어들은 입력 공간을 추상화하고, 데이터의 차원을 축소하기 위한 풀링 레이어(pooling layer) 및 하위 뉴럴 네트워크 레이어에서 전달된 특징들을 분류하는 전방향 레이어(feedforward layer)를 포함할 수 있다. 뉴럴 네트워크(130)는, 예를 들어 컨볼루셔널 레이어 및 풀링 레이어가 서로 교차로 배치되고, 마지막에 전방향 레이어가 배치되는 구조를 가질 수 있으나, 뉴럴 네트워크(130)의 구조가 이에 한정되는 것은 아니고 그 구조는 다양할 수 있다.
특징 데이터를 획득하는데 있어, 특징 데이터 획득 장치는 입력 영상(110)을 입력 영상(110)의 픽셀당 비트수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상(low bit image, 120)으로 분해(decomposition)하고, 뉴럴 네트워크(130)를 이용하여 하나 이상의 로우 비트 영상(120)으로부터 입력 영상(110)에 대응하는 특징 데이터를 획득할 수 있다. 예를 들어, 특징 데이터 획득 장치는 입력 영상(110)을 픽셀 값이 0 또는 1로 표현되는 바이너리 영상(binary image)들의 세트로 분해하고, 바이너리 영상들의 영상 데이터(픽셀 값)를 뉴럴 네트워크(130)에 입력시킬 수 있다. 뉴럴 네트워크(130)는 내부 파라미터들에 기초한 연산 과정을 통해 특징 데이터를 출력한다. 이와 같이, 로우 비트 영상(120)을 이용하여 특징 데이터를 추출하는 것에 의해 계산을 단순화하고 연산량을 줄일 수 있다. 또한, 이를 통해 계산 속도가 개선되고, 에너지 소모량이 저감될 수 있다.
이하에서는, 도면들을 참조하여 특징 데이터 획득 장치가 로우 비트 영상(120)에 기초하여 특징 데이터를 획득하는 과정을 보다 상세히 설명하도록 한다.
도 2는 일 실시예에 따른 특징 데이터 획득 방법의 동작을 설명하기 위한 흐름도이다.
도 2를 참조하면, 단계(210)에서 특징 데이터 획득 장치는 입력 영상을 수신한다. 입력 영상은 특징 데이터를 추출하기 위한 대상이 되는 영상으로서, 예를 들어 그레이 영상 또는 컬러 영상일 수 있다. 도면에는 도시되어 있지 않지만, 실시예에 따라 특징 데이터 획득 장치는 입력 영상에 대해 영상 전처리를 수행할 수도 있다. 영상 전처리 과정은 입력 영상을 특징 데이터의 추출에 보다 적합한 형태로 처리하는 하나 이상의 과정을 포함할 수 있다. 예를 들어, 영상 전처리 과정은 입력 영상의 크기를 조정, 입력 영상을 회전시킴, 노이즈 제거, 배경 영역(background region) 제거, 입력 영상에 포함된 왜곡(distortion)을 보정, 입력 영상에서 일부 영역을 크롭핑(cropping) 등을 포함할 수 있다.
단계(220)에서, 특징 데이터 획득 장치는 입력 영상으로부터 하나 이상의 로우 비트 영상을 획득한다. 특징 데이터 획득 장치는 입력 영상의 픽셀 값에 기초하여 입력 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상을 획득한다. 일 실시예에 따르면, 입력 영상의 픽셀 값에 기초하여 입력 영상의 픽셀당 비트 수만큼의 로우 비트 영상들이 획득될 수 있다. 예를 들어, 입력 영상이 픽셀당 비트 수가 8비트인 그레이 영상이라고 가정하면, 특징 데이터 획득 장치는 그레이 영상을 픽셀당 비트 수가 1비트인 바이너리 영상들 8개로 분해할 수 있다.
일 실시예에서, 특징 데이터 획득 장치는 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값을 비트 값 레벨에 따라 분리하는 것에 의해 하나 이상의 바이너리 영상을 획득할 수 있다. 이를 통해, 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트부터 최하위 비트까지 비트 값 레벨 별로 각 비트 값 레벨에 대응하는 바이너리 영상들이 획득될 수 있다. 바이너리 영상들은 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트에 대응하는 이진 비트 값을 나타내는 바이너리 영상과 최상위 비트의 각 하위 비트에 대응하는 이진 비트 값을 나타내는 바이너리 영상들을 포함할 수 있다.
다른 실시예에서, 특징 데이터 획득 장치는 입력 영상에 에지 필터(edge filter)를 적용하는 것에 의해 로우 비트 영상을 획득할 수도 있다. 예를 들어, 특징 데이터 획득 장치는 입력 영상에 입력 영상의 픽셀당 비트 수에 대응하는 서로 다른 에지 필터들을 각각 적용하는 것에 의해 로우 비트 영상들을 획득할 수 있다. 실시예에 따라, 바이너리 영상의 로우 비트 영상을 획득하기 위해 에지 필터를 적용한 결과 영상에 이진화(binarization) 과정이 수행될 수도 있다. 예를 들어, 입력 영상이 픽셀당 비트 수가 8비트인 그레이 영상이라고 가정하면, 특징 데이터 획득 장치는 8개의 서로 다른 에지 필터들을 각각 해당 그레이 영상에 적용한 결과 영상들을 이진화하여 8개의 바이너리 영상들을 획득할 수 있다.
또 다른 실시예에서, 입력 영상이 컬러 영상인 경우, 특징 데이터 획득 장치는 컬러 영상을 각 컬러 채널별로 분리하여 복수의 컬러 채널 영상들을 획득하고, 컬러 채널 영상들 각각의 픽셀 값에 기초하여 컬러 채널 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상을 획득할 수 있다. 예를 들어, 특징 데이터 획득 장치는 각 컬러 채널 영상의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트부터 최하위 비트까지 각 비트 값 레벨에 대응하는 바이너리 영상들을 획득할 수 있다. 예를 들어, 입력 영상이 픽셀당 비트 수가 24비트(즉, 3바이트)인 RGB 컬러 영상이라고 가정하면, 특징 데이터 획득 장치는 RGB 컬러 영상을 R(red), G(green), B(blue)의 각 컬러 채널별로 분리하여 3개의 컬러 채널 영상들을 획득할 수 있다. 이 때, 각 컬러 채널 영상의 픽셀당 비트 수는 8비트(즉, 1바이트)가 된다. 특징 데이터 획득 장치는 그레이 영상의 분해와 관련하여 위에서 설명한 것과 동일하게, 각 컬러 채널 영상을 픽셀당 비트 수가 1비트인 바이너리 영상들 8개로 분해할 수 있다. 이에 따라, 총 24개의 바이너리 영상들이 생성된다.
단계(230)에서, 특징 데이터 획득 장치는 뉴럴 네트워크를 이용하여 하나 이상의 로우 비트 영상으로부터 입력 영상에 대응하는 특징 데이터를 획득한다. 뉴럴 네트워크에는 하나 이상의 로우 비트 영상(예를 들어, 바이너리 영상)의 픽셀 값이 입력되고, 뉴럴 네트워크는 특징 벡터와 같은 특징 데이터를 출력할 수 있다. 뉴럴 네트워크가 컨볼루셔널 뉴럴 네트워크인 경우, 뉴럴 네트워크 상에서 로우 비트 영상 각각에 영상 필터(또는 가중치)를 적용되어 로우 비트 영상 각각에 대응하는 특징 맵이 생성되고, 특징 맵에 기초하여 특징 데이터가 결정될 수 있다. 뉴럴 네트워크의 컨볼루셔널 레이어에 의한 컨볼루션 연산을 통해 특징 맵이 생성되고, 풀링 레이어를 통해 특징 맵의 크기가 줄어들 수 있다. 뉴럴 네트워크는 컨볼루셔널 레이어, 액티베이션 함수(activation function)의 특성을 가지는 RELU 레이어와 풀링 레이어 반복적으로 배치되어 조합된 구조를 가질 수 있다.
영상 필터의 계수(또는 가중치)는, 예를 들어 바이너리(binary), 바이폴라(bipolar) 및 터너리(ternary) 중 어느 하나의 데이터 타입을 가질 수 있다. 계수의 데이터 타입이 바이너리인 경우, 계수는 0 또는 1의 값을 가지고, 계수의 데이터 타입이 바이폴라인 경우, 계수는 -1 또는 1의 값을 가진다. 계수의 데이터 타입이 바이폴라인 경우, 계수는 -1, 0, 1 중 어느 하나의 값을 가진다. 뉴럴 네트워크에 입력되는 영상이 바이너리 영상인 경우, 영상 필터의 계수의 데이터 타입에 의해 뉴럴 네트워크의 중간 처리 단계에서 생성되는 특징 맵의 데이터 타입이 결정된다. 예를 들어, 영상 필터의 계수의 데이터 타입이 바이너리이면 특징 맵의 데이터 타입도 바이너리이고, 영상 필터의 계수의 데이터 타입이 터너리이면 특징 맵의 데이터 타입도 터너리가 된다. 바이너리, 바이폴라 또는 터너리는 비트 수가 작기 때문에, 이들 중 어느 하나의 데이터 타입의 계수로 구성된 영상 필터를 이용하는 것에 의해 연산량이 감소되고 처리 속도가 빨라질 수 있다.
위와 같이, 입력 영상보다 픽셀당 비트 수가 낮은 로우 비트 영상에 기초하여 특징 데이터를 획득하는 것에 의해, 연산량과 에너지 소모량을 줄일 수 있다. 특히, 로우 비트 영상으로서 바이너리 영상을 이용하는 경우, 특징 데이터를 획득하는데 있어 논리 곱셈 연산이 논리 덧셈 연산을 통해 구현이 가능하게 되어 연산량이 줄어들고, 처리 속도가 빨라질 수 있다.
도 3 및 도 4는 일 실시예에 따른 로우 비트 영상을 획득하는 과정을 설명하기 위한 도면들이다.
도 3에 도시된 실시예에서는, 입력 영상(310)이 그레이 영상이고, 픽셀당 비트 수가 8비트이라고 가정한다. 도 3을 참조하면, 입력 영상(310)의 특정한 부분 영역(320)의 픽셀 값(330)이 도시되어 있다. 부분 영역(320)은 9개의 픽셀들로 구성되고, 각 픽셀은 8비트의 픽셀 값을 가진다. 특징 데이터 획득 장치는 입력 영상(310)의 각 픽셀 값에 대응하는 이진 비트 값을 비트 값 레벨에 따라 분리하는 것에 의해 입력 영상(310)의 픽셀당 비트 수와 동일한 8개의 바이너리 영상들을 획득할 수 있다.
바이너리 영상들의 세트(340)에 포함된 바이너리 영상(341)은, 입력 영상(310)의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트에 대응하는 이진 비트 값을 나타내는 바이너리 영상이다. 입력 영상(310)의 부분 영역(320)에 대응하는 바이너리 영상(341)의 대응 영역(350)의 픽셀 값(360)의 일례가 도면에 도시되어 있다. 픽셀 값(330)에 포함된 9개의 픽셀 값들 중에서 '250'과 '128'만이 최상위 비트의 이진 비트 값이 '1'이고, 나머지 픽셀 값들의 경우 최상위 비트의 이진 비트 값이 '0'이다. 따라서, 도면에 도시된 대응 영역(350)의 픽셀 값(360)과 같이 바이너리 영상(341)의 대응 영역(350)의 픽셀 값이 결정된다.
입력 영상(310)의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트부터 최하위 비트까지 각 비트 값 레벨에 대응하는 바이너리 영상들이 획득될 수 있고, i 번째 바이너리 영상은 입력 영상(310)의 픽셀 값에 대응하는 이진 비트 값에서 i 번째 비트 값 레벨에 대응하는 이진 비트 값들로 구성될 수 있다. 바이너리 영상들의 세트(340)에 포함된 각 바이너리 영상들에서 부분 영역(320)에 대응하는 각 대응 영역의 픽셀 값이 도 4에 도시되어 있다.
도 4를 참조하면, 바이너리 영상들의 세트(340)에 포함된 8개의 바이너리 영상들(341, 342, 343, 344, 345, 346, 347, 348) 각각의 대응 영역(410, 402, 403, 404, 405, 406, 407, 408)에서의 픽셀 값(411, 412, 413, 414, 415, 416, 417, 418)의 구성이 도시되어 있다. 대응 영역들(410, 402, 403, 404, 405, 406, 407, 408)은 입력 영상(310)의 부분 영역(320)에 대응하는 영역들이다. 바이너리 영상(341)은 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트에 대응하는 이진 비트 값을 나타내는 바이너리 영상이고, 바이너리 영상(342)은 최상위 비트의 다음 하위 비트에 대응하는 이진 비트 값을 나타내는 바이너리 영상이다. 최상위 비트의 다음 하위 비트 레벨의 경우, 입력 영상(310)의 픽셀 값(330)에 포함된 9개의 픽셀 값들 중에서 '250'과 '64'만이 이진 비트 값이 '1'이고, 나머지 픽셀 값들의 경우 이진 비트 값이 '0'이 되어, 바이너리 영상(342)의 대응 영역(402)은 도 4에 도시된 것과 같은 픽셀 값(412)을 가진다. 바이너리 영상(348)은 최하위 비트에 대응하는 이진 비트 값을 나타내는 바이너리 영상으로서, 입력 영상(310)의 픽셀 값(330)에 포함된 9개의 픽셀 값들 중에서 '49'와 '15' 만이 해당 비트 값 레벨에서 '1'의 이진 비트 값을 가지고, 나머지 픽셀 값은 '0'의 이진 비트 값을 가진다. 따라서, 바이너리 영상(348)의 대응 영역(408)은 도 4에 도시된 것과 픽셀 값(418)을 가진다.
도 5는 다른 실시예에 따른 로우 비트 영상을 획득하는 일례를 설명하기 위한 도면이다.
도 5를 참조하면, 특징 데이터 획득 장치는 입력 영상(510)에 서로 간에 서로 다른 필터 계수 구성을 가지는 에지 필터들(520)을 적용하는 것에 의해 로우 비트 영상들(530)을 획득할 수 있다. 예를 들어, 입력 영상(510)의 픽셀당 비트 수가 8비트라고 가정하면, 입력 영상(510)에 8개의 에지 필터들(520)을 각각 적용하는 것에 의해 로우 비트 영상들(530)로서 8개의 바이너리 영상들을 획득할 수 있다. 이 때, 입력 영상(510)의 픽셀 값과 에지 필터의 필터 계수 간에는 컨볼루션 연산이 수행되고, 컨볼루션 연산이 수행된 결과 영상을 이진화 하는 것에 의해 바이너리 영상들이 획득될 수 있다. 도 5에 도시된 실시예에서, 에지 필터들(520)은 3X3의 크기를 가지고, '-1', '1' 이외의 다른 영역은 '0'의 계수 값으로 구성된다.
도 6은 일 실시예에 따른 컬러 영상으로부터 로우 비트 영상을 획득하는 일례를 설명하기 위한 도면이다.
도 6에 도시된 실시예에서는, 입력 영상(610)이 RGB 컬러 영상이고, 픽셀당 비트 수가 24비트(즉, 3바이트)라고 가정한다. 특징 데이터 획득 장치는 입력 영상(610) R, G, B의 각 컬러 채널별로 분리하여 각 컬러 채널에 대응하는 3개의 컬러 채널 영상들(622, 624, 626)을 생성할 수 있다. 여기서, 각 컬러 채널 영상들(622, 624, 626)의 픽셀당 비트 수는 8비트가 된다. 이후에, 특징 데이터 획득 장치는 각 컬러 채널 영상들(622, 624, 626)을 픽셀당 비트 수가 1비트인 바이너리 영상들로 분해할 수 있다. 컬러 채널 영상(622)의 픽셀 값에 기초하여 8개의 바이너리 영상들(632)이 획득되고, 컬러 채널 영상(624)의 픽셀 값에 기초하여 8개의 바이너리 영상들(634)이 획득되며, 컬러 채널 영상(626)의 픽셀 값에 기초하여 8개의 바이너리 영상들(636)이 획득된다. 각 바이너리 영상들(632, 634, 636)의 획득 과정은 도 3 내지 도 5와 관련하여 설명된 내용을 참조할 수 있으며, 자세한 설명은 생략한다. 이렇게 생성된 24개의 바이너리 영상들(632, 634, 636)의 전부 또는 일부가 뉴럴 네트워크에 입력되고, 뉴럴 네트워크는 입력된 데이터에 대응하는 특징 데이터를 출력한다.
도 7 내지 도 11은 일 실시예에 따른 뉴럴 네트워크에서의 계산 과정에 대한 서로 다른 예들을 설명하기 위한 도면들이다. 도 7 내지 도 11의 실시예들에서는 뉴럴 네트워크가 컨볼루셔널 뉴럴 네트워크라고 가정한다.
도 7을 참조하면, 단일 로우 비트 영상(710)에 대한 컨볼루션 및 풀링 과정이 도시되어 있다. 뉴럴 네트워크에서 로우 비트 영상(710)에 영상 필터(720)가 적용되어 특징 맵(730)이 획득된다. 이 때, 로우 비트 영상(710)의 픽셀 값과 영상 필터(720)의 계수 간의 컨볼루션 연산이 수행된다. 컨볼루션 연산의 결과, 특징 맵(730)의 일 영역(740)에 포함된 4개의 특징 값이 (-1, -2, 4, -1)로 결정되었다고 가정한다. 이후에 특징 맵(730) 볼륨 또는 크기를 줄이는 특징 맵(730)에 대한 풀링 과정이 수행되는데, 영역(740)의 크기 단위로 맥스 풀링(max pooling)이 수행되는 경우, 영역(740)에 포함된 특징 값들 중 최대 값(절대 값 기준)인 '4'가 영역(740)의 단일 특징 값으로서 추출(750)된다. 이후에, 3치화(ternarization)가 수행되고, 3치화의 수행 결과로서 특징 값 '4'는 '1'로 변환(760)된다. 3치화는 값을 -1, 0, 1 중 어느 하나의 값으로 변환시키는 과정이다. 실시예에 따라, 3치화 이외에도, 특징 맵의 값을 0 또는 1로 변환시키는 이진화(binarization), 또는 특징 맵의 값을 -1 또는 1로 변환시키는 양극화(bipolarization)가 수행될 수도 있다. 이하, 도 8 내지 도 11의 실시예들에서도 이와 동일하게 3치화뿐만 아니라 이진화 또는 양극화가 수행될 수 있다. 맥스 풀링이 아닌 에버리지 풀링(average pooling)이 특징 맵(730)에 수행되는 경우, 영역(740)에 포함된 특징 값들의 평균 값인 '0'이 영역(740)의 단일 특징 값으로 결정(755)된다. 이후에, 3치화가 수행되고, 3치화의 수행 결과(765)로서 특징 값 '0'은 그대로 '0'이 된다.
도 8을 참조하면, 복수의 로우 비트 영상들(810)에 대한 컨볼루션 및 풀링 과정이 도시되어 있다. 뉴럴 네트워크에서 로우 비트 영상들(810)에 영상 필터(820)가 적용되어 특징 맵(830)이 획득된다. 이 때, 로우 비트 영상들(810) 각각의 픽셀 값과 영상 필터(820)의 계수 간의 컨볼루션 연산이 수행된다. 컨볼루션 연산의 결과, 특징 맵(830)의 일 영역(840)에 포함된 4개의 특징 값이 (-1, -2, -4, -1)로 결정되었다고 가정한다. 이후에, 맥스 풀링이 수행되는 경우, 영역(840)에 포함된 특징 값들 중 최대 값(절대 값 기준)인 '-4'가 영역(840)의 단일 특징 값으로서 추출(850)된다. 이후에, 3치화가 수행되어, 특징 값 '-4'는 '-1'로 변환(860)된다. 맥스 풀링 대신 에버리지 풀링이 수행되는 경우, 영역(840)에 포함된 특징 값들의 평균 값인 '0'이 영역(840)의 단일 특징 값으로 결정(855)된다. 이후에, 3치화가 수행되고, 3치화의 수행 결과(865)로서 특징 값 '0'은 그대로 '0'이 된다.
도 9를 참조하면, 두 개의 서로 다른 영상 필터들을 이용한 로우 비트 영상들에 대한 컨볼루션 및 풀링 과정이 도시되어 있다. 뉴럴 네트워크에서 제1 영상 필터(920)가 로우 비트 영상들(910)에 적용되어 제1 특징 맵(930)이 획득되고, 제2 영상 필터(925)가 로우 비트 영상들(910)에 적용되어 제2 특징 맵(935)이 획득된다. 이 때, 로우 비트 영상들(910) 각각의 픽셀 값과 각 영상 필터들(920, 925)의 계수 간의 컨볼루션 연산이 수행된다.
컨볼루션 연산의 결과, 제1 특징 맵(930)의 일 영역(940)에 포함된 4개의 특징 값이 (-1, -2, -4, -1)로 결정되고, 제2 특징 맵(935)의 일 영역(945)에 포함된 4개의 특징 값이 (1, 2, 4, 1)로 결정되었다고 가정한다. 이후에, 맥스 풀링이 수행되는 경우, 영역들(940, 945)에 포함된 특징 값들 중 최대 값(절대 값 기준)인 '4'가 단일 특징 값으로서 추출(950)된다. 이후에, 3치화가 수행되어, 특징 값 '4'는 '1'로 변환(960)된다. 맥스 풀링 대신 에버리지 풀링이 수행되는 경우, 영역들(940, 945)에 포함된 특징 값들의 평균 값인 '0'이 단일 특징 값으로 결정(955)된다. 이후에, 3치화가 수행되고, 3치화의 수행 결과(965)로서 특징 값 '0'은 그대로 '0'이 된다.
도 10을 참조하면, 컬러 채널 영상들의 로우 비트 영상들(1012, 1014, 1016)에 대한 컨볼루션 및 풀링 과정이 도시되어 있다. 컬러 영상이 3개의 서로 다른 컬러 채널 영상들로 분해되고, 각 컬러 채널 영상들이 다시 복수의 로우 비트 영상들로 분해된 경우, 각 컬러 채널 영상들의 로우 비트 영상들 중에서 동일한 비트 값 레벨에 대응하는 각 컬러 채널의 로우 비트 영상들(1012, 1014, 1016)에 영상 필터(1020)가 적용될 수 있다. 예를 들어, 로우 비트 영상(1012)는 R 컬러 채널에 대한 바이너리 영상들 중 최상위 비트에 대응하는 바이너리 영상이고, 로우 비트 영상(1014)는 G 컬러 채널에 대한 바이너리 영상들 중 최상위 비트에 대응하는 바이너리 영상이며, 로우 비트 영상(1016)은 B 컬러 채널에 대한 바이너리 영상들 중 최상위 비트에 대응하는 바이너리 영상일 수 있다.
로우 비트 영상들(1012, 1014, 1016)에 영상 필터(1020)가 적용(컨볼루션 연산이 수행)되어 특징 맵(1030)이 획득되고, 특징 맵(1030)의 일 영역(1040)에 포함된 4개의 특징 값이 (-1, -2, -4, -1)로 결정되었다고 가정한다. 이후에, 맥스 풀링이 수행되는 경우, 영역(1040)에 포함된 특징 값들 중 최대 값(절대 값 기준)인 '-4'가 단일 특징 값으로서 추출(1050)되고, 3치화의 수행 결과(1060), 특징 값 '-4'는 '-1'로 변환된다. 맥스 풀링 대신 에버리지 풀링이 수행되는 경우, 영역(1040)에 포함된 특징 값들의 평균 값인 '0'이 단일 특징 값으로 결정(1055)되고, 3치화의 수행 결과(1065), 특징 값 '0'은 그대로 '0'이 된다.
도 11을 참조하면, 도 10의 실시예에 2개의 영상 필터들(1120, 1125)이 적용된 컨볼루션 및 풀링 과정이 도시되어 있다. 각 컬러 채널 영상들의 로우 비트 영상들 중에서 동일한 비트 값 레벨에 대응하는 각 컬러 채널의 로우 비트 영상들(1112, 1114, 1116)에 제1 영상 필터(1120)와 제2 영상 필터(1125)가 각각 적용(컨볼루션 연산이 수행됨)되어 제1 특징 맵(1130)과 제2 특징 맵(1135)이 획득된다.
컨볼루션 연산의 결과, 제1 특징 맵(1130)의 일 영역(1140)에 포함된 4개의 특징 값이 (-1, -2, -4, -1)로 결정되고, 제2 특징 맵(1135)의 일 영역(1145)에 포함된 4개의 특징 값이 (1, 2, 4, 1)로 결정되었다고 가정한다. 이후에, 맥스 풀링이 수행되는 경우, 영역들(1140, 1145)에 포함된 특징 값들 중 최대 값(절대 값 기준)인 '4'가 단일 특징 값으로서 추출(1150)되고, 3치화의 수행 결과(1160), 특징 값 '4'는 '1'로 변환(1160)된다. 맥스 풀링 대신 에버리지 풀링이 수행되는 경우, 영역들(1140, 1145)에 포함된 특징 값들의 평균 값인 '0'이 단일 특징 값으로 결정(1155)되고, 3치화의 수행 결과(1165), 특징 값 '0'은 그대로 '0'이 된다.
도 12는 일 실시예에 따른 특징 데이터 획득 장치의 구성을 도시하는 도면이다.
도 12를 참조하면, 특징 데이터 획득 장치(1200)는 입력 영상을 수신하고, 입력 영상으로부터 특징 데이터를 추출한다. 특징 데이터 획득 장치(1200)는 특징 데이터 획득 방법과 관련하여 본 명세서에 기술되거나 또는 도시된 하나 이상의 동작을 수행할 수 있다.
특징 데이터 획득 장치(1200)는 하나 이상의 프로세서(1210) 및 메모리(1220)를 포함할 수 있다. 프로세서(1210)는 도 1 내지 도 11을 참조하여 설명된 하나 이상의 동작을 실행하기 위한 인스트럭션들을 실행할 수 있다. 예를 들어, 프로세서(1210)는 입력 영상을 수신하고, 입력 영상의 픽셀 값에 기초하여 입력 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상(예를 들어, 바이너리 영상)을 생성할 수 있다. 일 예에서, 프로세서(1210)는 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값을 비트 값 레벨에 따라 분리하는 것에 의해 하나 이상의 바이너리 영상을 생성할 수 있다. 다른 예로, 프로세서(1210)는 입력 영상에 입력 영상의 픽셀당 비트 수에 대응하는 서로 다른 에지 필터들을 각각 적용하는 것에 의해 로우 비트 영상들을 생성할 수도 있다. 입력 영상이 컬러 영상인 경우, 프로세서(1210)는 컬러 영상을 각 컬러 채널별로 분리하여 복수의 컬러 채널 영상들을 생성하고, 컬러 채널 영상들 각각의 픽셀 값에 기초하여 컬러 채널 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상을 생성할 수 있다. 프로세서(1210)는 뉴럴 네트워크를 이용하여 하나 이상의 로우 비트 영상으로부터 입력 영상에 대응하는 특징 데이터를 추출할 수 있다. 뉴럴 네트워크에는 로우 비트 영상이 입력되고, 뉴럴 네트워크는 내부 파라미터들에 기초한 연산을 통해 입력 데이터에 대응하는 특징 데이터를 출력한다.
메모리(1220)는 프로세서(1210)에 연결되고, 프로세서(1210)에 의해 실행가능한 인스트럭션들 및 프로세서(1210)가 연산할 데이터 또는 프로세서(1210)에 의해 처리된 데이터를 저장할 수 있다. 메모리(1220)는 비일시적인 컴퓨터 판독가능 매체, 예컨대 고속 랜덤 액세스 메모리 및/또는 비휘발성 컴퓨터 판독가능 저장 매체를 포함할 수 있다.
도 13은 일 실시예에 따른 컴퓨팅 장치의 구성을 도시하는 도면이다.
도 13을 참조하면, 컴퓨팅 장치(1300)는 타겟이 되는 입력 데이터에서 특징 데이터를 추출하고, 추출된 특징 데이터에 기초하여 객체 인식과 같은 응용 동작을 수행할 수 있다. 컴퓨팅 장치(1300)는 기능적으로 도 12의 특징 데이터 획득 장치(1200)의 기능을 포함할 수 있다.
컴퓨팅 장치(1300)는 프로세서(1310), 메모리(1320), 카메라(1330), 저장 장치(1340), 입력 장치(1350), 출력 장치(1360) 및 네트워크 인터페이스(1370)를 포함할 수 있다. 프로세서(1310), 저장 장치(1320), 카메라(1330), 입력 장치(1340), 출력 장치(1350) 및 네트워크 인터페이스(1370)는 통신 버스(1380)를 통해 서로 통신할 수 있다.
프로세서(1310)는 컴퓨팅 장치(1300) 내에서 실행하기 위한 기능 및 인스트럭션들을 실행한다. 예를 들어, 프로세서(1310)는 메모리(1320) 또는 저장 장치(1340)에 저장된 인스트럭션들을 처리할 수 있다. 프로세서(1310)는 도 1 내지 도 12를 통하여 전술한 하나 이상의 동작을 수행할 수 있다.
카메라(1330)는 정지 영상, 비디오 영상, 또는 이들 모두를 캡쳐할 수 있다. 카메라(1330)에 의해 캡쳐된 영상은 본 명세서에서 설명된 입력 영상에 대응될 수 있다.
저장 장치(1340)는 입력 영상에서 특징 데이터를 추출하는데 이용되는 데이터를 저장한다. 저장 장치(1340)는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함할 수 있다. 저장 장치(1340)는 프로세서(1310)에 의해 실행하기 위한 인스트럭션들을 저장할 수 있고, 컴퓨팅 장치(1300)에 의해 소프트웨어 또는 애플리케이션이 실행되는 동안 관련 데이터를 저장할 수 있다.
입력 장치(1350)는 촉각, 비디오, 오디오 또는 터치 입력을 통해 사용자로부터 입력을 수신할 수 있다. 예를 들어, 입력 장치(1350)는 키보드, 마우스, 터치 스크린, 마이크로폰, 또는 사용자로부터 입력을 검출하고, 검출된 입력을 컴퓨팅 장치(1300)에 전달할 수 있는 임의의 다른 장치를 포함할 수 있다.
출력 장치(1360)는 시각적, 청각적 또는 촉각적인 채널을 통해 사용자에게 컴퓨팅 장치(1300)의 출력을 제공할 수 있다. 출력 장치(1360)는 예를 들어, 디스플레이, 터치 스크린, 스피커, 진동 발생 장치 또는 사용자에게 출력을 제공할 수 있는 임의의 다른 장치를 포함할 수 있다. 네트워크 인터페이스(1370)는 유선 또는 무선 네트워크를 통해 외부 장치와 통신할 수 있다.
본 명세서에서 설명된 특징 데이터 획득 방법은 영상뿐만 아니라 음성 신호, 음악과 같은 오디오 신호로부터 특징 데이터를 추출하는 것에도 확장 적용될 수 있다. 예를 들어, 오디오 신호에서 일 샘플 데이터를 구성하는 비트 수가 N(자연수) 비트라고 가정하면, 특징 데이터 획득 장치는 N 비트의 오디오 신호를 N 개의 1비트의 이진 데이터로 분해하고, N개의 이진 데이터의 전부 또는 일부를 뉴럴 네트워크에 입력시키는 것에 의해 뉴럴 네트워크로부터 오디오 신호에 대응하는 특징 데이터를 획득할 수 있다. 이 때, 오디오 신호의 신호 값에 대응하는 이진 비트 값을 이진 비트 값 레벨에 따라 분리하는 것에 의해 N 개의 이진 데이터가 획득될 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (21)

  1. 특징 데이터 획득 장치에 의해 수행되는 특징 데이터 획득 방법에 있어서,
    입력 영상을 수신하는 단계;
    상기 입력 영상의 픽셀 값에 기초하여 상기 입력 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상(low bit image)을 획득하는 단계; 및
    뉴럴 네트워크를 이용하여 상기 하나 이상의 로우 비트 영상으로부터 상기 입력 영상에 대응하는 특징 데이터를 획득하는 단계
    를 포함하고,
    상기 하나 이상의 로우 비트 영상을 획득하는 단계는,
    상기 입력 영상에 상기 입력 영상의 픽셀당 비트 수에 대응하는 서로 다른 에지 필터들을 각각 적용하는 것에 의해 로우 비트 영상들을 획득하는 단계
    를 포함하는 특징 데이터 획득 방법.
  2. 제1항에 있어서,
    상기 하나 이상의 로우 비트 영상을 획득하는 단계는,
    상기 입력 영상의 픽셀 값에 기초하여 하나 이상의 바이너리 영상(binary image)을 획득하는 단계를 포함하고,
    상기 하나 이상의 바이너리 영상은 상기 뉴럴 네트워크에 입력되는, 특징 데이터 획득 방법.
  3. 제2항에 있어서,
    상기 하나 이상의 로우 비트 영상을 획득하는 단계는,
    상기 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값을 비트 값 레벨에 따라 분리하는 것에 의해 상기 하나 이상의 바이너리 영상을 획득하는 단계를 포함하는 특징 데이터 획득 방법.
  4. 제3항에 있어서,
    상기 하나 이상의 로우 비트 영상을 획득하는 단계는,
    상기 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트부터 최하위 비트까지 각 비트 값 레벨에 대응하는 바이너리 영상들을 획득하는 단계를 포함하는 특징 데이터 획득 방법.
  5. 제3항에 있어서,
    상기 바이너리 영상들은,
    상기 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트에 대응하는 이진 비트 값을 나타내는 바이너리 영상 및 상기 최상위 비트의 하위 비트에 대응하는 이진 비트 값을 나타내는 적어도 하나의 바이너리 영상을 포함하는, 특징 데이터 획득 방법.
  6. 제1항에 있어서,
    상기 하나 이상의 로우 비트 영상을 획득하는 단계는,
    상기 입력 영상의 픽셀 값에 기초하여 상기 입력 영상의 픽셀당 비트 수만큼의 로우 비트 영상들을 획득하는 단계를 포함하는 특징 데이터 획득 방법.
  7. 제1항에 있어서,
    상기 입력 영상은 그레이 영상(gray image)인, 특징 데이터 획득 방법.
  8. 제1항에 있어서,
    상기 하나 이상의 로우 비트 영상을 획득하는 단계는,
    상기 입력 영상이 컬러 영상인 경우, 상기 컬러 영상을 각 컬러 채널별로 분리하여 복수의 컬러 채널 영상들을 획득하는 단계; 및
    상기 컬러 채널 영상들 각각의 픽셀 값에 기초하여 컬러 채널 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상을 획득하는 단계
    를 포함하는 특징 데이터 획득 방법.
  9. 제8항에 있어서,
    상기 하나 이상의 로우 비트 영상을 획득하는 단계는,
    각 컬러 채널 영상의 각 픽셀 값에 대응하는 이진 비트 값에서 최상위 비트부터 최하위 비트까지 각 비트 값 레벨에 대응하는 바이너리 영상들을 획득하는 단계를 포함하는 특징 데이터 획득 방법.
  10. 삭제
  11. 삭제
  12. 제1항에 있어서,
    상기 뉴럴 네트워크에서 상기 하나 이상의 로우 비트 영상 각각에 영상 필터가 적용되어 상기 하나 이상의 로우 비트 영상 각각에 대응하는 특징 맵이 생성되고, 상기 특징 맵에 기초하여 상기 특징 데이터가 결정되며,
    상기 영상 필터의 계수는, 바이너리(binary), 바이폴라(bipolar) 및 터너리(ternary) 중 어느 하나의 데이터 타입을 가지는, 특징 데이터 획득 방법.
  13. 제12항에 있어서,
    상기 하나 이상의 로우 비트 영상은, 컬러 채널 영상들의 로우 비트 영상들 중 동일한 비트 값 레벨에 대응하는 로우 비트 영상들인, 특징 데이터 획득 방법.
  14. 제12항에 있어서,
    상기 뉴럴 네트워크는, 상기 특징 맵에 대한 풀링(pooling) 과정에서 특징 맵의 값을 3치화(ternarization)하는, 특징 데이터 획득 방법.

  15. 제1항 내지 제9항 및 제12항 내지 제14항 중 어느 하나의 항의 방법을 실행하기 위한 인스트럭션들을 저장하는 컴퓨터 판독 가능한 저장 매체.
  16. 입력 영상으로부터 특징 데이터를 추출하는 프로세서를 포함하고, 상기 프로세서는,
    입력 영상을 수신하고,
    상기 입력 영상의 픽셀 값에 기초하여 상기 입력 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상을 생성하고,
    뉴럴 네트워크를 이용하여 상기 하나 이상의 로우 비트 영상으로부터 상기 입력 영상에 대응하는 특징 데이터를 생성하고,
    상기 프로세서는,
    상기 입력 영상에 상기 입력 영상의 픽셀당 비트 수에 대응하는 서로 다른 에지 필터들을 각각 적용하는 것에 의해 로우 비트 영상들을 생성하는,
    특징 데이터 획득 장치.
  17. 제16항에 있어서,
    상기 프로세서는,
    상기 입력 영상의 픽셀 값에 기초하여 하나 이상의 바이너리 영상을 생성하고,
    상기 하나 이상의 바이너리 영상은 상기 뉴럴 네트워크에 입력되는, 특징 데이터 획득 장치.
  18. 제17항에 있어서,
    상기 프로세서는,
    상기 입력 영상의 각 픽셀 값에 대응하는 이진 비트 값을 비트 값 레벨에 따라 분리하는 것에 의해 상기 하나 이상의 바이너리 영상을 생성하는, 특징 데이터 획득 장치.
  19. 제16항에 있어서,
    상기 프로세서는,
    상기 입력 영상이 컬러 영상인 경우, 상기 컬러 영상을 각 컬러 채널별로 분리하여 복수의 컬러 채널 영상들을 생성하고,
    상기 컬러 채널 영상들 각각의 픽셀 값에 기초하여 컬러 채널 영상의 픽셀당 비트 수보다 낮은 비트 수를 가지는 하나 이상의 로우 비트 영상을 생성하는, 특징 데이터 획득 장치.
  20. 삭제
  21. 제16항에 있어서,
    상기 뉴럴 네트워크에서 상기 하나 이상의 로우 비트 영상 각각에 영상 필터가 적용되어 상기 하나 이상의 로우 비트 영상 각각에 대응하는 특징 맵이 생성되고, 상기 특징 맵에 기초하여 상기 특징 데이터가 결정되며,
    상기 영상 필터의 계수는, 바이너리, 바이폴라 및 터너리 중 어느 하나의 데이터 타입을 가지는, 데이터 획득 장치.
KR1020180061961A 2018-05-30 2018-05-30 특징 데이터 획득 방법 및 장치 KR102516366B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020180061961A KR102516366B1 (ko) 2018-05-30 2018-05-30 특징 데이터 획득 방법 및 장치
US16/406,088 US11189015B2 (en) 2018-05-30 2019-05-08 Method and apparatus for acquiring feature data from low-bit image
US17/507,872 US11636575B2 (en) 2018-05-30 2021-10-22 Method and apparatus for acquiring feature data from low-bit image
US18/127,891 US11893497B2 (en) 2018-05-30 2023-03-29 Method and apparatus for acquiring feature data from low-bit image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180061961A KR102516366B1 (ko) 2018-05-30 2018-05-30 특징 데이터 획득 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190140527A KR20190140527A (ko) 2019-12-20
KR102516366B1 true KR102516366B1 (ko) 2023-03-31

Family

ID=68694124

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180061961A KR102516366B1 (ko) 2018-05-30 2018-05-30 특징 데이터 획득 방법 및 장치

Country Status (2)

Country Link
US (3) US11189015B2 (ko)
KR (1) KR102516366B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3081150A1 (en) * 2019-05-21 2020-11-21 Royal Bank Of Canada System and method for machine learning architecture with variational autoencoder pooling
US11871156B2 (en) 2020-04-02 2024-01-09 Samsung Electronics Co., Ltd. Dynamic vision filtering for event detection
KR102543077B1 (ko) * 2022-08-03 2023-06-13 가천대학교 산학협력단 안면이미지의 안면영역 분할 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101283189B1 (ko) 2012-12-31 2013-07-05 한국항공우주연구원 위성항법 가시성 계산 장치 및 방법

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2612662B2 (ja) 1992-06-23 1997-05-21 日本無線株式会社 侵入者識別システム
JP3239196B2 (ja) 1993-07-29 2001-12-17 花王株式会社 形状抽出システム
JP2863072B2 (ja) 1993-10-21 1999-03-03 シャープ株式会社 画像階調変換方法及び画像処理装置
JP3063504B2 (ja) 1993-12-22 2000-07-12 日産自動車株式会社 画像データの特徴量検出装置
US6522766B1 (en) * 1999-03-15 2003-02-18 Seiko Epson Corporation Watermarking with random zero-mean patches for copyright protection
FR2795205B1 (fr) 1999-06-15 2001-07-27 Mannesmann Dematic Postal Automation Sa Procede pour binariser des images numeriques a plusieurs niveaux de gris
KR100861803B1 (ko) 2006-06-14 2008-10-09 주식회사 사람과사람들 기계학습을 이용한 얼굴인식 장치 및 그 방법
KR101214772B1 (ko) 2010-02-26 2012-12-21 삼성전자주식회사 문자의 방향성을 기반으로 한 문자 인식 장치 및 방법
JP4918615B2 (ja) 2010-12-29 2012-04-18 独立行政法人産業技術総合研究所 対象個数検出装置および対象個数検出方法
JP5865043B2 (ja) * 2011-12-06 2016-02-17 キヤノン株式会社 情報処理装置、情報処理方法
JP2014092964A (ja) 2012-11-05 2014-05-19 International Business Maschines Corporation 比較的低品質な観測画像から、画像内のオブジェクトの数を推定する方法、コンピュータ・プログラム、コンピュータ。
KR101992153B1 (ko) 2012-11-13 2019-06-25 삼성전자주식회사 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법
KR20150037091A (ko) * 2013-09-30 2015-04-08 삼성전자주식회사 영상처리장치 및 그 제어방법
US10074041B2 (en) 2015-04-17 2018-09-11 Nec Corporation Fine-grained image classification by exploring bipartite-graph labels
US10839483B2 (en) * 2015-06-30 2020-11-17 Korea Advanced Institute Of Science And Technology Method of converting low-resolution image to high-resolution image and image conversion device performing method
US9996902B2 (en) * 2016-01-19 2018-06-12 Google Llc Image upscaling
KR101753660B1 (ko) 2017-02-22 2017-07-19 주식회사한맥아이피에스 축산농가 출입관리 시스템 및 그 방법
CN107481278B (zh) * 2017-08-21 2019-06-28 北京大学深圳研究生院 基于混合框架的图像位深度扩展方法及装置
CN107480723B (zh) 2017-08-22 2019-11-08 武汉大学 基于局部二进制阈值学习网络的纹理识别方法
US10643306B2 (en) * 2017-10-11 2020-05-05 Qualcomm Incoporated Image signal processor for processing images
US10909406B2 (en) * 2018-01-08 2021-02-02 Newgen Software Technologies Limited Image processing system and method
US20190220699A1 (en) * 2018-01-15 2019-07-18 Gyrfalcon Technology Inc. System and method for encoding data in an image/video recognition integrated circuit solution
US10545559B2 (en) * 2018-02-20 2020-01-28 Apical Limited Data processing system and method
US20190286990A1 (en) * 2018-03-19 2019-09-19 AI Certain, Inc. Deep Learning Apparatus and Method for Predictive Analysis, Classification, and Feature Detection
US10678508B2 (en) * 2018-03-23 2020-06-09 Amazon Technologies, Inc. Accelerated quantized multiply-and-add operations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101283189B1 (ko) 2012-12-31 2013-07-05 한국항공우주연구원 위성항법 가시성 계산 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
L. Teng et al., ‘A bit-level image encryption algorithm based on spatiotemporal chaotic system and self-adaptive,’ Optics Communications 285 (2012) pp.4048-4054 (2012.06.27.) 1부.*
T. Dobhal et al., ‘Human Activity Recognition using Binary Motion Image and Deep Learning,’Procedia Computer Science 58 (2015) pp.178-185 (2015.) 1부.*

Also Published As

Publication number Publication date
US11636575B2 (en) 2023-04-25
US20230229926A1 (en) 2023-07-20
US11893497B2 (en) 2024-02-06
US20220044361A1 (en) 2022-02-10
US20190370940A1 (en) 2019-12-05
US11189015B2 (en) 2021-11-30
KR20190140527A (ko) 2019-12-20

Similar Documents

Publication Publication Date Title
US8582836B2 (en) Face recognition in digital images by applying a selected set of coefficients from a decorrelated local binary pattern matrix
KR102415509B1 (ko) 얼굴 인증 방법 및 장치
KR102516366B1 (ko) 특징 데이터 획득 방법 및 장치
US8103058B2 (en) Detecting and tracking objects in digital images
US6594392B2 (en) Pattern recognition based on piecewise linear probability density function
JP2014041476A (ja) 画像処理装置、画像処理方法及びプログラム
CN109063776B (zh) 图像再识别网络训练方法、装置和图像再识别方法及装置
US10853694B2 (en) Processing input data in a convolutional neural network
CN112805717A (zh) 腹侧-背侧神经网络:通过选择性注意力的对象检测
US20170249957A1 (en) Method and apparatus for identifying audio signal by removing noise
US11176455B2 (en) Learning data generation apparatus and learning data generation method
KR101833943B1 (ko) 동영상의 주요 장면을 추출 및 탐색하는 방법 및 시스템
US10354644B1 (en) System and method for encoding data in a voice recognition integrated circuit solution
KR101583903B1 (ko) Mpeg-7 서술자 처리과정에서의 이미지 필터링 방법 및 장치
CN110659631A (zh) 车牌识别方法和终端设备
Mustafa et al. Obscenity detection using haar-like features and gentle Adaboost classifier
KR100793285B1 (ko) 필터 매트릭스에 의한 영상 노이즈 제거 시스템, 방법 및그 기록매체
KR101853211B1 (ko) 모바일 gpu 환경에서 차영상 정보를 이용한 sift 알고리즘의 복잡도 감소 기법
JP2019220174A (ja) 人工ニューラルネットワークを用いた画像処理
KR20200134813A (ko) 기계 학습을 위한 이미지 처리 장치 및 방법
WO2022141094A1 (zh) 模型生成方法、图像处理方法、装置及可读存储介质
KR20220114209A (ko) 연사 영상 기반의 영상 복원 방법 및 장치
Al-Rawashdeh et al. Creating color image features using local contrast method
CN109961083B (zh) 用于将卷积神经网络应用于图像的方法和图像处理实体
CN108629264B (zh) 用于图像处理的方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant