KR20170134158A - 이미지 내의 물체 인식 시스템 및 방법 - Google Patents

이미지 내의 물체 인식 시스템 및 방법 Download PDF

Info

Publication number
KR20170134158A
KR20170134158A KR1020160117198A KR20160117198A KR20170134158A KR 20170134158 A KR20170134158 A KR 20170134158A KR 1020160117198 A KR1020160117198 A KR 1020160117198A KR 20160117198 A KR20160117198 A KR 20160117198A KR 20170134158 A KR20170134158 A KR 20170134158A
Authority
KR
South Korea
Prior art keywords
network
detected
loss
face
box
Prior art date
Application number
KR1020160117198A
Other languages
English (en)
Inventor
모스타파 엘-카미
아르빈드 예들라
마르셀 나싸르
이정원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20170134158A publication Critical patent/KR20170134158A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06K9/00221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • G06N99/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 리소스 및 연산은 공유함으로써, 하드웨어 영역의 크기를 감소시키고, 파워 소비는 줄일 수 있는 이미지 내의 물체 인식 시스템 및 방법에 관한 것이다. 상기 이미지 내의 물체 인식 시스템은, 입력 이미지 내의 물체를 검출하기 위한 물체 검출 네트워크(object detection network)로서, 상기 물체 검출 네트워크는 상기 검출된 물체를 위한 제1 계층-산정 특징(hierarchical-calculated feature)을 출력하는 제1 계층 컨볼루셔널 신경 네트워크(hierarchical convolutional neural network)를 포함하는 물체 검출 네트워크, 상기 검출된 물체를 위한 상기 제1 계층-산정 특징을 기초로, 정렬 파라미터(alignment parameters)의 회기 손실(regression loss)을 결정하는 페이스 정렬 회기 네트워크(face alignment regression network), 및 상기 검출된 물체를 위한 상기 제1 계층-산정 특징을 기초로, 검출된 박스(detected boxes)의 회기 손실을 결정하는 검출 박스 회기 네트워크(detection box regression network)를 포함하되, 상기 물체 검출 네트워크는, 상기 검출된 물체와 상기 정렬 파라미터의 상기 회기 손실과 상기 검출된 박스의 상기 회기 손실를 위해, 상기 제1 계층-산정 특징에 대한 가중 손실(weighted loss)을 생성하는 가중 손실 생성기(weighted loss generator)와, 상기 생성된 가중 손실을 역전파하는 역전파기(backpropagator)와, 상기 제1 계층-산정 특징을 기초로, 상기 검출된 물체와 상기 정렬 파라미터의 상기 회기 손실과 상기 검출된 박스의 상기 회기 손실을 위해, 적어도 하나의 박스 그룹핑(box grouping)과, 정렬 파라미터 그룹핑(alignment parameter grouping)과, 상기 정렬 파라미터 및 상기 검출된 박스의 비최대 서프레션(non-maximum suppression)을 형성하는 그룹핑 네트워크(grouping network)를 포함한다.

Description

이미지 내의 물체 인식 시스템 및 방법{System and method to recognize objects in an image}
본 발명은 이미지 내의 물체 인식 시스템 및 방법에 관한 것으로, 구체적으로, 물체 인식을 위한 통합된 아키텍처의 다중 처리 딥 러닝 장치에 대한 시스템 및 방법에 관한 것이다.
얼굴 인식(Face detection) 및 얼굴 인증(face verification)에는 연속된 작업을 이용하는 종래의 기술이 이용된다. 이때, 각각의 작업은 순차적으로 수행되며, 각각의 작업을 위해 각각의 분리된 알고리즘이 사용된다. 종래의 접근법은 페이스 크로핑(face cropping)을 수행하고, 이를 얼굴 인식 및 얼굴 인증 작업 사이에 배치하기 위한 비신경망 테크닉(non-neural network techniques)을 사용한다. 다만, 이 경우 상당한 지연 시간이 발생하며, 각각의 서로 다른 네트워크를 위한 상당한 크기의 컴퓨팅 파워와 메모리 자원이 사용된다.
본 발명이 해결하고자 하는 기술적 과제는 리소스 및 연산은 공유함으로써, 하드웨어 영역의 크기를 감소시키고, 파워 소비는 줄일 수 있는 이미지 내의 물체 인식 시스템을 제공하는 것이다.
본 발명이 해결하고자 하는 기술적 과제는 리소스 및 연산은 공유함으로써, 하드웨어 영역의 크기를 감소시키고, 파워 소비는 줄일 수 있는 이미지 내의 물체 인식 방법을 제공하는 것이다.
본 발명이 해결하려는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위한 본 발명의 이미지 내의 물체 인식 시스템의 일 태양(aspect)은, 입력 이미지 내의 물체를 검출하기 위한 물체 검출 네트워크(object detection network)로서, 상기 물체 검출 네트워크는 상기 검출된 물체를 위한 제1 계층-산정 특징(hierarchical-calculated feature)을 출력하는 제1 계층 컨볼루셔널 신경 네트워크(hierarchical convolutional neural network)를 포함하는 물체 검출 네트워크, 상기 검출된 물체를 위한 상기 제1 계층-산정 특징을 기초로, 정렬 파라미터(alignment parameters)의 회기 손실(regression loss)을 결정하는 페이스 정렬 회기 네트워크(face alignment regression network), 및 상기 검출된 물체를 위한 상기 제1 계층-산정 특징을 기초로, 검출된 박스(detected boxes)의 회기 손실을 결정하는 검출 박스 회기 네트워크(detection box regression network)를 포함하되, 상기 물체 검출 네트워크는, 상기 검출된 물체와 상기 정렬 파라미터의 상기 회기 손실과 상기 검출된 박스의 상기 회기 손실를 위해, 상기 제1 계층-산정 특징에 대한 가중 손실(weighted loss)을 생성하는 가중 손실 생성기(weighted loss generator)와, 상기 생성된 가중 손실을 역전파하는 역전파기(backpropagator)와, 상기 제1 계층-산정 특징을 기초로, 상기 검출된 물체와 상기 정렬 파라미터의 상기 회기 손실과 상기 검출된 박스의 상기 회기 손실을 위해, 적어도 하나의 박스 그룹핑(box grouping)과, 정렬 파라미터 그룹핑(alignment parameter grouping)과, 상기 정렬 파라미터 및 상기 검출된 박스의 비최대 서프레션(non-maximum suppression)을 형성하는 그룹핑 네트워크(grouping network)를 포함한다.
상기 과제를 해결하기 위한 본 발명의 이미지 내의 물체 인식 방법의 일 태양은, 입력 이미지 내의 검출된 물체를 위한 제1 계층-산정 특징을 출력하고, 상기 검출된 물체를 위한 상기 제1 계층-산정 특징을 기초로, 정렬 파라미터의 회기 손실을 결정하고, 상기 검출된 물체를 위한 상기 제1 계층-산정 특징을 기초로, 검출된 박스의 회기 손실을 결정하고, 상기 검출된 물체, 상기 정렬 파라미터의 상기 회기 손실, 및 상기 검출된 박스의 상기 회기 손실을 위한, 상기 제1 계층-산정 특징의 가중 손실을 생성하고, 상기 가중 손실을 역전파(backpropagating)하고, 상기 검출된 물체, 상기 정렬 파라미터의 상기 회기 손실, 및 상기 검출된 박스의 상기 회기 손실을 위한 상기 제1 계층-산정 특징을 기초로, 적어도 하나의 박스 그룹핑, 정렬 파라미터 그룹핑, 및 상기 정렬 파라미터 및 상기 검출된 박스의 비최대 서프레션을 형성한다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
도 1은 본 발명의 일 실시예에 따른 얼굴 인식을 위한 이미지 내의 물체 인식 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 얼굴 인식을 위한 이미지 내의 물체 인식 방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 다른 실시예에 따른 얼굴 인식을 위한 이미지 내의 물체 인식 시스템을 설명하기 위한 도면이다.
도 4는 본 발명의 몇몇 실시예에 따른 이미지 내의 얼굴 또는 물체를 인식하기 위한 시스템을 포함하는 하나 이상의 집적 회로(IC) 또는 칩(Chip)을 포함하는 전자기기를 설명하기 위한 도면이다.
도 5는 본 발명의 몇몇 실시예에 따른 이미지 내의 얼굴 또는 물체를 인식하기 위한 시스템을 포함하는 메모리 시스템을 설명하기 위한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
하나의 소자(elements)가 다른 소자와 "접속된(connected to)" 또는 "커플링된(coupled to)" 이라고 지칭되는 것은, 다른 소자와 직접 연결 또는 커플링된 경우 또는 중간에 다른 소자를 개재한 경우를 모두 포함한다. 반면, 하나의 소자가 다른 소자와 "직접 접속된(directly connected to)" 또는 "직접 커플링된(directly coupled to)"으로 지칭되는 것은 중간에 다른 소자를 개재하지 않은 것을 나타낸다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다. "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
비록 제1, 제2 등이 다양한 소자, 구성요소 및/또는 섹션들을 서술하기 위해서 사용되나, 이들 소자, 구성요소 및/또는 섹션들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자, 구성요소 또는 섹션들을 다른 소자, 구성요소 또는 섹션들과 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자, 제1 구성요소 또는 제1 섹션은 본 발명의 기술적 사상 내에서 제2 소자, 제2 구성요소 또는 제2 섹션일 수도 있음은 물론이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 발명은 얼굴 또는 물체를 인식하기 위해 연속적으로 실행되는 종래의 다중 작업을 수행하는 통합 딥러닝 장치(unified deep-learning machine)에 관한 물체 인식 시스템 및 방법에 관한 것이다. 종래에는 물체 검출(object detection), 물체 분류(object classification), 얼굴 탐색(face detection), 얼굴 정렬(face alignment), 얼굴 인식(face identification), 및 얼굴 인증(face verification)의 순차적인 작업들에 분리된 컴퓨팅 장치가 사용되고, 또한, 레버리징 없는 얼굴 인식(face identification)과 같은 연산은 서로 다른 작업에 의해 공유될 수 있었다. 다만, 이러한 종래의 접근은 상당한 동작 지연(operational latency)을 초래하였으며, 상당한 하드웨어 리소스가 소비되었고, 이로 인해, 상당한 파워가 소비되었다.
본 발명은 통합 딥러닝 장치에 의해 수행되는 작업을 제공하되, 상기 작업들은 서로 분리될 수 있으며, 이러한 작업들은 서로 합쳐지거나 보다 큰 작업의 일부가 될 수 있다. 따라서, 본 발명은 다중 작업 딥러닝 장치(multi-task deep-learning machines)와 같이, 각각의 단일 작업의 딥러닝 장치(single-task deep learning machines)가 리소스를 공유하도록 하여, 다중 단일 작업 장치(multiple single-task machines)로써 동작할 수 있다. 예를 들어, 얼굴 검출 네트워크(face detection network)와 페이스 인식 네트워크(face verification network)는 입력 이미지로부터 모두 동일한 계층-산정 특징(hierarchical-calculated features)을 이용한다. 보다 큰 통합 작업의 일부가 되는 각각의 작업을 결합시킴으로써, 동일한 연산은 레버리지되고, 연산 리소스는 공유될 수 있다. 또한, 본 발명의 일 실시예에서, 페이스 인식 네트워크는 제안된 영역을 포함하거나, 얼굴 정렬 네트워크 및 페이스 인식 네트워크에 의해 동작되는 입력 이미지 내에 위치를 지정하여 관심 영역(regions of interest)을 설정할 수 있다. 본 발명은 서로 다른 작업에 대하여 지능적 딥 신경 네트워크 장치(intelligent deep neural network machines)를 트레이닝 시킬 수 있고, 이로써 복수의 장치가 하나의 장치로 통합되어, 리소스 및 연산은 공유되고, 하드웨어 영역의 크기는 절약되며, 파워 소비는 감소될 수 있다.
추가적으로, 종래의 딥러닝 장치는 컴퓨터 서버에서 동작하도록 디자인된 반면, 본 발명의 딥러닝 장치는 전력 소비를 감소시키고, 많은 하드웨어 리소스를 공유하기 위하여, 칩(chip) 상에서 동작되도록 제조될 수 있다. 또한, 다중 레벨 계층 분류는 동일한 통합 아키텍츄럴 프레임워크(unified architectural framework) 내에 집적될 수 있고, 이를 통해, 이용가능한 하드웨어 리소스와 연산 속도가 증가될 수 있다.
도 1은 본 발명의 일 실시예에 따른 얼굴 인식을 위한 이미지 내의 물체 인식 시스템(100)을 설명하기 위한 도면이다.
본 발명의 일 실시예에서, 시스템(100)은 통합 아키텍쳐(unified architecture)와 다중 작업 딥러닝 장치(multi-task deep-learning machine)를 포함한다. 도 1에 도시된 시스템(100)의 각각의 블록은 구성요소, 시스템의 모듈, 또는 이를 대신할 수 있는 동작 방법을 나타낼 수 있다. 본 상세한 설명에서, "모듈(module)"의 용어는 소프트웨어, 펌웨어 및/또는 모듈과 연결되어 여기에서 설명하는 기능을 제공하는 하드웨어의 조합을 나타낼 수 있다. 소프트웨어는 소프웨어 패키지, 코드 및/또는 명령어 셋(instruction set) 또는 명령어(instructions)로써 실시될 수 있다. 본 상세한 설명에서 사용된 "하드웨어"의 용어는 예를 들어, 단일의 또는 어떠한 조합, 하드웨어 연결된 회로, 프로그램된 회로, 장치 회로 및/또는 프로그램가능한 회로에 의해 실행가능한 명령어를 저장하는 펌웨어를 포함할 수 있다. 상기 모듈은 통합적으로 또는 개별적으로 더 큰 시스템의 일부를 형성하는 회로로서 수행될 수 있다. 예를 들어, 집적회로(IC), 시스템-온-칩(SoC)등을 포함할 수 있으나, 본 발명이 이에 한정되는 것은 아니다.
도 1을 참조하면, 시스템(100)은 입력 인터페이스(110)(input interface), 페이스 검출 분류네트워크(120)(face detection classification network), 페이스 정렬 회기 네트워크(130)(face alignment regresson network), 검출 박스 회기 네트워크(140)(detection box regression network), 페이스 정렬 네트워크(150)(face alignment network), 추가 분류 네트워크(160)(extra classification network), 및 페이스 인식 네트워크(170)(face verification network)를 포함한다. 비록 도 1에서 페이스 검출 분류 네트워크(120)를 포함함으로써 얼굴을 인식하기 위한 시스템(100)을 나타내고 있으나, 시스템(100)은 얼굴을 인식하는 것을 대신하여 또는 얼굴을 인식하는 것에 추가하여 물체를 인식할 수 있는 것으로 이해될 수 있다.
본 발명의 일 실시예에서, 페이스 검출 분류 네트워크(120)는 페이스 정렬 회기 네트워크(130) 및/또는 검출 박스 회기 네트워크(140)와 조인트 트레이닝(trained jointly) 될 수 있으며, 이때, 비용 함수(cost function)는 분류 정확성의 가중합(weighted sum of the classification accuracy)이거나, 트레이닝된 키포인트 또는 측정된 키포인트로부터의 유클리디언 거리(Euclidean distances)의 합일 수 있다. 페이스 검출 분류 네트워크(120)는 공유된 컨벌루셔널 계층(shared convolutional layers)를 이용하여 페이스 정렬 회기 네트워크(130) 및/또는 검출 박스 회기 네트워크(140)와 함께 조인트 트레이닝 될 수 있다. 본 발명의 일 실시예에서, 페이스 정렬 회기 네트워크(130)는 얼굴 분류를 위하여 계산한 '특징(features)'을 이용할 수 있고, 높은 개연성을 갖는 검출 박스(detection boxes)를 갖기 위해 특정 영역 상에서 수행될 수 있다.
도 1을 참조하면, 입력 인터페이스(110)는 단일 입력 이미지를 수신할 수 있다. 본 발명의 일 실시예에서, 상기 단일 입력 이미지는 입력 인터페이스(110)에 의해 스케일링 되어, 각각 다른 배율을 갖는 복수의 스케일링된 입력 이미지가 될 수 있고, 이를 통하여, 물체(예를 들어, 얼굴과 같은, 다만 이에 한정되지는 않는)는 입력 이미지 내에서 서로 다른 거리에서 검출될 수 있다.
입력 인터페이스(110)의 출력은, 페이스 검출 분류네트워크(120)의 입력에 커플링될 수 있다. 본 발명의 일 실시예에서, 페이스 검출 분류네트워크(120)는 완전한 컨볼루셔널 신경 네트워크(convolutional neural network; 이하 CNN)가 될 수 있으며, 이는 상기 입력 이미지의 계층 컨볼루셔널 특징(hierarchical convolutional features)을 생성한다. 계층 컨볼루셔널 특징은 픽셀 기반의 확률(pixel-wise probabilities)에 해당할 수 있으며, 이는 피쳐 맵(feature map), 히트 맵(heat map), 또는 이들의 가능성을 형성한다. 이때, 주어진 픽셀은 하나 이상의 관심 물체의 일부에 해당한다. 만약, 얼굴과 같은 오직 하나의 관심 물건만이 있는 경우, 출력 피쳐 맵의 가능성은 관심 얼굴을 포함하는 영역에 대한 확률을 반영하는 이차원의 피쳐 맵(two-dimensional (2D) feature map)으로 형성될 수 있다. 확률을 나타내는 출력에서 피쳐 맵이 관련된 서브영역(corresponding subregion)을 가짐으로써, 복수의 물체를 위한 복수의 물체 분류(multiple object classifications) 또는 관심 영역를 생성하기 위해 상기 출력 피쳐 맵은 확장될 수 있으며, 이때, 관련된 서브 영역은 분류 도메인 내에서 각각의 클래스(respective class)를 가질 수 있다.
복수의 배율(scales) 및/또는 형상비(aspect ratios)를 갖는 서로 다른 슬라이딩 윈도우(Sliding windows)는, 각각의 관심 영역을 위한 확률과 박스 측정치(box estimate)를 결정하기 위하여, 피쳐 맵 상에서 탐색될 수 있다. 입력 이미지의 복수의 배율은, 박스 회기 동작(box regression operation)에 따라 복수의 배율에서 검출을 제공하는 컨볼루셔널 신경 네트워크(convolutional neural network)에 입력될 수 있다. 여기에서, 서로 다른 배율의 슬라이딩 윈도우는 피쳐맵 생성 단계를 더 개선하기 위하여 사용될 수 있다. 게다가, 슬라이딩 윈도우는 임의의 형상을 갖도록 형성될 수 있으며, 이는 특정 관심 물건을 위해 재단될 수 있다.
본 발명의 일 실시예에서, 페이스 검출 분류 네트워크(120)는 선택적 이미지 피라미드 생성기(121)(optional image pyramid generator), 제1 계층 컨볼루셔널 신경 네트워크(122)(hierarchical convolutional neural network; 이하, HCNN), 제1 분류 스코어 생성기(123)(classification score generator), 가중 손실 생성기(124)(weighted loss generator), 가중 손실 역전파기(125)(weighted loss backpropagator), 및 그룹핑 네트워크(126)(grouping network)를 포함한다.
본 발명의 일 실시예에서, 선택적 이미지 피라미드 생성기(121)는 입력 인터페이스(110)로부터 입력 이미지를 수신하고, 상기 입력 이미지를 위한 이미지 피라미드(image pyramids)를 생성한다. 만약, 복수의 스케일링된 이미지가 입력 인터페이스(110)에 의해 생성된 경우, 이미지 피라미드 생성기(121)는 상기 각각의 스케일링된 이미지를 위해 이미지 피라미드를 생성한다. 본 발명의 다른 실시예에서, 이미지 피라미드 생성기(121)는 각각 서로 다른 비율을 갖는 복수의 스케일링된 입력 이미지를 생성하기 위해 상기 입력 이미지를 스케일링할 수 있고, 이를 통해, 물체(예를 들어, '얼굴'일 수 있으나, 이에 한정되지 않는다)는 상기 입력 이미지 내의 서로 다른 거리에서 발견될 수 있다.
제1 HCNN(122)는 입력 인터페이스(110) 또는 선택적 이미지 피라미드 생성기(121)로부터(만약, 존재한다면) 직접 입력 이미지를 수신하고, 계층 컨볼루셔널 특징을 생성한다. 본 발명의 일 실시예에서, 제1 HCNN(122)는 적어도 두개의 계층을 포함한다. 만약, 복수의 스케일링된 입력 이미지가 제1 HCNN(122)에 의해 수신된다면, 계층 컨볼루셔널 특징은 각각의 스케일링된 이미지를 위해 생성된다. 만약, 이미지 피라미드 생성기(121)에 의해 이미지 피라미드가 생성되는 경우, 제1 HCNN(122)는 각각의 이미지 피라미드를 위한 계층 컨볼루셔널 특징을 생성한다.
계층 컨볼루셔널 특징은 제1 분류 스코어 생성기(123), 페이스 정렬 회기 네트워크(130), 및 검출 박스 회기 네트워크(140)에 동시에 출력된다. 상기 제1 분류 스코어 생성기(123)는 입력 이미지를 위하여 생성된 각각의 계층 컨볼루셔널 특징을 위한, 또는 또는 서로 다른 모양과 스케일을 갖는 각각의 계층 컨볼루셔널 특징과 연관된 앵커 셋(set of anchors)을 위한 분류 스코어(classification score)를 결정한다.
페이스 정렬 회기 네트워크(130)는, 제1 HCNN(122)에 의해 생성된 계층 컨볼루셔널 특징을 이용하여, 정렬 파라미터를 위한 회기 손실(regression loss)을 결정한다. 상기 정렬 파라미터는 키포인트(keypoint), 틸트 앵글(tilt angle), 및/또는 아핀 변환 파라미터(affine transformation parameter)를 포함할 수 있으나, 본 발명이 이에 한정되지 않는다. 상기 회기 손실은 검출된 키포인트 및 트레이닝된 키포인트를 기초로, 유클리디언 거리를 최소화하기 위하여 트레이닝될 수 있다. 페이스 정렬 회기 네트워크(130)는, 오직 관심 지역의 키포인트만을 위해 탐색될 수 있고, 이는 다차원 피쳐 맵(multi-dimensional feature map)의 각각의 클래스를 위한 높은 응답(high response)을 제공하는 마지막 컨볼루셔널 계층(last convolutional layer)의 특징 영역과 연관될 수 있다. 그렇지 않으면, 관심 영역은 피쳐 맵 상의 앵커와 연관된 영역일 수 있고, 상기 영역에서 높은 물체 확률(high object probability)을 나타내는 높은 응답을 제공할 수 있다. 트레이닝 컨버젼스(training convergence)를 보장하기 위해, 본 발명의 네트워크의 일 실시예는, 이미지마다 단일 물체를 갖도록 이미지를 트레이닝 시키고, 정확히 주석을 다는(annotated) 키포인트 측정 계층(the keypoint estimation layers)을 생성한다. 페이스 정렬 회기 네트워크(130)는 임의의 크기를 갖는 입력 이미지를 미세조정할 수 있다. 동일 물체에 대한 복수의 키포인트 탐색은, 각각의 클래스마다 키포인트를 처리하고, 할당된 스코어에 의해 발생하는 분류 문제를 최소화하기 위해 손실 기능(loss function)을 설정하고, 동일 클래스의 키포인트를 조합한다.
얼굴 인식에 대하여, 키포인트(keypoints)는 눈, 코, 왼쪽 입꼬리, 오른쪽 입꼬리, 및 얼굴의 다른 포인트들을 나타낼 수 있고, 이는 얼굴을 둘러싸는 단순한 박스보다 얼굴을 대표할 수 있다. 이러한 키포인트는 얼굴의 크기뿐만 아니라, 얼굴의 틸트 앵글, 얼굴의 윤곽(정면 또는 측면의 윤곽과 같은)과 같은 정보를 전달할 수 있다. 얼굴의 측면 윤곽은 높은 확률로 한쪽 눈만 포함하는 경우가 많을 수 있다. 또한, 틸트 앵글과 같은 다른 정렬 파라미터는 트레이닝 셋의 주석(annotation)에 의해 나타날 수 있다.
본 발명의 일 실시예에서, 페이스 정렬 회기 네트워크(130)는 W 아핀 변환(affine transformation W)를 직접 배울수 있다. W 아핀 변환의 구성요소는 트레이닝 셋으로부터 계산될 수 있고, 네트워크는 W의 구성요소를 찾기 위해 트레이닝될 수 있다. W의 정렬은 완전히 연결된 다른 계층에 의해 달성될 수 있고, 이는 W 아핀 기능(affine function)의 변환을 나타내며, 결과적으로 관심 영역의 2차원 와이핑 변환(two-dimensional warping transformation)을 나타낸다. 다중 스케일링 동작의 키(Key)는 정렬 회기를 위한 비용 기능(cost function)일 수 있고, 정렬된 파라미터 뿐만 아니라 그들의 분류 스코어 사이의 유클리디안 거리의 가중 평균일 수 있다. 이렇게 함으로써, 다중 스케일에서 검출된 키포인트에 적용될 비최대 서프레션(non-maximum suppression)을 적용시킬 뿐만 아니라, 낮은 분류 스코어를 가지는 키포인트를 제거할 수 있다.
이와 다르게, 정렬 파라미터 회기 계층(alignment parameter regression layer)은 서로 다른 스케일에서 검출 박스의 비최대 서프레션 이후의 영역과 관련된 피쳐 맵 영역 상에만 적용될 수 있다. 본 발명의 일 실시예에서, 정렬 계층은 관심 영역과 관련된 피쳐 맵의 패치(patches)에만 적용될 수 있다. 트레이닝 과정은 테스크 셋의 주석에 의존할 수 있다. 만약, 키포인트 또는 탐색 박스의 주석이 정렬 및 비정렬 이미지 모두를 위해 존재하는 경우, 정렬 계층은 키포인트 회기 계층이 트레이닝 된 이후에 추가될 수 있으며, 이후 네트워크는 아핀 변환을 수행하기 위해 양단이 미세조정될 수 있다. 본 발명의 다른 실시예에서, 키포인트 회기 계층과 정렬 계층 모두는 동시에 트레이닝될 수 있고, 이때, 정렬 계층의 그래디언트(gradients)를 키포인트 회기 계층에 역전파함(back propagating)으로써, 풀 네트워크(full network)는 양단에서 트레이닝될 수 있으며, 물체 분류를 위해 사용된 피쳐 맵 계산 계층(feature map calculation layers)에 역전파될 수 있다.
본 발명의 일 실시예에서, 검출 박스 회기 네트워크(140)는 제1 HCNN(122)에 의해 생성된 계층 컨볼루셔널 특징을 이용하여, 바운딩 박스 파라미터(bounding box parameters)를 위해 회기 손실을 결정할 수 있다. 검출 박스 회기 네트워크(140)는 박스의 모서리들을 네개의 키포인트를 이용해 처리할 수 있으며, 이는 페이스 정렬 회기 네트워크(130)가 키포인트를 처리하는 것과 유사할 수 있다. 또한, 검출 박스 회기 네트워크(140)는, 서로 다른 클래스의 키포인트로써 다중 스케일링을 처리하고, 각각의 키포인트에 스코어를 할당하여 분류 문제를 최소화하기 위한 손실 기능을 설정함으로써, 임의의 크기를 갖는 입력 이미지를 미세조정할 수 있다.
제1 분류 스코어 생성기(123), 페이스 정렬 회기 네트워크(130), 및 검출 박스 회기 네트워크(140)는 제1 HCNN(122)의 출력에 동시에 동작할 수 있다.
페이스 정렬 회기 네트워크(130), 제1 분류 스코어 생성기(123), 및 검출 박스 회기 네트워크(140)에 의해 생성된 각각의 출력은, 페이스 검출 분류 네트워크(120)의 가중 손실 생성기(124)에 동시에 입력된다. 가중 손실 생성기(124)는, 페이스 정렬 회기 네트워크(130)의 출력의 가중 손실, 제1 분류 스코어 생성기(123)의 출력의 가중 손실, 및 검출 박스 회기 네트워크(140)의 가중 손실을 결정하기 위하여, 페이스 정렬 회기 네트워크(130), 제1 분류 스코어 생성기(123), 및 검출 박스 회기 네트워크(140)로부터 수신한 세개의 출력을 이용한다. 본 발명의 일 실시예에서, 회기 네트워크를 트레이닝하기 위해 이용될 수 있는 다중 작업 손실 기능(multi-task loss function)은 다음과 같다.
Figure pat00001
(1)
여기에서,
Figure pat00002
는 트레이닝 데이터의 미니-배치(mini-batch) 내에서 앵커의 인덱스를 나타내고,
Figure pat00003
Figure pat00004
는 각각
Figure pat00005
레벨 클래스의 확률 매스 기능(probability mass function)과 그들의 바운딩 박스 좌표를 나타내고,
Figure pat00006
는 정렬 및 아핀 변환 파라미터와 같이,
Figure pat00007
에 의해 측정된
Figure pat00008
레벨에서의 모든 파라미터를 나타낸다. 이때,
Figure pat00009
레벨에서의 트레이닝 손실 기능은 다중 손실 기능의 가중합으로써 표현될 수 있고, 분류 손실 기능(classfication loss function), 지역 손실 기능(localization loss function), 및 정렬 회기 손실 기능(alignment regression loss functions)으로써 표현될 수 있다. 각각의 서로 다른 손실 기능의 비중은, 하이퍼 파라미터
Figure pat00010
Figure pat00011
에 의해 표현될 수 있다.
또한,
Figure pat00012
Figure pat00013
레벨에서의 지상 실측 클래스(ground truth class)이고,
Figure pat00014
는 관련된 실측(corresponding truth)의 바운딩 박스 좌표(bounding box coordinates)이다. 예를 들어, 0-레벨에서
Figure pat00015
는 '물체 또는 비물체'를 가르키고, 1-레벨 및 2-레벨에서
Figure pat00016
는 각각 '차 브랜드'와 같은 제2 클래스 분류(second class classification)가 될 수 있다. 방정식 (1)의 우변에 위치하는
Figure pat00017
는 분류 손실(classification loss)을 나타내고, 이는 x의 확률 질량 함수(probability mass function) p 에 대한 방정식
Figure pat00018
에 의해 도출된 소프트맥스 손실(softmax loss)에 의해 계산될 수 있다. 방정식 (1)의 우변에 위치하는
Figure pat00019
는 바운딩 박스 회기 손실(bounding box regression loss)을 나타내고, 이는 실측 클래스를 위해 예측된 박스 좌표 및 실측 박스 좌표의 함수이다.
정위 오류(localization error)인
Figure pat00020
는 일반적으로, 좌표들 사이의 유클리디언 거리의 총합 또는 각각의 좌표상에 로버스트 스무드
Figure pat00021
-놈(robust smoothed
Figure pat00022
-norm)에 의해 주어진다. 방정식 (1)의 최종 파라미터 손실(last parameter loss)인
Figure pat00023
은, 정렬 파라미터(alignment parameters,)와 같은 추가적인 구성요소의 실측 파라미터와 계산된 파라미터 사이의 오류를 나타내고, 일반적으로
Figure pat00024
손실에 의해 도출된다. 이와 반대로, 이러한 손실 함수는, 관련 키포인트로부터의 분류 스코어(classification score)와 거리 메트릭(distance metric)의 가중 평균(weighted average)으로 나타날 수 있다. 이러한 상반되는 접근방법을 통하여, 작은 분류 가중치를 갖는 키포인트는 이상점(outlier)으로 고려되며, 따라서 제거될 수 있다.
페이스 정렬 회기 네트워크(130)의 출력의 가중 손실, 제1 분류 스코어 생성기(123)의 출력의 가중 손실, 및 검출 박스 회기 네트워크(140)의 출력의 가중 손실은 가중 손실 역전파기(125)에 의해 역전파된다. 본 발명의 다른 실시예에서, 단일 계층(레벨)에서의 분류 스코어는 다중 단계 트레이닝(multistage training)의 몇몇 형태에서 역전파(backpropagation)를 위해 사용될 수 있다. 또는 이와 반대로, 다중 계층의 서브셋은 다중 단계 트레이닝에 결합된 역전파에 사용될 수 있고, 이때, 오직 첫번째의 두 레벨로부터의 손실은 제1 스테이지의 트레이닝에 사용될 수 있다(예를 들어, 제1 스테이지에서 i={1,2}에 대한 총합). 예를 들어, 제1 스테이지에서 제1 레벨의 분류 스코어는 정확히 물체(예를 들어, 차, 사람, 배경)를 식별할 수 있고, 제2 레벨의 분류 스코어는 브랜드 또는 모델(예를 들어, '포드 머스탱(Ford Mustang)'인 차, 남성 또는 여성인 사람)에 대한 물체 클래스를 분류할 수 있다. 추가적으로, 계층은 '2002형 빨간색 포드 머스탱'인 차나, '이름을 알거나 혹은 모르는 사람'을 분류할 수 있다.
그룹핑 네트워크(126)는 역전파 가중 손실을 사용하고, 정렬 파라미터 그룹핑(alignment parameter grouping), 박스 그룹핑(box grouping), 정렬 파라미터와 검출된 박스의 비최대 서프레션(non-maximum suppression; NMS)을 수행한다. 정렬 파라미터 그룹과, 정렬 파라미터 및 검출된 박스의 비최대 서프레션은, 페이스 정렬 회기 네트워크(130)의 출력을 미세 조정하는데 사용되기 위하여, 페이스 정렬 회기 네트워크(130)에 입력된다. 그룹핑 네트워크(126)의 박스 그룹핑의 출력은, 검출 박스 회기 네트워크(140)에 의해 생성된 회기 손실을 미세 조정하기 위해, 검출 박스 회기 네트워크(140)에 입력된다. 추가적으로, 서로 다른 특징의 패치(patches), 서로 다른 크기 또는 서로 다른 목적의 영역으로부터의 키포인트는, 클러스터링 또는 비최대 서프레션을 이용하여 결합될 수 있다. 다중 스케일된 비정렬 이미지를 위해 이는 중요할 수 있으며, 분류 스코어는 비정렬 비스케일링의 이미지 영역에서 트레이닝 셋에서 정렬된 '눈'의 키포인트와 얼마만큼 관련있는 '눈'에 대한 키포인트에 해당하는지를 나타내고, 이를 통해 비최대 서프레션이 허락될 수 있다. 정면화(frontalization)와 같이 더욱 개선된 정렬을 위하여, 정렬 변환(alignment transformation)은 컨볼루셔널 방법으로 이미지에 적용될 수 있다. 다만, 다른 방식의 변환은 이미지 내에서 다른 위치로 인식될 수 있게 한다. 이러한 상황에서, 다른 아핀 변환(affine transformation)은 이미지의 서로 다른 영역에 적용되고, 인식되며, 각각의 스트라이드(stride) 또는 스트라이드의 셋(set of strides)을 위한 서로 다른 가중치를 갖는 구체적인 스트라이드을 갖는 슬라이딩 필터 커널(sliding filter kernel)을 이용하여 실행될 수 있다.
본 발명의 일 실시예에서, 그룹핑 네트워크(126)의 출력은 페이스 인식 네트워크(170)에 직접 입력될 수 있다. 본 발명의 다른 실시예에서, 그룹핑 네트워크(126)의 출력은 페이스 정렬 네트워크(150)에 입력될 수 있다. 페이스 정렬 네트워크(150)는 검출된 얼굴을 정렬하기 위해, 그룹핑 네트워크(126)의 출력으로 이용된다.
페이스 정렬 네트워크(150)로부터 정렬되고 검출된 출력은, 추가 분류 네트워크(160)에 입력될 수 있다. 추가 분류 네트워크(160)는 제2 계층 컨볼루셔널 신경 네트워크(161) 및 제2 분류 스코어 생성기(162)를 포함할 수 있다. 제2 계층 컨볼루셔널 신경 네트워크(161)는 제2 계층 컨볼루셔널 특징을 생성하기 위해, 정렬된 출력 영역에 사용된다. 제2 분류 스코어 생성기(162)는 다음 분류 레벨 계층(예를 들어, 얼굴, 차 브랜드, 및 차 모델에 대한 이름)에 분류 스코어를 생성한다. 제2 분류 스코어 생성기(162)에서 생성된 분류 스코어는 가중 손실 생성기(124)의 출력을 미세 조정하기 위하여, 가중 손실 생성기(124)로 출력된다.
본 발명의 일 실시예에서, 다중 계층 클래스는 제1 분류 네트워크(예를 들어, 페이스 검출 분류 네트워크(120))에 의해 처리될 수 있고, K 클래스의 하나에 소속된 물체로 분류될 수 있다. 검출된 물체의 정렬 이후, 각각의 이러한 클래스는 Nj 서브 클래스(이때, Nj >> K)로 더 분류되기 위하여 요구될 수 있다. 본 발명의 일 실시예는, 제1 계층의 클래스 내에서 사람과 차가 모두 분류될 수 있고, 더 나아가 제2 계층의 클래스에서는 사람의 이름과 차의 모델까지 인식될 수 있다. '어떠한 특징'은 관심 물체에 대한 가치있는 정보를 가질 수 있기 때문에, 제1 계층 클래스로 분류되어 계산된 특징은, 계산과 리소스를 공유하기 위해 사용할 수 있다.
더 구체적으로, 본 발명의 다른 실시예 따른 네트워크는 정렬 이후 변환된 특징을 더 이용할 수 있고, 제1 물체 분류 네트워크에 의해 획득된 특징 맵의 선택된 패치(patches)의 정렬 계층에 의해, 변환이 수행될 수 있다. 최종 특징 맵의 서로 다른 패치는 서로 다른 변환 및 아핀 변환의 대상이 될 수 있다. 컨볼루셔널 계층은 현존하는 특징의 맨 위에 존재하는 정제된 특징을 더 계산하기 위해 추가될 수 있다. 본 발명의 일 실시예 따른 새로운 인식 계층을 위한 네트워크 트레이닝은, 제안된 영역, 박스 검출, 키포인트 회기, 정렬 계층, 및 추가적 계층의 미세 조정까지의 네트워크 가중치의 정지를 포함할 수 있다. 이는, 패치 선택 및 정렬 계층이, 추가적인 분류를 수행하기 전에 이미 올바른 정렬 및 물체 패치로 수렴하였음을 나타낸다. 분류 계층을 트레이닝한 이후, 트레이닝의 제2 단계에서, 전체 네트워크는 양단이 미세조정될 수 있다.
추가적 분류 네트워크는 최종 완전 연결 계층(final fully connected layers)을 갖기 위해 형성될 수 있다. 최종 완전 연결 계층은 유사 메트릭 또는 최소 교차-엔트로피 손실을 최대화하기 위해 트레이닝될 수 있다. 이러한, 최종 완전 연결 계층은 디멘젼 감소 및 인증 계층으로 이후에 교체될 수 있고, 이는 동일한 또는 서로 다른 클래스를 구분하고, 디멘젼을 감소시키기 위한 다른 아핀 변환을 수행하기 위해 트레이닝될 수 있다. 인증 계층의 트레이닝은 추가적 분류 네트워크의 계산을 멈춤으로써 종료될 수 있고, 이어서, 전체 네트워크의 양단을 미세조정될 수 있다. 이러한 경우에서, 손실 그래디언트(loss gradients)는, 디멘젼 감소 및 인증 계층에서부터 추가적 분류 계층, 정렬 계층, 키포인트 회기 계층 및 더 높은 레벨의 분류 계층까지 역전파될 수 있다. 동작 시간 동안, 인증 계층의 출력은, 추가 인증 메트릭 연산을 위한 특징을 제공하고, 서브 클래스 또는 구체적 클래스을 나타내는 가능성을 직접 제공할 수 있다. 제2 분류 스코어 생성기(162)의 출력은, 비차별적 메트릭(discriminative metrics)의 네트워크를 트레이닝하기 위해, 페이스 인식 네트워크(170)에 입력될 수 있다.
도 2는 본 발명의 일 실시예에 따른 얼굴 인식을 위한 이미지 내의 물체 인식 방법을 설명하기 위한 순서도이다.
비록 도 2를 참조하여 얼굴 인식을 위한 방법(200)을 설명하나, 방법(200)은 얼굴 인식과 다르게 물체 인식을 위한 동작으로 이해될 수 있으며, 또한, 얼굴 인식을 위한 동작이 추가될 수 있다. 방법(200)은 컴퓨터에서 실행되는 방법일 수 있으며, 실행하는 경우 방법(200)의 동작을 수행하는 명령어가 저장된 유형의 컴퓨터에서 인식 가능한 기록매체일 수 있다.
201 단계에서, 시스템은 단일 입력 이미지를 수신한다. 본 발명의 일 실시예에서, 입력 이미지는 각각 서로 다른 크기를 갖는 다중 스케일된 입력 이미지를 생성하기 위해 스케일링될 수 있고, 이를 통해, 물체(예를 들어, '얼굴'과 같은, 다만, 이에 한정되지 않는다)는 상기 입력 이미지 내의 서로 다른 거리에서 검출될 수 있다.
202 단계에서, 시스템은 입력 이미지로부터 이미지 피라미드(image pyramid)를 생성한다. 만약 다중 스케일된 이미지가 201 단계에서 생성되는 경우, 이미지 피라미드는 각각의 스케일된 이미지를 위해 생성된다. 202 단계는 선택적으로 수행될 수 있다. 따라서, 본 발명의 방법(200)은 202 단계를 생략하고, 201 단계에서 203 단계로 바로 넘어갈 수 있다.
203 단계에서, 시스템은 계층 컨벌루셔널 특징(hierarchical convolutional features)을 생성한다. 만약, 이미지 피라미드가 생성되는 경우, 계층 컨벌루셔널 특징은 각각의 이미지 피라미드를 위해 생성될 수 있다. 방법(200)은 203 단계 이후에, 204 단계, 205 단계, 및 206 단계를 동시에 수행할 수 있다.
204 단계에서, 시스템은 계층 컨벌루셔널 특징을 기초로, 정렬 파라미터를 위한 회기 손실(regression loss)을 결정한다. 205 단계에서, 시스템은 각각의 계층 컨벌루셔널 특징을 위해 또는 서로 다른 모양을 갖는 각각의 계층 컨벌루셔널 특징과 관련된 앵커 셋(set of anchors)을 위해 분류 스코어(classification score)를 결정하고, 계층 컨벌루셔널 특징을 기초로 스케일링한다. 206 단계에서, 시스템은 계층 컨벌루셔널 특징을 기초로 바운딩 박스 파라미터(bounding box parameters)를 위해 회기 손실(regression loss)을 결정한다. 204 단계, 205 단계, 및 206 단계는 동시에 수행될 수 있다.
207 단계에서, 시스템은 제1 분류 스코어 생성기(123)의 출력에 대한 가중 손실(weighted loss), 페이스 정렬 회기 네트워크(130)의 출력에 대한 가중 손실, 및 검출 박스 회기 네트워크(140)의 출력에 대한 가중 손실을 결정한다. 208 단계에서, 시스템은 가중 손실을 역전파(back propagates)한다.
209 단계에서, 시스템은 정렬 파라미터를 그룹화하고, 박스를 그룹화하며, 정렬 파라미터및 검출된 박스의 비최대 서프레션(non-maximum suppression)을 수행한다. 상기 정렬 파라미터의 비최대 서프레션은 204 단계에서의 정렬 파라미터를 위한 회기 손실을 미세조정하는데 이용된다. 상기 검출된 박스의 비최대 서프레션은 바운딩 박스 파라미터를 위한 회기 손실을 미세조정하는데 이용된다.
시스템은 210 단계의 입력 이미지 내의 관심 영역의 출력에 정렬 파리미터 그룹핑을 적용한다. 211 단계에서 시스템은 입력 이미지를 위해 추가 계층 컨벌루셔널 특징을 결정한다. 212 단계에서, 시스템은 차후 레벨 분류 계층(subsequent level classification hierarchy)(예를 들어, 얼굴의 이름, 또는 차의 브랜드 또는 모델) 상의 분류 스코어를 결정한다. 상기 차후 레벨 분류 스코어는 207 단계에서 물체 분류의 가중 손실을 미세조정하는데 이용된다. 213 단계에서, 시스템은 비차별 메트릭(discriminative metrics)을 이용하는 인증 네트워크(verification network)를 트레이닝하기 위해, 차후 레벨 분류 계층을 사용한다.
도 3은 본 발명의 다른 실시예에 따른 얼굴 인식을 위한 이미지 내의 물체 인식 시스템을 설명하기 위한 도면이다.
본 발명의 일 실시예에서, 시스템(300)은 단일 아키텍쳐(unified architecture) 및 다중 작업 딥러닝 장치(multi-task deep-learning machine)를 포함한다. 도 3에 나타난, 시스템(300)의 각각의 블럭은 구성요소 및/또는 시스템의 모듈, 또는 이와 반대로 방법의 동작을 나타낼 수 있다. 도 3에 나타난 것처럼, 시스템(300)은 입력 인터페이스(310)(input interface), 페이스 검출 분류 네트워크(320)(face detection classification network), 정렬 파라미터 회기 네트워크(330)(alignment parameter regresson network), 바운딩 박스 회기 네트워크(340)(bounding box regression network), 관심 영역 풀러(350)(Region of Interest(RoI) Pooler), 아핀 변환 네트워크(360)(affine transformation network), 신경 특징 확장 네트워크(370)(neural feature extraction network; FEN)를 포함한다. 비록, 도 3에 나타난 시스템(300)은 페이스 검출 분류 네트워크(320)를 이용함으로써 얼굴 인식을 위한 동작을 하는 것을 설명하고 있으나, 본 발명이 이에 한정되는 것은 아니며, 이와 반대로 시스템(300)은 물체 인식을 위한 동작을 하거나, 추가적으로 얼굴 인식을 위한 동작을 수행할 수 있다.
입력 인터페이스(310)는 단일 입력 이미지를 수신할 수 있다. 본 발명의 일 실시예에서, 단일 입력 이미지는 각각 다른 크기를 갖는 다중 스케일된 입력 이미지를 생성하기 위해, 입력 인터페이스(310)에 의해 스케일링 될 수 있다. 따라서, 물체(단, 이에 한정되지 않고 얼굴을 포함하는)는, 도 1을 참조하여 설명한 시스템(100)의 입력 인터페이스(110)에 입력되는 것과 유사한 입력 이미지 내의 서로 다른 거리에서 검출될 수 있다.
입력 인터페이스(310)의 출력은 페이스 검출 분류 네트워크(320)의 입력에 연결될 수 있다. 본 발명의 일 실시예에서, 페이스 검출 분류 네트워크(320)는 CNN(321), 영역 제안 네트워크(322)(Region Proposal Network; RPN), 및 분류 스코어 생성기(323)(classification score generator)를 포함할 수 있다. 입력 인터페이스(310)의 출력은 CNN(321)의 입력에 연결될 수 있다. 본 발명의 일 실시예에서, 정확한 정렬은 불필요하며, 비록 테스트하는 동안 정렬된 이미지를 사용하더라도 성능은 개선될 수 있다. 추가적으로, 본 발명의 일 실시예에서, 1:1 및 3:2 종횡비는 원래의 RPN(322) 내에서 예상될 수 있고, 5 배율이 예상될 수 있다. 본 발명의 일 실시예에서, RPN(322)은 얼굴의 위치와 연관된 바운딩 박스 후보군을 제공한다. 본 발명의 일 실시예에서, RPN(322)은 정렬 예측(alignment prediction)을 포함한다. 본 발명의 일 실시예에서, 영역 제안 네트워크(322)는 얼굴이 검출되었는지 여부(예를 들어, 얼굴이 포함되는지 아닌지)를 결정할 수 있다. CNN(321)의 출력은 관심 영역 풀러(350)에 연결될 수 있다.
RPN(322)의 출력은 동시에 분류 스코어 생성기(323)(classification score generator), 정렬 파라미터 회기 네트워크(330)(alignment parameter regression network), 및 바운딩 박스 회기 네트워크(340)(bounding box regression generator)에 연결될 수 있다. 본 발명의 일 실시예에서, 분류 스코어 생성기(323)는 바운딩 박스가 얼굴을 포함하는지 아닌지를 결정하기 위해 각각의 바운딩 박스를 위한 컨피던스 스코어(confidence score)를 출력한다.
정렬 파라미터 회기 네트워크(330)는 특정 배율에서 정렬된 이미지의 템플릿을 맞추는데사용하는 회전 각도(θ)와 배율(s)을 예측할 수 있다. 본 발명의 일 실시예에서, 정렬 파라미터 회기 네트워크(330)는 각각의 바운딩 박스에 대한 회전 각도, 배율, 변환 파라미터를 계산한다. 바운딩 박스 회기 네트워크(340)는 바운딩 박스 회기값(bounding box regression)을 생성할 수 있다. 본 발명의 일 실시예에서, 바운딩 박스 회기 네트워크(340)는, 더 나은 위치를 위해 RPN(322)에서 제안한 바운딩 박스의 모양 및 크기를 업데이트한다.
분류 스코어 생성기(323)와, 바운딩 박스 회기 네트워크(340)의 출력은 관심 영역 풀러(350)에 연결될 수 있고, 이는 관심 영역의 그룹(group) 또는 풀(pool)일 수 있다. 본 발명의 일 실시예에서, 관심 영역 풀러(350)는 각각의 바운딩 박스에 포함된 특징을 추출할 수 있다. 정렬 파라미터 회기 네트워크(330)의 출력과 관심 영역 풀러(350)의 출력은 아핀 변환 네트워크(360)에 연결된다. 본 발명의 일 실시예에서, 아핀 변환 네트워크(360)는 최초 입력 이미지를 대신하여 특징 맵(feature maps) 상에 정렬을 수행할 수 있다. 예를 들어, 아핀 변환 네트워크(360)는 각각의 바운딩 박스 내의 특징을 위한 적정 변환(예를 들어, 배율 및 회전 등)을 수행할 수 있다. 아핀 변환 네트워크(360)는 다음에 주어진 방정식 (2)을 이용하여 아핀 변환(affine transformation)을 수행할 수 있다.
Figure pat00025
(2)
이와 다르게, 배율 및 회전은 변환의 동일성에 따라 예측될 수 있고, 다음에 주어진 방정식 (3)을 이용하여 정렬 변환이 수행될 수 있다.
Figure pat00026
(3)
여기에서, 파라미터 a, b, tx, 및 ty는 검출된 키포인트 상의 적어도 하나의 사각형 핏(squares fit)을 이용하여 계산될 수 있다. 파라미터 a 및 b는 스케일된 회전 파라미터와 관련되고, tx, 및 ty는 변환 파라미터와 관련된다. 본 발명의 일 실시예에서, 서로 다른 얼굴을 위한 서로 다른 정렬 파라미터가 존재할 수 있다. 본 발명의 다른 실시예에서, 얼굴 정면화(face frontalization) 뿐만 아니라 정렬을 위하여, 정면화 얼굴 템플릿에 맞추기 위한 동일한 얼굴의 서로 다른 위치를 위해 서로 다른 정렬 파라미터가 계산할 수 있다.
본 발명의 일 실시예에서, 신경 특징 확장 네트워크(370)는 각각의 바운딩 박스로부터 특징을 추출하기 위해 사용될 수 있다. 소프트맥스 계층(380)은 트레이닝을 위해 사용된 사람들의 클래스와 관련된 각각의 바운딩 박스를 위한 확률 분포(probability distribution)를 계산할 수 있다. 본 발명의 일 실시예에서, 트리플렛 손실(390)(triplet loss)은, 동일한 사람에 속한 바운딩 박스의 특징들이 그와 다른 사람에 속한 바운딩 박스의 특징에 상반됨으로써, 서로에게 인접함을 보장할 수 있다.
도 4는 본 발명의 몇몇 실시예에 따른 이미지 내의 얼굴 또는 물체를 인식하기 위한 시스템을 포함하는 하나 이상의 집적 회로(IC) 또는 칩(Chip)을 포함하는 전자기기를 설명하기 위한 도면이다.
도 4를 참조하면, 본 발명의 몇몇 실시예에 따른 전자 기기(400)는, 이미지 내의 물체 및/또는 얼굴을 인식하기 위한 시스템을 갖는 하나 이상의 집적 회로(IC Chips)를 포함한다. 전자 장치(400)는 컴퓨터 장치, PDA, 랩탑 컴퓨터, 모바일 컴퓨터, 웹 태블릿, 무선 통신 장치, 핸드폰, 스마트폰, 디지털 음악 플레이어, 또는 유선/무선 전자 장치를 포함하나, 본 발명이 이에 한정되는 것은 아니다. 전자 장치(400)는 컨트롤러(410), 입출력 장치(420)(예를 들어, 키패드, 키보드, 디스플레이 또는 터치 스크린 디스플레이와 같은 장치, 다만, 이에 한정되지 않는다), 메모리(430), 무선 인터페이스(440), 및 이들을 서로 각각 연결해주는 버스(450)를 포함한다. 예를 들어, 컨트롤러(410)는 적어도 하나의 마이크로프로세서, 적어도 하나의 디지털 신호 프로세서, 적어도 하나의 마이크로컨트롤러 또는 이와 유사한 구성요소를 포함할 수 있다. 메모리(430)는 사용자 데이터 또는 컨트롤러(410)에 의해 사용될 수 있는 커맨드 코드(command code)를 저장할 수 있다. 전자 장치(400) 및 전자 장치(400)를 포함하는 다양한 시스템 구성요소는, 앞에서 설명한 바와 같이 이미지 내에서 '얼굴' 및/또는 '물체'를 인식하기 위한 시스템을 포함할 수 있다.
전자 장치(400)는 RF 신호를 이용하는 무선 통신 네트워크로부터 데이터를 수신하거나 데이터를 전송하기 위한 무선 인터페이스(440)를 사용할 수 있다. 예를 들어, 무선 인터페이스(440)는 안테나, 무선 트랜시버 및 그 밖에 구성요소를 포함할 수 있다. 전자 장치(400)는 통신 시스템의 통신 인터페이스 프로토콜 내에서 이용될 수 있고, 상기 통신 시스템은, CDMA(Code Division Multiple Access), GSM(Global System for Mobile Communications), NADC(North American Digital Communications), E-TDMA(Extended Time Division Multiple Access), WCDMA(Wideband CDMA), CDMA2000, Wi-Fi, Muni Wi-Fi(Municipal Wi-Fi), 블루투스(Bluetooth), DECT(Digital Enhanced Cordless Telecommunications) 무선 USB(Wireless Universal Serial Bus), Flash-OFDM(Fast low-latency access with seamless handoff Orthogonal Frequency Division Multiplexing), IEEE 802.20, GPRS(General Packet Radio Service), 아이버스트(iBurst), 와이브로(Wireless Broadband; WiBro), WiMAX, WiMAX-Advanced, UMTS-TDD (Universal Mobile Telecommunication Service - Time Division Duplex), HSPA(High Speed Packet Access), EVDO(Evolution Data Optimized), LTE-Advanced(Long Term Evolution - Advanced), MMDS(Multichannel Multipoint Distribution Service) 등을 포함할 수 있으나 ,본 발명이 이에 한정되는 것은 아니다.
도 5는 본 발명의 몇몇 실시예에 따른 이미지 내의 얼굴 또는 물체를 인식하기 위한 시스템을 포함하는 메모리 시스템을 설명하기 위한 도면이다.
도 5를 참조하면, 메모리 시스템(500)은, 앞에서 설명한 방법에 기초하여, 이미지 내의 얼굴 및/또는 물체를 인식하기 위한 시스템을 포함할 수 있다. 메모리 시스템(500)은 큰 규모의 데이터를 저장하기 위한 메모리 장치(510) 및 메모리 컨트롤러(520)를 포함할 수 있다. 메모리 컨트롤러(520)는 메모리 장치(510) 내에 저장된 데이터를 읽어오거나 호스트(530)의 읽기/쓰기 요청에 응답하여 메모리 장치(510)에 데이터를 쓰기 위해, 메모리 장치(510)를 제어할 수 있다. 메모리 컨트롤러(520)는 호스트(530)(예를 들어, 모바일 장치 또는 컴퓨터 시스템)로부터 제공된 주소를 메모리 장치(510)의 물리적 주소에 맵핑하기 위한 어드레스 맵핑 테이블(address-mapping table)을 포함할 수 있다. 메모리 장치(510)는, 앞에서 설명한 방법에 기초하여, 이미지 내의 '얼굴' 및/또는 '물체'를 인식하기 위한 시스템을 포함하는 하나 이상의 반도체 장치를 포함할 수 있다.
이상 첨부된 도면을 참조하여 마그네틱 접합을 제공하기 위한 방법 및 시스템, 그리고 앞에서 설명한 마그네틱 접합을 이용하여 제조된 메모리를 설명하였다. 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
110: 입력 인터페이스 120: 페이스 검출 분류네트워크
130: 페이스 정렬 회기 네트워크 140: 검출 박스 회기 네트워크
150: 페이스 정렬 네트워크 160: 추가 분류 네트워크
170: 페이스 인식 네트워크

Claims (10)

  1. 입력 이미지 내의 물체를 검출하기 위한 물체 검출 네트워크(object detection network)로서, 상기 물체 검출 네트워크는 상기 검출된 물체를 위한 제1 계층-산정 특징(hierarchical-calculated feature)을 출력하는 제1 계층 컨볼루셔널 신경 네트워크(hierarchical convolutional neural network)를 포함하는 물체 검출 네트워크;
    상기 검출된 물체를 위한 상기 제1 계층-산정 특징을 기초로, 정렬 파라미터(alignment parameters)의 회기 손실(regression loss)을 결정하는 페이스 정렬 회기 네트워크(face alignment regression network); 및
    상기 검출된 물체를 위한 상기 제1 계층-산정 특징을 기초로, 검출된 박스(detected boxes)의 회기 손실을 결정하는 검출 박스 회기 네트워크(detection box regression network)를 포함하되,
    상기 물체 검출 네트워크는,
    상기 검출된 물체와 상기 정렬 파라미터의 상기 회기 손실과 상기 검출된 박스의 상기 회기 손실를 위해, 상기 제1 계층-산정 특징에 대한 가중 손실(weighted loss)을 생성하는 가중 손실 생성기(weighted loss generator)와,
    상기 생성된 가중 손실을 역전파하는 역전파기(backpropagator)와,
    상기 제1 계층-산정 특징을 기초로, 상기 검출된 물체와 상기 정렬 파라미터의 상기 회기 손실과 상기 검출된 박스의 상기 회기 손실을 위해, 적어도 하나의 박스 그룹핑(box grouping)과, 정렬 파라미터 그룹핑(alignment parameter grouping)과, 상기 정렬 파라미터 및 상기 검출된 박스의 비최대 서프레션(non-maximum suppression)을 형성하는 그룹핑 네트워크(grouping network)를 포함하는 이미지 내의 물체 인식 시스템.
  2. 제1 항에 있어서,
    상기 물체는, 얼굴(face)을 포함하는 이미지 내의 물체 인식 시스템.
  3. 제2 항에 있어서,
    상기 정렬 파라미터는, 하나 이상의 키포인트(keypoint), 틸트 앵글(tilt angle), 및 아핀 변환 파라미터(affine transformation parameter)를 포함하는 이미지 내의 물체 인식 시스템.
  4. 제1 항에 있어서,
    상기 물체 검출 네트워크는, 컨볼루셔널 신경 네트워크(convolutional neural network)를 포함하는 이미지 내의 물체 인식 시스템.
  5. 제1 항에 있어서,
    상기 가중 손실 생성기는, 상기 검출된 박스 및 상기 정렬 파라미터의 상기 비최대 서프레션을 기초로, 상기 정렬 파라미터를 위한 상기 회기 손실을 미세 조정하는 이미지 내의 물체 인식 시스템.
  6. 제1 항에 있어서,
    상기 가중 손실 생성기는 상기 박스 그룹핑을 기초로, 상기 검출된 박스를 위한 상기 회기 손실을 미세 조정하는 이미지 내의 물체 인식 시스템.
  7. 제1 항에 있어서,
    상기 검출된 물체를 위해 상기 제1 계층-산정 특징을 수신하는 제1 분류 스코어 생성기(classification score generator)를 더 포함하되,
    상기 제1 분류 스코어 생성기는, 상기 검출된 물체를 위한 상기 제1 계층-산정 특징으로부터, 입력 요소(input element)를 위한 제1 분류 스코어를 결정하는 이미지 내의 물체 인식 시스템.
  8. 제7 항에 있어서,
    상기 입력 이미지의 출력 영역에 상기 정렬 파라미터 그룹핑을 수행하는 정렬기(aligner)와,
    상기 입력 이미지의 상기 정렬된 출력 영역으로부터, 제2 계층-산정 특징을 생성하는 제2 계층 컨볼루셔널 신경 네트워크와,
    상기 입력 이미지의 상기 정렬된 출력 영역으로부터, 상기 제2 계층-산정 특징을 기초로, 후속 레벨 분류 계층(subsequent level classification hierarchy) 상에 상기 물체의 후속 레벨 분류 스코어(subsequent level classification score)를 생성하는 제2 분류 스코어 생성기와,
    상기 물체의 상기 후속 레벨 분류 스코어를 이용하여 트레이닝(trained)되는 인증 네트워크(verification network)를 더 포함하는 이미지 내의 물체 인식 시스템.
  9. 제8 항에 있어서,
    상기 물체 검출 네트워크, 상기 페이스 정렬 회기 네트워크, 상기 검출 박스 회기 네트워크, 상기 정렬기, 상기 제1 분류 스코어 생성기, 상기 제2 계층 컨볼루셔널 신경 네트워크, 상기 제2 분류 스코어 생성기, 및 상기 인증 네트워크 중 둘 이상은, 동시에 하나 이상의 동적인 계산에 대한 조인트 트레이닝(joint training) 및 조인트 쉐어링(joint sharing)을 제공하는 이미지 내의 물체 인식 시스템.
  10. 제1 항에 있어서,
    상기 계층 컨볼루셔널 신경 네트워크는, 복수의 입력 이미지 내에서, 상기 검출된 물체 각각을 위한, 관련 계층-산정 특징(corresponding hierarchical-calculated features)을 더 출력하되,
    상기 복수의 입력 이미지는, 상기 입력 이미지로부터 서로 다른 크기로 각각 스케일링되는 이미지 내의 물체 인식 시스템.
KR1020160117198A 2016-05-28 2016-09-12 이미지 내의 물체 인식 시스템 및 방법 KR20170134158A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662342945P 2016-05-28 2016-05-28
US62/342,945 2016-05-28
US15/224,487 2016-07-29
US15/224,487 US10032067B2 (en) 2016-05-28 2016-07-29 System and method for a unified architecture multi-task deep learning machine for object recognition

Publications (1)

Publication Number Publication Date
KR20170134158A true KR20170134158A (ko) 2017-12-06

Family

ID=60418826

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160117198A KR20170134158A (ko) 2016-05-28 2016-09-12 이미지 내의 물체 인식 시스템 및 방법

Country Status (2)

Country Link
US (3) US10032067B2 (ko)
KR (1) KR20170134158A (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063112A (zh) * 2018-07-30 2018-12-21 成都快眼科技有限公司 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法
KR101953752B1 (ko) * 2018-05-31 2019-06-17 주식회사 뷰노 심층 신경망을 이용하여 영상의 분류 및 국소화를 수행하는 방법 및 이를 이용한 장치
KR20190085464A (ko) * 2018-01-10 2019-07-18 삼성전자주식회사 이미지 처리 방법 및 이를 수행하는 장치들
WO2019231104A1 (ko) * 2018-05-31 2019-12-05 주식회사 뷰노 심층 신경망을 이용하여 영상을 분류하는 방법 및 이를 이용한 장치
KR20190142856A (ko) * 2018-06-19 2019-12-30 전자부품연구원 데이터 증분 기반 강인한 객체 인지 방법 및 시스템
KR20200036079A (ko) 2018-09-18 2020-04-07 전남대학교산학협력단 적응적 비최대억제 방법을 이용하는 딥러닝기반 영상객체 탐지를 위한 장치 및 방법
KR20200075704A (ko) * 2018-12-13 2020-06-26 수아랩 (쑤저우) 씨오., 엘티디 어노말리 디텍션
KR20220025524A (ko) 2020-08-24 2022-03-03 경기대학교 산학협력단 심층 신경망을 이용한 장면 그래프 생성 시스템

Families Citing this family (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726560B2 (en) * 2014-10-31 2020-07-28 Fyusion, Inc. Real-time mobile device capture and generation of art-styled AR/VR content
US10719939B2 (en) * 2014-10-31 2020-07-21 Fyusion, Inc. Real-time mobile device capture and generation of AR/VR content
US10275935B2 (en) 2014-10-31 2019-04-30 Fyusion, Inc. System and method for infinite synthetic image generation from multi-directional structured image array
US10262426B2 (en) 2014-10-31 2019-04-16 Fyusion, Inc. System and method for infinite smoothing of image sequences
US11006095B2 (en) 2015-07-15 2021-05-11 Fyusion, Inc. Drone based capture of a multi-view interactive digital media
US10242474B2 (en) 2015-07-15 2019-03-26 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US11095869B2 (en) 2015-09-22 2021-08-17 Fyusion, Inc. System and method for generating combined embedded multi-view interactive digital media representations
US10852902B2 (en) 2015-07-15 2020-12-01 Fyusion, Inc. Automatic tagging of objects on a multi-view interactive digital media representation of a dynamic entity
US10147211B2 (en) 2015-07-15 2018-12-04 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US10222932B2 (en) 2015-07-15 2019-03-05 Fyusion, Inc. Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations
US11783864B2 (en) 2015-09-22 2023-10-10 Fyusion, Inc. Integration of audio into a multi-view interactive digital media representation
US11202017B2 (en) 2016-10-06 2021-12-14 Fyusion, Inc. Live style transfer on a mobile device
US10366302B2 (en) * 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
US10380741B2 (en) * 2016-12-07 2019-08-13 Samsung Electronics Co., Ltd System and method for a deep learning machine for object detection
US10748062B2 (en) * 2016-12-15 2020-08-18 WaveOne Inc. Deep learning based adaptive arithmetic coding and codelength regularization
US10437879B2 (en) 2017-01-18 2019-10-08 Fyusion, Inc. Visual search using multi-view interactive digital media representations
US10861184B1 (en) * 2017-01-19 2020-12-08 X Development Llc Object pose neural network system
US10313651B2 (en) 2017-05-22 2019-06-04 Fyusion, Inc. Snapshots at predefined intervals or angles
US11410330B2 (en) * 2017-05-30 2022-08-09 Edx Technologies, Inc. Methods, devices, and systems for determining field of view and producing augmented reality
US11069147B2 (en) 2017-06-26 2021-07-20 Fyusion, Inc. Modification of multi-view interactive digital media representation
US10303956B2 (en) * 2017-08-23 2019-05-28 TuSimple System and method for using triplet loss for proposal free instance-wise semantic segmentation for lane detection
KR102602117B1 (ko) * 2017-10-26 2023-11-13 매직 립, 인코포레이티드 딥 멀티태스크 네트워크들에서 적응적 손실 밸런싱을 위한 그라디언트 정규화 시스템들 및 방법들
CN108154093B (zh) * 2017-12-13 2022-03-01 北京小米移动软件有限公司 人脸信息识别方法及装置、电子设备、机器可读存储介质
CN108122003A (zh) * 2017-12-19 2018-06-05 西北工业大学 一种基于深度神经网络的弱小目标识别方法
CN110248861B (zh) 2018-01-07 2023-05-30 辉达公司 在车辆操纵过程中使用机器学习模型来引导车辆
CN108269254B (zh) * 2018-01-17 2020-12-01 百度在线网络技术(北京)有限公司 图像质量评估方法和装置
CN108108723A (zh) * 2018-01-19 2018-06-01 深圳市恩钛控股有限公司 一种基于深度学习的人脸特征提取方法
WO2019152888A1 (en) 2018-02-02 2019-08-08 Nvidia Corporation Safety procedure analysis for obstacle avoidance in autonomous vehicle
CN108491856B (zh) * 2018-02-08 2022-02-18 西安电子科技大学 一种基于多尺度特征卷积神经网络的图像场景分类方法
CN111133447B (zh) * 2018-02-18 2024-03-19 辉达公司 适于自主驾驶的对象检测和检测置信度的方法和系统
US11282389B2 (en) * 2018-02-20 2022-03-22 Nortek Security & Control Llc Pedestrian detection for vehicle driving assistance
WO2019168869A1 (en) 2018-02-27 2019-09-06 Nvidia Corporation Real-time detection of lanes and boundaries by autonomous vehicles
US20190279082A1 (en) * 2018-03-07 2019-09-12 Movidius Ltd. Methods and apparatus to determine weights for use with convolutional neural networks
CN108446617B (zh) * 2018-03-09 2022-04-22 华南理工大学 抗侧脸干扰的人脸快速检测方法
CN108509862B (zh) * 2018-03-09 2022-03-25 华南理工大学 抗角度与遮挡干扰的快速人脸识别方法
US11537139B2 (en) 2018-03-15 2022-12-27 Nvidia Corporation Determining drivable free-space for autonomous vehicles
CN108549927A (zh) * 2018-03-16 2018-09-18 深圳市商汤科技有限公司 物体检测网络的训练方法和特征监督图生成方法
CN108664886A (zh) * 2018-03-20 2018-10-16 广东电网有限责任公司清远供电局 一种适应变电站进出监控需求的人脸快速识别方法
WO2019182974A2 (en) 2018-03-21 2019-09-26 Nvidia Corporation Stereo depth estimation using deep neural networks
WO2019183758A1 (en) * 2018-03-26 2019-10-03 Intel Corporation Methods and apparatus for multi-task recognition using neural networks
WO2019191306A1 (en) 2018-03-27 2019-10-03 Nvidia Corporation Training, testing, and verifying autonomous machines using simulated environments
US11379516B2 (en) 2018-03-29 2022-07-05 Google Llc Similar medical image search
CN108647583B (zh) * 2018-04-19 2022-02-22 浙江大承机器人科技有限公司 一种基于多目标学习的人脸识别算法训练方法
US10592747B2 (en) 2018-04-26 2020-03-17 Fyusion, Inc. Method and apparatus for 3-D auto tagging
CN108573246B (zh) * 2018-05-08 2022-04-05 北京工业大学 一种基于深度学习的时序动作识别方法
CN109031262B (zh) * 2018-06-05 2023-05-05 鲁忠 一种定位寻车系统及其方法
US11966838B2 (en) 2018-06-19 2024-04-23 Nvidia Corporation Behavior-guided path planning in autonomous machine applications
US10878270B1 (en) * 2018-06-26 2020-12-29 Amazon Technologies, Inc. Keypoint-based multi-label word segmentation and localization
CN110660037B (zh) * 2018-06-29 2023-02-10 京东方科技集团股份有限公司 图像间脸部交换的方法、装置、系统和计算机程序产品
US11126649B2 (en) * 2018-07-11 2021-09-21 Google Llc Similar image search for radiology
EP3814984B1 (en) 2018-07-29 2024-04-17 Zebra Medical Vision Ltd. Systems and methods for automated detection of visual objects in medical images
CN109377498B (zh) * 2018-08-31 2021-08-20 大连理工大学 基于循环神经网络的交互式抠图方法
US11948340B2 (en) 2018-09-07 2024-04-02 Intel Corporation Detecting objects in video frames using similarity detectors
US11589031B2 (en) * 2018-09-26 2023-02-21 Google Llc Active stereo depth prediction based on coarse matching
CN109508654B (zh) * 2018-10-26 2021-01-05 中国地质大学(武汉) 融合多任务和多尺度卷积神经网络的人脸分析方法及系统
US10438082B1 (en) * 2018-10-26 2019-10-08 StradVision, Inc. Learning method, learning device for detecting ROI on the basis of bottom lines of obstacles and testing method, testing device using the same
CN109492583A (zh) * 2018-11-09 2019-03-19 安徽大学 一种基于深度学习的车辆重识别方法
CN113569798B (zh) * 2018-11-16 2024-05-24 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
US11610115B2 (en) 2018-11-16 2023-03-21 Nvidia Corporation Learning to generate synthetic datasets for training neural networks
CN109598290A (zh) * 2018-11-22 2019-04-09 上海交通大学 一种基于两级检测相结合的图像小目标检测方法
CN109492614A (zh) * 2018-11-29 2019-03-19 上海道枢信息技术有限公司 一种基于安防视频识别面部特征的方法及系统
CN109815814B (zh) * 2018-12-21 2023-01-24 天津大学 一种基于卷积神经网络的人脸检测方法
JP7105918B2 (ja) * 2018-12-27 2022-07-25 富士フイルム株式会社 領域特定装置、方法およびプログラム
US11170299B2 (en) 2018-12-28 2021-11-09 Nvidia Corporation Distance estimation to objects and free-space boundaries in autonomous machine applications
WO2020140049A1 (en) 2018-12-28 2020-07-02 Nvidia Corporation Distance to obstacle detection in autonomous machine applications
DE112019006468T5 (de) 2018-12-28 2021-10-14 Nvidia Corporation Erkennung des abstands zu hindernissen bei anwendungen mit autonomen maschinen
CN109740552A (zh) * 2019-01-09 2019-05-10 上海大学 一种基于平行特征金字塔神经网络的目标跟踪方法
CN109829491B (zh) * 2019-01-22 2021-09-28 开易(北京)科技有限公司 用于图像检测的信息处理方法、装置以及存储介质
US10410120B1 (en) * 2019-01-25 2019-09-10 StradVision, Inc. Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
WO2020163390A1 (en) 2019-02-05 2020-08-13 Nvidia Corporation Driving lane perception diversity and redundancy in autonomous driving applications
US11648945B2 (en) 2019-03-11 2023-05-16 Nvidia Corporation Intersection detection and classification in autonomous machine applications
CN110059554B (zh) * 2019-03-13 2022-07-01 重庆邮电大学 一种基于交通场景的多支路目标检测方法
CN110046554B (zh) * 2019-03-26 2022-07-12 青岛小鸟看看科技有限公司 一种人脸对齐方法和相机
US11074479B2 (en) 2019-03-28 2021-07-27 International Business Machines Corporation Learning of detection model using loss function
CN110033424A (zh) * 2019-04-18 2019-07-19 北京迈格威科技有限公司 图像处理的方法、装置、电子设备及计算机可读存储介质
CN110175546B (zh) * 2019-05-15 2022-02-25 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110136828A (zh) * 2019-05-16 2019-08-16 杭州健培科技有限公司 一种基于深度学习实现医学影像多任务辅助诊断的方法
US11514713B2 (en) * 2019-05-31 2022-11-29 Apple Inc. Face quality of captured images
CN110276274B (zh) * 2019-05-31 2023-08-04 东南大学 一种多任务的深度特征空间姿态人脸识别方法
CN110222780B (zh) * 2019-06-12 2021-06-11 北京百度网讯科技有限公司 物体检测方法、装置、设备和存储介质
CN110390350B (zh) * 2019-06-24 2021-06-15 西北大学 一种基于双线性结构的层级分类方法
CN110458005B (zh) * 2019-07-02 2022-12-27 重庆邮电大学 一种基于多任务渐进配准网络的旋转不变人脸检测方法
CN110399809A (zh) * 2019-07-08 2019-11-01 北京亮亮视野科技有限公司 多特征融合的人脸关键点检测方法及装置
CN110517224A (zh) * 2019-07-12 2019-11-29 上海大学 一种基于深度神经网络的光伏板缺陷检测方法
CN110309816B (zh) * 2019-07-12 2021-06-11 南京邮电大学 一种由粗到精的新生儿面部检测方法与系统
CN110543815B (zh) * 2019-07-22 2024-03-08 平安科技(深圳)有限公司 人脸识别模型的训练方法、人脸识别方法、装置、设备及存储介质
CN110263774B (zh) * 2019-08-19 2019-11-22 珠海亿智电子科技有限公司 一种人脸检测方法
CN110659572B (zh) * 2019-08-22 2022-08-12 南京理工大学 基于双向特征金字塔的视频动作检测方法
CN110490158B (zh) * 2019-08-23 2021-12-24 安徽大学 一种基于多级模型的鲁棒人脸对齐方法
DE112020004139T5 (de) 2019-08-31 2022-05-12 Nvidia Corporation Erstellung von karten und lokalisierung für anwendungen im bereich des autonomen fahrens
CN110705566B (zh) * 2019-09-11 2021-07-13 浙江科技学院 一种基于空间金字塔池的多模态融合显著性检测方法
CN110991230B (zh) * 2019-10-25 2023-08-11 湖北富瑞尔科技有限公司 基于旋转候选框的任意方向遥感影像舰船检测方法及系统
CN110852321B (zh) * 2019-11-11 2022-11-22 北京百度网讯科技有限公司 候选框过滤方法、装置以及电子设备
CN111178261B (zh) * 2019-12-30 2023-05-16 武汉恩智电子科技有限公司 一种基于视频编码技术的人脸检测加速方法
CN111310616B (zh) * 2020-02-03 2023-11-28 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
JP2022522551A (ja) * 2020-02-03 2022-04-20 ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 画像処理方法及び装置、電子機器並びに記憶媒体
CN113222105A (zh) * 2020-02-05 2021-08-06 百度(美国)有限责任公司 元协作训练范式
CN111507378A (zh) * 2020-03-24 2020-08-07 华为技术有限公司 训练图像处理模型的方法和装置
US11997728B1 (en) * 2020-03-27 2024-05-28 ANDRO Computation Solutions Multi-task learning neural network framework for RF spectrum sensing and classification
CN113536834A (zh) * 2020-04-14 2021-10-22 华为技术有限公司 眼袋检测方法以及装置
CN111523452B (zh) * 2020-04-22 2023-08-25 北京百度网讯科技有限公司 用于检测图像中人体位置的方法和装置
CN113592874A (zh) * 2020-04-30 2021-11-02 杭州海康威视数字技术股份有限公司 图像显示方法、装置和计算机设备
CN113673272B (zh) * 2020-05-13 2023-04-28 北京君正集成电路股份有限公司 一种基于宠物检测的双层标注二级级联计算损失值的方法
CN113673271B (zh) * 2020-05-13 2023-04-28 北京君正集成电路股份有限公司 一种基于宠物检测的双层标注计算二级损失的方法
CN111652138B (zh) * 2020-06-03 2024-04-09 济南博观智能科技有限公司 戴口罩人脸识别方法、装置、设备及存储介质
CN112115970B (zh) * 2020-08-12 2023-03-31 南京理工大学 一种基于层次回归的轻量级图像探测农业驱鸟方法及系统
US11978266B2 (en) 2020-10-21 2024-05-07 Nvidia Corporation Occupant attentiveness and cognitive load monitoring for autonomous and semi-autonomous driving applications
CN112257809B (zh) * 2020-11-02 2023-07-14 浙江大华技术股份有限公司 目标检测网络优化方法和装置、存储介质及电子设备
KR20220069385A (ko) * 2020-11-20 2022-05-27 한국전자기술연구원 고속 후처리가 가능한 딥러닝 장치
CN112329740B (zh) * 2020-12-02 2021-10-26 广州博冠信息科技有限公司 图像处理方法、装置、存储介质和电子设备
CN112529095B (zh) * 2020-12-22 2023-04-07 合肥市正茂科技有限公司 一种基于卷积区域重配准的单阶段目标检测方法
CN112699837A (zh) * 2021-01-13 2021-04-23 新大陆数字技术股份有限公司 一种基于深度学习的手势识别方法及设备
WO2022198526A1 (en) * 2021-03-24 2022-09-29 Nec Corporation Methods, devices and computer readable media for image processing
CN113139441A (zh) * 2021-04-07 2021-07-20 青岛以萨数据技术有限公司 一种图像处理方法及系统
US11887381B2 (en) * 2021-04-30 2024-01-30 New Eagle, Llc Use of HCNN to predict lane lines types
US11868443B1 (en) * 2021-05-12 2024-01-09 Amazon Technologies, Inc. System for training neural network using ordered classes
US11909975B2 (en) * 2021-06-18 2024-02-20 Tencent America LLC Dependent scalar quantization with substitution in neural image compression
KR102656662B1 (ko) * 2021-07-14 2024-04-12 한국전자통신연구원 리셉티브 필드의 차이 정보를 활용한 딥러닝 기반 키포인트 검출 장치 및 방법
CN113822171A (zh) * 2021-08-31 2021-12-21 苏州中科先进技术研究院有限公司 一种宠物颜值评分方法、装置、存储介质及设备
CN113808753B (zh) * 2021-09-11 2023-09-26 中南大学 基于多损失的分解表达学习预测辅助放化疗疗效的方法
CN114202654B (zh) * 2022-02-17 2022-04-19 广东皓行科技有限公司 一种实体目标的模型构建方法、存储介质和计算机设备
CN114418901B (zh) * 2022-03-30 2022-08-09 江西中业智能科技有限公司 基于Retinaface算法的图像美颜处理方法、系统、存储介质及设备
CN114565064B (zh) * 2022-04-26 2022-07-15 心鉴智控(深圳)科技有限公司 多任务学习深度网络的识别方法、系统及设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8582807B2 (en) 2010-03-15 2013-11-12 Nec Laboratories America, Inc. Systems and methods for determining personal characteristics
US9275308B2 (en) * 2013-05-31 2016-03-01 Google Inc. Object detection using deep neural networks
KR20160083127A (ko) * 2013-11-30 2016-07-11 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 얼굴 이미지 인식 방법 및 시스템
EP3149611A4 (en) 2014-05-27 2017-08-09 Beijing Kuangshi Technology Co., Ltd. Learning deep face representation
US9400918B2 (en) 2014-05-29 2016-07-26 Beijing Kuangshi Technology Co., Ltd. Compact face representation
US9418319B2 (en) * 2014-11-21 2016-08-16 Adobe Systems Incorporated Object detection using cascaded convolutional neural networks
GB2549554A (en) * 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190085464A (ko) * 2018-01-10 2019-07-18 삼성전자주식회사 이미지 처리 방법 및 이를 수행하는 장치들
KR101953752B1 (ko) * 2018-05-31 2019-06-17 주식회사 뷰노 심층 신경망을 이용하여 영상의 분류 및 국소화를 수행하는 방법 및 이를 이용한 장치
WO2019231104A1 (ko) * 2018-05-31 2019-12-05 주식회사 뷰노 심층 신경망을 이용하여 영상을 분류하는 방법 및 이를 이용한 장치
KR20190142856A (ko) * 2018-06-19 2019-12-30 전자부품연구원 데이터 증분 기반 강인한 객체 인지 방법 및 시스템
CN109063112A (zh) * 2018-07-30 2018-12-21 成都快眼科技有限公司 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法
CN109063112B (zh) * 2018-07-30 2022-04-01 成都快眼科技有限公司 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法
KR20200036079A (ko) 2018-09-18 2020-04-07 전남대학교산학협력단 적응적 비최대억제 방법을 이용하는 딥러닝기반 영상객체 탐지를 위한 장치 및 방법
KR20200075704A (ko) * 2018-12-13 2020-06-26 수아랩 (쑤저우) 씨오., 엘티디 어노말리 디텍션
KR20220025524A (ko) 2020-08-24 2022-03-03 경기대학교 산학협력단 심층 신경망을 이용한 장면 그래프 생성 시스템

Also Published As

Publication number Publication date
US20180307897A1 (en) 2018-10-25
US10635891B2 (en) 2020-04-28
US10032067B2 (en) 2018-07-24
US20170344808A1 (en) 2017-11-30
US20200202109A1 (en) 2020-06-25
US11645869B2 (en) 2023-05-09

Similar Documents

Publication Publication Date Title
KR20170134158A (ko) 이미지 내의 물체 인식 시스템 및 방법
US11367272B2 (en) Target detection method, apparatus, and system
WO2022213879A1 (zh) 目标对象检测方法、装置、计算机设备和存储介质
CN111079570B (zh) 一种人体关键点识别方法、装置及电子设备
WO2020051114A9 (en) Information detection method, apparatus and device
US20120321140A1 (en) Method and apparatus for local binary pattern based facial feature localization
CN106407311A (zh) 获取搜索结果的方法和装置
CN111652250B (zh) 基于多边形的遥感影像建筑物提取方法、装置及存储介质
CN110096929A (zh) 基于神经网络的目标检测
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
WO2014209746A1 (en) Depth camera system with machine learning for recognition of patches within a structured light pattern
TW201546636A (zh) 註解顯示器輔助裝置及輔助方法
US10031947B2 (en) Method and apparatus for performing a search operation on heterogeneous computing systems
US11941838B2 (en) Methods, apparatuses, devices and storage medium for predicting correlation between objects
CN102272774A (zh) 用于提供面部姿态估计的方法、装置和计算机程序产品
Chli et al. Active matching for visual tracking
CN110428473B (zh) 一种基于辅助变量的对抗生成网络的彩色图像灰度化方法
TW202127312A (zh) 影像處理方法及存儲介質
JP2006260311A (ja) マッチング方法およびマッチング装置ならびにプログラム
US10810468B2 (en) System for training descriptor with active sample selection
US9286544B2 (en) Methods and apparatuses for facilitating object recognition
CN111291611A (zh) 一种基于贝叶斯查询扩展的行人重识别方法及装置
CN110717405A (zh) 人脸特征点定位方法、装置、介质及电子设备
JP6365117B2 (ja) 情報処理装置、画像判定方法、及びプログラム
CN111091022A (zh) 机器视觉的效能评估方法与系统

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right